臺師大大陸口音中文大詞彙連續語音辨識系統 - 語音文件檢索 - 使用機器學習方法於語音文件檢索之研究

5. 語音文件檢索

5.2 臺師大大陸口音中文大詞彙連續語音辨識系統

臺師大大陸口音中文大詞彙連續語音辨識系統，主要區分為前端處理(Front-end Processing)、聲學模型(Acoustic Model)、詞典建立(Lexicon Construction)、語言模型(Language Model)以及詞彙樹複製搜尋(Tree-copy Search)等，章節 5.2.1 至 5.2.4 將分別對這五個部份做簡介。臺師大大陸口音中文大詞彙連續語音辨識系統之正確率如表 5.2。

正確率(%) CH WD

TreeCopySearch (2-gram) 61.38 41.71 TDT-2

WordGraphRescoring (3-gram) 62.29 41.82 TreeCopySearch (2-gram) 57.40 38.61 TDT-3

WordGraphRescoring (3-gram) 58.48 38.82 表 5.2 臺師大大陸口音中文大詞彙連續語音辨識器之正確率

5.2.1 前端處理(Front-end Processing)

在本論文中使用梅爾倒頻譜係數特徵作為語音訊號的特徵參數。在求取梅爾倒頻

譜係數特徵時，將語音資料切割成一連串部分重疊的音框，每一個音框由 13 維的梅爾倒頻譜係數特徵加上其一階與二階的時間軸導數(Time Derivatives)所形成的 39 維聲學特徵向量所組成。其中 13 維的梅爾倒頻譜係數特徵是由 18 個梅爾頻譜上濾波器組(Filter Banks)的輸出經餘弦轉換求得。同時，為了降低通道效應對語音辨識的影響，在此使用倒頻譜平均消去法(Ceptral Mean Subtraction, CMS)。

5.2.2 聲學模型(Acoustic Model)

本論文使用由左至右連續密度隱藏式馬可夫模型(left-to-right CDHMM)，其中有 112 個右相關(Right-context-dependent, RCD)聲母模型(INITIAL)、41 個前後音不相關(Context-independent, CI)韻母模型(FINAL)及 1 個靜音模型(silence)，共 154 聲韻母個(INITIAL-FINAL)。而每個模型的狀態數分別為 3 至 6 個不等，每一個狀態皆為獨立的高斯混合分布模型(Gaussian Mixture Model, GMM)，其中每個高斯混合分布的個數分別為 1 至 128 個不等。由這 151 個聲韻母模型共可構成 408 個不考慮聲調的基本音節(Toneless Base-syllable)。

5.2.3 詞典建立(Lexicon construction)

由於 Dragon 的詞典取得不易，本論文以 2 萬 4 千詞的 LDC 中文詞典為基礎，再加入由 Dragon 語音辨識器所辨識的文件中抽取出的新詞彙，構成包含了 5 萬 1 千多詞的詞典。

5.2.4 詞彙樹複製搜尋(Tree-copy Search)

本系統的大詞彙連續語音辨識方法是採用由左至右(Left-to-right)、音框同步 (Frame-synchronous)的詞彙樹複製搜尋方式 [Aubert 2002]。在詞彙樹中每個分枝 (Arc)代表一個 INITIAL 或 FINAL 的隱藏式馬可夫模型，由樹根(Root)到任一個樹梢(Leaf)的路徑代表一個詞或一些發音相同的詞，路徑上的分枝就是代表這個

詞或這些詞會使用到的隱藏式馬可夫模型。具體來說，所採用的詞彙樹複製搜尋演算法，搜尋時每個音框會同時存在數棵詞彙樹複製(Tree Copies)，每個詞彙樹代表不同的語言模型歷史或限制(Language Model History or Constraint)。實際上，搜尋時產生的不完全路徑(Partial Paths)如果擁有相同的語言模型歷史會被歸類在同一棵詞彙樹複製裡，進行隱藏式馬可夫模型狀態層次(State-level)維特比動態規劃搜尋。在每個音框中，若有不完全路徑已抵達樹梢時，代表一個完整詞已可被產生；同時，不同棵詞彙樹複製間已抵達樹梢的不完全路徑，若具有相同的語言模型歷史，則會進行再結合(Recombination)，保留最大分數者，並以它們的語言模型歷史為標註，產生新的一棵詞彙樹複製，或加入到一棵已存在且具有相同語言模型歷史的詞彙數複製中。

值得注意的是，在實作時並不需要真的建立如此多的詞彙樹複製，僅需建立一棵詞彙樹作為搜尋時路徑展開參考之用即可，並分別記錄搜尋時存活下來的隱藏式馬可夫模型狀態節點(也就是不完全路徑目前拜訪到的節點)的相關資訊。另一方面，由於存活的隱藏式馬可夫模型狀態節點可能會隨音框數呈指數倍增加，

因此必須以光束剪裁(Beam Pruning) 技術適當地剪裁分數較低的狀態節點或不完全路徑。在執行剪裁動作時會同時考量每一個詞彙樹複製內部狀態節點 (Internal Node)下涵蓋的可能拜訪樹梢節點代表之所有詞對應的語言模型機率，

並以其中最大者當做每一個詞彙樹複製內部狀態節點的語言模型前看分數 (Language Model Look-ahead Score) [Aubert 2002]，再加上內部狀態節點本身搜尋 時所累積的解碼分數(Decoding Score)及聲學前看分數 [Chen et al. 2004, 2005]

當成剪裁比較的依據。

在本系統採用詞單連語言模型前看 (Word Unigram Language Model Look-ahead)技術，對每一個詞彙樹複製內部狀態節點，會以其所在分枝(或隱藏式馬可夫模型)之可能拜訪樹梢節點中具最大詞單連語言模型機率，做為該內部狀態節點的語言模型前看分數。此外，在每個音框，會記錄存活的詞彙樹複製樹梢節點中分數較高者的相關資訊(這些樹梢節點本身代表著可能的候選詞)，諸如

它們的語言模型歷史、對應候選詞開始與結束的音框以及搜尋時聲學解碼的分數，然後再依此資訊建立起一個詞圖。並在詞圖上使用更高階的語言模型，如詞三連(Trigram)、詞四連(Fourgram)語言模型等，重新進行一次詞圖動態規劃搜尋 (Word Graph Rescoring)，找出最佳的文句。在本論文中，詞彙樹複製搜尋階段是使用詞雙連語言模型，而在詞圖搜尋階段則是使用詞三連語言模型。

在文檔中使用機器學習方法於語音文件檢索之研究 (頁 83-86)