台師大之大詞彙連續語音辨識系統

第五章實驗架構與結果

5.1 實驗架構

5.1.1 台師大之大詞彙連續語音辨識系統

(一) 特徵擷取

台師大之大詞彙連續語音辨識系統使用兩種方法進行特徵擷取：一是使用梅爾倒頻譜係數(MFCC)作為語音訊號的特徵參數，二是異質性線性鑑別分析 (Heteroscedastic Linear Discriminant Analysis, HLDA)配合最大相似度線性轉換 (Maximum Likelihood Linear Transformation, MLLT)取得特徵參數。

本論文實驗架構中，前端處理處理的部分是採用異質性線性鑑別分析 (HLDA) 配合最大相似度線性轉換(MLLT)以取得特徵參數。

(二) 聲學模型

中文的音節由聲母與韻母這兩個次音節組成。在聲學模型中，我們分別為聲母和韻母各建立一個模型，代表聲母的是INITIAL 模型，代表韻母的是 FINAL

模型，共有22 個 INITIAL 模型，38 個 FINAL 模型，以及 1 個代表靜音的 SIL 模型。由於聲母會受搭配之韻母影響而有所變化，因此使用右相關聯模型 (Right-Context-Dependent Model, RCD)，將聲母細分為 112 個 INITIAL 模型。加上韻母與靜音模型，共有 151 個聲學模型。每一個隱藏式馬可夫模型中有 3~6 個狀態(State)，其中每一個狀態為 1~128 個高斯分布所組成的高斯混合分布。

(三) 詞典建立

中文約有7000 個單字詞，藉由合併單字詞的方式，可以產生一些新詞。本系統建立新詞的方式，是根據語料中的單字詞，以統計式方法自動建立新的複合詞(Compound Words)。

對於語料中連續兩個單字詞，例如w_iw_j，分別以正向和逆向觀點建立此二連詞機率，再取幾何平均。正向觀點建立的是前二連(Forward Bigram)機率

)

| ( _j _i

f w w

P ，逆向觀點建立的是後二連(Backward Bigram)機率P_b(w_i |w_j)，幾何

平均為FB(w_i,w_j)= P_f(w_j |w_i)P_b(w_i |w_j) 。前後二連(Forward and Backward Bigram)的幾何平均需高於一個基準值(Threshold)，才會被合併為一個新的複合詞。

在本系統的原始詞典中包含六萬八千個詞，每一個詞的長度為一至四字。

文字語料先根據原始詞典作斷詞，再根據前後二連的幾何平均判斷是否合併為新詞，經由數次迭代與不同基準值設定，產生約五千個新的複合詞，詞長在二至四字之間。將新的複合詞加入原始詞典後，可得到一個含有七萬二千個詞的新詞典。

(四) 詞彙樹複製搜尋

本系統是採取由左至右(Left-to-right)、音框同步方式(Frame-synchronous)進行詞彙樹複製搜尋[Aubert 2002]。詞彙樹中每一個分枝(Arc)代表一個 INITIAL 或 FINAL 模型，由根節點(Root)到葉節點(Leaf)的路徑代表一個詞，若有多條路徑，

則代表一些發音相同的詞。在每一個音框中，若有片段路徑(Partial Path)到達葉節點時，代表產生了一個完整的詞。

在搜尋每一個音框時，因為存在多個不同歷史詞序列，因此每一個音框會同時存有多棵複製的詞彙樹(Tree Copies)以代表不同歷史詞序列，若搜尋時產生的片段路徑具有相同的歷史詞序列，則會儲存在同一棵詞彙樹中，進行隱藏式馬可夫模型狀態層次的維特比(Viterbi)動態規劃搜尋。

由於留存的隱藏式馬可夫模型的狀態節點會隨著音框數呈指數倍增加，因此採取光束搜尋(Beam Search)方法適當裁剪分數較低的路徑或節點。分數的計算包括詞彙樹內部節點(Internal Node)中儲存搜尋過程累計的解碼分數(Decoding Score)、聲學模型向前看分數(Acoustic Model Look-ahead Score)與語言模型向前看分數(Language Model Look-ahead Score)，以此三種分數作為是否裁剪節點的根據。

本系統中語言模型向前看分數是採用單連(Unigram)語言模型向前看技術，

就詞彙樹中某一內部節點而言，其語言模型向前看分數為經由此節點所能到達之所有葉節點中單連語言模型機率最高者。

詞彙樹中留存的葉節點代表可能的候選詞，每一個音框中皆儲存分數較高的葉節點資訊，包括開始音框與結束音框、聲學模型解碼分數、歷史詞序列等，

以此建立詞圖(Word Graph)。

(五) 詞圖搜尋

詞圖為詞彙樹複製搜尋過後留存的詞段所建立的圖，詞圖中每一個詞段皆有對應的開始與結束音框、聲學模型解碼分數與歷史詞資訊。

詞圖搜尋是根據詞段對應的開始與結束音框與歷史詞資訊對詞圖進行搜尋，以建立多條歷史詞序列，並根據搜尋過程中累計的解碼分數、聲學模型解碼

圖5-1 詞圖範例

分數與語言模型分數計算出各歷史詞序列之分數。詞圖搜尋可得到多個詞序列及其對應分數，可取分數最高者直接作為辨識結果，亦可保留分數較高的數個詞序列進一步做鑑別式訓練，以期得到更正確的辨識結果，本文的研究屬於後者。

在文檔中使用鑑別式語言模型於語音辨識結果重新排序 (頁 63-66)

第五章 實驗架構與結果

5.1 實驗架構

5.1.1 台師大之大詞彙連續語音辨識系統

第五章實驗架構與結果