基礎實驗(baseline)

第 3 章實驗基礎架構及語料庫

3.3 基礎實驗(baseline)

~ 20 ~

(beam search)來避免狀態樹增長過大使得搜尋時間過長。光束搜尋法的主要作法是對同一階層(level)的節點依照機率由高至低排序，挑出同一階層中排名前 w 的節點，

下一層便只有這些節點才會繼續增長，其中 w 便稱為光束的寬度；排在 w 名之後 的節點則視為機率低於最佳路徑太多而忽略不計，如此一來，無論原本的搜尋空間多大，在光束搜尋演算法下的搜尋空間都可以限制在一定的範圍內。

此外，一般的語音辨識只會找出機率最高的路徑作為辨識結果，然而在狀態樹中，每個未被光束搜尋刪去的節點也會記錄著其歷史資訊，如語言模型歷史、

對應的候選詞的首尾音框，以及搜尋時至此節點的機率分數等等，依照這些資訊可以建立詞圖。由於詞圖可以將語言模型與聲學模型的分數計算作出某種程度的分解，因此可以在詞圖上使用更高階的語言模型，重新進行一次詞圖重計分 (rescoring)，而不至於使得第一階段的搜尋複雜度增加過多。另外在鑑別式訓練法中，也經常使用詞圖作為所有辨識可能的近似，在本論文中，語音辨識與詞圖的產生都是使用同一套工具。

3.3 基礎實驗(baseline)

本實驗依照 3.2.2 的初始聲學模型設定，語音訊號使用 3.2.1 的方式抽取梅爾倒頻譜係數特徵，使用HTK 抽取語音訊號特徵及訓練聲學模型。而訓練過程使用最大相似度估測法。訓練過程首先必須給每個模型一個原型(prototype)，之後再經過最大相似度估測法的反覆疊代(iteration)訓練出最終模型。

本實驗的聲學模型原型為 5 個狀態，每個狀態有一個高斯混合數。在一個高斯混合數的情況下，經過50 次的疊代之後，開始增加高斯混合數，高斯混合數的增加順序為：1Æ2Æ3Æ4Æ5Æ6Æ7Æ8Æ16Æ24Æ32Æ64。每次增加混合數之後，

都會再做 4 次的疊代，才繼續增加至下一個數量的混合數，每個聲韻母模型的高斯混合數依照表 A.3 決定。在增加高斯混合數的過程中，每個聲韻母模型在增加到目標數量之後，該聲韻母模型在之後的增加過程中便不再增加混合數。

語音辨識是使用 TTK 完成，詞典與語言模型是依照 3.2.3 的方式產生，辨識

3.3 基礎實驗(baseline)

~ 21 ~

時使用詞三連語言模型，基礎實驗結果如表 3.2：

實驗結果以4 個不同的層級表示，分別為詞(word)、字(character, 表中簡寫為 char)、音節(syllable, 表中簡寫為 syl)、聲韻母(Initial/Final, 表中簡寫為 I/F)，而這 4 個層級的規則中，詞是以詞典中列出的詞為準，在實驗中原本的辨識結果就是詞；

字則是將詞全部拆開成一個一個的字，在實驗中是將辨識結果的詞斷開而來；音節則是將同音字視為相同的單位，在實驗中是將辨識結果的詞，依照詞典中的發音對應轉換而來；聲韻母則是聲學模型的單位，在實驗中也是將辨識結果的詞，

依照詞典中的發音對應轉換而來，而在本實驗中因為是使用右相關聲韻母模型，

每一個音節都是由一個聲母加一個韻母構成，所以音節跟聲韻母的差異就是兩個聲韻母組成一個音節。

而表中的H(hit, 命中)是代表辨識結果與正確答案相同的部份，D(deletion, 遺失)是正確答案中有出現但辨識結果沒出現的部份，S(substation, 取代)是辨識結果中與正確答案中相異的部份，I(insertion, 插入)是正確答案中沒出現但辨識結果中有出現的部份，N(number)是正確答案的總數(如在 word 中就是指總詞數，在 char 中就是總字數)。D、S、I 是由計算編輯距離而來，計算方式如圖 2.2，最後 H 的計算方式是：

H = N − −D S (3.2)

而在表中的Corr(correct)命中率的計算方式是：

H 100%

Corr= N × (3.3)

表中的Acc(accuracy)正確率的計算方式是：

level Corr(%) Acc(%) H D S I N word 71.04 57.99 11424 411 4246 2099 16081

char 76.43 75.17 19997 444 5723 330 26164 syl 82.72 81.42 21689 466 4064 342 26219 I/F 86.29 84.76 45251 1054 6133 806 52438

表 3.2 基礎實驗結果

3.4 本章結論

~ 22 ~

H I 100%

Acc N

= − × (3.4)

一般的語音辨識結果的評估，都是以詞正確率為標準，而在中文的語音辨識中，一般又以字正確率為標準。唯本論文為了深入分析不同方法的表現，之後的實驗結果依然會列出詳細各項數據。

3.4 本章結論

本章介紹了本論文使用的中文大字彙辨識系統，以及基礎實驗的訓練方式，

包括前端處理、聲學模型訓練、詞典與語言模型的建立，以及辨識工具的解碼方式。在公視新聞語料上，經由最大相似度估測法，可以得到約 75.17%字正確率的結果，這個結果將作為本論文之後鑑別式訓練法的基礎實驗。

4.1 目標函數上會有困難。在這裡使用弱性輔助函數(weak-sense auxiliary function)處理這個問題 (見附錄 B)，令一弱性輔助函數^H^MPE

( )

^{λ λ}^, ^為：

在文檔中最小音素錯誤訓練法及其改進方法在國語大字彙辨識上之評估與分析 (頁 34-37)

第 3 章 實驗基礎架構及語料庫

3.3 基礎實驗(baseline)

3.3 基礎實驗(baseline)

3.4 本章結論

( )

第 3 章實驗基礎架構及語料庫