第四章 加權有限狀態機之實驗分析
4.2 音節的解碼來評估語言模型
以往評估語言模型,通常是以計算 PPL(perplexity)來判斷,但實際上 PPL 為語言模型估測一個歷史詞串後面平均可能的可接詞數,語言模型的好壞 與 PPL 無直接性的關係,由此可知使用 PPL 評估語言模型,並非一個最好方 法,因此本研究藉由 OpenFst 系統發展了一套直接性評估語言模型的方法。
正規的 OpenFst 語音辨識流程為,輸入語音訊號的 MFCC 參數,藉由聲 學模型的加權有限狀態機做第一層級的語音辨識,接著將辨識結果的音節序列 經由發音詞典的加權有限狀態機對應至有意義的詞彙序列,最後再藉由語言模 型的加權有限狀態機加入了語言文法做最後一層級的語言辨識,得到了最後的 辨識結果,但如果僅考慮語言模型的話,正規的語音辨識系統多了聲學模型辨 識因素,因此,在此將聲學模型的加權有限狀態機移除,剩下發音詞典與語言 模型兩個層級,由於辨識流程未通過聲學模型的辨識,輸入訊號更改為以正確 音節序列為輸入,經由發音詞典的加權有限狀態機對應至有意義的詞彙序列,
再藉由要評判的語言模型加權有限狀態機做辨認,得到最後的詞彙序列,接著 以最終辨識的詞彙序列與正確解答的詞彙序列做比較,算出詞彙的錯誤率,因 此,可以藉由不同的語言模型,算出各別的詞彙錯誤率,當詞彙錯誤率較低者,
表示訓練出為較佳的語言模型,另外,還可以藉由本研究的辨識結果,分別看 出聲學模型與語言模型的改善空間;由上可知,此研究的輸入為正確音節序列,
得到的輸出為辨識後的詞彙序列,研究概念與注音輸入法雷同,注音輸入法為 一種以注音符號來輸入漢字的中文輸入法。
本研究處理加權有限狀態機的相關演算法採用 OpenFst 進行,首先,正確 音節序列依照 L。G 的輸入表編輯成加權有限狀態機的格式,並且檔案轉換為 二進位的檔案格式。
53
sil:sil yan:yan jiu:jiu sheng:sheng ming:ming qi:qi yuan:yuan sil:sil
圖 4.4: 【研究生命起源】的正確音節序列作範例
同時準備先前訓練的發音詞典與語言模型結合的加權有限狀態機(以 L。G 表示),使用 OpenFst 指令中的 fstcompose 將正確音節序列與 L。G 合併,合 併後涵蓋了辨識後所有可能性的詞彙序列。
jiu 研究 sheng ming 生命 qi yuan 起源
yan jiu 研究生
ming qi 名氣
yuan 遠 sheng ming 生命
省 ming 名 qi 七 yuan 元 沿
jiu 就
sheng 勝 ming 名
qi yuan 起源 yan jiu sheng 研究所
ming 名
yan
圖 4.5: 【研究生命起源】的正確音節為輸入,和 L。G 做合併的範例圖
我 們 以 OpenFst 指 令 中 的 fstshortestpath 找 出 最 佳 的 辨 識 結 果 , n-shortestpath 以路徑分數最低的前 n 條路徑做為辨識最佳的前 n 個結果,這裡 以 n=1 選出一條最佳的路徑,由於,fstshortestpath 指令限制轉換上權重的型 態為 non-log,本研究轉換上權重的型態皆以 log 存在,因此,需先將檔案的 檔頭資訊轉換為 non-log 型態再執行 fstshortestpath 指令,完成 fstshortestpath 指令得到的輸出即為最佳路徑。
54
yan:ε/6 jiu:ε/1.3 ε:研究/0.1 sheng:ε/6.1 ming:ε/2.8 ε:生命/0.1 qi:ε/5.6 yuan:ε/1.3 ε:起源/0.01
圖 4.6: 【研究生命起源】最佳路徑的範例圖
目前辨識系統 tri-gram 的辨認率為 87.34%,本研究實驗結果的辨識率為 91.04%,這說明了,聲學模型約有 3.7%的改善空間,而語言模型約有 8.96%的 改善幅度,由此觀察出,語言模型可以改進的幅度大於聲學模型,並且有明確數 據可以準確的得知各個模型改善的幅度。
下圖為各個語言模型所建構出的語音辨識系統,藉由本節的方式算出的評估 值,可以從圖中證實,tg172、tg182、tg1112 的值相近,但明顯高於 bg12、bg17、
tg173,證實了評估值可以評斷語言模型的好壞。
圖 4.7: 各個辨識系統的語言模型評估值
55