音節的解碼來評估語言模型

第四章加權有限狀態機之實驗分析

4.2 音節的解碼來評估語言模型

以往評估語言模型，通常是以計算 PPL(perplexity)來判斷，但實際上 PPL 為語言模型估測一個歷史詞串後面平均可能的可接詞數，語言模型的好壞與 PPL 無直接性的關係，由此可知使用 PPL 評估語言模型，並非一個最好方法，因此本研究藉由 OpenFst 系統發展了一套直接性評估語言模型的方法。

正規的 OpenFst 語音辨識流程為，輸入語音訊號的 MFCC 參數，藉由聲學模型的加權有限狀態機做第一層級的語音辨識，接著將辨識結果的音節序列經由發音詞典的加權有限狀態機對應至有意義的詞彙序列，最後再藉由語言模型的加權有限狀態機加入了語言文法做最後一層級的語言辨識，得到了最後的辨識結果，但如果僅考慮語言模型的話，正規的語音辨識系統多了聲學模型辨識因素，因此，在此將聲學模型的加權有限狀態機移除，剩下發音詞典與語言模型兩個層級，由於辨識流程未通過聲學模型的辨識，輸入訊號更改為以正確音節序列為輸入，經由發音詞典的加權有限狀態機對應至有意義的詞彙序列，

再藉由要評判的語言模型加權有限狀態機做辨認，得到最後的詞彙序列，接著以最終辨識的詞彙序列與正確解答的詞彙序列做比較，算出詞彙的錯誤率，因此，可以藉由不同的語言模型，算出各別的詞彙錯誤率，當詞彙錯誤率較低者，

表示訓練出為較佳的語言模型，另外，還可以藉由本研究的辨識結果，分別看出聲學模型與語言模型的改善空間；由上可知，此研究的輸入為正確音節序列，

得到的輸出為辨識後的詞彙序列，研究概念與注音輸入法雷同，注音輸入法為一種以注音符號來輸入漢字的中文輸入法。

本研究處理加權有限狀態機的相關演算法採用 OpenFst 進行，首先，正確音節序列依照 L。G 的輸入表編輯成加權有限狀態機的格式，並且檔案轉換為二進位的檔案格式。

sil:sil yan:yan jiu:jiu sheng:sheng ming:ming qi:qi yuan:yuan sil:sil

圖 4.4: 【研究生命起源】的正確音節序列作範例

同時準備先前訓練的發音詞典與語言模型結合的加權有限狀態機(以 L。G 表示)，使用 OpenFst 指令中的 fstcompose 將正確音節序列與 L。G 合併，合併後涵蓋了辨識後所有可能性的詞彙序列。

jiu 研究 sheng ming 生命 qi yuan 起源

yan jiu 研究生

ming qi 名氣

yuan 遠 sheng ming 生命

省 ming 名 qi 七 yuan 元沿

jiu 就

sheng 勝 ming 名

qi yuan 起源 yan jiu sheng 研究所

ming 名

yan

圖 4.5: 【研究生命起源】的正確音節為輸入，和 L。G 做合併的範例圖

我們以 OpenFst 指令中的 fstshortestpath 找出最佳的辨識結果， n-shortestpath 以路徑分數最低的前 n 條路徑做為辨識最佳的前 n 個結果，這裡以 n=1 選出一條最佳的路徑，由於，fstshortestpath 指令限制轉換上權重的型態為 non-log，本研究轉換上權重的型態皆以 log 存在，因此，需先將檔案的檔頭資訊轉換為 non-log 型態再執行 fstshortestpath 指令，完成 fstshortestpath 指令得到的輸出即為最佳路徑。

yan:ε/6 jiu:ε/1.3 ε:研究/0.1 sheng:ε/6.1 ming:ε/2.8 ε:生命/0.1 qi:ε/5.6 yuan:ε/1.3 ε:起源/0.01

圖 4.6: 【研究生命起源】最佳路徑的範例圖

目前辨識系統 tri-gram 的辨認率為 87.34%，本研究實驗結果的辨識率為 91.04%，這說明了，聲學模型約有 3.7%的改善空間，而語言模型約有 8.96%的改善幅度，由此觀察出，語言模型可以改進的幅度大於聲學模型，並且有明確數據可以準確的得知各個模型改善的幅度。

下圖為各個語言模型所建構出的語音辨識系統，藉由本節的方式算出的評估值，可以從圖中證實，tg172、tg182、tg1112 的值相近，但明顯高於 bg12、bg17、

tg173，證實了評估值可以評斷語言模型的好壞。

圖 4.7: 各個辨識系統的語言模型評估值

在文檔中基於加權有限狀態轉換器國語語音辨認系統之設計 (頁 52-55)

第四章 加權有限狀態機之實驗分析

4.2 音節的解碼來評估語言模型

第四章加權有限狀態機之實驗分析