• 沒有找到結果。

除了上述的背景三連語言模型之外,我們也將同領域語料訓練成一個 N 連語 言模型與背景三連語言模型做結合,以同領域文件調適語言模型,讓模型更貼近 測試的情況,並與本論文提出的模型做比較。另外,詞圖中最佳解碼則是利用動 態規劃的方式,找出詞圖中字錯誤率最低的路徑,儘管語音辨識會受到聲學模型 的強烈影響,但我們相信一個完美的語言模型能夠達到撥亂反正的效果,因此我 們將此數值當作本研究題目的上界(Upper Bound)。基礎實驗結果如表五及表六所 示。

(1) 機率式潛藏語意分析(PLSA)

機率式潛藏語意分析是以非監督式學習,藉由數學推導方式得到一組共享之潛藏 主題。因此,在機率式潛藏語意分析實驗中,我們探討不同主題個數對語言模型 之影響,並將此最佳化設定應用至測試集觀察其一般化程度。而潛藏主題之個數 依序設定為 8, 16, 32, 64 與 128,並與背景三連語言模型以模型補差法結合。

首先,在觀察語言複雜度實驗時 (如表七),我們可以發現其效能隨著主題個 數之增加而同步上升,我們認為這應是由於主題數增加時,各個潛藏主題間的差

發展集字錯誤率(%) 測試集字錯誤率(%) 背景三連語言模型(BG) 20.22 20.08

同領域雙連語言模型+BG 19.12 18.89

同領域三連語言模型+BG 19.04 18.84

詞圖中最佳解碼(Oracle) 7.72 9.05 表五、基礎實驗之字辨識率結果比較表

發展集語言複雜度 測試集語言複雜度 背景三連語言模型(BG) 667.23 682.10 同領域雙連語言模型+BG 442.04 445.96 同領域三連語言模型+BG 427.60 432.22

表六、基礎實驗之語言複雜度結果比較表

異性可以區分的更加明顯,故語言複雜度實驗可以獲得越來越好的實驗結果。當 然,使用機率式潛藏語意分析不斷地考慮長距離的語意資訊,的確對於語言模型 有很大的幫助。

然而在語音辨識的實驗之中,測試集之字錯誤率卻沒有隨著主題增長而逐漸 下降,探究其原因應為訓練與測試語料不匹配所造成之誤差,導致在發展集中的 最佳實驗設定並不完全適合於測試集之中。

(2) 關聯模型(RM)

將關聯模型與機率式潛藏主題分析比較,首先我們可以發現關聯模型的表現在各 個文件數的選擇上相較於機率式潛藏語意分析在發展集中都有較佳的表現,探究 其原因應為關聯模型在計算預測詞機率時,能夠單獨考慮每一個歷史詞的重要 性,相較於機率式潛藏語意分析以潛藏主題分佈描述歷史詞序列的方式,關聯模 型能以更直接的方式詮釋。

主題個數 發展集語言複雜度 測試集語言複雜度

8 531.87 676.33

16 515.63 529.89

32 504.12 514.74

64 488.68 500.98

128 470.78 482.84

表七、機率式潛藏語意分析之語言複雜度比較表

主題個數 發展集字錯誤率(%) 測試集字錯誤率(%)

8 19.36 19.27

16 19.36 19.11

32 19.38 19.03

64 19.25 19.28

128 19.20 19.23

表八、機率式潛藏語意分析之字錯誤率比較表

然而將其應用至測試集時我們發現關聯模型相對於機率式潛藏語意分析擁 有較差的一般化結果,其原因應為以檢索文件所表示的單連詞資訊非常容易受到 資料稀疏的問題影響,雖然模型已與背景語言模型以模型補插法結合,但卻使模 型過度依賴結合權重之調整精細程度,而導致模型失去一般化能力,容易受訓練 語料及測試語料之不匹配情況嚴重影響。

(3) 遞迴式類神經網路語言模型(RNNLM)

遞迴式類神經網路語言模型為近年語言模型發展之主軸,此模型利用類神經網路 的特點將原本離散的統計機率值轉化為一連續空間表示,藉此結構達到較佳的平 滑化效果。除此之外,更藉由考慮上一時間隱藏層的方式達到獲得長距離資訊的 效果。觀察實驗結果可以發現,使用遞迴式類神經網路語言模型之語言模型調適 結果相較於上述之關聯模型與機率式潛藏語意分析都有較佳的效能。

觀察其字錯誤率以及語言複雜度實驗結果,如表十一與表十二所示,遞迴式類神 經網路模型擁有非常強大的效能,探究其原因應為,建立於類神經網路架構之上 之遞迴式類神經網路語言模型擁有非常有效的平滑化效果,藉由觀察表十一可以

檢索文件數 發展集語言複雜度 測試集語言複雜度

8 510.36 523.30

16 516.44 528.98

32 519.48 533.85

64 524.10 538.19

128 527.64 541.44

表九、關聯模型之語言複雜度比較表

檢索文件數 發展集字錯誤率(%) 測試集字錯誤率(%)

8 19.23 19.40

16 19.26 19.40

32 19.26 19.42

64 19.22 19.29

128 19.21 19.35

表十、關聯模型之字錯誤率比較表

要的影響力(約 0.1),也就是說遞迴式類神經網路語言模型較不需要藉由結合背景

相關文件