在本論文中，我們提出了主題混合模型法來調適背景語言模型

(1)

85

第6章結論與未來展望

在過去的三十年間，語言模型在自然語言相關的應用上一直扮演著重要的角色，

它被用來擷取自然語言中各式各樣的資訊，進而以量化的方式來決定一個詞序列是否被接受，例如幫助解決語音辨識中聲學混淆的問題。然而，隨著自然語言的演進，以早先搜集到的訓練語料所訓練的語言模型，漸漸地與要辨識的領域在詞彙或語意上發生的不一致性（mismatch），而造成不佳的辨識效果，於是便需要語言模型調適的技術。

語言模型調適的目的，是要從與辨識任務同時期或同領域的調適語料中擷取相關的資訊，如前後文資訊、語意資訊和主題資訊等，將這些資訊加入原有的語言模型中，使之對測試語料有更好的預測能力，進而達到較佳的辨識效果。

在本論文中，我們提出了主題混合模型法來調適背景語言模型。此方法原是 應用在資訊檢索中，其中，每一個文件被表示成一個混合模型，模型中定義了 K 個主題，各由一主題一連語言模型所表示，另外每一個文件對這 K 個主題都有 不同的權重，利用這兩個機率可以來計算查詢詞序列與此文件的檢索機率。今將 詞 w 視為只擁有一個詞的查詢，而其歷史詞序列 h 視為一個文件，便可以計算 它們之間的相關性，但因歷史詞序列會隨著辨識過程而改變，故需要動態地來計算各主題在歷史詞序列上的權重。將此主題混合模型與背景語言模型結合便可達到動態的語言模型調適。在實驗中，顯示了主題混合模型調適的效果，甚至比潛藏語意分析來的有效，且在與其他方法結合的情況下，也達到相輔相成的辨識效果。

另外，本論文對最大熵值法作了深入的探討。最大熵值法是一個以限制為基礎來合併各種資訊來源的方法，在此方法下，每一個資訊來源會引起一群限制，

這些限制的交集代表了滿足所有限制的機率分佈的集合，這當中擁有最大熵值的機率分佈便是此方法的解。本論文利用最大熵值法將一連、二連與三連語言模型

(2)

86

合併，利用 IIS 演算法來求得最佳的模型參數。實驗顯示，利用此方法所訓練出來的模型，比用傳統最大相似度估測法所訓練的三連語言模型，在辨識字錯誤率與語言模型複雜度上都有較好的表現。

在往後的研究中，將嘗試以最大熵值法來合併 N 連語言模型、主題分類模 型等更多樣的資訊，以期能有較佳的辨識效果。此外，語言模型調適的另外一個議題是如何挑選適當的調適語料，就如同本論文 Set 2 所使用的調適語料，因為與測試語料並非同時期的語料，所以在語意或主題資訊方面就沒有辦法有顯著的效果。但是，如果透過調適語料的篩選技術，將真正與測試語料相關的語料留下來，不相關的去除，再利用篩選下來的資料擷取資訊，如此一來，對語言模型調適也會有相當的幫助。