第二章 文獻回顧
2.3 鑑別式語言模型訓練與調適
鑑別式訓練是以最小化分類錯誤(Minimum Classification Error)為目標,運用 各種訓練方法,以訓練分類器有能力作出最正確的辨識。鑑別式訓練應用於聲學 模型與語言模型中,都有一定的成效。
就語言模型而言,鑑別式訓練的目標在於調整語言模型中的參數,使得語 言模型可以引導辨識器找出字/詞錯誤率最低的候選詞序列,以作為辨識結果。
例如1998 年 Rigazio 等人 [Rigazio et al. 1998] 以最小化分類錯誤為目標,
對語言模型機率及語言權重作鑑別式的訓練及調適,其目標在於訓練分類器 (Classifier),使其能從 M 個最佳辨識結果中擇其預期錯誤率(Expected Error Rate) 最小者。語言模型機率代表詞序列在特定語言使用環境下的重要性,而語言權重 (Language Weight)則是代表在辨識系統中,語言模型與聲學模型二者相較之下的 可信賴度(Relative Reliability)。
隔年,Warnke 等人 [Warnke et al. 1999] 提出以最大相互資訊(Maximum Mutual Information Estimation, MMIE)與最小化分類錯誤(Minimum Classification Error, MCE)來訓練語言模型插補(Language Model Interpolation)的權重。
2002 年,Kuo 等人 [Kuo et al. 2002] 提出以最小分類錯誤為基礎的鑑別式 語言模型訓練,目的在於區分最接近正確辨識結果的候選詞序列與其他候選詞序 列。其方法為比較 N 連詞在正確辨識結果與候選詞序列中的出現情形,以決定 如何增減該候選詞序列之機率值。若一個雙連詞(Bigram)出現在正確辨識結果 中,但並未出現在候選詞序列裡,則增加語言模型中此雙連詞的機率值;反之,
若該雙連詞並未出現在正確辨識結果中,但卻出現在候選詞序列裡,則降低此雙 連詞在語言模型中的機率值。
方式,最大化訓練語料中詞圖的期望正確率,以期達到最小化詞錯誤 (Minimum Word Error, MWE)的目標。其方法為以求得最佳詞正確率為目標,透過延伸波式 (Extended Baum-Welch)演算法推得語言模型參數估測之更新公式,透過一次次修 正語言模型機率,以期能夠最大化詞正確率之期望值。
2007 年,Kuo 等人 [Kuo et al. 2007] 將有線狀態機(Finite-state Machine)的 觀念用於鑑別式訓練,其方法為調整有線狀態圖(Finite-state Decoding Graph)中狀 態之間的轉移權重(Transition-weight),以達到最小化詞錯誤率的目標。
除了運用鑑別式訓練直接調整語言模型參數,近年來亦興起另一種鑑別式訓 練模式,其方法為引進全域線性模型(Global Linear Model)架構以重新衡量基礎辨 識器產生的 M 個最佳辨識結果,並以鑑別式訓練方法調整模型中的參數,使分 類器能對基礎辨識器產生的 M 個最佳辨識結果進行重新排序,以期最接近正確 辨識結果的詞序列能成為最終辨識結果,達到最小化辨識錯誤率的目標。此類型 方法雖與其他鑑別式訓練方法同樣以最小化分類錯誤為目標對分類器進行訓 練,但不像傳統 N 連語言模型是以機率來衡量詞序列之重要性,而是改以全域 線性模型重新衡量各候選詞序列之間的差異,期待能夠成功訓練分類器從中選取 最接近正確轉寫的詞序列。
此類型方法一開始被應用於自然語言處理領域,以全域線性模型重新衡量詞 序列,並利用鑑別式訓練方法對分類器進行訓練,使分類器有能力選取最正確的 詞序列作為輸出結果。例如以 Boosting 演算法訓練分類器在語法剖析(Natural Language Parsing) [Collins et al. 2000] 的 過 程 中 找 出 最 正 確 詞 序 列 , 或 以 Perceptron 演算法訓練分類器進行詞性標示(Part-of-speech Tagging) [Collins 2002]。其中,Boosting 演算法以資料選取方法(Data Selection)選取全域模型參數 並賦予參數適當估測值,而 Perceptron 演算法則是以最小平方誤差(Minimum Square Error, MSE)為前提進行全域線性模型的參數估測。
其後,Roark 等人[Roark et al. 2004a]採用 Perceptron 演算法進行鑑別式語言 模型訓練。此外[Roark et al. 2004b],又另採用條件隨機域(Conditional Random Field, CRF)方法進行鑑別式訓練,並以之與 Perceptron 演算法的實驗成果作比較。
隔年,Gao 等人[Gao et al. 2005a]提出以 Minimum Sample Risk 演算法求取 全域線性模型參數,並將其與Boosting 演算法和 Perceptron 演算法在語言模型調 適上的效果作比較[Gao et al. 2005b]。Minimum Sample Risk 演算法則是將正確辨 識 結 果 與 候 選 詞 序 列 之 間 的 編 輯 距 離(Edit Distance) 視 為 樣 本 風 險 (Sample Risk),試圖搜尋出可使訓練語料之樣本風險降至最低的參數,並以此參數對測 試語料作評估。
2006 年,Zhou 等人 [Zhou et al. 2006] 將 Ranking SVM 方法應用於以全域 線性模型進行鑑別式語言模型訓練中,以進行語言模型調適,並將其與Perceptron 演算法、Boosting 演算法與 Minimum Sample Risk 演算法的效果作比較。
2007 年,Gao 等人 [Gao et al. 2007] 提出以最大化熵值(Maximum Entropy, ME)搭配回歸(Logistic Regularization)方法,選擇最佳候選詞序列。同時,還提出 Bossted Lasso (BLasso)演算法,其意在採用 Boosting 演算法搭配回歸(Logistic Regularization)方法,以訓練全域線性模型。此外,亦將上述方法與 Perceptron 演算法、Boosting 演算法的實驗成果作比較。
同年,Roark 等人[Roark et al. 2007] 以有線狀態機(Weighted Finite-state Automata)實作全域條件式對數線性模型(Global Conditional Log-linear Models, GCLM)方法,並以之與 Perceptron 演算法的實驗結果作比較。
其後,Zhou 等人[Zhou et al. 2008]則是利用全域線性模型訓練所得之參數,
對 N 連 語 言 模 型 之 機 率 值 進 行 調 整 , 形 成 一 個 擬 傳 統 的 N 連 模 型 (Pseudo-conventional N-gram Model),為傳統 N 連語言模型與全域線性模型建立 起一種新的合作關係。
圖2-2 為使用鑑別式語言模型進行語言模型調適之架構。下一章將介紹這種 以全域線性模型架構重新衡量基礎辨識結果的鑑別式語言模型,並介紹數種以最 小化分類錯誤為目標進行全域線性模型參數估測之演算法。
圖2-2 使用鑑別式語言模型進行語言模型調適之架構