強化凱氏平滑法與強化聶氏平滑法 - 中文語音辨識中語言模型的強化之研究

當遇到恰好沒有在訓練語料中相鄰出現的詞對wi-1與wi時，將使得 P(wi|wi-1)=0，這會造成整句話機率為零的錯誤。若我們採取先估計單連字串機率，

再往上推測未知雙連字串的機率值時，雖然可以推測出未雙連字串的機率值，但對於未出現於訓練語料中的詞而言，我們根本無法由訓練語料中得到該詞的相關資訊，也無法給它一個適當的機率估計方法。因此，在本論文中，我們的做法是在估計雙連詞串時，再對於未出現於訓練語料的詞給予其適當的機率估計方法，

是分別針對凱氏平滑法及聶氏平滑法加以強化的方法，稱為『強化凱氏平滑法』

及『強化聶氏平滑法』，並於第四章的實驗中，與原有的方法比較，以證明此兩種方法確實可提高模型的效能。

3.2.1 強化凱氏平滑法

『凱氏平滑法』的主要做法是將以wi-1為詞首的雙連詞對中，在訓練語料裡出現次數小於k者(通常k=5)乘上一個折扣值dr；至於在訓練語料中出現的次數大於k 者，因其次數夠大，具有夠強的代表性，故不予以折扣。而在分配被折扣的機率量時，需先找出所有未與wi-1相鄰出現在訓練語料中的wi’，並計算這些wi’ 出現在訓練語料中的次數總和，再根據wi於此總和值中所佔的次數比例，來決定可以由被折扣的機率量中得到多少比例。但若詞wi在訓練語料中出現的次數為零，則其由被折扣的機率量中，分配到的機率也會是零，將會造成錯誤，這是『凱氏平滑法』

的一項缺點。

基於上述理由，我們參考原有的『凱氏平滑法』，提出『強化凱氏平滑法』，

其應用於雙連馬可夫模型的公式如下(參照附錄)：

( )

在我們的方法中，主要的做法有以下五點：

1. 當雙連詞串(wi-1,wi)在訓練語料中有出現時，還是依原有的最大概似法計算其機率

2. 當雙連詞串(wi-1,wi)沒有在訓練語料出現過時，先判斷詞尾wi在訓練語料中是否有出現

3. 若有出現，且次數大於 k 次，則依照原凱氏平滑法做分配

4. 若有出現，且次數小於等於 k 次，則除了依原凱氏平滑法做分配外，還必 需乘上一個d′_r值

5. 若詞尾wi在訓練語料中根本沒有出現，則可將於第 4 點中被折扣下來的機率量β

(

w_i₋₁

)

，平均分配給所有未出現於訓練語料中的詞

如此，也考慮了雙連詞串(wi-1,wi)的詞尾wi於訓練語料中沒有出現的狀況，將使得辨識的估計值更為準確。

3.2.2 強化聶氏平滑法

『聶氏後退法』在分配機率時，先找出所有未與wi-1相鄰出現於訓練語料的 wi’，再計算所有wi’於訓練語料中前接詞數總和，以詞尾的前接詞數於此前接詞數總和中所佔的比例來分配被折扣下來的機率。如果將這項原則應用到『聶氏內插法』時，可以使得具較多前接詞數

(

w_i

)

N₁₊ •, 的詞尾，分配到較大的機率值，

而非平均分配給每個詞尾，如此便可做更正確的預測，因此，我們將原有的『聶氏後退法』及『聶氏內插法』公式合併。但，這也會遇到與『凱氏平滑法』相同的問題，就是如果詞尾並沒有出現在訓練語料中時，一樣會造成機率分配為零的錯誤，所以我們再針對這個缺點加以修正，稱為『強化聶氏平滑法』，公式如下 (參照附錄)：

( ) { ( ) }

種情況

4. 當詞尾的wi於訓練語料有出現時，將第 1 點所述的被折扣的機率值

(

w_i₋₁

)

α ，依照wi的前接詞數於所有可能詞尾的前接詞數總和中所佔的比例

( )

KN w

P′ 加以分配機率，此處的wi的前接詞數於計算時還會減去一個折扣值，得到被折扣下來的少量機率量為β。P′_KN

( )

w_i 比例取決於wi的前接詞數，當詞尾wi的前接詞數越多，表示可接在wi之前的詞種類很多，由α

( )

w_i₋₁ 分配到的機率就越大；反之，當wi的前接詞數越少，由α

(

w_i₋₁

)

分配到的機率就越小

5. 將第 4 點中，被折扣的少量機率量β平均分配給所有可能接在wi-1之後的詞，即辭典中的每一個詞。

第 4 章實驗結果

實驗結果

在文檔中中文語音辨識中語言模型的強化之研究 (頁 25-30)

強化凱氏平滑法與強化聶氏平滑法

3.2.1 強化凱氏平滑法

( )

(

)

3.2.2 強化聶氏平滑法

(

)

( ) { ( ) }

(

)

( )

( )

( )

(

)

第 4 章 實驗結果

實驗結果

第 4 章實驗結果