• 沒有找到結果。

強化凱氏平滑法與強化聶氏平滑法

當 遇 到 恰 好 沒 有 在 訓 練 語 料 中 相 鄰 出 現 的 詞 對wi-1wi時 , 將 使 得 P(wi|wi-1)=0,這會造成整句話機率為零的錯誤。若我們採取先估計單連字串機率,

再往上推測未知雙連字串的機率值時,雖然可以推測出未雙連字串的機率值,但 對於未出現於訓練語料中的詞而言,我們根本無法由訓練語料中得到該詞的相關 資訊,也無法給它一個適當的機率估計方法。因此,在本論文中,我們的做法是 在估計雙連詞串時,再對於未出現於訓練語料的詞給予其適當的機率估計方法,

是分別針對凱氏平滑法及聶氏平滑法加以強化的方法,稱為『強化凱氏平滑法』

及『強化聶氏平滑法』,並於第四章的實驗中,與原有的方法比較,以證明此兩種 方法確實可提高模型的效能。

3.2.1 強化凱氏平滑法

『凱氏平滑法』的主要做法是將以wi-1為詞首的雙連詞對中,在訓練語料裡出 現次數小於k者(通常k=5)乘上一個折扣值dr;至於在訓練語料中出現的次數大於k 者,因其次數夠大,具有夠強的代表性,故不予以折扣。而在分配被折扣的機率 量時,需先找出所有未與wi-1相鄰出現在訓練語料中的wi’,並計算這些wi’ 出現在 訓練語料中的次數總和,再根據wi於此總和值中所佔的次數比例,來決定可以由被 折扣的機率量中得到多少比例。但若詞wi在訓練語料中出現的次數為零,則其由被 折扣的機率量中,分配到的機率也會是零,將會造成錯誤,這是『凱氏平滑法』

的一項缺點。

基於上述理由,我們參考原有的『凱氏平滑法』,提出『強化凱氏平滑法』,

其應用於雙連馬可夫模型的公式如下(參照附錄):

( )

在我們的方法中,主要的做法有以下五點:

1. 當雙連詞串(wi-1,wi)在訓練語料中有出現時,還是依原有的最大概似法計算 其機率

2. 當雙連詞串(wi-1,wi)沒有在訓練語料出現過時,先判斷詞尾wi在訓練語料中 是否有出現

3. 若有出現,且次數大於 k 次,則依照原凱氏平滑法做分配

4. 若有出現,且次數小於等於 k 次,則除了依原凱氏平滑法做分配外,還必 需乘上一個d′r

5. 若詞尾wi在訓練語料中根本沒有出現,則可將於第 4 點中被折扣下來的機 率量β

(

wi1

)

,平均分配給所有未出現於訓練語料中的詞

如此,也考慮了雙連詞串(wi-1,wi)的詞尾wi於訓練語料中沒有出現的狀況,將 使得辨識的估計值更為準確。

3.2.2 強化聶氏平滑法

『聶氏後退法』在分配機率時,先找出所有未與wi-1相鄰出現於訓練語料的 wi’,再計算所有wi’於訓練語料中前接詞數總和,以詞尾 的前接詞數於此前接詞 數總和中所佔的比例來分配被折扣下來的機率。如果將這項原則應用到『聶氏內 插法』時,可以使得具較多前接詞數

wi

(

wi

)

N1+ •, 的詞尾 ,分配到較大的機率值,

而非平均分配給每個詞尾 ,如此便可做更正確的預測,因此,我們將原有的『聶 氏後退法』及『聶氏內插法』公式合併。但,這也會遇到與『凱氏平滑法』相同 的問題,就是如果詞尾 並沒有出現在訓練語料中時,一樣會造成機率分配為零 的錯誤,所以我們再針對這個缺點加以修正,稱為『強化聶氏平滑法』,公式如下 (參照附錄):

wi

wi

wi

( ) { ( ) }

種情況

4. 當詞尾的wi於訓練語料有出現時,將第 1 點所述的被折扣的機率值

(

wi1

)

α ,依照wi的前接詞數於所有可能詞尾的前接詞數總和中所佔的比例

( )

i

KN w

P′ 加以分配機率,此處的wi的前接詞數於計算時還會減去一個折扣 值,得到被折扣下來的少量機率量為β。P′KN

( )

wi 比例取決於wi的前接詞 數,當詞尾wi的前接詞數越多,表示可接在wi之前的詞種類很多,由α

( )

wi1 分配到的機率就越大;反之,當wi的前接詞數越少,由α

(

wi1

)

分配到的機 率就越小

5. 將第 4 點中,被折扣的少量機率量β平均分配給所有可能接在wi-1之後的 詞,即辭典中的每一個詞。

第 4 章 實驗結果

實驗結果

相關文件