第四章 第二級語言模型
4.2.2 改變語言模型分數
研究者於上一小節探討保持第一級和第二級 word lattice 在條件相同情況下,透過 word penality 之影響,使得原路徑被壓抑,進而選擇構詞後的新路徑。於本小節中,
研究者將改變第二級語言模型分數,即第二級 extended word lattice 上路徑分數不再直 接由第一級未構詞前之半詞串路徑相加而來,而是對構詞的人名、詞綴和數量複合詞 視為三種類別,再由語料裡去統計類別和詞之間的機率(外部機率, inter-probability),
以及類別內出現某長詞的機率(內部機率, intra probability),藉此兩機率對第二級之
本論文則利用以下數學式來重新計算第二級語言模型分數: Pr(class|W1) 是 inter-word probability描述詞和類別之間的機率 Pr (n1|class) 是 intra-word probability描述類別中出現某長詞的機率
此處以下兩點來描述內外部(inter and intra)機率之求法 A. 外部機率(Inter-word probability) Pr(class|W1) 的求法:
將第二級構詞所產生的詞中,把人名、詞綴和數量複合詞視為三大類別{PN, MD, FT},再將三個大類別各自細分成多個小類別,計算一般詞和這些類別之間連接的機 率。目前由於類別細分需要較長時間,目前實驗室在分類上尚未完整,究此,暫以簡 單之類別進行分類 (以詞綴為例),最後可觀察到類別細緻化後之實驗結果對本研究所 提出路徑分數給予之方式有正面幫助,使辨認效果更佳。
在詞綴類別細分上,以「綴詞」來區分類別,將前後詞綴中具相同綴詞的詞放置同 ㄧ類別,如此下來有 301 個詞綴類別及人名和數量複合詞兩個大類別共有 303 個類別,
進而使用這些類別來計算分數配置時所需的外部機率,計算過程如下:
機率計算步驟如下:
步驟 1:將語料中不在辨認辭典中人名、詞綴和數量複合詞分別以上述類別存在。
說明:目前由於人名和數量複合詞分類尚未建立,這裡僅針對詞綴加以分類,分類 方法如前面所述,再將訓練語料中且不在辭典內的三類詞以這些類別替代。
步驟 2:對以類別替代後之訓練語料進行統計來求取詞和類別之間的 bi-gram 機率。
B. 內部機率(Intra-word probability) Pr (n1|class) 的求法:
於此部分,機率採人名、詞綴和數量複合詞各自的類別分開獨立計算機率模型 a. 人名(PN):
將語料內不在辨認辭典中的人名,依據其於文章中的出現次數列出,將這些人名
「以 word 的形式」來計算某人名出現在此類別之機率,倘若辨認語料(TCC300 測 試語料)中人名出現此些人名之外,則藉由 smoothing 方式來給予一個較低之分數,
使其在辨認時亦可能辨認正確,在此 smoothing 方式採 Good-Turing smoothing。
測試語料)中詞綴出現此些詞綴之外,則藉由 smoothing 方式來給予一個較低之分 數,使其在辨認時亦可能辨認正確,在此 smoothing 方式採 Good-Turing smoothing。
c. 數量複合詞(FT):
(1) 半詞二連文機率模型:將語料內不在辨認辭典中的數量複合詞,依據其於文章 中的出現次數列出,將此些數量複合詞「以半詞(subword)的形式」來統計這些 半詞互相連接的次數,進而計算數量複合詞半詞之間串接機率。
(2) Finite State Machine(FSM)機率模型:將語料內不在辨認辭典中的數量複合 詞,依據其於文章中的出現次數列出,將此些數量複合詞「以狀態(state)的形 式」呈現,統計訓練語料中這些狀態的轉移次數,再利用此些次數來計算在 FSM 架構內狀態間轉移的機率,此部分詳細計算方式為章節 4.1.2.3 所述。
此時各類內部機率所使用機率形態如下表 4-3 所示:
表 4-3 各類內部機率使用機率型態
人名 詞綴 數量複合詞
機率型態 word uni-gram word uni-gram 1. subword bi-gram
2. FSM transition probability
經由 A 和 B 兩方面分別可求得「詞和類別」之外部連接機率和類別內某詞出現之 內部機率,藉由此內外部機率的關係來描述 extended word lattice 上新產生之節點與前 一個節點之間連接機率,以此來決定新產生弧上之分數。