改變語言模型分數

第四章第二級語言模型

4.2.2 改變語言模型分數

研究者於上一小節探討保持第一級和第二級 word lattice 在條件相同情況下，透過 word penality 之影響，使得原路徑被壓抑，進而選擇構詞後的新路徑。於本小節中，

研究者將改變第二級語言模型分數，即第二級 extended word lattice 上路徑分數不再直接由第一級未構詞前之半詞串路徑相加而來，而是對構詞的人名、詞綴和數量複合詞視為三種類別，再由語料裡去統計類別和詞之間的機率(外部機率, inter-probability)，

以及類別內出現某長詞的機率(內部機率, intra probability)，藉此兩機率對第二級之

本論文則利用以下數學式來重新計算第二級語言模型分數： Pr(class|W1) 是 inter-word probability描述詞和類別之間的機率 Pr (n1|class) 是 intra-word probability描述類別中出現某長詞的機率

此處以下兩點來描述內外部(inter and intra)機率之求法 A. 外部機率(Inter-word probability) Pr(class|W1) 的求法：

將第二級構詞所產生的詞中，把人名、詞綴和數量複合詞視為三大類別{PN, MD, FT}，再將三個大類別各自細分成多個小類別，計算一般詞和這些類別之間連接的機率。目前由於類別細分需要較長時間，目前實驗室在分類上尚未完整，究此，暫以簡單之類別進行分類 (以詞綴為例)，最後可觀察到類別細緻化後之實驗結果對本研究所提出路徑分數給予之方式有正面幫助，使辨認效果更佳。

在詞綴類別細分上，以「綴詞」來區分類別，將前後詞綴中具相同綴詞的詞放置同ㄧ類別，如此下來有 301 個詞綴類別及人名和數量複合詞兩個大類別共有 303 個類別，

進而使用這些類別來計算分數配置時所需的外部機率，計算過程如下：

 機率計算步驟如下：

步驟 1：將語料中不在辨認辭典中人名、詞綴和數量複合詞分別以上述類別存在。

 說明：目前由於人名和數量複合詞分類尚未建立，這裡僅針對詞綴加以分類，分類方法如前面所述，再將訓練語料中且不在辭典內的三類詞以這些類別替代。

步驟 2：對以類別替代後之訓練語料進行統計來求取詞和類別之間的 bi-gram 機率。

B. 內部機率(Intra-word probability) Pr (n1|class) 的求法：

於此部分，機率採人名、詞綴和數量複合詞各自的類別分開獨立計算機率模型 a. 人名(PN)：

將語料內不在辨認辭典中的人名，依據其於文章中的出現次數列出，將這些人名

「以 word 的形式」來計算某人名出現在此類別之機率，倘若辨認語料(TCC300 測試語料)中人名出現此些人名之外，則藉由 smoothing 方式來給予一個較低之分數，

使其在辨認時亦可能辨認正確，在此 smoothing 方式採 Good-Turing smoothing。

測試語料)中詞綴出現此些詞綴之外，則藉由 smoothing 方式來給予一個較低之分數，使其在辨認時亦可能辨認正確，在此 smoothing 方式採 Good-Turing smoothing。

c. 數量複合詞(FT)：

(1) 半詞二連文機率模型：將語料內不在辨認辭典中的數量複合詞，依據其於文章中的出現次數列出，將此些數量複合詞「以半詞(subword)的形式」來統計這些半詞互相連接的次數，進而計算數量複合詞半詞之間串接機率。

(2) Finite State Machine(FSM)機率模型：將語料內不在辨認辭典中的數量複合詞，依據其於文章中的出現次數列出，將此些數量複合詞「以狀態(state)的形式」呈現，統計訓練語料中這些狀態的轉移次數，再利用此些次數來計算在 FSM 架構內狀態間轉移的機率，此部分詳細計算方式為章節 4.1.2.3 所述。

此時各類內部機率所使用機率形態如下表 4-3 所示：

表 4-3 各類內部機率使用機率型態

人名詞綴 數量複合詞

機率型態 word uni-gram word uni-gram 1. subword bi-gram

2. FSM transition probability

經由 A 和 B 兩方面分別可求得「詞和類別」之外部連接機率和類別內某詞出現之 內部機率，藉由此內外部機率的關係來描述 extended word lattice 上新產生之節點與前一個節點之間連接機率，以此來決定新產生弧上之分數。

在文檔中中文大詞彙語音辨認之語言模型改進 (頁 50-54)

第四章 第二級語言模型

4.2.2 改變語言模型分數

第四章第二級語言模型