綴詞語言模型的訓練

第二章階層式語言模型

2.3 綴詞語言模型的訓練

2.3.1 綴詞的選擇與拆解

綴詞的組合結構可拆解為「詞幹」與「詞綴」的組合，拆解方式如表 2.6 所示，依中研院所統計的詞綴數量太過龐大，在此我們參照中文資訊處理分詞規範中，僅收錄常出現的衍生詞綴、語法詞綴與名詞性接尾詞，總計共 148 個後詞綴。

為避免辨認詞典收錄過多的短詞，反而犧牲掉原先未經拆解即可收錄之高詞頻一般詞的空間，故將詞頻高的詞彙保留其長詞型式。在此綴詞將依照詞頻高低以兩種型式收錄於詞典當中：

第一種為出現次數於前 50,000 詞內的高詞頻綴詞直接收錄於詞典；第二種為出現次數於 50,000 詞之外的綴詞均拆解為詞幹與綴詞收錄在詞典裡。

表 2.6：綴詞拆解範例

綴詞詞幹詞綴

靈敏度靈敏度

視覺系視覺系

拋棄式拋棄式

經由上述拆詞過程之後，在原先出現次數 50,000 到 60,000 的詞彙中，一共拆解了 957 個綴詞，其中 919 個詞幹已收錄在前 50,000 詞，屬於高詞頻一般詞部分，故在此綴詞 subword 只新增了 38 個，而其詞典剩餘空間則收錄原先不在詞典中其餘高詞頻一般詞，直至到達詞典容量上限為止，藉此提高詞典涵蓋率，降低 OOV 的數量。

2.3.2 綴詞語言模型之建立

綴詞的分群原則是以詞綴做為區分，相異的綴詞各有其不同的涵義，與詞綴相關聯的詞幹也有其相關詞性(POS)，其詞性如表 2.7 所示，故針對目前所收錄的 148 個常見詞綴各自視為

不同的類別比視為一個大類別來的適當，以其訓練詞彙間的機率來的更加可靠。

表 2.7：詞幹詞性範例

綴詞類別詞幹詞性(46 類) 範例

們 Na 親友們、情侶們

記、物 Na、VA、VB、VC、VE、VH、VK 復仇記、漂遊記

賽、會、制、式 Na、VA、VC、VE、VG 邀請賽、責任制

本研究中會先對目前所收錄的 146 個常見詞綴建構出一個綴詞表，之後在 word lattice 上透過查表方式(綴詞表與詞性表)判斷哪些詞彙可以重新構回綴詞。如圖 2.3 觀察到當 lattice 上的「鄉親」與「們」經由綴詞表發現可組合成「鄉親們」並且「鄉親」符合該詞綴類別的詞性表，此時將會產生新的辨識路徑，而後將重新計算該詞與前後詞彙間的機率，即統計圖 2.3 中新路徑實線的機率分佈。

相信

鄉親們

可以

鄉親們

諒解總統

原始路徑

構詞後路徑

圖 2.3：新辨識路徑

我們依 148 個常見詞綴各自分為 148 個類別，將具有相同詞綴的新詞放置同一類別中，綴詞則依據其詞綴代表的類別做取代，最後透過一般詞與類別間的機率與在其類別內出現新詞之機率，藉由這兩種外部機率(Inter-word probability)和內部機率(Intra-word probability)來重新配置語言模型分數。原先 tri-gram 的機率預估式如下式(2.6)所示，bi-gram 與 uni-gram 類推之：

統計綴詞在該所屬類別內出現的機率，在此採用 uni-gram 模型預估之，搭配 good-turing smoothing 作為此內部機率，若為高詞頻的綴詞與一般詞情況下，則此內部機率為 1，如下式

13 Lattice with

New Score

第二級中本研究首先對綴詞建立一個更精細的語言模型，採用 class-based approach 的構想，

對綴詞進行分類，依據不同詞綴建立不同的類別，將綴詞分類細緻化，同類別內的詞彙共用相同的外部機率，解決了部分詞彙出現次數稀疏的問題，最後在 word lattice 上，將分數替換成此語言模型的分數，進行重新辨識找出最佳的辨識結果。

2.5 結果分析

在這小節中，我們將以三種方式來評估傳統式語言模型(經由 TF-IDF 選詞方式選出六萬詞，

在文檔中考慮語速影響與詞綴構詞之中文語音辨認系統 (頁 21-24)

第二章 階層式語言模型

2.3 綴詞語言模型的訓練

2.3.1 綴詞的選擇與拆解

2.3.2 綴詞語言模型之建立

2.5 結果分析

第二章階層式語言模型