第二章 階層式語言模型
2.3 綴詞語言模型的訓練
2.3.1 綴詞的選擇與拆解
綴詞的組合結構可拆解為「詞幹」與「詞綴」的組合,拆解方式如表 2.6 所示,依中研院 所統計的詞綴數量太過龐大,在此我們參照中文資訊處理分詞規範中,僅收錄常出現的衍生詞 綴、語法詞綴與名詞性接尾詞,總計共 148 個後詞綴。
為避免辨認詞典收錄過多的短詞,反而犧牲掉原先未經拆解即可收錄之高詞頻一般詞的空 間,故將詞頻高的詞彙保留其長詞型式。在此綴詞將依照詞頻高低以兩種型式收錄於詞典當中:
第一種為出現次數於前 50,000 詞內的高詞頻綴詞直接收錄於詞典;第二種為出現次數於 50,000 詞之外的綴詞均拆解為詞幹與綴詞收錄在詞典裡。
表 2.6:綴詞拆解範例
綴詞 詞幹 詞綴
靈敏度 靈敏 度
視覺系 視覺 系
拋棄式 拋棄 式
經由上述拆詞過程之後,在原先出現次數 50,000 到 60,000 的詞彙中,一共拆解了 957 個 綴詞,其中 919 個詞幹已收錄在前 50,000 詞,屬於高詞頻一般詞部分,故在此綴詞 subword 只新增了 38 個,而其詞典剩餘空間則收錄原先不在詞典中其餘高詞頻一般詞,直至到達詞典 容量上限為止,藉此提高詞典涵蓋率,降低 OOV 的數量。
2.3.2 綴詞語言模型之建立
綴詞的分群原則是以詞綴做為區分,相異的綴詞各有其不同的涵義,與詞綴相關聯的詞幹 也有其相關詞性(POS),其詞性如表 2.7 所示,故針對目前所收錄的 148 個常見詞綴各自視為
11
不同的類別比視為一個大類別來的適當,以其訓練詞彙間的機率來的更加可靠。
表 2.7:詞幹詞性範例
綴詞類別 詞幹詞性(46 類) 範例
們 Na 親友們、情侶們
記、物 Na、VA、VB、VC、VE、VH、VK 復仇記、漂遊記
賽、會、制、式 Na、VA、VC、VE、VG 邀請賽、責任制
本研究中會先對目前所收錄的 146 個常見詞綴建構出一個綴詞表,之後在 word lattice 上 透過查表方式(綴詞表與詞性表)判斷哪些詞彙可以重新構回綴詞。如圖 2.3 觀察到當 lattice 上 的「鄉親」與「們」經由綴詞表發現可組合成「鄉親們」並且「鄉親」符合該詞綴類別的詞性 表,此時將會產生新的辨識路徑,而後將重新計算該詞與前後詞彙間的機率,即統計圖 2.3 中 新路徑實線的機率分佈。
相信
鄉親 們
可以
鄉親 們
諒解 總統
原始路徑
構詞後路徑
圖 2.3:新辨識路徑
我們依 148 個常見詞綴各自分為 148 個類別,將具有相同詞綴的新詞放置同一類別中,綴 詞則依據其詞綴代表的類別做取代,最後透過一般詞與類別間的機率與在其類別內出現新詞之 機率,藉由這兩種外部機率(Inter-word probability)和內部機率(Intra-word probability)來重新配 置語言模型分數。原先 tri-gram 的機率預估式如下式(2.6)所示,bi-gram 與 uni-gram 類推之:
12
統計綴詞在該所屬類別內出現的機率,在此採用 uni-gram 模型預估之,搭配 good-turing smoothing 作為此內部機率,若為高詞頻的綴詞與一般詞情況下,則此內部機率為 1,如下式
13 Lattice with
New Score
第二級中本研究首先對綴詞建立一個更精細的語言模型,採用 class-based approach 的構想,
對綴詞進行分類,依據不同詞綴建立不同的類別,將綴詞分類細緻化,同類別內的詞彙共用相 同的外部機率,解決了部分詞彙出現次數稀疏的問題,最後在 word lattice 上,將分數替換成 此語言模型的分數,進行重新辨識找出最佳的辨識結果。
2.5 結果分析
在這小節中,我們將以三種方式來評估傳統式語言模型(經由 TF-IDF 選詞方式選出六萬詞,