• 沒有找到結果。

第四章 加權有限狀態機之實驗分析

4.1 文本前處理的分析

4.1.2 依詞性分類選詞法

以往選詞方式為 IDF,依據詞彙在語料庫中出現的文章篇數來判定詞彙的重 要性,此方式雖然比起傳統直接收錄高詞頻的詞彙作為詞典來的優異,但並未考 慮至詞彙的詞頻,因此選詞方式仍然不夠嚴謹。

中文詞可以分為實詞與虛詞,實詞數量為無限的,虛詞數量為有限的,在詞 典數量有限的情況,我們應慎選收錄進詞典中的實詞,使詞典更有效率,因此先 將詞彙依實詞與虛詞做分類,為了對這兩類以不同的標準選詞,選詞方式除了過 去使用的 IDF 選詞法,這裡新增了一個更為嚴謹的選詞方式,算出各個詞彙在 語料庫中應出現的文章篇數,和實際出現的文章篇數做比例,我們可以按照此比 例移除在語料庫中分布不均衡的詞彙。

本研究將處理後的詞彙依照詞性地方詞(Nc)、非謂形容詞(A)、連接詞(Cab)、

連接詞(Cbb)、副詞(D)、位置詞(Ncd)、數詞定詞(Neu)、狀態不及物動詞(VH)、

動作使動動詞(VAC)、動作及物動詞(VC)、動作前程度副詞(Dfa)、時態標記(Di)、

普通名詞(Na)、專有名詞(Nb)、指代定詞(Nep)、後置數量定詞(Neqb)、感嘆詞(I)、

語助詞(T)、雙賓動詞(VD)、動作謂賓動詞(VF)狀態類及物動詞(VI)、狀態句賓動 詞(VK)、SHI、Nv、後置詞(Ng)、V_2 做分類,再依詞性屬性分群,分為開放類 和封閉類兩群,開放類詞性的詞彙即提高選詞標準,降低收錄進詞典中的數量,

封閉類詞性的詞彙則降低標準,提高收錄進詞典中的數量。

接著選詞,先以 IDF 刪除出現文章篇數低的詞彙,這階段僅以各詞彙出現 文章的篇數做考量,下表為 IDF 法刪除的詞彙。

47

表 4.2: 由 IDF 移除的詞

詞彙 詞頻 篇數

艾賽克斯號 417 23

利奇馬 394 35

海德格爾 388 35

帕希佐 382 112

庫德民主黨 377 104

紅火蟻 372 49

潮下帶 360 13

土衛 336 33

劍魚座 323 22

由實驗結果可以觀察出,IDF 選詞法雖然可以移除僅出現在極端少數文章中 的詞彙,但由於只考慮到出現文章數,詞頻並未列入考量,因此在選詞時會受到 限制,例如,塔利班,該詞的詞頻為 5638,出現文章數為 649,從詞頻與出現文 章數的落差可以視該詞為只出現在特定領域的詞彙,若以 IDF 移除該詞,會使 得例如駛進(詞頻為 727,出現文章數為 601)、前行(詞頻為 801,出現文章數為 640)等等較為泛用的詞彙連帶被移除,因此增加一選詞方式,針對出現文章篇數 非極端少數但分布不平均的詞彙,詞頻與出現文章數皆為考量,算出各個詞彙的 應出現文章數,再由應出現文章數與實際出現文章數做比較,此階段的選詞法更 為嚴謹,實驗結果可以看出,這階段的選詞法確實可以移除分布較不平均的詞 彙。

48

表 4.3: 新增選詞法移除的詞彙

詞彙 詞頻 實際文章數 應出現文章數 Ratio

馬其頓 14041 1428 7001 0.2040

車臣 11076 1273 6290 0.2024

親民黨 11610 1318 6436 0.2048

引種 10711 135 6184 0.0218

賽季 9683 704 5862 0.1201

東帝汶 8707 1031 5520 0.1868

球會 5993 733 4341 0.1688

塔利班 5638 649 4159 0.1560

程泉 4368 254 3440 0.0738

由於辨識結果只會輸出有收錄在詞典中的詞彙,因此希望將所有存在的詞彙 皆收錄進詞典中,但受限於記憶體的大小,限制開放類詞性的詞彙,其中以普通 名詞(Na)、專有名詞(Nb)、地方詞(Nc)移除的數目最多,這些詞性的詞彙容易隨 著時間、地點等而變化;選詞後,六萬詞內更動的詞共有 3980 個,第六萬詞的 詞頻為 149。

49

表 4.4: 六萬詞內各詞性詞彙更動的個數

詞性 IDF 新增選詞 詞性 IDF 新增選詞

Nc 869 87 A 11 .0

Cab 0 0 Cbb 2 0

D 15 1 Ncd 0 4

Neu 1 0 VH 27 6

VAC 0 0 VC 68 0

Dfa 1 0 Di 0 0

Na 1149 6 Nb 3730 0

Nep 0 0 Neqb 0 0

I 0 0 T 0 0

VD 0 0 VF 0 0

VI 0 0 VK 0 0

SHI 0 0 Nv 0 0

Ng 0 0 V_2 0 0

下圖為選詞後,各詞類詞典的涵蓋率,其中 Nb 的涵蓋率最低,詞性 Nb 中 許多詞彙為人名,詞典內收錄人名對辨識系統幫助不大,因此我們僅讓 Nb 的涵 蓋率為 57.35%。

50

圖 4.2: 詞典中各詞性的涵蓋率

經由 上述方 法 選詞 後,選 出 六萬詞 的詞 典在 訓練語料的涵蓋率為 96.36%,在測試語料的涵蓋率為 97.23%,平均詞長為 2.36 個字,下表為選詞前 後對訓練語料計算混淆度。

表 4.5: 選詞前的混淆度(對 inside test)

order PPL PPL1 選詞前 3 189.373 232.54

選詞後 3 189.736 233.092

相關文件