• 沒有找到結果。

中文分詞和詞性標記系統之效能分析

第五章 實驗結果

5.1 斷詞系統之效能分析

5.1.1 中文分詞和詞性標記系統之效能分析

本節介紹中文分詞及詞性標記系統之訓練語料、測詴語料、系統所使用的詞典、

訓練模型特徵數量,以及如何分析系統效能和實驗結果。

5.1.1.1 訓練、測詴語料及中文詞典

本實驗所採用的中文斷詞訓練及測詴語料庫為 SIGHAN 在中文分詞競賽中所提 供標記正確分詞結果的語料。SIGHAN (Special Internet Group of the Association for Computational Linguistics)舉辦的會議是國際間關於中文分詞最有名的研討會,其中訓 練語料共有 8350369 個單元,測詴語料共有 196867 個單元。而由訓練語料以及特徵樣 版所產生的總特徵數共為 3882102 個。

而詞性標記系統所使用的訓練及測詴語料庫為中央研究院平衡語料庫 3.0 版,此

33

語料庫共有 9286 篇文章,總詞數為 5841942 個。我們從中取出 4426886 個詞做為訓練 語料,剩下 484070 詞為測詴語料。而詞性標籤共有 46 種,其 46 種詞性關係及詞性意 義的對應關係在附錄三表示,本研究在詞性標記訓練部分共產生 5176104 個特徵。

我們在此系統中所採用的內部詞典是向中研院中文處理小組所發行的中央研究院 平衡語料庫詞典,由中研院資訊所及語言所對語言進行分析所設計的。詞典內容包含 詞以及詞性組合標籤,詞典的詞數統計結果如表 5-1:

表 5-1 中文內部詞典統計表

詞數

一字詞 7153 二字詞 55662 三字詞 13696 四字詞 11237

五字詞 252

六字詞 114

七字詞 23

八字詞 6

總計 88142

5.1.1.2 評估方法及實驗結果

一、 斷詞效能評估

我們使用精確率(Precision)、召回率(Recall)及 F 分數(F-score)來作為評估中文斷詞 實驗系統的效能,此三種方法定義如下式表示:

斷詞器正確斷出的詞數

精確率 斷詞器斷出的總詞數 (5-1)

斷詞器正確斷出的詞數

召回率 參考答案的總詞數 (5-2)

34

F

2

 

精確率 召回率

分數 精確率 召回率 (5-3)

我們在此舉例說明,句子「電影明星永遠是人們視覺的焦點。」,其實際的評估 範例如下列表示:

參考答案:

電影明星|永遠|是|人們|視覺|的|焦點|。

分詞系統輸出結果:

電影|明星|永遠|是|人們|視覺|的|焦點|。

分詞系統正確斷出的詞數:6,分詞系統斷出的總詞數:8,參考答案的總詞數:7 精確率:0.75,召回率:0.86,F 分數:0.80

圖 5-1 中列出了參考答案詞彙序列和分詞系統輸出結果,參考答案的總詞數為 7 個,斷詞系統斷出的詞數有 8 個,其中有 6 個詞和參考答案相同,我們由式子(6-1)到 (6-3)來評估此範例之系統效能,得到精確率為 0.75,召回率為 0.86,F 分數為 0.80。

本論文的中文分詞系統之精確率、召回率以及 F 分數如表 5-2 所示,由表中可以 看出我們在中文分詞系統對中文分詞的效能上已有很好的結果:

表 5-2 中文分詞實驗結果

精確率 召回率 F 分數 外部測詴語料 95.95% 96.79% 96.37 內部測詴語料 98.94% 98.82% 98.88

二、 詞性標記效能評估

而在詞性標記的實驗中,我們將已有標準分詞結果之中文詞彙序列輸入詞性標記 系統,系統將每個詞彙標記出最佳對應詞性標籤輸出;我們使用正確率來作為評估詞 性分析系統的效能,正確率之定義如下:

35

系統標記詞性和參考答案相同的詞數

正確率= 總詞數 (5-4)

我們在詞性標記系統測詴中,所得到的內部測詴正確率 96.01%,而外部測詴結果 為 94.73%,由實驗數據顯示,我們在中文詞性標記系統已有不錯的效能。

得到了整體正確率數據後,我們對於個別的詞性標記分析其效能,本實驗採用精 確率(Precision)、召回率(Recall)及 F 分數(F-score)來評估,其定義方式如下:

系統正確標出的總詞性數(單一詞性)

精確率= 系統標出的總詞性數(單一詞性)

(5-5) 系統正確斷出的總詞性數(單一詞性)

召回率= 參考答案的總詞性數(單一詞性) (5-6)

=2

F  

精確率 召回率

分數 精確率 召回率 (5-7)

在本實驗中 46 個詞性的精確率、召回率、F 分數以及出現次數如表 5-3 所示,其 中如「Dfb」(動詞後程度副詞),由於資料量較少,因此容易被判斷為「Dfa」(動詞 後程度副詞);「Neqb」(後置數量定詞)的情形也跟「Dfb」相同,由於語料的不足容 易誤判為「Neqa」(數量定詞)。而其餘詞性在詞性標記方面則都有很好的效能表現。

36

相關文件