實驗流程設計 - 以人工斷詞測試語料評估斷詞效能之實驗 - 實驗結果與分析 - 應用平行語料建構中文斷詞組件

第六章實驗結果與分析

6.3 以人工斷詞測試語料評估斷詞效能之實驗

6.3.1 實驗流程設計

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

訓練斷詞模型時所加入的辭典包含了中文辭典模組中的所有辭典。

為了比較我們的系統與其他斷詞系統或斷詞模型間的斷詞效能差異，我們將中研院斷詞系統[2]與 Yahoo 開發的斷章取義斷詞系統[41]、SCS 之 Pku 及 Ctb 斷詞模型、

ICTCLAS 漢語分詞系統[27]（以下簡稱 ICTCLAS）作為我們的系統之比較的對象。

在斷詞效能評估方面，我們共使用了精確率（Precision）、召回率（Recall）、F1-measure 三個評估指標去評估斷詞效能，而在下頁表 6.18 中的 P 代表精確率，R 代表召回率，F1

代表 F1-measure；以下為評估指標的個別定義。

精確率= 系統斷出的正確詞數

系統斷出的詞數 (18)

召回率= 系統斷出的正確詞數

參考答案中的所有詞數 (19)

F₁– measure =2 × Precision × Recall

Precision + Recall (20)

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

6.3.2 實驗結果與分析

上頁表 6.18 為本系統對不同領域語料之斷詞效能。此外我們也將表 6.18 之各結果的精確率、召回率的數據，改成用系統斷出的詞數、系統斷出的正確詞數、參考答案的所有詞數來表示，並將結果收錄於附錄中。表 6.18 中之加入未知詞與中英詞對欄位表示產生訓練語料時是否加入未知詞及中英詞對，利用英漢翻譯資訊處理交集型歧異欄位表示產生訓練語料時是否利用英漢翻譯的資訊去處理交集型歧異。在表 6.18 各個實驗語料的實驗數據中，我們將我們的系統之最高 F1-measure 與其他的斷詞系統或斷詞模型中的最高 F1-measure 用紅色粗體加斜體標示。因為從 LDC 購買的廣播會話語料有版權問題，所以我們並沒有利用中研院斷詞系統、斷章取義斷詞系統對其進行斷詞，而在表 6.18 廣播會話語料之中研院斷詞系統、斷章取義斷詞系統結果部分我們則將其標示為「-」。

以下為我們的系統與其他的斷詞系統或斷詞模型的斷詞效能比較。在表 6.18 科學人部分，我們的系統的最高 F1-measure 為 0.855，高於 SCS 之 Pku、Ctb 斷詞模型、ICTCLAS、

斷章取義斷詞系統之 F1-measure，比起斷詞效能最佳的中研院斷詞系統之 F1-measure 低了 0.049。在新聞語料部分，我們系統的最高 F1-measure 為 0.787，比起斷詞效能最佳的中研院斷詞系統之 F1-measure 低了 0.1，但高於斷章取義斷詞系統之 F1-measure。在廣播會話語料的部分，我們系統的最高 F1-measure 為 0.837，低於 SCS 之 Pku、Ctb 斷詞模型、ICTCLAS 之 F1-measure，但我們的系統與 Pku、Ctb 斷詞模型、ICTCLAS 的 F1-measure 之差距皆在 0.04 以內。

由以上分析可看出，在三種實驗語料的結果中，我們的系統之最佳斷詞效能都無法優於所有其他的斷詞系統或斷詞模型之斷詞效能。但在科學人、廣播會話語料部分，我們的系統之最高 F1-measure 與斷詞效能最佳的其他斷詞系統或斷詞模型之 F1-measure 的差距都在 0.05 以內，且我們的系統之最高 F1-measure 都在 0.835 以上，因此我們覺得這顯示了我們的系統能夠有一定的斷詞效能。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在表 6.18 的結果中，不論訓練斷詞模型時加入辭典或未加入辭典，在科學人、新聞語料、廣播會話語料部分，比起沒有利用英漢翻譯資訊處理交集型歧異的實驗結果之 F1-measure，有利用英漢翻譯資訊處理交集型歧異的實驗結果之 F1-measure 皆能提升，

而其中 F1-measure 提升最多的實驗結果為訓練斷詞模型時未加入辭典的情況下，新聞語料部分之利用 SCS 訓練斷詞模型，且有加入未知詞及中英詞對的結果（F1-measure 由 0.762 提升至 0.787）。因此我們覺得這顯示了與沒有利用英漢翻譯資訊處理交集型歧異相比，有利用英漢翻譯資訊處理交集型歧異應能夠使斷詞效能提升。表 6.19 則為測試語料中的一些未利用與利用英漢翻譯資訊處理交集型歧異所得到之斷詞結果，而表 6.19 中的兩句句子在利用英漢翻譯資訊處理交集型歧異後都可變成正確斷詞結果。

由表 6.18 可看出，在訓練斷詞模型時未加入辭典的情況下，不論實驗語料是科學人或新聞語料還是廣播會話語料，比起沒有加入未知詞與中英詞對的實驗結果之 F1-measure ，有加入未知詞與中英詞對的實驗結果之 F1-measure 皆能提升，其中 F1-measure 提升最多的為新聞語料部分之利用 SCS 訓練斷詞模型，且有利用英漢翻譯資訊處理交集型歧異的結果（F1-measure 由 0.769 提升至 0.787）。因此我們覺得這顯示了在訓練斷詞模型時未加入辭典的情況下，有加入未知詞與中英詞對應可以對斷詞效能的提升有一定的幫助。下頁表 6.20 則為測試語料中的一些未加入與加入未知詞與中英詞對所得到之斷詞結果，而表 6.20 中的兩句句子在加入未知詞與中英詞對後都可變成正確斷

表 6.19 未利用與利用英漢翻譯資訊處理交集型歧異所得到之斷詞結果正確斷詞結果：但/其他/人/還有/疑慮/。

正確斷詞結果：笑/的/神經/迴路/存在/於/大腦/的/非常/古老/區域/，

未利用英漢翻譯資訊處理交集型歧異所得到之斷詞結果

利用英漢翻譯資訊處理交集型歧異所得到之斷詞結果

但/其/他人/還有/疑慮/。但/其他/人/還有/疑慮/。

笑/的/神經/迴路/存/在於/大腦/的/非常/古老/區域/，

笑/的/神經/迴路/存在/於/大腦/的/非常/古老/區域/，

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

果，但在訓練斷詞模型時加入辭典的情況下則會得到正確斷詞結果；上頁圖 6.3 之範例 (a)為第一種情況的例子，因為辭典中包含詞彙「維珍藍」，所以在訓練斷詞模型時加入辭典的情況下會得到正確斷詞結果，而上頁圖 6.3 中之斷詞標準答案是以人工斷詞方式取得。第二種情況為：對某一中文句進行斷詞時，在訓練斷詞模型時未加入辭典的情況下會得到正確斷詞結果，在訓練斷詞模型時加入辭典的情況下則會得到錯誤斷詞結果。

上頁圖 6.3 之範例（b）、範例（c）為第二種情況的例子；在範例（b）、範例（c）中訓練斷詞模型時未加入辭典的情況下皆會得到正確斷詞結果，但在範例（b）中訓練斷詞模型時加入辭典的情況下，因為辭典中包含詞彙「孟德爾」及「德爾」，所以會將中文句斷成錯誤斷詞結果；在範例（c）中訓練斷詞模型時加入辭典的情況下，因為辭典中包含較不常見之詞彙「的是」，所以會將中文句斷成錯誤斷詞結果。我們覺得因為受到上述第二種情況的影響，所以訓練斷詞模型時加入辭典的結果之斷詞效能可能差於訓練斷詞模型時未加入辭典的結果之斷詞效能，例如若對測試語料進行斷詞後，上述之第二種情況的出現次數多於第一種情況的出現次數的話，則訓練斷詞模型時加入辭典的結果之斷詞效能會差於訓練斷詞模型時未加入辭典的結果之斷詞效能。

在文檔中應用平行語料建構中文斷詞組件 - 政大學術集成 (頁 59-67)

實驗流程設計

第六章 實驗結果與分析

6.3 以人工斷詞測試語料評估斷詞效能之實驗

6.3.1 實驗流程設計

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第六章實驗結果與分析

立政治大學

立政治大學

立政治大學

立政治大學