• 沒有找到結果。

第六章 實驗結果與分析

6.2 擷取中英詞對與未知詞之實驗

6.2.1 擷取中英詞對之實驗

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Parallel Text - Part 1 、Part 2 語料之去除重複句對、短句後的中英平行句對進行合併就 得到廣播會話語料。

6.2 擷取中英詞對與未知詞之實驗

本研究為了評估透過 5.3 節所述的方法去擷取中英詞對與擷取未知詞的效果,將分別於 6.2.1 節、6.2.2 節中介紹擷取中英詞對之實驗及擷取未知詞之實驗。

6.2.1 擷取中英詞對之實驗

在本實驗中我們從科學人、新聞語料、廣播會話語料、C300、C220 中擷取中英詞對,

並評估其效果。我們首先從各語料中擷取候選中英遺留詞對,而所擷取出的候選中英遺 留詞對之數量如表 6.4 所示。之後我們依照 5.3.2 節所述之方法透過可能性比例與共現頻 率對候選中英遺留詞對進行篩選,並利用人工的方式去檢測以不同的共現頻率作為門檻 值所篩選出的結果:在科學人、新聞語料、廣播會話語料的部分,我們對篩選出的不同 共現頻率之所有候選中英遺留詞對都進行人工檢測,但在 C300、C220 的部分,因為篩 選出的共現頻率為 2、共現頻率為 1 的候選中英遺留詞對數量皆在數千以上,所以對於 共現頻率為 2、共現頻率為 1 的候選中英遺留詞對,我們從每 100 名中取前 50 名進行檢 測。我們使用精確率(Precision)、召回率(Recall)、F1-measure 三個評估指標進行評估,

各評估指標的定義如下頁公式(12)-(14)所示。

表 6.4 候選中英遺留詞對數量統計 語料名稱 候選中英遺留詞對數量

科學人 5410

新聞語料 3502

廣播會話語料 831

C300 9326

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

39

表 6.6 以不同的共現頻率作為門檻值之篩選結果(科學人)

門檻值(共現頻率) P R F1

1 0.337 1.000 0.504

2 0.368 0.703 0.483

3 0.782 0.422 0.548

4 0.826 0.265 0.401

5 0.856 0.187 0.306

表 6.7 以不同的共現頻率作為門檻值之篩選結果(廣播會話語料)

門檻值(共現頻率) P R F1

1 0.416 1.000 0.588

2 0.579 0.751 0.654

3 0.747 0.468 0.575

4 0.821 0.318 0.458

5 0.841 0.260 0.397

表 6.5 以不同的共現頻率作為門檻值之篩選結果(新聞語料)

門檻值(共現頻率) P R F1

1 0.314 1.000 0.478

2 0.347 0.874 0.497

3 0.403 0.659 0.500

4 0.393 0.544 0.456

5 0.684 0.317 0.434

精確率= 篩選出的正確候選中英遺留詞對之數量

篩選出的候選中英遺留詞對之數量 (12)

召回率= 篩選出的正確候選中英遺留詞對之數量

所有正確候選中英遺留詞對之數量 (13)

F1– measure =2 × Precision × Recall

Precision + Recall (14)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

上頁之表 6.5、表 6.6、表 6.7 與表 6.8、表 6.9 分別是以不同的共現頻率作為門檻值 去對新聞語料、科學人、廣播會話語料、C300、C220 之候選中英遺留詞對進行篩選的 結果,各表中之 P 代表精確率,R 代表召回率,F1代表 F1-measure。如表 6.5、表 6.6、

表 6.8、表 6.9 數據所示,在新聞語料、科學人、C300、C220 部分,F1-measure 最高的 都 是 門 檻 值 為 3 之 結 果 , 我 們 分 別 把 這 四 種 語 料 之 以 門 檻 值 為 3 所 篩 選 出 的 候選中英遺留詞對加入至英漢辭典模組。如表 6.7 數據所示,在廣播會話語料部分,

F1-measure 最高的是門檻值為 2 之結果,所以我們把廣播會話語料之以門檻值為 2 所篩 選出的候選中英遺留詞對加入至英漢辭典模組。下頁表 6.10 為上述提到的各語料之被加 入至英漢辭典模組的候選中英遺留詞對。

由表 6.5、表 6.6、表 6.7、表 6.8、表 6.9 中數據可看出,在各實驗語料的結果中,

雖然以共現頻率 1、2 作為門檻值所得到的結果可以得到不錯的召回率,但因為所篩選 出的共現頻率為 1、共現頻率為 2 的候選中英遺留詞對大部分都不是正確的中英詞對,

表 6.9 以不同的共現頻率作為門檻值之篩選結果(C220)

門檻值(共現頻率) P R F1

1 0.253 1.000 0.404

2 0.415 0.899 0.567

3 0.512 0.772 0.616

4 0.566 0.573 0.569

5 0.602 0.460 0.521

表 6.8 以不同的共現頻率作為門檻值之篩選結果(C300)

門檻值(共現頻率) P R F1

1 0.347 1.000 0.516

2 0.541 0.797 0.644

3 0.697 0.714 0.706

4 0.757 0.576 0.654

5 0.749 0.447 0.560

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

C300),以共現頻率 4、5 作為門檻值所得到的結果則可以得到不錯的精確率,但因為篩 選出的正確候選中英遺留詞對過少,使得召回率低下。