• 沒有找到結果。

第六章 實驗結果與分析

6.2 擷取中英詞對與未知詞之實驗

6.2.2 擷取未知詞之實驗

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

C300),以共現頻率 4、5 作為門檻值所得到的結果則可以得到不錯的精確率,但因為篩 選出的正確候選中英遺留詞對過少,使得召回率低下。

6.2.2 擷取未知詞之實驗

在本實驗中我們從科學人、新聞語料、廣播會話語料、C300、C220 中擷取未知詞,並 評估其效果。我們首先從各語料中擷取候選中文遺留字詞,而所擷取到的候選中文遺留 字詞數量如下頁表 6.11 所示。之後對於各種實驗語料,依照 5.3.3 節所述方法建立詞性

表 6.10 被加入至英漢辭典模組的各語料之候選中英遺留詞對 科學人之篩選出的候選中英遺留詞對

哈伯 Hubble、通常 typically、樹突 dendritic、目前 current、蛋白 protein、

普恩蛋白 prion、首次 first、暴脹 inflation、史丹佛 Stanford、訊息 signal、造影 imaging、關鍵 crucial、探測車 rover、永續 sustainable、衰變 decay …

新聞語料之篩選出的候選中英遺留詞對

胡錦濤 Hu、新華 Xinhua、歐盟 EU、微軟 Microsoft、臉書 Facebook、北約 NATO 恐怖 terrorist、奧運 Olympic、德州 Texas、總理 Prime、史丹福 Stanford、

塔利班 Taliban、援引 quote、歐巴馬 Obama、馬英九 Ma … 廣播會話語料之篩選出的候選中英遺留詞對

宋楚瑜 James、登輝 Lee、大家 everyone、衛視 Satellite、馨田 xintian、民進黨 dpp 哈馬斯 Hamas、擦鞋 shoeshine、國民黨 kmt、雲林 yunlin、雙劍 shuangjian、

角度 perspective、寨子 Zhaizi、剛才 earlier、京廣 jingguang … C300 之篩選出的候選中英遺留詞對

情況 case、蜂窩 cellular、相應 respective、編程 program、微粒 microparticle、

治療 therapeutically、介導 mediate、側壁 sidewall、標識 identify、直鏈 linear 寡核甘酸 oligonucleotide、電機 motor、映射 map、具體 particular…

C220 之篩選出的候選中英遺留詞對

本文 herein、標識 identification、相應 respective、引物 primer、尋呼 paging、

碼元 symbol、外周 peripheral、轉染 transfect、制備 produce、藥物 agent、

市售 commercially、物理 physically、反義 antisense、升高 increase…

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

序列規則表。之後利用詞性序列規則的出現次數做為門檻值來取得不同的詞性序列規 則,再透過所取得各個詞性序列規則對候選中文遺留字詞進行篩選。對於所有候選中文 遺留字詞,我們透過人工的方式檢測其是否為未知詞,並藉由精確率(Precision)、召回 率(Recall)、F1-measure 三個評估指標來評估透過詞性序列規則對候選中文遺留字詞進 行篩選的效果,而公式(15)-(17)為各評估指標的定義。

精確率=篩選出的正確候選中文遺留字詞之數量

篩選出的候選中文遺留字詞之數量 (15)

召回率=篩選出的正確候選中文遺留字詞之數量

所有正確候選中文遺留字詞之數量 (16)

F1– measure =2 × Precision × Recall

Precision + Recall (17) 表 6.11 候選中文遺留字詞數量統計

語料名稱 候選中文遺留字詞數量

科學人 2484

新聞語料 2475

廣播會話語料 356

C300 4619

C220 3469

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 6.12、表 6.13、表 6.14 與下頁表 6.15、表 6.16 分別為以詞性序列規則出現次數 作為門檻值,並利用通過不同門檻值之各個詞性序列規則去對新聞語料、科學人、廣播 會話語料、C300、C220 之候選中文遺留字詞進行篩選所得到的結果,各個表中的 P 代 表精確率,R 代表召回率,F1代表 F1-measure。由表 6.12 的數據可看出,在新聞語料的 部分,門檻值為 5 或 10 時有相同的F1– measure,如此會遇到召回率與精確率的取捨

表 6.12 以通過不同門檻值之詞性序列規則進行篩選的結果(新聞語料)

門檻值 (出現次數) P R F1

5 0.621 0.915 0.745

10 0.625 0.907 0.745

15 0.625 0.896 0.742

20 0.624 0.890 0.741

25 0.625 0.885 0.740

30 0.630 0.883 0.741

表 6.14 以通過不同門檻值之詞性序列規則進行篩選的結果(廣播會話語料)

門檻值 (出現次數) P R F1

5 0.722 0.837 0.775

10 0.724 0.812 0.765

15 0.725 0.808 0.764

20 0.722 0.784 0.751

25 0.720 0.776 0.747

30 0.722 0.776 0.748

表 6.13 以通過不同門檻值之詞性序列規則進行篩選的結果(科學人)

門檻值 (出現次數) P R F1

5 0.632 0.943 0.756

10 0.631 0.937 0.754

15 0.631 0.928 0.751

20 0.631 0.921 0.749

25 0.629 0.907 0.743

30 0.627 0.894 0.737

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(trade-off)問題,而因為我們希望能取得較多正確候選中文遺留字詞,所以我們取召回率 較高的門檻值為 5 之結果,並把新聞語料之以門檻值為 5 所篩選出的候選中文遺留字詞 加入至中文辭典模組。如上頁表 6.13、表 6.14 與表 6.15、表 6.16 結果所示,在科學人、

廣播會話語料、C300、C220 部分, F1– measure 最高的是門檻值為 5 之結果,故我們 分別把這四種語料之以門檻值為 5 所篩選出的候選中文遺留字詞加入至中文辭典模組。

下頁表 6.17 為上述提到的被加入至中文辭典模組的各語料之候選中文遺留字詞。

由表 6.12、表 6.13、表 6.14、表 6.15、表 6.16 可以發現,除了廣播會話語料的結果 外,在其他實驗語料的結果中,召回率會隨著門檻值的提升而逐漸下降,這是因為隨著 門檻值的提升,可以用來篩選的詞性序列規則就越少,使得篩選出的正確候選中文遺

表 6.16 以通過不同門檻值之詞性序列規則進行篩選的結果(C220)

門檻值 (出現次數) P R F1

5 0.645 0.713 0.677

10 0.644 0.704 0.673

15 0.643 0.695 0.668

20 0.643 0.690 0.666

25 0.643 0.685 0.663

30 0.643 0.682 0.662

表 6.15 以通過不同門檻值之詞性序列規則進行篩選的結果(C300)

門檻值 (出現次數) P R F1

5 0.627 0.822 0.712

10 0.625 0.804 0.703

15 0.624 0.793 0.698

20 0.625 0.787 0.696

25 0.621 0.773 0.689

30 0.622 0.770 0.688

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

留字詞數量下降。而在表 6.12、表 6.13、表 6.14、表 6.15、表 6.16 的結果中,在不同門 檻值下所得到的各個精確率之間的最大差距只有 0.009(新聞語料的結果中的門檻值 5、

30),由此可看出不管是哪一種實驗語料,精確率在不同的門檻值下都有相近的水準。