第四章 實驗與結果
第三節 實驗結果與討論
本研究的實驗將根據 OMIM 的 morbid 所提供的人類遺傳疾病與基因正確配 對所得到的正確句子 1,000 句,以及隨機抽取的錯誤句子 1,000 句用來當作學習 的語料庫,之後再將依據不同門檻值而擷取出來的規則對正確與錯誤的句子各
200 句進行測試,表 4-2 為實驗結果,表示在不同門檻值(threshold)下,應用規則 於測試資料所得到的準確率(precision)及回收率(recall)。為了同時衡量準確率與回 收率的結果,我們使用常用的 F-score 為標準,F-score 公式如下所示:
F
(12)表 4-2 實驗結果
Threshold Rule 數量 Positive Negative Precision Recall F-score 0.1 52 127 53 70.6% 63.5% 66.9%
0.3 33 119 49 70.8% 59.5% 64.7%
0.5 22 106 43 71.1% 53.0% 60.7%
0.7 9 47 17 73.4% 23.5% 35.6%
0.9 5 35 10 77.7% 17.5% 28.6%
Baseline(0.8) 91.6% 38.1% 53.81%
Baseline(0.1) 5.4% 99% 10.24%
表 4-2 中的 baseline 為陳立哲在 2011 的論文使用一般比例公式所得出的分數,
可以看到的是為很極端的分數,當如果想要 precision 好的話可以達到 91.6%,但 是 recall 值就因此只有 38.1%;而如果想要 recall 高的話可以達到 99%,但是
precision 確只剩 5.4%,當然如果在特殊情況下需要取回全部的資料,那麼陳立哲 的將會比較適合,可是平均來說,本實驗的成果會比陳立哲的還好。
從表 4-2 可以知道,當 threshold 設得越小時,所取出的規則的數量就越多,
回收率也越高,但是對於 threshold 取在中間的情況來講,雖然回收率相對來講比
較低,但是其準確率卻差不多,這就表示雖然規則數量多,取回來的正確句子並 一定會等比例增加,也許只是多幾句而已,而且取回來的錯誤句子也可能會增多,
也就是說規則不是越多越好。同理可見,當 threshold 設到 0.9 時,規則的數量最 少,準確率雖然最高,但是回收率卻很低,導致 F-score 也不是很好,這也就表 示雖然這些規則的分數很高,在學習的階段包含的句子也很多,但是分數高的規 則畢竟是少數,數量一少能取回來的句子也就少了。
從表中也能發現,分數高的規則只是少數,規則大多集中於中間以及之下,
所以當 threshold 一降低,規則的數量就開始突然間增多了起來,不過 threshold 的設定雖然有經過常規化(normalize)為 0 到 1 之間,而且一些太低分數的都有先 去掉,比如說有些句子在所有正確句子中只包含了自己,而在錯誤句子中則沒有 包含;有些包含較多的錯誤的句子,導致分數達到負的情況,這些句子都會先去 掉。雖然本實驗已經去掉分數太低的,但是其分布狀況卻一樣很不平均,但是這 也是合理的,因為分數高的規則還是與分數低的規則數量差很多,就像是圖 4-1 所示,分布狀況成陡坡狀,其中分數低的規則數量很多,而分數高的規則數量卻 很少。
0
Threshold Rule 數量 Positive Negative Precision Recall F-score
0.95 3 22 7 75.9% 11% 19.22%
表 4-3 threshold 分佈增加的實驗數據
表 4-3 則為把 threshold 分成 18 個不同等級的實驗數據,分成比較多的等級 可以更容易找出哪些 threshold 是比較好的,而圖 4-2 及圖 4-3 則分別為 threshold 對 precision 和 threshold 對 recall 的圖表,可以從這兩個圖表中看出,當想要挑
precision 最高的情況,可是 recall 值卻很低;另外一方面如果想要挑 recall 為最高 的情況,precision 確很低,所以如果想要兩邊都比較好的話,就只能挑中間像 0.5 左右的情況,precision 和 recall 都比較高。
70.00%
圖 4-2 threshold 對 precision 圖
0.00%