實驗結果與討論

第四章實驗與結果

第三節實驗結果與討論

本研究的實驗將根據 OMIM 的 morbid 所提供的人類遺傳疾病與基因正確配對所得到的正確句子 1,000 句，以及隨機抽取的錯誤句子 1,000 句用來當作學習的語料庫，之後再將依據不同門檻值而擷取出來的規則對正確與錯誤的句子各

200 句進行測試，表 4-2 為實驗結果，表示在不同門檻值(threshold)下，應用規則於測試資料所得到的準確率(precision)及回收率(recall)。為了同時衡量準確率與回收率的結果，我們使用常用的 F-score 為標準，F-score 公式如下所示：

F

⁽¹²⁾

表 4-2 實驗結果

Threshold Rule 數量 Positive Negative Precision Recall F-score 0.1 52 127 53 70.6% 63.5% 66.9%

0.3 33 119 49 70.8% 59.5% 64.7%

0.5 22 106 43 71.1% 53.0% 60.7%

0.7 9 47 17 73.4% 23.5% 35.6%

0.9 5 35 10 77.7% 17.5% 28.6%

Baseline(0.8) 91.6% 38.1% 53.81%

Baseline(0.1) 5.4% 99% 10.24%

表 4-2 中的 baseline 為陳立哲在 2011 的論文使用一般比例公式所得出的分數，

可以看到的是為很極端的分數，當如果想要 precision 好的話可以達到 91.6%，但是 recall 值就因此只有 38.1%；而如果想要 recall 高的話可以達到 99%，但是

precision 確只剩 5.4%，當然如果在特殊情況下需要取回全部的資料，那麼陳立哲的將會比較適合，可是平均來說，本實驗的成果會比陳立哲的還好。

從表 4-2 可以知道，當 threshold 設得越小時，所取出的規則的數量就越多，

回收率也越高，但是對於 threshold 取在中間的情況來講，雖然回收率相對來講比

較低，但是其準確率卻差不多，這就表示雖然規則數量多，取回來的正確句子並一定會等比例增加，也許只是多幾句而已，而且取回來的錯誤句子也可能會增多，

也就是說規則不是越多越好。同理可見，當 threshold 設到 0.9 時，規則的數量最少，準確率雖然最高，但是回收率卻很低，導致 F-score 也不是很好，這也就表示雖然這些規則的分數很高，在學習的階段包含的句子也很多，但是分數高的規則畢竟是少數，數量一少能取回來的句子也就少了。

從表中也能發現，分數高的規則只是少數，規則大多集中於中間以及之下，

所以當 threshold 一降低，規則的數量就開始突然間增多了起來，不過 threshold 的設定雖然有經過常規化(normalize)為 0 到 1 之間，而且一些太低分數的都有先去掉，比如說有些句子在所有正確句子中只包含了自己，而在錯誤句子中則沒有包含；有些包含較多的錯誤的句子，導致分數達到負的情況，這些句子都會先去掉。雖然本實驗已經去掉分數太低的，但是其分布狀況卻一樣很不平均，但是這也是合理的，因為分數高的規則還是與分數低的規則數量差很多，就像是圖 4-1 所示，分布狀況成陡坡狀，其中分數低的規則數量很多，而分數高的規則數量卻很少。

Threshold Rule 數量 Positive Negative Precision Recall F-score

0.95 3 22 7 75.9% 11% 19.22%

表 4-3 threshold 分佈增加的實驗數據

表 4-3 則為把 threshold 分成 18 個不同等級的實驗數據，分成比較多的等級可以更容易找出哪些 threshold 是比較好的，而圖 4-2 及圖 4-3 則分別為 threshold 對 precision 和 threshold 對 recall 的圖表，可以從這兩個圖表中看出，當想要挑

precision 最高的情況，可是 recall 值卻很低；另外一方面如果想要挑 recall 為最高的情況，precision 確很低，所以如果想要兩邊都比較好的話，就只能挑中間像 0.5 左右的情況，precision 和 recall 都比較高。

70.00%

圖 4-2 threshold 對 precision 圖

0.00%

在文檔中人類基因與疾病關係之規則擷取 (頁 36-42)

第四章 實驗與結果

第三節 實驗結果與討論

F

第四章實驗與結果

第三節實驗結果與討論