• 沒有找到結果。

第四章 實驗與結果

第三節 實驗結果與討論

在本研究中 TP 代表根據 rules 取回來的句子加上句子的前後句中包含有 disease 和 gene 且 disease 和 gene 是正確配對的,FP 代表取回來的句子中的 disease 和 gene 配對是不正確的,FN 代表著那一個句子包含有正配對的 disease 和 gene,

但是系統卻沒有取回來,TN 則表示句子以及前後句沒有包含正確配對的 disease 和 gene 且系統也沒有取回來。

第三節 實驗結果與討論

31

method Threshold Rule 數量

Positive Negative Precision Recall F-score

One-

32 現兩種非常極端的分數,最高的 precision 可到達 91.6%,但是 recall 值只有 38.1%,

而 recall 值最高可到達 99%,但 precision 值卻只有 5.4%,在特殊情況下,譬如要 盡可能的取回全部的資料,或者想要完全命中的話,陳立哲先生的方法會非常適 合;Chen 為陳孝源在 2012 年使用單句的 disease & gene 演算法得到的結果,在門 檻值高的時候,回收率呈現比較少的情況,導致 F-score 也比較低,而在門檻值 較低的時候,precision 和 recall 較為接近,F-score 也就比較高;而本實驗在做單 句實驗時,因 rules 往某幾項集中,雖然最後的 rules 較集中在某幾項,但在 F-score

33

的數據最好的是與陳孝源差不多的;而本實驗的多重句子演算法在比對 rules 的文 獻中的句子後,加入了該句子的前一句和後一句,一同判斷有無包含 disease 和 gene,在 threshold 為 0.004 時 precision 與 recall 都有達到一定的水準,最後得到 的 F-score 也比之前的都要好。

從表 4-2 可得知,threshold 越高時,獲得的規則數雖然少,但在 precision 會 很高,有很高的機率可以命中想要的句子,但相對的 recall 值就很不好,導致 F-score 的值呈現不佳的狀態;相對的如果不設 threshold,將全部的 rules 都用上,

recall 定能達到接近 100%的情況,但這顯得毫無價值,因為有非常多的 rules 是

在 threshold 為 0.004 時,precision 與 recall 得到一個接近平衡的值,再放寬 threshold 的話,雖然可以使 recall 值再上升,但 precision 必定會再下降,也許因 為 rules 都有一定的品質,precision 也不會出現太低的情況,但可能會使得 F-score 下降,而且在取出的句子當中,完全正確的句子的數量與從文章抓出來的句子並 且符合正確 pairs 的句子數量的差距也大幅度的提升,但由於 rules 是根據 SVO relation 判斷句子是否符合情況,如果一昧的要提高抓出的正確句子數量,會形成 某些少見的 rules,這些 rules 的動詞出現的次數將會嚴重影響 precision 值,此作 法是必頇要避免的。並且在 threshold 未 0.004 時,已經達到了截取 rules 的限制,

34

也就是 pos – neg >= 5 的 rules 會出現在 threshold 為 0.004 的時候,所以門檻值沒 有在往下降。

觀察圖 4-1 和圖 4-2 可以得知,在 precision 的部分,one-sentence 的方法表現 會比 multi-sentences 的方法來的要好,而在 recall 的部分,multi-sentences 的方法 會比 one-sentence 的方法來的要好,原因在於使用 multi-sentences 時,抓回來的 句子且屬於正確的 disease 與 gene 配對的比使用 one-sentence 時多很多,但由於 取回的句子總數也大量增加,故 precision 的值會下降;但在 recall 值的部分,因 為完全正確的句子總數是一樣多的,所以當含有 correct pairs 的句子總數大量增 加時,recall 值也會大量的成長,最後在 F-score 的表現是使用 multi-sentences 的 方法得到較好的結果,如圖 4-3 所示。取回的正確句子數、包含 pairs 的句子數以

0.4以上 0.1以上 0.015以上 0.01以上 0.004以上

one sentence multi-sentences

35

0.4以上 0.1以上 0.015以上 0.01以上 0.004以上

one sentence

0.4以上 0.1以上 0.015以上 0.01以上 0.004以上

one sentence multi-sentences

36 取出的句子數量,Correct sentences 代表總共含有的正確句子數量,Catch pairs 為 被取出的句子數量,而 Correct pairs 為被取出的句子且該疾病與基因正確配對的,

統寄了單一句子與相鄰句子(多重句子)的做法。

37

表 4-3 不同之門檻值與方法取回之句子數 Threshold = 0.004

Correct sentences Catch pairs Correct pairs One-

Correct sentences Catch pairs Correct pairs One-

Correct sentences Catch pairs Correct pairs One-

38

Threshold = 0.1

Correct sentences Catch pairs Correct pairs One-

sentence

736 420 337

Multi- sentences

919 629 486

Threshold = 0.4

Correct sentences Catch pairs Correct pairs One-

sentence

736 268 219

Multi- sentences

919 355 283

39

相關文件