第四章 實驗與結果
第三節 實驗結果與討論
在本研究中 TP 代表根據 rules 取回來的句子加上句子的前後句中包含有 disease 和 gene 且 disease 和 gene 是正確配對的,FP 代表取回來的句子中的 disease 和 gene 配對是不正確的,FN 代表著那一個句子包含有正配對的 disease 和 gene,
但是系統卻沒有取回來,TN 則表示句子以及前後句沒有包含正確配對的 disease 和 gene 且系統也沒有取回來。
第三節 實驗結果與討論
31
method Threshold Rule 數量
Positive Negative Precision Recall F-score
One-
32 現兩種非常極端的分數,最高的 precision 可到達 91.6%,但是 recall 值只有 38.1%,
而 recall 值最高可到達 99%,但 precision 值卻只有 5.4%,在特殊情況下,譬如要 盡可能的取回全部的資料,或者想要完全命中的話,陳立哲先生的方法會非常適 合;Chen 為陳孝源在 2012 年使用單句的 disease & gene 演算法得到的結果,在門 檻值高的時候,回收率呈現比較少的情況,導致 F-score 也比較低,而在門檻值 較低的時候,precision 和 recall 較為接近,F-score 也就比較高;而本實驗在做單 句實驗時,因 rules 往某幾項集中,雖然最後的 rules 較集中在某幾項,但在 F-score
33
的數據最好的是與陳孝源差不多的;而本實驗的多重句子演算法在比對 rules 的文 獻中的句子後,加入了該句子的前一句和後一句,一同判斷有無包含 disease 和 gene,在 threshold 為 0.004 時 precision 與 recall 都有達到一定的水準,最後得到 的 F-score 也比之前的都要好。
從表 4-2 可得知,threshold 越高時,獲得的規則數雖然少,但在 precision 會 很高,有很高的機率可以命中想要的句子,但相對的 recall 值就很不好,導致 F-score 的值呈現不佳的狀態;相對的如果不設 threshold,將全部的 rules 都用上,
recall 定能達到接近 100%的情況,但這顯得毫無價值,因為有非常多的 rules 是
在 threshold 為 0.004 時,precision 與 recall 得到一個接近平衡的值,再放寬 threshold 的話,雖然可以使 recall 值再上升,但 precision 必定會再下降,也許因 為 rules 都有一定的品質,precision 也不會出現太低的情況,但可能會使得 F-score 下降,而且在取出的句子當中,完全正確的句子的數量與從文章抓出來的句子並 且符合正確 pairs 的句子數量的差距也大幅度的提升,但由於 rules 是根據 SVO relation 判斷句子是否符合情況,如果一昧的要提高抓出的正確句子數量,會形成 某些少見的 rules,這些 rules 的動詞出現的次數將會嚴重影響 precision 值,此作 法是必頇要避免的。並且在 threshold 未 0.004 時,已經達到了截取 rules 的限制,
34
也就是 pos – neg >= 5 的 rules 會出現在 threshold 為 0.004 的時候,所以門檻值沒 有在往下降。
觀察圖 4-1 和圖 4-2 可以得知,在 precision 的部分,one-sentence 的方法表現 會比 multi-sentences 的方法來的要好,而在 recall 的部分,multi-sentences 的方法 會比 one-sentence 的方法來的要好,原因在於使用 multi-sentences 時,抓回來的 句子且屬於正確的 disease 與 gene 配對的比使用 one-sentence 時多很多,但由於 取回的句子總數也大量增加,故 precision 的值會下降;但在 recall 值的部分,因 為完全正確的句子總數是一樣多的,所以當含有 correct pairs 的句子總數大量增 加時,recall 值也會大量的成長,最後在 F-score 的表現是使用 multi-sentences 的 方法得到較好的結果,如圖 4-3 所示。取回的正確句子數、包含 pairs 的句子數以
0.4以上 0.1以上 0.015以上 0.01以上 0.004以上
one sentence multi-sentences
35
0.4以上 0.1以上 0.015以上 0.01以上 0.004以上
one sentence
0.4以上 0.1以上 0.015以上 0.01以上 0.004以上
one sentence multi-sentences
36 取出的句子數量,Correct sentences 代表總共含有的正確句子數量,Catch pairs 為 被取出的句子數量,而 Correct pairs 為被取出的句子且該疾病與基因正確配對的,
統寄了單一句子與相鄰句子(多重句子)的做法。
37
表 4-3 不同之門檻值與方法取回之句子數 Threshold = 0.004
Correct sentences Catch pairs Correct pairs One-
Correct sentences Catch pairs Correct pairs One-
Correct sentences Catch pairs Correct pairs One-
38
Threshold = 0.1
Correct sentences Catch pairs Correct pairs One-
sentence
736 420 337
Multi- sentences
919 629 486
Threshold = 0.4
Correct sentences Catch pairs Correct pairs One-
sentence
736 268 219
Multi- sentences
919 355 283
39