實驗結果與討論

第四章實驗與結果

第三節實驗結果與討論

在本研究中 TP 代表根據 rules 取回來的句子加上句子的前後句中包含有 disease 和 gene 且 disease 和 gene 是正確配對的，FP 代表取回來的句子中的 disease 和 gene 配對是不正確的，FN 代表著那一個句子包含有正配對的 disease 和 gene，

但是系統卻沒有取回來，TN 則表示句子以及前後句沒有包含正確配對的 disease 和 gene 且系統也沒有取回來。

第三節實驗結果與討論

method Threshold Rule 數量

Positive Negative Precision Recall F-score

One-

32 現兩種非常極端的分數，最高的 precision 可到達 91.6%，但是 recall 值只有 38.1%，

而 recall 值最高可到達 99%，但 precision 值卻只有 5.4%，在特殊情況下，譬如要盡可能的取回全部的資料，或者想要完全命中的話，陳立哲先生的方法會非常適合；Chen 為陳孝源在 2012 年使用單句的 disease & gene 演算法得到的結果，在門檻值高的時候，回收率呈現比較少的情況，導致 F-score 也比較低，而在門檻值較低的時候，precision 和 recall 較為接近，F-score 也就比較高；而本實驗在做單句實驗時，因 rules 往某幾項集中，雖然最後的 rules 較集中在某幾項，但在 F-score

的數據最好的是與陳孝源差不多的；而本實驗的多重句子演算法在比對 rules 的文獻中的句子後，加入了該句子的前一句和後一句，一同判斷有無包含 disease 和 gene，在 threshold 為 0.004 時 precision 與 recall 都有達到一定的水準，最後得到的 F-score 也比之前的都要好。

從表 4-2 可得知，threshold 越高時，獲得的規則數雖然少，但在 precision 會很高，有很高的機率可以命中想要的句子，但相對的 recall 值就很不好，導致 F-score 的值呈現不佳的狀態；相對的如果不設 threshold，將全部的 rules 都用上，

recall 定能達到接近 100%的情況，但這顯得毫無價值，因為有非常多的 rules 是

在 threshold 為 0.004 時，precision 與 recall 得到一個接近平衡的值，再放寬 threshold 的話，雖然可以使 recall 值再上升，但 precision 必定會再下降，也許因為 rules 都有一定的品質，precision 也不會出現太低的情況，但可能會使得 F-score 下降，而且在取出的句子當中，完全正確的句子的數量與從文章抓出來的句子並且符合正確 pairs 的句子數量的差距也大幅度的提升，但由於 rules 是根據 SVO relation 判斷句子是否符合情況，如果一昧的要提高抓出的正確句子數量，會形成某些少見的 rules，這些 rules 的動詞出現的次數將會嚴重影響 precision 值，此作法是必頇要避免的。並且在 threshold 未 0.004 時，已經達到了截取 rules 的限制，

也就是 pos – neg >= 5 的 rules 會出現在 threshold 為 0.004 的時候，所以門檻值沒有在往下降。

觀察圖 4-1 和圖 4-2 可以得知，在 precision 的部分，one-sentence 的方法表現會比 multi-sentences 的方法來的要好，而在 recall 的部分，multi-sentences 的方法會比 one-sentence 的方法來的要好，原因在於使用 multi-sentences 時，抓回來的句子且屬於正確的 disease 與 gene 配對的比使用 one-sentence 時多很多，但由於取回的句子總數也大量增加，故 precision 的值會下降；但在 recall 值的部分，因為完全正確的句子總數是一樣多的，所以當含有 correct pairs 的句子總數大量增加時，recall 值也會大量的成長，最後在 F-score 的表現是使用 multi-sentences 的方法得到較好的結果，如圖 4-3 所示。取回的正確句子數、包含 pairs 的句子數以

0.4以上 0.1以上 0.015以上 0.01以上 0.004以上

one sentence multi-sentences

0.4以上 0.1以上 0.015以上 0.01以上 0.004以上

one sentence

0.4以上 0.1以上 0.015以上 0.01以上 0.004以上

one sentence multi-sentences

36 取出的句子數量，Correct sentences 代表總共含有的正確句子數量，Catch pairs 為被取出的句子數量，而 Correct pairs 為被取出的句子且該疾病與基因正確配對的，

統寄了單一句子與相鄰句子(多重句子)的做法。

表 4-3 不同之門檻值與方法取回之句子數 Threshold = 0.004

Correct sentences Catch pairs Correct pairs One-

Threshold = 0.1

Correct sentences Catch pairs Correct pairs One-

sentence

736 420 337

Multi- sentences

919 629 486

Threshold = 0.4

Correct sentences Catch pairs Correct pairs One-

sentence

736 268 219

Multi- sentences

919 355 283

在文檔中利用相鄰句子資訊探討人類疾病與基因之關係 (頁 40-49)

第四章 實驗與結果

第三節 實驗結果與討論

第三節 實驗結果與討論

第四章實驗與結果

第三節實驗結果與討論

第三節實驗結果與討論