實驗結果

第四章實驗與結果

第三節實驗結果

本論文的實驗結果，系統判斷句子極性的規則是只要在同一組疾病與藥物配對的句子中，有一句被系統判斷成正向，則把同一組疾病與藥物配對的測試句子中無法分類極性的句子都當成有關聯(即正向)。本研究提出四種方法進行分析與討論，第一種只觀察單一動詞；第二種只觀察單一名詞；第三種是同時觀察動詞與名詞，句子極性判斷為先看動詞的極性再看名詞的極性；第四種也是同時觀察動詞與名詞，差別在於，句子極性判斷為先看名詞的極性再看動詞的極性。判斷的詞彙則設計八項實驗，第一項實驗是不採用通過卡方檢定的分類單字，只使用

純相關、純無相關詞彙做測試，並且去掉出現次數小於2 的單字，第二項和第三

項實驗是卡方值門檻等於0.02、0.05 時，再去掉純相關、純無相關出現次數小於 2 的單字進行配對分析，第四項到第八項是採用無卡方、卡方門檻值等於 0.02、

0.05、0.1、0.2 時，信賴區間值為 0.98、0.95、0.90、0.80，不同的單字組合配對進行實驗分析。如表24 為單一動詞的實驗結果。

表24：單一動詞的實驗結果編

號 實驗名稱 TP FP Precision Recall F-Score 1. 無卡方+門檻值>=2 11 41 21.15% 11% 14%

2. 卡方0.02+

門檻值>=2 78 71 52.35% 78% 63%

3. 卡方0.05+ 85 71 54.49% 85% 66%

門檻值>=2

4. 無卡方 13 65 16.66% 13% 15%

5. 卡方0.02 77 70 52.38% 77% 62%

6. 卡方0.05 83 68 54.97% 83% 66%

7. 卡方0.1 83 89 48.26% 83% 61%

8. 卡方0.2 78 82 48.75% 78% 60%

表24 的 TP 代表系統在疾病位置在前、藥物位置在後的測試句被正確判斷為正向之數量，加上在藥物位置在前、疾病位置在後的測試句被正確判斷為正向之數量；FP 代表系統在疾病位置在前、藥物位置在後的測試句被錯誤判斷為正向之數量，加上在藥物位置在前、疾病位置在後的測試句被錯誤判斷為正向之數量。

表24 中實驗編號 1、4 的 Precision、Recall、F-Score 都比其他實驗低很多，

可能造成此結果的原因有兩個，第一個是因為無卡方比其他有卡方的單字量少所以導致被系統判斷正向的句子很少，第二個則是因為卡方再次分類的單字對於系統很重要。

表24 中實驗編號 6 的 Precision 數值雖然是所有實驗中最高的，但是跟 Recall 數值還是有很大的差距，可能原因為FP 的數值太高導致 Precision 數值下降。如表25 為單一名詞的實驗結果。

表25：單一名詞的實驗結果編

號 實驗名稱 TP FP Precision Recall F-Score 1. 無卡方+門檻值>=2 52 50 50.98% 52% 51.49%

2. 卡方0.02+

門檻值>=2 90 70 56.25% 90% 69.23%

3. 卡方0.05+

門檻值>=2 67 85 44.08% 67% 53.17%

4. 無卡方 71 75 48.63% 71% 57.72%

5. 卡方0.02 84 73 53.50% 84% 65.37%

6. 卡方0.05 86 86 50% 86% 63.24%

7. 卡方0.1 87 86 50.29% 87% 63.74%

8. 卡方0.2 82 82 50% 82% 62.12%

表 25 的實驗結果顯示，與單一動詞相比，Recall 的數值明顯提升，但是 Precision 的數值提升的程度沒有 Recall 值高，分析可能造成原因為在單一名詞的關聯、無關聯性詞彙遠比動詞多很多，這也造成被系統判斷錯誤的句子也很多。

表 25 中實驗編號 1 的 Recall 數值最低原因就是因為，本身關聯、無關聯性的詞彙就是最少的，所以無法透過規則來提高Recall 數值。實驗編號 3 的 Precision 數值是全部最低的，分析可能原因是FP 太多導致整個 Precision 數值下降。如表 26 為先看動詞的極性再看名詞的極性之實驗結果。

表26：先看動詞的極性再看名詞的極性之實驗結果編

號 實驗名稱 TP FP Precision Recall F-Score 1. 無卡方+門檻值>=2 62 67 48.06% 62% 54.15%

2. 卡方0.02+

門檻值>=2 85 91 48.30% 85% 61.60%

3. 卡方0.05+

門檻值>=2 82 82 50% 82% 62.12%

4. 無卡方 78 89 46.71% 78% 58.43%

5. 卡方0.02 85 89 48.85% 85% 62.04%

6. 卡方0.05 83 86 49.11% 83% 61.71%

7. 卡方0.1 83 89 48.26% 83% 61.03%

8. 卡方0.2 78 85 47.85% 78% 59.31%

表 26 先看動詞的極性再看名詞的極性之規則是指在同一句測試句中，同時

考慮動詞和名詞，只是都先以動詞的極性為主，如果動詞無法判斷極性時再透過名詞的極性做輔助判斷，但是如果同一句出現不同的極性結果時，還是以動詞為主。

表 26 的整體 Recall 數值都比只考慮單一動詞或是只考慮單一名詞還要高，

這代表同時考慮兩個詞性，可以大幅提升Recall 的數值，但是整體的 Precision 的數值卻還是與單一動詞判斷極性的那組實驗類似，只是每一項實驗的Precision 數值彼此變得更為接近，主要原因還是因為FP 太多的關係造成此結果。如表 27 為先看名詞的極性再看動詞的極性之實驗結果。

表27：先看名詞的極性再看動詞的極性之實驗結果編

號 實驗名稱 TP FP Precision Recall F-Score

1. 無卡方+

門檻值>=2 63 63 50% 63% 55.75%

2. 卡方0.02+

門檻值>=2 90 87 50.85% 90% 64.98%

3. 卡方0.05+

門檻值>=2 84 83 50.30% 84% 62.92%

4. 無卡方 82 85 49.11% 82% 61.42%

5. 卡方0.02 85 83 50.60% 85% 63.43%

6. 卡方0.05 87 86 50.29% 87% 63.74%

7. 卡方0.1 88 86 50.57% 88% 64.23%

8. 卡方0.2 83 82 50.30% 83% 62.64%

表 27 先看名詞的極性再看動詞的極性之規則是指在同一句測試句中，同時

考慮動詞和名詞，只是都先以名詞的極性為主，如果名詞無法判斷極性時再透過動詞的極性做輔助判斷，但是如果同一句出現不同的極性結果時，還是以名詞為主。表 27 的整體 Recall 數值都比只考慮單一動詞或是只考慮單一名詞還要高，

這代表同時考慮兩個詞性，可以大幅提升Recall 的數值，但是整體的 Precision 的數值卻還是與單一名詞判斷極性的那組實驗類似，只是每一項實驗的Precision 數值彼此變得更為接近，主要原因還是因為FP 太多的關係造成此結果。

經過了四組實驗測試，發現 Precision 的數值都無法大量提升，原因在於 FP 值太大，考慮Clinical trials 的疾病與藥物配對可能不完整，無法羅列所有疾病與藥物之配對，於是在此階段加入人工判斷，本研究針對卡方門檻0.05 的那組實驗中FP 的句子進行人工分析，原因是卡方值在 0.05 的 Precision 數值，是四組實驗中最好的，本研究請醫學專家分辨句子，判斷各句是否顯示疾病與藥物的關聯性。

在文檔中生醫文獻中疾病與藥物關係之樣式自動化擷取 (頁 47-51)

第四章 實驗與結果

第三節 實驗結果

第四章實驗與結果

第三節實驗結果