• 沒有找到結果。

第四章 實驗與結果

第三節 實驗結果

本論文的實驗結果,系統判斷句子極性的規則是只要在同一組疾病與藥物配 對的句子中,有一句被系統判斷成正向,則把同一組疾病與藥物配對的測試句子 中無法分類極性的句子都當成有關聯(即正向)。本研究提出四種方法進行分析與 討論,第一種只觀察單一動詞;第二種只觀察單一名詞;第三種是同時觀察動詞 與名詞,句子極性判斷為先看動詞的極性再看名詞的極性;第四種也是同時觀察 動詞與名詞,差別在於,句子極性判斷為先看名詞的極性再看動詞的極性。判斷 的詞彙則設計八項實驗,第一項實驗是不採用通過卡方檢定的分類單字,只使用

純相關、純無相關詞彙做測試,並且去掉出現次數小於2 的單字,第二項和第三

項實驗是卡方值門檻等於0.02、0.05 時,再去掉純相關、純無相關出現次數小於 2 的單字進行配對分析,第四項到第八項是採用無卡方、卡方門檻值等於 0.02、

0.05、0.1、0.2 時,信賴區間值為 0.98、0.95、0.90、0.80,不同的單字組合配對進 行實驗分析。如表24 為單一動詞的實驗結果。

表24:單一動詞的實驗結果 編

實驗名稱 TP FP Precision Recall F-Score 1. 無卡方+門檻值>=2 11 41 21.15% 11% 14%

2. 卡方0.02+

門檻值>=2 78 71 52.35% 78% 63%

3. 卡方0.05+ 85 71 54.49% 85% 66%

39

門檻值>=2

4. 無卡方 13 65 16.66% 13% 15%

5. 卡方0.02 77 70 52.38% 77% 62%

6. 卡方0.05 83 68 54.97% 83% 66%

7. 卡方0.1 83 89 48.26% 83% 61%

8. 卡方0.2 78 82 48.75% 78% 60%

表24 的 TP 代表系統在疾病位置在前、藥物位置在後的測試句被正確判斷為 正向之數量,加上在藥物位置在前、疾病位置在後的測試句被正確判斷為正向之 數量;FP 代表系統在疾病位置在前、藥物位置在後的測試句被錯誤判斷為正向之 數量,加上在藥物位置在前、疾病位置在後的測試句被錯誤判斷為正向之數量。

表24 中實驗編號 1、4 的 Precision、Recall、F-Score 都比其他實驗低很多,

可能造成此結果的原因有兩個,第一個是因為無卡方比其他有卡方的單字量少所 以導致被系統判斷正向的句子很少,第二個則是因為卡方再次分類的單字對於系 統很重要。

表24 中實驗編號 6 的 Precision 數值雖然是所有實驗中最高的,但是跟 Recall 數值還是有很大的差距,可能原因為FP 的數值太高導致 Precision 數值下降。如 表25 為單一名詞的實驗結果。

表25:單一名詞的實驗結果 編

實驗名稱 TP FP Precision Recall F-Score 1. 無卡方+門檻值>=2 52 50 50.98% 52% 51.49%

40

2. 卡方0.02+

門檻值>=2 90 70 56.25% 90% 69.23%

3. 卡方0.05+

門檻值>=2 67 85 44.08% 67% 53.17%

4. 無卡方 71 75 48.63% 71% 57.72%

5. 卡方0.02 84 73 53.50% 84% 65.37%

6. 卡方0.05 86 86 50% 86% 63.24%

7. 卡方0.1 87 86 50.29% 87% 63.74%

8. 卡方0.2 82 82 50% 82% 62.12%

表 25 的實驗結果顯示,與單一動詞相比,Recall 的數值明顯提升,但是 Precision 的數值提升的程度沒有 Recall 值高,分析可能造成原因為在單一名詞的 關聯、無關聯性詞彙遠比動詞多很多,這也造成被系統判斷錯誤的句子也很多。

表 25 中實驗編號 1 的 Recall 數值最低原因就是因為,本身關聯、無關聯性 的詞彙就是最少的,所以無法透過規則來提高Recall 數值。實驗編號 3 的 Precision 數值是全部最低的,分析可能原因是FP 太多導致整個 Precision 數值下降。如表 26 為先看動詞的極性再看名詞的極性之實驗結果。

表26:先看動詞的極性再看名詞的極性之實驗結果 編

實驗名稱 TP FP Precision Recall F-Score 1. 無卡方+門檻值>=2 62 67 48.06% 62% 54.15%

2. 卡方0.02+

門檻值>=2 85 91 48.30% 85% 61.60%

3. 卡方0.05+

門檻值>=2 82 82 50% 82% 62.12%

41

4. 無卡方 78 89 46.71% 78% 58.43%

5. 卡方0.02 85 89 48.85% 85% 62.04%

6. 卡方0.05 83 86 49.11% 83% 61.71%

7. 卡方0.1 83 89 48.26% 83% 61.03%

8. 卡方0.2 78 85 47.85% 78% 59.31%

表 26 先看動詞的極性再看名詞的極性之規則是指在同一句測試句中,同時

考慮動詞和名詞,只是都先以動詞的極性為主,如果動詞無法判斷極性時再透過 名詞的極性做輔助判斷,但是如果同一句出現不同的極性結果時,還是以動詞為 主。

表 26 的整體 Recall 數值都比只考慮單一動詞或是只考慮單一名詞還要高,

這代表同時考慮兩個詞性,可以大幅提升Recall 的數值,但是整體的 Precision 的 數值卻還是與單一動詞判斷極性的那組實驗類似,只是每一項實驗的Precision 數 值彼此變得更為接近,主要原因還是因為FP 太多的關係造成此結果。如表 27 為 先看名詞的極性再看動詞的極性之實驗結果。

表27:先看名詞的極性再看動詞的極性之實驗結果 編

實驗名稱 TP FP Precision Recall F-Score

1. 無卡方+

門檻值>=2 63 63 50% 63% 55.75%

2. 卡方0.02+

門檻值>=2 90 87 50.85% 90% 64.98%

3. 卡方0.05+

門檻值>=2 84 83 50.30% 84% 62.92%

42

4. 無卡方 82 85 49.11% 82% 61.42%

5. 卡方0.02 85 83 50.60% 85% 63.43%

6. 卡方0.05 87 86 50.29% 87% 63.74%

7. 卡方0.1 88 86 50.57% 88% 64.23%

8. 卡方0.2 83 82 50.30% 83% 62.64%

表 27 先看名詞的極性再看動詞的極性之規則是指在同一句測試句中,同時

考慮動詞和名詞,只是都先以名詞的極性為主,如果名詞無法判斷極性時再透過 動詞的極性做輔助判斷,但是如果同一句出現不同的極性結果時,還是以名詞為 主。表 27 的整體 Recall 數值都比只考慮單一動詞或是只考慮單一名詞還要高,

這代表同時考慮兩個詞性,可以大幅提升Recall 的數值,但是整體的 Precision 的 數值卻還是與單一名詞判斷極性的那組實驗類似,只是每一項實驗的Precision 數 值彼此變得更為接近,主要原因還是因為FP 太多的關係造成此結果。

經過了四組實驗測試,發現 Precision 的數值都無法大量提升,原因在於 FP 值太大,考慮Clinical trials 的疾病與藥物配對可能不完整,無法羅列所有疾病與 藥物之配對,於是在此階段加入人工判斷,本研究針對卡方門檻0.05 的那組實驗 中FP 的句子進行人工分析,原因是卡方值在 0.05 的 Precision 數值,是四組實驗 中最好的,本研究請醫學專家分辨句子,判斷各句是否顯示疾病與藥物的關聯性。

相關文件