• 沒有找到結果。

第五章 實驗結果與討論

第二節 分類後之結果與討論

UTurku

UWM-TRIADS WBI 本研究

DEC 80.0% 65.6% 70.4% 67.6% 50.4% 69.9% 59.9% 75.9% 71.2%

51

若兩藥物之間的動詞為”interact”,則動詞特徵 interact 之特 徵值為1,其餘未出現於藥物對之中的動詞特徵值為 0。 decrease 關鍵字特徵之特徵值為 1,increase 關鍵字特徵之特 徵值為0。

52

相鄰詞性 特徵

D

以多個特徵表示相鄰詞性個數,以整數值呈現。若兩藥物前 後共有3 個 NN 及 1 個 CC,則 NN 相鄰詞性特徵之特徵值 為3,CC 相鄰詞性特徵之特徵值為 1。

E

以多個特徵表示藥物對之間是否有該相鄰詞性特徵,以二元 值呈現。若兩藥物前後共有3 個 NN 及 1 個 CC,則 NN 和 CC 相鄰詞性特徵之特徵值為 1,其餘相鄰詞性特徵之特徵 值為0。

(一) MedLine

依照表5.2.1 的特徵描述,MedLine 分類階段產生 2,159 種組合,本實驗列出 以機器學習方式中之SVM 進行分類效能排名前 10 高之實驗進行分析,實驗結果 如表5.2.2 所示,欄位 CLA 為整體分類效能,ADV、EFF、INT 和 MEC 為四類各 類別之效能,P 為各類及整體之 Precision,R 為各類及整體之 Recall,F1 為各類

及整體之F1-measure,數據中之”-”為 0.0%。從表 5.2.2 可以發現有幾組實驗編號 之實驗特徵是一樣的組合(例如:實驗編號 1 及實驗編號 4),由於第一階段所用的 辨識特徵不同,但在第二階段使用相同的分類特徵所得到的結果,前十高之實驗 的特徵大部分都有特徵編號1、4 和 A,若未加上特徵編號 1、4 和 A。

53

54

55

加入以規則為基方式後,實驗結果如表 5.2.5 所示,Precision 和 Recall 之值 可以提升許多,比較結果如圖5.2.1 所示。

56 原ADV 25.0% 40.0% 40.0% 22.2% 22.2% 25.0% 25.0% 22.2% 25.0% 25.0%

ADV 57.1% 53.3% 53.3% 57.1% 57.1% 57.1% 57.1% 57.1% 57.1% 57.1%

原EFF 49.0% 49.0% 49.2% 50.3% 49.5% 49.2% 49.2% 50.6% 48.4% 48.2%

EFF 55.2% 56.6% 55.8% 56.3% 56.3% 56.3% 56.3% 56.4% 54.8% 54.3%

原INT 28.6% 0.0% 50.0% 28.6% 28.6% 28.6% 28.6% 25.0% 30.8% 28.6%

INT 33.3% 40.0% 50.0% 33.3% 33.3% 33.3% 33.3% 28.6% 33.3% 33.3%

原MEC 26.1% 0.0% 0.0% 23.3% 22.7% 22.7% 22.7% 23.3% 26.3% 26.7%

MEC 47.5% 53.1% 51.0% 47.3% 47.3% 47.3% 47.3% 48.1% 47.1% 48.3%

原CLA 43.5% 43.0% 43.0% 43.8% 43.0% 43.0% 43.0% 43.7% 43.3% 43.0%

CLA 53.0% 55.4% 54.5% 53.7% 53.7% 53.7% 53.7% 53.8% 52.2% 52.6%

57

F1-measure 為 55.3%,不但優於平均 23.3%,更優於第一名隊伍 13.3%。

M SCAI UC3M

UCOLO RADO_S

OM

UTurku

UWM-TRIADS WBI 本研究

ADV 28.6% 0.0% 20.0% 0.0% 13.8% 33.3% 42.1% 14.3% 53.3%

EFF 43.6% 27.1% 45.8% 26.7% 30.2% 28.9% 34.0% 34.7% 56.6%

INT 57.1% 0.0% 0.0% 36.4% 0.0% 0.0% 33.3% 40.0% 40.0%

MEC 33.9% 14.3% 41.2% 33.3% 25.8% 28.6% 23.3% 47.6% 53.1%

CLA 39.8% 21.9% 42.0% 27.4% 27.5% 28.6% 31.9% 36.5% 55.4%

58

59

60

規則三 237 0.045 規則四 317 0.060

加入以規則為基方式後,實驗結果如表 5.2.9 所示,ADV 類別之 Recall 和 MEC 類別之 Precision 略微降低,但整體分類之效能是提升的,比較結果如圖 5.2.3 所示。

61 F1-measure 為 60.4606%,實驗編號 2 之 F1-measure 為 60.4606%,實驗編號 5 之 F1-measure 為 60.5469%,實驗編號 6 之 F1-measure 為 60.5469%,實驗編號 5 及

0.0% 原ADV 61.9% 61.9% 62.3% 62.6% 61.5% 61.5% 61.9% 62.2% 61.7% 62.2%

ADV 63.6% 63.6% 63.7% 63.8% 63.2% 63.2% 63.3% 63.4% 63.0% 63.4%

原EFF 56.1% 56.1% 55.8% 55.8% 56.0% 56.0% 55.9% 55.9% 56.1% 55.9%

EFF 59.7% 59.7% 59.2% 59.2% 59.7% 59.7% 59.3% 59.4% 59.9% 59.3%

原INT 34.5% 34.7% 34.5% 34.5% 34.5% 34.7% 34.3% 34.2% 34.2% 34.3%

INT 38.7% 38.9% 38.7% 38.7% 38.7% 38.9% 38.5% 38.3% 38.3% 38.5%

原MEC 60.9% 60.8% 60.9% 60.7% 61.3% 61.2% 61.5% 61.1% 61.3% 61.3%

MEC 64.8% 64.7% 64.3% 64.2% 65.3% 65.2% 64.8% 64.7% 64.8% 64.7%

原CLA 56.8% 56.8% 56.8% 56.8% 56.8% 56.8% 56.9% 56.8% 56.8% 56.9%

CLA 60.5% 60.5% 60.2% 60.2% 60.5% 60.5% 60.3% 60.3% 60.4% 60.3%

62

6 效能皆相同,因此以實驗編號 5 說明 ),使用的特徵有輔助特徵、否定詞特徵、

動詞特徵、詞性組合特徵、關鍵字特徵和相鄰詞性特徵,將此結果與參賽隊伍做

比較,F1-measure效能如圖5.2.4 所示,參賽隊伍平均分類效能為 54.5%,最好之

隊伍為 FBK-irst 效能為 67.6%,本研究 DrugBank 分類之 F1-measure 為 60.5%,

雖然未優於平均,但優於平均隊伍效能6.0%。

圖5.2.4 參賽隊伍與本研究之 DrugBank 分類效能

(三) MedLine+DrugBank

依照表5.2.1 的特徵描述,MedLine+DrugBank 分類階段產生 2,159 種組合,

本實驗列出以機器學習方式中之 SVM 進行分類效能排名前 10 高之實驗進行分

M SCAI UC3M

UCOLO RADO_S

OM

UTurku

UWM-TRIADS WBI 本研究

ADV 70.5% 61.9% 55.1% 59.0% 42.9% 63.8% 53.6% 65.0% 63.2%

EFF 66.4% 59.7% 48.2% 59.3% 32.4% 64.4% 46.6% 65.2% 59.7%

INT 54.5% 40.8% 2.1% 51.0% 32.7% 52.2% 42.5% 51.3% 38.7%

MEC 70.5% 55.2% 46.8% 49.3% 35.3% 60.5% 46.7% 62.9% 65.3%

CLA 67.6% 57.3% 47.3% 55.5% 34.9% 62.0% 48.5% 63.2% 60.5%

63

析,實驗結果如表5.2.10 所示,可以發現前十高之實驗大部分的特徵有特徵編號 6、0、A 和 E。

表5.2.10 MedLine+DrugBank 以機器學習方式分類後前 10 高之實驗結果 實驗

64 0.529412),由於實驗編號 10 未有特徵編號 6,因此選擇 F1-measure 效能第二高 (實驗編號 8)當作另一對照組,若未加上特徵編號 6、0、A 和 E,實驗結果如表 5.2.11 所示,效能都比原先還差,由此可知,特徵 6、0、A 和 E 對於第二階段 MedLine+DrugBank 來說為較重要之分類特徵。

表5.2.11 MedLine+DrugBank 未於分類階段加入重要特徵之實驗結果 未加入之

65

為了進一步提升效能,將前 10 高之實驗結果加入第三章介紹之以規則為基

方式修正機器學習預測後的結果,規則涵蓋率如表5.2.12 所示,在分類階段共有 4 個規則,其中,規則四「藥物對出現與藥動學有關」涵蓋率最高。

表5.2.12 MedLine+DrugBank 規則為基涵蓋率

規則 個數 涵蓋率

表5.2.13 MedLine+DrugBank 以規則為基方式分類後前 10 高之實驗結果 實驗

66

4 1469BD

P 51.9% 53.6% 46.9% 57.1% 56.7%

R 78.5% 87.8% 78.9% 37.5% 84.4%

F1 62.5% 66.6% 58.8% 45.3% 67.8%

5 460AE

P 51.7% 53.8% 48.0% 38.8% 58.1%

R 77.5% 85.5% 78.6% 41.7% 81.8%

F1 62.0% 66.1% 59.6% 40.2% 68.0%

6 160AE

P 51.5% 53.7% 48.0% 38.2% 57.8%

R 77.3% 85.5% 78.3% 40.6% 81.8%

F1 61.8% 66.0% 59.5% 39.4% 67.8%

7 470AE

P 51.7% 50.9% 49.0% 39.6% 58.9%

R 77.5% 86.0% 77.8% 41.7% 82.5%

F1 62.0% 64.0% 60.1% 40.6% 68.7%

8 60AE

P 51.6% 54.2% 47.9% 38.2% 57.8%

R 77.4% 85.5% 78.6% 40.6% 81.8%

F1 61.9% 66.3% 59.5% 39.4% 67.8%

9 70AE

P 51.7% 51.6% 48.9% 39.6% 58.6%

R 77.6% 85.5% 78.3% 41.7% 82.5%

F1 62.1% 64.4% 60.2% 40.6% 68.5%

10 80AE

P 51.7% 51.6% 49.0% 39.6% 58.2%

R 77.5% 85.5% 78.3% 41.7% 82.1%

F1 62.0% 64.4% 60.3% 40.6% 68.1%

67

圖5.2.5 MedLine+DrugBank 分類之加入以規則為基前後效能比較

本研究第二階段 MedLine+DrugBank 分類效果最好之實驗為實驗編號 4,使 用的特徵有輔助特徵、否定詞特徵、動詞特徵、詞性組合特徵、關鍵字特徵和相 鄰詞性特徵,將此結果與參賽隊伍做比較,效能如圖5.2.6 所示,在 MEC 類別中,

本研究得到的效能為第一,在整體類別中,參賽隊伍平均分類效能為 52.5%,最 好之隊伍為FBK-irst 效能為 65.1%,本研究 DrugBank 分類之 F1-measure 為 62.5%,

雖然未優於第一名隊伍,但優於平均隊伍效能10.0%。 原ADV 52.6% 52.5% 55.4% 54.7% 54.9% 55.5% 54.5% 55.6% 54.8% 54.5%

ADV 63.1% 63.0% 66.5% 66.6% 66.1% 66.0% 64.0% 66.3% 64.4% 64.4%

原EFF 50.7% 50.7% 51.5% 49.7% 51.7% 51.5% 51.7% 51.7% 51.9% 52.1%

EFF 59.2% 59.3% 59.4% 58.8% 59.6% 59.5% 60.1% 59.5% 60.2% 60.3%

原INT 32.1% 32.1% 34.7% 37.8% 35.1% 34.2% 35.2% 34.2% 35.2% 32.5%

INT 42.6% 42.6% 39.6% 45.3% 40.2% 39.4% 40.6% 39.4% 40.6% 40.6%

原MEC 62.9% 63.0% 58.4% 60.2% 58.5% 58.5% 58.8% 58.5% 58.6% 60.5%

MEC 70.3% 70.3% 67.5% 67.8% 68.0% 67.8% 68.7% 67.8% 68.5% 68.1%

原CLA 52.8% 52.8% 52.8% 52.8% 52.8% 52.8% 52.8% 52.9% 52.9% 52.9%

CLA 62.1% 62.1% 61.9% 62.5% 62.0% 61.8% 62.0% 61.9% 62.1% 62.0%

68

FBK-irst NIL_UCM SCAI UC3M

UCOLOR ADO_SO

M

UTurku

UWM-TRIADS WBI 本研究

ADV 69.2% 61.0% 56.2% 57.5% 42.0% 63.0% 53.2% 63.2% 66.6%

EFF 66.2% 55.6% 45.9% 54.7% 31.3% 60.0% 44.9% 61.0% 58.8%

INT 54.7% 39.3% 2.0% 50.0% 32.9% 50.7% 42.1% 51.0% 45.3%

MEC 62.7% 53.1% 44.6% 48.0% 33.5% 58.2% 44.6% 61.8% 67.8%

CLA 65.1% 54.8% 46.0% 52.9% 33.6% 59.4% 47.0% 60.9% 62.5%

相關文件