近期藥物－藥物交互作用擷取方法與成果

第二章文獻探討

第三節近期藥物－藥物交互作用擷取方法與成果

負向、混合字等三組單字集合，接著透過卡方檢定(chi-square test)將符合門檻的混合字再做一次的分類並放進純正向、純負向單字集合後得到正向與負向單字集合，以此作為疾病與藥物關係之樣式規則，最後利用這些樣式規則與測試資料做比對與評估。該實驗當時得到的F-Score 為 94%，此時 Precision 為 100%，Recall 為89%。不過由於該實驗語料庫的測試資料只有正向，且語料庫的訓練資料和測試資料皆與本研究不相同，故無法直接與本研究之實驗方法進行比較。

第三節近期藥物－藥物交互作用擷取方法與成果

藥物與藥物交互作用實驗的語料庫取自DDI Extraction 2013 Task 9.2，當時參賽隊伍為FBK-irst 隊伍、WBI 隊伍、UTurku 隊伍、NIL_UCM 隊伍、UC3M 隊伍、UWM-TRIADS 隊伍、SCAI 隊伍和 UCOLORADO_SOM 隊伍(Segura-Bedmar et al., 2013)。

FBK-irst 隊伍(Chowdhury & Lavelli, 2013)使用 SVM-light³當作分類器，內部的演算法是選擇混合核(hybrid kernel)的方式，其中使用的核函數為 Heterogeneous set of Features、Shallow Linguistic、Path-enclosed Tree，並依資料調整 Path-enclosed Tree 之權重，於進行分類時，產生 4 個分類器運用 One-vs-All 的方式將藥物對分

類到五個類別中。

SVM-light http://svmlight.joachims.org/

NIL_UCM 隊伍(Bokharaeian & Díaz, 2013)使用使用 SVM 作為分類器，並提出兩種實作方法，方法一為一次將所有資料分成五類(ADV、EFF、INT、MEC 和 False)，方法二為先將資料分正負兩類，接著將所有分類為正向的資料分為 4 類 (ADV、EFF、INT 和 MEC)，NIL_UCM 隊伍認為使用兩階段做分類的效果明顯比只使用一階段的效果佳。

SCAI 隊伍(Bobic et al., 2013)也是以 SVM 為分類器，使用詞彙(Lexical)、語法(Syntactical)、語意(Semantic)作為特徵，由於語料庫內部的資料類別為不平衡 (imbalanced)的，他們在考慮訓練時間因素後，選擇保留所有正向資料，並隨機選取與正向資料相同數量的負向資料作為實際實驗的訓練資料。

UC3M 隊伍(Sánchez Cisneros, 2013)結合解剖學治療學及化學分類編碼系統 (Anatomical Therapeutic Chemical Code, ATC Code)⁴識別每種藥物，ATC Code 為一種藥物分類系統，該系統可了解藥物在治療學、藥理學和化學上的意義，並使用shallow linguistic 核函數進行辨識和分類。

UCOLORADO_SOM 隊伍(Hailu et al., 2013)使用型態(Morphsyntactic)、詞彙 (Lexical)和語意(Semantic)當作特徵，UCOLORADO_SOM 隊伍認為加入否定特徵可以減少錯誤正例的數量並增加召回率(Recall)的值；UTurku 隊伍(Björne et al., 2013)運用領域知識，將句子放入 MetaMap (Aronson , 2001)做分析句法和運用 Turku Event Extraction System (TEES)進行辨識和分類。

ATC code https://www.whocc.no/atc_ddd_index/

7

UWM-TRIADS 隊伍(Rastegar-Mojarad et al., 2013)採用規則為基的方式，算出四個類別(ADV、EFF、INT 和 MEC)詞彙的 TF-IDF，分數較高的詞彙給予較高的權重，並使用後處理(Post Processing)的方式，將原先錯誤正例的藥物對變成正確負例的藥物對。

WBI 隊伍(Thomas et al., 2013)使用 SVM-light 作為分類器，運用整體學習 (Ensemble learning)和混合核的方式進行辨識和分類，內部的核函數包含 All-paths graph (APG)、shallow linguistic (SL)、subtree (ST)、subset tree (SST)和 spectrum tree (SpT)，並整合 Turku Event Extraction System (TEES) (Björne et al., 2011)和 Moara (Neves et al., 2009)系統，將核函數們與系統做排列組合並進行實驗，最後得出SL+SLW+TEES 為最好的分類結果。

表2.3.1 為所有參賽隊伍之 F1-measure 結果，CLA 為分類的效能，也就是將藥物對分類為ADV、EFF、INT 和 MEC 之整體效能，DEC 為辨識的效能，也就是將藥物對分成正向與負向，分類(CLA)與辨識(DEC)的 F1-measure 越高代表效能越好。

表2.3.1 參賽隊伍藥物—藥物關係辨識效能研究組別 CLA

^DEC

FBK-irst 65.1% 80.0%

NIL_UCM 54.8% 65.6%

SCAI 46.0% 70.4%

UC3M 52.9% 67.6%

UCOLORADO_SOM 33.6% 50.4%

UTurku 59.4% 69.9%

UWM-TRIADS 47.0% 59.9%

WBI 60.9% 75.9%

陳佩瑄 (2017) 以混合方法自生醫文獻擷取藥物－藥物交互作用之研究同樣

針對DDI Extraction 2013 Task 9.2 提出自己的方法。該研究結合 SVM 與規則為基的方法，先設計每一藥物對之輔助特徵、距離特徵、否定詞特徵、動詞特徵、

詞性組合特徵、關鍵字特徵和相鄰詞性特徵，依照不同的特徵選取方式，利用 SVM 訓練和預測的結果，將預測結果前幾高之實驗加入以規則為基方法來強化模型，最後得到辨識效能為71.2%，分類效能為 62.5%。

9

在文檔中生醫文獻中特定關係組合之自動化擷取 (頁 14-18)

第二章 文獻探討

第三節 近期藥物－藥物交互作用擷取方法與成果

SVM-light http://svmlight.joachims.org/

ATC code https://www.whocc.no/atc_ddd_index/

7

DEC

9

第二章文獻探討

第三節近期藥物－藥物交互作用擷取方法與成果

^DEC