第二章 文獻探討
第三節 近期藥物-藥物交互作用擷取方法與成果
負向、混合字等三組單字集合,接著透過卡方檢定(chi-square test)將符合門檻的 混合字再做一次的分類並放進純正向、純負向單字集合後得到正向與負向單字集 合,以此作為疾病與藥物關係之樣式規則,最後利用這些樣式規則與測試資料做 比對與評估。該實驗當時得到的F-Score 為 94%,此時 Precision 為 100%,Recall 為89%。不過由於該實驗語料庫的測試資料只有正向,且語料庫的訓練資料和測 試資料皆與本研究不相同,故無法直接與本研究之實驗方法進行比較。
第三節 近期藥物-藥物交互作用擷取方法與成果
藥物與藥物交互作用實驗的語料庫取自DDI Extraction 2013 Task 9.2,當時 參賽隊伍為FBK-irst 隊伍、WBI 隊伍、UTurku 隊伍、NIL_UCM 隊伍、UC3M 隊 伍、UWM-TRIADS 隊伍、SCAI 隊伍和 UCOLORADO_SOM 隊伍(Segura-Bedmar et al., 2013)。
FBK-irst 隊伍(Chowdhury & Lavelli, 2013)使用 SVM-light3當作分類器,內部 的演算法是選擇混合核(hybrid kernel)的方式,其中使用的核函數為 Heterogeneous set of Features、Shallow Linguistic、Path-enclosed Tree,並依資料調整 Path-enclosed Tree 之權重,於進行分類時,產生 4 個分類器運用 One-vs-All 的方式將藥物對分
類到五個類別中。
3
SVM-light http://svmlight.joachims.org/
NIL_UCM 隊伍(Bokharaeian & Díaz, 2013)使用使用 SVM 作為分類器,並提 出兩種實作方法,方法一為一次將所有資料分成五類(ADV、EFF、INT、MEC 和 False),方法二為先將資料分正負兩類,接著將所有分類為正向的資料分為 4 類 (ADV、EFF、INT 和 MEC),NIL_UCM 隊伍認為使用兩階段做分類的效果明顯 比只使用一階段的效果佳。
SCAI 隊伍(Bobic et al., 2013)也是以 SVM 為分類器,使用詞彙(Lexical)、語 法(Syntactical)、語意(Semantic)作為特徵,由於語料庫內部的資料類別為不平衡 (imbalanced)的,他們在考慮訓練時間因素後,選擇保留所有正向資料,並隨機選 取與正向資料相同數量的負向資料作為實際實驗的訓練資料。
UC3M 隊伍(Sánchez Cisneros, 2013)結合解剖學治療學及化學分類編碼系統 (Anatomical Therapeutic Chemical Code, ATC Code)4識別每種藥物,ATC Code 為 一種藥物分類系統,該系統可了解藥物在治療學、藥理學和化學上的意義,並使 用shallow linguistic 核函數進行辨識和分類。
UCOLORADO_SOM 隊伍(Hailu et al., 2013)使用型態(Morphsyntactic)、詞彙 (Lexical)和語意(Semantic)當作特徵,UCOLORADO_SOM 隊伍認為加入否定特 徵可以減少錯誤正例的數量並增加召回率(Recall)的值;UTurku 隊伍(Björne et al., 2013)運用領域知識,將句子放入 MetaMap (Aronson , 2001)做分析句法和運用 Turku Event Extraction System (TEES)進行辨識和分類。
4
ATC code https://www.whocc.no/atc_ddd_index/
7
UWM-TRIADS 隊伍(Rastegar-Mojarad et al., 2013)採用規則為基的方式,算 出四個類別(ADV、EFF、INT 和 MEC)詞彙的 TF-IDF,分數較高的詞彙給予較 高的權重,並使用後處理(Post Processing)的方式,將原先錯誤正例的藥物對變成 正確負例的藥物對。
WBI 隊伍(Thomas et al., 2013)使用 SVM-light 作為分類器,運用整體學習 (Ensemble learning)和混合核的方式進行辨識和分類,內部的核函數包含 All-paths graph (APG)、shallow linguistic (SL)、subtree (ST)、subset tree (SST)和 spectrum tree (SpT),並整合 Turku Event Extraction System (TEES) (Björne et al., 2011)和 Moara (Neves et al., 2009)系統,將核函數們與系統做排列組合並進行實驗,最後 得出SL+SLW+TEES 為最好的分類結果。
表2.3.1 為所有參賽隊伍之 F1-measure 結果,CLA 為分類的效能,也就是將 藥物對分類為ADV、EFF、INT 和 MEC 之整體效能,DEC 為辨識的效能,也就 是將藥物對分成正向與負向,分類(CLA)與辨識(DEC)的 F1-measure 越高代表效 能越好。
表2.3.1 參賽隊伍藥物—藥物關係辨識效能 研究組別 CLA
DEC
FBK-irst 65.1% 80.0%
NIL_UCM 54.8% 65.6%
SCAI 46.0% 70.4%
UC3M 52.9% 67.6%
UCOLORADO_SOM 33.6% 50.4%
UTurku 59.4% 69.9%
UWM-TRIADS 47.0% 59.9%
WBI 60.9% 75.9%
陳佩瑄 (2017) 以混合方法自生醫文獻擷取藥物-藥物交互作用之研究同樣
針對DDI Extraction 2013 Task 9.2 提出自己的方法。該研究結合 SVM 與規則為 基的方法,先設計每一藥物對之輔助特徵、距離特徵、否定詞特徵、動詞特徵、
詞性組合特徵、關鍵字特徵和相鄰詞性特徵,依照不同的特徵選取方式,利用 SVM 訓練和預測的結果,將預測結果前幾高之實驗加入以規則為基方法來強化 模型,最後得到辨識效能為71.2%,分類效能為 62.5%。