• 沒有找到結果。

生醫文獻中特定關係組合之自動化擷取

N/A
N/A
Protected

Academic year: 2021

Share "生醫文獻中特定關係組合之自動化擷取"

Copied!
74
0
0

加載中.... (立即查看全文)

全文

(1)國立台灣師範大學 資訊工程研究所碩士論文. 指導教授:. 侯文娟. 博士. 生醫文獻中特定關係組合之自動化擷取 Automatic Extraction of Specified Relations from Biomedical Literatures. 研究生: 中華民國. 陳弘奇 一零七 年. 撰 七. 月.

(2) 摘要 本研究目的為擷取自然語句中指定名詞間的關係判定,並應用在生醫文獻內, 以便快速地找出文獻中有用途的關係。雖然本研究是透過生醫文獻為基礎,但是 對於各個領域的研究人員在探討自己領域的相關文獻資料時,也可以透過此方法 更快速且正確的篩選到自己需要的文獻及資料。 本研究所使用的資料集分成兩組,並在實驗上兩組資料個別獨立。一組為參 考 Clinical trials (https://clinicaltrials.gov)網站中提供美國官方已完成的疾病研究 和 藥 物 的 配 對 為 基 礎 , 並 透 過. PubMed. 資 料 庫. (https://www.ncbi.nlm.nih.gov/pubmed)搜尋目標疾病藥物對的生醫文獻摘要。其資 料分成兩類:從 PubMed 文章摘要找出含有 Clinical trials 所提及到的疾病可被藥 物治療之句子,視為正向的句子;以及相同疾病不能被藥物治療或是疾病與藥物 無任何關聯之句子,視為負向的句子。 另一組為 SemEval 2013 Task 9 所提供,內容為 MedLine 的摘要以及 DrugBank 的資料庫構成的語料庫,SemEval 2013 Task 9 為從生醫文獻中擷取藥物間交互作 用 的 競 賽 (SemEval 2013 Task 9 : Extraction of Drug-Drug Interactions from Biomedical Texts),該競賽將藥物間的交互作用分成五類:Advice(建議)、Effect(影 響)、Mechanism(機制)、Int(交互作用)和 False(無交互作用)。 本研究為透過多層次的機器學習方法搭配基本字詞轉換與自然語言句子分 析作為特徵擷取。本研究在藥物—疾病關係辨識實驗最佳結果 Accuracy 為 75.7%、. i.

(3) Precision 為 76.3%、Recall 為 74.6%以及 F-score 為 75.5%;在藥物—藥物關係辨 識實驗最佳結果 Precision 為 47.8%、Recall 為 72.4%以及 F-score 為 57.6%。. 關鍵字:疾病—藥物關聯度、藥物—藥物交互作用、機器學習、生醫文獻 ii.

(4) Abstract The objectives of this study is to extract the relationship between the specified nouns from natural language sentences and applies them in the biomedical literature to quickly find useful relationships in the literature. Although this study is based on the biomedical literature, researchers in various fields can also use this method to quickly and correctly retrieve the literature and materials they need when discussing relevant literature in their field. The data sets used in this study were divided into two parts, and the two parts of data were individually independent in the experiments. The first part is based on the official US completed disease studies and drug pairings on the Clinical trials (https://clinicaltrials.gov) website and the relevant Medline abstracts to the target disease-drug pairs is retrieved through the PubMed database (https://www.ncbi.nlm.nih. gov/pubmed). The data is divided into two categories: from the PubMed article abstracts to find the sentences containing the drugs that clinical trials mentioned the drug able to treat some specified disease, regarded as positive sentences. If the same disease can not be treated by drugs or the disease and drugs have no connection, the sentences are considered as negatives. The other part is provided by SemEval 2013 Task 9, which includes MedLine abstracts and a corpus of DrugBank's database. SemEval 2013 Task 9 is a competition for drug interactions from the biomedical literature (SemEval 2013 Task 9: Extraction Of Drug-Drug Interactions from Biomedical Texts), which divides the interactions between drugs into five categories: Advice, Effect, Mechanism, Int, and False.. iii.

(5) This study dose the feature extraction through a multi-level machine learning method with basic word conversion and natural language sentence analysis. In this study, the best results in the drug-disease relationship identification experiment were 75.7% for Accuracy, 76.3% for Precision, 74.6% for Recall, and 75.5% for F-score. The best results for the drug-drug relationship identification experiment were 47.8% precision rate, 72.4% recall rate and 57.6% F-score.. Keywords: Disease-Drug Association, Drug-Drug Interaction, Machine Learning, Biomedical Literature. iv.

(6) 目錄 摘要 ........................................................................................................................... I. ABSTRACT ............................................................................................................ III 目錄 .......................................................................................................................... V 附表目錄 ................................................................................................................ VII 附圖目錄 ............................................................................................................... VIII 第一章. 緒論 ...........................................................................................................1. 第一節 研究背景 ................................................................................................1 第二節 研究目的 ................................................................................................2 第三節 論文架構 ................................................................................................2 第二章. 文獻探討 ....................................................................................................4. 第一節 第二節 第三節 第四節 第三章. 方法與步驟 ..............................................................................................13. 第一節 第二節 第三節 第四節 第四章. 研究方法與架構 ..................................................................................13 實驗資料來源 ......................................................................................18 特徵擷取 ..............................................................................................21 機器學習方法 ......................................................................................29. 資料處理與評估方式...............................................................................30. 第一節 第二節 第三節 第四節 第五節 第五章. 藥物-疾病關係擷取語料庫原始文件資料來源 ..................................4 近期藥物-疾病關係擷取方法與成果 ..................................................4 近期藥物-藥物交互作用擷取方法與成果 ..........................................5 實驗工具與方法參考 .............................................................................9. 藥物—疾病組合 ..................................................................................30 藥物—藥物組合 ..................................................................................32 資料整理 ..............................................................................................35 合成少數採樣技術...............................................................................37 評估方式 ..............................................................................................40. 實驗結果與討論 ......................................................................................42. 第一節 藥物—疾病關係辨識之結果與討論....................................................42 第二節 藥物—藥物關係辨識之結果與討論....................................................48 第三節 實驗方法綜合討論...............................................................................54 第六章. 結論與未來展望 ......................................................................................60. v.

(7) 參考文獻 .................................................................................................................62. vi.

(8) 附表目錄 表 2.3.1 參賽隊伍藥物—藥物關係辨識效能 .........................................................8 表 3.2.1 SEMEVAL TASK 9.2 各類別的說明和例句 ..........................................20 表 4.1.1 藥物—疾病組合說明...............................................................................31 表 4.2.1 語料庫內部詳細資料...............................................................................35 表 4.4.1 藥物—疾病組合說明...............................................................................39 表 4.5.1 評估分析表 ..............................................................................................40 表 5.1.1 藥物—疾病關係辨識階段之特徵說明....................................................43 表 5.1.2 藥物—疾病關係辨識內部測試結果 .......................................................44 表 5.1.3 藥物—疾病關係辨識第一階段外部測試結果 ........................................46 表 5.1.4 藥物—疾病關係辨識第二階段外部測試結果 ........................................47 表 5.2.1 藥物—藥物關係辨識階段之特徵說明....................................................48 表 5.2.2 藥物—藥物關係辨識特徵組別 1 結果....................................................50 表 5.2.3 藥物—藥物關係辨識特徵組別 1+2 結果 ..............................................51 表 5.2.4 藥物—藥物關係辨識特徵組別 1+2+3 結果 ........................................52 表 5.2.5 參賽隊伍與本研究藥物—藥物關係辨識效能 ........................................53 表 5.3.1 藥物—藥物實驗特徵組別 1+2 之實驗 6 回饋後修正結果 ...................56 表 5.3.2 藥物—藥物實驗特徵組別 1+2 之實驗 6 中回饋修正範例 ...................58. vii.

(9) 附圖目錄 圖 2.4.1 支持向量機示意圖 ..................................................................................10 圖 2.4.2 SMOTE 方法示意圖 ...............................................................................11 圖 2.4.3 SMOTE 結果呈現示意圖 .......................................................................12 圖 3.1.1 研究方法流程圖 ......................................................................................13 圖 3.1.2 前處理步驟流程圖 ..................................................................................14 圖 3.1.3 後處理步驟流程圖 ..................................................................................15 圖 3.1.4 訓練模型 UML 活動圖 ...........................................................................16 圖 3.1.5 回饋資料範例 ..........................................................................................17 圖 3.3.1 分析樹與取最小分析子樹範例 1 ............................................................21 圖 4.2.1 文件資料格式 ..........................................................................................33 圖 4.2.2 藥物對數量呈現方式...............................................................................34 圖 4.3.1 藥物—疾病組合內例句 JSON 範例 .......................................................37 圖 4.4.1 SMOTE 虛擬碼 .......................................................................................39. viii.

(10) 第一章. 緒論. 第一節 研究背景. 自然語言處理為一門將數位化的文字資料並透過科學方法試圖讓電腦能夠 理解人類語言的學門,是從人工智慧的分支和語言學領域整合後的學科。由於絕 大多數領域的知識都是以自然語言的方式記錄,到目前已經累積了相當巨量的資 料,在這些龐大的資料量底下擁有著相當寶貴的知識,運用這些資料來進行分析、 發展及應用是自然語言處理的研究最主要目標。 由於現今透過網際網路取得的資料量非常大,在每次搜尋的目標所找出的文 件內,真正符合的結果卻常常被埋沒在大量關聯性低的資料內。所以如何擷取真 正有用的資料,在各個領域中都是相當重要的技術。而在這些使用自然語言所記 載的文件資料,若是透過人工的方式來進行篩選是相當耗時耗力的,如果能夠經 由自動化處理自然語言的方法來加速,可以大大的節省時間成本。 在生物醫學領域文件中,常常出現的專有名詞包括疾病與藥物兩種,其中疾 病包含疾病的實際名稱、俗名、縮寫以及症狀,而藥物則同樣有藥物的實際名稱、 多種藥物組合後的名稱和治療方式的名稱。本研究會以藥物與疾病和藥物與藥物 兩種成對的組合,來進行分析,並探討在文件中的兩個物件之間的關係如何用自 動化的方式取得正確的組合及資訊。. 1.

(11) 第二節 研究目的. 本研究目的為透過大量的生物醫學文件當作原始文件,分別建立藥物—疾病 與藥物—藥物兩種組合所需之語料庫,並使用相同的研究方法,針對藥物—疾病 與藥物—藥物關係分別進行獨立的實驗。其中,透過具體語法樹的方式擷取包含 組合內所有物件的最小範圍樹,並以此為實際分析的內容,接著,將此語料庫透 過自然語言處理(Natural Language Processing, NLP)的技術以及機器學習的方法, 建立能夠自動判斷兩個物件在句子中關係的模型。 目前藥物與疾病的組合是透過 Clinical trial1取得,該網站目前已經累計了超 過 264,450 個疾病與藥物的治療報告(2018 年 2 月資料),其中包含未完成還在持 續進行的人體實驗階段以及已完成的治療資訊。本研究在藥物與疾病組合的實驗 中,是從已完成的治療報告中取出一些疾病做為語料庫建構以及測試使用。而藥 物與藥物組合則是使用 SemEval 2013 Task 92所提供的比賽資料來進行語料庫建 構。. 第三節 論文架構. 本研究論文組織架構為:第一章為緒論,介紹研究目的及研究的內容概要; 第二章探討相關文獻,包括語料庫的來源及其內容、相關的工具和使用到的範圍、. 1 2. Clinical trial https://clinicaltrials.gov/ SemEval 2013 Task 9 https://www.cs.york.ac.uk/semeval-2013/task9.html 2.

(12) 方法;第三章介紹本篇論文研究的方法及建立模型之步驟;第四章為資料來源說 明、資料整理內容與評估方法之介紹;第五章說明實驗結果與分析,討論實驗過 程中所遇到的問題和對應的解決方式;最後的章節總結本論文的研究的結果,並 討論未來可以進行的發展以及方向。. 3.

(13) 第二章. 文獻探討. 本章節中將會討論本論文中所參考到的技術、實驗資料來源、實驗資料中 物件關係驗證依據等。. 第一節 藥物-疾病關係擷取語料庫原始文件資料來源. Clinical trial 是一個涵蓋世界各地所進行的臨床研究資料庫,其中包含私人 和公共資助的醫學臨床實驗,其資料來源由美國國立醫學圖書館所提供。目前已 經累計了超過 264,450 個疾病與藥物的治療報告(2018 年 2 月資料),其中包含未 完成還在持續進行的人體實驗階段以及已完成的治療資訊。本研究的藥物與疾病 的組合即是透過 Clinical trial 的臨床實驗資料來定義文獻中的藥物與疾病關係。. 第二節 近期藥物-疾病關係擷取方法與成果. 李伯勳 (2017) 生醫文獻中疾病與藥物關係之樣式自動化擷取之論文,提出 透過規則為基的方法建立自動擷取藥物—疾病組合間關係之模型。該研究將訓練 資料分成“敘述句內藥物出現在疾病前”之資料和“藥物出現在疾病後”之資 料,並擷取疾病與藥物之間的動詞、名詞等相關資訊。這些單字分為純正向、純 4.

(14) 負向、混合字等三組單字集合,接著透過卡方檢定(chi-square test)將符合門檻的 混合字再做一次的分類並放進純正向、純負向單字集合後得到正向與負向單字集 合,以此作為疾病與藥物關係之樣式規則,最後利用這些樣式規則與測試資料做 比對與評估。該實驗當時得到的 F-Score 為 94%,此時 Precision 為 100%,Recall 為 89%。不過由於該實驗語料庫的測試資料只有正向,且語料庫的訓練資料和測 試資料皆與本研究不相同,故無法直接與本研究之實驗方法進行比較。. 第三節 近期藥物-藥物交互作用擷取方法與成果. 藥物與藥物交互作用實驗的語料庫取自 DDI Extraction 2013 Task 9.2,當時 參賽隊伍為 FBK-irst 隊伍、WBI 隊伍、UTurku 隊伍、NIL_UCM 隊伍、UC3M 隊 伍、UWM-TRIADS 隊伍、SCAI 隊伍和 UCOLORADO_SOM 隊伍(Segura-Bedmar et al., 2013)。 FBK-irst 隊伍(Chowdhury & Lavelli, 2013)使用 SVM-light3當作分類器,內部 的演算法是選擇混合核(hybrid kernel)的方式,其中使用的核函數為 Heterogeneous set of Features、Shallow Linguistic、Path-enclosed Tree,並依資料調整 Path-enclosed Tree 之權重,於進行分類時,產生 4 個分類器運用 One-vs-All 的方式將藥物對分 類到五個類別中。. 3. SVM-light http://svmlight.joachims.org/ 5.

(15) NIL_UCM 隊伍(Bokharaeian & Díaz, 2013)使用使用 SVM 作為分類器,並提 出兩種實作方法,方法一為一次將所有資料分成五類(ADV、EFF、INT、MEC 和 False),方法二為先將資料分正負兩類,接著將所有分類為正向的資料分為 4 類 (ADV、EFF、INT 和 MEC),NIL_UCM 隊伍認為使用兩階段做分類的效果明顯 比只使用一階段的效果佳。 SCAI 隊伍(Bobic et al., 2013)也是以 SVM 為分類器,使用詞彙(Lexical)、語 法(Syntactical)、語意(Semantic)作為特徵,由於語料庫內部的資料類別為不平衡 (imbalanced)的,他們在考慮訓練時間因素後,選擇保留所有正向資料,並隨機選 取與正向資料相同數量的負向資料作為實際實驗的訓練資料。 UC3M 隊伍(Sánchez Cisneros, 2013)結合解剖學治療學及化學分類編碼系統 (Anatomical Therapeutic Chemical Code, ATC Code)4識別每種藥物,ATC Code 為 一種藥物分類系統,該系統可了解藥物在治療學、藥理學和化學上的意義,並使 用 shallow linguistic 核函數進行辨識和分類。 UCOLORADO_SOM 隊伍(Hailu et al., 2013)使用型態(Morphsyntactic)、詞彙 (Lexical)和語意(Semantic)當作特徵,UCOLORADO_SOM 隊伍認為加入否定特 徵可以減少錯誤正例的數量並增加召回率(Recall)的值;UTurku 隊伍(Björne et al., 2013)運用領域知識,將句子放入 MetaMap (Aronson , 2001)做分析句法和運用 Turku Event Extraction System (TEES)進行辨識和分類。. 4. ATC code https://www.whocc.no/atc_ddd_index/ 6.

(16) UWM-TRIADS 隊伍(Rastegar-Mojarad et al., 2013)採用規則為基的方式,算 出四個類別(ADV、EFF、INT 和 MEC)詞彙的 TF-IDF,分數較高的詞彙給予較 高的權重,並使用後處理(Post Processing)的方式,將原先錯誤正例的藥物對變成 正確負例的藥物對。 WBI 隊伍(Thomas et al., 2013)使用 SVM-light 作為分類器,運用整體學習 (Ensemble learning)和混合核的方式進行辨識和分類,內部的核函數包含 All-paths graph (APG)、shallow linguistic (SL)、subtree (ST)、subset tree (SST)和 spectrum tree (SpT),並整合 Turku Event Extraction System (TEES) (Björne et al., 2011)和 Moara (Neves et al., 2009)系統,將核函數們與系統做排列組合並進行實驗,最後 得出 SL+SLW+TEES 為最好的分類結果。 表 2.3.1 為所有參賽隊伍之 F1-measure 結果,CLA 為分類的效能,也就是將 藥物對分類為 ADV、EFF、INT 和 MEC 之整體效能,DEC 為辨識的效能,也就 是將藥物對分成正向與負向,分類(CLA)與辨識(DEC)的 F1-measure 越高代表效 能越好。. 7.

(17) 表 2.3.1 參賽隊伍藥物—藥物關係辨識效能 研究組別. CLA. DEC. FBK-irst. 65.1%. 80.0%. NIL_UCM. 54.8%. 65.6%. SCAI. 46.0%. 70.4%. UC3M. 52.9%. 67.6%. UCOLORADO_SOM. 33.6%. 50.4%. UTurku. 59.4%. 69.9%. UWM-TRIADS. 47.0%. 59.9%. WBI. 60.9%. 75.9%. 陳佩瑄 (2017) 以混合方法自生醫文獻擷取藥物-藥物交互作用之研究同樣 針對 DDI Extraction 2013 Task 9.2 提出自己的方法。該研究結合 SVM 與規則為 基的方法,先設計每一藥物對之輔助特徵、距離特徵、否定詞特徵、動詞特徵、 詞性組合特徵、關鍵字特徵和相鄰詞性特徵,依照不同的特徵選取方式,利用 SVM 訓練和預測的結果,將預測結果前幾高之實驗加入以規則為基方法來強化 模型,最後得到辨識效能為 71.2%,分類效能為 62.5%。. 8.

(18) 第四節 實驗工具與方法參考. (一) Standford CoreNLP. Stanford CoreNLP5為史丹佛大學的自然語言處理團隊所開發與維護的自然 語言工具包,其中包含可以分析句子文法結構的剖析器、各式專有名詞(可標示 如:人名、地點、組織、國家、時間)的標示器…等等。這些工具可以讓使用者透 過網站直接使用,也可以讓使用者下載後自行包裝在程式內,開發自己的文件解 析自動化系統。目前史丹佛大學提供可支援的程式語言包含 Java、PHP、Python、 Ruby、C# …等。本研究中的句子擷取與詞性判定即是透過這套剖析器分析產生 的剖析樹來實作完成。. (二) 支持向量機(Support Vector Machine). 支持向量機(Support Vector Machine,SVM)是由 Cortes 和 Vapnik 於 1995 年 所提出的一種監督式機器學習方法,其主要目的為將資料透過定義好的特徵進行 分類,也可以應用於迴歸分析,屬於機器學習中的監督式學習,可應用於自然語 言判斷、圖像辨識、手寫文字辨識、生醫領域中蛋白質或疾病的分類等。 其訓練過程是將每筆資料都視作多維空間的點,透過選定的函數將這些點轉. 5. Stanford CoreNLP https://stanfordnlp.github.io/CoreNLP/ 9.

(19) 換到特徵空間來進行分類,分類概念如圖 2.4.1 所示,此圖假設資料分布在二維 空間,以形狀為方塊與圓圈做為區別的兩種類別資料透過超平面(黑色實線)分隔, 且超平面距離兩類資料為最大距離,w 為超平面的法向量,x 為樣本,b 為偏差 值。可選擇的函數有多種,如:核函數包括線性(Linear)、多項式(Polynomial)、 放射(Radial Basis Function, RBF)和 S 型(Sigmoid),這些同時也是本研究所使用的 SVM 工具,由台灣大學林智仁(Chih-Jen Lin)博士等人開發的 LIBSVM6 (Chang and Lin, 2011),內建所提供的函數。除了這幾種以外,使用者透過 LIBSVM 也可 以使用自行設計的函數進行分類。. 圖 2.4.1 支持向量機示意圖 圖片來源:石琢暐(2011). 6. LIBSVM https://www.csie.ntu.edu.tw/~cjlin/libsvm/ 10.

(20) (三) 合成少數採樣技術(Synthetic Minority Over-sampling Technique). 合成少數採樣技術(Synthetic Minority Over-sampling Technique, SMOTE7)是 由學者 Chawla 於 2002 年提出,是一種處理 SVM 的訓練資料不平衡狀況時的一 種增加少量資料至平衡的方法。一般機器學習如果遇到資料不平衡可以採取的方 法有增加少數類別資料、減少多數類別資料、分群抽樣、調整錯誤分類成本,張 毓珊(2009)整理了幾種不平衡資料處理的基本做法,其中增加少數類別資料方法 的優點為可以避免失去有用的資訊,也是本研究所選用的方法。. 圖 2.4.2 SMOTE 方法示意圖 圖片來源: https://stackoverflow.com/questions/19089913/. SMOTE 是以 SVM 的理論基礎進行增加少數類別資料至平衡的方法,為選. 7. SMOTE: Synthetic Minority Over-sampling Technique https://www.jair.org/media/953/live-9532037-jair.pdf 11.

(21) 定一個 T 值為要增加的資料量和一個 k 值為進行 SMOTE 時要找的鄰近點數量, 在資料被視為多維的座標點的情況下,對每一筆資料找 k 個鄰近點,並在鄰近點 和這筆資料間所形成的向量建立新的點。這些新增的資料因為是透過同類別的點 之間的向量新增,所以可以有效的控制在同類別的範圍內。如圖 2.4.2 所示,其 中 𝑥# 為基準點,設定一個 k (本圖的為 k 值 5),將少數資料樣本(Minority class samples)以每個點為基準,找 k 個鄰近點,並在基準點和所有鄰近點之間建立新 的樣本。圖中的範例是以 𝑥# 作為基準點, 𝑥$ 到 𝑥% 為與 𝑥# 相同類別且離 基準點最近的五個鄰近點,a、b、c、d、e 等五個點則為基準點分別與每個鄰近 點間建立的新樣本,這些新樣本在資料中的類別與基準點的類別相同。 圖 2.4.3 為 SMOTE 應用範例,兩張圖使用相同的原始資料,其中有三種分 類的資料,分別為靠左邊的紫色資料、中間的綠色資料、靠右邊的黃色資料,圖 左為將 SMOTE 演算法加入決策函數並進行分類的結果,其中的點為原始資料; 圖右為將原始資料透過 SMOTE 增加少數分類樣本後新的整體資料內容。. 圖 2.4.3 SMOTE 結果呈現示意圖 圖片來源: imbalanced-learn8 8. imbalanced-learn http://contrib.scikit-learn.org/imbalanced-learn/stable/auto_examples/oversampling/plot_comparison_over_sampling.html#sphx-glr-auto-examples-over-sampling-plotcomparison-over-sampling-py 12.

(22) 第三章. 方法與步驟. 第一節 研究方法與架構. 本論文的研究分成兩個階段進行:「可治療疾病的藥物組合」與「藥物與藥 物交互作用脂藥物組合」。由於「可治療疾病的藥物組合」的資料為自行收集, 需要更有效的驗證。實驗設計先對疾病藥物組合進行機器學習訓練,再使用相同 的方法對藥物交互作用組合的資料建立模型。本研究採用兩種不同生醫關係之資 料集,進行兩個階段之測驗證,當兩個階段實驗皆驗證完成即可交互驗證本研究 的方法為有成效的機器學習方法,且可回推驗證「可治療疾病的藥物組合」的資 料有效且是可以進行後續研究的主題。. 圖 3.1.1 研究方法流程圖. 如圖 3.1.1 所示,研究方法為先將蒐集的資料透過前處理取得包含實驗中藥 物與疾病組合之句子,擷取句子中實驗需要之資訊,並整合成 JSON9格式。接著 透過後處理將 JSON 中的每一句轉換成機器學習的特徵資料格式,最後透過特徵. 9. JSON https://zh.wikipedia.org/wiki/JSON 13.

(23) 資料進行模型訓練。 圖 3.1.2 為前處理步驟流程圖,取得原始文件後會先進行斷句,去除像是作 者名稱、日期等不符合實驗需求的句子,接著將同種類但是字串表示不同的藥物 或疾病的寫法統一,再來搜尋符合對應藥物疾病組合的句子,並取的每一句子的 詞性分析結果以及包含藥物與疾病的最小分析子樹,最後再透過原始句子、詞性 分析結果、最小分析子樹來取得轉換成特徵所需資訊並透過 JSON 格式儲存。. 圖 3.1.2 前處理步驟流程圖. 14.

(24) 圖 3.1.3 為後處理步驟流程圖,將 JSON 內的每一筆資料讀取出來,並轉換 成 LIBSVM 可支援的特徵。. 圖 3.1.3 後處理步驟流程圖. 完成後處理之後,透過 LIBSVM 訓練模型時,先將訓練資料的每一分類取 出十分之一的資料進行內部測試的測試資料,使用剩下的十分之九的資料作為內 部測試的訓練資料進行訓練,並從中調整特徵。選定設計好的特徵之後,開始進 行正式的機器學習外部訓練。 如圖 3.1.4 所示,本研究的外部訓練分成兩個階段,第一階段將訓練資料使 用多個核函數進行訓練(本研究選用的核函數為 LIBSVM 所提供的四個核函數: 線性、多項式、放射和 S 型)。使用這些核函數建立的機器學習模型對訓練資料 以及測試資料皆進行測試,並將測試結果紀錄下來。這些測試結果去除無效的測 試結果(包括完全沒有進行分類的結果和與其他組測試結果完全相同的測試結果) 後,依順序回饋到測試資料與訓練資料中。使用新的訓練資料和測試資料進行第 15.

(25) 二階段的機器學習訓練。接著重複階段一與階段二的測試,直到測試結果收斂為 止,相同核函數測試結果與前一次完全相同代表訓練已經收斂。本研究的實驗皆 在第二階段外部訓練及收斂。. 圖 3.1.4 訓練模型 UML 活動圖. 將前一階段實驗結果回饋特徵的目的是希望能夠透過前次實驗結果中可能 有規律性的錯誤來導正和彌補模型本身設計上的誤判。由於資料分類中,被分類 錯誤的資料本身也有一定的規律性。 以圖 3.1.5 作為資料的範例,圖左為初始特徵資料,圖右為經過第一次外部 測試後將結果回饋的新資料,每筆新資料比原始資料多了一個新的特徵 3。假設. 16.

(26) 特徵 2 在模型中的影響力較大,造成資料 4 和資料 5 在分類的時候會被錯誤的分 到錯誤的類別。而資料 4 和資料 5 本身又有相同的規律可循。本研究的方法則是 在這裡將這個測試結果回饋到資料中,讓第一次測試的結果配合原本資料已有但 是比較不明顯的特徵被強化。以本研究的實驗結果,最後的準確率有一定程度的 提升。. 圖 3.1.5 回饋資料範例. 17.

(27) 第二節 實驗資料來源. (一) PubMed. PubMed 10為美國國家醫學圖書館(NLM)中國家生技資訊中心(NCBI)所發展 的生物醫學相關醫學期刊文獻索引與摘要資料庫。該資料庫內主要包含的內容以 臨床與基礎醫學、護理、牙科學、獸醫學等為主,其中更包含整個 Medline 以及 部分未包含於 Medline 的生命科學期刊文獻之書目,從 1950 年至今皆有收錄。 該資料庫提供部分免費和付費的全文連結,包含即將出版的醫學文獻。本研究的 藥物與疾病組合是透過 PubMed 取得相關論文的摘要作為語料庫的原始資料,其 中包含 2375 筆正向訓練資料、59 筆負向訓練資料、134 筆正向測試資料以及 12 筆負向測試資料。. (二) SemEval. SemEval11(The Semantic Evaluation)是一個國際性的語意判斷比賽,比賽內容 為系統在判斷與分析語意的效能。其項目有詞義理解(Word Sense Disambiguation)、 情感分析(Sentiment Analysis)、語意分析(Semantic Analysis)、文本相似度(Textual. 10 11. PubMed https://www.ncbi.nlm.nih.gov/pubmed/ SemEval https://www.cs.york.ac.uk/semeval-2013/ 18.

(28) Similarity)等。 SemEval Task 9 為 Extraction of Drug-Drug Interactions from Biomedical Texts (Segura Bedmar et al., 2013),其中又分成兩個子項目: 1.. Task 9.112:從生醫文獻中判斷和分析藥物的類別。. 2.. Task 9.213:從生醫文獻中利用文件擷取的方法判斷藥物與藥物間的交互 作用是否存在。. 本研究的藥物與藥物間交互作用實驗資料是從 SemEval Task 9.2 取得。此實 驗資料的內容含來自 Drug Bank14和 Medline15的原始資料組。Task 9.2 各類別的 說明如表 3.2.1 所示。. 12. Task 9.1 https://www.cs.york.ac.uk/semeval-2013/task9/data/uploads/semeval_2013-task-9_1evaluation-metrics.pdf 13 Task 9.2 https://www.cs.york.ac.uk/semeval-2013/task9/data/uploads/task-9.2-ddi-extraction.pdf 14 Drug Bank https://www.drugbank.ca/ 15 Medline https://www.medline.com/ 19.

(29) 表 3.2.1 SemEval Task 9.2 各類別的說明和例句 表格來源:陳珮瑄(2017) 類別. 說明. 例句. 句子中的兩藥物分別或同時. Concurrent therapy with. 使用時,會給予意見或警. ORENCIA and TNF antagonists is. 告。. not recommended.. Advice (ADV) 句子中的兩藥物分別或同時 This may indicate that ibuprofen Effect. 使用時,明確指出會產生影. (EFF). 響造成藥效增加或無效等效. could enhance the toxicity of methotrexate. 果。 句子中的兩藥物分別或同時 Concomitant use of calcium Mechanism. 使用時,會與藥動學相關,. (MEC). 例如:吸收、分布、代謝. supplements and L-lysine may increase calcium absorption 等。 句子中的兩藥物分別或同時 A possible drug interaction of Int. 使用時,明確指出會產生藥 FOSCAVIR and intravenous. (INT). 物交互作用,但無任何相關 pentamidine has been described. 訊息。 Imipramine and clonazepam did 句子中的藥物對無交互作用. False. not change fasting or overload 存在。 glycemia.. 20.

(30) 第三節 特徵擷取. 本研究的特徵是透過 Stanford CoreNLP 將句子轉換成分析樹(Parse tree),如圖 3.3.1 所示。再將樹從下往上回推,取得同時擁有指定關係中兩個物件的最小分 析子樹來進行特徵擷取,以接下來的句子為例,“The results raise the possibility that the ethanolysis reaction may occur in the stomach of people who consume alcohol and 3-hydroxy-1,4-benzodiazepine on a regular basis.”,此為藥物與藥物中的句子, 兩個藥物分別為“alcohol”和“3-hydroxy-1,4-benzodiazepine”,圖 3.3.1 為這句 話的完整分析樹,其中被起來的部分則是最小分析子樹。圖 3.3.2 為另一句有包 含 更 多 動 名 詞 的 的 最 小 分 析 子 樹 範 例 , 兩 個 藥 物 分 別 為 “ gelusil ” 和 “erythromycin”。. 圖 3.3.1 分析樹與取最小分析子樹範例 1 21.

(31) 圖 3.3.2 分析樹與取最小分析子樹範例 2. 本研究所擷取的特徵主要分成四大類:文法特徵、計數輔助特徵、藥物與藥 物交互作用規則特徵以及實驗結果回饋特徵。其中,藥物與藥物交互作用規則特 徵為參考陳佩瑄 (2017)以混合方法自生醫文獻擷取藥物-藥物交互作用之研究 的以規則為基方法來進行設計的特徵。此特徵只有在藥物—藥物實驗中使用。以 下為依分類介紹各項特徵。. 22.

(32) (一) 文法特徵. 此類型特徵以英文文法為基礎來進行設計,包含文字在句中的距離、文字拼 音、文字物件的順序等。 其中為了讓文字拼音的表達方式達到能夠表現語意且保留文法與文字在英 文中的型態,本研究設計提出 N_transform 的演算法將文字轉換成數字。本研究 將文字的每個字母轉換成 ASCII 之後減去 96,並以每個字母使用兩個位元的方 式組合成一個高位數的數字。可參考公式(1),其中𝑜𝑟𝑑(𝑤𝑜𝑟𝑑[𝑖 ])為將𝑤𝑜𝑟𝑑中的 每個字母轉換成 ASCII 後減去 96。公式中的 n 為自己定義、可調整轉換後的值 總長度,超過 n 的字母會被省略,本研究中使用的 n 為 10,10 為本研究之實驗 使用到的所有文字皆能被辨識且不會過大的值。. 𝑁_𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚(𝑤𝑜𝑟𝑑 ) = ∑?@AB 𝑜𝑟𝑑(𝑤𝑜𝑟𝑑 [𝑖]) × 10$×(<=>) (1). 以“treat”這個字為例,在轉換的時候“t”的 ASCII 值為 116,減去 96 再 乘以10$×#B,以此類推,“treat”會轉換成 20180501200000000000。這樣的轉換 好處在於可以不需要使用額外的統計方法,讓 SVM 來協助計算。且不同型態的 字 或 是 一 些 意 思 相 近 的 轉 換 字 , 值 也 會 較 為 接 近 。 像 是 “ treats ” (20180501201900000000)、“treatment”(20180501201305142000)轉換後都會跟. 23.

(33) “treat”的值相近。 以下為第一類特徵的各項實際內容: 1.. 包含兩目標物件的最小子樹高度,值的範圍為正整數。. 2.. 包含兩目標物件的最小子樹總字數,值的範圍為正整數。. 3.. 兩物件的先後順序,若藥物優先於疾病,則此特徵為 1,反之為 2。此 特徵在藥物與藥物交互作用實驗中不使用。. 4.. 第一個物件在子樹中所在的字數位置,值的範圍為正整數或 0。. 5.. 第二個物件在子樹中所在的字數位置,值的範圍為正整數。. 6.. 子樹中的第一個動詞,值為 N_transform 轉換後的值,值為正整數或 0。. 7.. 子樹中與第一個物件最靠近的動詞,若有兩個動詞與第一個物件的距離 相同,選擇在句子中位置較前面的動詞作為此特徵之值,值為 N_transform 轉換後的值,值的範圍為正整數或 0。. 8.. 子樹中第一個物件與最靠近之動詞的距離字數,值為正整數或 0。. 9.. 子樹中與第二個物件最靠近的動詞,值為 N_transform 轉換後的值,值 的範圍為正整數或 0。. 10. 子樹中第二個物件與最靠近之動詞的距離字數,值的範圍為正整數或 0。 11. 子樹中與第一個物件最靠近的名詞(第一個物件和第二個物件的名稱除 外),值為 N_transform 轉換後的值,值的範圍為正整數或 0。 12. 子樹中第一個物件與最靠近之名詞(第一個物件和第二個物件的名稱除. 24.

(34) 外)的距離字數,值的範圍為正整數或 0。 13. 子樹中與第二個物件最靠近的名詞(第一個物件和第二個物件的名稱除 外),值為 N_transform 轉換後的值,值的範圍為正整數或 0。 14. 子樹中第二個物件與最靠近之名詞(第一個物件和第二個物件的名稱除 外)的距離字數,值的範圍為正整數或 0。 15. 子樹中與第一個物件最靠近的介系詞,值為 N_transform 轉換後的值, 值的範圍為正整數或 0。 16. 子樹中第一個物件與最靠近之介系詞的距離字數,值的範圍為正整數或 0。 17. 子樹中與第二個物件最靠近的介系詞,值為 N_transform 轉換後的值, 值的範圍為正整數或 0。 18. 子樹中第二個物件與最靠近之介系詞的距離字數,值的範圍為正整數或 0。. (二) 計數輔助特徵. 計數的特徵是統計整個句子的最小分析子樹中特定種類的字或符號之總數。 這些字詞和標點符號所代表的意義是顯示出這句話所描述事物的廣泛程度以及 是否會將意思逆轉。舉例來說“The safety and efficacy of Albuterol compared to. 25.

(35) Albuterol/Ipratropium bromide as rescue medications for COPD patients on maintenance combination therapy of ICS/LABA has not been evaluated.”這句話中 最後的“not”就會直接翻轉“evaluated”的意思。 以下為此類特徵的各項實際內容: 19. 子樹中所包含的標點符號總數,值的範圍為正整數或 0。 20. 子樹中所包含的專有名詞總數,值的範圍為正整數或 0。 21. 子樹中所包含的動詞總數,值的範圍為正整數或 0。 22. 子樹中所包含的名詞總數,值的範圍為正整數或 0。 23. 子樹中所包含的介系詞總數,值的範圍為正整數或 0。 24. 子樹中所包含的反向詞彙總數,值的範圍為正整數或 0,本實驗的反向 詞彙定義為以下這些字:“no”、“not”、“non”、“n’t”。 25. 原句的總字數,此特徵目的為加強子關係樹與原始句子大小的差異性關 係,值的範圍為正整數。. (三) 藥物與藥物交互作用基本特徵與規則特徵. 前兩大類的特徵為藥物與疾病關係的實驗而設計的。轉換到藥物與藥物關係 的實驗時,補充了部分由於陳佩瑄 (2017)的以混合方法自生醫文獻擷取藥物-藥 物交互作用之研究中所設計的特徵,以及將其規則為基方法中的部分規則轉換成. 26.

(36) 特徵來強化藥物與藥物交互作用的實驗模型。 以下為此類特徵的詳細說明,其中特徵 26~31 為基本特徵;特徵 32~37 為 規則特徵: 26. 兩藥物是否相同,若相同,值為 1,不同,值為 0。 27. 兩藥物中出現分號和句號的次數,以此來確認是否跨句,值為出現的分 號與句號次數總和,值的範圍為正整數或 0。 28. 兩藥物間出現冒號的次數,此特徵為確認是否跨過其他描述句,值為出 現的冒號次數,值的範圍為正整數或 0。 29. 兩藥物間是否出現“or”, 若有,值為 1,不同,值為 0。 30. 兩藥物間是否出現“and”, 若有,值為 1,不同,值為 0。 31. 兩藥物間出現“,”的次數,數值大,代表可能存在大量的藥物列舉。 32. 兩個藥物間是否出現“observed”、“shown”、“found”、“with”等 詞彙,若有,值為 1,不同,值為 0。 33. 兩個藥物間是否出現“such”、“like”、“example”、“e.g.”等詞彙, 若有,值為 0,不同,值為 1。 34. 此特徵的特徵值子樹中出現“suggest”、“should”的次數總和,此為 判定“Advice”類別的規則,值的範圍為正整數或 0。 35. 此特徵的特徵值子樹中出現“increase”、“enhance”、“decrease”、 “reduce”、“synergism”、“antagonism”的次數總和,此為判定. 27.

(37) “Effect”類別的規則,值的範圍為正整數或 0。 36. 此特徵的特徵值子樹中出現“interact”的次數總和,此為判定“Int” 類別的規則,值的範圍為正整數或 0。 37. 此 特 徵 的 特 徵 值 子 樹 中 出 現 “ distributed ” 、 “ excreted ” 、 “absorption”、“concentrations”的次數總和,此為判定“Mechanism” 類別的規則,值的範圍為正整數或 0。. (四) 實驗結果回饋特徵. 最後此類別的特徵,是透過多次改變過參數的實驗測試結果來建立回饋的特 徵。在 SVM 中可以改變的主要實驗參數為特徵和核函數,實驗回饋結果的特徵 就是透過改變這些參數得到不同的結果後將結果回饋到資料內,成為新的特徵。 本研究的使用的回饋方法是改變核函數來進行多回測試後,回饋這些實驗結果成 新的特徵,以此改善模型特徵設計造成的分類錯誤。. 回饋特徵值設計在本研究的回饋方式為直接回饋前一階段測試結果為新的 特徵。以圖 3.1.5 作為範例,若 Data No.3 在第一階段結果被分類為 Class 2,回 饋的方法會增加 Data No.3 一個新的特徵,其值為 2。. 28.

(38) 第四節 機器學習方法. 本研究所使用的機器學習方法是支援向量機,使用的工具是 LIBSVM。 LIBSVM 的使用方式是先將資料分成訓練資料以及測試資料,把這些資料轉換成 設計好的多種特徵值並且定義分類。轉換完成之後,訓練資料可透過 LIBSVM 依 照選擇的參數與核函數進行訓練以建立模型。此模型可透過 LIBSVM 提供的方 法配合先前準備好的測試資料取得模型的效能。 LIBSVM 的使用方式是使用數值呈現的文件檔。公式(2)為一筆資料的範例, 𝐿𝑎𝑏𝑒𝑙為分類;𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑖為特徵的編號;𝑣𝑎𝑙𝑢𝑒𝑖為對應的特徵值。. 𝐿𝑎𝑏𝑒𝑙 𝑓𝑒𝑎𝑡𝑢𝑟𝑒1: 𝑣𝑎𝑙𝑢𝑒1 𝑓𝑒𝑎𝑡𝑢𝑟𝑒2: 𝑣𝑎𝑙𝑢𝑒2 𝑓𝑒𝑎𝑡𝑢𝑟𝑒3: 𝑣𝑎𝑙𝑢𝑒3. (2). LIBSVM 中可選用的核函數包括線性、多項式、放射、S 型,其公式如下 (3)(4)(5)(6)所示。. 線性 𝐾N𝑥> , 𝑥P Q = 𝑥>R 𝑥P . . (3). 多項式 𝐾N𝑥> , 𝑥P Q = (𝛾𝑥>R 𝑥P + 𝑐)V , 𝑑 > 1 . (4). 放射 𝐾N𝑥> , 𝑥P Q = 𝑒𝑥𝑝(−𝛾|𝑥> −𝑥P |$ ), 𝛾 > 0. (5). S 型 𝐾N𝑥> , 𝑥P Q = tanhN𝛾𝑥>R 𝑥P + 𝑐Q , 𝛾 > 0, 𝑐 < 0 . (6). 29.

(39) 第四章. 資料處理與評估方式. 本研究的資料依實驗分成藥物—疾病組合、藥物—藥物組合等兩個部分。由 於兩個組合的資料存在嚴重 不平衡的狀況,本研究採用合成少數採樣技術 (Synthetic Minority Over-sampling Technique, SMOTE)來平衡資料。. 第一節 藥物—疾病組合. 藥物—疾病組合的語料庫是以多種疾病為基礎,先透過 Clinical trial 取得可 以有效治療這些疾病的藥物,這樣即完成藥物與疾病的正向組合。接著以找到的 藥物與其他不同的疾病做比對,若該藥物沒有出現在其他疾病的有效治療藥物內, 則先暫時將這個藥物歸類在該疾病的負向組合內。 接著透過這些正負向組合到 PubMed 取得有出現藥物—疾病組合的對應論 文摘要。正向組合的原始文件到這邊已經算是完成,但是負向組合在此時需要人 工進行檢視。每組負向組合會檢視原始文件的第一句同時有出現該藥物與對應疾 病的句子,若語意確實為負向,則可以使用該藥物疾病組合的原始文件加入負向 語料庫。 表 4.1.1 為本研究採用的藥物—疾病組合及對應的資料數量。其中,訓練資 料有 2375 筆正向訓練資料,59 筆負向訓練資料;正向測試資料則有 134 筆,負 向測試資料有 12 筆。. 30.

(40) 表 4.1.1 藥物—疾病組合說明 類別. 疾病. 藥物. 句數. Fluticasone propionate, 慢性阻塞性肺病 Salmeterol, Budesonide, (Chronic Obstructive Procaterol, Albuterol,. 1541. Pulmonary Disease, Magnesium Sulfate, COPD) Levalbuterol 正向. Platinum-based chemotherapy,. 訓練資料. bavituximab, Bevacizumab, 非小細胞癌. carboplatin, cisplatin, docetaxel,. (Non-small Cell Lung. erlotinib, etoposide, GDC-0941,. Cancer, NSCLC). 834. gemcitabine, onartuzumab, paclitaxel, pemetrexed, SecondLine Chemotherapy, vinorelbine. 非小細胞癌. thalidomide, haemorrhage,. 負向 (Non-small Cell Lung. hypertension. 59. 訓練資料 Cancer, NSCLC) 肝膽管癌. Cisplatin, Gemcitabine. (Intrahepatic 15 Cholangiocarcinoma, 正向. IC). 測試資料. TACE, sorafenib, Ribavirin, 肝細胞癌 HBIG, Rapamycin, Oxaliplatin, (Hepatocellular. 119 Everolimus, Bevacizumab,. Carcinoma, HC) Fluorouracil, LMWH, 31.

(41) Thalidomide, Erlotinib, Carboplatin, celecoxib 肝膽管癌 負向. (Intrahepatic. 測試資料. Cholangiocarcinoma,. Oxaliplatin 12. IC). 第二節 藥物—藥物組合. 藥物—藥物組合的語料庫是由 Segura-Bedmar (2011)等人創立 DDIExcation 2013 task 9 語意判斷比賽中所提供的語料庫。語料庫的來源是從 MedLine abstract 和 DrugBank 的資料取得。圖 4.2.1 為語料庫中資料的呈現方式,第一層的 document id 為文獻在語料庫中的編號;第二層的 sentence id 是句子在文獻中的 編號,text 為句子內容;接著第三層有兩種類型的欄位,entity id 為句子中有出 現的藥物編號,其中,text 為藥物名稱,type 為藥物類型(drug 為用來治療或預防 人類疾病的所有化學藥劑,drug_n 為所有影響生物體的化學藥劑),charOffset 表 是此藥物在該句的位置;pair id 為該句的藥物組合編號,其中 ddi 為顯示該藥物 對是否有交互作用,e1 和 e2 分別為藥物編號。. 32.

(42) 1. <sentence id="DDI-MedLine.d100.s5" text="Slow-channel calcium blockers, such as. verapamil, diltiazem and nifedipine, inhibit platelet activation in vitro, and decrease platelet adhesion intravascularly. "> 2. <entity id="DDI-MedLine.d100.s5.e0" charOffset="0-28" type="group" text="Slow-channel calcium blockers"/>. 3. <entity id="DDI-MedLine.d100.s5.e1" charOffset="39-47" type="drug" text="verapamil"/>. 4. <entity id="DDI-MedLine.d100.s5.e2" charOffset="50-58" type="drug" text="diltiazem"/>. 5. <entity id="DDI-MedLine.d100.s5.e3" charOffset="64-73" type="drug" text="nifedipine"/>. 6. <pair id="DDI-MedLine.d100.s5.p0" e1="DDI-MedLine.d100.s5.e0" e2="DDI-MedLine.d100.s5.e1" ddi="false"/>. 7. <pair id="DDI-MedLine.d100.s5.p1" e1="DDI-MedLine.d100.s5.e0" e2="DDI-MedLine.d100.s5.e2" ddi="false"/>. 8. <pair id="DDI-MedLine.d100.s5.p2" e1="DDI-MedLine.d100.s5.e0" e2="DDI-MedLine.d100.s5.e3" ddi="false"/>. 9. <pair id="DDI-MedLine.d100.s5.p3" e1="DDI-MedLine.d100.s5.e1" e2="DDI-MedLine.d100.s5.e2" ddi="false"/>. 10. <pair id="DDI-MedLine.d100.s5.p4" e1="DDI-MedLine.d100.s5.e1" e2="DDI-MedLine.d100.s5.e3" ddi="false"/>. 11. <pair id="DDI-MedLine.d100.s5.p5" e1="DDI-MedLine.d100.s5.e2" e2="DDI-MedLine.d100.s5.e3" ddi="false"/>. 12 </sentence>. 圖 4.2.1 文件資料格式. 以圖 4.2.2 為例,若藥物中有 n 個藥物,則藥物組合有𝐶$< 對,所以該例句藥 物數量有 4 個,而藥物對有 6 對。. 33.

(43) Slow-channel calcium blockers, such as verapamil, diltiazem and nifedipine, inhibit platelet activation in vitro, and decrease platelet adhesion intravascularly.. Slow-channel calcium blockers - verapamil. Slow-channel calcium blockers - diltiazem. Slow-channel calcium blockers - nifedipine. verapamil - diltiazem. verapamil - nifedipine. diltiazem - nifedipine 圖 4.2.2 藥物對數量呈現方式 圖片來源:陳珮瑄(2017). 表 4.2.1 為語料庫內的詳細資料,其中訓練資料有 23771 筆資料屬於“False” 分類;826 筆屬於“Advice”分類; 1687 筆屬於“Effect”分類; 188 筆屬於 “Int”分類; 1319 屬於“Mechanism”分類;測試資料總共有 5716 筆。在後續 的實驗中,本研究在訓練以及測試時,資料會以“Advice”、“Effect”、“Int”、 “Mechanism”、“False”作為分類標籤。計算評估值時,“Advice”、“Effect”、 “Int”、“Mechanism”會被視為正向分類,例如“Effect”資料被標示為“Int”, 該資料仍然會被視為分類正確的資料。 34.

(44) 表 4.2.1 語料庫內部詳細資料 表格來源:陳珮瑄(2017). MedLine + 資料類型. MedLine. DrugBank DrugBank. Total document. 142. 572. 714. Total sentence. 1301. 5675. 6976. Pair sentence. 533. 3256. 3789. Total pair. 1787. 26005. 27792. True pair sentence. 232. 3789. 4021. Advice / Effect /. 8 / 152 /. 818 / 1535 /. 826 / 1687 /. Int / Mechanism. 10 / 62. 178 / 1257. 188 / 1319. 1555. 22216. 23771. Total document. 33. 158. 191. Total sentence. 326. 973. 1299. Pair sentence. 170. 620. 790. Total pair. 451. 5265. 5716. Training data. False pair sentence. Test data. 第三節 資料整理. 由於兩組實驗資料需要使用同一套特徵擷取流程,本研究將兩個實驗的原始 資料轉換成一致的 JSON16 (JavaScript Object Notation)格式。JSON 格式是道格拉. 16. JSON https://zh.wikipedia.org/wiki/JSON 35.

(45) 斯˙克羅克福特(Douglas Crockford)所設計的一種資料結構。JSON 的資料結構分 成兩種:. 1.. 物件:以{物件名稱:物件內容}的方式呈現。中間可透過“,”區隔多個 物件。. 2.. 陣列:以[內容 1, 內容 2]的方式呈現。中間可透過“,”區隔多個內容值。. 圖 4.3.1 為從藥物—疾病組合內的例句轉換成 JSON 後的範例。其中, “pos_tree_height”為例句進行詞性分析後取得的最小分析樹樹高;“orig_sen” 為完整原始例句;“tree_sentence”為最小分析樹的內容;“pos_tree”為最小分 析數內容的詞性分析組合;“drug”、“disease”分別為藥物與疾病的名稱; “polarity”為句子的類別,在藥物—疾病中,0 為負向,1 為正向。. 36.

(46) 1 { 2. "tree_sentence": ["As", "would", "be", "expected", ",", "homochiral", "-LRB-", "R", "-. RRB-", "-", "albuterol", "-LRB-", "levalbuterol", "-RRB-", "is", "more", "potent", "and", "effective", "in", "asthma", "and", "may", "have", "significant", "advantages", "if", "used", "in", "COPD", "."], 3. "pos_tree": [["As", "IN"], ["would", "MD"], ["be", "VB"], ["expected", "VBN"], [",",. ","], ["homochiral", "JJ"], ["-LRB-", "-LRB-"], ["R", "NN"], ["-RRB-","-RRB-"], ["-", ":"], ["albuterol", "JJ"], ["-LRB-", "-LRB-"], ["levalbuterol", "NN"], ["-RRB-", "-RRB-"], ["is", "VBZ"], ["more", "RBR"], ["potent", "JJ"], ["and", "CC"], ["effective", "JJ"], ["in", "IN"], ["asthma", "NN"], ["and", "CC"], ["may", "MD"], ["have", "VB"], ["significant", "JJ"], ["advantages", "NNS"], ["if", "IN"], ["used", "VBN"], ["in", "IN"], ["COPD", "NNP"], [".", "."]], 4. "disease": "COPD",. 5. "orig_sen": "As would be expected, homochiral (R)-albuterol (levalbuterol) is more. potent and effective in asthma and may have significant advantages if used in COPD. ", 6. "polarity": 1,. 7. "pos_tree_height": 11, "drug": "Levalbuterol". 8 }. 圖 4.3.1 藥物—疾病組合內例句 JSON 範例. 第四節 合成少數採樣技術. 由於兩組實驗的資料都屬於極度不平衡的資料,對於訓練模型的效果與測試 的結果準確度都會造成極大的影響,所以本研究採用合成少數採樣技術 (Synthetic Minority Over-sampling Technique, SMOTE)來增加少量資料分類中的資 料量。 以藥物—疾病組合為例,正向訓練資料有 2375 筆,負向訓練資料有 59 筆, 為使資料平衡,需要將負向資料增加到與正向資料接近數量。公式(7)為 SMOTE 37.

(47) 合成新資料的方式,其中 T 為原始資料集合,在這裡為 59 筆負向資料,而 t 為 每一筆原始資料;N 為預期要合成的資料量;K 為合成資料時要找的鄰近資料數; V 則為要與 t 建立新樣本的鄰近資料集合; 𝐶𝑟𝑒𝑎𝑡𝑒𝑁𝑒𝑤𝑆𝑎𝑚𝑝𝑙𝑒(𝑡, 𝑁, 𝐾, 𝑉)是將 f. t 這筆資料對 K 筆鄰近資料建立向量,並對向量進行g 次分割,取得總數為 N 的 新資料。. 𝑆𝑀𝑂𝑇𝐸 (𝑇, 𝑁, 𝐾 ) = [ 𝐶𝑟𝑒𝑎𝑡𝑒𝑁𝑒𝑤𝑆𝑎𝑚𝑝𝑙𝑒(𝑡, 𝑁, 𝐾, 𝑉 )) 𝑓𝑜𝑟 𝑡 𝑖𝑛 𝑇 ] (7). 公式(8)為對鄰近資料點取得新資料的方式。k 為鄰近資料點;𝑀為資料的特 徵總數; 𝑡> 和𝑘> 分別為 t 和 k 在特徵 i 的值。. 𝑁𝑒𝑤 𝑠𝑎𝑚𝑝𝑙𝑒 = (. lm nom p. K. ,. lq noq p. K. ,…,. ls nos p. K. ,…,. lt not p. ) . (8). K. 圖 4.4.1 為上述 SMOTE 公式在本研究中實際應用的演算法虛擬碼。表 4.4.1 為本研究透過 SMOTE 所合成的資料總數。. 38.

(48) 1 def SMOTE(T = [], N = int(), K = int()): 2. new_sample_set = []. 3. for t in T:. 4. distance_list = []. 5. near_node_list = []. 6. for vice_data in vice_data_set:. 7. distance_list.append(get_node_distance(t, vice_data)). 8. near_node_list.append(vice_data). 9 10 11. V = sorted(zip(distance_list, near_node_list))[:K] new_sample_set += CreateNewSample(t, N, K, V) return new_sample_set. 12 13 def CreateNewSample(t, N, K, V): 14. new_sample_list = []. 15. for k in V:. 16 17 18 19. for feature in t: new_sample[feature] = float((t[feature] + k[feature]) / (N/K)) new_sample_list.append(new_sample) return new_sample_list. 圖 4.4.1 SMOTE 虛擬碼. 表 4.4.1 藥物—疾病組合說明 實驗. 類別. 原始資料數. 合成資料數. 總資料數. 藥物—疾. 負向訓練資料. 59. 3338. 3397. 病組合. 負向測試資料. 12. 122. 134. 藥物—藥. 正向訓練資料. 826 / 1687 /. 21735 / 20579 /. 22540 / 21162 /. 物組合. (Advice / Effect / Int / Mechanism). 188 / 1319. 22302 / 21607. 22479 / 22878. 39.

(49) 第五節 評估方式. 在機器學習的實驗裡,實驗的評估方法分別為準確率(Accuracy)、精確率 (Precision)、召回率(Recall)和 F1-measure,本研究在藥物—疾病實驗因測試資料 有進行平衡,準確率為主要評估方式;藥物—藥物實驗因測試資料不平衡,F1measure 為主要評估方式。 第一步要做的是要將實驗結果和標準答案互相做比對,若實驗結果和標準答 案都是正向,該次實驗結果為正確正例(True Positive, TP);若實驗結果和標準答 案都是負向,該次實驗結果為正確負例(True Negative, TN);若標準答案是正向, 實驗結果是負向,該次實驗結果為錯誤負例(False Negative, FN);若標準答案是 負向,實驗結果是正向,該次實驗結果為錯誤正例(False Positive, FP),表 4.5.1 為 評估分析表。. 表 4.5.1 評估分析表 標準答案 正向資料. 負向資料. 實驗. 正向資料. 正確正例 (TP). 錯誤正例 (FP). 結果. 負向資料. 錯誤負例 (FN). 正確負例 (TN). 40.

(50) 其中,準確率(Accuracy)為所有實驗結果預測正確的比率;精確率(Precision) 為所有實驗結果為正向的資料筆數中預測正確的比率;召回率(Recall)為所有標 準答案為正向的資料筆數中預測正確的比率;F1-measure 為精確率和召回率之綜 合評估結果,公式分別如式(9)(10)(11)(12)所示。. (RwnRf). 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝐴 = (RwnxwnRfnxf) Rw. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑃 = (Rwnxw) Rw. 𝑅𝑒𝑐𝑎𝑙𝑙 𝑅 = (Rwnxf) $w•. F1 − measure = (wn•). 41. (9) (10) (11) (12).

(51) 第五章. 實驗結果與討論. 本研究的實驗分成兩個部分,實驗目的皆為對語料庫進行辨識,差別在於兩 次實驗的語料庫不同。第一組實驗為將藥物—疾病組合,判斷句子中的敘述是否 為藥物可以治療對應疾病。第二組實驗為將藥物—藥物組合,判斷句子中的敘述 是否為對應藥物組合有交互作用。實驗順序是先進行第一組實驗,並且在透過實 驗結果確立實驗方法後,再進行第二組實驗,並依照與第一組實驗資料的差異進 行調整和方法改善。最後,以兩組實驗的結果作為實驗方法的交互驗證。. 第一節 藥物—疾病關係辨識之結果與討論. 在藥物—疾病關係辨識實驗為辨識藥物在資料的敘述中,是否可治療對應疾 病。本實驗的機器學習模型訓練分成內部實驗和兩個階段的外部實驗。由於負向 資料的數量過少,所以除了訓練資料外,測試資料也透過合成少數採樣技術將負 向資料新增至與正向數量相同。在正負資料量相同的情況下,藥物—疾病關係辨 識模型最主要的效能判斷依據為準確率(Accuracy)和 F1-measure。. (一) 內部測試. 在藥物—疾病關係辨識實驗的內部測試中,本研究先將訓練資料分成內部訓 42.

(52) 練與內部測試資料,用來調整選用特徵、LIBSVM 類別權重參數與核函式選擇。 實驗的特徵設計是先將最開始預先設計好的特徵經過多次內部測試來逐步 調整或增加特徵。使用的資料為將訓練資料隨機選取四千筆,再將這些資料隨機 選取兩百筆作為內部測試的測試資料來進行實驗。最後依據實驗結果決定選用的 特徵,表 5.1.1 為內部實驗新增的特徵組合。. 表 5.1.1 藥物—疾病關係辨識階段之特徵說明 特徵組別 編號. 特徵 類別. 特徵說明. 1. 基礎 特徵. 為本研究的基本句型分析和文法類特徵。 包含第三章第三節中的特徵 1~14、19、21、22、24。. 2. 補充詞性 特徵. 3. 補充輔助 特徵. 補充在基本特徵中沒有的詞性相關特徵,本研究以增 加介系詞相關特徵為主。 包含第三章第三節中的特徵 15~18、23。 補充與基本特徵中沒有的輔助特徵,本研究這邊新增 完整原始句字數與專有名詞字數等特徵。 包含第三章第三節中的特徵 20、25。. 核函數在內部測試後,選擇線性(Linear)和 S 型(Sigmoid)為效果比較好的兩 個核函數。多項式與放射核函數在藥物—疾病組合的實驗完全沒有分類效果,後 面這兩核函數在做過加權之後仍然將所有資料分成正向。權重參數則因為原始的 負向資料不足,測試時發現,即使透過合成少數採樣技術將負向資料新增至與正 向數量相同,仍然需要在負向分類進行加強才能夠有更好的結果,後續實驗的權 重皆為透過 LibSVM 的權重參數直接給予,而不只是透過合成少數採樣技術。. 43.

(53) 如表 5.1.2,實驗編號 1 為沒有任何權重加權的線性核函數模型內部測試結 果,選用特徵為特徵組別編號 1;實驗編號 2 為負向分類權重加權 110 倍的線性 核函數模型內部測試結果,選用特徵為特徵組別編號 1 和特徵組別編號 2;實驗 編號 3 為負向分類權重加權 100 倍的線性核函數模型內部測試結果,選用特徵為 特徵組別編號 1、2 和 3;實驗編號 4 為負向分類權重加權 4 倍的 S 型核函數模 型內部測試結果,選用特徵為特徵組別編號 1、2 和 3。. 表 5.1.2 藥物—疾病關係辨識內部測試結果 編號. 實驗方式. Accuracy. Precision. Recall. F1-measure. 1. 無加權+線性+特 徵組別 1. 58.5%. 54.7%. 99.0%. 70.5%. 2. 負向加權 110 倍+ 線性+特徵組別 1、2. 66.3%. 60.3%. 95.0%. 73.8%. 3. 負向加權 100 倍+ 線性+特徵組別 1、2、3. 73.8%. 67.8%. 90.5%. 77.5%. 4. 負向加權 4 倍+S 性+特徵組別 1、 2、3. 69.0%. 65.4%. 80.5%. 72.2%. 依據內部測試實驗結果,實驗編號 3 和實驗編號 4 為表現最好的兩組參數。 也就是線性核函數模型表現最好的負向分類需加權至正向的 100 倍,S 型核函數 模型表現最好的負向分類需加權至正向的 4 倍。. 44.

(54) (二) 第一階段外部測試. 第一階段外部測試為使用完整訓練資料與測試資料進行訓練模型與測試模 型效能的階段。核函數模型的權重參數與特徵組合均依照內部測試的對應結果來 給予。而第一階段外部測試各實驗組別間的差異為內部測試所選擇核函數,以及 合成少數採樣技術的方法。本研究合成少數採樣技術的方法在實作上分成對非文 字類特徵進行與對所有特徵進行。差別在於對非文字類特徵進行合成少數採樣時, 特徵 6、7、9、11、13、15、17 等代表文字本身外觀特徵的值不會在合成時被改 變,會直接套用合成時原始基礎資料該特徵的值。而對所有特徵進行合成少數採 驗則不會判斷該特徵的特性,對所有特徵進行取向量中間值的運算。 如表 5.1.3,實驗編號 1 為負向分類權重加權 100 倍的線性核函數模型第一 階段外部測試結果,選用特徵為特徵組別編號 1、2 和 3,採對非文字類特徵進 行合成少數採樣技術;實驗編號 2 為負向分類權重加權 4 倍的 S 型核函數模型 第一階段外部測試結果,選用特徵為特徵組別編號 1、2 和 3,採對非文字類特 徵進行合成少數採樣技術;實驗編號 3 為負向分類權重加權 100 倍的線性核函數 模型第一階段外部測試結果,選用特徵為特徵組別編號 1、2 和 3,採對所有特 徵進行合成少數採樣技術;實驗編號 4 為負向分類權重加權 4 倍的 S 型核函數 模型第一階段外部測試結果,選用特徵為特徵組別編號 1、2 和 3,採對所有特. 45.

(55) 徵進行合成少數採樣技術。. 表 5.1.3 藥物—疾病關係辨識第一階段外部測試結果 Accuracy. Precision. Recall. F1-measure. 62.7%. 58.3%. 89.6%. 70.6%. 2. 負向加權 4 倍+S 型+特徵組別 1、 2、3 +對非文字特 徵進行 SMOTE. 65.7%. 65.7%. 65.7%. 65.7%. 3. 負向加權 100 倍+ 線性+特徵組別 1、2、3 +對所有 特徵進行 SMOTE. 69.0%. 72.6%. 61.2%. 66.4%. 68.3%. 63.7%. 85.1%. 72.8%. 編號. 1. 實驗方式 負向加權 100 倍+ 線性+特徵組別 1、2、3 + 對非文 字特徵進行 SMOTE. 4. 負向加權 4 倍+S 型+特徵組別 1、 2、3+對所有徵進 行 SMOTE. 依據第一階段外部實驗的結果,可以確認內部測試所選擇的特徵和權重參數 可以正常進行分類,且沒有過度擬合的問題。對所有特徵進行合成少數採樣技術 在整體的效能表現也比對非文字類特徵進行合成少數採樣技術好。在接下來的第 二階段外部測試也會採用對所有特徵進行合成少數採樣技術的方法。. 46.

(56) (三) 第二階段外部測試. 第二階段外部測試主要目的是希望能夠試圖找出分類錯誤的資料是否有其 規律存在,並透過 LIBSVM 自動導正。本研究提出的方法是將第一階段外部測 試的結果回饋成新的特徵,訓練資料直接透過第一階段外部測試的模型取得分類 結果來進行回饋。 如表 5.1.4,實驗編號 1 為線性核函數模型(第一階段實驗編號 3)採用回饋方 法的第二階段外部測試結果;實驗編號 2 為 S 型核函數模型(第一階段實驗編號 4)且採用回饋方法的第二階段外部測試結果。. 表 5.1.4 藥物—疾病關係辨識第二階段外部測試結果 編號. 實驗方式. Accuracy. Precision. Recall. F1-measure. 1. 第一階段實驗編 號 3+回饋. 69.0%. 72.6%. 61.2%. 66.4%. 2. 第一階段實驗編 號 4+回饋. 75.7%. 76.3%. 74.6%. 75.5%. 依據第二階段外部測試的結果,回饋前一階段的測試結果可以有效提升模型 效能。實驗編號 2 為表現較好的模型,由此可得知,在藥物—疾病關係辨識實驗 中,回饋對 S 型核函數模型效果比較好。. 47.

(57) 第二節 藥物—藥物關係辨識之結果與討論. 在藥物—藥物關係辨識實驗為辨識在資料的敘述中,對應藥物組合是否會產 生交互作用。本實驗採用與藥物—疾病關係辨識實驗相同的方法建立模型,差別 在於特徵有依照兩組資料在文法上的差異進行特徵的修改和補強。 由於藥物—藥物關係辨識實驗與陳佩瑄 (2017) 的以混合方法自生醫文獻擷 取藥物-藥物交互作用之研究使用相同的語料庫,且其研究中以規則為基的方法 表現卓越,所以在藥物-藥物關係辨識實驗中參考了其特徵設計和規則為基方法, 分別設計成藥物組合特徵和規則為基輔助特徵。表 5.2.1 為藥物—藥物關係辨識 階段之特徵說明。. 表 5.2.1 藥物—藥物關係辨識階段之特徵說明 特徵組別 編號. 特徵 類別. 特徵說明. 1. 基礎 特徵. 為藥物—疾病關係辨識實驗中所設計的特徵。特徵 3 因 為是表示藥物與疾病在資料中的順序,所以在藥物— 藥物關係中不適用。 包含第三章第三節中的特徵 1、2、4~25。. 2. 藥物組合 特徵. 為以混合方法自生醫文獻擷取藥物-藥物交互作用之 研究中沒有被包含在基礎特徵內的特徵。 包含第三章第三節中的特徵 26~31。. 3. 規則為基 輔助特徵. 為將以混合方法自生醫文獻擷取藥物-藥物交互作用 之研究中規則為基方法內的規則轉換的特徵。 包含第三章第三節中的特徵 32~37。. 48.

(58) 本實驗目標為進行是否產生交互作用的辨識,建立機器學習模型的分類雖然 使用表 2.2.1 SemEval Task 9.2 各類別的說明和例句中藥物間交互作用作的細部 分類做為模型的分類。但實驗結果的評估中,Advice (ADV) 、Effect (EFF) 、 Mechanism. (MEC)、Int (INT) 等分類皆列為有交互作用的分類,例如:分類為. Advice 的測試資料在實驗結果中若被分類成 Effect,本實驗會判定該資料為正確 正例。 由於本實驗的實驗步驟直接採用藥物—疾病關係辨識實驗中所設計的實驗 步驟進行,後續說明會以增加不同特徵組別、實驗結果回饋方法差異的實驗結果 進行分析,並且會與 DDI Extraction 2013 Task 9.2 其他參賽隊伍進行比較。 藥物—藥物關係辨識實驗與藥物—疾病關係辨識實驗採用類似的模型建立 流程。針對設計好的實驗特徵組合,先將訓練資料對每一種選定的核函數進行訓 練,取得對應模型。透過該模型取得訓練資料資料與測試資料的分類結果作為第 一階段訓練資料與測試資料的測試結果,再將所有核函數的第一階段測試結果回 饋到訓練資料與測試資料內,並將新的訓練資料對每一種選定的核函數進行訓練, 取得對應的第二階段模型。該模型的測試結果則為實驗組別的結果。 藥物—藥物關係辨識實驗選擇的核函數包含線性、多項式、放射和 S 型作為 訓練模型的核函數。第二階段測試時,每一個核函數模型皆會將所有第一階段的 四個核函數模型作為新的回饋特徵。針對不同之特徵組合與核函數選用方式,設 計之實驗如下所述:. 49.

(59) (一) 藥物—藥物關係辨識特徵組別 1. 表 5.2.2 為藥物—藥物關係辨識實驗特徵組別 1 測試結果,實驗特徵皆為特 徵組別 1,實驗編號 1~4 分別為以線性、多項式、放射和 S 型作為核函數的訓 練模型在第一階段測試之結果;實驗編號 5~8 分別為以線性、多項式、放射和 S 型作為核函數的訓練模型在第二階段回饋測試之結果。. 表 5.2.2 藥物—藥物關係辨識特徵組別 1 結果 編號. 實驗方式. Accuracy. Precision. Recall. F1-measure. 1. 線性. 70.9%. 33.7%. 72.5%. 46.1%. 2. 多項式. 75.9%. 39.9%. 80.5%. 53.4%. 3. 放射. 77.0%. 40.9%. 76.5%. 53.3%. 4. S型. 54.5%. 25.4%. 85.5%. 39.2%. 5. 線性+回饋. 71.4%. 34.5%. 74.6%. 47.1%. 6. 多項式+回饋. 77.2%. 41.0%. 75.0%. 53.0%. 7. 放射+回饋. 77.2%. 41.1%. 75.8%. 53.3%. 8. S 型+回饋. 50.6%. 23.9%. 86.3%. 37.4%. 依據特徵組別 1 實驗結果,只透過藥物—疾病關係辨識設計的基本特徵,在 藥物—藥物實驗中的表現並不突出,所以本研究在後續實驗加入針對藥物—藥物 組合設計之特徵。. 50.

(60) (二) 藥物—藥物關係辨識特徵組別 1+2. 表 5.2.3 為藥物—藥物關係辨識實驗特徵組別 1 加上實驗特徵組別 2 測試結 果,實驗特徵皆為特徵組別 1 加實驗特徵組別 2,實驗編號 1~4 分別為以線性、 多項式、放射和 S 型作為核函數的訓練模型在第一階段測試之結果;實驗編號 5 ~8 分別為以線性、多項式、放射和 S 型作為核函數的訓練模型在第二階段回饋 測試之結果。. 表 5.2.3 藥物—藥物關係辨識特徵組別 1+2 結果 編號. 實驗方式. Accuracy. Precision. Recall. F1-measure. 1. 線性. 72.4%. 36.5%. 82.7%. 50.6%. 2. 多項式. 78.8%. 43.4%. 78.7%. 55.9%. 3. 放射. 81.2%. 46.9%. 72.2%. 56.8%. 4. S型. 51.9%. 23.8%. 81.8%. 36.8%. 5. 線性+回饋. 75.5%. 39.0%. 76.6%. 51.7%. 6. 多項式+回饋. 81.8%. 47.8%. 72.4%. 57.6%. 7. 放射+回饋. 81.5%. 47.3%. 70.6%. 56.6%. 8. S 型+回饋. 61.7%. 26.7%. 71.7%. 39.1%. 由實驗結果與特徵組別 1 的實驗相比,第一階段測試與回饋後的第二階段效 能有提高一些,其中多項式的核函數在使用回饋方法後的第二階段 Accuracy 提 高了 3%,F1-measure 提升了最高的 1.7%。. 51.

(61) (三) 藥物—藥物關係辨識特徵組別 1+2+3. 表 5.2.4 為藥物—藥物關係辨識實驗特徵組別 1 加上實驗特徵組別 2 和實驗 特徵組別 3 測試結果,實驗特徵皆為特徵組別 1 加實驗特徵組別 2 加實驗特徵組 別 3,實驗編號 1~4 分別為以線性、多項式、放射和 S 型作為核函數的訓練模 型在第一階段測試之結果;實驗編號 5~8 分別為以線性、多項式、放射和 S 型 作為核函數的訓練模型在第二階段回饋測試之結果。. 表 5.2.4 藥物—藥物關係辨識特徵組別 1+2+3 結果 編號. 實驗方式. Accuracy. Precision. Recall. F1-measure. 1. 線性. 72.2%. 37.6%. 94.2%. 53.7%. 2. 多項式. 75.4%. 40.0%. 86.3%. 54.7%. 3. 放射. 77.3%. 41.9%. 83.7%. 55.8%. 4. S型. 55.1%. 25.4%. 83.5%. 38.9%. 5. 線性+回饋. 75.9%. 40.3%. 84.6%. 54.6%. 6. 多項式+回饋. 78.1%. 42.8%. 83.5%. 56.6%. 7. 放射+回饋. 77.5%. 42.1%. 83.5%. 55.9%. 8. S 型+回饋. 58.1%. 25.4%. 74.6%. 37.9%. 在實驗特徵組別 1 加上 2 和 3 的實驗中,第一階段實驗結果仍然沒有明顯的 效能提升,但是回饋後的效能更提升了一些,以表現最好的實驗 6 為例回饋後的 F1-measure 比第一階段使用相同核函數的實驗 2 提升 1.9%。比藥物—藥物關係 辨識實驗特徵組別 1 加上實驗特徵組別 2 稍微提升了一些。. 52.

(62) (四) 藥物—藥物關係辨識實驗結果討論. 本研究在藥物—藥物關係辨識實驗表現最好的實驗為藥物—藥物關係辨識 特徵組別 1+2 的實驗 6,F1-measure 為 57.6%。該實驗的核函數皆為多項式核函 數的回饋後第二階段實驗模型。表 5.2.5 為各參賽隊伍、他人研究與本研究之 F1measure 效能,該值為每一隊伍最高之辨識效能,平均效能為 67.5%。若以特徵組. 別 1+2 的實驗 6 作為代表,表現為九組實驗中的第八名。. 表 5.2.5 參賽隊伍與本研究藥物—藥物關係辨識效能 研究組別. Precision. Recall. F1-measure. FBK-irst. N/A. N/A. 80.0%. NIL_UCM. N/A. N/A. 65.6%. SCAI. N/A. N/A. 70.4%. UC3M. N/A. N/A. 67.6%. UCOLORADO_SOM. N/A. N/A. 50.4%. UTurku. N/A. N/A. 69.9%. UWM-TRIADS. N/A. N/A. 59.9%. WBI. N/A. N/A. 75.9%. 陳佩瑄(2017)研究之 實驗結果. 60.2%. 87.0%. 71.2%. 特徵組別 1+2 之 實驗 6. 47.8%. 72.4%. 57.6%. 本研究的方法在藥物-藥物交互作用之實驗,本方法的效果並不好,但其中 特徵組別 1+2 的實驗 6 的負向 Precision 和 F1-measure 分別為 93.2%和 88.2%,. 53.

參考文獻

相關文件

Content and format of Investigational New Drug applications (INDs) for Phase I studies of drugs, including well-characterized, therapeutic,

• Oral interactions are often indivisible from the learning and teaching activities of an English task, and as such, speaking activities can be well integrated into any

The presented methods for mining semantically related terms are based on either internal lexical similarities or external aspects of term occurrences in documents

interactions between Europe and Asia in Medieval Times—3: Developments in trade and civilisation of Islam from the 7th to 15th centuries

“The Connectivity Map: using gene-expression signatures to connect small molecules, genes, and disease.” Science 313(5795):..

The criterion for securing consistence in bilateral vicinities is to rule out the pairs which consist of two cliff cell edges with different slope inclination but the pairs

3.Secondary research may reduce the levels of trust between participants and researchers.. 4.&#34;One size fits all&#34; approach also risks losing

• The abstraction shall have two units in terms o f which subclasses of Anatomical structure are defined: Cell and Organ.. • Other subclasses of Anatomical structure shall