結合統計與規則探討生醫文件疾病與基因之關係

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：侯文娟. 博士. 結合統計與規則探討生醫文件疾病與基因之關係 A Hybrid Method for Discovering Disease-Gene Associations from Biomedical Texts. 研究生：中華民國. 郭博元. 一O三. 年. 撰六. 月.

(2) 摘要. 本研究嘗詴在生醫文獻中探討基因以及疾病的關聯度，所使用的資料為孟德爾遺傳學(Online Mendelian Inheritance in Man, OMIM)網站中提供的 morbid 中所包含的 Mendelian Inheritance in Man (MIM)文獻。在本論文中，首先從生醫文獻找出含有人類遺傳疾病與基因之句子，視為正確的句子；以及不包含疾病與基因的句子，視為錯誤的句子。然後透過 Memory-Based Shallow Parser (MBSP)標記句子以取得我們需要的資訊，模擬 ALEPH 系統進行規則的學習，並利用這些規則在本實驗的生醫文獻中，抓取單一句子以及相鄰句子配對到的基因與疾病，再使用統計方法中驗證值減期望值所得到的 Z-Score 值來判斷該配對是否可以列為有效配對，接著結合一些限制條件、Rule 數之多寡等因素進行其他實驗，最後以 Precision、Recall 以及 F-Score 值當作評估的標準。. 關鍵字：規則學習、統計方法、疾病與基因關係、生物醫學文獻探勘. I.

(3) ABSTRACT The study focuses on automatically extracting the relationships between human genetic diseases and genes from the biomedical literatures. The experimental data is retrieved from Mendelian Inheritance in Man (MIM) literatures of morbid in Online Mendelian Inheritance in Man (OMIM) database. To collect the corpus used in the research, the first step is to find the sentences that include both the related human genetic diseases and genes mentioned from the morbid file, and they are regarded as the correct sentences. In the second step, the sentences that neither have the related human genetic diseases nor the genes mentioned from the morbid file are randomly selected, and they are regarded as the incorrect sentences. Next, Memory-Based Shallow Parser (MBSP) is utilized to analyze these sentences to get some information in order to find rules in the following step. Then, some learning rules are obtained by simulating ALEPH system in the study. These generated rules are applied to catch the pairs of human genetic diseases and genes within one sentence or multi-sentences. The thesis also proposes a statistical approach, called Z-score method, to determine whether the pairs are valid or not. Finally, the experiments are made with considering some constraints and different numbers of rules. Furthermore, the evaluation metrics in the experiments are precision, recall rates, and F-scores.. Keywords: Rule learning, Statistical method, Gene-disease relationship, Biomedical text mining II.

(4) 僅獻給‧‧‧‧. 我的家人、指導教授、同學、朋友. III.

(5) 誌謝. 首先感謝我的指導教授侯文娟老師，由於老師細心的教導，我才能順利完成這篇論文，並且也要感謝實驗室的同學，藉由我們互相的討論與研究，才能有今日一番的小成果，並謝謝系上能提供實驗室研究的環境以及修習的課程，使我在研究所這兩年學到了解決問題的能力，有著充實的學習生活。最後感謝我的家人，在我人生道路上一路陪伴著我，做我永遠的後盾。有你們的存在，才有今天的我，謝謝你們。. IV.

(6) 目錄. 附表目錄....................................................................................................................... VI 附圖目錄......................................................................................................................VII 第一章緒論................................................................................................................... 1 第一節研究動機 ........................................................................................................................... 1 第二節研究目的 ........................................................................................................................ 2 第三節論文架構 ........................................................................................................................ 2 第二章相關研究探討................................................................................................... 3 第三章方法與步驟....................................................................................................... 6 第一節第二節第三節第四節. 緒論.................................................................................................................................. 6 實驗資料與工具 .......................................................................................................... 6 研究架構與方法 ........................................................................................................13 研究方法描述.............................................................................................................14. 第四章實驗與結果..................................................................................................... 21 第一節第二節第三節第四節. 實驗資料 ......................................................................................................................21 評估測量標準.............................................................................................................21 實驗結果 ......................................................................................................................23 分析與討論 .................................................................................................................30. 第五章結論與未來發展............................................................................................. 34 參考文獻....................................................................................................................... 35. V.

(7) 附表目錄. 表 3-1 MIM 編號說明 .................................................................................................... 8 表 3-2 MBSP TAG 說明 ............................................................................................... 16 表 4-1 二元分類表 ....................................................................................................... 22 表 4-2 實驗結果總覽 ................................................................................................... 23 表 4-4 增加重複配對不取條件之影響 ....................................................................... 31 表 4-5 RULES 增加之影響 .......................................................................................... 32 表 4-6 與陳孝源(2012)、劉孙錚(2013)實驗結果之比較 ......................................... 33. VI.

(8) 附圖目錄. 圖 3-1 OMIM 網站 ......................................................................................................... 7 圖 3-2 MORBID 資料範例 ............................................................................................ 8 圖 3-3 MBSP 分析的項目 .............................................................................................. 9 圖 3-4 MBSP 的基本文法架構 .................................................................................... 10 圖 3-5 研究方法架構流程圖 ....................................................................................... 13 圖 3-6 包含疾病與基因配對之句子 ........................................................................... 15 圖 3-7 經 MBSP 標記後的句子 .................................................................................. 15 圖 3-8 學習規則結果 ................................................................................................... 17 圖 3-9 單一句子符合規則之句子 ............................................................................... 18 圖 3-10 相鄰句子符合規則之句子 ............................................................................. 18 圖 3-11 系統擷取到的疾病與基因配對之句子 ......................................................... 19 圖 3-12 疾病 BOTHNIA 與基因 RLBP1 實際出現在所有文章中的句子 ............... 19 圖 3-13 取出配對之結果 ............................................................................................. 20 圖 4-1 重複配對之情況例子 ...................................................................................... 24 圖 4-2 實驗結果之 PRECISION 直條圖 ........................................................................ 25 圖 4-3 實驗結果之 RECALL 直條圖 ............................................................................ 26 圖 4-4 實驗結果之 F-SCORE 直條圖 ........................................................................... 26 圖 4-5 單一句 Z-SCORE 實驗(Z-SCORE>0~Z-SCORE>3) ............................................ 27 圖 4-6 相鄰句 Z-SCORE 實驗(Z-SCORE>0~Z-SCORE>3) ............................................ 28 圖 4-7 單一句Ｚ-SCORE 實驗(Z-SCORE>2~Z-SCORE>3)............................................ 29. VII.

(9) 圖 4-8 相鄰句Ｚ-SCORE 實驗(Z-SCORE>2~Z-SCORE>3)............................................ 29. VIII.

(10) 第一章. 緒論. 第一節研究動機. 現今處於一個資訊爆炸的時代，網路上存在著成千上萬的新舊文章及各種研究文獻，而且每天不斷地大量產生，在其中蘊藏著很多未整理過的知識等著我們去挖掘，在生物醫學方面亦是。其中生物醫學文章、文獻裡，有許多記載著人類疾病、基因等相關文獻，記錄著某些疾病與基因的相關聯資訊，若能把相關聯資訊挖掘出來，對未來生物醫學的發展上必定有著重大的影響力。如何有效率的挖掘知識是一門重要的學問。在電腦科學領域中，藉由自然語言處理(Natural Language Processing, NLP)的技術，可以更有效率地找出文獻、文章裡科學家們感興趣的課題(如：疾病與基因的關聯度)，本研究詴著從現有人類生醫文獻中，將包含遺傳疾病以及基因的句子做進一步的文字分析，然後透過規則學習來生成一些對應的規則，並結合統計相關概念方法，希望找出與特定疾病相關聯的基因。. 1.

(11) 第二節研究目的. 本研究之目的為希望有效地從生醫文獻中找尋疾病以及基因的關聯性，除了參考以前學者之作法，利用規則抓取單一句子以及相鄰句子之疾病與基因，本研究並結合統計相關概念進一步探討疾病以及基因的關聯度，期許效能相較於以前之研究結果能有明顯之提升。. 第三節論文架構. 本論文的組織大綱如下：第一章介紹研究動機與目的，第二章探討相關文獻，第三章為研究方法與步驟，第四章則是實驗結果與討論，最後章節提出結論與未來發展。. 2.

(12) 第二章. 相關研究探討. 本論文的研究目的為自動從文獻中找出人類遺傳疾病與基因之間的關聯度，在實驗的過程中，研讀與探討了許多前人的實驗方法與技術，並在實驗中結合多種方法與改良方式，以下為本論文的相關文獻探討： Al-Mubaid 及 Singh (2005)的研究主要是從 National Library of Medicine (NLM) 內含的資料庫擷取出特定的疾病文章摘要1，期望從該疾病摘要裡找出該疾病相對應及有關係的蛋白質。該研究使用統計的方法，利用兩個疾病集合(interest set 與 control set)以及一個蛋白質集合，其中 interest set 為欲知疾病的摘要集，control set 為不包含欲知疾病的摘要集，並利用統計學觀念中的期望值(expectation)以及驗證值(evidence)計算出各個蛋白質對欲知疾病之關係。在統計學上顯示，當 expectation 以及 evidence 的差值越大時，代表該蛋白質對於欲知疾病有越強的關係，該研究最後再以 Z-score 表示各個蛋白質對於欲知疾病的關係分數，並以精確率(precision rate)以及回收率(recall rate)計算效能。但是該研究首先出現一個問題，就是無法計算 recall 值，因為在現有的資料庫中沒有一個完整的檔案可以顯示任一疾病相對應的所有相關聯的蛋白質，該作者提出的解決方法是分別找 25 篇三個不同疾病相關的摘要集，以人工的方式請專家標出正確的疾病基因配對，然後再把這三個不同疾病的摘要集作為測詴集，計算出 precision 以及 recall 值。本篇論文會採用此統計方法之概念，再加入規則學習的方法，二者概念相結合，以便判斷從文章中抓取之疾病基因配對是否為有效配對。 1 2. https://www.nlm.nih.gov/ http://www.ncbi.nlm.nih.gov/omim 3.

(13) Adamic 等人(2002)的研究則探討有關疾病以及基因的關聯度，他們從 HUGO (Human Genome Organization) (Wain et al., 2002)、OMIM (Online Mendelian Inheritance in Man)2以及 LocusLink (an online database of gene loci) (Pruitt and Maglott, 2001)等三個資料庫蒐集疾病的標題以及摘要，先對文章摘要裡每個基因做 alias symbols 之處理，然後利用統計的概念，包括二項式定理、預期出現的基因次數以及相關連平方差，計算基因對與疾病的相關聯程度，最後以 similarity 值表示該基因以及疾病的相關聯分數。 Cheung 等人(2012)利用含有 MeSH (Medical Subject Headings) terms 之文獻3，透過這些 MeSH terms 形成基因以及疾病的 MESHOP (Medical Subject Heading Over-representation Profiles) ，他們從 GeneRIF (Mitchel et al., 2003) 以及 Gene2pubmed (Maglott et al., 2007)各取若干篇文獻當作資料集，對每個基因以及疾病生成各自的 MESHOP，MESHOP 為各個基因疾病的 MeSH terms 以及其 p-value 所配對的成果。他們假設若基因與疾病 MESHOP 之間的 similarity 越大，則代表此基因與該疾病越有關聯，他們制定了多個計算 similarity 的方法進行實驗，其中以公式(1)最有效率：. √ ∑. )). o. o. ))). (1). ). 其中 G 與 D 為基因跟疾病的 MESHOP，. )以及. )分別表示基因與疾病. 中 MeSH term 的 p-value 值4，p-value 為在統計學上常見的評估顯著差異的一個指標。 2 3 4. http://www.ncbi.nlm.nih.gov/omim https://www.nlm.nih.gov/mesh/meshhome.html http://en.wikipedia.org/wiki/P-value 4.

(14) 陳孝源 (2012) 以及劉孙錚 (2013) 的研究使用的方法是從 OMIM (Online Mendelian Inheritance in Man)5網站取得疾病文獻，利用 OMIM 文獻裡所提供的 morbid 之 MIM 編號，找出文獻裡人類遺傳疾病以及其配對基因同時存在的句子以及不含人類遺傳疾病與基因之句子，並針對這些句子利用文字剖析器 MBSP6(Memory-Based Shallow Parser)進行標記，之後再把標記過後的句子放進 ALEPH7系統裡讓系統學習規則，利用這些學習得到的規則，分別在符合規則之單一句子以及相鄰句子中抓取疾病與基因配對，最後以 precision 和 recall 值計算效能。. 5 6 7. http://www.ncbi.nlm.nih.gov/omim http://www.clips.ua.ac.be/pages/MBSP#server http://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph.html 5.

(15) 第三章方法與步驟. 第一節緒論. 本研究參考陳孝源(2012)以及劉孙錚(2013)提出的架構，除了利用規則學習的方法及鄰近句子基因與疾病關係擷取之方法，為了增進整體的精確率以及回收率，結合了統計方法，於利用規則抓取基因、疾病配對時增加門檻以及限制條件，關於統計方法以及限制條件之詳細內容會在接下來各小節介紹。. 第二節. 實驗資料與工具. (1) 背景知識庫. Online Mendelian Inheritance in Man (OMIM)是一個將現有已知人類的遺傳疾病作分類，並與相關聯的人類基因進行連結之線上資料庫，該資料庫由約翰霍普金斯大學(John Hopkins University)的研究團隊所收集整理，並且透過一群科學作者與編輯，協助相關研究及文獻擷取，然後整理出的資料庫資訊，如圖3-1所示。. 6.

(16) 圖 3-1 OMIM 網站. OMIM 網站之 Mendelian Inheritance in Man (MIM)對於各種已知的遺傳疾病、遺傳性性狀以及遺傳基因等制定了各個編號，以下簡稱為 MIM 編號，各個疾病、基因之 MIM 編號內文描述了一些疾病特徵、鑑別判斷以及治療預防方法，並且提供已知基因之連鎖關係、組成結構、染色體定位、功能……等資料，在醫學領域上有著重要的影響力，本研究會透過蒐集若干篇特定疾病之 MIM 文獻，使用統計方法來判別本研究實驗裡運用規則蒐集到的基因、疾病配對是否為有效配對。其中 OMIM 網站提供之 morbid 資料，如圖 3-2 所示，每一行都附有人類遺傳疾病以及與其對應到有相關聯之基因，本研究運用 morbid 資料所提供的疾病、基因正確配對作為可供驗證的標準答案。以圖 3-2 第一行來說明，17,20-lyase 為某個疾病名稱，其右邊第一組號碼為該疾病的 MIM 編號，而 CYP17A1、CYP17、 P450C17 皆為與 17,20-lyase 疾病有相關聯的基因，基因右邊的另一組號碼為這些 7.

(17) 基因的 MIM 編號，如圖中的 609300，最後的 10q24.3 為該疾病的染色體序列。 MIM 編號之第一個號碼為遺傳方式的分類，如表 3-1 所示。. 圖 3-2 morbid 資料範例. 表 3-1 MIM 編號說明首號碼 MIM 編號範圍. 遺傳方式. 1. 100000-199999 染色體顯性位點或外顯特質. 2. 200000-299999 染色體隱性位點或外顯特質. 3. 300000-399999. X 連鎖位點或外顯特質. 4. 400000-499999. Y 連鎖位點或外顯特質. 5. 500000-599999. 線粒體位點或外顯特質. 6. 600000-. 染色體位點或外顯特質. 8.

(18) (2) 實驗工具. I.. Memory-Based Shallow Parser 本論文在分析訓練句子的部分，使用 Memory-Based Shallow Parser (MBSP)。. MBSP 是以 TiMBL8、MBT9和 GENIA corpus10當作基底的 parser，MBSP 在詞性的標記上準確率(accuracy)達到 97.6%，選擇以 Memory-Based Shallow Parser 是因為研究中可以使用其中一項功能 shallow parsing，Shallow parsing 在文字分析上很是一個很重要的功用。MBSP 的文字標記中包含了許多屬性，有 tokenization、 part-of-speech (POS) tagging、concept tagging、chunking 和 grammatical function assignment (主詞、動詞……等)，本論文會採用部分屬性(WORD、Part-of-speech、 Chunk、Lemma、SVO relation)以供接下來的規則學習所使用。圖 3-3 為 MBSP 會對文字進行標記的項目，而圖 3-4 為網站上所示 MBSP 之基本文法架構。. 圖 3-3 MBSP 分析的項目. 8. http://ilk.uvt.nl/timbl/ http://ilk.uvt.nl/mbt/ 10 http://www.nactem.ac.uk/genia/ 9. 9.

(19) 圖 3-4 MBSP 的基本文法架構. II. ALEPH 系統(規則學習工具). 在學習規則的部分，本研究則參考 ALEPH 系統規則產生器的方法。ALEPH 系統為 Inductive Logic Programming (ILP) system 中的 A Learning Engine for Proposing Hypotheses ALEPH (Srinivasan，2000)，該系統在 1993 年時稱為 P-Progol，是由 Srinivasan 和 Camacho 在牛津大學所進行的一項研究計畫，其目的是想要用此系統了解人類的思路。1994 年發表在 Muggleton 及 Raedt 的 paper 中，叫做 inverse entailment。從那時候開始慢慢發展成許多各自獨立的 ILP system。ALEPH 之學習規則主要概念如下： (1) 選擇一個例子(example)做一般化(generalize)，若還有 example，則繼續做 generalize；直到沒有，才會停止進行 generalize。 (2) 在語言的限制範圍中，根據選擇的 example 的需求找出符合的子句 10.

(20) (clause)。 (3) 找出比基底子句(bottom clause)還要一般(general)的子句(clause)。 (4) 將子句中分數最低的加入現有的 theory 中，接著把會造成重覆(redundant) 的例子去除掉。使用 ALEPH 頇包含三個檔案：*.b、*.f、*.n，其中*.b 檔案用來描述所要學習的規則以及放置分析過句子的詳細資訊，屬於句子的背景知識(background knowledge)；*.f 的檔案用來放正確的句子的編號，是文獻中的下向例子(positive examples)；*.n 檔案需放入文獻中屬於錯誤的句子的編號，*.f 檔及*.n 檔都必頇與 *.b 檔相關，劉孙錚(2013)模擬 ALEPH 規則產生器，對 1000 個句子進行訓練，產生出規則的方法類似於 ALEPH 的產生方法，且使用普通的文字檔即可，分為三個部分：background knowledge、positive examples 及 negative examples。. III.. 統計方法(Z-Score method). 本論文所使用的統計方法參考 Al-Mubaid 等人(2005)所發展出來的計算基因與疾病關聯度方法，該篇方法為針對特定疾病，而本篇研究把其方法擴展至針對每一個疾病、基因的配對之疾病都做一次，方法與內容如以下詳細說明：首先從 OMIM 網站搜尋藉由規則找出的疾病、基因配對中之疾病名稱，並取出前 20 篇與該疾病相關之生醫文獻作為 interest set (S1)，接著以劉孙錚(2013)實驗中隨機找尋的 182 篇不與該疾病相關的生醫文獻作為 control set (S2)，並從 morbid 中取出所有出現之 gene，形成一個基因辭典陣列[G1,G2,…G7939]，統計該基因陣列裡的每個基因分別在 interest set 以及 control set 出現的次數，然後對每個基因算出其期望值以及驗證值，期望值以及驗證值式子如下公式(2)、公式(3)所. 11.

(21) 示：. ex G ) = [t𝑓𝑡 G )/|𝑆1 + 𝑆 |] ∗ |𝑆1 |. (2). ev G ) = t𝑓1 G ). (3). 其中Ρ 為基因陣列中第 i 個基因，t𝑓𝑡 G )為該基因在 interest set (S1)以及 control set(S2)出現次數之加總，t𝑓1 G )為該基因出現在 interest set 之次數。接下來，將驗證值與期望值相減，並做正規化，其式子如下公式(4)：. 𝑓 Ρ ) = [ev G ). ex G )]/t𝑓𝑡 G ). (4). 其中𝑓 G )為期望值與驗證值相減並正規化所得到的數值，此值將為之後計算 Z-Score 所使用。最後再以 Z-Score 表示此基因對於疾病的關聯度，其式子如下公式(5)：. Z. Score G ) =. [𝑓. 𝑖 )−𝑚𝑒𝑎𝑛. 𝑓)]. 𝑆𝐷 𝑓). (5). 其中mean 𝑓)為所有基因陣列𝑓 G )值的平均數，而SD 𝑓)則為所有基因陣列 𝑓 G )的標準差。統計學上顯示，當基因的期望值與驗證值相減之值的差異越大，則基因與該疾病的關聯度就越高，本論文就是利用此概念來生成特定疾病對於每個基因的 Z-score 值文件，當利用規則抓取基因與疾病配對時，基因與疾病的關聯度(即 Z-score 值)必頇通過 Z-Score 門檻分數值(本實驗門檻設定為 Z-Score>1)才列為有 12.

(22) 效配對，Z-Score 門檻設為 1 為參考 Al-Mubaid 等人(2005)在該篇論文研究裡即是以 1 作為 Z-Score 的門檻值來判斷說該篇研究裡的蛋白質是否與其研究之疾病有無相關聯，在第四章第三節的實驗結果裡，本研究亦會對 Z-Score 的門檻值來做實驗，目的是找出最有效率的 Z-Score 值。. 第三節研究架構與方法. 圖 3-5 研究方法架構流程圖. 本研究之系統架構流程圖如圖 3-5 所示。在圖 3-5 中，首先從 OMIM 提供的 morbid 之 MIM 編號對應的文獻中，搜尋出包含人類遺傳疾病與基因的句子，以 13.

(23) 及隨機搜尋不包含人類遺傳疾病與基因的句子，把這兩類句子先透過 MBSP 進行句子分析，再把分析完的句子(Tagged Sentences)取 WORD、Part-of-speech、Chunk、 Lemma、SVO relation…等特徵用於規則之學習(Rule Learning)，之後透過這些規則以單一句子以及相鄰句子(Disease-Gene pairs Matching Algorithm)來抓取配對到的基因與疾病配對(Disease-Gene Candidate Pairs)，並透過統計方法判斷配對到的基因是否在該疾病之 Z-score 分數文件裡通過門檻值(Z-Score>1)，通過門檻值才為有效配對，最後再以 Precision 以及 Recall 評估結果。. 第四節研究方法描述. 本論文提出的方法主要分成六個步驟：(1)找出人類遺傳疾病與基因配對以及不含人類疾病與基因配對的句子，(2)對句子進行標記，(3)學習規則，(4)利用規則抓取基因、疾病配對，(5)用統計方法審核配對是否為有效配對，(6)計算精確率以及回收率。. (1) 找出人類遺傳疾病與基因配對以及不含人類疾病與基因配對的句子根據 OMIM 所提供的 morbid 裡的 MIM 編號，利用其編號找出遺傳疾病與基因的相關生醫文獻，並從這些相關生醫文獻中擷取出有出現人類遺傳疾病以及其配對的基因同時存在的句子。另外以隨機挑選的方式蒐集不包含人類疾病與基因配對的句子供之後學習規則使用。圖 3-6 為包含疾病與基因配對之句子例句。. 14.

(24) 圖 3-6 包含疾病與基因配對之句子. 其中，POR 為基因名稱，而 17,20-lyase 為疾病名稱。. (2) 對句子進行標記將擷取出來同時包含人類疾病與基因配對的句子以及不包含人類遺傳疾病與基因之句子，放進 MBSP 裡進行標記。以下列句子為例：”I ate pizza with a fork.” 經過標記後，結果如圖 3-7 所示，各個標籤之說明如表 3-2，其中 WORD 即為該例句出現的字 ate，詞性 (Part-of-speech)為 VBD，詞塊 (Chunk)為 I-VP，PNP(是否為介詞片語)，O 代表不是，Relation 為這個字與其他 chunk 的關係，這邊為 VP-1， Anchor 為 A1，在圖 3-7 中的 P1(with、a、fork)皆會指到 A1(eat)這個字，Lemma 為該字的原型，這邊為 eat。. 圖 3-7 經 MBSP 標記後的句子. 15.

(25) 表 3-2. MBSP tag 說明. WORD. Part-of-speech. Chunk. PNP. Relation. Anchor. Lemma. ate. VBD. I-VP. O. VP-1. A1. eat. 本研究會採用到的屬性為字詞(WORD)、詞性(Part-of-speech)、詞塊(Chunk)、字原型(Lemma)以及主詞-動詞-受詞關係(SVO relation)，藉由這些屬性以供之後的學習規則所使用。. (3) 學習規則將 MBSP 標記過後的句子，分為正確與不正確兩類，將兩類中的句子以 ALEPH 系統學習規則的方法進行處理。當擷取規則的時候，程式會對句子進行分析，輸出該 rule 在正確句子中符合幾句，不正確的句子中符合幾句，並利用篩選 rule 的工具來對這些正確與錯誤句子進行 SVO-relation 判別，最後利用陳孝源 (2012)提出的公式(6)對此 rules 做評分，其公式如下，其中 S 表示分數，Pos 代表該 rule 在訓練集中包含的正確句子數量，而 Neg 代表該 rule 在訓練集中包含的不正確句子數量。. S = (Pos  Neg) × Max. Pos 𝑖. Pos−Neg)×Pos). , for all rule. (6). 最後通過門檻值的 rule 才被擷取出來，利用各個規則所得到的分數(S)，藉由設立特定門檻值來決定說哪些分數以上的規則會被截取出來當作之後擷取疾病與基因配對之規則。本研究學習規則的結果如圖 3-8 所示。. 16.

(26) 圖 3-8 學習規則結果. 圖 3-8 為學習規則結果之片段，此處以第一個 Rule 做說明，第一行之 Rule 為 cause，此 Rule 在訓練集中包含的正確句子數量為 51 句，而在訓練集中包含的不正確句子數量為 3 句，第二行為依據上述公式(6)所計算之分母 Max Pos Ne ) × Pos)的值，第三行則為 cause 這個 Rule 在公式(6)所得到的分數，而第四行至第七行為所有符合 cause 這個規則的句子編號，共有 51 句。. (4) 利用規則抓取基因與疾病配對當取出規則後，從 morbid 挑選出 108 個 MIM 編號之生醫文獻(因為 108 篇生醫文獻當中有 919 句為包含正確疾病與基因配對之句子，相近於訓練時使用的 1000 個句子，故選取 108 篇)，將每一篇內文擷取出來，並利用上一步驟取到的. 17.

(27) 規則抓取單一句內以及考慮相鄰句子中的疾病與基因配對。下圖 3-9、3-10 分別為單一句子以及相鄰句子符合規則之例子。. 圖 3-9 單一句子符合規則之句子. 其中 caused 為 Rule，17-alpha-hydroxylase/17,20-lyase 為疾病名稱，CYP17A1 為基因名稱，在此步驟會利用規則 caused 來擷取 17-alpha-hydroxylase/17,20-lyase 以及 CYP17A1，將它們視為一組疾病與基因配對。. 圖 3-10 相鄰句子符合規則之句子. 其中 found 為 Rule，17,20-lyase 為疾病名稱，CYP17A1 為基因名稱，但是 found 所在的句子只找得到基因名稱，相關聯的疾病名稱出現在相鄰句子中，所以如果考慮相鄰句子，則在此步驟會利用規則 found 往前一句擷取到 17,20-lyase 以及 CYP17A1，將它們視為一組疾病與基因配對。. (5) 用統計方法審核配對是否為有效配對利用在實驗工具裡說明之統計方法(Z-Score method)，當以規則抓取疾病與基因配對時，對每個配對之疾病生成 Z-Score 分數文件，利用該文件來檢視配對到的基因是否 Z-Score 分數大於 1，超過大於 1 的疾病與基因配對才列為有效配對。 18.

(28) 本論文中稱為 catch pairs，並將每個 catch pairs 放進 morbid 裡驗證是否為正確配對，若為正確配對，稱作是 correct pairs。採用 Z-Score 方法之原因是因為藉由多一層 Z-Score 方法的檢視疾病與基因配對，能夠把一些較普遍出現在生醫文獻的基因之配對給過濾掉，通常普遍出現在一般生醫文獻中的基因勢必亦不會與特定疾病有相關聯。以下列例子說明，圖 3-11 為依規則 cause 擷取到的疾病 Bothnia 與基因 RLBP1 配對，並且通過 Z-score 門檻值之例子，亦為正確配對的句子。在所有測詴文章中，實驗上出現疾病 Bothnia 與基因 RLBP1 配對的句子共有兩句，如圖 3-12 所示，而本系統針對疾病 Bothnia 與基因 RLBP1 配對產生之結果如圖 3-13 所示。. 圖 3-11 系統擷取到的疾病與基因配對之句子. 其中 Bothnia 為疾病名稱，caused 為 Rule，RLBP1 為基因名稱。. 圖 3-12 疾病 Bothnia 與基因 RLBP1 實際出現在所有文章中的句子. 19.

(29) 圖 3-13 取出配對之結果. 其中 one_take_pair 為單一句子中依規則抓取並通過 Z-Score 分數之配對數，而 one_positive 為實際上文獻裡在單一句子正確配對之配對數，one_pos 為單一句子中依規則抓取並通過 Z-Score 分數之正確配對數；而 take_pair 為相鄰句子中依規則抓取並通過 Z-Score 分數之配對數，positive 為實際上文獻裡在相鄰句中正確配對之配對數，而 pos 為相鄰句子中依規則抓取並通過 Z-Score 分數之正確配對數。因為系統針對疾病 Bothnia，依規則 cause 通過一個句子，所以圖 3-13 中， one_take_pair、one_pos、take_pair，及 pos 的值為 1；而所有測詴文章中共有兩句有疾病 Bothnia 與基因 RLBP1 的配對，所以 one_positive 和 positive 的值均為 2。. 20.

(30) 第四章實驗與結果. 第一節實驗資料. 本論文利用 ALEPH 方法學習規則之資料為 OMIM 網站所提供的 morbid 文字檔，morbid 為人類疾病與基因正確配對之資料，本研究利用 morbid 取出 302 篇 MIM 文獻並從這 302 篇取出共 2532 句，再從這 2532 句取出正確的句子 1000 句以及隨機挑選 1000 句錯誤的句子以供模擬 ALEPH 方法進行規則之學習；取出規則後，針對 108 篇 OMIM 文獻進行測詴，採用 108 篇的原因是因為 108 篇裡之正確句子有 919 句，與經由 ALEPH 方法學習規則之正確句子 1000 句數目相近，目的是讓兩者實驗環境相近，讓最後的實驗結果更有可信度。. 第二節評估測量標準本論文使用之兩種評估測量標準分別為精準度(Precision)以及回收率(recall)，最後再以 F-score 表示系統整體之效能，下面公式 Precision 公式如公式(7)，Recall 公式如公式(8)與上一章所提到的公式為相同的公式，本章以更一般通用的式子表示，而 F-score 公式如公式(9)：. Precision = Recall =. TP. (7). TP+NP TP. (8). TP+FN. 21.

(31) 有關公式的說明，如表 4-1 所示，其中 TP、FP、FN、TN 定義如下；. TP (True Positive)：The number of true positives FP (False Positive)：The number of false positives FN (False Negative)：The number of false negatives TN (True Negative)：The number of true negatives. 表 4-1 二元分類表. Condition Positive. Negative. Positive. TP. FP. Negative. FN. TN. Test Outcome. 在本研究中 TP 代表利用 rule 找到並通過各個門檻的疾病與基因配對為正確配對，FP 代表利用 rule 找到並通過各個門檻的疾病與基因配對但不是正確配對， FN 代表疾病與基因配對為正確配對但系統沒有取回來之配對，TN 代表疾病與基因為不正確之配對而系統亦沒有取回來當作正確配對之配對。. F=. ×precisioin×recall. (9). precision+recall. F-Score 公式是大部分學者使用 Precision 以及 Recall 評量標準時，通常也會 22.

(32) 採用的評量值，因為它可以同時兼顧 Precision 以及 Recall 的度量方式，F-score 廣泛應用於自然語言領域的效能評估，以方便不同技術或系統之間的效能比較。. 第三節實驗結果. 表 4-2 實驗結果總覽編號. 實驗名稱. 1.. Rule:9+單句. 211. 168. 2.. Rule:9+相鄰. 289. 3.. Rule:9+單句+Z-Score. 4.. Positive Negative Precision. Recall. F-Score. 55.67%. 60.41%. 57.96%. 325. 47.06%. 68.64%. 55.84%. 211. 79. 72.75%. 60.28%. 65.93%. Rule:9+相鄰+Z-Score. 289. 154. 65.23%. 68.48%. 66.82%. 5.. Rule:9+單句(重複不取). 196. 137. 58.85%. 63.43%. 61.05%. 6.. Rule:9+相鄰(重複不取). 258. 246. 51.19%. 64.66%. 57.14%. 7.. Rule:All+單句 (重複不取). 207. 162. 56.09%. 66.99%. 61.06%. 8.. Rule:All+相鄰 (重複不取). 284. 283. 50.08%. 71.17%. 58.79%. 9.. Rule:9+單句+Z-Score (重複不取). 193. 60. 76.28%. 60.50%. 67.48%. 10.. Rule:9+相鄰+Z-Score (重複不取). 256. 106. 70.71%. 63.05%. 66.66%. 11.. Rule:All+單句+Z-Score (重複不取). 202. 73. 73.45%. 65.37%. 69.17%. 12.. Rule:All+相鄰+Z-Score (重複不取). 276. 126. 68.65%. 69.17%. 68.91%. 13.. 單句+Z-Score. 163. 179. 47.66%. 46.57%. 47.10%. 14.. 相鄰+Z-Score. 229. 211. 52.04%. 54.26%. 53.13%. 23.

(33) 在上表中，重複不取的實驗定義如下：在以 rule 抓取配對時，有可能會因為 rule 與 rule 之間的位置相近而在抓取配對時抓到同樣的疾病與基因配對，屆時產生不同 rule 卻抓到相同位置的疾病與基因配對的情況，本實驗中用到的重複不取限制即是把上述說的情況予以取一個為限，把 rule 抓到但先前已經抓取的重複疾病與基因配對不列為有效配對。圖 4-1 為會出現重複配對擷取之例子。. 圖 4-1 重複配對之情況例子. 上圖中 identified 以及 resulting 皆為 Rules，兩個 Rules 在抓取配對時皆會抓取 17-alpha-hydroxylase/17,20-lyase 以及 CYP17A1 這一組疾病與基因配對，因而造成不同 Rules 卻抓到相同疾病與基因配對之情況。. 表 4-2 中，實驗 1.為模擬陳孝源(2012)方法所得的實驗結果，為利用 9 個 Rules 來擷取單一句子疾病與基因配對之結果，實驗 2.為劉孙錚(2013)所提出的方法所得的實驗結果，為利用 9 個 Rules 來擷取相鄰句子之疾病與基因配對之結果，實驗 3.～4.為利用 9 個 Rules 來擷取單一句子以及相鄰句子的疾病基因配對並透過 Z-Score 方法來審核配對之結果，實驗 5.～6.為利用 9 個 Rules 來擷取單一句子以及相鄰句子的疾病基因配對並增加了刪除重複配對這個條件後之結果，實驗 7.～ 8.為利用全部正向分數的 Rules 來擷取單一句子以及相鄰句子的疾病基因配對並增加了刪除重複配對這個條件後之結果，實驗 9.～10.為利用 9 個 Rules 來擷取單一句子以及相鄰句子的疾病基因配對並結合 Z-Score 方法來審核配對以及刪除重複配對條件後之結果，實驗 11.～12.為利用全部正向分數的 Rules 來擷取單一句 24.

(34) 子以及相鄰句子的疾病基因配對並增加了 Z-Score 方法來審核配對以及刪除重複配對條件後之結果，實驗 13.～14.為單純利用 Z-Score 方法來判斷文章裡的單一句子以及相鄰句子疾病與基因配對之結果，這邊當作 Baseline 使用。實驗中 Rule： 9 為採用 9 個 Rules 作為實驗，是依據劉孙錚(2013)研究中即是以 Rule 取 9 個為最高效能，所以這邊以 9 個來做實驗；而實驗中 Rule：All 是把所有規則裡都是正向分數的 Rules 全部當作規則來使用。. 以直條圖統整以上實驗之 Precision、Recall、F-Score 如下圖 4-2、4-3、4-4 所示，x 軸為實驗 1. ～實驗 14.，y 軸各為 Precision、Recall、F-Score 之百分比。 80.00% 75.00% 70.00% 65.00%. 60.00% 55.00% 50.00% 45.00% 40.00% 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 圖 4-2 實驗結果之 Precision 直條圖. 25. 12. 13. 14.

(35) 75.00% 70.00% 65.00% 60.00% 55.00%. 50.00% 45.00% 40.00% 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 11. 12. 13. 14. 圖 4-3 實驗結果之 Recall 直條圖. 80.00% 75.00% 70.00% 65.00% 60.00% 55.00% 50.00% 45.00% 40.00% 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 圖 4-4 實驗結果之 F-Score 直條圖. 由圖 4-2 可得知在以單一句子抓取疾病與基因配對之 Precision 值皆比在相鄰句子擷取疾病與基因配對來的高，而由圖 4-3 可得知在以相鄰句子擷取疾病與基. 26.

(36) 因配對之 Recall 值皆比在單一句子抓取疾病與基因配對來的高，其原因是相鄰句子可抓取的配對總數勢必會比在單一句子抓取到的多，所抓到的正確配對也會跟著較多，以至於相鄰句子在 Recall 值方面比單一句子來的高，但由於抓取到的配對變多，不是正確配對之配對亦會提高一些，而使 Precision 值相對的有所下降，以至於單一句子在 Precision 值方面表現的比相鄰句子要好。由圖 4-4 可得知本實驗中 F-score 最好的為實驗 11，其 F-score 值來到 69.17%，其原因會在下一小節中探討。. 上述實驗 1.～14 裡所用到 Z-Score 方法中的 Z-Score 門檻皆設為>1，本研究亦對於 Z-Score 的門檻值的設定進行了相關的實驗，以實驗 9.、實驗 10.對於 Z-Score 的值以 Z-Score>0、Z-Score>1、Z-Score>2、Z-Score>3 來實驗，實驗結果如圖 4-5、4-6：. 0.70. 0.69. 0.68. 0.67. 0.66. 0.65 0. 1. 2. 圖 4-5 單一句 Z-Score 實驗(Z-Score>0~Z-Score>3). 27. 3.

(37) 0.68. 0.67. 0.66. 0.65. 0.64 0. 1. 2. 3. 圖 4-6 相鄰句 Z-Score 實驗(Z-Score>0~Z-Score>3). 圖 4-5 以及圖 4-6 中的 X 軸為分別為 Z-Score>0、Z-Score>1、Z-Score>2、 Z-Score>3，Y 軸為其 F-Score 值，可以觀察到在Ｚ-Score>2 附近為Ｆ-Score 之最高點，所以本研究再以 Z-Score>2 ~ Z-Score>3 以 0.1 為間隔再來做實驗，實驗結果如圖 4-7、圖 4-8：. 28.

(38) 0.70. 0.69. 0.68. 0.67 2. 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. 3. 圖 4-7 單一句Ｚ-Score 實驗(Z-Score>2~Z-Score>3). 0.69. 0.68. 0.67. 0.66. 0.65. 2. 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. 3. 圖 4-8 相鄰句Ｚ-Score 實驗(Z-Score>2~Z-Score>3). 圖 4-7 以及圖 4-8 中的 X 軸為為 Z-Score>2、Z-Score>2.1~Z-Score>3，Y 軸為. 29.

(39) 其 F-Score 值，可以觀察到在單一句中的實驗，Z-Score 在大於 2 的時候有著最高的 F-Score 值 0.6939，而相鄰句之實驗在 Z-Score 在大於 2.2 的時候有著最高的 F-Score 值 0.6852。. 第四節分析與討論. 表 4-3 結合 Z-Score 方法之影響實驗編號. 實驗名稱. Precision. Recall. F-Score. 1.. Rule:9+單句. 55.67%. 60.41%. 57.96%. 2.. Rule:9+相鄰. 47.06%. 68.64%. 55.84%. 3.. Rule:9+單句+Z-Score. 72.75%. 60.28%. 65.93%. 4.. Rule:9+相鄰+Z-Score. 65.23%. 68.48%. 66.82%. 首先我們探討結合 Z-Score 方法之影響，在表 4-3 中，由實驗 1.、2.以及實驗 3.、4.可觀察到，結合了 Z-Score 方法可使 Precision 值由實驗 1.的 55.67%提升到實驗 3.的 72.75%，實驗 2.的 47.06%提升到實驗 4.的 65.23%，其原因是藉由增加 Z-Score 方法在 Rule 抓取疾病與基因配對後多一層判斷，可把一些普遍出現在一般生醫文獻中的基因過濾掉，在 Recall 值稍微降低的情況下，使 Precision 值有所提升，因而使得 F-Score 值跟著提升。. 30.

(40) 表 4-4 增加重複配對不取條件之影響實驗編號. 實驗名稱. Precision. Recall. F-Score. 1.. Rule:9+單句. 55.67%. 60.41%. 57.96%. 2.. Rule:9+相鄰. 47.06%. 68.64%. 55.84%. 5.. Rule:9+單句(重複不取). 58.85%. 63.43%. 61.05%. 6.. Rule:9+相鄰(重複不取). 51.19%. 64.66%. 57.14%. 再來探討藉由增加重複配對不取條件之影響，在表 4-4 中，由實驗 1.、2.以及實驗 5.、6.可觀察到，增加了重複配對不取之條件後可使 Precision 值由實驗 1. 的 55.67%提升到實驗 3.的 58.85%，實驗 2.的 47.06%提升到實驗 4.的 51.19%，其原因是在於增加重複配對不取之條件後，可把一些不同 Rule 抓到卻為相同疾病與基因配對之情況的配對過濾掉，在 Recall 值有少許降低的情況下，使 Precision 值有所提升，因而使得 F-Score 值跟著提升。以及探討 Rules 增加後之影響，在表 4-5 中，由實驗 5.、7.、實驗 6.、8.以及實驗 9.、11.、實驗 10.、12.可觀察到，透過 Rules 之增加可使得抓到的配對更多，正確配對到的疾病與基因配對亦會增加，使得 Recall 上升但也讓 Precision 稍微下降，不過藉由結合 Z-Score 方法可以讓 F-Score 提升的比率上升。在表 4-5 中， F-Score 值從實驗 5.、實驗 6.的 61.05%以及 57.14%可少許提升至實驗 7.與實驗 8. 的 61.06%以及 58.79%，而實驗 9.、實驗 10.的 67.48%以及 66.66%對照到實驗 11.、實驗 12.的 69.17%以及 68.91%，則發現有更多的提升，透過此例實驗分析可以得知，藉由 Z-Score 方法以及重複不取之條件，F-Score 可以有些許的提升，也就產 31.

(41) 生本實驗 11.得到最高的 F-Score 值 69.17%。. 表 4-5 Rules 增加之影響實驗編號. 實驗名稱. Precision. Recall. F-Score. 5.. Rule:9+單句(重複不取). 58.85%. 63.43%. 61.05%. 6.. Rule:9+相鄰(重複不取). 51.19%. 64.66%. 57.14%. 7.. Rule:18+單句 (重複不取). 56.09%. 66.99%. 61.06%. 8.. Rule:18+相鄰 (重複不取). 50.08%. 71.17%. 58.79%. 9.. Rule:9+單句+Z-Score (重複不取). 76.28%. 60.50%. 67.48%. 10.. Rule:9+相鄰+Z-Score (重複不取). 70.71%. 63.05%. 66.66%. 11.. Rule:All+單句+Z-Score (重複不取). 73.45%. 65.37%. 69.17%. 12.. Rule:All+相鄰+Z-Score (重複不取). 68.65%. 69.17%. 68.91%. 最後探討與陳孝源(2012)以及劉孙錚(2013)實驗結果之比較，如下表 4-6 所示，實驗 1.為模擬陳孝源(2012)實驗方法所得的實驗結果，實驗 2.為劉孙錚(2013)實驗方法所得的實驗結果，實驗 3.、實驗 4.為本研究實驗中 F-Score 效能最好的兩個實驗結果，可以觀察到在 Precision、Recall 以及 F-Score 等指標都有明顯的提升，這亦說明了本實驗所使用到的各個方法，對於效能之提升都是有所幫助的！. 32.

(42) 表 4-6 與陳孝源(2012)、劉孙錚(2013)實驗結果之比較. 編號. 實驗名稱. Precision. Recall. F-Score. 1.. Rule:9+單句. 55.67%. 60.41%. 57.96%. 2.. Rule:9+相鄰. 47.06%. 68.64%. 55.84%. 11.. Rule:All+單句+Z-Score (重複不取). 73.45%. 65.37%. 69.17%. 12.. Rule:All+相鄰+Z-Score (重複不取). 68.65%. 69.17%. 68.91%. 33.

(43) 第五章結論與未來發展. 本研究目的是自動從生醫文獻中取出人類遺傳疾病與基因之關聯度，首先運用 MBSP 標記正確疾病與基因配對以及不正確疾病與基因配對之句子，然後透過模擬 ALEPH 方法學習出相關的規則以供使用，最後以 108 篇生醫文獻進行測詴，並且對於用規則擷取到的疾病與基因配對再增加 Z-Score 方法之門檻以及重複不取之條件來檢視疾病與基因的配對是否正確；另外，本研究亦採用不同數量的規則進行實驗。實驗所得之最佳結果為使用了 18 個 Rules 並以單一句子抓取疾病與基因配對，結合 Z-Score 方法以及重複不取條件之限制，所得到的 F-Score 為 69.17%，此時 Precision 為 73.45%，Recall 為 65.37%，這說明了在本實驗用到的方法、限制條件都扮演著重要的角色。未來，本人認為有下列各種可能的改進與發展方向： (1) 加入指代詞(anaphora)的判斷，在蔡育霖(2012)的研究有提到現今的自然語言處理領域中，指代詞在生醫文獻中是普遍出現的問題，若能把指代詞指的是哪個基因或疾病判斷出來，再透過本系統加以擷取配對，勢必能在回收率有所改進。 (2) 在學習規則時，可以嘗詴把正確之疾病與基因的句子與不正確之疾病與基因的句子數量再加以擴展，藉著大量的訓練資料，提升學習的品質，以期得到更完整的規則，使得判斷時的精準度可以提升，最終使系統的精確率以及回收率能有更好的結果。. 34.

(44) 參考文獻. Adamic, Lada A., Wilkinson, Dennis, Huberman, Bernardo A. and Adar, Eytan (2002). “A Literature Based Method for Identifying Gene-Disease Connections,” Proceedings of IEEE Computer Society Bioinformatics Conference 2002, 1: 109-117, 2002.. Al-Mubaid, Hisham and Singh, Rajit K. (2005). “A New Text Mining Approach for Finding Protein-to-Disease Associations,” American Journal of Biochemistry and Biotechnology, 1(3): 145-152, 2005.. ALEPH. Available from http://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph.html. Cheung, Warren A., Ouellette, B.F. Francis and Wasserman, Wyeth W. (2012). “Inferring Novel Gene-Disease Associations Using Medical Subject Heading Over-Representation Profiles,” Genome Medicine, 4: 75, 2012.. GENIA Corpus. Available from http://www.nactem.ac.uk/genia/. Maglott, D., Ostell, J., Pruitt, K.D. and Tatusova, T. (2007). “Entrez Gene: Gene-centered Information at NCBI,” Nucleic Acids Research, 35 (Database issue): D26-31, 2007.. 35.

(45) MBT (Memory-Based Tagger-Generator and Tagger). Available from http://ilk.uvt.nl/ mbt/. Memory-Based Shallow Parser. Available from www.clips.ua.ac.be/pages/ MBSP#server. MeSH (Medical Subject Headings). Available from https://www.nlm.nih.gov/mesh/ meshhome.html. Mitchel, J.A., Aronson, A.R., Mork, J.G., Folk, L.C., Humphrey, S.M. and Ward, J.M. (2003). “Gene Indexing: Characterization and Analysis of NLM's GeneRIFs,” Proceedings of AMIA Annual Symposium, 460-464, 2003.. Muggleton, Stephen, and de Raedt, Luc (1994). “Inductive Logic Programming: Theory and methods,” The Journal of Logic Programming, 19-20: 629-679, 1994.. NLM (Natural Library of Medicine). Available from https://www.nlm.nih.gov/. OMIM (Online Mendelian Inheritance in Man). Available from http://www.ncbi.nlm. nih.gov/omim. P-value. Available from http://en.wikipedia.org/wiki/P-value. Pruitt, K.D. and Maglott, D.R. (2001). “RefSeq and LocusLink: NCBI Gene-centered Resources,” Nucleic Acid Research, 29(1): 137-40, 2001.. 36.

(46) Srinivasan, Ashwin (2000). “The Aleph Manual,” Technical Report, Computing Laboratory, Oxford University, 2000. Available from http://www.cs.ox.ac.uk/ activities/machlearn/Aleph/aleph.html. TiMBL (Tilburg Memory-Based Learner). Available from http://ilk.uvt.nl/timbl/. Wain, H.M., Lush, M., Ducluzeau, F. and Povey, S. (2002). “Genew: The Human Nomenclature Database,” Nucleic Acids Research, 30(1): 169-71, 2002.. 陳孝源，“人類基因與疾病關係之規則擷取”，國立台灣師範大學資訊工程所碩士論文，2012 年。. 劉孙錚，“利用相鄰句子資訊探討人類疾病與基因之關係”，國立台灣師範大學資訊工程所碩士論文，2013 年。. 蔡育霖，“以機率模型為基礎之生醫文件指代消解方法”，國立台灣師範大學資訊工程所碩士論文，2013 年。. 37.

(47)