利用相鄰句子資訊探討人類疾病與基因之關係

全文

(1)國立台灣師範大學資訊工程研究所碩士論文. 指導教授：. 侯文娟. 博士. 利用相鄰句子資訊探討人類疾病與基因之關係 Using Adjacent Sentences Information for Finding Relationship between Diseases and Genes. 研究生：中華民國. 劉孙錚 102 I. 年. 撰 6. 月.

(2) 摘要本研究嘗詴在生醫文獻中找出人類遺傳疾病與基因的關聯度，並在人類遺傳疾病及基因之間得到一些規則或關聯性。若能自動從文獻中預測疾病與基因能達到某種程度的相關性，對於以後生醫研究人員在探討人類遺傳疾病與基因等等的文獻資料時，相信都可以利用此關聯性或規則快速了解兩者之間的關係，達到快速閱讀的目的，在節省人力成本及時間之餘，更希望透過此研究能加速生物醫學的發展速度。本研究使用的資料為孟德爾遺傳學(Online Mendelian Inheritance in Man, OMIM)網站中提供的 morbid 所中包含的 Mendelian Inheritance in Man (MIM)文獻。在本研究中，首先在文獻中找出含有 morbid 所提及的人類遺傳疾病與基因共存的句子，視為正確的句子；以及不包含 morbid 所提及的疾病與基因的句子，視為不正確的句子。透過 Memory-Based Shallow Parser (MBSP)來分析這些段落中的句子，將會得到句子文法相關的資訊(例如詞性)，接著將 MBSP 標記好的句子利用自製的學習系統學習規則，在學習前需要準備三個檔案，第一個檔案需要寫入規則的模式、句子的詳細資訊與規則所需的元素，本實驗所需的元素為 SVO-relation，表示主詞-動詞-受詞之間的關係；第二個檔案是在學習規則時用到的正確句子的編號；第三個檔案是在學習規則時用到的不正確的句子。利用這些資料訓練出的規則，再加入本論文所提出的多重句子探勘演算法，以便擴展原有規則的結果而得到新的關係。最後，對於實驗結果產生出來的人類遺傳疾病與基因，本研究以準確度和回收率當作評估的標準，並記錄各個門檻值的結果。實驗在多重句子探勘得到最好的 F-score 為 72.18%，此時的準確度為 72.66%，回收率為 71.71%；而未使用多重句子探勘得到最好的 F-score 為 67.32%，此時的準確度為 76.29%， II.

(3) 回收率為 60.24%。. 關鍵字 – 規則學習、疾病與基因關係、生物醫學文獻探勘. III.

(4) Abstract In this study, we automatically find relations between human genetic diseases and genes from biomedical literatures. Thus, we can get some rules or relations between human genetic diseases and genes after mining biomedical literatures. Consequently, when biomedical researchers study about biomedical literatures between human genetic diseases and genes, they can understand the relations between diseases and genes by using the rules or the correlation that we proposed. Not only saving human resource cost and time, but also achieving the purpose of fast reading the literatures, we hope that our study can promote the speed of development of biomedical domain. We use data provided by Mendelian Inheritance in Man (MIM) literatures of morbid from Online Mendelian Inheritance in Man (OMIM) database. We first find the paragraphs that include both the related human genetic diseases and genes mentioned in the morbid file and regard them as correct paragraphs. Then we find other paragraphs and reference as to incorrect paragraphs. After that, we use Memory-Based Shallow Parser (MBSP) to analyze the sentences so that we get the syntactic information such as parts of speech. To learn the rules need to be prepared three files, one file is rules pattern, sentences information and some elements of SVO-relation, SVO-relation is the relation of subject, verb and object. Second one is the number of correct sentences in learning rules. Third one is the number of incorrect sentences in IV.

(5) learning rules. Using these rules, we then apply some multi-sentence mining algorithms to extend our results. At last we use precision and recall rates as the evaluation metrics in the experiments and record the results of all thresholds. The experiment’s results showed that the best F-score is 72.18% where the precision is 72.66% and the recall is 71.71% with Multi-Sentences Mining algorithm. And we get the best F-score is 67.32% where the precision is 76.29% and the recall is 60.24% without Multi-Sentences Mining algorithm.. Keywords – rule learning, gene-disease relationship, biomedical text mining V.

(6) 謹獻給. 我的父母、指導教授、同學、朋友，以及所有幫助過我的人. VI.

(7) 誌謝我要感謝我的指導教授侯文娟老師，由於老師耐心的引導，我才能完成這篇論文，我也要感謝與我同實驗室的同學以及不同實驗室的同學，常常與我進行討論與研究，感謝系上能提供實驗室的研究環境與修習課程，讓我能安心的在這裡學習成長、進行研究。感謝在我的學習路途中陪伴我的同學、師長與朋友，有你們的幫助才有現在的我，最後感謝我的家人，對我生活上的支援以及一路走來一直陪伴著我，一定是因為特別的緣分，才能遇見你們，孙錚在這裡感謝你們。. VII.

(8) 目錄附表目錄 .................................................................................................................... IX 附圖目錄 ..................................................................................................................... X 第一章. 緒論................................................................................................................. 1. 第一節研究動機 ....................................................................................................... 1 第二節研究目的 ....................................................................................................... 2 第三節論文架構 ....................................................................................................... 2 第二章. 相關研究探討................................................................................................. 3. 第三章. 方法與步驟..................................................................................................... 9. 第一節. 緒論............................................................................................................. 9. 第二節. 實驗資料與工具......................................................................................... 9. 第三節. 研究架構與方法....................................................................................... 15. 第四節. 研究方法描述........................................................................................... 16. 第四章. 實驗與結果................................................................................................... 29. 第一節. 實驗資料................................................................................................... 29. 第二節. 評估測量標準........................................................................................... 29. 第三節. 實驗結果與討論....................................................................................... 30. 第四節. 錯誤分析................................................................................................... 39. 第五章. 結論與未來發展........................................................................................... 41. 參考文獻....................................................................................................................... 43 附錄：不同門檻取的規則........................................................................................... 45. VIII.

(9) 附表目錄表 3-1 morbid 詳細說明 ............................................................................................... 11 表 3-2 MIM 編號說明 .................................................................................................. 12 表 3-3 MBSP tag 說明 .................................................................................................. 18 表 3-4 Penn Treebank Tagset ....................................................................................... 18 表 3-5 predicate 與參數型態說明................................................................................ 21 表 4-1 二元分類表 ...................................................................................................... 30 表 4-2 實驗結果 .......................................................................................................... 31 表 4-3 不同之門檻值與方法取回之句子數 ............................................................... 37. IX.

(10) 附圖目錄圖 3-1 OMIM 網站 ....................................................................................................... 10 圖 3-2 morbid 中基因與疾病關係資料 ....................................................................... 11 圖 3-3 對應的 MIM 編號內文 .................................................................................... 11 圖 3-4 MBSP 分析的項目............................................................................................ 13 圖 3-5 MBSP 的基本文法架構.................................................................................... 14 圖 3-6 MBSP 分析 example ........................................................................................ 14 圖 3-7 MBSP 分析 example ........................................................................................ 14 圖 3-8 研究方法架構流程圖 ...................................................................................... 16 圖 3-9 經 MBSP 標記過後的句子.............................................................................. 17 圖 3-10 sop1 中句子的詳細資訊待 ............................................................................. 23 圖 3-11 sop2 中的句子編號 ......................................................................................... 24 圖 3-12 sop3 中的句子編號 ......................................................................................... 24 圖 3-13 學習規則的結果 ............................................................................................ 25 圖 3-14 規則與符合規則的句子 ................................................................................ 26 圖 3-15 取出文獻中 pairs 的結果 .............................................................................. 27 圖 4-1 使用單一句及多重句子兩種方法的 precision 圖........................................... 34 圖 4-2 使用單一句及多重句子兩種方法的 recall 圖 ................................................ 35 圖 4-3 使用單一句及多重句子兩種方法的 F-score 圖 ............................................. 35. X.

(11) 第一章緒論第一節研究動機在目前的社會中，人類的身體機能與健康和基因及疾病有很大的相互關係，也是目前生物醫學越來越重要的研究因素，為了有效的針對生物醫學的文獻作探討和研究，透過自然語言處理(Natural Language Processing, NLP)的技術將會是未來生物醫學發展的重要課題之一。生物科技的發達，讓人類知道有許多的疾病及症狀是由基因所引起的，這些基因也許是顯性基因，也許是隱性基因，形成的原因可能透過突變，也可能是因為遺傳，假設是透過遺傳的途徑，當在生命形成的那一刻，即伴隨著人類。以白化症(Albinism)來說，白化症是一種先天性的遺傳疾病，患者對光線特別的敏感，白化症形成的主因是缺乏一種氧化酵素-酥胺酸(脢)，無法製造黑色素(melanin)，但色素細胞(melanocytes)的數量是正常的，所以患者的頭髮和皮膚呈現白色的狀態，屬於體染色體隱性遺傳病，是單基因遺傳疾病，因此只要患者的家族中有人得過白化症，那麼該患者就是白化症的高危險群。本研究詴著從現有的生物資訊文獻中，將同時包含遺傳疾病和基因的句子進一步做分析，找出相對應的基因和疾病的規則，並將範圍擴大到不同的句子跟句子之間。如果尋找出規則，即可在原本需要人力閱讀的文獻上加以操作，快速的找出文獻中與疾病相關的基因，可節省人力以及時間，未來在遺傳學上的發展應可以更迅速。. 1.

(12) 第二節研究目的目前生物醫學相關文獻在網路上以極快的速度發表出來，若想要以人工的方式讀過所有相關文獻，再將所需的新知識取出記錄下來，是極為耗時，而且永遠無法趕上文獻產生的速度，因此自動從文獻中取出規則與新知識在現在知識蓬勃發展的時刻扮演著重要的角色。本研究的目的為希望有效地從文獻中找出基因與疾病的關連，減少研究者在研究文獻時，所需要花的時間以及大量的人力，並有助於生物醫學的研究速度。本論文認為研究的速度不應該被拖慢在尋找文獻上，所以論文中將提出自動的方法，找出基因與疾病的關連。另外，在以前學者的研究上，規則的產生是以一句為限，將改善此限制，讓基因與句子的關連性擴大到從多個句子進行探討，而不再侷限於一個句子當中。所以當經由實驗訓練自動找出規則，並找出基因與疾病的關連時，將以測詴文件進行實驗，以便了解所提出的方法是否對基因與疾病關連度的正確率有所提升。. 第三節論文架構本論文的組織大綱如下：第一章介紹研究動機與目的，第二章探討相關文獻，第三章為研究方法與步驟，第四章則是實驗結果與討論。最後章節提出結論與未來發展。. 2.

(13) 第二章相關研究探討本論文的研究目的為找出人類遺傳疾病與基因之間的關連度，在實驗的過程中，研究了許多前人的實驗方法與技術，並在實驗中提出新的方法與改良，以下將會介紹本論文所參考的前人著作。以現今生物醫學文獻的累積速度，已經遠遠超越了大多數的研究人員與臨床醫生可以即時了解自己的專業領域新知識的能力，更別提涵蓋範圍之廣的一系列主題。此一問題突顯出高產量的技術，如 DNA、微陣列和蛋白質組學，都是需要大量的數據分析以及涉及到成千上萬的基因。一個針對此問題的解決方法是編譯結構化數位資源，然而，這些資源全是手動策劃，建立在龐大的資料庫上，將產生一個速率上的限制。另一種方法是自動本文探勘法，藉由搜尋文件的本文字串並分析頻率與上下文，涉及自動資訊擷取，目前已經成功應用在一些生物應用程式上，它被用來擷取蛋白質與基因的關係或相互作用的訊息。但很少有研究全球基因與疾病關係的本文探勘。 Hines 等人(2003)提出了一些方法來解決此問題，第一個方法是 MedGene Database，此為一個關聯資料庫，方法為從 NCBI 中儲存疾病與基因的資訊、文本探勘的結果、統計分數與超連結到重要的文件。第二個方法是本文探勘演算法，將所有相關的註釋和網址為每個 LocusLink 記錄與收集。第三個方法是統計法，對每一個基因與疾病的配對，用二乘二的列表來做記錄，並在評估基因與疾病的關聯強弱度方面用了很多的方法，包括 chi-square 分析法、Fisher’s exact 機率等等。第四個方法為全球分析，選出至少 50 個相關基因的疾病來做 clustering 分析。第五個方法是乳房組織微陣列，從 Harvard Breast SPORE 冰凍組織樣本中，挑選 3.

(14) 出 89 個乳腺癌樣本與 7 個正常的乳腺組織樣本來做實驗分析。在美國有非常多數的人口罹患阿茲海默症，Chen 等人(2006)的論文中進行了初步的阿茲海默症蛋白質相互作用網路分析，並呈現出如何不直接從序列資訊就可以得到蛋白質功能知識的方法。該論文提出了六步驟的計算方法：第一步，下載 OMIM 的阿茲海默症的相關基因。第二步，使用 HUGO Gene Nomenclature Committee (HGNC)1資料庫，藉由提供的 SwissProt ID 對應到阿茲海默症的相關基因與阿茲海默症相關蛋白質。第三步，使用延伸方法建構一個延伸的阿茲海默症蛋白質交互子網路。第四步，開啟生物資訊軟體如 ProteoLens、視覺化與註釋阿茲海默症的子網路。第五步，對存取子網路的效能進行分析。第六步，為了取得阿茲海默症的蛋白質相關資訊，開發一種啟發式演算法及評分的方法，能取得阿茲海默症蛋白質之資訊。而直到現在，大部分的蛋白質註解(protein annotation)都是經由人工去標註，在生醫文獻不斷產生的情況下，手工標註更也顯得困難，Kim 等人(2007)想要利用學習規則的方式達到自動完成蛋白質標註的工作，此研究先使用了 Memory-Based Shallow Parser (MBSP) (Walter et al., 1999)分析生醫文獻中的句子， MBSP 以 GENIA 的 corpus 當作訓練集，可以標記出詞性、蛋白質等等。將標記過的句子放進 inductive logic programming (ILP) system (Muggleton and Raedt, 1994)學習規則。ILP 包含了假設(hypothesis) H、背景知識(background knowledge) B 和例子(example) E，H 表示為規則所成的集合，在公式成立的情況下，利用此關係，擁有背景知識和例子即可推導出 H。從這些句子中學習出規則，將這些規則經由專家的人工判別後，決定適不適合使用，再利用規則找出蛋白質等相關的. 1. http://www.genenames.org/ 4.

(15) 關係。結果此研究的準確率在跟結構相關的主題中達到 85.3%，回收率達到了 61%；其他的主題在準確率上達到 66%以上，但回收率卻在 20%以下，本論文將 Kim 等人(2007)學習規則技術應用在實驗上，希望能透過類似的做法，達到自動學習出規則的結果。陳孝源(2012)的研究主要利用 OMIM 提供的資料-morbid，期望從文獻中自動取得疾病與基因關係的規則。該研究使用的工具是一套文字分析系統 MBSP2，並將分析過的句子透過 ALEPH3來學習出規則。ALEPH 在對句子進行分析時，會標示出有幾個句子是正確的，有幾個句子是錯誤的，參考這些數量，作者接著提出公式(1)如下，其中 S 表示分數，Pos 是正確的句子數量，Neg 是錯誤的句子數量。. (1). 在上述研究中，作者先找出含有人類遺傳疾病與基因的關係的句子，透過這些正確配對的句子自動尋找規則，測詴時再以這些規則得到疾病與基因相關的句子，最後以 precision 和 recall 來進行評量，最佳的 F-score 為 66.9%，此時的 precision 為 70.6%，recall 為 63.5%。而陳孝源(2012)的論文主要針對的是單一的句子，本研究嘗詴將實驗擴展到相鄰的句子之間，即是除了單一句子之外，也將單一句子的前一句以及後一句納入實驗的評判當中，形成三句為一判斷的形式，希望能透過此做法，在做測詴時能取出更多的句子。陳立哲(2011)的研究則在探討生物醫學文獻中人類遺傳疾病對基因的關連度. 2 3. http://www.clips.ua.ac.be/pages/MBSP#server http://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph.html 5.

(16) 建立，他使用了醫學文獻資料庫 Medline 的文獻，在資料的前置處理中使用了 Genia tagger4標示生物醫學文獻上的基因，並從 OMIM 下載人類遺傳疾病與基因對 Medline abstracts 進行標示，並去除 stop words，進而計算文章中人類遺傳疾病與基因的 Term Frequency 與 Inverse Document Frequency。該論文使用四種方法來計算人類疾病與基因的分數，分別為(1)密度公式，(2) 重力公式，(3) Dice 架構的變化公式，和(4)一般的比例公式。在密度公式中，要計算人類遺傳疾病會運用到人類遺傳疾病與基因的距離，與人類遺傳疾病 TF-IDF 的值，其公式如(2)，其中表是在同一篇文獻中相同的配對有多少筆，. 為該配對的人類遺傳疾病的 TFIDF 值，. ˙. 為基因與. 人類遺傳疾病的距離為多少。. (2) ˙. 重力公式則將物理上的重力關係應用到人類遺傳疾病與基因的關係，假設 d 為人類遺傳疾病與基因的距離，陳立哲先生提出四種重力變化公式如(3)(4)(5)(6) 所示，其中. 為基因的詞頻，. 則為基因的 IDF 值，G 為常數值設定為 10，. 為人類遺傳疾病的 TF-IDF 值。. (3). 4. http://www.nactem.ac.uk/tsujii/GENIA/tagger/ 6.

(17) (4). (5). (6). Dice 的變化公式為自然語言中的 Dice 公式根據 L 值的大小做些微的變化，其兩種變化公式如(7)(8)，其中 L 為配對的基因的 GO 總數，m 為配對人類遺傳疾病的所有 GO 總數，x 為 L 的 GO 與 m 的 GO 比對吻合的個數。. (7) (8). 一般比例公式根據 m 值的大小分為兩種變化，如(9)(10) ，m 為配對人類遺傳疾病的所有 GO 總數，x 為 L 的 GO 與 m 的 GO 比對吻合的個數。. (9) (10). 透過這些公式得出最佳的 precision 為 91.6%，此時的 recall 為 38.1%；最佳 7.

(18) 的 recall 值為 99%，此時的 precision 為 5.4%；F-score 都沒有特別突出，本研究希望能提升整體的 F-score，而不是如此極端數據。. 8.

(19) 第三章方法與步驟第一節緒論本研究以陳孝源(2012)提出的架構為基準，為了增進整體的精確率與回收率，增加了擷取規則的限制條件以及提出不同的方法進行實驗，不同的方法為多重句子探勘演算法，陳孝源(2012)在 2012 年所做的實驗是以單句來進行，本研究以多句來進行，關於規則的限制條件與提出的方法會在介紹完實驗資料與工具之後進行詳細的介紹。. 第二節實驗資料與工具 (1) 背景知識庫本研究使用的資料來源為 Online Mendelian Inheritance in Man (OMIM)5， OMIM 是一個將人類遺傳疾病作分類，並與相關連的人類基因進行連結的線上資料庫，該資料庫由約翰霍普金斯大學(John Hopkins University)的研究團隊所收集整理，並且透過一群科學作者與編輯，協助其相關研究及文獻擷取，然後整理出的資料庫資訊，如圖 3-1 所示。. 5. http://www.ncbi.nlm.nih.gov/omim 9.

(20) 圖 3-1. OMIM 之首頁. 利用 OMIM 提供的 morbid 來做資料的結取與測詴，morbid 當中的每一行包含有人類遺傳疾病、對該疾病的描述、相對應到的基因、該疾病的 MIM 編號與基因的 MIM 編號，Mendelian Inheritance in Man (MIM)6為制定各種遺傳病、性狀與基因的編號，簡稱為 MIM 編號，包含了已知的遺傳疾病、遺傳的性狀與其基因，除了描述各種疾病的臨床特徵、鑑別診斷、治療與預防外，且提供已知有關致病基因的連鎖關係、組成結構、染色體定位、功能等等的資料，並附有經嚴謹篩選的相關參考文獻。在參考有關疾病的報導鎖定其 MIM 編號即可明確所討論的是哪一種遺傳疾病，更確定了 MIM 在國際醫學上的重要性。如圖 3-2 所示，表 3-1 為說明圖 3-2 第七列的資訊(3-M syndrome, 273750 (3) |CUL7|609577|6p21.1)，並以圖 3-3 介紹表 3-1 中 MIM 編號內文(273750)，另外表 3-2 為對 MIM 編號的詳細說明。. 6. http://en.wikipedia.org/wiki/Online_Mendelian_Inheritance_in_Man 10.

(21) 圖 3-2 morbid 中基因與疾病關係資料. 表 3-1 3-M syndrome 3M 綜合症. CUL7. morbid 詳細說明 273750. 對應的基因疾病 MIM 編號. 圖 3-3. 609577. 6p21.1. 基因 MIM 編號. 染色體序列. 對應的 MIM 編號內文. 11.

(22) 表 3-2. MIM 編號說明. 首號碼. MIM 編號範圍. 遺傳方式. 1. 100000-199999. 染色體顯性位點或外顯特質(於 1994 年 5 月 15 日創建). 2. 200000-299999. 染色體隱性位點或外顯特質(於 1994 年 5 月 15 日創建). 3. 300000-399999. X 連鎖位點或外顯特質. 4. 400000-499999. Y 連鎖位點或外顯特質. 5. 500000-599999. 線粒體位點或外顯特質. 6. 600000-. 染色體位點或外顯特質(於 1994 年 5 月 15 日創建). (2) 實驗工具在分析句子的部分，本研究決定使用 Memory-Based Shallow Parser (MBSP)， MBSP 是以 TiMBL7及 MBT8和 GENIA corpus 當作基底的 parser，MBSP 在 Brown Corpus 9 中斷句的正確性達到 93.2%，在利用 consonants (Dept.)(子音)修復了 decimal points、single letter abbreviations、alternating letters 與 capital letter 之後，對斷句的判斷正確性達到 97.7%。選用 MBSP 的原因是 Shallow parsing 是在文字分析上很重要的工具，常應用在 information extraction 和 summary generation。 Memory-based Learning (MBL)的優點在於可免去以人工的方式去定義 patterns，且可重複用在不同的語料庫及子語言上。MBSP 的標記中包含著許多的屬性，有 tokenization、part-of-speech (POS) tagging、concept tagging、chunking 和 grammatical function assignment (主詞、動詞等等)，本研究會取出一部分的資訊來分析。圖 3-4 7 8 9. http://ilk.uvt.nl/timbl/ http://ilk.uvt.nl/mbt/ http://langbank.engl.polyu.edu.hk/corpus/brown.html 12.

(23) 為 MBSP 所分析的項目、各個項目所代表之意義與舉例，圖 3-5 為 MBSP 的基本文法：句子是由字所組成，每個字的語法取決於在句子中的位置，根據上下文，一個字可以是動詞也可以是名詞(E.g., the can, I can)，圖 3-6 及圖 3-7 為 MBSP parse 過的句子的型式之範例，被分析的句子為”Insulin secretion, in response to a glucose challenge, occurs in 2 phases.”，兩個句子的差別在於格式的不同。. 圖 3-4 MBSP 分析的項目. 13.

(24) 圖 3-5. MBSP 的基本文法架構. 圖 3-6. MBSP 分析 example. 圖 3-7. MBSP 分析 example. 14.

(25) 收集的資料透過 MBSP 分析之後，將分析完的句子透過程式學習出規則，學習規則必頇準備三個檔案，在本實驗中分別為 sop1、sop2 和 sop3，sop1 內容包括學習的規則以及句子的詳細描述，sop2 內容為挑選出的正確句子的編號，sop3 內容為挑選出的不正確的句子的編號，備完三個檔案之後即可學習規則，關於學習的步驟以及 sop1、sop2 和 sop3 的詳細說明會在研究方法描述介紹。. 第三節研究架構與方法本論文的系統架構流程圖如圖 3-8 所示。在圖 3-8 中，首先從 OMIM 提供的 morbid 的 MIM 編號對應的全文文獻中，找出包含人類遺傳疾病與基因的句子，同時並隨機找出不包含人類遺傳疾病與基因的句子，將兩類的句子透過 MBSP 進行分析，分析完的句子取其幾項特徵用來學習規則，學習出規則即可進行測詴的動作，最後再以 precision 與 recall 評估結果。. 15.

(26) 圖 3-8. 研究方法架構流程圖. 第四節研究方法描述本論文提出的方法主要分成五個步驟：(1)找出人類遺傳疾病與基因配對的句子，(2)對句子進行標記，(3)學習規則，(4)建立相鄰句子(多重句子)探勘演算法， (5)計算精確率及回收率。. 16.

(27) (1) 找出人類遺傳疾病與基因配對的句子根據 OMIM 提供的 morbid 中的 MIM 編號，搜尋出對應編號的相關文獻，為了能盡量擷取多一點資料，除了人類遺傳疾病的 MIM 編號外，也從相對應的基因的 MIM 編號去做擷取的動作，兩方面同時著手，以確保資料的完整性。在此一步驟中，將從文獻中擷取出人類遺傳疾病與其配對的基因同時存在的句子。. (2) 對句子進行標記將擷取出來的句子以及另外挑選出來並不包含人類遺傳疾病與基因同時存在的句子，放進 MBSP 進行標記，以下列句子為例：“I went to supermarket yesterday afternoon”經過標記後，結果如圖 3-9 所示。. 圖 3-9 經 MBSP 標記過後的句子. 圖 3-9 中，以 went/VBD/I-VP/O/VP-1/O/go 為例說明各標籤的意義，如表 3-3 (其中 WORD 代表文中出現的字；part-of-speech 代表詞性；Chunk 代 17.

(28) 表詞塊，Chunk tag 為 VP；PNP 表示是否為 prepositional noun phrases，O 代表不是；Relation 為 relations between chunks, sentence subject, object and predicates，Relation tag 是 VP-1；Anchor tag 是 O；went 的 Lemma 是 go) 表 3-3. MBSP tag 說明. WORD. Part-of-speech. Chunk. PNP. Relation. Anchor. Lemma. went. VBD. I-VP. O. VP-1. O. go. 本研究所採用的資料型態有 WORD、Chunk、Lemma 以及主詞-動詞-受詞關係(SVO relation)，但 MBSP 在進行分析的時候，POS Tag 會出現各種表示符號，本論文用 Penn Treebank Tagset 列出其代表意義，表 3-4 共列舉出 35 種不同的代表詞性。. 表 3-4. Penn Treebank Tagset10. POS Tag. Description. Example. CC. Coordinating conjunction. And. CD. Cardinal number. I, third. DT. Determiner. The. EX. Existential thereq. There is. FW. Foreign word. D’hoevre. IN. Preposition/subordinating conjunction. In, of, like. JJ. Adjective. green. JJR. Adjective, comparative. greener. 10. http://www.anc.org/OANC/penn.html 18.

(29) JJS. Adjective, superlative. greenest. LS. List marker. 1). MD. Modal. Could, will. NN. Noun, singular or mass. Table. NNS. Noun plural. Tables. NNP. Proper noun, singular. John. NNPS. Proper noun, plural. Vikings. PDT. Predeterminer. Both the boys. POS. Possessive ending. Friend’s. PRP. Personal pronoun. I, he, it. PRP$. Possessive pronoun. My, his. RB. Adverb. However, usually, naturally, here, good. RBR. Adverb, comparative. better. RBS. Adverb, superlative. Best. RP. Particle. Give up. TO. To. To go, to him. UH. Interjection. uhhuhhuhh. VB. Verb, base form. Take. VBD. Verb, past tense. Took. VBG. Verb, gerund/present participle. Taking. VBN. Verb, past participle. Taken. VBP. Verb, sing. Present, non-3d. Take. 19.

(30) VBZ. Verb, 3rd person sing. present. Takes. WDT. Wh-determiner. which. WP. Wh-pronoun. Who, what. WP$. Possessive wh-pronoun. Whose. WRB. Wh-adverb. Where, when. (3) 學習規則將 MBSP 標記過後的句子，表 3-5 表示本研究在學習規則時用來表示句子資訊的述語(predicate)，分為正確與不正確兩類，再將兩類中的句子做詳細的處理，經處理過後的句子如圖 3-10，ep(subj_vp,S,C1,T):- has(S,C1,np,_), has(S,C2,vp,T), subj(C1,C2). 為規則的表示方式，subj_vp 為主詞與動詞關係表示，S 表示為第幾句，C1 為關係中的主詞，T 為關係中的動詞；has( )擁有四個屬性，分別為句子編號、chunk、詞性及 word；subj(C1,C2)為該關係包含的 chunk；s(s3)表示這是第一句，之後的 c(c3_0)為第 3 句的第一個字，sem 表示該 chunk 的 semantic，而後的是句子的 SVO relation，如果句子當中包含了主詞受詞關係的話，以 subj( )與 dobj( )表示，subj( )是主詞和動詞之間的關係，dobj( )為動詞與受詞的關係。依照正確的句子、不正確的句子、詳細的句子資訊存為三個檔案，正確的句子和不正確句子的檔案只需放進句子的編號，例：s(s3)、s(s4)，像圖 3-10 一樣的句子資訊則都歸為 sop1，為在 3-2 節實驗資料與工具提到的 sop1、sop2、sop3。. 20.

(31) 表 3-5. predicate 與參數型態說明. Predicate. Argument type. 描述. s/1. Sentence (S). 句子. c/1. Chunk (C). Chunk. has/4. S, C, SyntacticRole, Headword. 句子與 chunk 的關係. next/2. C, C. Chunk 的連結順序. sem/2. C, Semantics. Chunk 的 head word. subj/2, dobj/2. C, C. 主詞與受詞的關係. sop1 主要是放置分析過的句子的詳細資訊，以及學習規則所需要的元素，如圖 3-10 內的 ep()、subj()、dobj()等等，將訓練時所需要的句子都呈現為此種狀態(包括正確配對的句子與非正確配對的句子)，再將正確的句子之編號放進 sop2 中，檔案 sop2 為放置基因與疾病正確配對的句子，如圖 3-11 所示，將非正確配對的句子放置在 sop3，此一檔案為放置非基因與疾病正確配對的句子，如圖 3-12 所示。準備好 sop1、sop2、sop3 之後便可學習規則，找出句子中 subj()與 dobj() 的關係，由主詞-動詞-受詞之關係可以得知動詞為連繫主詞與受詞的關鍵，在此動詞為基因(或疾病)，受詞則為疾病(或基因)，從 subj()與 dobj()中比對為一樣的動詞則抓出其規則，為<disease>VP<gene>或是<gene>VP<disease> 的組合，並在取出規則是統計其出現的次數，該次數為計算規則分數的標準，並依照計算出的分數，根據門檻值、pos 及 neg 次數來篩選規則，計算分書 21.

(32) 的公式是使用陳孝源(2012)論文中所提出的計算分數的公式，為本論文中的相關研究探討中提到的公式(1)。. 22.

(33) 圖 3-10 sop1 中句子的詳細資訊. 23.

(34) 圖 3-11. sop2 中的句子編號. 圖 3-12. sop3 中的句子編號 24.

(35) 學習規則時會統計符合該規則的句子出現了幾次(pos cover)，符合此規則但是是不正確的句子出現了幾次(neg cover)，並且計算該規則得到的分數，如圖 3-13 所示，圖中的規則 84 的 vp 是 converting，正確的句子數有 10 次，不正確的句子數有 0 次，利用公式(1)得出的分數是 0.01633987，依照取出的規則數量，規則的分數去制訂門檻值；因為有許多的規則其實出現的次數都只有一次，為了讓實驗有鑑別度，本實驗放棄出現次數較少次的規則，因此在選取規則時多加了 pos-neg 必頇大於一個數值才將規則選取，例如：pos – neg >= 3。. 圖 3-13. 學習規則的結果. 本論文所要用的規則必頇符合 pos-neg>=5，認為符合此限制的規則擁有基本的出現次數，在訓練時以 1000 個句子去做訓練，出現的次數至少要大於等於 5，精確率才不致於太低，由通過 pos-neg>=5 限制以及達到門檻值的規則對受測資料進行測詴，找出人類遺傳疾病與基因之間的動詞，並計算共有多少句子符合規則。圖 3-14 為其中一個擷取出的規則，以及符合此規則的 25.

(36) 兩個句子(S1、S2)。. 圖 3-14. 規則與符合規則的句子. (4) 建立相鄰句子(多重句子)探勘演算法陳孝源(2012)提出的規則是從測詴文件中尋找符合規則的句子，且句子當中含有相對應的 disease 和 gene，本論文為了要提升能擷取的句子數量，除了單一的句子外，連同符合規則的句子的前句以及後句，一起判斷是否存在有相對應的基因與疾病，判斷的標準在於連同該句子以及前句和後句，在此三句內是否存在有相對應的 disease 與 gene，如此作法不僅僅能提升被判斷的句子數量，且因為涵蓋的範圍變廣，較容易取得一對 disease 與 gene，除了能被判斷的句子較多以外，命中率也會跟著上升。圖 3-15 是本研究採用了多重句子演算法之後得出的結果之一，圖中的 one_take_pair 是在單一句子中能擷取出的句子數，one_positive 是文章中含有的正確配對的句子數，one_pos 則是被擷取出且是正確的基因與疾病配對的句子數(等同於被擷取出的 one_positive)；而 take_pair 是利用了多重句子演算法之後，從測詴資料中能擷取出的句子數量，positive 是測詴文章中利用多重 26.

(37) 句子演算法涵有的正確句子數量，pos 則是在擷取出的句子中正確配對的數量(等同於被擷取出的 positive)。. 圖 3-15. 取出文獻中 pairs 的結果. (5) 計算精確率及回收率本研究為了得到較高的精確度，選用了較高的門檻值，除了多重句子探勘演算法外，也用了測詴單一句子一起來做比較，分別計算其精確率(precision)與回收率(recall)。 1.. 精確率利用通過門檻值的 rules 尋找符合規則的句子，句子中包含 disease 和 gene 的 pair 數量作為分母，在取出的 pairs 當中如符合正確的基因與疾病的配對則為 correct pairs，correct pairs 作為分子，如公式(11)所示：. Precision = 2.. 取回的句子中依照. 與. 正確配對的數量. 取回的句子數量. (11). 回收率文章中所有 disease 與 gene 正確配對的數量作為分母，在取出的 pairs 當中如符合正確的基因與疾病的配對則為 correct pairs，correct pairs 作為 27.

(38) 分子，如公式(12)所示：. Recall =. 取回的句子中. 與. 正確配對的數量. 所以正確的句子數量. 28. (12).

(39) 第四章實驗與結果第一節實驗資料. (1) Train data 本研究所使用的資料是 OMIM 網站所提供的 morbid 文字檔，morbid 文字檔為人類遺傳疾病與基因正確配對資料，本實驗從 morbid 的 302 篇 MIM 文獻中找出包含人類遺傳疾病與基因的句子，共有 2532 句，從中取出正確的句子 1000 句與隨機挑選錯誤的句子 1000 句，學習出規則，供測詴資料使用。. (2) Test data 由 OMIM 網站所提供的 morbid 文字檔中，取出 108 個 MIM 編號，每個 MIM 編號代表一篇關於基因或是疾病的文獻，測詴資料採用的是這 108 篇文獻的全文，從摘要開始，到參考文獻為止。選擇 108 篇文獻是因為在這 108 篇文獻中抓取出來的正確句子數量共有 919 句，接近訓練時的 1000 句，考慮到測詴時可以與訓練時有相類似的環境，因此本實驗取 108 篇為測詴資料，來檢視實驗的 precision 與 recall 值。. 第二節評估測量標準本研究使用的評估標準有兩個，第一個是精確率(precision)，第二個是回收率 (recall)，兩者的公式(13)(14)及其定義和二元分類表(表 4-1)如下所示：. 29.

(40) Precision =. (13). Recall =. (14). 有關公式的說明，以表 4-1 來表示，TP、FP、FN、TN 的定義如下： TP (True Positive)：The number of true positive FP (False Positive)：The number of false positive FN (False Negative)：The number of false negative TN (True Negative)：The number of true negative 表 4-1. 二元分類表. Test outcome\Condition. True. False. Positive. TP. FP. Negative. FN. TN. 在本研究中 TP 代表根據 rules 取回來的句子加上句子的前後句中包含有 disease 和 gene 且 disease 和 gene 是正確配對的，FP 代表取回來的句子中的 disease 和 gene 配對是不正確的，FN 代表著那一個句子包含有正配對的 disease 和 gene，但是系統卻沒有取回來，TN 則表示句子以及前後句沒有包含正確配對的 disease 和 gene 且系統也沒有取回來。. 第三節實驗結果與討論. 30.

(41) 本研究的實驗根據 OMIM 中的 morbid 提供的人類遺傳疾病與基因正確配對所找出來的句子 1000 句以及隨機抽取的錯誤句子 1000 句來當作學習的語料庫，將學習出來的規則以一定的門檻值為基準，取出符合門檻值的規則，將 OMIM 的 108 篇文獻以此規則做測詴，表 4-2 為實驗結果，除了測詴單句的句子外，也擴展到加入受測句子的前後句。表 4-2 表示在不同的方法之下，應用於規則而得到的精確率(Precision)和回收率(Recall)。為了同時衡量精確率與回收率的結果，本實驗使用了 F-score 為標準，F-score 公式(15)如下所示：. F=. (15). 表 4-2. method. Threshold. One-. 0.004. Rule 數量. 實驗結果. Positive. Negative. Precision Recall. F-score. 13. 444. 138. 76.29%. 60.24% 67.32%. 0.01. 8. 398. 121. 76.69%. 54.08% 63.43%. 0.014. 6. 379. 98. 79.45%. 51.63% 62.59%. 0.1. 4. 337. 83. 80.24%. 45.79% 58.31%. 0.4. 2. 219. 49. 81.72%. 29.76% 43.63%. sentence Onesentence Onesentence Onesentence Onesentence. 31.

(42) Multi-. 0.004. 13. 659. 248. 72.66%. 71.71% 72.18%. 0.01. 8. 589. 208. 73.9%. 64.09% 68.65%. 0.014. 6. 564. 164. 77.47%. 61.44% 68.53%. 0.1. 4. 486. 143. 77.27%. 52.88% 62.79%. 0.4. 2. 283. 72. 79.72%. 30.79% 44.42%. Chen(0.1). 52. 127. 53. 70.6%. 63.5%. 66.9%. Chen(0.9). 5. 35. 10. 77.7%. 17.5%. 28.6%. Baseline(0.1). 5.4%. 99%. 10.24%. Baseline(0.8). 91.6%. 38.1%. 53.81%. sentence Multisentence Multisentence Multisentence Multisentence. 表中的 baseline 為陳立哲在 2011 年的論文使用一般比例公式算出的分數，呈現兩種非常極端的分數，最高的 precision 可到達 91.6%，但是 recall 值只有 38.1%，而 recall 值最高可到達 99%，但 precision 值卻只有 5.4%，在特殊情況下，譬如要盡可能的取回全部的資料，或者想要完全命中的話，陳立哲先生的方法會非常適合；Chen 為陳孝源在 2012 年使用單句的 disease & gene 演算法得到的結果，在門檻值高的時候，回收率呈現比較少的情況，導致 F-score 也比較低，而在門檻值較低的時候，precision 和 recall 較為接近，F-score 也就比較高；而本實驗在做單句實驗時，因 rules 往某幾項集中，雖然最後的 rules 較集中在某幾項，但在 F-score. 32.

(43) 的數據最好的是與陳孝源差不多的；而本實驗的多重句子演算法在比對 rules 的文獻中的句子後，加入了該句子的前一句和後一句，一同判斷有無包含 disease 和 gene，在 threshold 為 0.004 時 precision 與 recall 都有達到一定的水準，最後得到的 F-score 也比之前的都要好。從表 4-2 可得知，threshold 越高時，獲得的規則數雖然少，但在 precision 會很高，有很高的機率可以命中想要的句子，但相對的 recall 值就很不好，導致 F-score 的值呈現不佳的狀態；相對的如果不設 threshold，將全部的 rules 都用上， recall 定能達到接近 100%的情況，但這顯得毫無價值，因為有非常多的 rules 是只有某些特定的句子才會出現，也就是說可能在幾百篇文獻中也只有出現一句，在剩下的文獻中完全用不上，無疑是浪費資源，且 F-score 不一定會比較好；本實驗就是因為此情況，才將大部分的 rules 刪除掉，取出的 rules 都是在訓練的時候佔有一定數量以上的才取出來，且在某些規則雖然算出的值較高，但因為屬於不正確的句子數量較多，也先行去除，所以 rules 會比較少，但在這樣的情況下，表示 rules 的分數高，在訓練階段包含的句子也多，所以 precision 都不會太低。在 threshold 為 0.004 時，precision 與 recall 得到一個接近平衡的值，再放寬 threshold 的話，雖然可以使 recall 值再上升，但 precision 必定會再下降，也許因為 rules 都有一定的品質，precision 也不會出現太低的情況，但可能會使得 F-score 下降，而且在取出的句子當中，完全正確的句子的數量與從文章抓出來的句子並且符合正確 pairs 的句子數量的差距也大幅度的提升，但由於 rules 是根據 SVO relation 判斷句子是否符合情況，如果一昧的要提高抓出的正確句子數量，會形成某些少見的 rules，這些 rules 的動詞出現的次數將會嚴重影響 precision 值，此作法是必頇要避免的。並且在 threshold 未 0.004 時，已經達到了截取 rules 的限制， 33.

(44) 也就是 pos – neg >= 5 的 rules 會出現在 threshold 為 0.004 的時候，所以門檻值沒有在往下降。觀察圖 4-1 和圖 4-2 可以得知，在 precision 的部分，one-sentence 的方法表現會比 multi-sentences 的方法來的要好，而在 recall 的部分，multi-sentences 的方法會比 one-sentence 的方法來的要好，原因在於使用 multi-sentences 時，抓回來的句子且屬於正確的 disease 與 gene 配對的比使用 one-sentence 時多很多，但由於取回的句子總數也大量增加，故 precision 的值會下降；但在 recall 值的部分，因為完全正確的句子總數是一樣多的，所以當含有 correct pairs 的句子總數大量增加時，recall 值也會大量的成長，最後在 F-score 的表現是使用 multi-sentences 的方法得到較好的結果，如圖 4-3 所示。取回的正確句子數、包含 pairs 的句子數以及含有 correct pairs 的句子數量如表 4-3 所示。. 84.00% 82.00% 80.00% 78.00% 76.00%. one sentence. 74.00%. multi-sentences. 72.00% 70.00% 68.00% 0.4以上. 圖 4-1. 0.1以上. 0.015以上. 0.01以上. 0.004以上. 使用單一句及多重句子兩種方法的 precision 圖. 34.

(45) 80.00% 70.00% 60.00% 50.00% 40.00%. one sentence. 30.00%. multi-sentences. 20.00% 10.00% 0.00% 0.4以上. 圖 4-2. 0.1以上. 0.015以上. 0.01以上. 0.004以上. 使用單一句及多重句子兩種方法的 recall 圖. 80.00% 70.00% 60.00% 50.00% 40.00%. one sentence. 30.00%. multi-sentences. 20.00% 10.00% 0.00% 0.4以上. 0.1以上. 0.015以上 35. 0.01以上. 0.004以上.

(46) 圖 4-3. 使用單一句及多重句子兩種方法的 F-score 圖. 在規則分數的計算方式與陳孝源(2012)的計算方式相同，都是依循公式(1)來做計算，而不同的點在於本論文在規則上的要求較多，陳孝源在規則上的截取只依據了該規則分數的高低來判別，而本論文除了依照計算的分數之外，從 pos 雨 neg 之間的關係加入了必頇符合 pos – neg >= 5 的條件，為的是讓規則有一定的品質，不會為了取出大量的句子而加入很多無用的規則。再取回的句子方面，本論文與陳孝源同樣有做單一句子的判別，但因為在規則上的不同，故結果上也有些許的不同，較大的差別是在於本論文加入了相鄰句子的判別，也就是多重句子的方法，從單一的句子中加入了該句的前句以及後句，可以判斷的句子除了該句之外，連同相鄰的句子，如此做法可以提升包含基因與疾病的機率，等於是比之前的方法多加了兩句一起判斷。例如可能找出來的單一句子只包含了人類遺傳疾病，再從前的方法來看，這一句就是不能被擷取出來的；但在用了相鄰句子(多重句子) 的方法之後，等於是能額外的簡查該句的前句與後句是否包含基因，一旦前句或是後句含有至少一個基因，那麼該三句就算是能被擷取出來的句子，比起單一句子來說，能被擷取的句子數量自然會有顯著的提升。表 4-3 是在各個門檻值下擷取出的句子數量，Correct sentences 代表總共含有的正確句子數量，Catch pairs 為被取出的句子數量，而 Correct pairs 為被取出的句子且該疾病與基因正確配對的，統寄了單一句子與相鄰句子(多重句子)的做法。. 36.

(47) 表 4-3. 不同之門檻值與方法取回之句子數. Threshold = 0.004 Correct sentences. Catch pairs. Correct pairs. 736. 582. 444. 919. 907. 659. Correct sentences. Catch pairs. Correct pairs. 736. 519. 398. 919. 797. 589. Correct sentences. Catch pairs. Correct pairs. 736. 447. 379. 919. 728. 564. Onesentence Multisentences Threshold = 0.01. Onesentence Multisentences Threshold = 0.015. Onesentence Multisentences. 37.

(48) Threshold = 0.1 Correct sentences. Catch pairs. Correct pairs. 736. 420. 337. 919. 629. 486. Correct sentences. Catch pairs. Correct pairs. 736. 268. 219. 919. 355. 283. Onesentence Multisentences Threshold = 0.4. Onesentence Multisentences. 38.

(49) 第四節錯誤分析在取出 rules 的時候，有些 rules 存在一些較常見的動詞像是 be、have、has 等等，雖然這些 rules 在 training 時分數不高，或是因為在不正確的句子中含量太高而被去除，但因為還蠻常出現在句子中，能取回的句子數量也多，少了這些 rules 也讓 recall 值下滑。本實驗在抓取句子的時候因為變換了 threshold 的數值，每次轉換都需要重新 run 那 108 篇的文獻，在某幾次的 run 中會發生錯誤，導致該篇文獻無法被分析，因此在計算總數時，那幾篇有發生問題的文章就沒有被採納，會造成 correct sentence、catch pairs 和 correct pairs 的總數各減少一些，在 precision 和 recall 上可能會有些許的誤差，但因最後的值是用整體的平均分析，所以所差的值應該不會造成太大的影響。在取出包含 disease 與 gene 的句子時，因為只要句子中有包含任一 disease 和 gene 即會被取出，因 disease list (dislist)中有 1923 種疾病名稱，gene list (genelist) 中有 13943 個基因，一種疾病可能會被三、四種疾病所影響，當然也有一個基因會對不只一種疾病有影響，在某些剛好重複的基因時可能會造成判斷上的錯誤，使得在取出包含有 disease 和 gene 時會多抓出一些句子，使精確率下降。在抓取句子時希望盡可能多抓取一些，因此增加了前句和後句，但還是有些基因或疾病可能出現在可能前兩句或後兩句的地方，在前一句時可能就以代名詞 39.

(50) 的方式出現，例如 that、which 等等，可能離的比較遠，難以擷取到，所以就錯過了，如果使用人工的方式可以知道他所代表的名詞，但即使是使用 MBSP 也無法從該句的資訊得知其代名詞究竟是代表哪些字，使得該句無法順利被取回，這個部分目前還沒有進行處理，有待未來實驗。. 40.

(51) 第五章結論與未來發展本論文的目的是從生醫文獻中取出人類遺傳疾病與基因有關連的句子，為了節省人工所花費的時間，提出了在人類遺傳疾病與基因正確配對的句子中學習出規則的方法，並參考一些不正確句子的資訊，一同加入學習規則的方法當中，以這些規則從測詴用的文獻當中取出包含人類遺傳疾病與基因的句子，並擴展到該句子的前後句，而且該句子及其前後句所包含的疾病與基因必頇是在 morbid 上有所配對的，最後以 precision、recall 來進行評量。本研究從人類遺傳疾病與基因正確配對的句子和沒有正確配對的句子中以 MBSP 分析出詞性 (Part-of speech) 、詞塊 (chunk) 以及主詞動詞受詞的關係 (SVO-relation)，透過類似 ALEPH 的系統學習出哪些句子中的 SVO-relation 是可以用來當作規則使用的。在以 108 篇文獻去做測詴，實驗結果中最佳的 F-score 為 72.18%，此時的 precision 為 72.66%，recall 值為 71.71%，門檻值為 0.004，precision 與 recall 值很接近，是在各種門檻值中，以及從單句擴展到加入前後句判斷後得到的最好結果。指代詞消解 (anaphora resolution)的問題也是需要被解決的，如果能解決 anaphora 的問題，那麼符合 rules 而被取出的句子將不止擴展到前後句，可能可以擴展到前三句、五句、甚至整篇文章都能被判斷的地步，屆時只要對整篇文獻做測詴，即可得到該篇文章中哪些疾病與基因有關，可望提高精確率。 41.

(52) 此外，在學習規則的部分可將訓練的資料再加以擴展，甚至是正確的句子都不能與不正確的句子有所重疊，將 rules 的品質更加提升，在判斷時的精準度也會跟著提升，因為加入的大量的資料去訓練，取出的規則也將更為平均，recall 值也能夠提升，相信對實驗是很有幫助的。在此歸納出幾個未來可以在加強的部分，分為三個做法可以進行： (1) 增加 training 的量，並且在選取正確句子與不正確的句子時，盡量不要包含相同的動詞，因本實驗在選取 rules 時是採用句子中的 SVO relation，如此作法除了可以讓 rules 的分布更平均，也可以提升 rules 的品質。 (2) 在文章中選取句子時，如果符合 rules 的句子中包含有 not、never、neither 等等的負面(negation)的詞存在的話，不選取可能會對精確率(precision)有所幫助。 (3) 如同之前所提到的代名詞的問題，假設能準確地判斷代名詞所代表的是哪個字的話，對於精確率(precision)與回收率(recall)都會有所幫助，所以指代詞的消解也是未來可以研究的方向。. 42.

(53) 參考文獻 ALEPH. Available from http://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph.html. Brown Corpus. Available from http://langbank.engl.polyu.edu.hk/corpus/brown.html Chen, J.Y., Shen, C. and Sivachenko, A.Y. (2006) “Mining Alzheimer disease relevant proteins from integrated protein interactome data,” Pacific Symposium on Biocomputing, vol. 11, 2006, pp. 367-378. English stop word. Available from http://www.ranks.nl/resources/stopwords.html. Genia Tagger. Available from http://www-tsujii.is.u-tokyo.ac.jp/GENIA/tagger/. Hines, Y., Hu, L.M., Weng, H., Zuo, D., Rivera, M., Richardson, A. and LaBaer, J. (2003), “Analysis of genomic and proteomic data using advanced literature,” Journal of Proteome Research, vol. 2, 2003, pp. 405-412. HUGO Gene Nomenclature Committee database. Available from http://www.genenames.org/ . Kim, Jee-Hyub, Mitchell, Alex, Attwood, Teresa K. and Hilario, Melanie (2007) “Learning to extract relations for protein annotation”, Bioinformatics, Vol. 23, ISMB/ECCB 2007, pp. i256-i263. MBT database. Available from http://ilk.uvt.nl/mbt/. MEDLINE Fact Sheet. Available from http://www.nlm.nih.gov/pubs/factsheets/medline.html . Memory-Based Shallow Parser. Available from www.clips.ua.ac.be/pages/MBSP#server . 43.

(54) Muggleton, S. and Readt, L.D. (1994) “Inductive logic programming theory and methods,” Journal of logic Programming, vol. 9, 1994, pp. 629-679. Online Mendelian Inheritance in Man. Available from http://en.wikipedia.org/wiki/Online_Mendelian_Inheritance_in_Man. OMIM database. Available from http://www.ncbi.nlm.nih.gov/omim/ Penn Tag Set. Available from http://www.anc.org/OANC/penn.html. Srinivasan, Ashwin (2000) “The Aleph manual,” Technical Report, Computing Laboratory, Oxford University, 2000. Available from http://www.cs.ox.ac.uk/activities/ machlearn/ Aleph/aleph.html. TiMBL database. Available from http://ilk.uvt.nl/timbl/. Walter, Daelemans, Buchholz, Sabine and Veenstra, Jorn (1999) “Memory-based shallow parsing,” Proceedings of the EACL’99 workshop on Computational Natural Language Learning (CoNLL-99), pp. 53-60. 陳立哲，“生物資訊文獻中人類遺傳疾病與基因關連度之研究”，國立台灣師範大學資訊工程所碩士論文，2011 年。陳孝源，“人類基因與疾病關係之規則擷取”，國立台灣師範大學資訊工程所碩士論文，2012 年。. 44.

(55) 附錄：不同門檻值取得的規則門檻值. Rule. 0.4. <subj:disease> vp:cause <dobj:gene> <subj:disease> vp:identified <dobj:gene>. 0.1. <subj:disease> vp:cause <dobj:gene> <subj:disease> vp:identified <dobj:gene> <subj:disease> vp:result <dobj:gene> <subj:disease> vp:find <dobj:gene>. 0.014. <subj:disease> vp:cause <dobj:gene> <subj:disease> vp:identified <dobj:gene> <subj:disease> vp:result <dobj:gene> <subj:disease> vp:find <dobj:gene> <subj:disease> vp: demonstrate <dobj:gene> <subj:disease> vp: include <dobj:gene>. 0.01. <subj:disease> vp:cause <dobj:gene> <subj:disease> vp:identified <dobj:gene> <subj:disease> vp:result <dobj:gene> <subj:disease> vp:find <dobj:gene> <subj:disease> vp:demonstrate <dobj:gene> <subj:disease> vp:include <dobj:gene> <subj:disease> vp:use <dobj:gene> <subj:disease> vp:converting <dobj:gene>. 45.

(56) 0.004. <subj:disease> vp:cause <dobj:gene> <subj:disease> vp:identified <dobj:gene> <subj:disease> vp:result <dobj:gene> <subj:disease> vp:find <dobj:gene> <subj:disease> vp:demonstrate <dobj:gene> <subj:disease> vp:include <dobj:gene> <subj:disease> vp:use <dobj:gene> <subj:disease> vp:converting <dobj:gene> <subj:disease> vp:characterized <dobj:gene> <subj:disease> vp:encode <dobj:gene> <subj:disease> vp:associated <dobj:gene> <subj:disease> vp:lead <dobj:gene> <subj:disease> vp:screened <dobj:gene>. 46.

(57)