• 沒有找到結果。

人類基因與疾病關係之規則擷取

N/A
N/A
Protected

Academic year: 2021

Share "人類基因與疾病關係之規則擷取"

Copied!
49
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:. 侯文娟. 博士. 人類基因與疾病關係之規則擷取. 研究生: 陳孝源. 中華民國. 撰. 一百零一 年 六月.

(2) 摘 要 在諸多記載著有關人類遺傳疾病的生物資訊文獻中,研究人員想嘗試著利用 各種方法計算出人類遺傳疾病與基因的關聯度,並從中找尋出一些規則或相關性, 進而了解兩者之間的關係。若方法適用的話,就可以運用在往後的文獻資料上, 在大量產出的文獻上利用這一些規則(rules)及運算方法,如此即可找出疾病與基 因兩者之間的關係,這樣既可以幫助閱讀的人,又能省下時間,研究人員們期望 藉此方法可以增進生物醫學的發展速度,早日找出解決這些疾病的辦法。 本 論 文 中 所 使 用 方 法 簡 述 如 下 : 我 們 使 用 的 資 料 包 含 醫 學 文 獻 資 料庫 (Medical Literature Analysis and Retrieval System Online, MEDLINE),首先從 MEDLINE 擷取需要使用的資訊:包含 TI 以及 AB,TI 為標題,而 AB 為內文。 其次利用線上孟德爾遺傳學(Online Mendelian Inheritance in Man, OMIM)提供的 morbid 標 準 答 案 來 找 出 遺 傳 疾 病 與 基 因 有 關 係 的 正 確 句 子 出 來 。 然 後 用 Memory-Based Shallow Parser (MBSP)來剖析這些正確句子以及隨機挑選出的不 正確句子以得到詞性(part of speech)的資訊,接著使用 ILP framework 的 ALEPH 系統來學習規則。在 ILP framework 中包含了三個元素,分別是 hypothesis H、 background knowledge B 以及 examples E,如果知道了 B 和 E 就可以得出 H。而 在找出來的這些規則中,我們提出一些計算方式實驗取得較好的規則出來,最後 評量時就是利用這些規則找出相關聯的疾病與基因,最後再以準確度及回收率做 為評估的準則。實驗結果顯示最好的 F-score 為 66.9%,此時的準確度為 70.6%, i.

(3) 此時回收率為 63.5%。. 關鍵字 ─ 規則擷取、規則學習、疾病與基因關係、生物醫學文獻探勘 ii.

(4) Abstract In many biomedical literatures about human genetic diseases, researchers try to use different methods to find some rules or relations between human genetic diseases and genes. If the methods are good to use, then people can use these rules to find relations in more biomedical literatures faster and easier. The researchers expect these methods can improve the speed of development of the biomedical domain and then it is possible to find out a way to cure these diseases. We used the data provided by Medical Literature Analysis and Retrieval System Online (MEDLINE). First we retrieved the required information from MDELINE, including TI and AB, where TI means title and AB means abstracts. Second, we used the morbid data which was provided from Online Mendelian Inheritance in Man (OMIM) to find the correct sentences about human genetic diseases and genes, and also picked the wrong sentences randomly. Third, we used Memory-Based Shallow Parser (MBSP) to parse these sentences to get the part-of-speech and other information. At last, we used the ALEPH system by utilizing the above information to learn rules. ALEPH is an ILP framework. An ILP framework contains three elements, hypothesis H, background knowledge B and examples E. If we have B and E, then we can inference H which corresponds to rules in our experiment. We proposed some methods of calculation to get better rules, and then we used these rules to find the sentences iii.

(5) which are related to human genetic diseases and genes. We used precision, recall and F-score to be our experiment’s measure metrics. The experiment’s results showed that the best F-score is 66.9% where the precision is 70.6% and the recall is 63.5%.. Keywords - rule extraction, rule learning, gene-disease relationship, biomedical text mining iv.

(6) 請獻給. 我的父母、指導教授、同學,以及所有幫助過我的人. v.

(7) 誌 謝 首先感謝我的指導老師侯文娟教授,由於她的教學以極細心的引導,我才能 完成這篇論文,接下來我要感謝與我同實驗室的同學,常常與我進行討論與研究, 也感謝我的系上能提供實驗室的研究環境與修習課程,讓我在這裡面學習成長並 進行研究。感謝在我的學習路途中陪伴我的同學與師長,有你們的幫助才有現在 的我,最後感謝我的父母、家人,對我生活上的支援以及一路走來一直陪伴著我, 讓我能無後顧之憂的進行研究。. vi.

(8) 目 錄 附表目錄. viii. 附圖目錄. xi. 第一章. 1. 簡介 第一節. 研究動機…………………………………………………………1. 第二節. 研究目的…………………………………………………………2. 第三節. 論文組織…………………………………………………………2. 第四節. 研究限制…………………………………………………………2. 第二章. 相關研究探討. 3. 第三章. 研究方法. 9. 第四章. 第五章. 第一節. 實驗資料與工具…………………………………………………9. 第二節. 研究方法架構…………………………………………………...14. 第三節. 研究方法描述…………………………………………………...15. 實驗與結果. 25. 第一節. 實驗資料…………………………………………………...........25. 第二節. 評估測量標準…………………………………………………...25. 第三節. 實驗結果與討論………………………………………………...26. 第四節. 錯誤分析………………………………………………………...32. 結論與未來發展. 35. 參考文獻………………………………………………... ……………………..........37 vii.

(9) 附表目錄 表 3-1. morbid 說明……………………...……………………..…………………….11. 表 3-2. MIM 編號說明……………………...…………………………………..........11. 表 3-3. MBSP tag 說明……………………………………………………………….16. 表 3-4. MBSP 詞性說明……………………………………………………………..17. 表 3-5. predicate 用來描述句子……………………………………………………..20. 表 4-1. 二元分類表…………………………………………………………………..26. 表 4-2. 分數表………………………………………………………………………..27. 表 4-3. threshold 分佈增加的實驗數據……………………………………………..30. viii.

(10) 附圖目錄 圖 2-1. dependency parse tree…………………………………………………………5. 圖 2-2 HCNC 網站……………………………………………………………………7 圖 3-1. OMIM………………………………………………………………………..10. 圖 3-2. morbid………………………………………………………………………..11. 圖 3-3. 基本文法結構……………………………………………………………….12. 圖 3-4. MBSP example………………………………………………………………13. 圖 3-5. 流程圖……………………………………………………………………….15. 圖 3-6. 經由 MBSP 標記過的句子………………………………………………….16. 圖 3-7. prolog 描述的.b 檔…………………………………………………………...21. 圖 3-8. ALEPH……………………………………………………………………….22. 圖 3-9. Rule example………………………………………………………………...23. 圖 4-1. threshold 分布圖……………………………………………………………..29. 圖 4-2. threshold to precision..……………………………………………………….31. 圖 4-2. threshold to recall…………………………………………………………….32. 圖 4-4. failure to find example……………………………………………………….33. ix.

(11) 第一章. 簡介. 第一節 研究動機 在現今社會中,生物醫學的資訊因為包含著人類的身體健康與其基因的相互 關係,因而越來越受到重視。而為了能有效的針對生物資訊的文獻作探討及研究, 使用自然語言處理(Natural Language Processing, NLP)的技術將會是一個重要的課 題。 隨著生物資訊的文獻推陳出新,許多的文獻都記載著人類遺傳疾病以及基因 的相關性。由於人類遺傳疾病是先天的,是由父母雙方的染色體決定小孩的顯性 或是隱性的徵狀,所以當受精卵形成時,已決定以後可能會有哪些遺傳上的疾病 出現,比方說以很常聽見的地中海貧血症(Thalassemia)為例,這是一種先天的血 液疾病,患者的紅血球較脆弱且容易死亡,其帶氧能力亦不足,超過某種程度即 無法正常生活;在結婚以前健康檢查可以篩選出來,是一種隱性基因遺傳,患者 紅血球的體積較正常細胞小,且有時因血紅素含量低較蒼白或呈靶型(target cells), 所以病人的家族史如果有過這種病,那麼該病人就屬於這個病的高危險群。 在諸多記載著有關人類遺傳疾病的生物資訊文獻中,本研究嘗試著利用一些 方法分析出人類遺傳疾病與基因的正確句子出來,並從中找尋出一些規則(rules), 進而了解兩者之間的關係。若所提的方法適用,就可以運用在往後的文獻資料上, 在大量產出的文獻上利用這一些規則及運算方法,如此即可找出哪些人類遺傳疾 病與基因兩者間有關聯的句子出來,這樣可以幫助閱讀的人能省下一些時間,也 1.

(12) 希望可以增進生物醫學的發展速度,早日找出解決這些疾病的辦法。. 第二節 研究目的 為了讓找出來的遺傳疾病與基因配對的句子有所依據,本研究將利用一些運 算公式擷取規則,再計算使用該規則於測試集中而找出的疾病與基因關聯性之準 確度以及回收率,而如果數值能夠提升,那就能達到本實驗的目的了。. 第三節 論文組織 本論文的組織架構如下:第一章為簡介,說明研究動機與目的;第二章為相 關研究的探討,介紹前人在該領域上的相關研究方法以及成果;第三章則提出本 研究的架構與詳細說明本論文所提出的研究方法;第四章為實驗過程與研究結果; 第五章將會說明本論文的結論以及未來的發展方向。. 第四節 研究限制 本研究雖然能夠找出人類遺傳疾病與基因同時存在於同一句的句子,但是實 際上在一篇論文裡,提到人類遺傳疾病與基因有關係的情況並不會只是因為存在 於同一句中,有可能是在不同的句子裡,然後以別的方法來講述,而本實驗只能 以一句為單位來做實驗,因此被侷限在比較小的框架之中。. 2.

(13) 第二章. 相關研究探討. 本研究旨在找出人類遺傳疾病與基因的關聯度,而在前人的研究中曾提出許 多種方法:有人使用文獻探勘的技術、還有人使用 relation extraction 的方法,也 有人只專門針對單一疾病來研究,下面將會介紹這些前人的作法與成果。 以現今生物醫學文獻的累積速度而言,已經遠超越了大多數的研究人員與臨 床醫生可以即時瞭解自己專業領域的能力,更別提涵蓋範圍之廣的一系列主題, 而 DNA、微陣列和蛋白質組學這些更是需要大量的數據分析,這些都涉及到成千 上萬的基因。一個針對此問題的解決方法是將資源結構數位化,然而些資源大多 必須以手動方式建成,如此一來資料庫的規模將會非常有限。另一種方法是自動 文本探勘法,且此方法已成功應用在一些生物應用程式上。但到目前為止很少有 研究基因與疾病關係的文本探勘,所以 HU 等人(2003)提出了一些方法來完成。 在第一個方法中利用 MedGene Database,這是一個關聯資料庫,從 NCBI 中儲存 疾病與基因的資訊、本文探勘的結果、統計方式與超連結到重要的文獻;在第二 個方法中,作者提出本文探勘演算法;第三個則為其統計方法,對於每一個基因 與疾病的配對,作者使用了二乘二的列表來記錄並且用了許多方法去估計基因與 疾病的關聯強弱度,方法包含了 chi-square 分析法、Fisher’s exact 機率等等;第 四個方法則進行全球分析,至少 50 個相關基因的疾病被選起來做 clustering 分析; 最後一個方法則是針對乳房組織微陣列,從 Havard Beast SPORE 冰凍組織樣本裡, 挑出 89 個乳腺癌樣本與七個正常的乳腺組織樣本進行實驗。 3.

(14) 在 Katrin Fundel 等人(2007)的研究中,發覺因為大多數的生醫文獻都沒有完 整的資料庫存在,想要找到基因與蛋白質之間的關係就變得格外困難,所以 Fundel 等人想要做出可以自動取出文獻中蛋白質與基因關係的系統。在該研究的系統中 採用了 dependency parse tree 的方式來做關係之擷取(relation extraction),在詞性標 記(POS-tagging)的部分是使用 MedPost (Smith et al., 2004)的研究進行分析,而在 名詞片語詞塊(noun-phrase chunks)的部分則是使用 fnTBL (Ngai and Florian, 2001) 的方法。Fundel 等人將己標記好的句子放進了 Stanford Lexicalized Parser 來產生 出 dependency parse tree,如圖 2-1 所示。之後該研究使用自己所訂定的一些規則, 應用到這些剖析樹裡面去找尋關係(relations)。例如在剖析樹中只包含名詞片語 (noun phrase)的最長路徑裡,如果有 of、by、in、for 等等這些字,而且這些字是 由兩個蛋白質(protein)所包圍時,則將此標記為候選關係。該研究把這個系統使 用在 MEDLINE 的一百萬篇摘要(abstracts)上來找尋基因與蛋白質的關係,最後找 出了大約 15 萬個關係,評量結果達到了 80%的準確率(precision)和 80%的回收率 (recall)。. 4.

(15) 圖 2-1 dependency parse tree 範例. 直到現在,大部分的蛋白質註解(protein annotation)都是由人工去做的,而隨 著越來越多的生醫文獻產生,人工標註也變得越來越困難,所以 Kim 等人(2007) 想利用學習規則的方法來自動完成蛋白質的註解工作。該研究一開始使用 Memory-Based Shallow Parser (MBSP) (Daelemans et al., 1999)對生醫文獻中的句 子做分析,MBSP 是以 GENIA 的 corpus 來當作基本訓練集,用來標記出詞性、 蛋白質等。整體來看,MBSP 在詞性的標記準確率達到 71.0%,而在蛋白質的標 記上也有 71.0%的準確率。該研究使用了經過標記的句子放進 inductive logic programming (ILP) system (Muggleton and Raedt, 1994)來學習規則。ILP framework 包含了三個元素:分別是假設(hypothesis) H、背景知識(background knowledge) B 以及例子(examples) E,其中 H 可以表示為規則所成的集合。H、B 及 E 之間的關 係如下列式子所示: 5.

(16) B. H┝ E. (1). 在公式(1)當中,所有滿足(satisfy)背景知識 B 及假設 H 的條件都同樣可以讓 例子 E 被滿足,利用此關係,我們如果知道背景知識 B 和例子 E,就可以推導而 得到 H。該研究使用了 PRINTS database (Attwood et al., 2003)以便從 MEDLINE 收集蛋白質與其他主題相關的句子,例如功能(function)和結構(structure)。作者從 這些句子中學習出規則,而找出來的這些規則,再給一些專家們人工挑選,決定 適不適合使用,最後再利用這些規則來找出蛋白質功能或結構等相關的關係。結 果最高的準確率在跟結構相關的主題中達到了 85.3%,而回收率也達到了 61%; 其他的主題雖然在準確率上都到達 66%以上,但是回收率卻在 20%以下,而這篇 論文所使用的技術是用來找出蛋白質間的相互關係,我們應用此技術找出基因與 疾病之間的關係,實驗是否能得到有用的規則。 在美國,因為有非常多數的人口患有阿茲海默症,所以 Chen 等人(2006)想從 整合蛋白質交互數據中探勘阿茲海默症的相關蛋白質,以幫助早日能找出解決阿 茲海默症的辦法。Chen 等人進行初步的阿茲海默症蛋白質相互作用網路分析,並 呈現出如何不直接從序列資訊就可以得到蛋白質功能知識的方法。該論文作法總 共分為六個步驟,第一步下載 OMIM 的阿茲海默症相關基因;第二步使用 HUGO Gene Nomenclature Committee (HGNC)資料庫,網站如圖 2-2 所示,藉由這個資料 庫所提供的 SeissProt ID 對應到阿茲海默症的相關基因與阿茲海默症相關蛋白質; 第三步使用一種延伸方法建構一個延伸的阿茲海默症蛋白質交互子網路;第四步 6.

(17) 開始開發生物資訊軟體如 ProteoLens,視覺化與注釋阿茲海默症的子網路;第五 部對存取子網路的效能進行分析;最後一步則是開發一種啟發式演算法及評分的 方法,用來取得阿茲海默症蛋白質的相關資訊。. 圖 2-2 HGNC 網站 而在陳立哲(2011)的研究中主是在探討生醫文獻中人類遺傳疾病與基因的關 聯度,他所使用的是醫學文獻資料庫 MEDLINE 的文獻。在一開始的資料前置處 理,該論文使用了 Genia tagger 去標示生醫文獻上的基因,並將文獻中大寫的字 轉換成了小寫,以方便標示;接著再使用從 OMIM 下載的人類遺傳疾病與基因對 MEDLINE abstracts 進行標示的動作,且利用 English stop word 的網站內所列出的 stop words 將文中的 stop words 去除;再來計算人類遺傳疾病與基因的 Term Frequency 與 Inverse Document Frequency 來做為計算分數的依據。該論文中第一 類方法是使用作者所設計的密度公式與四個重力公式得出分數,如下列公式(2) 7.

(18) 到公式(6)所示。公式(2)為密度公式,Cj 代表在同一篇文獻裡相同的配對有多少個, TFIDFTTjk 為該配對的人類遺傳疾病 TFIDFT 值,而 WGi,Tjk 為基因與人類遺傳疾 病的距離為多少。而公式(3)到公式(6)則為 4 種重力公式,PTFGi 為基因的詞頻, IDFTGi 則為基因的 IDFT 值。而第二類方法則是自然語言常用的 Dice,該論文將 Dice 基本公式變化為另外兩種公式並配合一般比例公式的變種來計算。最後該論 文將計算出來的分數與一系列門檻值做比較來得出該實驗的 precision 和 recall。. S. C. GM1 GM2 GM3 GM4. ∑C G G G. G. TFIDFTT. (2). WG ,T PTFG IDFTG PTFG IDFTG PTFG IDFTG. PTFG IDFTG. TFIDFTT. (3) TFIDFTT. (4) TFIDFTT. (5) TFIDFTT. (6). 8.

(19) 第三章. 研究方法. 第一節 實驗資料與工具 由於本研究想要分析生物資訊文獻上包含人類遺傳疾病與基因的句子,所以 所選用的文獻必須要帶有人類遺傳疾病與基因的資訊,而最合適的就屬於大部學 者廣泛參考的醫學文獻資料庫(Medical Literature Analysis and Retrieval System Online, MEDLINE)了。美國國家醫學圖書館 NLM 於 1964 年建立了全國性醫學文 獻網路 MEDLARS,發展至今,已有 34 年歷史,目前擁有多個資料庫,其中最 重要,且發展最早的為 MEDLINE (MEDLARS ON LINE)生物醫學資料庫。該資 料庫每年固定收錄約 3,800 種全世界著名且各學科權威之期刊(若累積歷年停止 收錄、停刊、更名等期刊,期刊種數超過 10,000 多種生命科學期刊文獻資料), 目前資料庫總量約有 880 萬筆紀錄,每個月以 20,000 -15,000 筆紀錄增加中。 1976-198 年間亦收錄會議、研討會之專論。75%為英文文獻,25%為非英文文獻。 自 1975 年以後,才將文獻摘要收錄,67%文獻中含有摘要。49%文獻與 EMBASE (Biomedical Answers)資料庫為不重複收錄;52%文獻與 BIOSIS 為不重複收錄者。 該醫學資料庫所涵蓋的範圍非常的廣,有基礎生命科學、臨床生命科學、生物科 學、解剖學、組織學、化學與藥物、心理學、社會醫學、農業、醫療技術設備學、 醫療技術工業學和醫學資訊學。 而為了能在這些文獻中找尋人類遺傳疾病與基因正確配對的句子,本研究選 擇了由美國國家生物資訊中心(National Center for Biotechnology Information, 9.

(20) NCBI)所建立的線上人類孟德爾遺傳學(Online Mendelian Inheritance in Man, OMIM),網站就如圖 3-1 所示。. 圖 3-1 OMIM 網站 OMIM 是一個將人類遺傳疾病做分類,並且會與相關聯的人類基因進行連結 的線上資料庫。該資料庫是由約翰霍普金斯大學(John Hopkins University)的研究 團隊收集整理,並透過一群科學作者與編輯,協助相關研究及文獻擷取,然後整 理成資料庫的資訊。Mendelian Inheritance in Man (MIM)包括所有已知的遺傳病、 遺傳決定的性狀及其基因,除了簡略描述各種疾病的臨床特徵、診斷、鑒別診斷、 治療與預防外,還提供已知有關致病基因的連鎖關係、染色體定位、組成結構和 功能、動物模型等資料,並附有經縝密篩選的相關參考文獻。MIM 制定的各種遺 傳病、性狀、基因的編號,簡稱 MIM 編號,為全世界所公認。有關疾病的報導 必須冠以 MIM 編號,以明確所討論的是哪一種遺傳病,可見 MIM 在國際醫學界. 10.

(21) 的權威性。而本研究所使用的則為由 OMIM 所提供的資料 morbid,每一列的資 訊都包含了人類遺傳疾病以及其相對應的基因與 MIM 編號,如圖 3-2 所示,表 3-1 則以下圖第一列為說明。. 圖 3-2 morbid 範例. 表 3-1 morbid 說明 Colon cancer(1). SLC26A3,DRA,CLD. 126650. 7q22-q31.1. 大腸癌第一型. 對應的基因. 疾病的 MIM 編號. 染色體序列. 表 3-2 MIM 編號說明. 11.

(22) 在分析句子的工具中,本研究所選用的是 Memory-Based Shallow Parser (MBSP),MBSP 是一個文字分析系統以 TiMBL and MBT 和 GENIA corpus 來當作 基底的 parser,總體來說 MBSP 在詞性的標記上準確率(accuracy)為 97.6%,而在 蛋白質名稱實體(protein name entity)的標記上則有 71.0%的準確率。 Shallow parsing 在 text 分析系統上是一個很重要的原件,通常應用在 information extraction 和 summary generation。Memiry-based Learning(MBL)研究的 優點在於可以避免用人工的方式去定義 patterns,而且可以重覆運用在不同的語料 庫以及子語言上。 MBSP 在標記結果中包含著許多的屬性,有 tokenization、part-of-speech (POS) tagging、concept tagging、chunking、PNP-finding 和 grammatical function assignment (主詞、受詞等等),這些資訊本研究將會選擇一些來做分析,圖 3-3 為 MBSP 使 用的基本文法架構。接者這些資訊本研究將會選擇一些來做分析,圖 3-4 則為句 子被 MBSP parse 過的範例。. 圖 3-3 基本文法架構 12.

(23) 圖 3-4 MBSP example 為 了 要 從 分 析 出 來 的 句 子 學 習 出 規 則 , 本 研 究 使 用 了 Inductive Logic Programming(ILP) system 中的 A Learning Engine for Proposing Hypotheses ALEPH (Srinivasan,2000),ALEPH 早期的化身在 1993 叫做 P-Progol,是由 Ashwin Srinivasan 和 Rui Camacho 在牛津大學所進行的一個有趣 project,主要的目的是 想要去了解思路,而之後出現在 Stephen Muggleton 1995 年的 paper 上則叫做 inverse entailment。自那時候起,就開始發展成許多各自獨立的 ILP system,而其 中跟 ALEPH 有相關的有 CProgol、FOIL、FORS、Indlog、MIDOS、SRT、Tilde 和 WARMR。ALEPH 學習規則的步驟如下: (1) 選擇一個 example 去 generalized,如果不存在,則停;如果還有 example,則 13.

(24) 繼續進行。 (2) 在不超過語言的限制範圍內中,根據所選擇的 example 的需求,找出最 specific 的 clause。 (3) 尋找比 bottom clause 還要 general 的 clause。 (4) Clause 中分數最好的會加入現有的 theory 中,然後把所有會造成 redundant 的 例子去除掉。 使用 ALEPH 必須包含三個檔案,*.b 的檔案為 background knowledge, background knowledge 是用來描述相關的一些訊息,在本研究這是用來對句子的 描述;*.f 的檔案則是用來放 positive examples,說明哪些是正確的例子,*.n 則剛 好相反,必須放錯誤的句子。*.f 和*.n 檔案格式都必須與*.b 檔相關,當三個檔案 都完成後,就可以放進 ALEPH 而開始工作了。. 第二節 研究方法架構 本研究的架構與流程如圖 3-4 所示,一開始先將 MEDLINE 收集到的文獻配 合 OMIM 提供的 morbid 找出人類遺傳疾病與基因正確配對的句子,接著利用 MBSP 對這些正確句子以及隨機從 MEDLINE 挑選出的錯誤句子進行剖析,從而 找出句子的架構、詞性以及主受詞關係,然後使用 ALEPH 學習出規則。接下來, 根據本論文所提出的公式將計算這些規則的分數,並且設置門檻值篩選出最後的 規則,我們會以準確度以及回收率做為實驗的效能評估準則。. 14.

(25) Medline Abstracts. morbid. Correct Sentences for Gene and Diseases Matching. Random Sentences from MEDLINE Abstracts. MBSP. MBSP Tagged Sentences. ALEPH Rules Learning. Rules Selection. Compute Precision & Recall. 圖 3-5 研究方法架構流程圖. 第三節 研究方法描述 本論文的方法主要分為四個部分:(1)找出人類遺傳疾病與基因正確配對的句 子,(2)對正確句子進行標記,(3)規則學習與擷取,(4)以不同門檻值篩選規則並 計算準確度。 15.

(26) 一、找出人類遺傳疾病與基因正確配對的句子 我們根據 OMIM 所提供的 morbid,從 MEDLINE 的摘要抽取出人類遺傳疾 病與其配對的基因同時存在的句子。. 二、對正確句子進行標記 將抽取出來的正確句子以及另外隨機挑選出來的句子放進 MBSP 進行標記, 以下列句子為例:”I ate pizza with a fork”在經過 MBSP 的標記後,就變成以下的 結果(如圖 3-6),各項標籤意義之說明見表 3-3。 I/PRP/I-NP/O/NP-SBJ-1/O/i ate/VBD/I-VP/O/VP-1/A1/eat pizza/NN/I-NP/O/NP-OBJ-1/O/pizza with/IN/I-PP/B-PNP/O/P1/with a/DT/I-NP/I-PNP/O/P1/a fork/NN/I-NP/I-PNP/O/P1/fork 圖 3-6 經由 MBSP 標記過的句子. 表 3-3 MBSP tag 說明 WORD. Part-of-speech. Chunk. PNP. Relation. Anchor. Lemma. ate. VBD. VP. O. VP-1. A1. eat. 本研究採用的標籤資料型態有詞性(part-of-speech)、詞塊(chunk)、以及主詞-. 16.

(27) 動詞-受詞關係(SVO relation),表 3-4 總共列舉出 35 種不同的代表詞性。 表 3-4 MBSP 詞性說明 POS Tag. Description. Example. CC. Coordinating conjunction. and. CD. Cardinal number. 1, third. DT. determiner. the. EX. Existential there. There is. FW. Foreign word. D’hoevre. IN. Preposition/subordinating conjunction. In, of, like. JJ. adjective. green. JJR. Adjective, comparative. greener. JJS. Adjective, superlative. greenest. LS. List marker. 1). MD. modal. Could, will. NN. Noun, singular or mass. table. NNS. Noun plural. tables. NNP. Proper noun, singular. John. NNPS. Proper noun, plural. Vikings. 17.

(28) PDT. predeterminer. Both the boys. POS. Possessive ending. Friend’s. PRP. Personal pronoun. I, he, it. PRP$. Possessive pronoun. My, his. RB. adverb. However, usually, naturally, here, good. RBR. Adverb, comparative. better. RBS. Adverb, superlative. best. RP. particle. Give up. TO. to. To go, to him. UH. interjection. uhhuhhuhh. VB. Verb, base form. take. VBD. Verb, past tense. took. VBG. Verb, gerund/present participle. taking. VBN. Verb, past participle. taken. VBP. Verb, sing. Present, non-3d. take. VBZ. Verb, 3rd person sing. present. takes. WDT. Wh-determiner. which. 18.

(29) WP. Wh-pronoun. Who, what. WP$. Possessive wh-pronoun. whose. WRB. Wh-adverb. Where, when. 三、規則學習與擷取 首先,本實驗會將 MBSP 標記好的句子轉換成 prolog 的形式,表 3-5 是本研 究在程式中用來表示句子資訊的一些述語(predicate),圖 3-7 為程式中的例子,可 以看到一個句子在轉成 prolog 時,會先以 s 表示為這整句,s(s110)則表示這是第 110 句,接者再將這句子根據 MBSP 分成一個一個 chunk 以 c()表示,每個 chunk 都會有一個主要的字,在這裡本研究以 has()表示,has 有四個屬性,分別為句子、 chunk、詞性、以及 word,接著再以 sem()表示該 chunk 的 semantic;最後該句如 果有主詞受詞的關係,本實驗會以 subj()或 dobj()表示,subj()為主詞與動詞的關 係,dobj()則是指受詞與動詞的關係。 接者將正確句子的編號(例如 structure(s110))放進附加檔名為*.f 的檔案,而錯 誤的句子則放進附加檔名為*.n 的檔案,然後在附加檔名為*.b 的檔案中寫進對句 子的描述資訊,接著利用 ILP system 中的 ALEPH 來學習規則。以 has/4 為例,4 是代表這個 predicate 所擁有的變數量,後面的 argument type 則是 has 所擁有的變 數名稱。. 19.

(30) predicate. Argument type. 描述. s/1. Sentence (S). 句子. c/1. Chunk (C). Chunk. has/4. S, C, SyntacticRole, Headword. 句子與 chunk 的關係. next/2. C, C. chunk 的連結順序. sem/2. C, Semantics. chunk 的 head word. subj/2, dobj/2. C, C. 主詞與受詞的關係. 表 3-5 predicate 與參數型態之說明. 20.

(31) % Linguistic Heuristics. % if sentence S has two contiguous chunks C1 and C2 % where C1 is a noun phrase (np) and C2 is a verb phrase (vp) with a trigger T % and C1 is the subject of C2 % then build an extraction pattern that extracts the subject of a verb. ep(subj_vp,S,C1,T) :- has(S,C1,np,_), has(S,C2,vp,T), subj(C1,C2). % if sentence S has two contiguous chunks C1 and C2 % where C1 is a verb phrase (vp) with a trigger T and C2 is a noun phrase (np) % and C2 is the direct object of C2 % then build an extraction pattern that extracts the direct object of a verb. ep(vp_dobj,S,C2,T) :- has(S,C1,vp,T), has(S,C2,np,_), dobj(C2,C1). …. % Sentence Descriptions of an Analysed Sentence % Liver dysfunction is a common manifestation of cystic fibrosis, a disease caused by mutations affecting the CF transmembrane conductance regulator. s(s110). c(c110_0). has(s110,c110_0,NP,'dysfunction'). sem(c110_0,'dysfunction'). c(c110_1). has(s110,c110_1,VP,'be'). sem(c110_1,'be'). c(c110_2). has(s110,c110_2,NP,'manifestation'). sem(c110_2,'manifestation'). c(c110_3). has(s110,c110_3,PP,'of'). sem(c110_3,'of'). c(c110_4). has(s110,c110_4,NP,'fibrosis'). sem(c110_4,'fibrosis'). c(c110_5). has(s110,c110_5,0,','). sem(c110_5,','). c(c110_6). has(s110,c110_6,NP,'disease'). sem(c110_6,'disease'). c(c110_7). has(s110,c110_7,VP,'cause'). sem(c110_7,'cause'). c(c110_8). has(s110,c110_8,PP,'by'). sem(c110_8,'by'). c(c110_9). has(s110,c110_9,NP,'mutation'). sem(c110_9,'mutation'). c(c110_10). has(s110,c110_10,VP,'affect'). sem(c110_10,'affect'). c(c110_11). has(s110,c110_11,NP,'regulator'). sem(c110_11,'regulator'). subj(c110_0,c110_1). subj(c110_2,c110_7). dobj(c110_10,c110_9).. 圖 3-7 .b 檔案範例,以 prolog 描述 21.

(32) ALEPH 在對每個正確句子做分析時,會輸出這一個句子在正確的句子中符 合的有幾句,在錯誤的句子之中又有幾句,如圖 3-8 所示。. 圖 3-8 ALEPH 規則中之正確與不正確句數涵蓋結果. 本研究參考這些數量,提出一個公式來對這個句子做評分,並設定門檻值來 判斷是否需要使用這個句子,本論文所提出的公式(7)如下,其中 S 表示分數,Pos 代表包含正確的句子數,而 Neg 則代表包含的錯誤句子數。. S. Pos. Neg. P M. P. N. P. (7). 接著我們對通過門檻值的句子進行分析,並想從中擷取可代表句子的規則。 本研究使用擷取規則的方法有兩種,第一種是找出人類遺傳疾病與基因中間存在 的動詞,而第二種則是找中間連接用的介系詞的存在,圖 3-9 為其中一個所擷取 出的規則,以及其符合的句子。. 22.

(33) RULE: <subj:disease> vp:cause <dobj:gene> S1: This information is relevant for RET which cause Multiple Endocrine Neoplasia 2A (MEN2A) and for the search of additional point mutations of the same gene which might cause two other neural crest disorders, MEN2B and Hirschsprung disease, mapping in the same region as MEN2A. S2: Liver dysfunction is a common manifestation of cystic fibrosis (CF), a disease caused by mutations affecting the CF transmembrane conductance regulator (CFTR). 圖 3-9 規則與符合規則之句子 擷取出規則後,接下來我們從正確的句子以及錯誤的句子中再各挑出 200 句 來作測試,為了能正確找出句子,本研究對規則做了幾種檢查與變換: (1) 如果規則之中是以動詞為主的話,那麼其被動語態也必須加進規則裡,在此 我們以人工的方式自己加。 (2) 如果句子中有包含負面(negation)的字存在,例如 not,neither,never 等,那麼 這個句子就不選取。 (3) 如果找出的主詞是代名詞,如 which、that 之類的,那麼就必須檢查這些代名 詞的前面一個字是否為基因或是人類遺傳疾病。. 四、以不同門檻值篩選規則並計算準確度 本論文所運用的統計方法,會根據設定的門檻值來得到不同數量的規則,依 照不同數量的規則,分別計算其準確度(precision)與回收率(recall),最後進行分析 與比較。下面是本研究的 precision 和 recall 之說明: 23.

(34) 1. 準確度 本研究將程式中由規則取回來的句子當作分母,然後其中包含正確句子的數 量當作是分子,如公式(8)所示:. Precision. 取回的句子中正確的數量 根據. 所取回來的句子數量. (8). 2. 回收率 在回收率中,本研究將所有的正確句子數量當分母,分子是取回來的句子中 正確的數量,如公式(9)所示:. Recall. 取回的句子中正確的數量 所有正確的句子數量. 24. (9).

(35) 第四章. 實驗與結果. 第一節 實驗資料 本實驗所使用的文獻是 U.S. National Library of Medicine (NLM)裡的 TREC 2004 Genome Track 所收錄的 Medline_A,裡面共有 918,202 篇文獻。再根據 OMIM 網站上所提供的 morbid 文字檔,得到 1,528 句人類遺傳疾病與基因正確配對的句 子,另外會從 Medline_A 中隨機挑選出同樣數量的句子當作錯誤句子。而在這些 句子中,各自從正確與錯誤的句子挑選 1,000 句來放進 ALEPH 學習而擷取出規 則,接著各自用 200 句進行測試。. 第二節 評估測量標準 在上一章最後我們提到,本論文使用的兩種評估測量標準,第一個是精準度 (precision),第二個則是回收率(recall),下面是兩者的公式及其定義和二元分類 表。. Precision Recall. TP. (10). TP FP TP. (11). TP FN. 有關公式(10)與(11)的說明,我們利用表 4-1 來表示,其中 TP、FP、FN、TN 定義如下: TP (True Positive):The number of true positive 25.

(36) FP (False Positive):The number of false positive FN (False Negative):The number of false negative TN (True Negative):The number of true negative. 表 4-1 二元分類表. Test outcome\Condition. True. False. Positive. TP. FP. Negative. FN. TN. 在本篇研究中,TP 代表取回來的句子中正確的數量,而 FP 代表系統取回來 但卻是錯誤的句子數,FN 代表雖然正確但系統沒取回來的句子數,TN 則代表錯 誤而系統也沒取回來的句子數。. 第三節 實驗結果與討論 本研究的實驗將根據 OMIM 的 morbid 所提供的人類遺傳疾病與基因正確配 對所得到的正確句子 1,000 句,以及隨機抽取的錯誤句子 1,000 句用來當作學習 的語料庫,之後再將依據不同門檻值而擷取出來的規則對正確與錯誤的句子各 200 句進行測試,表 4-2 為實驗結果,表示在不同門檻值(threshold)下,應用規則 於測試資料所得到的準確率(precision)及回收率(recall)。為了同時衡量準確率與回 收率的結果,我們使用常用的 F-score 為標準,F-score 公式如下所示: 26.

(37) F. (12). 表 4-2 實驗結果. Threshold. Rule 數量. Positive. Negative. Precision. Recall. F-score. 0.1. 52. 127. 53. 70.6%. 63.5%. 66.9%. 0.3. 33. 119. 49. 70.8%. 59.5%. 64.7%. 0.5. 22. 106. 43. 71.1%. 53.0%. 60.7%. 0.7. 9. 47. 17. 73.4%. 23.5%. 35.6%. 0.9. 5. 35. 10. 77.7%. 17.5%. 28.6%. Baseline(0.8). 91.6%. 38.1%. 53.81%. Baseline(0.1). 5.4%. 99%. 10.24%. 表 4-2 中的 baseline 為陳立哲在 2011 的論文使用一般比例公式所得出的分數, 可以看到的是為很極端的分數,當如果想要 precision 好的話可以達到 91.6%,但 是 recall 值就因此只有 38.1%;而如果想要 recall 高的話可以達到 99%,但是 precision 確只剩 5.4%,當然如果在特殊情況下需要取回全部的資料,那麼陳立哲 的將會比較適合,可是平均來說,本實驗的成果會比陳立哲的還好。 從表 4-2 可以知道,當 threshold 設得越小時,所取出的規則的數量就越多, 回收率也越高,但是對於 threshold 取在中間的情況來講,雖然回收率相對來講比 27.

(38) 較低,但是其準確率卻差不多,這就表示雖然規則數量多,取回來的正確句子並 一定會等比例增加,也許只是多幾句而已,而且取回來的錯誤句子也可能會增多, 也就是說規則不是越多越好。同理可見,當 threshold 設到 0.9 時,規則的數量最 少,準確率雖然最高,但是回收率卻很低,導致 F-score 也不是很好,這也就表 示雖然這些規則的分數很高,在學習的階段包含的句子也很多,但是分數高的規 則畢竟是少數,數量一少能取回來的句子也就少了。 從表中也能發現,分數高的規則只是少數,規則大多集中於中間以及之下, 所以當 threshold 一降低,規則的數量就開始突然間增多了起來,不過 threshold 的設定雖然有經過常規化(normalize)為 0 到 1 之間,而且一些太低分數的都有先 去掉,比如說有些句子在所有正確句子中只包含了自己,而在錯誤句子中則沒有 包含;有些包含較多的錯誤的句子,導致分數達到負的情況,這些句子都會先去 掉。雖然本實驗已經去掉分數太低的,但是其分布狀況卻一樣很不平均,但是這 也是合理的,因為分數高的規則還是與分數低的規則數量差很多,就像是圖 4-1 所示,分布狀況成陡坡狀,其中分數低的規則數量很多,而分數高的規則數量卻 很少。. 28.

(39) 60. number of rules. 50 40 30 20 10 0 0. 0.2. 0.4. 0.6. 0.8. 1. threshold 圖 4-1 threshold 分布圖. 再繼續觀察表 4-2 可以得知,當門檻值設為 0.1,許多原本分數較低的規則就 被擷取出來,規則數量雖然增加很多,但是多取回來的句子卻沒增加多少,雖然 準確度沒有下降多少,但卻提升回收率。但是這同時表示有很多規則其實都沒什 麼用,這就如同如果從實驗中學習 1,000 句結果得到 1,000 條 rules 一樣,雖然回 收率可以達到 100%,準確率也可能不會太低,但是這也代表這個實驗沒實際的 應用價值,因為無用的規則太多了,有些規則可能只符合個一兩句,那麼學習規 則就顯得沒意義了。. 29.

(40) Threshold Rule 數量. Positive. Negative. Precision. Recall. F-score. 0.1. 52. 127. 53. 70.6%. 63.5%. 66.9%. 0.15. 47. 125. 52. 70.6%. 62.5%. 66.3%. 0.2. 43. 123. 50. 71.1%. 61.5%. 65.9%. 0.25. 34. 119. 49. 70.8%. 59.5%. 64.7%. 0.3. 33. 119. 49. 70.8%. 59.5%. 64.7%. 0.35. 30. 117. 49. 70.5%. 58.5%. 63.9%. 0.4. 26. 111. 45. 71.2%. 55.5%. 62.4%. 0.45. 25. 111. 45. 71.2%. 55.5%. 62.4%. 0.5. 22. 106. 43. 71.1%. 53.0%. 60.7%. 0.55. 13. 73. 24. 75.3%. 36.5%. 49.2%. 0.6. 11. 59. 18. 76.6%. 29.5%. 42.6%. 0.65. 11. 59. 18. 76.6%. 29.5%. 42.6%. 0.7. 9. 47. 17. 73.4%. 23.5%. 35.6%. 0.75. 8. 42. 14. 75%. 21%. 32.8%. 0.8. 8. 42. 14. 75%. 21%. 32.8%. 0.85. 6. 37. 12. 75.5%. 18.5%. 29.7%. 0.9. 5. 35. 10. 77.7%. 17.5%. 28.6%. 30.

(41) 0.95. 3. 22. 7. 75.9%. 11%. 19.22%. 表 4-3 threshold 分佈增加的實驗數據 表 4-3 則為把 threshold 分成 18 個不同等級的實驗數據,分成比較多的等級 可以更容易找出哪些 threshold 是比較好的,而圖 4-2 及圖 4-3 則分別為 threshold 對 precision 和 threshold 對 recall 的圖表,可以從這兩個圖表中看出,當想要挑 precision 最高的情況,可是 recall 值卻很低;另外一方面如果想要挑 recall 為最高 的情況,precision 確很低,所以如果想要兩邊都比較好的話,就只能挑中間像 0.5. precision. 左右的情況,precision 和 recall 都比較高。. 79.00% 78.00% 77.00% 76.00% 75.00% 74.00% 73.00% 72.00% 71.00% 70.00% 0. 0.2. 0.4. 0.6 threshold. 圖 4-2 threshold 對 precision 圖. 31. 0.8. 1.

(42) 70.00% 60.00%. recall. 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% 0. 0.2. 0.4. 0.6. 0.8. 1. threshold. 圖 4-3 threshold 對 recall 圖. 第四節 錯誤分析 可以從實驗數據中看到,當 rules 數從 22 個降到 9 個的時候,recall 值突然降 了很多,應該是因為這中間的 rules 有很多是屬於介系詞像是 in、by、with 之類 的,雖然這些 rules 的分數可能因為 training data 的關係而不高,但是這些介系詞 都是很常見的一些字,所以在能取回的句子也會比較多,所以少掉這些 rules 也導 致了 recall 值降低。 本實驗原本預估在錯誤的句子中應該選出的句子會很少,因為原本在正確句 子中都是有包含人類遺傳疾病與基因的,但是錯誤的句子在隨機挑選的時候並沒 有指定一定要包含這些人類遺傳疾病與基因,所以有可能是因為在 MEDLINE 文 獻中選出來的句子,同一句同時包含著人類遺傳疾病與基因的機率也是滿大的, 雖然可能並不是正確的配對,但是因為並不是人工提供的標準答案,所以也並不 保證依據 morbid 判斷為錯誤的句子中就一定是錯誤的;另外也可能是因為本研究. 32.

(43) 在找尋疾病與基因時如果看到 disease 和 gene 這兩的字也會包含進去,會這樣的 原因是因為當初在找資料的時候看到很多例子是用這兩個字會在一些疾病和基 因的字旁邊,因為有可能 morbid 中沒找到這個基因或疾病,那就有可能會錯過, 所以就加了進來,但是這也可能因此抓錯的很多句子,導致錯誤的句子增加。 同樣的,在正確句子裡,雖然已想了一些辦法能夠盡量去擷取,但是還是有 些情況沒有辦法靠自動方式取得。例如本研究挑選句子時,如果遇到了代名詞的 字,例如 that,which 之類的,我們所使用的方法會檢查代名詞前一個字是否為人 類遺傳疾病或者基因,但是因為代名詞不一定只是與前一個字做連結,有可能離 得很遠,所以可能就錯過了。例如圖 4-4 所示,that 前面有逗號的存在,而以人 工來看能知道是哪個字,但真正所指的字卻離得很遠,就算是利用 MBSP 的剖析 標記也沒辦法從中得出資訊來表示 that 是指哪個字,所以這一句因沒有符合規則 而沒辦法取回。. 圖 4-4. failure to find example. 所以到現在看起來,如果要想提升實驗的成果有兩個大方向,第一個增加實 驗的資訊量,讓正確句子的數量增加,然後錯誤的句子能夠盡量的不要包含到正 確的句子,這樣就可以增加好的 rules 數量,也就是能夠提升 rules 的品質;第二 33.

(44) 個方向則是想別方法來多增加正確句子的取出量,然後降低錯誤句子中的取出量。 這兩個方向如果都能做到的話,實驗的成果一定會再提升。. 34.

(45) 第五章. 結論與未來發展. 在本篇論文中,我們的目標是研究如何取出人類遺傳疾病與基因有關聯的句 子,所以提出了利用從人類遺傳疾病與基因正確配對的句子中自動找尋規則出來, 以這些規則來取得疾病與基因有關聯的句子,並以 precision 和 recall 來進行評量。 本研究從正確配對的句子中以 MBSP 擷取出詞性(Part-of speech)、詞塊(chunk)、 以及其主詞-動詞-受詞關係(SVO-relation),接著透過 ALEPH 學習出哪些句子是比 較相近的可以當作規則使用。實驗結果中最好的 F-score 為 66.9%,此時的 precision 為 70.6%,而 recall 也有達到 63.5%,雖然這也表示只有從正確的句子裡取回一半 多一些左右的句子,但是之後只要能夠解決 anaphora 的問題,precision 以及 recall 一定能夠再提升。 OMIM 所提供的 morbid 檔有顯示哪個遺傳疾病配對到哪些基因,所以本研 究可以根據此資訊些來找出同時包含疾病與基因正確配對的句子。但本研究雖然 能夠找出人類遺傳疾病與基因同時存在於同一句的句子,但是實際上在一篇論文 裡,提到人類遺傳疾病與基因有關係的情況並不會只是因為存在於同一句中,有 可能是在不同的句子裡,然後以別的方法來講述,而本實驗只能以一句為單位來 做實驗,因此被侷限在比較小的框架之中,這是以後我們可以改進的地方。 未來我們希望使用 hybrid 的方法,聯合本實驗室陳立哲學長利用 TFIDF 配合 重力公式以及密度公式的方法,以及本論文所提供的規則擷取的方法,將實驗再 加以擴展,看看所得到的精準度與回收率的結果有沒有再提升,也可以嘗試多收 35.

(46) 集些文獻,讓學習的資料能夠更多,讓學出來的規則更為準確,測試的資料也能 多一點,讓實驗結果更為精準。. 36.

(47) 參考文獻 ALEPH. Available from http://www.cs.ox.ac.uk/activities/machlearn/Aleph/ aleph.html. T. K. Attwood, P. Bradley, D. R. Flower, A. Gaulton, N. Maudling, A. L. Mitchell, G. Moulton, N. Nordle, K. Paine, P. Taylor, A. Uddin and C. Zygouri, “Prints and its automatic supplement, preprints,” Nucleic Acids Research, vol. 31, no. 1, 2003, pp. 400-402. BIOSIS database. Available from http://thomsonreuters.com/products_services/ science/science_products / a-z/biosis/. J. Y. Chen, C. Shen, and A. Y. Sivachenko, “Mining Alzheimer disease relevant proteins from integrated protein interactome data,” Pacific Symposium on Biocomputing, vol. 11, 2006, pp. 367-378. Walter Daelemans, Sabine Buchholz and Jorn Veenstra, “Memory-based shallow parsing,” Proceedings of the EACL'99 workshop on Computational Natural Language Learning (CoNLL-99), pp. 53-60. EMBASE database. Available from http://www.embase.com/. Katrin Fundel, Robert Kuffner and Ralf Zimmer, “RelEx─Relation extraction using dependency parse trees”, Bioinformatics, Vol. 23, no. 3, 2007, pp. 365-371. fnTBL. Available from http://nlp.cs.jhu.edu/~rflorian/fntbl/. 37.

(48) Genia Tagger. Available from http://www-tsujii.is.u-tokyo.ac.jp/GENIA/tagger/. Y. Hu, L. M. Hines, H. Weng, D.Zuo, M. Rivera, A. Richardson, and J. Labaser, “Analysis of genomic and proteomic data using advanced literature,” Journal of Proteome Research, vol. 2, 2003, pp. 405-412. HUGO Gene Nomenclature Committee database. Available from http://www.genenames.org/. Jee-Hyub Kim, Alex Mitchell, Teresa K. Attwood, and Melanie Hilario, “Learning to extract relations for protein annotation”, Bioinformatics, Vol. 23, ISMB/ECCB 2007, pp. i256-i263. S. Muggleton and L. D. Readt, “Inductive logic programming theory and methods,” Journal of Logic Programming, vol. 9, 1994, pp. 629-679. MEDLINE Fact Sheet. Available from http://www.nlm.nih.gov/pubs/factsheets/ medline.html. Memory-Based Shallow Parser Available from http://www.clips.ua.ac.be/pages/ MBSP#server. MedPost. Available from ftp://ftp.ncbi.nlm.nih.gov/pub/lsmith/MedPost/ medpost.tar.gz. Nagi,G. and Florian,R. (2001) Transformation-based learning in the fast lane. In Proceedings of the North American Chapter of the Association for 38.

(49) Computational Linguistics on Language Technologies 2001 NAACL ’01. pp. 40-47 OMIM database. Available from http://www.ncbi.nlm.nih.gov/omim/. Smith, L. et al. (2004) Medpost: a part-of-speech tagger for biomedical text. Bioinformatics, 20, 2320-2324. Ashwin Srinivasan, “The Aleph manual,” Technical Report, Computing Laboratory, Oxford University, 2000. Available from http://www.cs.ox.ac.uk/activities/ machlearn/ Aleph/aleph.html. Stanford Lexicalized Parser. Available from http://nlp.stanford.edu/software/ lex-parser.shtml. 陳立哲,“生物資訊文獻中人類遺傳疾病與基因關聯度之研究”,國立台灣師範大 學資訊工程所碩士論文,2011 年。. 39.

(50)

參考文獻

相關文件

∗ Suppose we want to determine if stocks picked by experts generally perform better than stocks picked by darts. We might conduct a hypothesis test to de- termine if the available

According to the information of the 10 exhibitions provided by the organisers in the second quarter, their receipts totalled MOP 74.47 million, which were generated primarily

 Promote project learning, mathematical modeling, and problem-based learning to strengthen the ability to integrate and apply knowledge and skills, and make. calculated

We were particularly impressed by the large garden which is looked after by the students and used to grow fruit, herbs and vegetables for the midday meal which the school serves free

(“Learning Framework”) in primary and secondary schools, which is developed from the perspective of second language learners, to help NCS students overcome the

which can be used (i) to test specific assumptions about the distribution of speed and accuracy in a population of test takers and (ii) to iteratively build a structural

In summary, the main contribution of this paper is to propose a new family of smoothing functions and correct a flaw in an algorithm studied in [13], which is used to guarantee

In particular, the parabolic second-order directional differentiability of projec- tion operator was used to establish the expression of second-order tangent sets, which plays