第三章 研究方法
第一節 實驗資料與工具
由於本研究想要分析生物資訊文獻上包含人類遺傳疾病與基因的句子,所以 所選用的文獻必須要帶有人類遺傳疾病與基因的資訊,而最合適的就屬於大部學 者廣泛參考的醫學文獻資料庫(Medical Literature Analysis and Retrieval System
Online, MEDLINE)了。美國國家醫學圖書館 NLM 於 1964 年建立了全國性醫學文 獻網路 MEDLARS,發展至今,已有 34 年歷史,目前擁有多個資料庫,其中最 重要,且發展最早的為 MEDLINE (MEDLARS ON LINE)生物醫學資料庫。該資 料庫每年固定收錄約 3,800 種全世界著名且各學科權威之期刊(若累積歷年停止 收錄、停刊、更名等期刊,期刊種數超過 10,000 多種生命科學期刊文獻資料),
目前資料庫總量約有 880 萬筆紀錄,每個月以 20,000 -15,000 筆紀錄增加中。
1976-198 年間亦收錄會議、研討會之專論。75%為英文文獻,25%為非英文文獻。
自 1975 年以後,才將文獻摘要收錄,67%文獻中含有摘要。49%文獻與 EMBASE
(Biomedical Answers)資料庫為不重複收錄;52%文獻與 BIOSIS 為不重複收錄者。
該醫學資料庫所涵蓋的範圍非常的廣,有基礎生命科學、臨床生命科學、生物科 學、解剖學、組織學、化學與藥物、心理學、社會醫學、農業、醫療技術設備學、
醫療技術工業學和醫學資訊學。
而為了能在這些文獻中找尋人類遺傳疾病與基因正確配對的句子,本研究選 擇了由美國國家生物資訊中心(National Center for Biotechnology Information,
NCBI)所建立的線上人類孟德爾遺傳學(Online Mendelian Inheritance in Man, OMIM),網站就如圖 3-1 所示。
圖 3-1 OMIM 網站
OMIM 是一個將人類遺傳疾病做分類,並且會與相關聯的人類基因進行連結 的線上資料庫。該資料庫是由約翰霍普金斯大學(John Hopkins University)的研究 團隊收集整理,並透過一群科學作者與編輯,協助相關研究及文獻擷取,然後整 理成資料庫的資訊。Mendelian Inheritance in Man (MIM)包括所有已知的遺傳病、
遺傳決定的性狀及其基因,除了簡略描述各種疾病的臨床特徵、診斷、鑒別診斷、
治療與預防外,還提供已知有關致病基因的連鎖關係、染色體定位、組成結構和 功能、動物模型等資料,並附有經縝密篩選的相關參考文獻。MIM 制定的各種遺 傳病、性狀、基因的編號,簡稱 MIM 編號,為全世界所公認。有關疾病的報導 必須冠以 MIM 編號,以明確所討論的是哪一種遺傳病,可見 MIM 在國際醫學界
的權威性。而本研究所使用的則為由 OMIM 所提供的資料 morbid,每一列的資 訊都包含了人類遺傳疾病以及其相對應的基因與 MIM 編號,如圖 3-2 所示,表 3-1 則以下圖第一列為說明。
圖 3-2 morbid 範例
表 3-1 morbid 說明
Colon cancer(1) SLC26A3,DRA,CLD 126650 7q22-q31.1 大腸癌第一型 對應的基因 疾病的 MIM 編號 染色體序列
表 3-2 MIM 編號說明
在分析句子的工具中,本研究所選用的是 Memory-Based Shallow Parser
(MBSP),MBSP 是一個文字分析系統以 TiMBL and MBT 和 GENIA corpus 來當作 基底的 parser,總體來說 MBSP 在詞性的標記上準確率(accuracy)為 97.6%,而在 蛋白質名稱實體(protein name entity)的標記上則有 71.0%的準確率。
Shallow parsing 在 text 分析系統上是一個很重要的原件,通常應用在 information extraction 和 summary generation。Memiry-based Learning(MBL)研究的 優點在於可以避免用人工的方式去定義 patterns,而且可以重覆運用在不同的語料 庫以及子語言上。
MBSP 在標記結果中包含著許多的屬性,有 tokenization、part-of-speech (POS) tagging、concept tagging、chunking、PNP-finding 和 grammatical function assignment (主詞、受詞等等),這些資訊本研究將會選擇一些來做分析,圖 3-3 為 MBSP 使 用的基本文法架構。接者這些資訊本研究將會選擇一些來做分析,圖 3-4 則為句 子被 MBSP parse 過的範例。
圖 3-3 基本文法架構
圖 3-4 MBSP example
為 了 要 從 分 析 出 來 的 句 子 學 習 出 規 則 , 本 研 究 使 用 了 Inductive Logic
Programming(ILP) system 中的 A Learning Engine for Proposing Hypotheses ALEPH (Srinivasan,2000),ALEPH 早期的化身在 1993 叫做 P-Progol,是由 Ashwin Srinivasan 和 Rui Camacho 在牛津大學所進行的一個有趣 project,主要的目的是 想要去了解思路,而之後出現在 Stephen Muggleton 1995 年的 paper 上則叫做
inverse entailment。自那時候起,就開始發展成許多各自獨立的 ILP system,而其 中跟 ALEPH 有相關的有 CProgol、FOIL、FORS、Indlog、MIDOS、SRT、Tilde 和 WARMR。ALEPH 學習規則的步驟如下:
(1) 選擇一個 example 去 generalized,如果不存在,則停;如果還有 example,則
繼續進行。
(2) 在不超過語言的限制範圍內中,根據所選擇的 example 的需求,找出最 specific 的 clause。
(3) 尋找比 bottom clause 還要 general 的 clause。
(4) Clause 中分數最好的會加入現有的 theory 中,然後把所有會造成 redundant 的 例子去除掉。
使用 ALEPH 必須包含三個檔案,*.b 的檔案為 background knowledge,
background knowledge 是用來描述相關的一些訊息,在本研究這是用來對句子的 描述;*.f 的檔案則是用來放 positive examples,說明哪些是正確的例子,*.n 則剛 好相反,必須放錯誤的句子。*.f 和*.n 檔案格式都必須與*.b 檔相關,當三個檔案