本研究旨在找出人類遺傳疾病與基因的關聯度,而在前人的研究中曾提出許 多種方法:有人使用文獻探勘的技術、還有人使用 relation extraction 的方法,也 有人只專門針對單一疾病來研究,下面將會介紹這些前人的作法與成果。
在第一個方法中利用 MedGene Database,這是一個關聯資料庫,從 NCBI 中儲存 疾病與基因的資訊、本文探勘的結果、統計方式與超連結到重要的文獻;在第二 個方法中,作者提出本文探勘演算法;第三個則為其統計方法,對於每一個基因 與疾病的配對,作者使用了二乘二的列表來記錄並且用了許多方法去估計基因與 疾病的關聯強弱度,方法包含了 chi-square 分析法、Fisher’s exact 機率等等;第 四個方法則進行全球分析,至少 50 個相關基因的疾病被選起來做 clustering 分析;
最後一個方法則是針對乳房組織微陣列,從 Havard Beast SPORE 冰凍組織樣本裡,
挑出 89 個乳腺癌樣本與七個正常的乳腺組織樣本進行實驗。
在 Katrin Fundel 等人(2007)的研究中,發覺因為大多數的生醫文獻都沒有完 整的資料庫存在,想要找到基因與蛋白質之間的關係就變得格外困難,所以 Fundel 等人想要做出可以自動取出文獻中蛋白質與基因關係的系統。在該研究的系統中 採用了 dependency parse tree 的方式來做關係之擷取(relation extraction),在詞性標 記(POS-tagging)的部分是使用 MedPost (Smith et al., 2004)的研究進行分析,而在 名詞片語詞塊(noun-phrase chunks)的部分則是使用 fnTBL (Ngai and Florian, 2001) 的方法。Fundel 等人將己標記好的句子放進了 Stanford Lexicalized Parser 來產生 出 dependency parse tree,如圖 2-1 所示。之後該研究使用自己所訂定的一些規則,
應用到這些剖析樹裡面去找尋關係(relations)。例如在剖析樹中只包含名詞片語
(noun phrase)的最長路徑裡,如果有 of、by、in、for 等等這些字,而且這些字是 由兩個蛋白質(protein)所包圍時,則將此標記為候選關係。該研究把這個系統使 用在 MEDLINE 的一百萬篇摘要(abstracts)上來找尋基因與蛋白質的關係,最後找 出了大約 15 萬個關係,評量結果達到了 80%的準確率(precision)和 80%的回收率 (recall)。
圖 2-1 dependency parse tree 範例
直到現在,大部分的蛋白質註解(protein annotation)都是由人工去做的,而隨 著越來越多的生醫文獻產生,人工標註也變得越來越困難,所以 Kim 等人(2007) 想利用學習規則的方法來自動完成蛋白質的註解工作。該研究一開始使用
Memory-Based Shallow Parser (MBSP) (Daelemans et al., 1999)對生醫文獻中的句 子做分析,MBSP 是以 GENIA 的 corpus 來當作基本訓練集,用來標記出詞性、
蛋白質等。整體來看,MBSP 在詞性的標記準確率達到 71.0%,而在蛋白質的標 記上也有 71.0%的準確率。該研究使用了經過標記的句子放進 inductive logic
programming (ILP) system (Muggleton and Raedt, 1994)來學習規則。ILP framework 包含了三個元素:分別是假設(hypothesis) H、背景知識(background knowledge) B 以及例子(examples) E,其中 H 可以表示為規則所成的集合。H、B 及 E 之間的關 係如下列式子所示:
B H┝ E
(1)在公式(1)當中,所有滿足(satisfy)背景知識 B 及假設 H 的條件都同樣可以讓 例子 E 被滿足,利用此關係,我們如果知道背景知識 B 和例子 E,就可以推導而 得到 H。該研究使用了 PRINTS database (Attwood et al., 2003)以便從 MEDLINE 收集蛋白質與其他主題相關的句子,例如功能(function)和結構(structure)。作者從
Gene Nomenclature Committee (HGNC)資料庫,網站如圖 2-2 所示,藉由這個資料 庫所提供的 SeissProt ID 對應到阿茲海默症的相關基因與阿茲海默症相關蛋白質;
第三步使用一種延伸方法建構一個延伸的阿茲海默症蛋白質交互子網路;第四步
開始開發生物資訊軟體如 ProteoLens,視覺化與注釋阿茲海默症的子網路;第五 部對存取子網路的效能進行分析;最後一步則是開發一種啟發式演算法及評分的 方法,用來取得阿茲海默症蛋白質的相關資訊。
圖 2-2 HGNC 網站
而在陳立哲(2011)的研究中主是在探討生醫文獻中人類遺傳疾病與基因的關 聯度,他所使用的是醫學文獻資料庫 MEDLINE 的文獻。在一開始的資料前置處 理,該論文使用了 Genia tagger 去標示生醫文獻上的基因,並將文獻中大寫的字 轉換成了小寫,以方便標示;接著再使用從 OMIM 下載的人類遺傳疾病與基因對 MEDLINE abstracts 進行標示的動作,且利用 English stop word 的網站內所列出的 stop words 將文中的 stop words 去除;再來計算人類遺傳疾病與基因的 Term Frequency 與 Inverse Document Frequency 來做為計算分數的依據。該論文中第一 類方法是使用作者所設計的密度公式與四個重力公式得出分數,如下列公式(2)
到公式(6)所示。公式(2)為密度公式,Cj代表在同一篇文獻裡相同的配對有多少個,
TFIDFTTjk為該配對的人類遺傳疾病 TFIDFT 值,而 WGi,Tjk為基因與人類遺傳疾 病的距離為多少。而公式(3)到公式(6)則為 4 種重力公式,PTFGi為基因的詞頻,
IDFTGi則為基因的 IDFT 值。而第二類方法則是自然語言常用的 Dice,該論文將 Dice 基本公式變化為另外兩種公式並配合一般比例公式的變種來計算。最後該論 文將計算出來的分數與一系列門檻值做比較來得出該實驗的 precision 和 recall。