相關研究探討 - 利用相鄰句子資訊探討人類疾病與基因之關係

Hines 等人(2003)提出了一些方法來解決此問題，第一個方法是 MedGene Database，此為一個關聯資料庫，方法為從 NCBI 中儲存疾病與基因的資訊、文本探勘的結果、統計分數與超連結到重要的文件。第二個方法是本文探勘演算法，

將所有相關的註釋和網址為每個 LocusLink 記錄與收集。第三個方法是統計法，

對每一個基因與疾病的配對，用二乘二的列表來做記錄，並在評估基因與疾病的關聯強弱度方面用了很多的方法，包括 chi-square 分析法、Fisher’s exact 機率等等。第四個方法為全球分析，選出至少 50 個相關基因的疾病來做 clustering 分析。

第五個方法是乳房組織微陣列，從 Harvard Breast SPORE 冰凍組織樣本中，挑選

4 基因。第二步，使用 HUGO Gene Nomenclature Committee (HGNC)¹資料庫，藉由提供的 SwissProt ID 對應到阿茲海默症的相關基因與阿茲海默症相關蛋白質。第三步，使用延伸方法建構一個延伸的阿茲海默症蛋白質交互子網路。第四步，開啟生物資訊軟體如 ProteoLens、視覺化與註釋阿茲海默症的子網路。第五步，對存取子網路的效能進行分析。第六步，為了取得阿茲海默症的蛋白質相關資訊，

開發一種啟發式演算法及評分的方法，能取得阿茲海默症蛋白質之資訊。

而直到現在，大部分的蛋白質註解(protein annotation)都是經由人工去標註，

在生醫文獻不斷產生的情況下，手工標註更也顯得困難，Kim 等人(2007)想要利用學習規則的方式達到自動完成蛋白質標註的工作，此研究先使用了 Memory-Based Shallow Parser (MBSP) (Walter et al., 1999)分析生醫文獻中的句子，

MBSP 以 GENIA 的 corpus 當作訓練集，可以標記出詞性、蛋白質等等。將標記過的句子放進 inductive logic programming (ILP) system (Muggleton and Raedt, 1994)學習規則。ILP 包含了假設(hypothesis) H、背景知識(background knowledge) B 和例子(example) E，H 表示為規則所成的集合，在公式成立的情況下，利用此關係，擁有背景知識和例子即可推導出 H。從這些句子中學習出規則，將這些規則經由專家的人工判別後，決定適不適合使用，再利用規則找出蛋白質等相關的

1 http://www.genenames.org/

關係。結果此研究的準確率在跟結構相關的主題中達到 85.3%，回收率達到了 61%；

其他的主題在準確率上達到 66%以上，但回收率卻在 20%以下，本論文將 Kim 等人(2007)學習規則技術應用在實驗上，希望能透過類似的做法，達到自動學習出規則的結果。

陳孝源(2012)的研究主要利用 OMIM 提供的資料-morbid，期望從文獻中自動取得疾病與基因關係的規則。該研究使用的工具是一套文字分析系統 MBSP²，並子，最後以 precision 和 recall 來進行評量，最佳的 F-score 為 66.9%，此時的 precision 為 70.6%，recall 為 63.5%。而陳孝源(2012)的論文主要針對的是單一的句子，本研究嘗詴將實驗擴展到相鄰的句子之間，即是除了單一句子之外，也將單一句子的前一句以及後一句納入實驗的評判當中，形成三句為一判斷的形式，希望能透過此做法，在做測詴時能取出更多的句子。

陳立哲(2011)的研究則在探討生物醫學文獻中人類遺傳疾病對基因的關連度

2 http://www.clips.ua.ac.be/pages/MBSP#server

3 http://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph.html

建立，他使用了醫學文獻資料庫 Medline 的文獻，在資料的前置處理中使用了 Genia tagger⁴標示生物醫學文獻上的基因，並從 OMIM 下載人類遺傳疾病與基因對 Medline abstracts 進行標示，並去除 stop words，進而計算文章中人類遺傳疾病與基因的 Term Frequency 與 Inverse Document Frequency。

該論文使用四種方法來計算人類疾病與基因的分數，分別為(1)密度公式，(2)

4 http://www.nactem.ac.uk/tsujii/GENIA/tagger/

透過這些公式得出最佳的 precision 為 91.6%，此時的 recall 為 38.1%；最佳

的 recall 值為 99%，此時的 precision 為 5.4%；F-score 都沒有特別突出，本研究希望能提升整體的 F-score，而不是如此極端數據。

在文檔中利用相鄰句子資訊探討人類疾病與基因之關係 (頁 13-19)