• 沒有找到結果。

Hines 等人(2003)提出了一些方法來解決此問題,第一個方法是 MedGene Database,此為一個關聯資料庫,方法為從 NCBI 中儲存疾病與基因的資訊、文 本探勘的結果、統計分數與超連結到重要的文件。第二個方法是本文探勘演算法,

將所有相關的註釋和網址為每個 LocusLink 記錄與收集。第三個方法是統計法,

對每一個基因與疾病的配對,用二乘二的列表來做記錄,並在評估基因與疾病的 關聯強弱度方面用了很多的方法,包括 chi-square 分析法、Fisher’s exact 機率等 等。第四個方法為全球分析,選出至少 50 個相關基因的疾病來做 clustering 分析。

第五個方法是乳房組織微陣列,從 Harvard Breast SPORE 冰凍組織樣本中,挑選

4 基因。第二步,使用 HUGO Gene Nomenclature Committee (HGNC)1資料庫,藉由 提供的 SwissProt ID 對應到阿茲海默症的相關基因與阿茲海默症相關蛋白質。第 三步,使用延伸方法建構一個延伸的阿茲海默症蛋白質交互子網路。第四步,開 啟生物資訊軟體如 ProteoLens、視覺化與註釋阿茲海默症的子網路。第五步,對 存取子網路的效能進行分析。第六步,為了取得阿茲海默症的蛋白質相關資訊,

開發一種啟發式演算法及評分的方法,能取得阿茲海默症蛋白質之資訊。

而直到現在,大部分的蛋白質註解(protein annotation)都是經由人工去標註,

在生醫文獻不斷產生的情況下,手工標註更也顯得困難,Kim 等人(2007)想要利 用 學 習 規 則 的 方 式 達 到 自 動 完 成 蛋 白 質 標 註 的 工 作 , 此 研 究 先 使 用 了 Memory-Based Shallow Parser (MBSP) (Walter et al., 1999)分析生醫文獻中的句子,

MBSP 以 GENIA 的 corpus 當作訓練集,可以標記出詞性、蛋白質等等。將標記 過的句子放進 inductive logic programming (ILP) system (Muggleton and Raedt, 1994)學習規則。ILP 包含了假設(hypothesis) H、背景知識(background knowledge) B 和例子(example) E,H 表示為規則所成的集合,在公式成立的情況下,利用此 關係,擁有背景知識和例子即可推導出 H。從這些句子中學習出規則,將這些規 則經由專家的人工判別後,決定適不適合使用,再利用規則找出蛋白質等相關的

1 http://www.genenames.org/

5

關係。結果此研究的準確率在跟結構相關的主題中達到 85.3%,回收率達到了 61%;

其他的主題在準確率上達到 66%以上,但回收率卻在 20%以下,本論文將 Kim 等 人(2007)學習規則技術應用在實驗上,希望能透過類似的做法,達到自動學習出 規則的結果。

陳孝源(2012)的研究主要利用 OMIM 提供的資料-morbid,期望從文獻中自動 取得疾病與基因關係的規則。該研究使用的工具是一套文字分析系統 MBSP2,並 子,最後以 precision 和 recall 來進行評量,最佳的 F-score 為 66.9%,此時的 precision 為 70.6%,recall 為 63.5%。而陳孝源(2012)的論文主要針對的是單一的句子,本 研究嘗詴將實驗擴展到相鄰的句子之間,即是除了單一句子之外,也將單一句子 的前一句以及後一句納入實驗的評判當中,形成三句為一判斷的形式,希望能透 過此做法,在做測詴時能取出更多的句子。

陳立哲(2011)的研究則在探討生物醫學文獻中人類遺傳疾病對基因的關連度

2 http://www.clips.ua.ac.be/pages/MBSP#server

3 http://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph.html

6

建立,他使用了醫學文獻資料庫 Medline 的文獻,在資料的前置處理中使用了 Genia tagger4標示生物醫學文獻上的基因,並從 OMIM 下載人類遺傳疾病與基因 對 Medline abstracts 進行標示,並去除 stop words,進而計算文章中人類遺傳疾病 與基因的 Term Frequency 與 Inverse Document Frequency。

該論文使用四種方法來計算人類疾病與基因的分數,分別為(1)密度公式,(2)

4 http://www.nactem.ac.uk/tsujii/GENIA/tagger/

7

透過這些公式得出最佳的 precision 為 91.6%,此時的 recall 為 38.1%;最佳

8

的 recall 值為 99%,此時的 precision 為 5.4%;F-score 都沒有特別突出,本研究 希望能提升整體的 F-score,而不是如此極端數據。

9

相關文件