• 沒有找到結果。

第二章 相關研究探討

本論文的研究目的為自動從文獻中找出人類遺傳疾病與基因之間的關聯度,

在實驗的過程中,研讀與探討了許多前人的實驗方法與技術,並在實驗中結合多 種方法與改良方式,以下為本論文的相關文獻探討:

Al-Mubaid 及 Singh (2005)的研究主要是從 National Library of Medicine (NLM) 內含的資料庫擷取出特定的疾病文章摘要1,期望從該疾病摘要裡找出該疾病相對 應及有關係的蛋白質。該研究使用統計的方法,利用兩個疾病集合(interest set 與 control set)以及一個蛋白質集合,其中 interest set 為欲知疾病的摘要集,control set 為不包含欲知疾病的摘要集,並利用統計學觀念中的期望值(expectation)以及驗證 值(evidence)計算出各個蛋白質對欲知疾病之關係。在統計學上顯示,當 expectation 以及 evidence 的差值越大時,代表該蛋白質對於欲知疾病有越強的關係,該研究 最後再以 Z-score 表示各個蛋白質對於欲知疾病的關係分數,並以精確率(precision rate)以及回收率(recall rate)計算效能。但是該研究首先出現一個問題,就是無法 計算 recall 值,因為在現有的資料庫中沒有一個完整的檔案可以顯示任一疾病相 對應的所有相關聯的蛋白質,該作者提出的解決方法是分別找 25 篇三個不同疾 病相關的摘要集,以人工的方式請專家標出正確的疾病基因配對,然後再把這三 個不同疾病的摘要集作為測詴集,計算出 precision 以及 recall 值。本篇論文會採 用此統計方法之概念,再加入規則學習的方法,二者概念相結合,以便判斷從文 章中抓取之疾病基因配對是否為有效配對。

1 https://www.nlm.nih.gov/

2 http://www.ncbi.nlm.nih.gov/omim

Adamic 等人(2002)的研究則探討有關疾病以及基因的關聯度,他們從 HUGO (Human Genome Organization) (Wain et al., 2002)、OMIM (Online Mendelian Inheritance in Man)2以及 LocusLink (an online database of gene loci) (Pruitt and Maglott, 2001)等三個資料庫蒐集疾病的標題以及摘要,先對文章摘要裡每個基因 做 alias symbols 之處理,然後利用統計的概念,包括二項式定理、預期出現的基 因次數以及相關連平方差,計算基因對與疾病的相關聯程度,最後以 similarity 值 表示該基因以及疾病的相關聯分數。

Cheung 等人(2012)利用含有 MeSH (Medical Subject Headings) terms 之文獻3, 透過這些 MeSH terms 形成基因以及疾病的 MESHOP (Medical Subject Heading Over-representation Profiles) , 他 們 從 GeneRIF (Mitchel et al., 2003) 以 及 Gene2pubmed (Maglott et al., 2007)各取若干篇文獻當作資料集,對每個基因以及 疾病生成各自的 MESHOP,MESHOP 為各個基因疾病的 MeSH terms 以及其 p-value 所配對的成果。他們假設若基因與疾病 MESHOP 之間的 similarity 越大,

則代表此基因與該疾病越有關聯,他們制定了多個計算 similarity 的方法進行實驗,

其中以公式(1)最有效率:

2 http://www.ncbi.nlm.nih.gov/omim

3 https://www.nlm.nih.gov/mesh/meshhome.html

4 http://en.wikipedia.org/wiki/P-value

5

陳 孝 源 (2012) 以 及 劉 孙 錚 (2013) 的 研 究 使 用 的 方 法 是 從 OMIM (Online Mendelian Inheritance in Man)5網站取得疾病文獻,利用 OMIM 文獻裡所提供的 morbid 之 MIM 編號,找出文獻裡人類遺傳疾病以及其配對基因同時存在的句子 以 及 不 含 人 類 遺 傳 疾 病 與 基 因 之 句 子 , 並 針 對 這 些 句 子 利 用 文 字 剖 析 器 MBSP6(Memory-Based Shallow Parser)進行標記,之後再把標記過後的句子放進 ALEPH7系統裡讓系統學習規則,利用這些學習得到的規則,分別在符合規則之 單一句子以及相鄰句子中抓取疾病與基因配對,最後以 precision 和 recall 值計算 效能。

5 http://www.ncbi.nlm.nih.gov/omim

6 http://www.clips.ua.ac.be/pages/MBSP#server

7 http://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph.html

相關文件