研究方法描述

第三章方法與步驟

第四節研究方法描述

本論文提出的方法主要分成六個步驟：(1)找出人類遺傳疾病與基因配對以及不含人類疾病與基因配對的句子，(2)對句子進行標記，(3)學習規則，(4)利用規則抓取基因、疾病配對，(5)用統計方法審核配對是否為有效配對，(6)計算精確率以及回收率。

(1) 找出人類遺傳疾病與基因配對以及不含人類疾病與基因配對的句子

根據 OMIM 所提供的 morbid 裡的 MIM 編號，利用其編號找出遺傳疾病與基因的相關生醫文獻，並從這些相關生醫文獻中擷取出有出現人類遺傳疾病以及其配對的基因同時存在的句子。另外以隨機挑選的方式蒐集不包含人類疾病與基因配對的句子供之後學習規則使用。圖 3-6 為包含疾病與基因配對之句子例句。

圖 3-6 包含疾病與基因配對之句子

其中，POR 為基因名稱，而 17,20-lyase 為疾病名稱。

(2) 對句子進行標記

將擷取出來同時包含人類疾病與基因配對的句子以及不包含人類遺傳疾病與基因之句子，放進 MBSP 裡進行標記。以下列句子為例：”I ate pizza with a fork.”

經過標記後，結果如圖 3-7 所示，各個標籤之說明如表 3-2，其中 WORD 即為該例句出現的字 ate，詞性 (Part-of-speech)為 VBD，詞塊 (Chunk)為 I-VP，PNP(是否為介詞片語)，O 代表不是，Relation 為這個字與其他 chunk 的關係，這邊為 VP-1，

Anchor 為 A1，在圖 3-7 中的 P1(with、a、fork)皆會指到 A1(eat)這個字，Lemma 為該字的原型，這邊為 eat。

圖 3-7 經 MBSP 標記後的句子

表 3-2 MBSP tag 說明

WORD Part-of-speech Chunk PNP Relation Anchor Lemma

ate VBD I-VP O VP-1 A1 eat 選 rule 的工具來對這些正確與錯誤句子進行 SVO-relation 判別，最後利用陳孝源 (2012)提出的公式(6)對此 rules 做評分，其公式如下，其中 S 表示分數，Pos 代表

圖 3-8 學習規則結果

圖 3-8 為學習規則結果之片段，此處以第一個 Rule 做說明，第一行之 Rule 為 cause，此 Rule 在訓練集中包含的正確句子數量為 51 句，而在訓練集中包含的不正確句子數量為 3 句，第二行為依據上述公式(6)所計算之分母 Max Pos Ne ) × Pos)的值，第三行則為 cause 這個 Rule 在公式(6)所得到的分數，而第四行至第七行為所有符合 cause 這個規則的句子編號，共有 51 句。

(4) 利用規則抓取基因與疾病配對

當取出規則後，從 morbid 挑選出 108 個 MIM 編號之生醫文獻(因為 108 篇生醫文獻當中有 919 句為包含正確疾病與基因配對之句子，相近於訓練時使用的 1000 個句子，故選取 108 篇)，將每一篇內文擷取出來，並利用上一步驟取到的

規則抓取單一句內以及考慮相鄰句子中的疾病與基因配對。下圖 3-9、3-10 分別為單一句子以及相鄰句子符合規則之例子。

圖 3-9 單一句子符合規則之句子

其中 caused 為 Rule，17-alpha-hydroxylase/17,20-lyase 為疾病名稱，CYP17A1 為基因名稱，在此步驟會利用規則 caused 來擷取 17-alpha-hydroxylase/17,20-lyase 以及 CYP17A1，將它們視為一組疾病與基因配對。

圖 3-10 相鄰句子符合規則之句子

其中 found 為 Rule，17,20-lyase 為疾病名稱，CYP17A1 為基因名稱，但是 found 所在的句子只找得到基因名稱，相關聯的疾病名稱出現在相鄰句子中，所以如果考慮相鄰句子，則在此步驟會利用規則 found 往前一句擷取到 17,20-lyase 以及 CYP17A1，將它們視為一組疾病與基因配對。

(5) 用統計方法審核配對是否為有效配對

利用在實驗工具裡說明之統計方法(Z-Score method)，當以規則抓取疾病與基因配對時，對每個配對之疾病生成 Z-Score 分數文件，利用該文件來檢視配對到的基因是否 Z-Score 分數大於 1，超過大於 1 的疾病與基因配對才列為有效配對。

本論文中稱為 catch pairs，並將每個 catch pairs 放進 morbid 裡驗證是否為正確配對，若為正確配對，稱作是 correct pairs。採用 Z-Score 方法之原因是因為藉由多一層 Z-Score 方法的檢視疾病與基因配對，能夠把一些較普遍出現在生醫文獻的基因之配對給過濾掉，通常普遍出現在一般生醫文獻中的基因勢必亦不會與特定疾病有相關聯。

以下列例子說明，圖 3-11 為依規則 cause 擷取到的疾病 Bothnia 與基因 RLBP1 配對，並且通過 Z-score 門檻值之例子，亦為正確配對的句子。在所有測詴文章中，實驗上出現疾病 Bothnia 與基因 RLBP1 配對的句子共有兩句，如圖 3-12 所示，而本系統針對疾病 Bothnia 與基因 RLBP1 配對產生之結果如圖 3-13 所示。

圖 3-11 系統擷取到的疾病與基因配對之句子

其中 Bothnia 為疾病名稱，caused 為 Rule，RLBP1 為基因名稱。

圖 3-12 疾病 Bothnia 與基因 RLBP1 實際出現在所有文章中的句子

圖 3-13 取出配對之結果

其中 one_take_pair 為單一句子中依規則抓取並通過 Z-Score 分數之配對數，

而 one_positive 為實際上文獻裡在單一句子正確配對之配對數，one_pos 為單一句子中依規則抓取並通過 Z-Score 分數之正確配對數；而 take_pair 為相鄰句子中依規則抓取並通過 Z-Score 分數之配對數，positive 為實際上文獻裡在相鄰句中正確配對之配對數，而 pos 為相鄰句子中依規則抓取並通過 Z-Score 分數之正確配對數。

因為系統針對疾病 Bothnia，依規則 cause 通過一個句子，所以圖 3-13 中，

one_take_pair、one_pos、take_pair，及 pos 的值為 1；而所有測詴文章中共有兩句有疾病 Bothnia 與基因 RLBP1 的配對，所以 one_positive 和 positive 的值均為 2。

在文檔中結合統計與規則探討生醫文件疾病與基因之關係 (頁 23-30)

第三章 方法與步驟

第四節 研究方法描述