實驗資料與工具

第三章方法與步驟

第二節實驗資料與工具

(1) 背景知識庫

Online Mendelian Inheritance in Man (OMIM)是一個將現有已知人類的遺傳疾病作分類，並與相關聯的人類基因進行連結之線上資料庫，該資料庫由約翰霍普金斯大學(John Hopkins University)的研究團隊所收集整理，並且透過一群科學作者與編輯，協助相關研究及文獻擷取，然後整理出的資料庫資訊，如圖3-1所示。

圖 3-1 OMIM 網站

OMIM 網站之 Mendelian Inheritance in Man (MIM)對於各種已知的遺傳疾病、

遺傳性性狀以及遺傳基因等制定了各個編號，以下簡稱為 MIM 編號，各個疾病、

基因之 MIM 編號內文描述了一些疾病特徵、鑑別判斷以及治療預防方法，並且提供已知基因之連鎖關係、組成結構、染色體定位、功能……等資料，在醫學領域上有著重要的影響力，本研究會透過蒐集若干篇特定疾病之 MIM 文獻，使用統計方法來判別本研究實驗裡運用規則蒐集到的基因、疾病配對是否為有效配對。

其中 OMIM 網站提供之 morbid 資料，如圖 3-2 所示，每一行都附有人類遺傳疾病以及與其對應到有相關聯之基因，本研究運用 morbid 資料所提供的疾病、

基因正確配對作為可供驗證的標準答案。以圖 3-2 第一行來說明，17,20-lyase 為某個疾病名稱，其右邊第一組號碼為該疾病的 MIM 編號，而 CYP17A1、CYP17、

P450C17 皆為與 17,20-lyase 疾病有相關聯的基因，基因右邊的另一組號碼為這些

基因的 MIM 編號，如圖中的 609300，最後的 10q24.3 為該疾病的染色體序列。

MIM 編號之第一個號碼為遺傳方式的分類，如表 3-1 所示。

圖 3-2 morbid 資料範例

表 3-1 MIM 編號說明

首號碼 MIM 編號範圍遺傳方式

1 100000-199999 染色體顯性位點或外顯特質 2 200000-299999 染色體隱性位點或外顯特質 3 300000-399999 X 連鎖位點或外顯特質 4 400000-499999 Y 連鎖位點或外顯特質 5 500000-599999 線粒體位點或外顯特質 6 600000- 染色體位點或外顯特質

(2) 實驗工具

I. Memory-Based Shallow Parser

本論文在分析訓練句子的部分，使用 Memory-Based Shallow Parser (MBSP)。

MBSP 是以 TiMBL⁸、MBT⁹和 GENIA corpus¹⁰當作基底的 parser，MBSP 在詞性的標記上準確率(accuracy)達到 97.6%，選擇以 Memory-Based Shallow Parser 是因為研究中可以使用其中一項功能 shallow parsing，Shallow parsing 在文字分析上很是一個很重要的功用。MBSP 的文字標記中包含了許多屬性，有 tokenization、

part-of-speech (POS) tagging、concept tagging、chunking 和 grammatical function assignment (主詞、動詞……等)，本論文會採用部分屬性(WORD、Part-of-speech、

Chunk、Lemma、SVO relation)以供接下來的規則學習所使用。圖 3-3 為 MBSP 會對文字進行標記的項目，而圖 3-4 為網站上所示 MBSP 之基本文法架構。

圖 3-3 MBSP 分析的項目

8 http://ilk.uvt.nl/timbl/

9 http://ilk.uvt.nl/mbt/

10 http://www.nactem.ac.uk/genia/

圖 3-4 MBSP 的基本文法架構

II. ALEPH 系統(規則學習工具)

在學習規則的部分，本研究則參考 ALEPH 系統規則產生器的方法。ALEPH 系統為 Inductive Logic Programming (ILP) system 中的 A Learning Engine for Proposing Hypotheses ALEPH (Srinivasan，2000)，該系統在 1993 年時稱為 P-Progol，

是由 Srinivasan 和 Camacho 在牛津大學所進行的一項研究計畫，其目的是想要用此系統了解人類的思路。1994 年發表在 Muggleton 及 Raedt 的 paper 中，叫做 inverse entailment。從那時候開始慢慢發展成許多各自獨立的 ILP system。ALEPH 之學習規則主要概念如下：

(1) 選擇一個例子(example)做一般化(generalize)，若還有 example，則繼續做 generalize；直到沒有，才會停止進行 generalize。

(2) 在語言的限制範圍中，根據選擇的 example 的需求找出符合的子句

(clause)。

(3) 找出比基底子句(bottom clause)還要一般(general)的子句(clause)。

(4) 將子句中分數最低的加入現有的 theory 中，接著把會造成重覆(redundant) 的例子去除掉。

使用 ALEPH 頇包含三個檔案：*.b、*.f、*.n，其中*.b 檔案用來描述所要學習的規則以及放置分析過句子的詳細資訊，屬於句子的背景知識(background knowledge)；*.f 的檔案用來放正確的句子的編號，是文獻中的下向例子(positive examples)；*.n 檔案需放入文獻中屬於錯誤的句子的編號，*.f 檔及*.n 檔都必頇與

*.b 檔相關，劉孙錚(2013)模擬 ALEPH 規則產生器，對 1000 個句子進行訓練，產生出規則的方法類似於 ALEPH 的產生方法，且使用普通的文字檔即可，分為三個部分：background knowledge、positive examples 及 negative examples。

III. 統計方法(Z-Score method)

本論文所使用的統計方法參考 Al-Mubaid 等人(2005)所發展出來的計算基因與疾病關聯度方法，該篇方法為針對特定疾病，而本篇研究把其方法擴展至針對

示：

ex G ) = [t𝑓_𝑡 G)/|𝑆₁+ 𝑆 |] ∗ |𝑆₁| (2)

ev G ) = t𝑓₁ G) (3)

其中Ρ 為基因陣列中第 i 個基因，t𝑓_𝑡 G )為該基因在 interest set (S1)以及 control set(S2)出現次數之加總，t𝑓₁ G)為該基因出現在 interest set 之次數。

接下來，將驗證值與期望值相減，並做正規化，其式子如下公式(4)：

𝑓 Ρ) = [ev G ) ex G)]/t𝑓_𝑡 G) (4)

其中𝑓 G )為期望值與驗證值相減並正規化所得到的數值，此值將為之後計算 Z-Score 所使用。

最後再以 Z-Score 表示此基因對於疾病的關聯度，其式子如下公式(5)：

Z Score G ) =^[𝑓^𝑖^{)−𝑚𝑒𝑎𝑛 𝑓)]}_{𝑆𝐷 𝑓)} (5)

其中mean 𝑓)為所有基因陣列𝑓 G)值的平均數，而SD 𝑓)則為所有基因陣列 𝑓 G )的標準差。

統計學上顯示，當基因的期望值與驗證值相減之值的差異越大，則基因與該疾病的關聯度就越高，本論文就是利用此概念來生成特定疾病對於每個基因的 Z-score 值文件，當利用規則抓取基因與疾病配對時，基因與疾病的關聯度(即 Z-score 值)必頇通過 Z-Score 門檻分數值(本實驗門檻設定為 Z-Score>1)才列為有

效配對，Z-Score 門檻設為 1 為參考 Al-Mubaid 等人(2005)在該篇論文研究裡即是以 1 作為 Z-Score 的門檻值來判斷說該篇研究裡的蛋白質是否與其研究之疾病有無相關聯，在第四章第三節的實驗結果裡，本研究亦會對 Z-Score 的門檻值來做實驗，目的是找出最有效率的 Z-Score 值。

在文檔中結合統計與規則探討生醫文件疾病與基因之關係 (頁 15-22)

第三章 方法與步驟

第二節 實驗資料與工具