• 沒有找到結果。

第三章 方法與步驟

第二節 實驗資料與工具

(1) 背景知識庫

Online Mendelian Inheritance in Man (OMIM)是一個將現有已知人類的遺傳疾 病作分類,並與相關聯的人類基因進行連結之線上資料庫,該資料庫由約翰霍普 金斯大學(John Hopkins University)的研究團隊所收集整理,並且透過一群科學作 者與編輯,協助相關研究及文獻擷取,然後整理出的資料庫資訊,如圖3-1所示。

7

圖 3-1 OMIM 網站

OMIM 網站之 Mendelian Inheritance in Man (MIM)對於各種已知的遺傳疾病、

遺傳性性狀以及遺傳基因等制定了各個編號,以下簡稱為 MIM 編號,各個疾病、

基因之 MIM 編號內文描述了一些疾病特徵、鑑別判斷以及治療預防方法,並且 提供已知基因之連鎖關係、組成結構、染色體定位、功能……等資料,在醫學領 域上有著重要的影響力,本研究會透過蒐集若干篇特定疾病之 MIM 文獻,使用 統計方法來判別本研究實驗裡運用規則蒐集到的基因、疾病配對是否為有效配 對。

其中 OMIM 網站提供之 morbid 資料,如圖 3-2 所示,每一行都附有人類遺 傳疾病以及與其對應到有相關聯之基因,本研究運用 morbid 資料所提供的疾病、

基因正確配對作為可供驗證的標準答案。以圖 3-2 第一行來說明,17,20-lyase 為 某個疾病名稱,其右邊第一組號碼為該疾病的 MIM 編號,而 CYP17A1、CYP17、

P450C17 皆為與 17,20-lyase 疾病有相關聯的基因,基因右邊的另一組號碼為這些

基因的 MIM 編號,如圖中的 609300,最後的 10q24.3 為該疾病的染色體序列。

MIM 編號之第一個號碼為遺傳方式的分類,如表 3-1 所示。

圖 3-2 morbid 資料範例

表 3-1 MIM 編號說明

首號碼 MIM 編號範圍 遺傳方式

1 100000-199999 染色體顯性位點或外顯特質 2 200000-299999 染色體隱性位點或外顯特質 3 300000-399999 X 連鎖位點或外顯特質 4 400000-499999 Y 連鎖位點或外顯特質 5 500000-599999 線粒體位點或外顯特質 6 600000- 染色體位點或外顯特質

9

(2) 實驗工具

I. Memory-Based Shallow Parser

本論文在分析訓練句子的部分,使用 Memory-Based Shallow Parser (MBSP)。

MBSP 是以 TiMBL8、MBT9和 GENIA corpus10當作基底的 parser,MBSP 在詞性 的標記上準確率(accuracy)達到 97.6%,選擇以 Memory-Based Shallow Parser 是因 為研究中可以使用其中一項功能 shallow parsing,Shallow parsing 在文字分析上很 是一個很重要的功用。MBSP 的文字標記中包含了許多屬性,有 tokenization、

part-of-speech (POS) tagging、concept tagging、chunking 和 grammatical function assignment (主詞、動詞……等),本論文會採用部分屬性(WORD、Part-of-speech、

Chunk、Lemma、SVO relation)以供接下來的規則學習所使用。圖 3-3 為 MBSP 會 對文字進行標記的項目,而圖 3-4 為網站上所示 MBSP 之基本文法架構。

圖 3-3 MBSP 分析的項目

8 http://ilk.uvt.nl/timbl/

9 http://ilk.uvt.nl/mbt/

10 http://www.nactem.ac.uk/genia/

圖 3-4 MBSP 的基本文法架構

II. ALEPH 系統(規則學習工具)

在學習規則的部分,本研究則參考 ALEPH 系統規則產生器的方法。ALEPH 系統為 Inductive Logic Programming (ILP) system 中的 A Learning Engine for Proposing Hypotheses ALEPH (Srinivasan,2000),該系統在 1993 年時稱為 P-Progol,

是由 Srinivasan 和 Camacho 在牛津大學所進行的一項研究計畫,其目的是想要用 此系統了解人類的思路。1994 年發表在 Muggleton 及 Raedt 的 paper 中,叫做 inverse entailment。從那時候開始慢慢發展成許多各自獨立的 ILP system。ALEPH 之學習 規則主要概念如下:

(1) 選擇一個例子(example)做一般化(generalize),若還有 example,則繼續做 generalize;直到沒有,才會停止進行 generalize。

(2) 在語言的限制範圍中,根據選擇的 example 的需求找出符合的子句

11

(clause)。

(3) 找出比基底子句(bottom clause)還要一般(general)的子句(clause)。

(4) 將子句中分數最低的加入現有的 theory 中,接著把會造成重覆(redundant) 的例子去除掉。

使用 ALEPH 頇包含三個檔案:*.b、*.f、*.n,其中*.b 檔案用來描述所要學 習的規則以及放置分析過句子的詳細資訊,屬於句子的背景知識(background knowledge);*.f 的檔案用來放正確的句子的編號,是文獻中的下向例子(positive examples);*.n 檔案需放入文獻中屬於錯誤的句子的編號,*.f 檔及*.n 檔都必頇與

*.b 檔相關,劉孙錚(2013)模擬 ALEPH 規則產生器,對 1000 個句子進行訓練,產 生出規則的方法類似於 ALEPH 的產生方法,且使用普通的文字檔即可,分為三 個部分:background knowledge、positive examples 及 negative examples。

III. 統計方法(Z-Score method)

本論文所使用的統計方法參考 Al-Mubaid 等人(2005)所發展出來的計算基因 與疾病關聯度方法,該篇方法為針對特定疾病,而本篇研究把其方法擴展至針對

示:

ex G ) = [t𝑓𝑡 G)/|𝑆1+ 𝑆 |] ∗ |𝑆1| (2)

ev G ) = t𝑓1 G) (3)

其中Ρ 為基因陣列中第 i 個基因,t𝑓𝑡 G )為該基因在 interest set (S1)以及 control set(S2)出現次數之加總,t𝑓1 G)為該基因出現在 interest set 之次數。

接下來,將驗證值與期望值相減,並做正規化,其式子如下公式(4):

𝑓 Ρ) = [ev G ) ex G)]/t𝑓𝑡 G) (4)

其中𝑓 G )為期望值與驗證值相減並正規化所得到的數值,此值將為之後計算 Z-Score 所使用。

最後再以 Z-Score 表示此基因對於疾病的關聯度,其式子如下公式(5):

Z Score G ) =[𝑓 𝑖)−𝑚𝑒𝑎𝑛 𝑓)]𝑆𝐷 𝑓) (5)

其中mean 𝑓)為所有基因陣列𝑓 G)值的平均數,而SD 𝑓)則為所有基因陣列 𝑓 G )的標準差。

統計學上顯示,當基因的期望值與驗證值相減之值的差異越大,則基因與該 疾病的關聯度就越高,本論文就是利用此概念來生成特定疾病對於每個基因的 Z-score 值文件,當利用規則抓取基因與疾病配對時,基因與疾病的關聯度(即 Z-score 值)必頇通過 Z-Score 門檻分數值(本實驗門檻設定為 Z-Score>1)才列為有

13

效配對,Z-Score 門檻設為 1 為參考 Al-Mubaid 等人(2005)在該篇論文研究裡即是 以 1 作為 Z-Score 的門檻值來判斷說該篇研究裡的蛋白質是否與其研究之疾病有 無相關聯,在第四章第三節的實驗結果裡,本研究亦會對 Z-Score 的門檻值來做 實驗,目的是找出最有效率的 Z-Score 值。

相關文件