研究方法描述

第三章方法與步驟

第四節研究方法描述

本論文提出的方法主要分成五個步驟：(1)找出人類遺傳疾病與基因配對的句子，(2)對句子進行標記，(3)學習規則，(4)建立相鄰句子(多重句子)探勘演算法，

(5)計算精確率及回收率。

(1) 找出人類遺傳疾病與基因配對的句子

根據 OMIM 提供的 morbid 中的 MIM 編號，搜尋出對應編號的相關文獻，

為了能盡量擷取多一點資料，除了人類遺傳疾病的 MIM 編號外，也從相對應的基因的 MIM 編號去做擷取的動作，兩方面同時著手，以確保資料的完整性。在此一步驟中，將從文獻中擷取出人類遺傳疾病與其配對的基因同時存在的句子。

(2) 對句子進行標記

將擷取出來的句子以及另外挑選出來並不包含人類遺傳疾病與基因同時存在的句子，放進 MBSP 進行標記，以下列句子為例：“I went to supermarket yesterday afternoon”經過標記後，結果如圖 3-9 所示。

圖 3-9 經 MBSP 標記過後的句子

圖 3-9 中，以 went/VBD/I-VP/O/VP-1/O/go 為例說明各標籤的意義，如表 3-3 (其中 WORD 代表文中出現的字；part-of-speech 代表詞性；Chunk 代

表詞塊，Chunk tag 為 VP；PNP 表示是否為 prepositional noun phrases，O 代表不是；Relation 為 relations between chunks, sentence subject, object and predicates，Relation tag 是 VP-1；Anchor tag 是 O；went 的 Lemma 是 go)

表 3-3 MBSP tag 說明

WORD Part-of-speech Chunk PNP Relation Anchor Lemma

went VBD I-VP O VP-1 O go

本研究所採用的資料型態有 WORD、Chunk、Lemma 以及主詞-動詞-受詞關係(SVO relation)，但 MBSP 在進行分析的時候，POS Tag 會出現各種表示符號，本論文用 Penn Treebank Tagset 列出其代表意義，表 3-4 共列舉出 35 種不同的代表詞性。

表 3-4 Penn Treebank Tagset¹⁰

POS Tag Description Example CC Coordinating conjunction And

CD Cardinal number I, third

DT Determiner The

EX Existential thereq There is

FW Foreign word D’hoevre

IN Preposition/subordinating conjunction In, of, like

JJ Adjective green

JJR Adjective, comparative greener

10 http://www.anc.org/OANC/penn.html

JJS Adjective, superlative greenest

LS List marker 1)

MD Modal Could, will

NN Noun, singular or mass Table

NNS Noun plural Tables

NNP Proper noun, singular John NNPS Proper noun, plural Vikings PDT Predeterminer Both the boys POS Possessive ending Friend’s PRP Personal pronoun I, he, it PRP$ Possessive pronoun My, his

RB Adverb However, usually,

naturally, here, good RBR Adverb, comparative better

RBS Adverb, superlative Best

RP Particle Give up

TO To To go, to him

UH Interjection uhhuhhuhh

VB Verb, base form Take

VBD Verb, past tense Took

VBG Verb, gerund/present participle Taking VBN Verb, past participle Taken VBP Verb, sing. Present, non-3d Take

VBZ Verb, 3^rd person sing. present Takes

WDT Wh-determiner which

WP Wh-pronoun Who, what

WP$ Possessive wh-pronoun Whose

WRB Wh-adverb Where, when

(3) 學習規則

將 MBSP 標記過後的句子，表 3-5 表示本研究在學習規則時用來表示句子資訊的述語(predicate)，分為正確與不正確兩類，再將兩類中的句子做詳細的處理，經處理過後的句子如圖 3-10，ep(subj_vp,S,C1,T):- has(S,C1,np,_), has(S,C2,vp,T), subj(C1,C2). 為規則的表示方式，subj_vp 為主詞與動詞關係表示，S 表示為第幾句，C1 為關係中的主詞，T 為關係中的動詞；has( )擁有四個屬性，分別為句子編號、chunk、詞性及 word；subj(C1,C2)為該關係包含的 chunk；s(s3)表示這是第一句，之後的 c(c3_0)為第 3 句的第一個字，sem 表示該 chunk 的 semantic，而後的是句子的 SVO relation，如果句子當中包含了主詞受詞關係的話，以 subj( )與 dobj( )表示，subj( )是主詞和動詞之間的關係，dobj( )為動詞與受詞的關係。依照正確的句子、不正確的句子、詳細的句子資訊存為三個檔案，正確的句子和不正確句子的檔案只需放進句子的編號，例：s(s3)、s(s4)，像圖 3-10 一樣的句子資訊則都歸為 sop1，為在 3-2 節實驗資料與工具提到的 sop1、sop2、sop3。

表 3-5 predicate 與參數型態說明

Predicate Argument type 描述

s/1 Sentence (S) 句子

如圖 3-10 內的 ep()、subj()、dobj()等等，將訓練時所需要的句子都呈現為此種狀態(包括正確配對的句子與非正確配對的句子)，再將正確的句子之編號放進 sop2 中，檔案 sop2 為放置基因與疾病正確配對的句子，如圖 3-11 所示，

將非正確配對的句子放置在 sop3，此一檔案為放置非基因與疾病正確配對的句子，如圖 3-12 所示。

準備好 sop1、sop2、sop3 之後便可學習規則，找出句子中 subj()與 dobj() 的關係，由主詞-動詞-受詞之關係可以得知動詞為連繫主詞與受詞的關鍵，

在此動詞為基因(或疾病)，受詞則為疾病(或基因)，從 subj()與 dobj()中比對為一樣的動詞則抓出其規則，為<disease>VP<gene>或是<gene>VP<disease>

的組合，並在取出規則是統計其出現的次數，該次數為計算規則分數的標準，

並依照計算出的分數，根據門檻值、pos 及 neg 次數來篩選規則，計算分書

的公式是使用陳孝源(2012)論文中所提出的計算分數的公式，為本論文中的相關研究探討中提到的公式(1)。

圖 3-10 sop1 中句子的詳細資訊

圖 3-11 sop2 中的句子編號

圖 3-12 sop3 中的句子編號

學習規則時會統計符合該規則的句子出現了幾次(pos cover)，符合此規則但是是不正確的句子出現了幾次(neg cover)，並且計算該規則得到的分數，

如圖 3-13 所示，圖中的規則 84 的 vp 是 converting，正確的句子數有 10 次，

不正確的句子數有 0 次，利用公式(1)得出的分數是 0.01633987，依照取出的規則數量，規則的分數去制訂門檻值；因為有許多的規則其實出現的次數都只有一次，為了讓實驗有鑑別度，本實驗放棄出現次數較少次的規則，因此在選取規則時多加了 pos-neg 必頇大於一個數值才將規則選取，例如：pos – neg >= 3。

圖 3-13 學習規則的結果

本論文所要用的規則必頇符合 pos-neg>=5，認為符合此限制的規則擁有基本的出現次數，在訓練時以 1000 個句子去做訓練，出現的次數至少要大於等於 5，精確率才不致於太低，由通過 pos-neg>=5 限制以及達到門檻值的規則對受測資料進行測詴，找出人類遺傳疾病與基因之間的動詞，並計算共有多少句子符合規則。圖 3-14 為其中一個擷取出的規則，以及符合此規則的

兩個句子(S1、S2)。

圖 3-14 規則與符合規則的句子

(4) 建立相鄰句子(多重句子)探勘演算法

陳孝源(2012)提出的規則是從測詴文件中尋找符合規則的句子，且句子當中含有相對應的 disease 和 gene，本論文為了要提升能擷取的句子數量，

除了單一的句子外，連同符合規則的句子的前句以及後句，一起判斷是否存在有相對應的基因與疾病，判斷的標準在於連同該句子以及前句和後句，在此三句內是否存在有相對應的 disease 與 gene，如此作法不僅僅能提升被判斷的句子數量，且因為涵蓋的範圍變廣，較容易取得一對 disease 與 gene，

除了能被判斷的句子較多以外，命中率也會跟著上升。

圖 3-15 是本研究採用了多重句子演算法之後得出的結果之一，圖中的 one_take_pair 是在單一句子中能擷取出的句子數，one_positive 是文章中含有的正確配對的句子數，one_pos 則是被擷取出且是正確的基因與疾病配對的句子數(等同於被擷取出的 one_positive)；而 take_pair 是利用了多重句子演算法之後，從測詴資料中能擷取出的句子數量，positive 是測詴文章中利用多重

句子演算法涵有的正確句子數量，pos 則是在擷取出的句子中正確配對的數量(等同於被擷取出的 positive)。

圖 3-15 取出文獻中 pairs 的結果

(5) 計算精確率及回收率

本研究為了得到較高的精確度，選用了較高的門檻值，除了多重句子探勘演算法外，也用了測詴單一句子一起來做比較，分別計算其精確率(precision)與回收率(recall)。

1. 精確率

利用通過門檻值的 rules 尋找符合規則的句子，句子中包含 disease 和 gene 的 pair 數量作為分母，在取出的 pairs 當中如符合正確的基因與疾病的配對則為 correct pairs，correct pairs 作為分子，如公式(11)所示：

Precision = ^{取回的句子中} 與正確配對的數量

依照取回的句子數量 (11)

2. 回收率

文章中所有 disease 與 gene 正確配對的數量作為分母，在取出的 pairs 當中如符合正確的基因與疾病的配對則為 correct pairs，correct pairs 作為

分子，如公式(12)所示：

Recall = ^{取回的句子中} 與正確配對的數量

所以正確的句子數量 (12)

在文檔中利用相鄰句子資訊探討人類疾病與基因之關係 (頁 26-39)

第三章 方法與步驟

第四節 研究方法描述