第四章 實驗過程語實驗結果
第一節 實驗資料
由於本研究主旨為分析生物醫學文獻上包含疾病與基因句子中的指代問題,
所以選用的文獻必頇具備疾病與基因的資訊,因此選擇 CLEF5 (Conference and Labs of the Evaluation Forum, formerly known as Cross-Language Evaluation Forum) 中的 QA4MRE6 (Question Answering for Machine Reading Evaluation)任務所使用 的資料集。
從 2000 年起 CLEF 在資訊檢索領域就扮演著關鍵角色,經過多年後,CLEF 已經成為跨越不同領域的科學研究團體,而 QA4MRE 這個任務主要是發展具有 問答(question answering)和閱讀理解(reading comprehension)的機器閱讀系統,本研 究使用 QA4MRE 在 2012 年的子任務:Machine reading of biomedical texts about Alzheimer's Disease,這項任務主要是探索阿茲海默症文章在問答系統的能力,在 任務中提供參與者測詴系統效能的文本,讓參與者能夠清楚知道他們的系統效能。
使用這些測詴文件具有一定的測詴比較基準和公平性,網站如圖 5 所示。
5 http://www.clef2013.org/index.php
6 http://celct.fbk.eu/QA4MRE/
15
圖 5:QA4MRE 網站
在 分 析 句 子 的 工 具 中 , 本 研 究 所 使 用 的 是 GDep7 (GENIA Dependency parser),GDep 是由東京大學 Tsujii 實驗室所研發的剖析器,GDep 包含在 GENIA 計畫中,這個計畫從 1988 年就開始進行,Tsujii 實驗室也有參與 GENIA 計畫的 開發任務,使用 GENIA 語料庫當作訓練和測詴的語料庫,開發了許多工具,例 如:共指標記、詞性標記、關係標記等,其中詞性標記所使用的是 Penn Treebank8 詞性資料庫,Tsujii 實驗室在生物領域上具有不錯的成果其所開發的工具也具有 不錯的效能,所以在本研究中使用 GDep 剖析器進行標註基因名稱、詞性標記和 名詞組的標示和辨識,詳細的資訊會在下面的章節介紹,圖 6 為 GENIA Project 的網站。
7 http://people.ict.usc.edu/~sagae/parser/gdep/
8 http://www.cis.upenn.edu/~treebank/
16
圖 6:GENIA Project 網站
第二節 研究方法架構
本篇論文研究的架構如圖 7 所示,一開始先對收集的四篇關於阿茲海默症的 生醫文獻做資料前處理,包括切出正確句子(split sentence)、標註所有基因名稱(tag gene names)、詞性標記(part-of-speech tagging),和名詞組的標示和辨識(noun phrase chunking)。為了得到所需要的各項特徵值,接著進行以下的處理,包括先行詞和 指代詞間的範圍偵測(boundary detection)、辨識所有的名詞片語(identify all NPs)。
在標註基因名稱和詞性標記的部份,本研究使用 Sagae (2007)等人開發的 GDep (GENIA Dependency parser),將得到的資料分成兩個集合,一個為標註基因的名 詞片語當作先行詞的集合,另一個為指代詞的集合。將兩個集合的特徵值代入機 率模型進行統計,選出最有可能的候選先行詞進行指代消解,最後進行系統效能 的評測。
17 Evaluation
圖 7:本論文研究之架構及流程設計
4 full-text articles
Preprocessing Split sentence
Tag gene names Noun phrase chunking Part-of-speech tagging
Feature extraction Boundary detection
Identify all NPs
GDep
Probabilistic Model
Resolution results Noun phase filtering
Rule set Feature set
Classification Antecedent
Anaphora
18
第三節 研究方法描述
本篇論文的方法分為四個主要部份:(1)資料前處理,(2)特徵擷取,(3)名詞 片語分類以及(4)使用機率模型進行指代消解。在資料前置處理部份,本論文依照 句點符號將句子做分句處理以及消除一些干擾的雜訊,並藉由 GDep 進行詞性標 記、基因名稱標記和名詞組的標示和辨識。在特徵擷取部份中,本論文擷取出每 個名詞片語的詞性標記、將所有名詞片語進行分類、辨識所有的名詞片語和句子 所在位置,和辨識主要名詞片語及前位修飾詞做為本研究的特徵集,將經過標註 的名詞片語分為指代詞和先行詞兩類,在最後的步驟中,本論文使用機率模型處 理所有非代名詞指代消解。
第四節 資料前置處理
一、 分句與雜訊排除
為了能夠精準判斷每個句子的位置以及句子的範圍,在資料前處理中,本研 究利用句號做分句的處理。為了從文章中得到更多可以利用的訊息,會先移除不 需要消解的文字,例如:參考文獻、附圖說明等。
二、 標記基因名稱、詞性標記和名詞組的標記及辨識
本研究使用 GDep 進行標記基因名稱、詞性標記,和名詞組的標記及辨識等 工作,GDep 為應用在生醫文章的關係剖析器,藉由 GDep 可以將每個句子進行
19
分析,可以取得基因標記、詞性標記,和名詞組的標示和辨識。
A. 基因名稱標記
基因名稱標記是 GDep 在 NLPBA data set9中訓練得到的結果,可以分為 DNA、
RNA、cell_line、cell_type 和 protein 五類,由表 1 可以看出基因名稱標記的平均 效能,Precision 為 67%、Recall 為 75.78%和 F-score 為 71.37%,效能的評測如下 表:
表 1:GDep Named Entity Recognition Performance
Entity Type Recall
(%)
9 http://www.nactem.ac.uk/tsujii/GENIA/ERtask/report.html
20
表 2: Part-of-speech Labels of GENIA and Penn Treebank (PTB)
PTB GENIA Description
CC
Coordinating conjunctionCD
cardinal numberDT
determinerEX
existential thereFW
foreign wordIN
preposition/subordinating conjunctionJJ
adjectiveJJR
adjective, comparativeJJS
adjective, superlativeLS
list markerMD
modalNN
noun, singular or massNNS
noun pluralNNP
proper noun, singularNNPS
proper noun, pluralPDT
predeterminerPOS
possessive endingPRP
personal pronounPRP$ PRPP
personal pronoun, possessiveRB
adverb21
RBR
adverb, comparativeRBS
adverb, superlativeRP
particleTO
toUH
- Interjection. This doesn‟t appear in the GENIA corpus.VB
verb, base formVBD
verb, past tenseVBG
verb, gerund/present participleVBN
verb, past participleVBP
verb, sing. present, non-3dVBZ
verb, 3rd person sing. presentWDT
wh-determinerWP
wh-pronounWP$ WPP
wh-pronoun, possessiveWRB
wh-abverb#
- Pound sign. This doesn‟t appear in the GENIA corpus.$
- Dollar sign. This doesn‟t appear in the GENIA corpus..
PERIOD Period,
COMMA Comma:
COLON Colon( LRB
Left one of any paired symbols used as brackets: (, [,{, <.) RRB
Right one of any paired symbols used as brackets: ), ], }, >.22
“ LQT
Left quotation mark, single or double” RQT
Right quotation mark, single or doubleC. 名詞組的標示和辨識
名詞組的標示和辨識採用 IBO2 格式表示,表示方法為:I (Inside)、O (Outside) 和 B (Begin),一個 chunk 的開始 token 標記為 B,在 chunk 中的 token 標記為 I,
其他 token 標記為 O。
表 3 為經由 GDep 所剖析的句子,每一行所代表的意義如下:
Token number:句子中每個字的編號,這項資訊可以知道每個字在句子中的 位置。
Word:句子中被切出的字。
Lemma:字的原形,這項資訊可以知道字的原形是什麼。
Chunk tag:名詞組標記,藉由名詞組的標記可以得知名詞片語中字的位置。
POS tag:詞性標記,藉由詞性標記可以知道字的詞性,進而做名詞片語的分 類、名詞片語的過濾等工作。
Named entity:基因名稱標記,這項資訊可以知道基因所屬的類型,分為 DNA、
RNA、cell_line、cell_type 和 protein 五類。
Parent node:父節點的 token number,知道父節點的位置,可以進行句法關 係的處理。
Dependency label:與父節點的句法關係,利用這項資訊可以進行前位修飾詞 的擷取。
23
在表 3 中,NMOD 表示名詞修飾(modifier of nominal),SUB 代表主詞(subject),
ROOT 是指根節點,VC 代表動詞補語(verbal complement),VMOD 為(modifier of verb),PMOD 代表介詞修飾(modifier of preposition),P 為句號(period)。
表 3: 經由 GDep 剖析的句子
24
第五節 特徵擷取
一、 特徵值的定義
在本研究中使用 7 個特徵如表 4 所示,其中特徵𝑓𝐴和𝑓𝑎名詞片語種類表示如 下:defnp (definite noun phrase)、demnp (demonstrative noun phrase)、indefnp (indefinite noun phrase)和 quantnp (quantified noun phrase),詳細的部份會在特徵值 擷取中說明。
表 4:特徵集
特徵 定義
𝑓A 指代詞 A 的名詞片語種類:„defnp‟, „demnp‟, „indefnp‟,
„quantnp‟。
𝑓a 先行詞 a 的名詞片語種類:„defnp‟, „demnp‟, „indefnp‟,
„quantnp‟ 。
ℎ𝑚a,A 主要名詞片語是否相同:如果指代詞和候選先行詞的主要名詞 片語相同則為„yes‟,反之則為„no‟。
ℎ𝑚𝑚a,A 前位修飾詞是否相同:如果指代詞和候選先行詞的前位修飾詞 相同則為„yes‟,反之則為„no‟。
𝑛𝑢𝑚a,A 單複數類型是否相同:如果指代詞和候選先行詞的單複數類型 相同則為„yes‟,反之則為„no‟。
𝑑a,A 指代詞和候選先行詞位置間的句子距離。
𝑑𝑚a,A 指代詞和候選先行詞間的實體數量(即先行詞個數)。
25
二、 特徵值擷取
因為在生醫文獻中,代名詞的使用非常的少,幾乎都是使用生醫領域的專有 名詞,所以本研究為處理非代名詞的名詞片語的指代消解。
A. 指代詞(anaphora) 𝑓A:因為本研究為非代名詞的指代消解,在文章中,指代 詞用來代替前面出現過的敘述,本篇論文在非代名詞的取得中使用了語法特 徵、詞彙特徵以及語意特徵,將文章中所有非代名詞的名詞片語分為以下六 類:
1. 專有名詞(proper names):在 GDep 詞性標記中“NNP”為單數的專有名詞,
“NNPS”為複數的專有名詞,所以將 POS 標記為“NNP”和“NNPS”歸類為專有 名詞,例如:地名、人名和機構等。
2. 指示名詞片語(demonstrative noun phrase):將名詞片語中出現“this”、“that”等 字歸類為指示名詞片語。例如:this gene 等。
3. 定名詞片語(definite noun phrase):將名詞片語中出現“the”的字歸類為定名詞 片語,例如:the gene 等。
4. 不定名詞片語(indefinite noun phrase):將名詞片語中出現“a”或是“an”的字歸 類為不定名詞片語,例如:a gene 等。
5. 量詞片語(quantified noun phrase):在 GDep 詞性標記中,“NNS”為複數名詞,
“CD”為數詞,所以將 POS 標記為“NNS”和“CD”以及名詞片語中出現“some”、
“many”等字歸類為量詞片語,例如:two genes、some genes 等。
6. 其他名詞片語(other noun phrase):無法分類為以上 5 類的名詞片語,皆分到
26 因,所以經由 GDep 標記為生物基因(分別為 DNA、RNA、cell_line、cell_type 和 protein 五類)的名詞片語皆當作候選先行詞,例如:somatostatin-14、the AD-6 locus 等,而名詞片語的分類和擷取的方式與指代詞相同。
C. 主要名詞片語(head noun phrase) ℎ𝑚a,A:經由 GDep 進行名詞組的標記及辨 識後,判斷每個名詞片語的最後一個 I-NP (Inside Noun Phrase),將其取出當 作主要的名詞片語,如表 5 所示,noun phrase 為 secreted proteins 則 head noun phrase 為 proteins。
D. 前位修飾詞(pre-modifier) ℎ𝑚𝑚a,A:經由 GDep 判別出名詞片語上下文的語法 關係後,判斷在每個主要名詞片語與前一個字關係為“NMOD” (modifier of
nominal)、“VMOD” (modifier of verb)和“AMOD” (modifier of adjective or adverb)取得,如表 5 所示,noun phrase 為 secreted proteins 則 pre-modifier 為 secreted。
E. 數量特徵 𝑛𝑢𝑚a,A:使用詞彙特徵和詞性標記取得,在本研究中分為 singular、
plural 和 none 三類,在 GDep 詞性標記中,“NN”為單數名詞,“NNP”為單數 專有名詞,所以將 POS 標記為“NN”和“NNP”以及名詞片語中出現“a”、“this”、
“the”等字,歸類為 singular 類別。此外,“NNS”為複數名詞,“CD”為數量,
27
“NNPS”為複數專有名詞,所以將 POS 標記為“NNS”、“CD”和“NNPS”以及名 詞片語中出現“these”、“some”、“many”等字,歸類為 plural 類別,皆不屬於 以上兩類的則歸類為 none 類別,如表 5 所示,noun phrase 為 secreted proteins 則數量特徵為 plural。
F. 距離特徵 𝑑a,A:經過 GDep 剖析完所有句子,經由程式判斷每個名詞片語所 在位置後,將指代詞和先行詞的距離相減取絕對值取得。
G. 指代詞與候選先行詞間實體數量特徵 𝑑𝑚a,A:指代詞在三個句子以內的上下 文中尋找候選先行詞,經由程式判斷後取得,在本研究中實體數量為先行詞 的個數。
表 5 為特徵值範例,總共分為七欄:第一欄為名詞片語;第二欄為主要名詞,
在本例中名詞片語為 secreted proteins 則主要名詞為 proteins;第三欄為實體類型,
總共分為 DNA、RNA、cell_line、cell_type 和 protein 五類,都不屬於這五類則標 記為 O;第四欄為名詞片語種類,分為 defnp、demnp、indefnp 和 quantnp 四類;
第五欄為前位修飾詞,本表中名詞片語為 secreted proteins,其前位修飾詞為
第五欄為前位修飾詞,本表中名詞片語為 secreted proteins,其前位修飾詞為