第三章 研究方法
第三節 研究方法描述
本篇論文的方法分為四個主要部份:(1)資料前處理,(2)特徵擷取,(3)名詞 片語分類以及(4)使用機率模型進行指代消解。在資料前置處理部份,本論文依照 句點符號將句子做分句處理以及消除一些干擾的雜訊,並藉由 GDep 進行詞性標 記、基因名稱標記和名詞組的標示和辨識。在特徵擷取部份中,本論文擷取出每 個名詞片語的詞性標記、將所有名詞片語進行分類、辨識所有的名詞片語和句子 所在位置,和辨識主要名詞片語及前位修飾詞做為本研究的特徵集,將經過標註 的名詞片語分為指代詞和先行詞兩類,在最後的步驟中,本論文使用機率模型處 理所有非代名詞指代消解。
第四節 資料前置處理
一、 分句與雜訊排除
為了能夠精準判斷每個句子的位置以及句子的範圍,在資料前處理中,本研 究利用句號做分句的處理。為了從文章中得到更多可以利用的訊息,會先移除不 需要消解的文字,例如:參考文獻、附圖說明等。
二、 標記基因名稱、詞性標記和名詞組的標記及辨識
本研究使用 GDep 進行標記基因名稱、詞性標記,和名詞組的標記及辨識等 工作,GDep 為應用在生醫文章的關係剖析器,藉由 GDep 可以將每個句子進行
19
分析,可以取得基因標記、詞性標記,和名詞組的標示和辨識。
A. 基因名稱標記
基因名稱標記是 GDep 在 NLPBA data set9中訓練得到的結果,可以分為 DNA、
RNA、cell_line、cell_type 和 protein 五類,由表 1 可以看出基因名稱標記的平均 效能,Precision 為 67%、Recall 為 75.78%和 F-score 為 71.37%,效能的評測如下 表:
表 1:GDep Named Entity Recognition Performance
Entity Type Recall
(%)
9 http://www.nactem.ac.uk/tsujii/GENIA/ERtask/report.html
20
表 2: Part-of-speech Labels of GENIA and Penn Treebank (PTB)
PTB GENIA Description
CC
Coordinating conjunctionCD
cardinal numberDT
determinerEX
existential thereFW
foreign wordIN
preposition/subordinating conjunctionJJ
adjectiveJJR
adjective, comparativeJJS
adjective, superlativeLS
list markerMD
modalNN
noun, singular or massNNS
noun pluralNNP
proper noun, singularNNPS
proper noun, pluralPDT
predeterminerPOS
possessive endingPRP
personal pronounPRP$ PRPP
personal pronoun, possessiveRB
adverb21
RBR
adverb, comparativeRBS
adverb, superlativeRP
particleTO
toUH
- Interjection. This doesn‟t appear in the GENIA corpus.VB
verb, base formVBD
verb, past tenseVBG
verb, gerund/present participleVBN
verb, past participleVBP
verb, sing. present, non-3dVBZ
verb, 3rd person sing. presentWDT
wh-determinerWP
wh-pronounWP$ WPP
wh-pronoun, possessiveWRB
wh-abverb#
- Pound sign. This doesn‟t appear in the GENIA corpus.$
- Dollar sign. This doesn‟t appear in the GENIA corpus..
PERIOD Period,
COMMA Comma:
COLON Colon( LRB
Left one of any paired symbols used as brackets: (, [,{, <.) RRB
Right one of any paired symbols used as brackets: ), ], }, >.22
“ LQT
Left quotation mark, single or double” RQT
Right quotation mark, single or doubleC. 名詞組的標示和辨識
名詞組的標示和辨識採用 IBO2 格式表示,表示方法為:I (Inside)、O (Outside) 和 B (Begin),一個 chunk 的開始 token 標記為 B,在 chunk 中的 token 標記為 I,
其他 token 標記為 O。
表 3 為經由 GDep 所剖析的句子,每一行所代表的意義如下:
Token number:句子中每個字的編號,這項資訊可以知道每個字在句子中的 位置。
Word:句子中被切出的字。
Lemma:字的原形,這項資訊可以知道字的原形是什麼。
Chunk tag:名詞組標記,藉由名詞組的標記可以得知名詞片語中字的位置。
POS tag:詞性標記,藉由詞性標記可以知道字的詞性,進而做名詞片語的分 類、名詞片語的過濾等工作。
Named entity:基因名稱標記,這項資訊可以知道基因所屬的類型,分為 DNA、
RNA、cell_line、cell_type 和 protein 五類。
Parent node:父節點的 token number,知道父節點的位置,可以進行句法關 係的處理。
Dependency label:與父節點的句法關係,利用這項資訊可以進行前位修飾詞 的擷取。
23
在表 3 中,NMOD 表示名詞修飾(modifier of nominal),SUB 代表主詞(subject),
ROOT 是指根節點,VC 代表動詞補語(verbal complement),VMOD 為(modifier of verb),PMOD 代表介詞修飾(modifier of preposition),P 為句號(period)。
表 3: 經由 GDep 剖析的句子
24
第五節 特徵擷取
一、 特徵值的定義
在本研究中使用 7 個特徵如表 4 所示,其中特徵𝑓𝐴和𝑓𝑎名詞片語種類表示如 下:defnp (definite noun phrase)、demnp (demonstrative noun phrase)、indefnp (indefinite noun phrase)和 quantnp (quantified noun phrase),詳細的部份會在特徵值 擷取中說明。
表 4:特徵集
特徵 定義
𝑓A 指代詞 A 的名詞片語種類:„defnp‟, „demnp‟, „indefnp‟,
„quantnp‟。
𝑓a 先行詞 a 的名詞片語種類:„defnp‟, „demnp‟, „indefnp‟,
„quantnp‟ 。
ℎ𝑚a,A 主要名詞片語是否相同:如果指代詞和候選先行詞的主要名詞 片語相同則為„yes‟,反之則為„no‟。
ℎ𝑚𝑚a,A 前位修飾詞是否相同:如果指代詞和候選先行詞的前位修飾詞 相同則為„yes‟,反之則為„no‟。
𝑛𝑢𝑚a,A 單複數類型是否相同:如果指代詞和候選先行詞的單複數類型 相同則為„yes‟,反之則為„no‟。
𝑑a,A 指代詞和候選先行詞位置間的句子距離。
𝑑𝑚a,A 指代詞和候選先行詞間的實體數量(即先行詞個數)。
25
二、 特徵值擷取
因為在生醫文獻中,代名詞的使用非常的少,幾乎都是使用生醫領域的專有 名詞,所以本研究為處理非代名詞的名詞片語的指代消解。
A. 指代詞(anaphora) 𝑓A:因為本研究為非代名詞的指代消解,在文章中,指代 詞用來代替前面出現過的敘述,本篇論文在非代名詞的取得中使用了語法特 徵、詞彙特徵以及語意特徵,將文章中所有非代名詞的名詞片語分為以下六 類:
1. 專有名詞(proper names):在 GDep 詞性標記中“NNP”為單數的專有名詞,
“NNPS”為複數的專有名詞,所以將 POS 標記為“NNP”和“NNPS”歸類為專有 名詞,例如:地名、人名和機構等。
2. 指示名詞片語(demonstrative noun phrase):將名詞片語中出現“this”、“that”等 字歸類為指示名詞片語。例如:this gene 等。
3. 定名詞片語(definite noun phrase):將名詞片語中出現“the”的字歸類為定名詞 片語,例如:the gene 等。
4. 不定名詞片語(indefinite noun phrase):將名詞片語中出現“a”或是“an”的字歸 類為不定名詞片語,例如:a gene 等。
5. 量詞片語(quantified noun phrase):在 GDep 詞性標記中,“NNS”為複數名詞,
“CD”為數詞,所以將 POS 標記為“NNS”和“CD”以及名詞片語中出現“some”、
“many”等字歸類為量詞片語,例如:two genes、some genes 等。
6. 其他名詞片語(other noun phrase):無法分類為以上 5 類的名詞片語,皆分到
26 因,所以經由 GDep 標記為生物基因(分別為 DNA、RNA、cell_line、cell_type 和 protein 五類)的名詞片語皆當作候選先行詞,例如:somatostatin-14、the AD-6 locus 等,而名詞片語的分類和擷取的方式與指代詞相同。
C. 主要名詞片語(head noun phrase) ℎ𝑚a,A:經由 GDep 進行名詞組的標記及辨 識後,判斷每個名詞片語的最後一個 I-NP (Inside Noun Phrase),將其取出當 作主要的名詞片語,如表 5 所示,noun phrase 為 secreted proteins 則 head noun phrase 為 proteins。
D. 前位修飾詞(pre-modifier) ℎ𝑚𝑚a,A:經由 GDep 判別出名詞片語上下文的語法 關係後,判斷在每個主要名詞片語與前一個字關係為“NMOD” (modifier of
nominal)、“VMOD” (modifier of verb)和“AMOD” (modifier of adjective or adverb)取得,如表 5 所示,noun phrase 為 secreted proteins 則 pre-modifier 為 secreted。
E. 數量特徵 𝑛𝑢𝑚a,A:使用詞彙特徵和詞性標記取得,在本研究中分為 singular、
plural 和 none 三類,在 GDep 詞性標記中,“NN”為單數名詞,“NNP”為單數 專有名詞,所以將 POS 標記為“NN”和“NNP”以及名詞片語中出現“a”、“this”、
“the”等字,歸類為 singular 類別。此外,“NNS”為複數名詞,“CD”為數量,
27
“NNPS”為複數專有名詞,所以將 POS 標記為“NNS”、“CD”和“NNPS”以及名 詞片語中出現“these”、“some”、“many”等字,歸類為 plural 類別,皆不屬於 以上兩類的則歸類為 none 類別,如表 5 所示,noun phrase 為 secreted proteins 則數量特徵為 plural。
F. 距離特徵 𝑑a,A:經過 GDep 剖析完所有句子,經由程式判斷每個名詞片語所 在位置後,將指代詞和先行詞的距離相減取絕對值取得。
G. 指代詞與候選先行詞間實體數量特徵 𝑑𝑚a,A:指代詞在三個句子以內的上下 文中尋找候選先行詞,經由程式判斷後取得,在本研究中實體數量為先行詞 的個數。
表 5 為特徵值範例,總共分為七欄:第一欄為名詞片語;第二欄為主要名詞,
在本例中名詞片語為 secreted proteins 則主要名詞為 proteins;第三欄為實體類型,
總共分為 DNA、RNA、cell_line、cell_type 和 protein 五類,都不屬於這五類則標 記為 O;第四欄為名詞片語種類,分為 defnp、demnp、indefnp 和 quantnp 四類;
第五欄為前位修飾詞,本表中名詞片語為 secreted proteins,其前位修飾詞為 secreted;第六欄為名詞片語所在的句子位置;第七欄為名詞片語單複數類型,本 表中名詞片語 secreted proteins 為複數。
表 5:特徵值範例
Noun phrase Head noun Entity type Noun phrase type Pre-modifier Sentence Number
secreted proteins proteins O quantnp secreted 19 plural
28
P(B)是 B 的先驗機率,也稱為標準化常量(normalized constant)
使用Bayes‟ theorem 的好處是可以應用在比較小的資料集上,避免資料稀疏
29
對每個候選先行詞 a、指代詞 A 和具有指代關係 C,計算它們間的指代關係 機率 P,P 定義如下:
𝑃(C|𝑓A, 𝑓a, ℎ𝑚a,A, ℎ𝑚𝑚a,A, 𝑛𝑢𝑚a,A, 𝑑a,A, 𝑑𝑚a,A)
(2)
為了減少資料稀疏性問題,將公式分解並假設特徵值為互相獨立,為了增加 公式可讀性,將特徵值的下標移除,再使用貝式定理,則公式(2)可改寫為公式(3):
𝑃(𝐶)𝑃(𝑓A, 𝑓a, ℎ𝑚, ℎ𝑚𝑚, 𝑛𝑢𝑚, 𝑑, 𝑑𝑚|𝐶) 𝑃(𝑓A, 𝑓a, ℎ𝑚, ℎ𝑚𝑚, 𝑛𝑢𝑚, 𝑑, 𝑑𝑚)
(3)
因為分母會因為特徵值需求而改變形式,所以對分子和分母使用 chain rule 進行標準化,而得到公式(4):
P C 𝑃 𝑓A 𝐶 𝑃 𝑓a 𝐶, 𝑓A 𝑃 𝑑, 𝑑𝑚 𝐶, 𝑓A, 𝑓a
𝑃 𝑛𝑢𝑚 𝐶, 𝑓A, 𝑓a, 𝑑, 𝑑𝑚 𝑃(ℎ𝑚, ℎ𝑚𝑚|𝐶, 𝑓A, 𝑓a, 𝑑, 𝑑𝑚, 𝑛𝑢𝑚) 𝑃 𝑓A 𝑃 𝑓a 𝑓A 𝑃 𝑑, 𝑑𝑚 𝑓A, 𝑓a
𝑃 𝑛𝑢𝑚 𝑓A, 𝑓a, 𝑑, 𝑑𝑚 𝑃(ℎ𝑚, ℎ𝑚𝑚|𝑓A, 𝑓a, 𝑑, 𝑑𝑚, 𝑛𝑢𝑚)
(4)
根據公式(4)計算每個互相獨立的特徵值,因為在指代消解中字彙特徵與距離 特徵和名詞片語的單複數是互相獨立的,所以認為字彙特徵 hm (主要名詞片語)、
hmm (前位修飾詞)與 d (距離特徵)、dm (指代詞與候選先行詞間實體數量特徵)、
30
num (數量特徵)獨立,簡化公式如下:
𝑃 ℎ𝑚, ℎ𝑚𝑚 𝐶, 𝑓A, 𝑓a, 𝑑, 𝑑𝑚, 𝑛𝑢𝑚 ∝ 𝑃(ℎ𝑚, ℎ𝑚𝑚|𝐶, 𝑓A, 𝑓a)
(5)
在實驗中,因為名詞片語的單複數和距離特徵是互相獨立的,所以 num (數 量特徵)與 d (距離特徵)、dm (指代詞與候選先行詞間實體數量特徵)互相獨立,簡 化公式如下:
𝑃 𝑛𝑢𝑚 𝐶, 𝑓A, 𝑓a, 𝑑, 𝑑𝑚 ∝ 𝑃(𝑛𝑢𝑚|𝐶, 𝑓A, 𝑓a)
(6)
最後將公式(5)和公式(6)代入原式,得到公式如下:
𝑃(𝐶|𝑓A, 𝑓a, ℎ𝑚, ℎ𝑚𝑚, 𝑛𝑢𝑚, 𝑑, 𝑑𝑚)=
𝑃 𝐶 𝑃 𝑓A 𝐶 𝑃 𝑓a 𝐶, 𝑓A 𝑃 𝑑, 𝑑𝑚 𝐶, 𝑓A, 𝑓a 𝑃 𝑛𝑢𝑚 𝐶, 𝑓A, 𝑓a 𝑃 ℎ𝑚, ℎ𝑚𝑚 𝐶, 𝑓A, 𝑓a
𝑃 𝑓A 𝑃 𝑓a 𝑓A 𝑃 𝑑, 𝑑𝑚 𝑓A, 𝑓a 𝑃 𝑛𝑢𝑚 𝑓A, 𝑓a 𝑃(ℎ𝑚, ℎ𝑚𝑚|𝑓A, 𝑓a)
(7)
在本論文中,使用公式(7)當作機率模型公式,對所有指代詞進行指代消解。
31
第四章 實驗過程與實驗結果
第一節 實驗資料
本節將介紹在本篇論文實驗所採用的資料集,實驗中所用到的文件集為四篇 生物醫學領域上關於阿茲海默症的文本全文,這四篇文章是從QA4MRE中的子計 畫'Machine reading of biomedical texts about Alzheimer's Disease'中所提供的測詴文 件, QA4MRE這個計畫主要是發展具有問答 (question answering) 和閱讀理解
(reading comprehension)的機器閱讀系統,指代現象通常存在於文章中,所以選擇 使用文本全文而不是使用摘要來當作研究資源的主要原因。
第二節 評估測量標準
在這篇論文中用 Christopher (2008)等人的公式來作為評估標準(evaluation metric),第一個是精確度(Precision),第二個是回收率(Recall),第三個則是 F-度 量(F-measure),下面是 Precision、Recall 及 F-measure 的說明:
1. 精確度
本研究將程式中經由規則判斷取出需要進行消解的的名詞片語當作分 母,能夠正確消解的名詞片語當作是分子,如公式(8)所示:
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 正確消解的名詞片語數目
系統辨識需要消解名詞片語的數目× 100%
(8)
32
2. 回收率
在回收率中,本研究將所有名詞片語的總數當分母,能夠正確消解的名 詞片語當作分子,如公式(9)所示:
𝑅𝑒𝑐𝑎𝑙𝑙 =正確消解的名詞片語數目
名詞片語總數 × 100%
(9) 3. F-度量
F-度量是一種可以同時兼顧精確度和回收率的評估標準,如公式(10)所 示:
𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = 2 × 𝑅𝑒𝑐𝑎𝑙𝑙 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 100%
(10)
第三節 實驗結果與分析
本研究的實驗在對四篇文章(文章編號為 PMID22506010、PMID22509294、
PMID22523685 和 PMID22529981)進行處理後,得到具有指代關係的名詞片語,
總共有 1910 個,在各篇文章之分佈如圖 8 所示,其中定名詞片語 642 個、指示
總共有 1910 個,在各篇文章之分佈如圖 8 所示,其中定名詞片語 642 個、指示