第三章 研究方法
第五節 特徵擷取
一、 特徵值的定義
在本研究中使用 7 個特徵如表 4 所示,其中特徵𝑓𝐴和𝑓𝑎名詞片語種類表示如 下:defnp (definite noun phrase)、demnp (demonstrative noun phrase)、indefnp (indefinite noun phrase)和 quantnp (quantified noun phrase),詳細的部份會在特徵值 擷取中說明。
表 4:特徵集
特徵 定義
𝑓A 指代詞 A 的名詞片語種類:„defnp‟, „demnp‟, „indefnp‟,
„quantnp‟。
𝑓a 先行詞 a 的名詞片語種類:„defnp‟, „demnp‟, „indefnp‟,
„quantnp‟ 。
ℎ𝑚a,A 主要名詞片語是否相同:如果指代詞和候選先行詞的主要名詞 片語相同則為„yes‟,反之則為„no‟。
ℎ𝑚𝑚a,A 前位修飾詞是否相同:如果指代詞和候選先行詞的前位修飾詞 相同則為„yes‟,反之則為„no‟。
𝑛𝑢𝑚a,A 單複數類型是否相同:如果指代詞和候選先行詞的單複數類型 相同則為„yes‟,反之則為„no‟。
𝑑a,A 指代詞和候選先行詞位置間的句子距離。
𝑑𝑚a,A 指代詞和候選先行詞間的實體數量(即先行詞個數)。
25
二、 特徵值擷取
因為在生醫文獻中,代名詞的使用非常的少,幾乎都是使用生醫領域的專有 名詞,所以本研究為處理非代名詞的名詞片語的指代消解。
A. 指代詞(anaphora) 𝑓A:因為本研究為非代名詞的指代消解,在文章中,指代 詞用來代替前面出現過的敘述,本篇論文在非代名詞的取得中使用了語法特 徵、詞彙特徵以及語意特徵,將文章中所有非代名詞的名詞片語分為以下六 類:
1. 專有名詞(proper names):在 GDep 詞性標記中“NNP”為單數的專有名詞,
“NNPS”為複數的專有名詞,所以將 POS 標記為“NNP”和“NNPS”歸類為專有 名詞,例如:地名、人名和機構等。
2. 指示名詞片語(demonstrative noun phrase):將名詞片語中出現“this”、“that”等 字歸類為指示名詞片語。例如:this gene 等。
3. 定名詞片語(definite noun phrase):將名詞片語中出現“the”的字歸類為定名詞 片語,例如:the gene 等。
4. 不定名詞片語(indefinite noun phrase):將名詞片語中出現“a”或是“an”的字歸 類為不定名詞片語,例如:a gene 等。
5. 量詞片語(quantified noun phrase):在 GDep 詞性標記中,“NNS”為複數名詞,
“CD”為數詞,所以將 POS 標記為“NNS”和“CD”以及名詞片語中出現“some”、
“many”等字歸類為量詞片語,例如:two genes、some genes 等。
6. 其他名詞片語(other noun phrase):無法分類為以上 5 類的名詞片語,皆分到
26 因,所以經由 GDep 標記為生物基因(分別為 DNA、RNA、cell_line、cell_type 和 protein 五類)的名詞片語皆當作候選先行詞,例如:somatostatin-14、the AD-6 locus 等,而名詞片語的分類和擷取的方式與指代詞相同。
C. 主要名詞片語(head noun phrase) ℎ𝑚a,A:經由 GDep 進行名詞組的標記及辨 識後,判斷每個名詞片語的最後一個 I-NP (Inside Noun Phrase),將其取出當 作主要的名詞片語,如表 5 所示,noun phrase 為 secreted proteins 則 head noun phrase 為 proteins。
D. 前位修飾詞(pre-modifier) ℎ𝑚𝑚a,A:經由 GDep 判別出名詞片語上下文的語法 關係後,判斷在每個主要名詞片語與前一個字關係為“NMOD” (modifier of
nominal)、“VMOD” (modifier of verb)和“AMOD” (modifier of adjective or adverb)取得,如表 5 所示,noun phrase 為 secreted proteins 則 pre-modifier 為 secreted。
E. 數量特徵 𝑛𝑢𝑚a,A:使用詞彙特徵和詞性標記取得,在本研究中分為 singular、
plural 和 none 三類,在 GDep 詞性標記中,“NN”為單數名詞,“NNP”為單數 專有名詞,所以將 POS 標記為“NN”和“NNP”以及名詞片語中出現“a”、“this”、
“the”等字,歸類為 singular 類別。此外,“NNS”為複數名詞,“CD”為數量,
27
“NNPS”為複數專有名詞,所以將 POS 標記為“NNS”、“CD”和“NNPS”以及名 詞片語中出現“these”、“some”、“many”等字,歸類為 plural 類別,皆不屬於 以上兩類的則歸類為 none 類別,如表 5 所示,noun phrase 為 secreted proteins 則數量特徵為 plural。
F. 距離特徵 𝑑a,A:經過 GDep 剖析完所有句子,經由程式判斷每個名詞片語所 在位置後,將指代詞和先行詞的距離相減取絕對值取得。
G. 指代詞與候選先行詞間實體數量特徵 𝑑𝑚a,A:指代詞在三個句子以內的上下 文中尋找候選先行詞,經由程式判斷後取得,在本研究中實體數量為先行詞 的個數。
表 5 為特徵值範例,總共分為七欄:第一欄為名詞片語;第二欄為主要名詞,
在本例中名詞片語為 secreted proteins 則主要名詞為 proteins;第三欄為實體類型,
總共分為 DNA、RNA、cell_line、cell_type 和 protein 五類,都不屬於這五類則標 記為 O;第四欄為名詞片語種類,分為 defnp、demnp、indefnp 和 quantnp 四類;
第五欄為前位修飾詞,本表中名詞片語為 secreted proteins,其前位修飾詞為 secreted;第六欄為名詞片語所在的句子位置;第七欄為名詞片語單複數類型,本 表中名詞片語 secreted proteins 為複數。
表 5:特徵值範例
Noun phrase Head noun Entity type Noun phrase type Pre-modifier Sentence Number
secreted proteins proteins O quantnp secreted 19 plural
28
P(B)是 B 的先驗機率,也稱為標準化常量(normalized constant)
使用Bayes‟ theorem 的好處是可以應用在比較小的資料集上,避免資料稀疏