特徵擷取

第三章研究方法

第五節特徵擷取

一、特徵值的定義

在本研究中使用 7 個特徵如表 4 所示，其中特徵𝑓_𝐴和𝑓_𝑎名詞片語種類表示如下：defnp (definite noun phrase)、demnp (demonstrative noun phrase)、indefnp (indefinite noun phrase)和 quantnp (quantified noun phrase)，詳細的部份會在特徵值擷取中說明。

表 4：特徵集

特徵定義

𝑓_A 指代詞 A 的名詞片語種類：„defnp‟, „demnp‟, „indefnp‟,

„quantnp‟。

𝑓_a 先行詞 a 的名詞片語種類：„defnp‟, „demnp‟, „indefnp‟,

„quantnp‟ 。

ℎ𝑚_a,A 主要名詞片語是否相同：如果指代詞和候選先行詞的主要名詞片語相同則為„yes‟，反之則為„no‟。

ℎ𝑚𝑚_a,A 前位修飾詞是否相同：如果指代詞和候選先行詞的前位修飾詞相同則為„yes‟，反之則為„no‟。

𝑛𝑢𝑚_a,A 單複數類型是否相同：如果指代詞和候選先行詞的單複數類型相同則為„yes‟，反之則為„no‟。

𝑑_a,A 指代詞和候選先行詞位置間的句子距離。

𝑑𝑚_a,A 指代詞和候選先行詞間的實體數量(即先行詞個數)。

二、特徵值擷取

因為在生醫文獻中，代名詞的使用非常的少，幾乎都是使用生醫領域的專有名詞，所以本研究為處理非代名詞的名詞片語的指代消解。

A. 指代詞(anaphora) 𝑓_A：因為本研究為非代名詞的指代消解，在文章中，指代詞用來代替前面出現過的敘述，本篇論文在非代名詞的取得中使用了語法特徵、詞彙特徵以及語意特徵，將文章中所有非代名詞的名詞片語分為以下六類：

1. 專有名詞(proper names)：在 GDep 詞性標記中“NNP”為單數的專有名詞，

“NNPS”為複數的專有名詞，所以將 POS 標記為“NNP”和“NNPS”歸類為專有名詞，例如：地名、人名和機構等。

2. 指示名詞片語(demonstrative noun phrase)：將名詞片語中出現“this”、“that”等 字歸類為指示名詞片語。例如：this gene 等。

3. 定名詞片語(definite noun phrase)：將名詞片語中出現“the”的字歸類為定名詞 片語，例如：the gene 等。

4. 不定名詞片語(indefinite noun phrase)：將名詞片語中出現“a”或是“an”的字歸 類為不定名詞片語，例如：a gene 等。

5. 量詞片語(quantified noun phrase)：在 GDep 詞性標記中，“NNS”為複數名詞，

“CD”為數詞，所以將 POS 標記為“NNS”和“CD”以及名詞片語中出現“some”、

“many”等字歸類為量詞片語，例如：two genes、some genes 等。

6. 其他名詞片語(other noun phrase)：無法分類為以上 5 類的名詞片語，皆分到

26 因，所以經由 GDep 標記為生物基因(分別為 DNA、RNA、cell_line、cell_type 和 protein 五類)的名詞片語皆當作候選先行詞，例如：somatostatin-14、the AD-6 locus 等，而名詞片語的分類和擷取的方式與指代詞相同。

C. 主要名詞片語(head noun phrase) ℎ𝑚_a,A：經由 GDep 進行名詞組的標記及辨識後，判斷每個名詞片語的最後一個 I-NP (Inside Noun Phrase)，將其取出當作主要的名詞片語，如表 5 所示，noun phrase 為 secreted proteins 則 head noun phrase 為 proteins。

D. 前位修飾詞(pre-modifier) ℎ𝑚𝑚_a,A：經由 GDep 判別出名詞片語上下文的語法關係後，判斷在每個主要名詞片語與前一個字關係為“NMOD” (modifier of

nominal)、“VMOD” (modifier of verb)和“AMOD” (modifier of adjective or adverb)取得，如表 5 所示，noun phrase 為 secreted proteins 則 pre-modifier 為 secreted。

E. 數量特徵 𝑛𝑢𝑚_a,A：使用詞彙特徵和詞性標記取得，在本研究中分為 singular、

plural 和 none 三類，在 GDep 詞性標記中，“NN”為單數名詞，“NNP”為單數專有名詞，所以將 POS 標記為“NN”和“NNP”以及名詞片語中出現“a”、“this”、

“the”等字，歸類為 singular 類別。此外，“NNS”為複數名詞，“CD”為數量，

“NNPS”為複數專有名詞，所以將 POS 標記為“NNS”、“CD”和“NNPS”以及名詞片語中出現“these”、“some”、“many”等字，歸類為 plural 類別，皆不屬於以上兩類的則歸類為 none 類別，如表 5 所示，noun phrase 為 secreted proteins 則數量特徵為 plural。

F. 距離特徵 𝑑_a,A：經過 GDep 剖析完所有句子，經由程式判斷每個名詞片語所在位置後，將指代詞和先行詞的距離相減取絕對值取得。

G. 指代詞與候選先行詞間實體數量特徵 𝑑𝑚_a,A：指代詞在三個句子以內的上下文中尋找候選先行詞，經由程式判斷後取得，在本研究中實體數量為先行詞的個數。

表 5 為特徵值範例，總共分為七欄：第一欄為名詞片語；第二欄為主要名詞，

在本例中名詞片語為 secreted proteins 則主要名詞為 proteins；第三欄為實體類型，

總共分為 DNA、RNA、cell_line、cell_type 和 protein 五類，都不屬於這五類則標記為 O；第四欄為名詞片語種類，分為 defnp、demnp、indefnp 和 quantnp 四類；

第五欄為前位修飾詞，本表中名詞片語為 secreted proteins，其前位修飾詞為 secreted；第六欄為名詞片語所在的句子位置；第七欄為名詞片語單複數類型，本表中名詞片語 secreted proteins 為複數。

表 5：特徵值範例

Noun phrase Head noun Entity type Noun phrase type Pre-modifier Sentence Number

secreted proteins proteins O quantnp secreted 19 plural

P(B)是 B 的先驗機率，也稱為標準化常量(normalized constant)

使用Bayes‟ theorem 的好處是可以應用在比較小的資料集上，避免資料稀疏

在文檔中以機率模型為基礎之生醫文件指代消解方法 (頁 32-36)

第三章 研究方法

第五節 特徵擷取

一、 特徵值的定義

第三章研究方法

第五節特徵擷取

一、特徵值的定義