• 沒有找到結果。

第三章 研究方法

第五節 特徵擷取

一、 特徵值的定義

在本研究中使用 7 個特徵如表 4 所示,其中特徵𝑓𝐴和𝑓𝑎名詞片語種類表示如 下:defnp (definite noun phrase)、demnp (demonstrative noun phrase)、indefnp (indefinite noun phrase)和 quantnp (quantified noun phrase),詳細的部份會在特徵值 擷取中說明。

表 4:特徵集

特徵 定義

𝑓A 指代詞 A 的名詞片語種類:„defnp‟, „demnp‟, „indefnp‟,

„quantnp‟。

𝑓a 先行詞 a 的名詞片語種類:„defnp‟, „demnp‟, „indefnp‟,

„quantnp‟ 。

ℎ𝑚a,A 主要名詞片語是否相同:如果指代詞和候選先行詞的主要名詞 片語相同則為„yes‟,反之則為„no‟。

ℎ𝑚𝑚a,A 前位修飾詞是否相同:如果指代詞和候選先行詞的前位修飾詞 相同則為„yes‟,反之則為„no‟。

𝑛𝑢𝑚a,A 單複數類型是否相同:如果指代詞和候選先行詞的單複數類型 相同則為„yes‟,反之則為„no‟。

𝑑a,A 指代詞和候選先行詞位置間的句子距離。

𝑑𝑚a,A 指代詞和候選先行詞間的實體數量(即先行詞個數)。

25

二、 特徵值擷取

因為在生醫文獻中,代名詞的使用非常的少,幾乎都是使用生醫領域的專有 名詞,所以本研究為處理非代名詞的名詞片語的指代消解。

A. 指代詞(anaphora) 𝑓A:因為本研究為非代名詞的指代消解,在文章中,指代 詞用來代替前面出現過的敘述,本篇論文在非代名詞的取得中使用了語法特 徵、詞彙特徵以及語意特徵,將文章中所有非代名詞的名詞片語分為以下六 類:

1. 專有名詞(proper names):在 GDep 詞性標記中“NNP”為單數的專有名詞,

“NNPS”為複數的專有名詞,所以將 POS 標記為“NNP”和“NNPS”歸類為專有 名詞,例如:地名、人名和機構等。

2. 指示名詞片語(demonstrative noun phrase):將名詞片語中出現“this”、“that”等 字歸類為指示名詞片語。例如:this gene 等。

3. 定名詞片語(definite noun phrase):將名詞片語中出現“the”的字歸類為定名詞 片語,例如:the gene 等。

4. 不定名詞片語(indefinite noun phrase):將名詞片語中出現“a”或是“an”的字歸 類為不定名詞片語,例如:a gene 等。

5. 量詞片語(quantified noun phrase):在 GDep 詞性標記中,“NNS”為複數名詞,

“CD”為數詞,所以將 POS 標記為“NNS”和“CD”以及名詞片語中出現“some”、

“many”等字歸類為量詞片語,例如:two genes、some genes 等。

6. 其他名詞片語(other noun phrase):無法分類為以上 5 類的名詞片語,皆分到

26 因,所以經由 GDep 標記為生物基因(分別為 DNA、RNA、cell_line、cell_type 和 protein 五類)的名詞片語皆當作候選先行詞,例如:somatostatin-14、the AD-6 locus 等,而名詞片語的分類和擷取的方式與指代詞相同。

C. 主要名詞片語(head noun phrase) ℎ𝑚a,A:經由 GDep 進行名詞組的標記及辨 識後,判斷每個名詞片語的最後一個 I-NP (Inside Noun Phrase),將其取出當 作主要的名詞片語,如表 5 所示,noun phrase 為 secreted proteins 則 head noun phrase 為 proteins。

D. 前位修飾詞(pre-modifier) ℎ𝑚𝑚a,A:經由 GDep 判別出名詞片語上下文的語法 關係後,判斷在每個主要名詞片語與前一個字關係為“NMOD” (modifier of

nominal)、“VMOD” (modifier of verb)和“AMOD” (modifier of adjective or adverb)取得,如表 5 所示,noun phrase 為 secreted proteins 則 pre-modifier 為 secreted。

E. 數量特徵 𝑛𝑢𝑚a,A:使用詞彙特徵和詞性標記取得,在本研究中分為 singular、

plural 和 none 三類,在 GDep 詞性標記中,“NN”為單數名詞,“NNP”為單數 專有名詞,所以將 POS 標記為“NN”和“NNP”以及名詞片語中出現“a”、“this”、

“the”等字,歸類為 singular 類別。此外,“NNS”為複數名詞,“CD”為數量,

27

“NNPS”為複數專有名詞,所以將 POS 標記為“NNS”、“CD”和“NNPS”以及名 詞片語中出現“these”、“some”、“many”等字,歸類為 plural 類別,皆不屬於 以上兩類的則歸類為 none 類別,如表 5 所示,noun phrase 為 secreted proteins 則數量特徵為 plural。

F. 距離特徵 𝑑a,A:經過 GDep 剖析完所有句子,經由程式判斷每個名詞片語所 在位置後,將指代詞和先行詞的距離相減取絕對值取得。

G. 指代詞與候選先行詞間實體數量特徵 𝑑𝑚a,A:指代詞在三個句子以內的上下 文中尋找候選先行詞,經由程式判斷後取得,在本研究中實體數量為先行詞 的個數。

表 5 為特徵值範例,總共分為七欄:第一欄為名詞片語;第二欄為主要名詞,

在本例中名詞片語為 secreted proteins 則主要名詞為 proteins;第三欄為實體類型,

總共分為 DNA、RNA、cell_line、cell_type 和 protein 五類,都不屬於這五類則標 記為 O;第四欄為名詞片語種類,分為 defnp、demnp、indefnp 和 quantnp 四類;

第五欄為前位修飾詞,本表中名詞片語為 secreted proteins,其前位修飾詞為 secreted;第六欄為名詞片語所在的句子位置;第七欄為名詞片語單複數類型,本 表中名詞片語 secreted proteins 為複數。

表 5:特徵值範例

Noun phrase Head noun Entity type Noun phrase type Pre-modifier Sentence Number

secreted proteins proteins O quantnp secreted 19 plural

28

P(B)是 B 的先驗機率,也稱為標準化常量(normalized constant)

使用Bayes‟ theorem 的好處是可以應用在比較小的資料集上,避免資料稀疏

相關文件