實驗資料

第四章實驗過程語實驗結果

第一節實驗資料

由於本研究主旨為分析生物醫學文獻上包含疾病與基因句子中的指代問題，

所以選用的文獻必頇具備疾病與基因的資訊，因此選擇 CLEF⁵ (Conference and Labs of the Evaluation Forum, formerly known as Cross-Language Evaluation Forum) 中的 QA4MRE⁶ (Question Answering for Machine Reading Evaluation)任務所使用的資料集。

從 2000 年起 CLEF 在資訊檢索領域就扮演著關鍵角色，經過多年後，CLEF 已經成為跨越不同領域的科學研究團體，而 QA4MRE 這個任務主要是發展具有問答(question answering)和閱讀理解(reading comprehension)的機器閱讀系統，本研究使用 QA4MRE 在 2012 年的子任務：Machine reading of biomedical texts about Alzheimer's Disease，這項任務主要是探索阿茲海默症文章在問答系統的能力，在任務中提供參與者測詴系統效能的文本，讓參與者能夠清楚知道他們的系統效能。

使用這些測詴文件具有一定的測詴比較基準和公平性，網站如圖 5 所示。

5 http://www.clef2013.org/index.php

6 http://celct.fbk.eu/QA4MRE/

圖 5：QA4MRE 網站

在分析句子的工具中，本研究所使用的是 GDep⁷ (GENIA Dependency parser)，GDep 是由東京大學 Tsujii 實驗室所研發的剖析器，GDep 包含在 GENIA 計畫中，這個計畫從 1988 年就開始進行，Tsujii 實驗室也有參與 GENIA 計畫的開發任務，使用 GENIA 語料庫當作訓練和測詴的語料庫，開發了許多工具，例如：共指標記、詞性標記、關係標記等，其中詞性標記所使用的是 Penn Treebank⁸ 詞性資料庫，Tsujii 實驗室在生物領域上具有不錯的成果其所開發的工具也具有不錯的效能，所以在本研究中使用 GDep 剖析器進行標註基因名稱、詞性標記和名詞組的標示和辨識，詳細的資訊會在下面的章節介紹，圖 6 為 GENIA Project 的網站。

7 http://people.ict.usc.edu/~sagae/parser/gdep/

8 http://www.cis.upenn.edu/~treebank/

圖 6：GENIA Project 網站

第二節研究方法架構

本篇論文研究的架構如圖 7 所示，一開始先對收集的四篇關於阿茲海默症的生醫文獻做資料前處理，包括切出正確句子(split sentence)、標註所有基因名稱(tag gene names)、詞性標記(part-of-speech tagging)，和名詞組的標示和辨識(noun phrase chunking)。為了得到所需要的各項特徵值，接著進行以下的處理，包括先行詞和指代詞間的範圍偵測(boundary detection)、辨識所有的名詞片語(identify all NPs)。

在標註基因名稱和詞性標記的部份，本研究使用 Sagae (2007)等人開發的 GDep (GENIA Dependency parser)，將得到的資料分成兩個集合，一個為標註基因的名詞片語當作先行詞的集合，另一個為指代詞的集合。將兩個集合的特徵值代入機率模型進行統計，選出最有可能的候選先行詞進行指代消解，最後進行系統效能的評測。

17 Evaluation

圖 7：本論文研究之架構及流程設計

4 full-text articles

Preprocessing Split sentence

Tag gene names Noun phrase chunking Part-of-speech tagging

Feature extraction Boundary detection

Identify all NPs

GDep

Probabilistic Model

Resolution results Noun phase filtering

Rule set Feature set

Classification Antecedent

Anaphora

第三節研究方法描述

本篇論文的方法分為四個主要部份：(1)資料前處理，(2)特徵擷取，(3)名詞片語分類以及(4)使用機率模型進行指代消解。在資料前置處理部份，本論文依照句點符號將句子做分句處理以及消除一些干擾的雜訊，並藉由 GDep 進行詞性標記、基因名稱標記和名詞組的標示和辨識。在特徵擷取部份中，本論文擷取出每個名詞片語的詞性標記、將所有名詞片語進行分類、辨識所有的名詞片語和句子所在位置，和辨識主要名詞片語及前位修飾詞做為本研究的特徵集，將經過標註的名詞片語分為指代詞和先行詞兩類，在最後的步驟中，本論文使用機率模型處理所有非代名詞指代消解。

第四節資料前置處理

一、分句與雜訊排除

為了能夠精準判斷每個句子的位置以及句子的範圍，在資料前處理中，本研究利用句號做分句的處理。為了從文章中得到更多可以利用的訊息，會先移除不需要消解的文字，例如：參考文獻、附圖說明等。

二、標記基因名稱、詞性標記和名詞組的標記及辨識

本研究使用 GDep 進行標記基因名稱、詞性標記，和名詞組的標記及辨識等工作，GDep 為應用在生醫文章的關係剖析器，藉由 GDep 可以將每個句子進行

分析，可以取得基因標記、詞性標記，和名詞組的標示和辨識。

A. 基因名稱標記

基因名稱標記是 GDep 在 NLPBA data set⁹中訓練得到的結果，可以分為 DNA、

RNA、cell_line、cell_type 和 protein 五類，由表 1 可以看出基因名稱標記的平均效能，Precision 為 67%、Recall 為 75.78%和 F-score 為 71.37%，效能的評測如下表：

表 1：GDep Named Entity Recognition Performance

Entity Type Recall

(%)

9 http://www.nactem.ac.uk/tsujii/GENIA/ERtask/report.html

表 2: Part-of-speech Labels of GENIA and Penn Treebank (PTB)

PTB GENIA Description

CC

Coordinating conjunction

CD

cardinal number

DT

determiner

EX

existential there

FW

foreign word

IN

preposition/subordinating conjunction

JJ

adjective

JJR

adjective, comparative

JJS

adjective, superlative

LS

list marker

MD

modal

NN

noun, singular or mass

NNS

noun plural

NNP

proper noun, singular

NNPS

proper noun, plural

PDT

predeterminer

POS

possessive ending

PRP

personal pronoun

PRP$ PRPP

personal pronoun, possessive

RB

adverb

RBR

adverb, comparative

RBS

adverb, superlative

RP

particle

TO

UH

- Interjection. This doesn‟t appear in the GENIA corpus.

VB

verb, base form

VBD

verb, past tense

VBG

verb, gerund/present participle

VBN

verb, past participle

VBP

verb, sing. present, non-3d

VBZ

verb, 3rd person sing. present

WDT

wh-determiner

WP

wh-pronoun

WP$ WPP

wh-pronoun, possessive

WRB

wh-abverb

#

- Pound sign. This doesn‟t appear in the GENIA corpus.

$

- Dollar sign. This doesn‟t appear in the GENIA corpus.

.

PERIOD Period

,

COMMA Comma

:

COLON Colon

( LRB

Left one of any paired symbols used as brackets: (, [,{, <.

) RRB

Right one of any paired symbols used as brackets: ), ], }, >.

“ LQT

Left quotation mark, single or double

” RQT

Right quotation mark, single or double

C. 名詞組的標示和辨識

名詞組的標示和辨識採用 IBO2 格式表示，表示方法為：I (Inside)、O (Outside) 和 B (Begin)，一個 chunk 的開始 token 標記為 B，在 chunk 中的 token 標記為 I，

其他 token 標記為 O。

表 3 為經由 GDep 所剖析的句子，每一行所代表的意義如下：

 Token number：句子中每個字的編號，這項資訊可以知道每個字在句子中的位置。

 Word：句子中被切出的字。

 Lemma：字的原形，這項資訊可以知道字的原形是什麼。

 Chunk tag：名詞組標記，藉由名詞組的標記可以得知名詞片語中字的位置。

 POS tag：詞性標記，藉由詞性標記可以知道字的詞性，進而做名詞片語的分類、名詞片語的過濾等工作。

 Named entity：基因名稱標記，這項資訊可以知道基因所屬的類型，分為 DNA、

RNA、cell_line、cell_type 和 protein 五類。

 Parent node：父節點的 token number，知道父節點的位置，可以進行句法關係的處理。

 Dependency label：與父節點的句法關係，利用這項資訊可以進行前位修飾詞的擷取。

在表 3 中，NMOD 表示名詞修飾(modifier of nominal)，SUB 代表主詞(subject)，

ROOT 是指根節點，VC 代表動詞補語(verbal complement)，VMOD 為(modifier of verb)，PMOD 代表介詞修飾(modifier of preposition)，P 為句號(period)。

表 3: 經由 GDep 剖析的句子

第五節特徵擷取

一、特徵值的定義

在本研究中使用 7 個特徵如表 4 所示，其中特徵𝑓_𝐴和𝑓_𝑎名詞片語種類表示如下：defnp (definite noun phrase)、demnp (demonstrative noun phrase)、indefnp (indefinite noun phrase)和 quantnp (quantified noun phrase)，詳細的部份會在特徵值擷取中說明。

表 4：特徵集

特徵定義

𝑓_A 指代詞 A 的名詞片語種類：„defnp‟, „demnp‟, „indefnp‟,

„quantnp‟。

𝑓_a 先行詞 a 的名詞片語種類：„defnp‟, „demnp‟, „indefnp‟,

„quantnp‟ 。

ℎ𝑚_a,A 主要名詞片語是否相同：如果指代詞和候選先行詞的主要名詞片語相同則為„yes‟，反之則為„no‟。

ℎ𝑚𝑚_a,A 前位修飾詞是否相同：如果指代詞和候選先行詞的前位修飾詞相同則為„yes‟，反之則為„no‟。

𝑛𝑢𝑚_a,A 單複數類型是否相同：如果指代詞和候選先行詞的單複數類型相同則為„yes‟，反之則為„no‟。

𝑑_a,A 指代詞和候選先行詞位置間的句子距離。

𝑑𝑚_a,A 指代詞和候選先行詞間的實體數量(即先行詞個數)。

二、特徵值擷取

因為在生醫文獻中，代名詞的使用非常的少，幾乎都是使用生醫領域的專有名詞，所以本研究為處理非代名詞的名詞片語的指代消解。

A. 指代詞(anaphora) 𝑓_A：因為本研究為非代名詞的指代消解，在文章中，指代詞用來代替前面出現過的敘述，本篇論文在非代名詞的取得中使用了語法特徵、詞彙特徵以及語意特徵，將文章中所有非代名詞的名詞片語分為以下六類：

1. 專有名詞(proper names)：在 GDep 詞性標記中“NNP”為單數的專有名詞，

“NNPS”為複數的專有名詞，所以將 POS 標記為“NNP”和“NNPS”歸類為專有名詞，例如：地名、人名和機構等。

2. 指示名詞片語(demonstrative noun phrase)：將名詞片語中出現“this”、“that”等 字歸類為指示名詞片語。例如：this gene 等。

3. 定名詞片語(definite noun phrase)：將名詞片語中出現“the”的字歸類為定名詞 片語，例如：the gene 等。

4. 不定名詞片語(indefinite noun phrase)：將名詞片語中出現“a”或是“an”的字歸 類為不定名詞片語，例如：a gene 等。

5. 量詞片語(quantified noun phrase)：在 GDep 詞性標記中，“NNS”為複數名詞，

“CD”為數詞，所以將 POS 標記為“NNS”和“CD”以及名詞片語中出現“some”、

“many”等字歸類為量詞片語，例如：two genes、some genes 等。

6. 其他名詞片語(other noun phrase)：無法分類為以上 5 類的名詞片語，皆分到

26 因，所以經由 GDep 標記為生物基因(分別為 DNA、RNA、cell_line、cell_type 和 protein 五類)的名詞片語皆當作候選先行詞，例如：somatostatin-14、the AD-6 locus 等，而名詞片語的分類和擷取的方式與指代詞相同。

C. 主要名詞片語(head noun phrase) ℎ𝑚_a,A：經由 GDep 進行名詞組的標記及辨識後，判斷每個名詞片語的最後一個 I-NP (Inside Noun Phrase)，將其取出當作主要的名詞片語，如表 5 所示，noun phrase 為 secreted proteins 則 head noun phrase 為 proteins。

D. 前位修飾詞(pre-modifier) ℎ𝑚𝑚_a,A：經由 GDep 判別出名詞片語上下文的語法關係後，判斷在每個主要名詞片語與前一個字關係為“NMOD” (modifier of

nominal)、“VMOD” (modifier of verb)和“AMOD” (modifier of adjective or adverb)取得，如表 5 所示，noun phrase 為 secreted proteins 則 pre-modifier 為 secreted。

E. 數量特徵 𝑛𝑢𝑚_a,A：使用詞彙特徵和詞性標記取得，在本研究中分為 singular、

plural 和 none 三類，在 GDep 詞性標記中，“NN”為單數名詞，“NNP”為單數專有名詞，所以將 POS 標記為“NN”和“NNP”以及名詞片語中出現“a”、“this”、

“the”等字，歸類為 singular 類別。此外，“NNS”為複數名詞，“CD”為數量，

“NNPS”為複數專有名詞，所以將 POS 標記為“NNS”、“CD”和“NNPS”以及名詞片語中出現“these”、“some”、“many”等字，歸類為 plural 類別，皆不屬於以上兩類的則歸類為 none 類別，如表 5 所示，noun phrase 為 secreted proteins 則數量特徵為 plural。

F. 距離特徵 𝑑_a,A：經過 GDep 剖析完所有句子，經由程式判斷每個名詞片語所在位置後，將指代詞和先行詞的距離相減取絕對值取得。

G. 指代詞與候選先行詞間實體數量特徵 𝑑𝑚_a,A：指代詞在三個句子以內的上下文中尋找候選先行詞，經由程式判斷後取得，在本研究中實體數量為先行詞的個數。

表 5 為特徵值範例，總共分為七欄：第一欄為名詞片語；第二欄為主要名詞，

在本例中名詞片語為 secreted proteins 則主要名詞為 proteins；第三欄為實體類型，

總共分為 DNA、RNA、cell_line、cell_type 和 protein 五類，都不屬於這五類則標記為 O；第四欄為名詞片語種類，分為 defnp、demnp、indefnp 和 quantnp 四類；

第五欄為前位修飾詞，本表中名詞片語為 secreted proteins，其前位修飾詞為

在文檔中以機率模型為基礎之生醫文件指代消解方法 (頁 22-39)

第四章 實驗過程語實驗結果

第一節 實驗資料

第二節 研究方法架構

第三節 研究方法描述

第四節 資料前置處理

一、 分句與雜訊排除

二、 標記基因名稱、詞性標記和名詞組的標記及辨識