以機率模型為基礎之生醫文件指代消解方法
全文
(2) 摘 要. 指代問題是自然語言中的普遍現象,隨著科技進步,生物醫學文件也需要處 理指代消解問題以便擷取正確的訊息。若能解決文獻中具有指代關係的名詞片語, 對於以後生醫研究人員在使用文獻上得到正確的描述會有很大的幫助,更希望透 過此研究能夠加速生物醫學的發展。 在 本 研 究 中 應 用 QA4MRE (Question Answering for Machine Reading Evaluation)提供的四篇關於阿茲海默症的生物醫學文件上進行非代名詞的指代消 解,依照下列步驟擷取有意義的資訊:(1)為了得到句子的範圍,進行分句的處理, (2)為了得到句法的相關資訊,使用 GDep (GENIA Dependency parser)對文件進行 詞性標記,(3)為了聚集更好的特徵資訊,擷取出句子中主要的名詞以及前位修飾 詞,(4)為了得到更準確的指代詞,使用規則對候選指代詞進行過濾,最後經由規 則集和特徵集擷取出特徵資訊。在這篇論文中使用貝式理論的機率模型進行指代 消解,應用了 7 種特徵值來進行實驗,實驗結果顯示 precision 為 73.83%、recall 為 67.36%和 F-measure 為 70.36%,在生醫文件的指代消解問題上屬於不錯的結 果。. 關鍵字:指代消解、自然語言處理、貝式理論、機率模型. I.
(3) ABSTRACT Anaphora is a common phenomenon in our language. With advances in technology, anaphora resolution needs to be addressed in order to retrieve the correct message in biomedical texts. Consequently, when biomedical researchers study about biomedical literatures, they can get the right description and we hope that our study can promote the speed of development of biomedical domain. In this study, we apply a statistical model for resolution of non-pronominal anaphora in biomedical texts. The following procedures are applied to extract the relevant information: (1) applying sentence splitting for boundary detection, (2) employing the part-of-speech tagging such that the syntactic information is extracted, (3) for grouping the information of features, identifying head-noun and pre-modifiers, and (4) utilizing rules to obtain correct anaphora candidates, and at last using rule sets and feature sets for extracting feature information. This thesis presents a statistical point of view for resolution of non-pronominal anaphora, and there are seven features to be used in this experiment. The experiment achieves 73.83% precision rate, and it shows good performance of anaphora resolution in biomedical texts.. Keywords : anaphora resolution, natural language processing, Bayes‟ theorem, probabilistic model. II.
(4) 謹獻給 我的父母、家人、指導教授侯文娟博士、同學,以及所有幫助過我的人。. III.
(5) 誌謝 首先我要感謝我的指導教授侯文娟博士兩年來不厭其煩且細心的指導,在訂 定了研究方向後,老師就給予我相當多的建議,當研究遇到瓶頸時,老師也給予 我許多思考的方向以及新的角度解決所遇到的困難,我才能夠順利的完成這篇研 究;感謝實驗室的同學以及學長、學弟們的幫助和支持,有你們的陪伴讓我度過 愉快的碩士生活。 最後要感謝我的家人,是你們給我一個優渥的環境,讓我可以專心且無憂無 慮的完成研究。. IV.
(6) 目 錄. 附表目錄 ................................................................................................. VI 附圖目錄 ................................................................................................................ VII 第一章. 緒論 .......................................................................................................... 1. 第一節 研究動機 ........................................................................................... 1 第二節 論文組織 ........................................................................................... 3 第二章. 相關研究探討 .......................................................................................... 4. 第一節 指代消解研究方法介紹 ................................................................... 4 第二節 指代消解之相關文獻 ....................................................................... 5 第三章. 研究方法 .................................................................................................. 14. 第一節 實驗資料與工具 ............................................................................... 14 第二節 研究方法架構 ................................................................................... 16 第三節 研究方法描述 ................................................................................... 18 第四節 資料前處理 ....................................................................................... 18 第五節 特徵擷取 ........................................................................................... 24 第六節 機率模型 ........................................................................................... 28 第四章. 實驗過程語實驗結果 .............................................................................. 31. 第一節 實驗資料 ........................................................................................... 31 第二節 評估測量標準 ................................................................................... 31 第三節 實驗結果與分析 ............................................................................... 32 第四節 錯誤分析 ........................................................................................... 40 第五章 結論與未來發展 ...................................................................................... 44 參考文獻 .................................................................................................................. 45. V.
(7) 附表目錄 表 1:GDep Named Entity Recognition Performance ........................................... 19 表 2:Part-of-speech Labels of GENIA and Penn Treebank (PTB) ........................ 20 表 3:經由 GDep 剖析的句子 ................................................................................ 23 表 4:特徵集............................................................................................................ 24 表 5:特徵值範例.................................................................................................... 27 表 6:距離權重........................................................................................................ 34 表 7:各步驟需要同分處理的名詞片語數目........................................................ 36 表 8:四篇文章的效能評測.................................................................................... 37 表 9:刪除主要名詞片語特徵的效能.................................................................... 39 表 10:刪除前位修飾詞特徵的效能...................................................................... 39 表 11:刪除數量特徵的效能 .................................................................................. 40. VI.
(8) 附圖目錄 圖 1:Yang(2004)等人所使用的特徵值 ................................................................. 7 圖 2:FHMM Coreference Features Model ............................................................. 8 圖 3:Auto-mined Patterns 系統架構圖 ................................................................. 10 圖 4:Gasperin 等人所使用的特徵值 .................................................................... 11 圖 5:QA4MRE 網站 .............................................................................................. 15 圖 6:GENIA Project 網站 ...................................................................................... 16 圖 7:本論文研究之架構及流程設計.................................................................... 17 圖 8:四篇文章的名詞片語分佈............................................................................ 33 圖 9:計算結果同分處理流程圖............................................................................ 35 圖 10:文章 22506010 過濾的名詞片語................................................................ 36 圖 11:四篇文章的效能評測 .................................................................................. 37 圖 12:四篇文章的平均效能.................................................................................. 38 圖 13:文章 22529981 中的句子片段.................................................................... 41 圖 14:文章 22529981 中 168 到 174 句中的名詞片語........................................ 41 圖 15:文章 22523685 指代結果............................................................................ 42. VII.
(9) 第一章 緒論. 第一節. 研究動機. 隨著科技的日新月異以及電腦和網路的普及,各種資訊已經呈現爆炸性的成 長,人們在這資訊時代之下要如何選擇所想要接收的訊息是一個很重要的問題。 現今資訊快速成長的背景下,訊息的擷取是非常重要的,「指代」是一種常 見的語言現象,人們想要了解與探討的實體往往可以有許多種不同的表達方式, 為了能夠找出文本中可以擷取的相關訊息,必頇對這些指代的現象做消解。指代 的消解在訊息的擷取中非常重要,像是機器翻譯、文本摘要和問答系統等許多電 腦的處理過程都需要使用到。 指代消解在自然語言處理中是一門很重要的議題,通常語意相同的訊息會在 同一篇文章中出現很多次,為了減少文章的冗贅,這些具有相同語意的字、詞、 片語通常會使用指代關係,所以必頇將這些指代關係相連起來才可以得到完整的 描述,人們也才能充分了解文章的內容。 在語言學中把指向的語言單位稱為指代詞(anaphora)或是照應語,被指向的語 言單位則稱為先行詞(antecedent),如何將指代詞指到正確的先行詞就是研究指代 消解需要解決的問題。 英文中的指代有許多種類型,常見的如下:. 1.
(10) (1) 人稱代名詞(pronoun)指代,例如:John waited a while but eventually he went home.. (2) 指示名詞片語(demonstrative noun phrase)指代,例如:That is a good idea. (3) 定名詞片語(definite noun phrase)指代,例如:I go to the restaurant. (4) 不定名詞片語(indefinite noun phrase)指代,例如:Jay is looking for a dog. (5) 別名(name alias)指代,例如:Steve Jobs was the CEO of Apple Inc. (6) 零指代(Zero Anaphora),例如:They said they were coming to our house today.. 在目前的指代消解研究中可以分為兩大研究方向,一種是回指(anaphora),另 一種是共指(coreference),回指是指目前的指代詞與前文所出現的詞、片語或句子 有密切的關連性,指代關係在上下文的語意中或是不同的語文環境中指的實體 (entity)有可能不同,例如:John waited a while but eventually he went home.,這段 句子裡的 John 為先行詞,而 he 為用以代替 John 的指代詞;共指是指代名詞或是 名詞片語指向真實世界的同一個參照體,即使不是上下文也可以成立,例如:Steve Jobs was an American entrepreneur and he was the CEO of Apple Inc.,這段句子裡的 Steve Jobs 為先行詞,而 American entrepreneur、he 和 CEO of Apple Inc 都是等價 的指代詞,所以這三個名詞具有共指關係。本篇論文為消解上下文具有回指的指 代現象。 以往的指代消解研究通常是以新聞文件、廣播新聞或是網路對話來當作資料 集。隨著科技進步,越來越多的生物醫學文件需要使用電腦進行處理,這些文件 當中也包含許多具有指代關係的名詞片語,如果能將這些名詞片語辨識出來,在 建立生物資訊相關的系統上將會有很大的幫助。 因為閱讀生物醫學文本必頇要有相關的背景知識,所以語意資訊在指代消解 工作上非常重要,其他像是在書寫上的習慣也會影響指代關係,例如在生物醫學 2.
(11) 領域通常使用小寫斜體字來書寫基因名稱,使用大寫正體字來書寫蛋白質名稱。 生物醫學的文本和其他像是新聞、小說方面的文本有許多不同之處,在生物 醫學文本中名詞片語類型就有許多種,例如代名詞使用得非常少,幾乎都是使用 專有名詞,通常提到的都是蛋白質名稱或是其他的生物實體名稱,在本研究中統 計名詞片語發現,名詞片語總數為 3385 個,需要進行消解的非代名詞片語有 1910 個,而代名詞有 124 個,共有 2034 個需要消解的名詞片語;其中非代名詞片語 佔需要消解名詞片語總數的 93.9%,而代名詞片語只佔需要消解名詞片語總數的 6.1%,所以本研究將重點放在研究非代名詞的指代消解上。. 第二節. 論文組織. 本篇論文的組織架構如下:第一章為緒論,說明研究的動機與目的;第二章 為相關研究的探討,介紹關於這個領域的研究背景和前人的研究成果;第三章為 研究方法,介紹本研究的架構以及詳細說明本篇論文所提出的研究方法;第四章 為實驗過程與實驗結果;第五章為結論與未來發展。. 3.
(12) 第二章 相關研究探討 本章主要介紹一些相關文獻,以便做為本論文參考之理論及技術。第一部份 描述對於指代消解的研究方法;第二部份為近年來指代消解的相關文獻探討。. 第一節. 指代消解研究方法介紹. 指代消解的研究已經進行許久,早期的研究大部份是使用手動方式和單一領 域知識建構進行指代消解,像是 Hobbs (1986)使用完全解析樹(complete parse tree) 進行由左到右廣度搜尋方法走完完全解析樹,只利用語法規則和完全解析樹訊息 的指代消解方法。另外也有學者使用句法的研究方法,像是 Lappin (1994)等人提 出了 RAP (Resolution of Anaphora Procedure)算法,使用 Slot Grammar 獲得文件的 句法結構,並將候選先行詞的結構加上權重,做第三人稱代名詞和反身代名詞的 消解;在這之後,Kennedy (1996)對 RAP 算法進行修改,研究出不需要構建完整 的解析樹,只使用詞性標註和句法功能確定先行詞。簡言之,早期的指代消解需 要大量的人力,系統的自動化程度低、可移植性差。 近期的指代消解研究則因為網路的發展以及許多學者所提供的語料庫變多, 使得研究方向以語料庫為中心,其中又可以分為下列三種指代消解的方法:. (1)使用規則的方法:Brennan (1987)等人使用中心理論(Centering Theory),對 不同的候選先行詞進行分類和各種的中心獲取算法選出先行詞。 4.
(13) (2)使用統計的方法:Dagan (1990)等人提出優先考慮共同出現頻率較高的候 選先行詞當作消解對象,這項研究主要是針對“it”的消解研究;Cardie (1999) 等人提出使用聚類方法(clustering),進行名詞片語的同指消解,根據名詞 片語的特徵判斷兩個名詞是否屬於同一個類別。 (3)使用分類的方法:McCarthy (1995)把判斷先行詞的問題轉換成分類問題, 使用分類器判斷指代詞與先行詞之間是否有指代關係,並開發出實用的系 統,這項研究產生很大的貢獻,日後有許多學者以它為基礎進一步的研究, 研究成果包括:Yang (2003)等人使用雙候選的模型提高了先行詞的準確 率。. 第二節. 指代消解之相關文獻. 本篇論文的研究方向是找出句子中的非代名詞進行消解得到正確的訊息。一 些對指代消解的相關文獻探討如下: Yang(2004)等人使用監督式(supervised)學習(learning-based)方法做指代消解 (coreference resolution),將一對名詞片語之間的關係進行分類,使得做指代消解 時可以更準確的選擇先行詞(antecedent),與只使用名詞片語和名詞片語之間的方 法(NP-NP based)相比較,可以得到更多實體的相關資訊,進而提高準確率。 Soon (2001)等人研究了使用名詞片語和名詞片語之間的方法(NP-NP based); 而 Yang (2004)等人使用了 Soon 的特徵加上句子相似度(string similarity)的特徵創 建了 NP-NP Based Approach System,因為這個系統並無法有效的得到除了上下文 5.
(14) 以外的指代關係,所以 Yang 等人提出 NP-cluster based approach,這種方法是將 共指消解轉換成二元分類問題,目的是讓分類器選擇將句子分到哪個類別,進而 得到準確的先行詞。 Yang 等人總共使用 24 個特徵(如圖 1 所示),其中 18 個是與 NP-NP based approach 相同,另外 6 個是針對 NP-cluster based approach 而使用,經由分類後將 訓練資料集以 C5.0 演算法(Quinlan, 1993)學習產生出決策樹,測詴資料集也是使 用相同的方法創造決策樹,最後使用 Most Recent First (MRF)和 Best First (BF)兩 種策略將句子做分類。Yang 等人從 GENIA data set 選出 228 篇 MEDLINE 的 abstracts,實驗將前 100 篇的文件分成 70 篇當作訓練集,另外 30 篇當作測詴集, 最後得到的結果為在 BF 策略中可以得到 84.9%的回收率(recall)、78.8%的準確率 (precision)和 81.7%的 F-度量(F-measure),而在 MRF 策略可以得到 84.4%的回收 率、78.2%的準確率和 81.2%的 F-度量,這項研究的優點為使用 NP-cluster based approach 改進 NP-NP Based Approach,使用這個方法提供更多的學習規則和準確 判斷先行詞的依據。. 6.
(15) 圖 1:Yang (2004)等人所使用的特徵值. Li (2011)等人使用 Factorial Hidden Markov Models (FHMMs)增加可以選擇的 先行詞(antecedent)使得結果更加正確的做法。FHMM 模型是 Hidden Markov Model (HMM)的進階版本,HMM 的隱藏狀態在一個時戳(time step)上只能夠得到 一個發現狀態,但是使用了 Bayes‟ Law、Makov independence assumptions 在 transition model 和 observation model 上後,就可以在一個隱藏狀態上有多個隱藏 參數,而且一個發現狀態可以由多個隱藏狀態構成。在本篇論文中 Li 等人使用了 四種特徵做為共指特徵(如圖 2 所示),分別為 index (i)、named entity type (e)、 number (n)和 gender (g)。在評測方面使用了 ACE 的語料庫,ACE 語料庫是從 2000 年開始啟用,語料的來源主要是廣播新聞(BNEWS)、新聞專線(NPAPER)和網路 7.
(16) 對話(NWIRE),這個語料庫的處理主要有兩個步驟,第一個步驟是 EDT (entity detection and tracking),主要是追蹤和偵測需要標註的實體,第二步驟則是 RDC (relation detection and characterization),辨識句子的關係和描述;EDT 負責識別各 種標註實體和其他相關實體的參照,並解決他們之間的指代問題,而 RDC 則是 負責判斷兩個實體間的語意關係。在實驗部份分為訓練集和測詴集,訓練集所使 用的文章為新聞專線 76 篇、廣播新聞 130 篇和網路對話 217 篇,而測詴集文章 為新聞專線 17 篇、廣播新聞 29 篇和網路對話 51 篇。最後得到的結果與其他研 究相比得到了最高的準確分數(accuracy score),分別是廣播新聞為 74.9%、新聞專 線 79.4%和網路對話 74.5%。這項研究證明了使用 FHMMs 系統在時序(time-series) 模型上解決指代問題可以得到很好的成果。. 圖 2:FHMM Coreference Features Model. 8.
(17) Chen (2008)等人研究其他指代(other-anaphora)消解應用在生物醫學領域的文 本上,這項研究主要是解決前面修飾詞為 other 或是 another 的句子,該研究使用 自動探勘在指代和先行詞之間尋找具有語意關係的樣式(pattern),他們使用了 GENIA corpus1,GENIA 語料庫擁有 2000 篇 MEDLINE 的摘要(共有 440000 個字), 作者從這個語料庫之中抽取了 598 個 other-anaphora 的例子,其中平均每個指代 都有 15.33 個候選先行詞(candidate antecedents)需要消解,而在做消解前必頇先進 行前處理,包括範圍偵測(boundary detection)、詞性標註(part-of-speech tagging)、 名詞片語切分(noun phrase chunking)、和命名實體辨認(named entity recognition)。 Chen 等人使用自動尋找樣式的方法(如圖 3 所示),因為在前人的研究中使用 手動(manual)的方式並沒有得到非常高的準確率。作者首先從 GENIA corpus 中抽 取出種子對(seed pair),然後使用這些種子對在 PubMED2中尋找具有 part-whole 關係的樣式,最後 Chen 使用了最常使用的前 40 種樣式,然後將訓練集和測詴集 中的指代和先行詞都視為一個例子(instance),每個例子都視為一個特徵向量用以 紀錄指代和先行詞之間的關係,最後再將這些向量放到支持向量機(support vector machine, SVM)中學習並做分類,在實驗中使用了 3-fold cross validation 來評測效 能,此自動探勘樣式方法得到 56.5%的準確率。Chen 等人也比較使用手動尋找樣 式和自動尋找樣式得到的覆蓋率(coverage rate):手動尋找樣式集的覆蓋率為 36.0%,而自動尋找樣式集的覆蓋率為 92.1%。. 1. http://www-tsujii.is.s.u-tokyo.ac.jp/~genia/topics/Corpus/. 2. http://www.ncbi.nlm.nih.gov/pubmed 9.
(18) 圖 3:Auto-mined Patterns 系統架構圖. Gasperin (2008) 等 人 使 用 Bayes‟ theorem 3 機 率 模 型 進 行 非 代 名 詞 (non-pronominal)指代消解,使用 Bayes‟ theorem 的好處是可以減少資料稀疏(data sparseness)問題,而且在比較小的訓練語料庫上也可以得到不錯的結果。Gasperin 等人將先行詞和指代之間的關係分為 coreferent case 和 associative case,其中 associative case 又可以分為兩種關係,分別為 biotype 和 setmember。Gasperin 等 人將 biotype 關係歸類為兩個生物實體間有不一樣的語意類型,例如:gene、gene product 和 part of gene 等;setmember 則是跟在其他領域一樣,指代參考到一個由 先行詞所構成的集合。. 3. http://en.wikipedia.org/wiki/Bayes%27_theorem 10.
(19) Gasperin 等人將非代名詞的名詞片語分為五種類型,分別為:(1)定名詞片語 (definite noun phrase)、(2)不定名詞片語(indefinite noun phrase)、(3)指示名詞片語 (demonstrative noun phrase)、(4)量詞片語(quantified noun phrase),和(5)其他片語 (other noun phrase)。作者使用 11 種的特徵值(如圖 4 所示)對應兩個名詞片語間的 指代關係,機率模型使用的是 naïve Bayes‟ theorem,將彼此獨立的特徵值去掉解 決資料稀疏的問題。Gasperin 等人使用的是自己所標註的生物醫學語料庫,這個 語料庫是由 5 篇果蠅相關的全文(33300 個字)所組成,在標註指代詞前做的前處理 包括(1)標註基因名稱(tag gene names)、(2)判斷所有的名詞片語(identify all NPs), 和(3)將名詞片語對應到所屬的領域。為了標註所有的基因名稱,作者使用了由 Vlachos (2006)等人所提供的工具,為了標註所有的名詞片語的組成(如 head, modifier, determiner 等)和前後修飾詞,他們使用了由 Briscoe (2006)等人所提供的 RASP 剖析器,為了分類所有的名詞片語到對應的領域,他們使用了 Eilbeck 和 Lewis (2004)所提供的 Sequence Ontology (SO)工具。. 圖 4:Gasperin 等人所使用的特徵值. 11.
(20) Gasperin 等人將得到的指代關係歸類的訓練資料分成正面(positive)和負面 (negative),負面是指必頇標註為指代關係但是卻沒有被標註到的。因為負面的樣 本太多,他們將所有特徵裡有相同值的分到同一個群組,最後可以縮小到十分之 一。在實驗部分,他們使用 10-fold cross validation,並將結果分為 perfect 和 relaxed 兩種。在 perfect 方面 coreferent case 的準確率為 56.3%、回收率為 54.7%、F-度量 為 55.5%,在 relaxed 方面 coreferent case 的準確率為 69.4%、回收率為 67.4%、 F-度量為 68.3%。 D'Souza (2012)等人使用 learning-based 和 rule-based 方法,將這兩種方法結合 進行共指消解任務,使用的資料集為 BioNLP-20114共指資料集,這個資料集包含 1210 篇文章,其中 800 篇當作訓練集(train set),150 篇當作發展集(development set), 260 篇當作測詴集(test set),經過統計得知訓練集有 2309 個指代詞,發展集有 473 個指代詞,D'Souza 等人的共指消解分為 mention detection 和 anaphora resolution 兩個部份。 在 mention detection 部份,首先會使用 learning based 和 rule based 方法, learning based 方法為將 800 篇文章分為 2 份 400 篇文章,將一份文章取先行詞, 另一份文章取指代詞,這個方法使用的處理包括:將名詞片語進行分類,總共分 為 begins an anphora 、inside an anphora 和 outside an anaphora 三類、詞性標記和 標記名詞片語的距離,rule based 方法為將名詞片語分成人稱代名詞、關係代名詞、 指示和不定名詞片語以及定名詞片語,應用這兩種方法擷取出指代詞和候選先行 詞集,在 anaphora resolution 部份,learning based 方法應用 string-matching、. 4. https://sites.google.com/site/bionlpst/ 12.
(21) grammatical、semantic、positional、sentence-based flat parse、document-based flat parse、sentence-based structured parse 和 document-based structured parse 八項特徵 進行指代消解,rule based 方法為使用作者制定的規則,將分為四類的名詞片語進 行指代消解,在實驗結果中, development set 得到準確率為 77.1%、回收率為 59.9%和 F-度量為 67.4%,test set 得到準確率為 67.2%、回收率為 55.6%和 F-度量 為 60.9%。. 13.
(22) 第三章 研究方法. 第一節. 實驗資料與工具. 由於本研究主旨為分析生物醫學文獻上包含疾病與基因句子中的指代問題, 所以選用的文獻必頇具備疾病與基因的資訊,因此選擇 CLEF5 (Conference and Labs of the Evaluation Forum, formerly known as Cross-Language Evaluation Forum) 中的 QA4MRE6 (Question Answering for Machine Reading Evaluation)任務所使用 的資料集。 從 2000 年起 CLEF 在資訊檢索領域就扮演著關鍵角色,經過多年後,CLEF 已經成為跨越不同領域的科學研究團體,而 QA4MRE 這個任務主要是發展具有 問答(question answering)和閱讀理解(reading comprehension)的機器閱讀系統,本研 究使用 QA4MRE 在 2012 年的子任務:Machine reading of biomedical texts about Alzheimer's Disease,這項任務主要是探索阿茲海默症文章在問答系統的能力,在 任務中提供參與者測詴系統效能的文本,讓參與者能夠清楚知道他們的系統效能。 使用這些測詴文件具有一定的測詴比較基準和公平性,網站如圖 5 所示。. 5. http://www.clef2013.org/index.php. 6. http://celct.fbk.eu/QA4MRE/ 14.
(23) 圖 5:QA4MRE 網站. 在 分 析 句 子 的 工 具 中 , 本 研 究 所 使 用 的 是 GDep 7 (GENIA Dependency parser),GDep 是由東京大學 Tsujii 實驗室所研發的剖析器,GDep 包含在 GENIA 計畫中,這個計畫從 1988 年就開始進行,Tsujii 實驗室也有參與 GENIA 計畫的 開發任務,使用 GENIA 語料庫當作訓練和測詴的語料庫,開發了許多工具,例 如:共指標記、詞性標記、關係標記等,其中詞性標記所使用的是 Penn Treebank8 詞性資料庫,Tsujii 實驗室在生物領域上具有不錯的成果其所開發的工具也具有 不錯的效能,所以在本研究中使用 GDep 剖析器進行標註基因名稱、詞性標記和 名詞組的標示和辨識,詳細的資訊會在下面的章節介紹,圖 6 為 GENIA Project 的網站。. 7. http://people.ict.usc.edu/~sagae/parser/gdep/. 8. http://www.cis.upenn.edu/~treebank/ 15.
(24) 圖 6:GENIA Project 網站. 第二節. 研究方法架構. 本篇論文研究的架構如圖 7 所示,一開始先對收集的四篇關於阿茲海默症的 生醫文獻做資料前處理,包括切出正確句子(split sentence)、標註所有基因名稱(tag gene names)、詞性標記(part-of-speech tagging),和名詞組的標示和辨識(noun phrase chunking)。為了得到所需要的各項特徵值,接著進行以下的處理,包括先行詞和 指代詞間的範圍偵測(boundary detection)、辨識所有的名詞片語(identify all NPs)。 在標註基因名稱和詞性標記的部份,本研究使用 Sagae (2007)等人開發的 GDep (GENIA Dependency parser),將得到的資料分成兩個集合,一個為標註基因的名 詞片語當作先行詞的集合,另一個為指代詞的集合。將兩個集合的特徵值代入機 率模型進行統計,選出最有可能的候選先行詞進行指代消解,最後進行系統效能 的評測。. 16.
(25) 4 full-text articles. Preprocessing Split sentence. Tag gene names Noun phrase chunking. GDep. Part-of-speech tagging. Feature extraction Boundary detection. Identify all NPs. Feature set. Noun phase filtering. Classification Antecedent. Anaphora. Probabilistic Model. Resolution results. Evaluation. 圖 7:本論文研究之架構及流程設計 17. Rule set.
(26) 第三節. 研究方法描述. 本篇論文的方法分為四個主要部份:(1)資料前處理,(2)特徵擷取,(3)名詞 片語分類以及(4)使用機率模型進行指代消解。在資料前置處理部份,本論文依照 句點符號將句子做分句處理以及消除一些干擾的雜訊,並藉由 GDep 進行詞性標 記、基因名稱標記和名詞組的標示和辨識。在特徵擷取部份中,本論文擷取出每 個名詞片語的詞性標記、將所有名詞片語進行分類、辨識所有的名詞片語和句子 所在位置,和辨識主要名詞片語及前位修飾詞做為本研究的特徵集,將經過標註 的名詞片語分為指代詞和先行詞兩類,在最後的步驟中,本論文使用機率模型處 理所有非代名詞指代消解。. 第四節. 資料前置處理. 一、 分句與雜訊排除 為了能夠精準判斷每個句子的位置以及句子的範圍,在資料前處理中,本研 究利用句號做分句的處理。為了從文章中得到更多可以利用的訊息,會先移除不 需要消解的文字,例如:參考文獻、附圖說明等。. 二、 標記基因名稱、詞性標記和名詞組的標記及辨識 本研究使用 GDep 進行標記基因名稱、詞性標記,和名詞組的標記及辨識等 工作,GDep 為應用在生醫文章的關係剖析器,藉由 GDep 可以將每個句子進行 18.
(27) 分析,可以取得基因標記、詞性標記,和名詞組的標示和辨識。 基因名稱標記. A.. 基因名稱標記是 GDep 在 NLPBA data set9中訓練得到的結果,可以分為 DNA、 RNA、cell_line、cell_type 和 protein 五類,由表 1 可以看出基因名稱標記的平均 效能,Precision 為 67%、Recall 為 75.78%和 F-score 為 71.37%,效能的評測如下 表:. 表 1:GDep Named Entity Recognition Performance Entity Type. B.. Recall. Precision. F-score. (%). (%). (%). Protein. 81.41. 65.82. 72.79. DNA. 66.76. 65.64. 66.20. RNA. 68.64. 60.45. 64.29. Cell Line. 59.60. 56.12. 57.81. Cell Type. 70.54. 78.51. 74.31. Overall. 75.78. 67.45. 71.37. 詞性標記 GDep 使用的詞性標記集合是 Marcus (1993)等人開發的 Penn Treebank 詞性. 資料庫(詞性標記的意義如表 2 所示),藉由這個資料庫裡的詞性,對每一個字標 記上應有的詞性。. 9. http://www.nactem.ac.uk/tsujii/GENIA/ERtask/report.html 19.
(28) 表 2: Part-of-speech Labels of GENIA and Penn Treebank (PTB) PTB. GENIA. Description. CC. Coordinating conjunction. CD. cardinal number. DT. determiner. EX. existential there. FW. foreign word. IN. preposition/subordinating conjunction. JJ. adjective. JJR. adjective, comparative. JJS. adjective, superlative. LS. list marker. MD. modal. NN. noun, singular or mass. NNS. noun plural. NNP. proper noun, singular. NNPS. proper noun, plural. PDT. predeterminer. POS. possessive ending. PRP. personal pronoun. PRP$. PRPP. personal pronoun, possessive adverb. RB 20.
(29) RBR. adverb, comparative. RBS. adverb, superlative. RP. particle. TO. to -. UH. WP$. Interjection. This doesn‟t appear in the GENIA corpus.. VB. verb, base form. VBD. verb, past tense. VBG. verb, gerund/present participle. VBN. verb, past participle. VBP. verb, sing. present, non-3d. VBZ. verb, 3rd person sing. present. WDT. wh-determiner. WP. wh-pronoun. WPP. wh-pronoun, possessive wh-abverb. WRB #. -. Pound sign. This doesn‟t appear in the GENIA corpus.. $. -. Dollar sign. This doesn‟t appear in the GENIA corpus.. .. PERIOD. Period. ,. COMMA. Comma. :. COLON. Colon. (. LRB. Left one of any paired symbols used as brackets: (, [,{, <.. ). RRB. Right one of any paired symbols used as brackets: ), ], }, >. 21.
(30) C.. “. LQT. Left quotation mark, single or double. ”. RQT. Right quotation mark, single or double. 名詞組的標示和辨識 名詞組的標示和辨識採用 IBO2 格式表示,表示方法為:I (Inside)、O (Outside). 和 B (Begin),一個 chunk 的開始 token 標記為 B,在 chunk 中的 token 標記為 I, 其他 token 標記為 O。. 表 3 為經由 GDep 所剖析的句子,每一行所代表的意義如下: . Token number:句子中每個字的編號,這項資訊可以知道每個字在句子中的 位置。. . Word:句子中被切出的字。. . Lemma:字的原形,這項資訊可以知道字的原形是什麼。. . Chunk tag:名詞組標記,藉由名詞組的標記可以得知名詞片語中字的位置。. . POS tag:詞性標記,藉由詞性標記可以知道字的詞性,進而做名詞片語的分 類、名詞片語的過濾等工作。. . Named entity:基因名稱標記,這項資訊可以知道基因所屬的類型,分為 DNA、 RNA、cell_line、cell_type 和 protein 五類。. . Parent node:父節點的 token number,知道父節點的位置,可以進行句法關 係的處理。. . Dependency label:與父節點的句法關係,利用這項資訊可以進行前位修飾詞 的擷取。 22.
(31) 在表 3 中,NMOD 表示名詞修飾(modifier of nominal),SUB 代表主詞(subject), ROOT 是指根節點,VC 代表動詞補語(verbal complement),VMOD 為(modifier of verb),PMOD 代表介詞修飾(modifier of preposition),P 為句號(period)。. 表 3: 經由 GDep 剖析的句子 Token number. Word. Lemma. Chunk tag. POS tag. Named entity. Parent node. Dependency label. 1. HD. HD. B-NP. NN. B-protein. 4. NMOD. 2. amino. Amino. I-NP. JJ. I-protein. 4. NMOD. 3. acid. Acid. I-NP. NN. I-protein. 4. NMOD. 4. duplex. duplex. I-NP. NN. I-protein. 5. SUB. 5. has. Have. B-VP. VBZ. O. 0. ROOT. 6. been. Be. I-VP. VBN. O. 5. VC. 7. found. Find. I-VP. VBN. O. 6. VC. 8. in. In. B-PP. IN. O. 7. VMOD. 9. the. The. B-NP. DT. O. 11. NMOD. 10. active. Active. I-NP. JJ. O. 11. NMOD. 11. center. center. I-NP. NN. O. 8. PMOD. 12. of. Of. B-PP. IN. O. 11. NMOD. 13. many. Many. B-NP. JJ. O. 12. PMOD. 14. different different. I-NP. JJ. O. 15. NMOD. 15. enzymes. enzyme. I-NP. JJ. O. 13. NMOD. 16. .. .. O. .. O. 5. P. 23.
(32) 第五節. 特徵擷取. 一、 特徵值的定義 在本研究中使用 7 個特徵如表 4 所示,其中特徵𝑓𝐴 和𝑓𝑎 名詞片語種類表示如 下:defnp (definite noun phrase)、demnp (demonstrative noun phrase)、indefnp (indefinite noun phrase)和 quantnp (quantified noun phrase),詳細的部份會在特徵值 擷取中說明。 表 4:特徵集 特徵 𝑓A. 定義 指代詞 A 的名詞片語種類:„defnp‟, „demnp‟, „indefnp‟, „quantnp‟。. 𝑓a. 先行詞 a 的名詞片語種類:„defnp‟, „demnp‟, „indefnp‟, „quantnp‟ 。. ℎ𝑚a,A. 主要名詞片語是否相同:如果指代詞和候選先行詞的主要名詞 片語相同則為„yes‟,反之則為„no‟。. ℎ𝑚𝑚a,A. 前位修飾詞是否相同:如果指代詞和候選先行詞的前位修飾詞 相同則為„yes‟,反之則為„no‟。. 𝑛𝑢𝑚a,A. 單複數類型是否相同:如果指代詞和候選先行詞的單複數類型 相同則為„yes‟,反之則為„no‟。. 𝑑a,A 𝑑𝑚a,A. 指代詞和候選先行詞位置間的句子距離。 指代詞和候選先行詞間的實體數量(即先行詞個數)。. 24.
(33) 二、. 特徵值擷取. 因為在生醫文獻中,代名詞的使用非常的少,幾乎都是使用生醫領域的專有 名詞,所以本研究為處理非代名詞的名詞片語的指代消解。. A.. 指代詞(anaphora) 𝑓A :因為本研究為非代名詞的指代消解,在文章中,指代 詞用來代替前面出現過的敘述,本篇論文在非代名詞的取得中使用了語法特 徵、詞彙特徵以及語意特徵,將文章中所有非代名詞的名詞片語分為以下六 類:. 1.. 專有名詞(proper names):在 GDep 詞性標記中“NNP”為單數的專有名詞, “NNPS”為複數的專有名詞,所以將 POS 標記為“NNP”和“NNPS”歸類為專有 名詞,例如:地名、人名和機構等。. 2.. 指示名詞片語(demonstrative noun phrase):將名詞片語中出現“this”、“that”等 字歸類為指示名詞片語。例如:this gene 等。. 3.. 定名詞片語(definite noun phrase):將名詞片語中出現“the”的字歸類為定名詞 片語,例如:the gene 等。. 4.. 不定名詞片語(indefinite noun phrase):將名詞片語中出現“a”或是“an”的字歸 類為不定名詞片語,例如:a gene 等。. 5.. 量詞片語(quantified noun phrase):在 GDep 詞性標記中,“NNS”為複數名詞, “CD”為數詞,所以將 POS 標記為“NNS”和“CD”以及名詞片語中出現“some”、 “many”等字歸類為量詞片語,例如:two genes、some genes 等。. 6.. 其他名詞片語(other noun phrase):無法分類為以上 5 類的名詞片語,皆分到 25.
(34) 這一個類別。 在實驗中,因為分類為專有名詞的是人名、地名和機構等名詞片語,且分類 為其他名詞片語並不屬於需要進行消解的指代詞,所以將這兩類的名詞片語進行 過濾。 B.. 先行詞(antecedent) 𝑓a:在生醫文章中,需要進行指代的先行詞一定是生物基 因,所以經由 GDep 標記為生物基因(分別為 DNA、RNA、cell_line、cell_type 和 protein 五類)的名詞片語皆當作候選先行詞,例如:somatostatin-14、the AD-6 locus 等,而名詞片語的分類和擷取的方式與指代詞相同。. C.. 主要名詞片語(head noun phrase) ℎ𝑚a,A :經由 GDep 進行名詞組的標記及辨 識後,判斷每個名詞片語的最後一個 I-NP (Inside Noun Phrase),將其取出當 作主要的名詞片語,如表 5 所示,noun phrase 為 secreted proteins 則 head noun phrase 為 proteins。. D.. 前位修飾詞(pre-modifier) ℎ𝑚𝑚a,A:經由 GDep 判別出名詞片語上下文的語法 關係後,判斷在每個主要名詞片語與前一個字關係為“NMOD” (modifier of nominal)、“VMOD” (modifier of verb)和“AMOD” (modifier of adjective or adverb)取得,如表 5 所示,noun phrase 為 secreted proteins 則 pre-modifier 為 secreted。. E.. 數量特徵 𝑛𝑢𝑚a,A:使用詞彙特徵和詞性標記取得,在本研究中分為 singular、 plural 和 none 三類,在 GDep 詞性標記中,“NN”為單數名詞,“NNP”為單數 專有名詞,所以將 POS 標記為“NN”和“NNP”以及名詞片語中出現“a”、“this”、 “the”等字,歸類為 singular 類別。此外,“NNS”為複數名詞,“CD”為數量, 26.
(35) “NNPS”為複數專有名詞,所以將 POS 標記為“NNS”、“CD”和“NNPS”以及名 詞片語中出現“these”、“some”、“many”等字,歸類為 plural 類別,皆不屬於 以上兩類的則歸類為 none 類別,如表 5 所示,noun phrase 為 secreted proteins 則數量特徵為 plural。 F.. 距離特徵 𝑑a,A :經過 GDep 剖析完所有句子,經由程式判斷每個名詞片語所 在位置後,將指代詞和先行詞的距離相減取絕對值取得。. G.. 指代詞與候選先行詞間實體數量特徵 𝑑𝑚a,A :指代詞在三個句子以內的上下 文中尋找候選先行詞,經由程式判斷後取得,在本研究中實體數量為先行詞 的個數。. 表 5 為特徵值範例,總共分為七欄:第一欄為名詞片語;第二欄為主要名詞, 在本例中名詞片語為 secreted proteins 則主要名詞為 proteins;第三欄為實體類型, 總共分為 DNA、RNA、cell_line、cell_type 和 protein 五類,都不屬於這五類則標 記為 O;第四欄為名詞片語種類,分為 defnp、demnp、indefnp 和 quantnp 四類; 第五欄為前位修飾詞,本表中名詞片語為 secreted proteins,其前位修飾詞為 secreted;第六欄為名詞片語所在的句子位置;第七欄為名詞片語單複數類型,本 表中名詞片語 secreted proteins 為複數。 表 5:特徵值範例. Noun phrase. Head noun. Entity type. Noun phrase type. Pre-modifier. Sentence. Number. secreted proteins. proteins. O. quantnp. secreted. 19. plural. 27.
(36) 第六節. 一、. 機率模型. 貝式理論(Bayes’ theorem). 本研究使用 Bayes‟ theorem 當作機率模型處理所有非代名詞指代消解。貝式 定理(Bayes‟ theorem)是機率論中的一項重要定理,與隨機變數的條件機率以及邊 緣機率分布有關,貝式定理能夠知道如何用新加入的資訊修改已有的看法,以下 是貝式定理的基礎公式:. P AB =. P BA P A P B. (1). 其中 P(A)是 A 的先驗機率或邊緣機率,完全不考慮任何 B 方面的因素。 P(A|B)是在 B 發生的情況下 A 的條件機率,由於得自 B 的取值而稱作 A 的 後驗機率。 P(B|A)是在 A 發生的情況下 B 的條件機率,由於得自 A 的取值而稱作 B 的 後驗機率。 P(B)是 B 的先驗機率,也稱為標準化常量(normalized constant). 使用 Bayes‟ theorem 的好處是可以應用在比較小的資料集上,避免資料稀疏 性的問題。. 二、. 公式推導. 在本研究中考慮的特徵值包括指代詞的名詞片語形式、主要名詞片語是否相 同、前位修飾詞是否相同、名詞片語的單複數是否相同、先行詞和指代詞之間的 實體數量,和先行詞和指代詞之間的距離,有了這些特徵值之後必頇要知道那些 特徵彼此互相獨立,進而簡化機率公式並減少資料稀疏性問題。 28.
(37) 對每個候選先行詞 a、指代詞 A 和具有指代關係 C,計算它們間的指代關係 機率 P,P 定義如下:. 𝑃(C|𝑓A , 𝑓a , ℎ𝑚a,A , ℎ𝑚𝑚a,A , 𝑛𝑢𝑚a,A , 𝑑a,A , 𝑑𝑚a,A ) (2). 為了減少資料稀疏性問題,將公式分解並假設特徵值為互相獨立,為了增加 公式可讀性,將特徵值的下標移除,再使用貝式定理,則公式(2)可改寫為公式(3):. 𝑃(𝐶)𝑃(𝑓A , 𝑓a , ℎ𝑚, ℎ𝑚𝑚, 𝑛𝑢𝑚, 𝑑, 𝑑𝑚|𝐶) 𝑃(𝑓A , 𝑓a , ℎ𝑚, ℎ𝑚𝑚, 𝑛𝑢𝑚, 𝑑, 𝑑𝑚) (3). 因為分母會因為特徵值需求而改變形式,所以對分子和分母使用 chain rule 進行標準化,而得到公式(4):. P C 𝑃 𝑓A 𝐶 𝑃 𝑓a 𝐶, 𝑓A 𝑃 𝑑, 𝑑𝑚 𝐶, 𝑓A , 𝑓a 𝑃 𝑛𝑢𝑚 𝐶, 𝑓A , 𝑓a , 𝑑, 𝑑𝑚 𝑃(ℎ𝑚, ℎ𝑚𝑚|𝐶, 𝑓A , 𝑓a , 𝑑, 𝑑𝑚, 𝑛𝑢𝑚) 𝑃 𝑓A 𝑃 𝑓a 𝑓A 𝑃 𝑑, 𝑑𝑚 𝑓A , 𝑓a 𝑃 𝑛𝑢𝑚 𝑓A , 𝑓a , 𝑑, 𝑑𝑚 𝑃(ℎ𝑚, ℎ𝑚𝑚|𝑓A , 𝑓a , 𝑑, 𝑑𝑚, 𝑛𝑢𝑚) (4). 根據公式(4)計算每個互相獨立的特徵值,因為在指代消解中字彙特徵與距離 特徵和名詞片語的單複數是互相獨立的,所以認為字彙特徵 hm (主要名詞片語)、 hmm (前位修飾詞)與 d (距離特徵)、dm (指代詞與候選先行詞間實體數量特徵)、 29.
(38) num (數量特徵)獨立,簡化公式如下:. 𝑃 ℎ𝑚, ℎ𝑚𝑚 𝐶, 𝑓A , 𝑓a , 𝑑, 𝑑𝑚, 𝑛𝑢𝑚 ∝ 𝑃(ℎ𝑚, ℎ𝑚𝑚|𝐶, 𝑓A , 𝑓a ) (5). 在實驗中,因為名詞片語的單複數和距離特徵是互相獨立的,所以 num (數 量特徵)與 d (距離特徵)、dm (指代詞與候選先行詞間實體數量特徵)互相獨立,簡 化公式如下:. 𝑃 𝑛𝑢𝑚 𝐶, 𝑓A , 𝑓a , 𝑑, 𝑑𝑚 ∝ 𝑃(𝑛𝑢𝑚|𝐶, 𝑓A , 𝑓a ) (6). 最後將公式(5)和公式(6)代入原式,得到公式如下:. 𝑃(𝐶|𝑓A , 𝑓a , ℎ𝑚, ℎ𝑚𝑚, 𝑛𝑢𝑚, 𝑑, 𝑑𝑚)= 𝑃 𝐶 𝑃 𝑓A 𝐶 𝑃 𝑓a 𝐶, 𝑓A 𝑃 𝑑, 𝑑𝑚 𝐶, 𝑓A , 𝑓a 𝑃 𝑛𝑢𝑚 𝐶, 𝑓A , 𝑓a 𝑃 ℎ𝑚, ℎ𝑚𝑚 𝐶, 𝑓A , 𝑓a 𝑃 𝑓A 𝑃 𝑓a 𝑓A 𝑃 𝑑, 𝑑𝑚 𝑓A , 𝑓a 𝑃 𝑛𝑢𝑚 𝑓A , 𝑓a 𝑃(ℎ𝑚, ℎ𝑚𝑚|𝑓A , 𝑓a ) (7). 在本論文中,使用公式(7)當作機率模型公式,對所有指代詞進行指代消解。. 30.
(39) 第四章 實驗過程與實驗結果 第一節. 實驗資料. 本節將介紹在本篇論文實驗所採用的資料集,實驗中所用到的文件集為四篇 生物醫學領域上關於阿茲海默症的文本全文,這四篇文章是從QA4MRE中的子計 畫'Machine reading of biomedical texts about Alzheimer's Disease'中所提供的測詴文 件, QA4MRE 這個計畫主要 是發展具有問答 (question answering) 和閱讀理 解 (reading comprehension)的機器閱讀系統,指代現象通常存在於文章中,所以選擇 使用文本全文而不是使用摘要來當作研究資源的主要原因。. 第二節. 評估測量標準. 在這篇論文中用 Christopher (2008)等人的公式來作為評估標準(evaluation metric),第一個是精確度(Precision),第二個是回收率(Recall),第三個則是 F-度 量(F-measure),下面是 Precision、Recall 及 F-measure 的說明: 1.. 精確度 本研究將程式中經由規則判斷取出需要進行消解的的名詞片語當作分 母,能夠正確消解的名詞片語當作是分子,如公式(8)所示:. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =. 正確消解的名詞片語數目 系統辨識需要消解名詞片語的數目. × 100%. (8) 31.
(40) 2.. 回收率 在回收率中,本研究將所有名詞片語的總數當分母,能夠正確消解的名 詞片語當作分子,如公式(9)所示: 𝑅𝑒𝑐𝑎𝑙𝑙 =. 正確消解的名詞片語數目 名詞片語總數. × 100%. (9) 3.. F-度量 F-度量是一種可以同時兼顧精確度和回收率的評估標準,如公式(10)所 示: 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =. 2 × 𝑅𝑒𝑐𝑎𝑙𝑙 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 100% 𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (10). 第三節. 實驗結果與分析. 本研究的實驗在對四篇文章(文章編號為 PMID22506010、PMID22509294、 PMID22523685 和 PMID22529981)進行處理後,得到具有指代關係的名詞片語, 總共有 1910 個,在各篇文章之分佈如圖 8 所示,其中定名詞片語 642 個、指示 名詞片語 190 個、不定名詞片語 264 個、量詞片語 814 個。 經由加總各篇文章的指代結果文件,系統識別需要進行消解的名詞片語總共 有 1729 個,其中文章 22506010 有 368 個、文章 22509294 有 320 個、文章 22523685 有 461 個,和文章 22529981 有 580 個。. 32.
(41) 350 300 250 defnp. 200. demnp. 150. indefnp quantnp. 100 50 0 22506010. 22509294. 22523685. 22529981. 圖 8:四篇文章的名詞片語分佈. 從上圖結果可以看出在這四篇文章中定名詞片語和量詞片語所佔的數目較 其他兩種名詞片語多,表示文獻中大部份使用這兩種名詞片語來指代生物基因。 在處理指代消解問題時,距離特徵是一項很重要的屬性,藉由 Yang (2008) 等人在 MUC-6 語料庫的統計結果,取得距離特徵參數。 MUC10(Message Understanding Conference)是美國的國防高級研究計畫局一 個研究文本理解的會議,從 MUC-6 起成立了指代消解的評測機構,負責計畫任 務、準備語料庫,評測系統效能。 Yang (2008)等人統計了在 MUC-6 訓練語料和測詴語料近 3000 個正例,其中 80%以上的例子是在 3 句以內,所以指代詞指代的內容通常是距離這個指代詞很 近的內容或是命名實體。根據上述的分析,將距離取絕對值小於 3 以內(同一句子. 10. http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html 33.
(42) 的距離特徵為 0)的候選先行詞當作指代對象進行消解。 另外,因為經由機率模型計算出來的候選先行詞會有同分的情況,為此使用 以下的步驟進行處理: 1.. 句子所在位置是一項很重要的特徵,離指代詞越近的先行詞越有可能是正確 的指代對象,所以先判斷先行詞所在的句子位置,依照位置給予權重,如下 表所示:. 表 6:距離權重. 2.. 先行詞與指代詞的距離. 權重. 0. 1. 1,-1. 0.9. 2,-2. 0.8. 經過以上步驟如果還是有同分的情況,則利用目前可以使用的資訊,比對每 個先行詞與指代詞之間的實體數量,數量越少表示先行詞和指代詞之間的候 選先行詞越少,進行消解的正確率越高,最後選擇前文中指代詞與先行詞間 實體個數最少的先行詞當作指代對象,因為指代詞的指代對象通常是指代前 面敘述出現過的實體。. 34.
(43) 下圖為判斷同分情況的流程圖:. 同分情形. 給予權重. 否 是否同分. 結束. 是 比對實體數量選 擇前文中最近的 先行詞. 結束. 圖 9:計算結果同分處理流程圖. 本研究統計四篇文章在上述各個步驟所需要進行同分判斷的名詞片語個數, 如下表所示,不需要進行同分處理的名詞片語有 432 個,需要進行給予權重處理 的名詞片語有 476 個和需要比對實體數量選擇前文中最近先行詞的名詞片語有 821 個,在這四篇文章中需要進行同分處理的名詞片語數目佔了 75%。. 35.
(44) 表 7:各步驟需要同分處理的名詞片語數目 Text Number. 不需要同分處理. 給予權重. 比對實體數量選擇最近的先行詞. 22506010. 79. 90. 199. 22509294. 105. 88. 127. 22523685. 116. 124. 221. 22529981. 132. 174. 274. Total. 432. 476. 821. 在實驗中,指代詞的過濾也是指代消解任務(anaphora resolution)中很重要的 一環,除了之前將名詞片語屬於專有名詞和其他名詞片語的過濾外,本研究也發 現在指代詞中還有許多不需要解的名詞片語出現像是一些數字、單位和符號等, 如圖 10 所示每一欄代表的意義與表 5 相同,第一欄為過濾的名詞片語,在此本 篇論文提出的方法為使用 ASCII 碼和一些規則進行過濾。. 圖 10:文章 22506010 過濾的名詞片語. 36.
(45) 經過上述的處理,可以得到四篇文章的 Precision、Recall 和 F-measure,結果 如表 8 及圖 11:. 表 8: 四篇文章的效能評測 Text Number. Precision. Recall. F-measure. 22506010. 77.45%. 73.45%. 75.40%. 22509294. 74.06%. 70.75%. 72.37%. 22523685. 75.71%. 60.91%. 67.51%. 22529981. 68.10%. 64.33%. 66.16%. 0.8 0.7 0.6 0.5. Precision. 0.4. Recall. 0.3. F-measure. 0.2 0.1 0 22506010. 22509294. 22523685. 22529981. 圖 11:四篇文章的效能評測. 由上圖結果可以得知在 Precision 方面除了文章 22529981 得到 68%以外,其 他文章皆達到 74%以上,而在 Recall 方面與 Precision 相比除了文章 22523685 下 37.
(46) 降了 15%,其他文章只下降了 3%-4%,在 F-measure 方面皆達到 66%以上。. 最後將四篇文章的 Precision、Recall 和 F-measure 加總後平均,得到 Precision 為 73.83%、Recall 為 67.36%和 F-measure 為 70.36%,結果如下圖:. 0.7383 0.74 0.73. 0.7036. 0.72 0.71 0.7 0.69. Precision 0.6736. Recall F-measure. 0.68 0.67 0.66 0.65 0.64 Average Performance. 圖 12:四篇文章的平均效能. 本研究目的在於應用統計模型進行回指消解,實驗所得到的結果與 Gasperin (2008)等人和 D'Souza (2012)等人做的共指消解無法互相比較,經由實驗結果顯示, 將統計模型應用在回指消解可以得到不錯的結果。. 本 研 究 也 針 對 主 要 名 詞 片 語 (head noun phrase) ℎ𝑚a,A 、 前 位 修 飾 詞 (pre-modifier) ℎ𝑚𝑚a,A 和數量特徵 𝑛𝑢𝑚a,A 的重要性進行實驗,分別將這三項特徵 值刪除掉再進行機率模型的統計,因為距離特徵 𝑑a,A 和指代詞與候選先行詞間實 體數量特徵 𝑑𝑚a,A 需要進行同分計算,所以必頇保留這兩個特徵。 38.
(47) 表 9 為刪除主要名詞片語ℎ𝑚a,A 所得到的效能,由下表可以知道文章 22506010 和文章 22509294 皆沒有受到影響,文章 22523685 的效能稍微下降,但是文章 22529981 的 Precision 下降了 2.24%,Recall 下降了 2.12%和 F-measure 下降了 2.18% ,由結果顯示使用主要名詞片語ℎ𝑚a,A 是可以增加效能的。. 表 9:刪除主要名詞片語特徵的效能 Text Number. Precision. Recall. F-measure. 22506010. 77.45%. 73.45%. 75.40%. 22509294. 74.06%. 70.75%. 72.37%. 22523685. 75.49%. 60.73%. 67.31%. 22529981. 65.86. 62.21%. 63.98%. 表 10 為刪除前位修飾詞ℎ𝑚𝑚a,A 所得到的效能,由結果可以知道在四篇文章 中 Precision、Recall 和 F-measure 的效能皆下降了 1%到 6%,表示前位修飾詞 ℎ𝑚𝑚a,A 在本研究中是很重要的特徵。. 表 10:刪除前位修飾詞特徵的效能 Text Number. Precision. Recall. F-measure. 22506010. 72.28%. 68.56%. 70.37%. 22509294. 72.19%. 68.96%. 70.54%. 22523685. 73.75%. 59.34%. 65.76%. 22529981. 62.41%. 58.96%. 60.64%. 39.
(48) 表 11 為將數量特徵 𝑛𝑢𝑚a,A 刪除後進行實驗的效能,可以知道在四篇文章中 Precision、Recall 和 F-measure 的效能都降低 1%到 4%,表示數量特徵 𝑛𝑢𝑚a,A , 在本研究也是很重要的特徵。. 表 11:刪除數量特徵的效能 Text Number. Precision. Recall. F-measure. 22506010. 75.54%. 71.65%. 73.54%. 22509294. 70.31%. 67.16%. 68.70%. 22523685. 73.54%. 59.16%. 65.57%. 22529981. 66.55%. 62.87%. 64.66%. 第四節. 錯誤分析. 可以從實驗數據中發現,文章 22529981 相較於其他文章 precision 低了 6%以 上,原因在於這篇文章中除了有許多沒有辦法辨識的基因外,還有許多的文字是 敘述實驗過程所使用的藥品、溶劑或是化學的專有名詞,這些東西在實驗所使用 的 GDep 剖析器(GENIA Dependency parser)中是沒有辦法辨識的,所以這一類的 指代問題並沒有辦法有效的進行指代消解,如圖 13 為文章 22529981 中的 170 到 172 句,所敘述的事情是細胞的孵育必頇使用 DNA-calcium 加速培養,清洗兩次 Dulbecco 改良 Eagle 的培養基並使用 7 毫升的 DMEM 進行培養。經過 24 小時以 後,收集這些培養基並將這些細胞一樣用 24 小時及使用 7 毫升的 DMEM 進行培 40.
(49) 養。匯集這些培養基,將它們用 0.45 微米的過濾器過濾,將其等分成 2 毫升,儲 存在零下 80 度。. Cells were incubated overnight with DNA-calcium precipitates, washed twice with Dulbecco's modified Eagle's medium (DMEM, Invitrogen) and incubated with 7 mL of DMEM . After 24 h, the conditioned medium was harvested and cells were incubated a second time with 7 mL of DMEM for 24 h . Media were then pooled, passed through 0 .45 µm filter, and stored at −80°C as 2 mL aliquots until use . 圖 13:文章 22529981 中的句子片段. 為了找出發生錯誤的原因,可以觀察在 170 到 172 這段句子中,可以使用候 選先行詞的句子為第 168 句到 174 句,由下圖可以發現這段句子中的 170 到 172 句,GDep 並沒有標記出任何基因名稱,所以沒有候選先行詞可以選擇,所以這 段句子中的指代詞只能指代到其他句子中並不相干的候選先行詞,並沒有辦法進 行指代消解。. 圖 14:文章 22529981 中 168 到 174 句中的名詞片語. 41.
(50) 另外,從實驗數據中也可以發現文章 22523685 的 Recall 與 Precision 相比下 降了 15%,而其他文章只下降了 3%-4%,可以發現文章 22523685 的名詞片語總 數為 573 個,而由系統辨識需要進行指代消解的指代詞為 461 個,相差了 112 個, 經由觀察指代結果(如圖 15 所示,箭頭符號左邊為指代詞和所在的句子位置,箭 頭符號右邊為先行詞及所在的句子位置)文件發現,因為距離特徵取絕對值小於 3 以內的句子,所以從第 9 句到第 18 句,這 9 個句子之間的指代詞並沒有候選先 行詞可以使用,表示在文章 22523685 中經常出現在指代詞附近沒有任何的候選 先行詞可以選擇,所以造成了文章 22523685 的 Recall 值相較於其他文章來的低, 所以距離特徵對於 Recall 值的影響是很大的,這也表示 Precision 和 Recall 值的選 擇很難取得平衡,如果選擇數值較大的距離特徵則 Recall 值變大 Precision 值變小, 相反的,選擇數值較小的距離特徵則 Recall 值變小,Precision 值變大。. 圖 15:文章 22523685 指代結果. 42.
(51) 除了上述所討論的 GDep 沒辦法辨識藥品、溶劑或是化學的專有名詞以外, 最主要造成 Precision 沒有辦法提高的原因,在於生物資訊領域辨識生物基因的剖 析器並沒辦法達到很高的效能,如第三章的表 1 所示,GDep 在辨識這些生物基 因的 Precision 只有 67%,這將造成在生物醫學文獻上進行指代消解的阻礙。. 43.
(52) 第五章 結論與未來發展 在本篇論文中,提出了在生物醫學文獻上處理非代名詞指代消解問題的方法, 本研究將四篇生物醫學全文文本先進行分句處理以及雜訊的過濾,然後使用 GDep 剖析器(GENIA Dependency parser)分析句子,將句子進行標記基因名稱(tag gene names)、詞性標記(part-of-speech tagging),和名詞組的標記及辨識(noun phrase chunking)。為了得到所需要的各項特徵值進行以下的處理,包括先行詞和指代詞 間的範圍偵測(boundary detection)、辨識所有的名詞片語的類型(identify all NPs), 並且使用特徵集與規則集擷取出需要使用的特徵值,最後使用 Bayes‟ theorem 機 率模型進行指代消解。實驗結果得到精確度(Precision)為 73.83%、回收率(Recall) 為 67.36%、F-度量(F-measure)70.36%。 本研究應用統計模型進行回指消解,實驗所得到的結果與 Gasperin (2008)等 人和 D'Souza (2012)等人做的共指消解沒有辦法互相比較,本研究將統計模型應 用在回指消解並提出了同分情形的判斷方法,研究顯示應用統計模型可以得到不 錯的結果。 在未來的發展中,雖然在生物醫學文獻上處理指代問題能夠使用的特徵有限, 但希望能找出更多有用的特徵值或是將各個特徵值依照重要性給予權重以及使 用辨識能力更好的剖析器,除此之外,可以進行距離特徵的優化,找出最適合此 方法的最佳距離特徵,或是更精確的過濾指代詞,以期達到更好的結果。. 44.
(53) 參考文獻 Bayes‟ theorem. Available from http://en.wikipedia.org/wiki/ Bayes%27_theorem.. BioNLP-2011. Available from https://sites.google.com/site/bionlpst/.. Brennan, S.E., Friedman, M.W. and Pollard, C.J. (1987). “A Centering Approach to Pronouns,” Proceedings of Association for Computational Linguistics Conference ACL’87, Stanford, California, USA, pp. 155-162.. Briscoe, T., Carroll, J. and Watson, R. (2006) “The second release of the RASP system,” Proceedings of Association for Computational Linguistics Conference ACL’06, Sydney, Australia, pp. 77-80.. Cardie, Claire and Wagstaff, Kiri. (1999). “Noun Phrase Coreference as Clustering,” Proceedings of Joint SIGDAT Conference on Empirical Methods in NLP and Very Large Corpora, pp. 82-89.. Chen, B., Yang, X.F., Su, J., Zhou, G. and Tan, C.L. (2008). “Other-Anaphora Resolution in Biomedical Texts with Automatically Mined Patterns,” Proceedings of International Conference on Computational Linguistics Conference COLING’08, Vol. 1, Manchester , pp. 121-128.. Christopher, D. Manning., Prabhakar, Raghavan. and Hinrich, Schütze. (2008). Introduction to Information Retrieval, Cambridge University Press.. CLEF. Available from http://www.clef2013.org/index.php.. Dagan, I. and Itai, A. (1990) “Automatic Processing of Large Corpora for the Resolution of Anaphora Reference,” Proceedings of International Conference on Computational Linguistics Conference COLING’90, Vol. 3, Helsinki, Finland, 45.
(54) pp. 330-332.. D'Souza, Jennifer. and Vincent, Ng. (2012). “Anaphora Resolution in Biomedical Literature: A Hybrid Approach, ” Proceedings of the ACM Conference on Bioinformatics, Computational Biology and Biomedicine, pp. 113-122.. Eilbeck, K. and Lewis, Suzanna E. (2004). “Sequence Ontology annotation guide,” Comparative and Functional Genomics, Vol. 5, no. 8, pp.642-647.. Gasperin, C. and Briscoe, T. (2008). “Statistical Anaphora Resolution in Biomedical Texts,” Proceedings of International Conference on Computational Linguistics Conference COLING’08, Vol. 1, Manchester, pp. 257-264.. GDep. Available from http://people.ict.usc.edu/~sagae/parser/gdep/.. GENIA corpus. Available from http://www-tsujii.is.s.u-tokyo.ac.jp/~genia/ topics/Corpus/.. Hobbs, J. (1986). Readings in Natural Language Processing. Morgan Kaufmann Publishers Inc. San Francisco, CA, USA.. Kennedy, C., Boguraev, B. (1996). “Anaphora for Everyone: Pronominal Anaphora Resoluation Without A Parser,” Proceedings of 16th conference on Computational Linguistics COLING’96, Vol. 1, pp. 113-118.. Lappin, S., Leass, H.J. (1994). “An Algorithm for Pronominal Anaphora Resolution,” Computational Linguistics, Vol. 20, no. 4, pp. 535-561.. Li, D.C., Miller, T. and Schuler, W. (2011), “A Pronoun Anaphora Resolution System based on Factorial Hidden Markov Models,” Proceedings of Association for Computational Linguistics Conference ACL’11, Portland, Oregon, pp. 46.
(55) 1169-1178.. Marcus, M.P., Santorini, B. and Marcinkiewicz, M.A. (1993).“Building a Large Annotated Corpus of English: The Penn Treebank,” Proceedings of Computational Linguistics, Vol. 19, no. 2, pp. 313-330. McCarthy, J.F. and Lehnert, W.G. (1995). “Using Decision Trees for Coreference Resolution,” Proceedings of International Joint Conference on Artificial Intelligence Conference pp. 1050-1055.. MUC. Available from http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html.. NLPBA. Available from http://www.nactem.ac.uk/tsujii/GENIA/ERtask/report.html.. Penn Treebank. Available from http://www.cis.upenn.edu/~treebank/.. PubMED. Available from http://www.ncbi.nlm.nih.gov/pubmed.. QA4MRE. Available from http://celct.fbk.eu/QA4MRE/.. Quinlan, J.R. (1993). C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.. Sagae, K., Tsujii, J. (2007). “Dependency Parsing and Domain Adaptation with LR Models and Parser Ensembles,” Proceedings of EMNLP-CoNLL, pp.1044-1050.. Soon, W., Ng, H. and Lim, D. (2001). “A Machine Learning Approach to Coreference Resolution of Noun Phrases,” Computational Linguistics, Vol. 27, no. 4, pp. 521-544.. 47.
(56) Vlachos, A. and Gasperin, C. (2006). “Bootstrapping and Evaluating Named Entity Recognition in the Biomedical Domain,” Proceedings of BioNLP at HLT-NAACL. Conference LNLBioNLP’06, New York, pp. 138-145.. Yang , X.F., Su, J., Zhou, G. and Tan, C.L. (2004). “An NP-Cluster Based Approach to Coreference Resolution,” Proceedings of International Conference onComputational Linguistics Conference COLING’04, Geneva, Switzerland, pp. 226-232.. Yang, X.F., Zhou, G., Su, J. and Tan, C.L. (2003). ”Coreference Resolution Using Competition Learning Approach,” Proceedings of Association for Computational Linguistics Conference ACL’03, Sapporo, Japan, pp. 176-183.. Yang, Y., Li, Y.C., Zhou, G. and Zhou, Q.M. (2008). “Research on Distance Information for Anaphora Resolution,” Journal of Chinese Information Processing, Vol. 22, no. 5, PP. 80-90.. 48.
(57)
相關文件
Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised
A dual coordinate descent method for large-scale linear SVM. In Proceedings of the Twenty Fifth International Conference on Machine Learning
Mehrotra, “Content-based image retrieval with relevance feedback in MARS,” In Proceedings of IEEE International Conference on Image Processing ’97. Chakrabarti, “Query
in Proceedings of the 20th International Conference on Very Large Data
(1999), "Mining Association Rules with Multiple Minimum Supports," Proceedings of ACMSIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego,
Shih and W.-C.Wang “A 3D Model Retrieval Approach based on The Principal Plane Descriptor” , Proceedings of The 10 Second International Conference on Innovative
Wells, “Using a Maze Case Study to Teach Object-Oriented Programming and Design Patterns,” Proceedings of the sixth conference on Australasian computing education, pp. Line, “Age
Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,