資訊萃取技術在生物醫學文獻上的應用與探討(I)

(1)

行政院國家科學委員會專題研究計畫期中進度報告

資訊萃取技術在生物醫學文獻上的應用與探討(1/2)

計畫類別：個別型計畫計畫編號： NSC93-2213-E-009-074- 執行期間： 93 年 08 月 01 日至 94 年 07 月 31 日執行單位：國立交通大學資訊科學學系(所) 計畫主持人：梁婷計畫參與人員：吳典松、施並格、林裕祥、王怡嘉、龔自良、黃立泓、蘇傳堯、施曉茹報告類型：精簡報告報告附件：出席國際會議研究心得報告及發表論文處理方式：本計畫可公開查詢

中華民國 94 年 5 月 20 日

(2)

行政院國家科學委員會補助專題研究計畫

□ 成果報告

ˇ期中進度報告

資訊萃取技術在生物醫學文獻上的應用與探討 (1/2)

計畫類別：ˇ個別型計畫 □ 整合型計畫

計畫編號：NSC 93－2213－E－009 －074 －

執行期間： 93 年 8 月 1 日至 94 年 7 月 31 日

計畫主持人：梁婷副教授

共同主持人：

計畫參與人員：吳典松、施並格、林裕祥、王怡嘉、龔自良、黃立泓、

蘇傳堯、施曉茹

成果報告類型(依經費核定清單規定繳交)：ˇ精簡報告 □完整報告

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式：除產學合作研究計畫、提升產業技術及人才培育研究計畫、

列管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

執行單位：國立交通大學資訊科學學系

中華民國 94 年 5 月 20 日

(3)

資訊萃取技術在生物醫學文獻上的應用與探討 (1/2)

在本計畫中我們開發有效實用的自然語言處理技術和文件探勘技術，進而建製一個可應用在生物文獻的自動資訊萃取系統。主要的工作包括生物實體名稱辨識、名稱指代處理、關係的辨識與萃取。我們結合法則式和統計式的方法來強化實體名稱辨識的效能。此外我們利用文件探勘技術來解決語句中指式型指代間題。同時我們也探討生物訊息和非生物訊息在實體關係的辨識和強度計算上的影響力，並利用探勘技術建立關聯法則以處理存在於語句中的實体關係的語言問題。關鍵詞 : 自然語言處理、資訊萃取、文件探勘、實體名稱、指代處理、關係辨識

(4)

II

英文摘要

Information Extraction In Biomedical Domain (1/2)

We p ro pos e to dev elop an effi ci ent in form atio n ex traction s yst em us eful fo r bio medi cal lit erat ure b y usin g n at ural l an gu age pro cessi n g an d t ex tual minin g t echni q ues . This s yst em will mainl y ad dres s t he task s su ch as n am ed entit y i denti fi cati on, an aph ora res olut ion , rel atio n id enti fi cati on an d ex tractio n. We will empl o y b oth st atisti cal and lin guis tic mo d els fo r n am ed entit ies id entificati o n. W e will us e tex tu al m inin g t o deal wi th thos e s ortal an aph ora p ro bl ems. M eanwhil e, th e propo s ed rel ati on reco gniti on mech anism will t ak e int o accou nt bot h t he biom edi cal in fo rm ati on en cod ed in t he ex istin g d atabases as well as th e in fo rm ation d i rectl y m in ed from t h e lit eratu re. Besid es the pro blems ass oci at ed with t h e lin guist ic v ari eti es wil l b e t ackl ed by using the proposed association rules.

Keywo rds : natu ral language processi ng, textual mining,

info rm atio n ex tracti on, named entit y id enti fi cation , an ap ho ra resolution, relation identification.

(5)

資訊萃取技術在生物醫學文獻上的應用與探討

一、前言 近年生物醫學研究蓬勃發展，相關文獻快速累積。例如以果蠅資料庫參考文獻而言在近一百年間 (1900-2000) 几乎是呈指數型的增長。如此增長的速度對從事研究者而言，要能在浩瀚的資料中全備追蹤掌握相關研究資訊是一項不容易的事情。另一方面，多數的生物資料庫如 Protein Information Resource (P IR), SWISS-PROT, Database of In t eractin g Proteins (D IP), Mol ecul ar IN Teracti on d at ab as e (M INT )…等多仰賴生物醫學專家閱讀論文，再將其中重要研究發現和結果，萃取、整理、儲存到結構化資料庫中。然而毫無疑問地，這種人工精心打造的知識庫，其建立、更新與資訊正確性 (integrit y)的檢查，實在是一件耗時耗力的工作。因此極需資訊萃取工具的開發來協助生物專家，以加速生物知識的萃取和管理。這種資訊萃取系統的建立無疑地將可促進資訊的整合、交流和更新，甚至帶來生物醫學技術的突破。 二、研究目的 本計劃將探討兩個議題分別是萃取技術的研發和問答系統的製作將分兩年來進行。在本年度我們將開發有效實用的自然語言處理技術和文件探勘技術，進而建製一個可應用在生物文獻的自動資訊萃取系統。主要的工作將包括生物實體名稱和關係的辨識與擷取。我們相信此計畫的執行不僅有助於生物學家的知識擷取和整理，進而促進生物研究的新發現，同時亦有益於實用的資訊萃取技術的發展，以應用於其它領域的知識庫建構的自動化。

(6)

2 三、文獻探討近年資訊萃取主要的議題分別在生物實體名稱和實體之間的關係辨識與擷取。在實體名稱的辨識上如同新聞語料中所面臨的挑戰包括詞界、新詞、命名的不規則與不一致性、語義的多樣性、省略詞彙、縮寫、指代現象處理等問題。由於名稱的組成往往包含了兩個以上的詞，是以詞界辨識的問題在名稱分類前需先予以解決。目前名稱的辨識有專注於單類實體如蛋白質名稱到多種類實體的辨識。使用的技術可分為兩種。第一種是利用實體名稱的組成成分以人工歸納的法則作為辨識基礎。一般而言這種方法相較於統計法可以達到較高的正確率，然而手建的規則需要專家知識的輔助，故缺乏擴充性 (scalabilit y)和可移植性 (portabilit y)。目前這方面系統有蛋白質名稱的辨識工具 KeX [Fukuda et al., ‘98] 和 Yapex [Olsson et al., ‘02]。在[Hou and Chen, ‘03]的文章中 Hou and Chen 則交叉利用這兩個系統結果和篩選法則來提高蛋白質名稱的辨識率。

第二種方法是應用統計模組進行辨識，如 Hidden Markov Model [Collier et al., ’00; Shen et al., ‘03], Maximum Estimation [Nobata et al., ’99; Kazama et al., ’01; Chieu and Ng, ‘03], Support Vector Machine [Kazama et al., ’02; Takeuchi and Collier, ’03; Yamanoto et al., ‘03], Naïve Bayes [Tsuruoka and Tsujii, ‘03]等等.。然而此種機器學習為主的辨識需要大量的標記好的語料以達到可接受的成效。依據 IdentiFinder S ystem 的結果分析顯示新聞語料中其名稱辨識結果與訓練語料量成對數 (log)的增長。因此對機器學習的方法首要的挑戰之一包括如何簡易地產生足夠量的訓練語料。目前廣為所用的已標記語料有 Bio1，它包含有 100 篇標記好的 Medline 摘要以及所用的 taxonom y 是由 Tateishi et al. 於 2000 年所建的和 GENIA project 的 GENIA corpus。

在生物實體名稱邊界的判定上有以辭典作比對或使用 BIO(Beginnin g/ In side/Outsi de of a named entit y) (或其變異體如 BIO1, B IO2, IOE1, IOE2 )的表示方法，將名稱邊界辨識問題轉換成分類的問題。此外多數的統計式辨識方法的成效 (SVM 方法較與特徵無關 )亦有 賴於特徵的挑選 [Kazama et al., ‘02]。使用的特徵包括 Part-Of-Speech, Surface, Cue Word, Morphological, Contextual features。目前的結果在實體名稱的分類 中，對單一和多種實體名稱分類上，以 GENIA 3.0 Corpus 所做的實驗而言，大約可分別達到 70%和 66%左右的 F-Score [Shen et al., ’03; Tsuruoka and Tsujii et al., ‘03]。這樣的結果相較於一般語料(如新聞語料中)的實體名稱辨識率可達 90%以上的 F-score，生物醫學的實體名稱辨識技術仍有努力的空間。至於生物實體之間關係的辨識與抽取的挑戰性在於句型語意表示方法的多樣性和關係存在的複雜度，諸如肯定關係、否定關係、未定關係、隱藏關係、歧異關係的確認。再者生物文件中，如 Genia Corpus，單句所含的生物實體平均數有 5.28 個。因此實體之間的單一或多重關係的處理需要進一步的辨識。在關係辨識部分，目前多著重在兩個生物實體間關係的存在與否。因此可利用統計式的方法，來進行大量的辨識處理。例如 Carven 與 Kumlien [‘99] 使用 Navie Bayes classification 技術將關係辨識轉為單一句子的分類工作以進行蛋白質的子細胞位置及其子細胞結構之自動辨識。Stephens et al. [‘01] 利用傳統的詞頻加權技術，來計算基因之間關係的強度，做為判讀關係的存在與否。此外在[Ding et al. ‘02]的文章中也討論到關係的存在與兩實體在文章中距離有關，距離越近，關係辨識的正確率越高，但召回率越低。一般而言，統計式

(7)

方法因缺少語法的分析，所以無法界定實體在關係之間的角色，同時統計式方法的辨識成效也有賴於語料庫收集的完備與否。

目前多數關係萃取取系統多倚賴語法剖析器的協助和主要動詞為主的語法模型比對來進行。如早期 Blaschke et al. [‘99 ] 使用些許手動建立的規則，半自動的辨識兩蛋白質間的交互作用。Sekimizu et al. [‘98] 利用在 Medline 摘要中的常見動詞，辨識基因與基因產物間的交互作用。Proux et al. [‘00] 以 finite-state machine 為基礎的語言工具和知識概念圖，自動地從 Flybase 的 1200 個句子中，萃取出基因的交互作用。Yakushiji et al. [‘00] 使用 full parser，以輔助生物事件萃取。Ono et al. [‘01] 使用蛋白質詞彙、提示詞、以及簡單的詞性標記，萃取出兩蛋白質間的交互作用。雖然這個方法得到高於 80%的召回率、精確率，但交互作用只限於少許的關鍵詞。至於跨語句的關係萃取則有賴於指代現象的處理機制。在[Castano et al. ‘02] 考量名詞片語的相似性，語意類別，語法角色做為先行詞的挑選依據。Hahn et al. [‘02] 則定義所謂的 ”Center Lists”，將每一個名詞依據一些特徵往前找尋最相關名詞。[Gaizauskas et al. ‘03] 使用事先定義的語意法則，藉以串聯語句之間的生物實體，處理同指現象。上述大部分的方法都只在少量的文章作實驗且多侷限於簡單關係的萃取。對於單、多句子隱含的多重關係，事實上，仍需進一步的探勘處理技術，方能有效的解析出來。二十一世紀可以說是資訊網路與生物科技產業的世紀，其中生物科技又被譽為希望工程，許多學術研究機構莫不積極發展。近幾年中，我們也在本校的跨系所的重點計劃推動下，應用資訊擷取技術建立一個整合型的網路微生物文獻自動化處理和查詢系統 [Liang, et al. 03]。此外我們也初步探討資訊萃取在實體名稱和關係辨識上的應用，包括利用機器學習方法製作一個無需辭典協助的生物實體名稱辨識與分類工具 Bio-tagger Versi on 1[Chen, ‘03]。此標記工具可處理省略詞彙還原，並可進行多種生物實體名稱辨識 (Protein、DNA、RNA、 Source 和其他生物體名稱 )，在 GENIA 3.01 Corpus 的實驗上整體名稱辨識和分類的 F-Score 分別達到 69%和 60%，與一般 knowledge-poor 的方法相當。此外我們也提出一個權重式 Navie Bayes 分類模型對單句中肯定、否定、未定關係進行辨識，再以 pattern rules 作多重關係的萃取 [You, 2003]。然而如同多數前述所提到的資訊萃取系統，在這些初步的辨識和萃取方法設計上，我們在使用生物方面的領域知識的研究上仍有待努力。因此在本計畫中我們將加強這方面的能力，希望結合文件探勘技術探勘出存在於資料庫中的生物訊息，以強化並驗證我們所提的資訊萃取系統和生物知識問答系統。四、

研究方法

在本年度我們開發有效實用的自然語言處理技術和文件探勘技術，進而建製一個可應用在生物文獻的自動資訊萃取系統。主要的工 作將包括生物實體名稱和關係的辨識與擷取及實體名稱指代處理。 有別於多人使用的 GENIA 3.01 語料，其所涵蓋的範圍較廣泛，在本計畫中，我們以 SWISS-Prot 資料庫的參考文獻收集成為訓練語料。由於這是蛋白質相關資訊的語料，對於蛋白質名稱的辨識和關係的資訊探勘上將有較丰富的資訊以達到較高正確的辨識率。另外我們也收集、整合各生物實體名稱，及蛋白質之間的關係，做為日後的實体與關係的比對、檢驗用。文章前置處理包括斷句處理和斷詞處理。我們用 Sentence Splitter 來處理斷句部分。斷詞處理是使用 Penn Treebank tokenization。我們修改這兩個前置處理工具以適合所使用的語料。

實體名稱辨識處理

有別多數實體名稱辨識系統中几乎都沒有處理到詞彙省略和變異現象，我們發現這個問題在建構一個實際有效的名稱辨識器上仍有其探討

(8)

4 的必要性。以 GENIA 3.01 Corpus 而言，人工標記的省略詞就有 1,595 個，略可分成四種不同的型式。因此在這本計畫中我們改良先前建構的省略回復處理器，利用詞群技術以導引自動機的途徑以提升其正確率。就文獻探討，我們是第一位有提出解決 coordination variants 現象的研究。我們改良我們之前所設計的方法加入了詞群的機制以導引辨識器途徑，F-score 可提升 12%。此外針對常見的縮寫現象，我們利用法則並以 Park and Byrd [‘01] 所提的策略來決定 window size，以辨識縮寫和原型，F-score 可達 93%。

另一方面從前述的文獻研究中，我們也發現法則式或統計式的辨識處理都各有其優缺點。因此在本計劃中我們以混合式的策略來建構實體名詞辨識器。其中規則式的部分我們使用先前所開發適用於生物醫學文獻的 HMM-based POS tagger (目前此 tagger 在 GENIA 3.02p 對 65 種標記可達到 94%的正確率) 來做詞性標記，並利用文件探勘技術探勘出文獻庫中實体名稱的組成詞段模型，以產生候選實體名稱。在統計式的部分，我們改良之前所設計的 HMM-based 的辨識器，加入從 SWISS-Prot corpus 中所探勘出耒的蛋白質各生物屬性之重要資訊，以得到候選實體名稱。我們將利用收集到的實体名稱建立所需的標記訓練語料耒訓練所建的辨識器。我們再合併從法則式和統計式辨識中所得到的候選實體名稱，並藉由篩選機制進行最後的檢驗。在沒有 dictionary 輔助下，我們的 F-score 可達 76% 與現今有 dictionary 輔助的結果接近。 實體名稱指代處理 文句中的指代現象處理是自動辨識實體關係的重要一環。因此除了加以修改先前所設計的虛詞和代名詞的指代處理模組 [Liang and Wu, ‘03]，使之適用於生物醫學語料處理。在本計畫當中，我們還將加強指示型指代處理模組，以建構一個概念式的指代還原器，有效處理跨語句的關係萃取。此指示型指代處理模組將利用指代詞和先行詞之間的語意標記訊息和詞彙共現等特徵的一致性作挑選依據。同時我們也進一步藉助探勘技術來萃取出指代詞的概念功能詞 (如酵素, receptor 之於蛋白質)，以有效找出先行詞和指代詞的配對，進而達到 UMLS 中生物概念的分類自動擴充。這方面困難度在於有此標記的訓練語料很少。目前我們借助專家手工標記的 Medtract Corpus 整理出的先行詞和指代詞的配對及從 PubMed 所得的 patterns 建立關連法則。所提的方法在指代詞指代消解，F-score 可達 92%；在名詞指代消解，F-score 可達 78%。 實體關係辨識與萃取 如前所述大多數的實體關係辨識到目前為止都僅限於少量的語句測驗並且很少用到生物實体屬性訊息。因此在本計劃中我們嚐試從已知的部份實體關係 (以 DIP 資料庫中有關果蠅的部份 )，利用 SWISS-Prot 所存的生物語意資訊 (如是否出自同一個生物、具有相近的功能表現、••等)，以強化我們所提的辨識機置。我們以蛋白質的交互關係為主要處理項目，再擴展到其它關連的辨識。利用部份具闊係的蛋白質配對做為搜尋詞組進行對所整理出的 SWISS-Prot 語料做文件探勘，以取出可用的關係辨識訊息並藉此產生可用的標記訓練語料。在關係確認的處理上，除了利用生物資料庫如 SWISS-Prot database 所探勘到的生物語意資訊，我們也考量耒自文獻中所探勘到的非生物訊息 (如距離、頻率、共現率•• 等 )和語言的訊息 ( 如否定訊息、語法角色、與動詞關係、相鄰詞 • • 等 )。對於同義詞組我們將事先予以群集以增強關係的辨識程度。我們分別以統計式的模組和權重計算耒探討不同的特徵在已知的關係辦識上的影響力，最後再另拿部份的關連做測試以檢驗我們的辨識機置。

(9)

計劃成果自評

本計畫中，我們開發有效實用的自然語言處理技術和文件探勘技術，進而建製一個可應用在生物文獻的自動資訊萃取系統。目前完成的工作項目及成果如下： 1. 相關語料和相關資料庫整合 2. 訓練語料標記程序建構: 我們建立一個新的標記語料庫 SRC 較之一般所用的 GENIA Corpus ( 束京大學所建 ) 更適合作為 Protein 文獻探勘技術的 evaluation corpus. 3. 適用於生物文獻的詞類標記器建構:正確率可達 94%. 4. 省略回復處理器建構 : 就文獻探討，我們是第一位有提出解決 coordination variants 現象的研究。我們改良我們之前所設計的方法加入了詞群的機制以導引辨識器途徑，F-score 可提升 12% 5. 混合式實體名稱辨識器建構: 在沒有 dictionary 輔助下，我們的 F-score 可達 76% 與現今有 dictionary 輔助的結果接近。 6. 實體名稱指代處理器建構: 我們處理虛詞、代名詞和指示型指代消解及縮寫。所提的方法較之以往的方法在相同的測試語料下可達較高的 F-score. 7. 實體關係探勘器和辨識器建構: 生物語意特徵和生物語意特徵探勘。尚未完成的部份為關係處理上關係強度權重計算分析，預計七月底前應可完成。目前完成計劃的成果包括完成三篇相關碩士論文 (參考文獻 1, 2, 3)，和三篇會議論文(4, 5, 6)。其中一篇如附件將於六月在西班牙第 10 屆 International Conference on Application of Natural Languages to Database Systems 發表。另兩篇亦在 16th 計算語言學會議發表。

參考文獻

1. Ping-ke ShiH, 2004, “Automatic Protein Entities Recognition from PubMed Corpus”, Master Thesis, National Chiao Tung University.

2. Yu-Hsiang Lin, 2004, “Coreference Resolution in Biomedical Literature,” Master Thesis, National Chiao Tung University.

3. Yi-Chia Wang, 2004,“Web-based Unsupervised Learning to Query Formulation for Question Answering,” Master Thesis, National Chiao Tung University.

4. Tyne Liang and Ping-ke Shih, 2005, “Empirical Textual Mining to Protein Entities Recognition From PubMed Corpus,” NLDB 2005, Lecture Notes in Computer Science, 3513, pp. 56-66.

5. Yu-Hsiang Lin and Tyne Liang, 2004, Pronominal and Sortal Anaphora Resolution for Biomedical Literature, Proceedings of ROCLING XVI, Taipei, Taiwan, pp. 101-110.

6. Yi-Chia Wang, Jian-Cheng Wu, Tyne Liang, and Jason S. Chang, 2004, Using the Web as Corpus for Unsupervised Learning in Question Answering, Proceedings of ROCLING XVI, Taipei, Taiwan, pp. 191-198.

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

資訊萃取技術在生物醫學文獻上的應用與探討(I)

行政院國家科學委員會專題研究計畫 期中進度報告

資訊萃取技術在生物醫學文獻上的應用與探討(1/2)

中 華 民 國 94 年 5 月 20 日

行政院國家科學委員會補助專題研究計畫

□ 成 果 報 告

ˇ期中進度報告

資 訊 萃 取 技 術 在 生 物 醫 學 文 獻 上 的 應 用 與 探 討 (1/2)

計畫類別：ˇ個別型計畫 □ 整合型計畫

計畫編號：NSC 93－2213－E－009 －074 －

執行期間： 93 年 8 月 1 日至 94 年 7 月 31 日

計畫主持人：梁 婷 副教授

共同主持人：

計畫參與人員：吳典松、施並格、林裕祥、王怡嘉、龔自良、黃立泓、

蘇傳堯、施曉茹

成果報告類型(依經費核定清單規定繳交)：ˇ精簡報告 □完整報告

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式：除產學合作研究計畫、提升產業技術及人才培育研究計畫、

列管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

執行單位：國立交通大學資訊科學學系

中 華 民 國 94 年 5 月 20 日

資 訊 萃 取 技 術 在 生 物 醫 學 文 獻 上 的 應 用 與 探 討 (1/2)

英文摘要

資 訊 萃 取 技 術 在 生 物 醫 學 文 獻 上 的 應 用 與 探 討

研究方法

計劃成果自評

行政院國家科學委員會專題研究計畫期中進度報告

中華民國 94 年 5 月 20 日

□ 成果報告

資訊萃取技術在生物醫學文獻上的應用與探討 (1/2)

計畫主持人：梁婷副教授

中華民國 94 年 5 月 20 日

資訊萃取技術在生物醫學文獻上的應用與探討 (1/2)

資訊萃取技術在生物醫學文獻上的應用與探討