第一章 緒論
第一節 研究動機
隨著科技的日新月異以及電腦和網路的普及,各種資訊已經呈現爆炸性的成 長,人們在這資訊時代之下要如何選擇所想要接收的訊息是一個很重要的問題。
現今資訊快速成長的背景下,訊息的擷取是非常重要的,「指代」是一種常 見的語言現象,人們想要了解與探討的實體往往可以有許多種不同的表達方式,
為了能夠找出文本中可以擷取的相關訊息,必頇對這些指代的現象做消解。指代 的消解在訊息的擷取中非常重要,像是機器翻譯、文本摘要和問答系統等許多電 腦的處理過程都需要使用到。
指代消解在自然語言處理中是一門很重要的議題,通常語意相同的訊息會在 同一篇文章中出現很多次,為了減少文章的冗贅,這些具有相同語意的字、詞、
片語通常會使用指代關係,所以必頇將這些指代關係相連起來才可以得到完整的 描述,人們也才能充分了解文章的內容。
在語言學中把指向的語言單位稱為指代詞(anaphora)或是照應語,被指向的語 言單位則稱為先行詞(antecedent),如何將指代詞指到正確的先行詞就是研究指代 消解需要解決的問題。
英文中的指代有許多種類型,常見的如下:
2
(1)
人稱代名詞(pronoun)指代,例如:John waited a while but eventually he went home.(2)
指示名詞片語(demonstrative noun phrase)指代,例如:That is a good idea.(3)
定名詞片語(definite noun phrase)指代,例如:I go to the restaurant.(4)
不定名詞片語(indefinite noun phrase)指代,例如:Jay is looking for a dog.(5)
別名(name alias)指代,例如:Steve Jobs was the CEO of Apple Inc.(6)
零指代(Zero Anaphora),例如:They said they were coming to our house today.在目前的指代消解研究中可以分為兩大研究方向,一種是回指(anaphora),另 一種是共指(coreference),回指是指目前的指代詞與前文所出現的詞、片語或句子 有密切的關連性,指代關係在上下文的語意中或是不同的語文環境中指的實體 (entity)有可能不同,例如:John waited a while but eventually he went home.,這段 句子裡的 John 為先行詞,而 he 為用以代替 John 的指代詞;共指是指代名詞或是 名詞片語指向真實世界的同一個參照體,即使不是上下文也可以成立,例如:Steve Jobs was an American entrepreneur and he was the CEO of Apple Inc.,這段句子裡的 Steve Jobs 為先行詞,而 American entrepreneur、he 和 CEO of Apple Inc 都是等價 的指代詞,所以這三個名詞具有共指關係。本篇論文為消解上下文具有回指的指
3
領域通常使用小寫斜體字來書寫基因名稱,使用大寫正體字來書寫蛋白質名稱。
生物醫學的文本和其他像是新聞、小說方面的文本有許多不同之處,在生物 醫學文本中名詞片語類型就有許多種,例如代名詞使用得非常少,幾乎都是使用 專有名詞,通常提到的都是蛋白質名稱或是其他的生物實體名稱,在本研究中統 計名詞片語發現,名詞片語總數為 3385 個,需要進行消解的非代名詞片語有 1910 個,而代名詞有 124 個,共有 2034 個需要消解的名詞片語;其中非代名詞片語 佔需要消解名詞片語總數的 93.9%,而代名詞片語只佔需要消解名詞片語總數的 6.1%,所以本研究將重點放在研究非代名詞的指代消解上。
第二節 論文組織
本篇論文的組織架構如下:第一章為緒論,說明研究的動機與目的;第二章 為相關研究的探討,介紹關於這個領域的研究背景和前人的研究成果;第三章為 研究方法,介紹本研究的架構以及詳細說明本篇論文所提出的研究方法;第四章 為實驗過程與實驗結果;第五章為結論與未來發展。
4