國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
1
第 1 章 緒論
1.1 研究背景與動機
文字蘊涵[23]的相關評比最早可以追朔到 2005 年 Recognizing Textual Entailment (RTE)[16]所舉辦英文語料相關評比開始,所謂的文字蘊涵就是,當擁有兩個文 字片段 A 和 B 時,如果可以將其中一個文字片段 A 的含意推論到另一個文字片 段 B,也就是說 A 文字片段所擁有的語文資訊完全包含了 B 文字片段的語文資 訊,因此 A 的資訊便足夠推導致 B 的資訊,我們就可以稱兩文字片段具有推論 的關係,也稱之為文字蘊涵關係。然而文字蘊涵關係是有方向性的,文字片段 A 可以推論至文字片段 B,並不代表反向也是如此,以下句對為例,A 句可以推論 至 B 句,而 B 句卻無法推論至 A 句,因為 B 句的語文資訊並沒有包含 A 句所有 的語文資訊。
A:日本時間 2011 年 3 日 11 日發生芮氏規模 9.0 強震,造成死傷失蹤約 3 萬多人。
B:日本曾發生規模 9.0 地震。
在本論文的研究中,我們參加了 NTCIR (NII Testbeds and Community for information access Research) 的 子 任 務 RITE-VAL (Recognizing Textual Entailment- Validation)[15]的評比,其評比內容即是藉由文字蘊涵的技術,透過維 基百科[25],自動地辨別任一論述句的真實性,我們使用自然語言處理、資訊檢
‧
徵擷取,利用 Linearly Weighted Functions(LWFs)[11]的方法,判斷出該論述句為事實句(Entailment),或與事實違背(Contradiction)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3
最後我們採用 LWFs 的方式訓練各項特徵的參數,建置一個辨別事實與否的 模組。
1.4 論文架構
本論文共分為六章,第一章為緒論,說明研究背景、動機、目的、問題描述及論 文架構;第二章探討過去文字蘊涵的相關研究,包含各種中英文語句推論關係的 方法,如機器學習、知識為基底(Knowledge-based)、邏輯推論等作法,以及各種 語言特徵的擷取與詞彙語意分析等內容;第三章說明所使用的語料集,以及用來 輔助推論系統的辭典;第四章則說明本研究提出的系統架構,大致分為三個程 序,包含擷取相關文章及相關句、相關度計算,以及推論驗證系統;第五章設計 實驗方法與進行測試語料預測結果,第六章則利用資訊檢索方法採取小規模實驗 設計, 最後我們在第七章總結本研究的成果與發現,並提出目前不足之處以及 未來改善的方向,以利後續的研究與應用。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4
第 2 章 文獻回顧
本節針對過去文字蘊含的相關研究,與 RITE 及 RTE 評比中的語句推論研究進行 回顧。
2.1 文字蘊涵相關研究
過去文字蘊涵相關研究採用許多不同的方法,透過經驗法則公式[8],或藉著機 器學習演算法來建構系統,例如使用 SVM、決策樹(Decision Tree)等演算法,或 使用投票(Voting)綜合多種分類器等方式來預測推論關係。Huang[9]等人透過經 驗法則式模型和機器學習演算法與特徵項來建構系統,將常見的語句資訊擷取出 來做為特徵,並針對實體名詞標記、日期與數字處理,提升文字中資訊擷取的能 力,也對句法結構、近義詞、反義詞等作相關特徵擷取,從研究中顯示,透過不 同的語文特徵擷取以及不同的實驗方法交互比對,能有效獲得語句中的資訊。
Wu[28]等人亦透過機器學習演算法,利用機器翻譯效能評估的 BLEU[2]分數及句 子長度做為特徵訓練分類器。而 Zhang[29]等人提出加入語意相關特徵處理,透 過上下位詞、同義詞與反義詞等資訊,來進行語意的推論,並使用多種機器學習 的演算法,透過投票的機制更能有效地提升推論關係判斷的準確率。
在句子結構相似度計算的部分,Cohen[4]等人提出了兩個演算法 pq-gram distance 和 Dynamic algorithm for subtree similarity-search 方法,作為句子結構樹 的相似度計算,而 Li[10]等人提出了利用兩剖析樹,計算 Largest Common Subtree(LCST) 和 Smallest Common Super-tree(SCST) 然後透過三個運算方式 1. Substitution 2. Deletion 3. Insertion 來計算樹與樹之間的距離,能有效的計算出
‧
分析與人工智慧的應用。Budanitsky 與 Hirst[3]便以 WordNet 為基礎,提出數種 詞彙間語意的相似度計算的方法,藉以比較詞彙之間的語意關係。‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
6
為判別的策略,可以進一步的分析 2x2 四種情況的組合會在什麼情況下發生,
例如當表面相似度很高但句意相似度卻很低時,可以猜想句對中可能有不同數量 的否定詞存在,透過上述的方式,在文字蘊涵推論的判斷上,都是相當實用且具 有不錯效果的方法。
我們的研究利用機器學習的方法,以 Linearly Weighted Functions(LWFs) 建 構一套推論模型,並透過多種的方式和語文特徵提升系統的推論能力和對於句子 語意的理解,接下來我們將提出幾項方法來建置推論系統。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
7
第 3 章 語料及辭典介紹
本章說明此研究使用的 RITE-VAL 英文語料集,首先說明語料內容,並列出語料 的相關統計數據,接著介紹英文維基百科和 WordNet 辭典的相關說明。
3.1 語料集
我們經由參與 NTCIR 的評比,取得 RITE 的訓練(Dev.)與測試(Test)語料集,語料 的類型為英文的論述句。圖 3.1 為本語料集的資料範例,而語料類型範圍廣泛:
諸如歷史、經濟、政治、戰爭等等,每筆資料皆有一個編號記錄,並包含一個句 子 t2,而 label 代表的是我們能否從維基百科中找出相對應的 t1,並檢驗 t1 的內 容是否能推論出 t2 中的假設,Y 表示該句為事實句,N 則代表違背事實。我們 共取得了 NTCIR-10 RITE-2 和 NTCIR-11 RITE-VAL 的訓練與測試語料,表 3.1 和表 3.2 為訓練與測試語料集的數量統計。
<pair label="Y" id="210">
<t2>United Nations member countries must accept and execute the decisions of the Security Council in accordance with the Charter of the United Nations.</t2>
</pair>
<pair label="N" id="218">
<t2>During the Cold War, the United Nations continued efforts aimed at alleviating the tension between the USA and the Soviet Union based on the Marshall Plan.</t2><
/pair>
圖 3.1 語料範例
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
8
表 3.1 英文測試語料集統計 來源 NTCIR-11
語言 英文
類別 Test.
總和 188
表 3.2 英文訓練語料集數量統計 來源 NTCIR-10 & NTCIR-11
語言 英文
類別 Dev
Y 229
N 151
總和 362
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
9
3.2 英文維基百科
維基百科(Wikipedia),是一個自由內容、公開編輯且多語言的網路百科全書協 作計畫,透過 Wiki 技術使得包括您在內的所有人都可以簡單地使用網頁瀏覽器 修改其中的內容。維基百科一字取自於核心技術「Wiki」以及具有百科全書之意 的「encyclopedia」共同創造出來的新混成詞「Wikipedia」,當前維基百科是由非 盈利組織維基媒體基金會負責營運,並接受捐贈。
維基百科是由來自世界各地的志願者合作編輯而成,整個計畫總共收錄了超 過 3,000 萬篇條目,而其中英語維基百科以超過 450 萬篇條目在數量上排名第 一。維基百科允許任何存取網站的使用者使用網頁瀏覽器自由閱覽和修改絕大部 分頁面的內容,根據統計在維基百科上大約有 35,000,000 名登記註冊使用者,其 中有 100,000 名積極貢獻者長期參與編輯工作。
3.3 WordNet
WordNet[26]是由普林斯頓大學所發展的一套線上電子辭典,自 1985 年開發維護 至今,當中收錄大量的英文詞彙,包含動詞、名詞、副詞和形容詞等詞性。WordNet 的設計本身已經將英文詞彙以同義詞集(Synset)作為分類,每項分類代表個別的 一個語意概念,各個同義詞集在 WordNet 中透過概念語意與詞性作為鏈結。而 WordNet 經由同義詞 集的分析,可以 取得 詞彙的反義詞 (Antonym)、上位詞 (Hypernym)和下位詞(Hyponym)。在這裡我們採用 WordNet 2.1 的版本加入到本 研究當中,使用 JAWS 工具對 WordNet 的辭典解析,我們直接透過 JAWS 來獲 得指定詞彙的同義詞集與反義詞集。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
10
第 4 章 研究方法
本章將開始介紹此研究所建置的系統,如圖 4.1 所示,我們將本系統分為三個小 節作介紹,4.1 節介紹如何透過論述句的資訊從維基百科中擷取論述句的相關文 章,以及如何篩選出相關句,4.2 節將介紹透過 4.1 節篩選得到的相關句,計算 每一相關句與論述句的相關度權重,我們將於此節介紹我們計算所使用的方法,
最後 4.3 節則介紹本系統推論系統所使用的方法和特徵。
圖 4.1 系統流程圖
4.1 擷取相關文章及相關句
圖 4.2 是本小節的流程架構圖,將於 4.11 小節介紹我們如何利用論述句得到相 對應的相關文章,並於 4.12 小節介紹,透過 4.11 小節所得到的相關文章得到相 對應的相關句的篩選機制。
維基百科 論述句
相關文章 相關句 推論系統
相關度權重
Yes No
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
11
圖 4.2 擷取相關文章及相關句流程
4.1.1擷取相關文章
此流程的主要目標即是將英文論述句的相關文章和相關句從維基百科與一些篩 選機制中挑選出來,所謂的英文論述句即是 3.1 節所介紹的英文語料集,圖 4.3 為英文論述句的範例,因為我們要向維基百科查詢有無相關的文章,因此必須先 從論述句中挑選出有效的關鍵詞彙,作為搜尋維基百科的關鍵詞,我們將此步驟 分為三個部分進行:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
12
<pair label="Y" id="210">
<t2>United Nations member countries must accept and execute the decisions of the Security Council in accordance with the Charter of the United Nations.</t2>
</pair>
圖 4.3 論述句範例
第一步是取得論述句中名詞組合的近義詞,作為搜尋維基百科的關鍵詞;近 義詞的考慮在一些自然語言處理應用中,已成了不可或缺的重要考量,例如: I love United States 和 I love America 是描述同一件事情,正因為 United States 與 America 是近義詞都代表著美國,因此增加了近義詞的考慮,可以將維基百 科中許多相關的資訊也一併擷取出來。首先我們先利用 Stanford parser[20]標記出 論述句的詞彙相依性,如圖 4.4,透過詞彙與詞彙的相依關係,我們將表示為「nn」
的名詞組合詞彙擷取出來,並透過 WordNet 將擷取出的名詞組合找出其近義詞 組,如圖 4.5,最後將近義詞組作為我們向維基百科搜尋的關鍵詞。
‧
Example of statement sentence:
United Nations member countries must accept and execute the decisions of the Security Council in accordance with the Charter of the United Nations.
Typed dependencies:
nn(countries-4, United-1), nn(countries-4, Nations-2) nn(countries-4, member-3), nsubj(accept-6, countries-4) aux(accept-6, must-5), root(ROOT-0, accept-6) cc(accept-6, and-7), conj(accept-6, execute-8) det(decisions-10, the-9), dobj(accept-6, decisions-10) prep(decisions-10, of-11), det(Council-14, the-12) nn(Council-14, Security-13), pobj(of-11, Council-14) prep(Council-14, in-15), pobj(in-15, accordance-16) prep(accept-6, with-17) , det(Charter-19, the-18) pobj(with-17, Charter-19), prep(Charter-19, of-20) det(Nations-23, the-21) , nn(Nations-23, United-22) pobj(of-20, Nations-23),
圖 4.4 詞彙相依性標記
Example of noun phrase:
Member Country, United Nation, Security Council Member Country Synonyms : none
United Nation Synonyms : none Security Council Synonyms : SC
圖 4.5 近義詞範例
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
14
第二步是取得論述句中的名詞,作為搜尋維基百科的關鍵詞;其方法與第一個相 去不遠,先使用 StanfordCoreNLP[18]進行詞性標記(Part of Speech)如圖 4.6 所 示,將標記出來為名詞的詞彙擷取出來,透過 WordNet 將擷取出的名詞找出其
第二步是取得論述句中的名詞,作為搜尋維基百科的關鍵詞;其方法與第一個相 去不遠,先使用 StanfordCoreNLP[18]進行詞性標記(Part of Speech)如圖 4.6 所 示,將標記出來為名詞的詞彙擷取出來,透過 WordNet 將擷取出的名詞找出其