基於英文維基百科之文字蘊涵 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University. 碩士論文. 學 ‧. ‧ 國. 立. 治Thesis 政 Master’s 大. 基於英文維基百科之文字蘊涵. sit. y. Nat. io. n. al. er. Text Entailment based on English Wikipedia. Ch. engchi. i n U. v. 研究生：林柏誠指導教授：劉昭麟. 中華民國一百零三年十一月 November 2014.

(2) 基於英文維基百科之文字蘊涵 Text Entailment based on English Wikipedia. 研究生：林柏誠. Student：Po-Cheng Lin. 指導教授：劉昭麟. Advisor：Chao-Lin Liu. 立. 政治大國立政治大學. ‧ 國. 學. 資訊科學系碩士論文. io. sit. y. ‧. Nat. A Thesis. n. al. er. submitted to Department of Computer Science. v. National ni C Chengchi University. hengchi U. in partial fulfillment of the requirements for the degree of Master in Computer Science. 中華民國一百零三年十一月 November 2014.

(3) 誌謝隨著求學生涯的結束，我的碩士論文也終於完成，審視我的人生經歷，這或許是我體驗最多挫折、學習到最多知識，以及成長最多得一個時期，在建構系統以及撰寫論文的過程中，經過反覆的思考、建構、失敗、重建過程中，我體會到碩士論文的完成，要培養的是一個人的獨立思考和獨立研究治. 政. 大. 立的能力，非常謝謝劉昭麟老師不管是在我的研究上，或者是. ‧ 國. 學. 在學習態度上，甚至在人生道路上，給予我很多不同的思維. ‧. 以及正確的態度，也要謝謝建良、孫暐和瑋杰學長在研究. Nat. io. sit. y. 上面給予我許多幫助，也謝謝書佑、致凱、植琨、聖傑、國. al. er. 峯、博允學弟，陪伴我度過漫漫的研究生活。. n. v i n Ch 人生的下個階段，就在離開學校後揭開了序幕，我會牢 engchi U. 記老師在這兩年半的教導，以及這兩年半所學習到的點點滴滴，一併跟著我進入下一個階段，希望能在社會上貢獻一己的力量，讓社會因為有我的加入，多了一點點的改變。. 林柏誠謹誌.

(4) 基於英文維基百科之文字蘊涵. 摘要. 近年來文字蘊涵研究在自然語言處理中逐漸受到重視，從 2005 年 Recognizing Textual. 政治大究，而 NII Testbeds and Community 立 for information access Research(NTCIR) 也從第九屆 Entailment (RTE)舉辦英文語料相關評比開始，越來越多人開始投入文字蘊涵的相關研. ‧ 國. 學. 開始舉辦 Recognizing Inference in Text(RITE) 的相關評比，除了英文語料以外，亦包含繁體中文、簡體中文以及日文等等的語料，開始引起亞洲地區相關研究者的關注參加。. ‧. 本研究以文字蘊涵技術為基底，透過維基百科，判斷任一論述句其含義是與事實相. y. Nat. sit. 符，或與事實違背，我們依據論述句的語文資訊，在維基百科中找出與論述句相關的文. er. io. 章，並從中尋找有無相關的句子，支持或反對該論述句的論點，藉以判斷其結果。. al. n. v i n 我們將本系統大致分成了三個程序，第一步是先從維基百科中擷取與論述句的相關 Ch engchi U. 文章，接著我們從相關文章中擷取與論述句有關聯的相關句，最後則是從找出的相關句中，判別那些相關句是支持還是反對該論述句，並透過 Linearly Weighted. Functions(LWFs) 藉以判別每個相關特徵的權重和各項推論的門檻值，期許透過上述的方法以及各項有效的語言特徵，能夠推論出論述句的真實與否。. i.

(5) Text Entailment based on English Wikipedia. Abstract. In recent years, the research of textual entailment is getting more important in Natural. 政治大 of English corpus in 2005, more and more people start to engage in the related research. 立. Language Processing. Since Recognizing Textual Entailment (RTE) began to hold the contest. Besides, NTCIR ninth has held the related task Recognizing Inference in Text (RITE) in. ‧ 國. 學. Chinese, Japanese, and others languages corpus. Therefore it has gradually attracted Asian. ‧. people to focus on this area.. sit. y. Nat. In this paper, we based on the skill of textual entailment. Trying to validate any of input. n. al. er. io. sentences which are truth or against to the fact. According to the language information in. i n U. v. input sentences, we extract the related articles on Wikipedia. Then, we extract the related. Ch. engchi. sentences from those articles and recognizing them which are support or against the input sentence. Hence, we can use that information to validate the input sentences. Our system is roughly departed into three parts. First is extract related articles from Wikipedia, second is extract related sentences from related articles. The last is validate those sentences which are support or against the input sentence. We also adopt Linear Weight Functions (LWFs) to adjust every features parameters and entailment’s threshold. By the information and useful language features above, we hope it can validate whether input sentences is truth or not. ii.

(6) 目錄第1章. 緒論 ............................................................................................................................ 1. 1.1 研究背景與動機 ......................................................................................................... 1 1.2 方法概述 ..................................................................................................................... 2 1.3 主要貢獻 ..................................................................................................................... 2 1.4 論文架構 ..................................................................................................................... 3. 治政第 2 章文獻回顧 .................................................................................................................... 4 大立 2.1 文字蘊涵相關研究 ..................................................................................................... 4 ‧ 國. 學. 2.2 RTE 與 RITE 評比相關研究 ....................................................................................... 5 語料及辭典介紹 ........................................................................................................ 7. ‧. 第3章. sit. y. Nat. 3.1 語料集 ......................................................................................................................... 7. io. al. er. 3.2 英文維基百科 ............................................................................................................. 9. v. n. 3.3 WordNet ........................................................................................................................ 9 第4章. Ch. engchi. i n U. 研究方法 .................................................................................................................. 10. 4.1 擷取相關文章及相關句 ........................................................................................... 10 4.1.1 擷取相關文章 ................................................................................................ 11 4.1.2 擷取相關文章 ................................................................................................ 16 4.2 相關度計算 ............................................................................................................... 18 4.2.1 相關句權重 .................................................................................................... 19 4.2.2 文章權重 ........................................................................................................ 25 4.2.3 相關句綜合權重 ............................................................................................ 26 iii.

(7) 4.3 推論驗證系統 ........................................................................................................... 26 4.3.1 語文特徵介紹 ................................................................................................ 27 4.3.2 LWFs 公式與參數訓練方法 .......................................................................... 39 第5章. 系統效能評估 .......................................................................................................... 42. 5.1 Linearly Weighted Functions 參數及門檻值介紹 ..................................................... 42 5.2 實驗結果與討論 ........................................................................................................ 44. 政治大 6.1 方法概述 ................................................................................................................... 51 立. 第6章. 利用資訊檢索方法採取小規模實驗設計 .............................................................. 51. ‧ 國. 學. 6.2 語料介紹 ................................................................................................................... 52 6.3 實驗結果 ................................................................................................................... 54. ‧. 第7章. 結論與未來展望 ...................................................................................................... 55. Nat. sit. y. 7.1 結論..………………………………………………………………………………...59. n. al. er. io. 7.2 未來展望 .................................................................................................................... 60. Ch. i n U. v. 參考文獻 .................................................................................................................................. 62. engchi. 附錄相關文章與相關句範例 ................................................................................................ 65. iv.

(8) 圖目錄圖 3.1 語料範例 ........................................................................................................................ 7 圖 4.1 系統流程圖 .................................................................................................................. 10 圖 4.2 擷取相關文章及相關句流程 ...................................................................................... 11 圖 4.3 論述句範例 .................................................................................................................. 12. 治政圖 4.4 詞彙相依性標記 .......................................................................................................... 13 大立 ‧ 國. 學. 圖 4.5 近義詞範例 .................................................................................................................. 13 圖 4.6 詞性標記 ...................................................................................................................... 14. ‧. 圖 4.7 連續詞彙範例 .............................................................................................................. 15. sit. y. Nat. io. n. al. er. 圖 4.8 關鍵詞擷取維基百科文章 .......................................................................................... 16. i n U. v. 圖 4.9 文章斷句範例 .............................................................................................................. 17. Ch. engchi. 圖 4.10 相關度計算流程 ........................................................................................................ 18 圖 4.11 BLEU 句對範例 ......................................................................................................... 21 圖 4.12 結構樹範例 ................................................................................................................ 22 圖 4.13 結構樹比較 ................................................................................................................ 23 圖 4.14 相關度計算範例 ........................................................................................................ 24 圖 4.15 開根號曲線圖 ............................................................................................................ 25 v.

(9) 圖 4.16 推論判斷流程 ............................................................................................................ 27 圖 4.17 否定詞範例 ................................................................................................................ 29 圖 4.18 反義詞範例 ................................................................................................................ 30 圖 4.19 反義詞與否定詞範例 ................................................................................................ 30 圖 4.20 Lucene 否定副詞表 ................................................................................................... 31. 政治大. 圖 4.21 詞彙相依標記範例一 ................................................................................................ 31. 立. 圖 4.22 詞彙相依標記範例二 ................................................................................................ 32. ‧ 國. 學. 圖 4.23 主動與被動句對比較 ................................................................................................ 33. ‧. 圖 4.24 數字標記範例一 ........................................................................................................ 35. Nat. io. sit. y. 圖 4.25 數字標記範例二 ........................................................................................................ 35. er. 圖 5.1 區域最佳解 .................................................................................................................. 43. al. n. v i n Ch 圖 5.2 訓練語料結果圖一 ...................................................................................................... 46 engchi U 圖 5.3 訓練語料結果圖二 ...................................................................................................... 47 圖 5.4 測試語料結果圖 .......................................................................................................... 50. vi.

(10) 表目錄表 3.1 英文測試語料集統計 .................................................................................................... 8 表 3.2 英文訓練語料集數量統計 ............................................................................................ 8 表 4.1 詞彙相依關係有向圖 M1............................................................................................ 37 表 4.2 詞彙相依關係有向圖 M2............................................................................................ 37. 政治大. 表 4.3 詞彙相依關係有向圖 M1∪M2 .................................................................................. 38. 立. 表 4.4 詞彙相依關係有向圖 M1∪M2 與橋梁詞彙 ............................................................. 38. ‧ 國. 學. 表 5.1 訓練語料結果一 .......................................................................................................... 45. ‧. 表 5.2 訓練語料結果二 .......................................................................................................... 47. Nat. io. sit. y. 表 5.3 測試語料結果 .............................................................................................................. 50. er. 表 6.1 實驗結果—資訊檢索法 ............................................................................................. 55. al. n. v i n Ch 表 6.2 實驗結果-標題搜尋法 ................................................................................................ 55 engchi U 表 6.3 相關句分析一 ............................................................................................................. 56 表 6.4 相關句分析二 .............................................................................................................. 57 表 6.4 相關句分析二(續) ....................................................................................................... 58. vii.

(11) 第1章. 緒論. 1.1 研究背景與動機文字蘊涵[23]的相關評比最早可以追朔到 2005 年 Recognizing Textual Entailment (RTE)[16]所舉辦英文語料相關評比開始，所謂的文字蘊涵就是，當擁有兩個文. 政治大段 B，也就是說 A 文字片段所擁有的語文資訊完全包含了 B 文字片段的語文資立字片段 A 和 B 時，如果可以將其中一個文字片段 A 的含意推論到另一個文字片. ‧ 國. 學. 訊，因此 A 的資訊便足夠推導致 B 的資訊，我們就可以稱兩文字片段具有推論的關係，也稱之為文字蘊涵關係。然而文字蘊涵關係是有方向性的，文字片段 A. ‧. 可以推論至文字片段 B，並不代表反向也是如此，以下句對為例，A 句可以推論. y. sit. io. n. al. er. 的語文資訊。. Nat. 至 B 句，而 B 句卻無法推論至 A 句，因為 B 句的語文資訊並沒有包含 A 句所有. Ch. engchi. i n U. v. A:日本時間 2011 年 3 日 11 日發生芮氏規模 9.0 強震，造成死傷失蹤約 3 萬多人。 B:日本曾發生規模 9.0 地震。. 在本論文的研究中，我們參加了 NTCIR (NII Testbeds and Community for information access Research) 的子任務 RITE-VAL (Recognizing Textual Entailment- Validation)[15]的評比，其評比內容即是藉由文字蘊涵的技術，透過維基百科[25]，自動地辨別任一論述句的真實性，我們使用自然語言處理、資訊檢 1.

(12) 索和機器學習等技術，希望能成功地辨別任一論述句是與事實相符或是違背於事實，例如使用者輸入了一個論述句：「張學友生於 1960 年。」，而我們的系統卻在維基百科中擷取出某相關句如：「張學友在 1961 年 7 月 10 日，生於香港，祖籍天津。」，因此就可以判斷出該論述句違背於事實，與維基百科所擷取出的相關句是一組矛盾的蘊涵關係。我們希望透過從線上維基百科中擷取相關的資訊，透過該資訊與論述句的特徵擷取，來辨別其關係。. 1.2 方法概述. 政治大旨，因此如何擷取出有用的資訊顯得十分重要，我們將擷取資訊的方法分成兩個立藉由維基百科擷取出相關的資訊，用以辨別任一論述句的真實性，為本論文的主. 階段，第一階段是透過論述句的語文資訊，用其語文資訊來對維基百科擷取「相. ‧ 國. 學. 關文章」，第二階段則是將擷取出的相關文章中，所有的句子，依據它們與論述. ‧. 句的相關性作為「相關句」的篩選，最後將篩選出來的相關句透過與論述句的特. y. Nat. 徵擷取，利用 Linearly Weighted Functions(LWFs)[11]的方法，判斷出該論述句為. n. al. er. io 1.3 主要貢獻. sit. 事實句(Entailment)，或與事實違背(Contradiction)。. Ch. engchi. i n U. v. 在本研究中，我們提出了一些方法用來擷取相關文章及相關句，在相關句的部分，每一個句子依然有它們的相關度排名存在，因此在相關度的計算上，我們也提出了一個綜合評比的方式，考量了該句子與論述句的相關性，與該句子其文章的出處，整合出其相關度。我們提出來一些語文特徵，例如剖析樹的相似度和詞彙相依關係的相似度以及否定關係的判別上，有別於以往的作法，在方法上做一些調整和改良，也整合了過去廣泛使用於文字蘊涵的方法作為本研究的特徵。. 2.

(13) 最後我們採用 LWFs 的方式訓練各項特徵的參數，建置一個辨別事實與否的模組。. 1.4 論文架構本論文共分為六章，第一章為緒論，說明研究背景、動機、目的、問題描述及論文架構；第二章探討過去文字蘊涵的相關研究，包含各種中英文語句推論關係的方法，如機器學習、知識為基底(Knowledge-based)、邏輯推論等作法，以及各種語言特徵的擷取與詞彙語意分析等內容；第三章說明所使用的語料集，以及用來. 政治大序，包含擷取相關文章及相關句、相關度計算，以及推論驗證系統；第五章設計立輔助推論系統的辭典；第四章則說明本研究提出的系統架構，大致分為三個程. 實驗方法與進行測試語料預測結果，第六章則利用資訊檢索方法採取小規模實驗. ‧ 國. 學. 設計，最後我們在第七章總結本研究的成果與發現，並提出目前不足之處以及. ‧. 未來改善的方向，以利後續的研究與應用。. n. er. io. sit. y. Nat. al. Ch. engchi. 3. i n U. v.

(14) 第2章. 文獻回顧. 本節針對過去文字蘊含的相關研究，與 RITE 及 RTE 評比中的語句推論研究進行回顧。. 2.1 文字蘊涵相關研究. 政治大. 過去文字蘊涵相關研究採用許多不同的方法，透過經驗法則公式[8]，或藉著機. 立. 器學習演算法來建構系統，例如使用 SVM、決策樹(Decision Tree)等演算法，或. ‧ 國. 學. 使用投票(Voting)綜合多種分類器等方式來預測推論關係。Huang[9]等人透過經驗法則式模型和機器學習演算法與特徵項來建構系統，將常見的語句資訊擷取出. ‧. 來做為特徵，並針對實體名詞標記、日期與數字處理，提升文字中資訊擷取的能. Nat. sit. y. 力，也對句法結構、近義詞、反義詞等作相關特徵擷取，從研究中顯示，透過不. n. al. er. io. 同的語文特徵擷取以及不同的實驗方法交互比對，能有效獲得語句中的資訊。. i n U. v. Wu[28]等人亦透過機器學習演算法，利用機器翻譯效能評估的 BLEU[2]分數及句. Ch. engchi. 子長度做為特徵訓練分類器。而 Zhang[29]等人提出加入語意相關特徵處理，透過上下位詞、同義詞與反義詞等資訊，來進行語意的推論，並使用多種機器學習的演算法，透過投票的機制更能有效地提升推論關係判斷的準確率。在句子結構相似度計算的部分，Cohen[4]等人提出了兩個演算法 pq-gram distance 和 Dynamic algorithm for subtree similarity-search 方法，作為句子結構樹的相似度計算，而 Li[10]等人提出了利用兩剖析樹，計算 Largest Common Subtree(LCST) 和 Smallest Common Super-tree(SCST) 然後透過三個運算方式 1. Substitution 2. Deletion 3. Insertion 來計算樹與樹之間的距離，能有效的計算出 4.

(15) 兩個句子結構樹的相似程度，藉以判斷出其語文資訊的相符之處。在詞彙語意的分析中，WordNet[26]是一個線上英文辭典，能判斷同義詞、反義詞、上位詞或下位詞等詞彙間的關係，WordNet 提出一套知識表達的方法，將詞彙分成各種同義詞集(Synset)，並提供簡短的語意說明，根據詞彙的分類建置為一套具有蘊涵關係的層次結構，因此使用者可以根據這些資訊來作為文本的分析與人工智慧的應用。Budanitsky 與 Hirst[3]便以 WordNet 為基礎，提出數種詞彙間語意的相似度計算的方法，藉以比較詞彙之間的語意關係。. 2.2 RTE 與 RITE 評比相關研究. 政治大文字蘊涵的相關比賽始於立 RTE 評比，在 RTE 中發展出各種作法來提升語句推論. ‧ 國. 學. 的效果。Adams[1]的研究採用詞彙覆蓋(Lexical Overlap)的相似度判斷推論關係，並加入 WordNet 以拓展詞彙的鏈結關係來達到更佳的相似度計算效果，但. ‧. 這樣的系統仍然過於簡易，在 RTE 評比中的僅能獲得中等的成績，而需要更多. sit. y. Nat. 的語言資訊輔助來提升推論效果，但此種較容易計算推論關係的作法提供我們一. al. er. io. 個不錯的嘗試機會。而同樣地，機器學習的分類器仍然在語句推論中是經常被運. v. n. 用的一種技術，Hickl[7]等人透過詞彙對齊(Textual Alignment)擷取可能指出推論. Ch. engchi. i n U. 關係的詞彙特徵，以及加上如句子極性(Polarity)或否定標記等語意特徵和標記詞彙之間的依賴關係來計算特徵，最後採用分類器預測推論關係，否定標記及詞彙依賴關係的語法結構特徵在推論關係的判斷上也具有不錯的效果。在 RITE 的評比中，我們也發現多數的隊伍在研究文字蘊涵時，都有使用詞彙覆蓋與句子表面相似度，作為判別文字蘊涵的重要特徵，然而這些方法並不足以有效的判別文字的蘊涵關係，因此某些方法如 Wu[27]所提出的 LCS Similarity 用來判別及句對的最長相同字串，當作判別蘊含的依據，或是 Hattori[6]利用句子表面相似度和句意相似度的高低，組合成一個 2x2 的矩陣作 5.

(16) 為判別的策略，可以進一步的分析 2x2 四種情況的組合會在什麼情況下發生，例如當表面相似度很高但句意相似度卻很低時，可以猜想句對中可能有不同數量的否定詞存在，透過上述的方式，在文字蘊涵推論的判斷上，都是相當實用且具有不錯效果的方法。我們的研究利用機器學習的方法，以 Linearly Weighted Functions(LWFs) 建構一套推論模型，並透過多種的方式和語文特徵提升系統的推論能力和對於句子語意的理解，接下來我們將提出幾項方法來建置推論系統。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 6. i n U. v.

(17) 第3章. 語料及辭典介紹. 本章說明此研究使用的 RITE-VAL 英文語料集，首先說明語料內容，並列出語料的相關統計數據，接著介紹英文維基百科和 WordNet 辭典的相關說明。. 3.1 語料集我們經由參與 NTCIR 的評比，取得 RITE 的訓練(Dev.)與測試(Test)語料集，語料. 政治大諸如歷史、經濟、政治、戰爭等等，每筆資料皆有一個編號記錄，並包含一個句立. 的類型為英文的論述句。圖 3.1 為本語料集的資料範例，而語料類型範圍廣泛：. ‧ 國. 學. 子 t2，而 label 代表的是我們能否從維基百科中找出相對應的 t1，並檢驗 t1 的內容是否能推論出 t2 中的假設，Y 表示該句為事實句，N 則代表違背事實。我們. ‧. 共取得了 NTCIR-10 RITE-2 和 NTCIR-11 RITE-VAL 的訓練與測試語料，表 3.1. sit. y. Nat. 和表 3.2 為訓練與測試語料集的數量統計。. n. al. er. io. <pair label="Y" id="210">. i n U. v. <t2>United Nations member countries must accept and execute the decisions of the Security Council in accordance with the Charter of the United Nations.</t2> </pair>. Ch. engchi. <pair label="N" id="218"> <t2>During the Cold War, the United Nations continued efforts aimed at alleviating the tension between the USA and the Soviet Union based on the Marshall Plan.</t2>< /pair> 圖 3.1 語料範例. 7.

(18) 表 3.1 英文測試語料集統計來源. NTCIR-11. 語言. 英文. 類別. Test.. 總和. 188. 立. 政治大. NTCIR-10. Nat. n. al. Dev. Y N. Ch. 229. engchi 151. 總和. 362. 8. sit. io. 類別. 英文. er. 語言. & NTCIR-11. y. 來源. ‧. ‧ 國. 學表 3.2 英文訓練語料集數量統計. i n U. v.

(19) 3.2 英文維基百科維基百科（Wikipedia），是一個自由內容、公開編輯且多語言的網路百科全書協作計畫，透過 Wiki 技術使得包括您在內的所有人都可以簡單地使用網頁瀏覽器修改其中的內容。維基百科一字取自於核心技術「Wiki」以及具有百科全書之意的「encyclopedia」共同創造出來的新混成詞「Wikipedia」，當前維基百科是由非盈利組織維基媒體基金會負責營運，並接受捐贈。維基百科是由來自世界各地的志願者合作編輯而成，整個計畫總共收錄了超. 政治大一。維基百科允許任何存取網站的使用者使用網頁瀏覽器自由閱覽和修改絕大部立. 過 3,000 萬篇條目，而其中英語維基百科以超過 450 萬篇條目在數量上排名第. 中有 100,000 名積極貢獻者長期參與編輯工作。. 學. ‧ 國. 分頁面的內容，根據統計在維基百科上大約有 35,000,000 名登記註冊使用者，其. ‧. 3.3 WordNet. y. Nat. er. io. sit. WordNet[26]是由普林斯頓大學所發展的一套線上電子辭典，自 1985 年開發維護至今，當中收錄大量的英文詞彙，包含動詞、名詞、副詞和形容詞等詞性。WordNet. al. n. v i n 的設計本身已經將英文詞彙以同義詞集(Synset)作為分類，每項分類代表個別的 Ch engchi U 一個語意概念，各個同義詞集在 WordNet 中透過概念語意與詞性作為鏈結。而 WordNet 經由同義詞集的分析，可以取得詞彙的反義詞(Antonym)、上位詞 (Hypernym)和下位詞(Hyponym)。在這裡我們採用 WordNet 2.1 的版本加入到本研究當中，使用 JAWS 工具對 WordNet 的辭典解析，我們直接透過 JAWS 來獲得指定詞彙的同義詞集與反義詞集。. 9.

(20) 第4章. 研究方法. 本章將開始介紹此研究所建置的系統，如圖 4.1 所示，我們將本系統分為三個小節作介紹，4.1 節介紹如何透過論述句的資訊從維基百科中擷取論述句的相關文章，以及如何篩選出相關句，4.2 節將介紹透過 4.1 節篩選得到的相關句，計算每一相關句與論述句的相關度權重，我們將於此節介紹我們計算所使用的方法，最後 4.3 節則介紹本系統推論系統所使用的方法和特徵。. 立. 論述句. 相關度權重. 相關句. 推論系統. n. al. er. io. sit. y. ‧. ‧ 國. 學. 相關文章. Nat. 維基百科. 政治大. C圖h4.1 系統流程圖 U engchi. v ni. Yes. No. 4.1 擷取相關文章及相關句圖 4.2 是本小節的流程架構圖，將於 4.11 小節介紹我們如何利用論述句得到相對應的相關文章，並於 4.12 小節介紹，透過 4.11 小節所得到的相關文章得到相對應的相關句的篩選機制。. 10.

(21) 立. 政治大. ‧. ‧ 國. 學 sit. y. Nat. n. al. er. io. 圖 4.2 擷取相關文章及相關句流程. Ch. engchi. i n U. v. 4.1.1擷取相關文章此流程的主要目標即是將英文論述句的相關文章和相關句從維基百科與一些篩選機制中挑選出來，所謂的英文論述句即是 3.1 節所介紹的英文語料集，圖 4.3 為英文論述句的範例，因為我們要向維基百科查詢有無相關的文章，因此必須先從論述句中挑選出有效的關鍵詞彙，作為搜尋維基百科的關鍵詞，我們將此步驟分為三個部分進行：. 11.

(22) <pair label="Y" id="210"> <t2>United Nations member countries must accept and execute the decisions of the Security Council in accordance with the Charter of the United Nations.</t2> </pair> 圖 4.3 論述句範例. 政治大. 第一步是取得論述句中名詞組合的近義詞，作為搜尋維基百科的關鍵詞；近. 立. 義詞的考慮在一些自然語言處理應用中，已成了不可或缺的重要考量，例如： I. ‧ 國. 學. love United States 和 I love America 是描述同一件事情，正因為 United States 與 America 是近義詞都代表著美國，因此增加了近義詞的考慮，可以將維基百. ‧. 科中許多相關的資訊也一併擷取出來。首先我們先利用 Stanford parser[20]標記出. y. Nat. sit. 論述句的詞彙相依性，如圖 4.4，透過詞彙與詞彙的相依關係，我們將表示為「nn」. n. al. er. io. 的名詞組合詞彙擷取出來，並透過 WordNet 將擷取出的名詞組合找出其近義詞. i n U. v. 組，如圖 4.5，最後將近義詞組作為我們向維基百科搜尋的關鍵詞。. Ch. engchi. 12.

(23) Example of statement sentence: United Nations member countries must accept and execute the decisions of the Security Council in accordance with the Charter of the United Nations. Typed dependencies: nn(countries-4, United-1),. nn(countries-4, Nations-2). nn(countries-4, member-3),. nsubj(accept-6, countries-4). aux(accept-6, must-5),. root(ROOT-0, accept-6). cc(accept-6, and-7),. conj(accept-6, execute-8) dobj(accept-6, decisions-10) 治政大. det(decisions-10, the-9),. 立. prep(decisions-10, of-11),. det(Council-14, the-12). pobj(of-11, Council-14). prep(Council-14, in-15),. pobj(in-15, accordance-16). prep(accept-6, with-17) ,. det(Charter-19, the-18). ‧. ‧ 國. 學. nn(Council-14, Security-13),. prep(Charter-19, of-20). det(Nations-23, the-21) ,. nn(Nations-23, United-22). sit. n. al. er. io. pobj(of-20, Nations-23),. y. Nat. pobj(with-17, Charter-19),. Ch. i n U. 圖 4.4 詞彙相依性標記. engchi. Example of noun phrase: Member Country, United Nation, Security Council Member Country Synonyms : none United Nation Synonyms : none Security Council Synonyms : SC 圖 4.5 近義詞範例. 13. v.

(24) 第二步是取得論述句中的名詞，作為搜尋維基百科的關鍵詞；其方法與第一個相去不遠，先使用 StanfordCoreNLP[18]進行詞性標記(Part of Speech)如圖 4.6 所示，將標記出來為名詞的詞彙擷取出來，透過 WordNet 將擷取出的名詞找出其近義詞組，最後將近義詞組也作為我們向維基百科搜尋的關鍵詞。. Part of Speech Tagging. 政治大. United Nations member countries must accept and execute the decisions of the. 立. and/CC, of/IN,. the/DT,. n. the/DT,. in/IN,. Ch. Charter/NNP,. United/NNP,. sit. io. with/IN,. al. Council/NNP,. the/DT accordance/NN. eof/IN ngchi. Nations/NNPS,. er. decisions/NNS,. Security/NNP,. execute/VB. y. accept/VB,. countries/NNS. ‧. the/DT,. member/NN,. Nat. must/MD,. Nations/NNP,. 學. United/NNP,. ‧ 國. Security Council in accordance with the Charter of the United Nations.. i n U. v. ./.. 圖 4.6 詞性標記第三步是將詞彙中的二字詞、三字詞以及四字詞擷取出來亦作為搜尋維基百科的關鍵詞，因為瀏覽過蒐集的關鍵詞後發現，Stanford tools 並沒有把一些人名或歷史事件作為名詞片語，因此為了避免一些重要文章被忽略，我們將此步驟也納入關鍵詞的搜尋中如圖 4.7 所示。. 14.

(25) Unigram to 4-gram United Nations member countries must accept and execute the decisions of the Security Council in accordance with the Charter of the United Nations. Unigram: United, Nations, member, countries, must, accept, and, execute, the, decisions, of, the, Security, Council, in, accordance, with, the, Charter, of, the, United, Nations Bigram: United Nations, Nations member, member countries, countries must, must accept,. 治政 Security, Security Council, Council in, in accordance, 大accordance with, with the, the Charter, Charter of, of立 the, the United, United Nations. accept and, and execute, execute the, the decisions, decisions of, of the, the. ‧ 國. 學. Trigram:. ‧. United Nations member, Nations member countries, member countries must, countries must accept, must accept and, accept and execute, and execute the,. Nat. sit. y. execute the decisions, the decisions of, decisions of the, of the Security, the. io. er. Security Council, Security Council in, Council in accordance, in accordance with, accordance with the, with the Charter, the Charter of, Charter of the, of the United,. al. n. the United Nations. Ch. 4-gram:. engchi. i n U. v. United Nations member countries, Nations member countries must, member countries must accept, countries must accept and, must accept and execute, accept and execute the, and execute the decisions, execute the decisions of, the decisions of the, decisions of the Security, of the Security Council, the Security Council in, Security Council in accordance, Council in accordance with, in accordance with the, accordance with the Charter, with the Charter of, the Charter of the, Charter of the United, of the United Nations 圖 4.7 連續詞彙範例. 15.

(26) 我們將三個步驟所擷取的詞彙，整合再一起，一併視為我們向維基百科搜尋的關鍵詞彙；英語維基百科以超過 450 萬篇條目在數量上排名第一，以圖 4.8 所示，我們將關鍵詞跟英文維基百科的條目作比對，若吻合該條目，則將該條目所隸屬的文章擷取出來，並視為論述句的相關文章。. 將上述所得詞彙皆視為向維基百科搜尋的關鍵詞彙(key words). 政治大. 將 URL 中維基百科的文章擷取出來 http://en.wikipedia.org/wiki/key words. 立. 圖 4.8 關鍵詞擷取維基百科文章. ‧ 國. 學 ‧. 擷取出的相關文章會有以下三種可能：. n. al. 3. 找無相符條目，為空文章。. Ch. engchi. er. io. 2. 有吻合條目，但為相關文章導引，無實質內容。. sit. y. Nat. 1. 有吻合條目，為正常文章內容。. i n U. v. 在這三種可能中，我們只保留第一種情況，因此我們利用 total commander[24] 檔案管理程式，將無實質內容以及空文章的檔案先行過濾，最後留下來的文章及為相關文章，據統計平均一論述句經過濾後可搜尋到 5.66 篇文章。. 4.1.2擷取相關文章透過 4.1.1 節擷取每個論述句的相關文章後，開始要對文章作一些基本的前處理，我們將文章中不必要的 XML 標籤以及參照去除掉，並透過 StanfordCoreNLP 將文章篇幅斷句，即文章的每個段落依據其標點符號將之斷成一個個的句子如圖 16.

(27) 4.9 所示，就成了文章句，之後將每一個文章句使用 StanfordCoreNLP 進行詞性標記(Part of Speech)得到每個句子中詞彙的詞性。我們從文章句中篩選相關句的機制是將所有文章句中，與相對應的論述句作比對，其中將比對相符的詞彙且標記為「名詞」或「形容詞」詞彙數量作計算，當其數量大於或等於 2 時，即可成為論述句的相關句，採用「名詞」或「形容詞」作為篩選的機制，主因是主詞或形容詞在歷史、文化、政治和經濟中，常出現許多專有名詞及特定形容詞，因此如果有文章句與論述句的名詞或形容詞相同時，相較於其他詞性，兩句子會有更高的相似度，因此透過此方法作為篩選機制。. 立. Paragraph:. 政治大. ‧ 國. 學. In relation, the Sun is personified as a goddess in Germanic paganism, Sól/Sunna. Scholars theorize that the Sun, as a Germanic goddess, may represent an extension of. ‧. an earlier Proto-Indo-European sun deity due to Indo-European linguistic connections. y. sit. io. Sentence1:. er. Solntse.. Nat. between Old Norse Sól, Sanskrit Surya, Gaulish Sulis, Lithuanian Saulė, and Slavic. al. n. v i n In relation, the Sun is personified paganism, Sól/Sunna. Casha goddess in Germanic engchi U Sentence2:. Scholars theorize that the Sun, as a Germanic goddess, may represent an extension of an earlier Proto-Indo-European sun deity due to Indo-European linguistic connections between Old Norse Sól, Sanskrit Surya, Gaulish Sulis, Lithuanian Saulė, and Slavic Solntse. 圖 4.9 文章斷句範例. 17.

(28) 4.2 相關度計算透過 4.1 節，我們從維基百科中擷取出了與論述句相關的文章，並從相關文章中篩選出了相關句後，本小節要開始介紹一些方式取得每個相關句與論述句的相. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4.10 相關度計算流程關度加權，在 4.2.1 中我們介紹透過五個語文特徵計算出相關句權重，4.2.2 節中介紹以相關句文章的出處作為考量，計算該文章的相關度權重，最後 4.2.3 節我們將介紹兩權重合併，以作為相關句的綜合權重。. 18.

(29) 4.2.1相關句權重在本小節中，我們藉由相關句與論述句的比較，記算出五個語文特徵，此五個特徵所擷取的語文資訊皆為詞彙或字串的表面相似度，也就是說當兩個句子表面相似度越高時，特徵值則會越高，我們利用這些特徵值計算出相關句的相似度權重，下面我們將開始介紹本系統所建置的特徵。. 1. 詞彙覆蓋率(Word Overlap Ratio) 詞彙覆蓋率即為比對兩字串的相同詞彙，當相同的詞彙越多時也代表兩字串所擁. 政治大我們計算相似度的重要特徵，如公式[1]所示，以下論述句與相關句為例，我們立. 有的共同語文資訊越多，因此我們計算論述句與其相關句之間的詞彙覆蓋率作為. ‧ 國. 學. 即可得到該句對的詞彙覆蓋率為 0.818。. 論述句: South America's Amazon River is the largest river in the world.. ‧. 相關句: The largest river in Brazil and one of the longest in the world is the Amazon. er. io. sit. y. Nat. River.. al. n. v i n C h Word Overlap Number U eNumber Word Overlap Ratio = Word h i statement n gOfcQuery. (1). 2. 最長共同字串相似度(Longest Common String Similarity(LCSS)) 最長共同字串[12]是在搜尋兩個字串之間相同子字串，生活上有很多問題都跟搜尋最長共同子字串的問題相類似，舉例來說，像是自然語言處理、語音辨識或是尋找相似 DNA 等領域，就都可以利用找出最長共同子字串的演算法來協助處理問題。因此我們也將句對中共同出現的最長字串視為一個重要的語文特徵，特徵. 19.

(30) 值計算方式則如下敘述所示，假設句有 8 個詞彙(A B C D E F G H)，文本有 11 個詞彙(A B I J D E F K L M N)，則兩句子最長的共同字串有 5 個詞彙(ABDEF)，套用公式[2]則會得到 LCSS 值為 0.625。 LCSS =. LCS. (2). Length of Query Statement. 3. 實體名詞覆蓋(Named Entity Overlap Ratio) 實體名詞標記[14]是自然語言處理中的一項任務，也跟資訊檢索中的資訊擷取議. 政治大. 題有關。在文件中，常有人名、地名、機構名等詞彙出現，以及關於時間、金錢. 立. 等不同格式數據的表達，這些詞彙經常不會出現在既有的詞庫中，因此需要特別. ‧ 國. 學. 的標記，以便擷取及應用。. ‧. 我們利用 Stanford NER[19] 標記論述句和相關句的實體名詞，Stanford NER 採用的是 "english.all.3class.distsim.crf.ser.gz" 來進行分類，可將句子中的人名、. y. Nat. er. io. sit. 組織名、地名(PERSON, ORGANIZATION, LOCATION)標記出來，我們透過公式 [3]來進行實體名詞覆蓋的計算。. al. n. v i n Ch 而文章句與論述句相同的實體名詞數量並不重複計算，亦就是當文章句出現 engchi U. 兩個實體名詞與論述句某個實體名詞相同時只會計算一次，因此該實體名詞覆蓋率最高為 1。. Named Entity Overlap Ratio =. Named Entity Overlap. Named Entity Number Of Query statement. 20. (3).

(31) 4. Bilingual Evaluation Understudy(BLEU) BLEU[2]是用來評估機器翻譯效果的一種演算法，其主要應用，在兩個不同語言上的翻譯，比對其句對的相似度作為效能評估的依據，而其方法為計算翻譯句對的連續共同字串(n-gram)數量，所謂的連續共同字串如圖 4.11 所示，我們可以找出，連續共同字串中為 2 (bigram) 的有兩個分別是「on the」和「the mat」，而連續共同字串中為 3 (trigram) 的有一個為「on the mat」，因此，我們依據其演算法，當兩句對得到越多的連續共同字串時，BLEU 的分數也會越高，我們將此方法也套用在比對相關句與論述句上，也作為相關句與論述句相似度的一項特徵。. 立. 學. ‧ 國. Reference 1: The cat is on the mat. 政治大. Reference 2: There is a cat on the mat. ‧. 圖 4.11 BLEU 句對範例. n. Ch. er. io. al. sit. y. Nat. 5. 結構樹相似度(Similarity between Parse Trees). i n U. v. 結構樹亦表示句子的句法結構，如果兩句子的句法結構相當類似，也代表著，它. engchi. 們有一定的相似程度和相同的語文資訊，我們透過 Stanford Parser 將相關句與論述句的剖析樹都擷取出來，並透過三個步驟進行剖析樹相似度的計算。第一個步驟是將 Stanford Parser 計算出來的結構樹，利用變形 Depth-first Search 從樹狀結構轉為字串結構，如圖 4.12 所示，而變形 DFS 其方法定義如同正常的 DFS 雷同，以先深後廣的方式，從圖形的某一節點開始走訪，被拜訪過的節點就會被標示已拜訪的記號。接著走訪此一節點的所有相鄰並且未拜訪過的節點中的任意一個頂點，並標示已拜訪的記號，再以該點為新的起點繼續進行先. 21.

(32) 深後廣的搜尋，但較為不同的是，一般的 DFS 若有一頂點其相鄰的節點皆被拜訪過時，就退回到最近曾拜訪過之節點，繼續執行深度優先搜尋，而變形的 DFS 則採用當相鄰的節點皆被拜訪過時則退回到最近曾拜訪過且仍有路可走的節點。採用變形 DFS 的原因是，如果採用正統 DFS 方法，有些回頭路會導致某些內部節點出現太多次，且相同重要的內部節點也有可能會出現次數不同造成不公平的情形產生，例如以圖 4.12 為例，b、c 皆為內部節點，深度相同、分支數也相同，但 b 卻被走了 3 次，而 c 只有 2 次，所以從此例子採用變形的 DFS 能解決這種問題。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4.12 結構樹範例第二個步驟我們將相關句與文章句透過變形 DFS 所得到的字串，再比對兩字串計算出其 LCS，該 LCS 即作為相關句的代表，所謂的代表就是從相關句字串中，盡可能地提取出與論述句共同的字串結構。為什麼不將兩 DFS 字串直接進行相似度的比對，是因為相關句出自於維基. 22.

(33) 百科的文章，而文章中的句子本來就有長有短；短的句子如果與相關句的結構十分雷同，那在結構樹上應該會與論述句有很大的相似度，但如果是較長的句子，即便長句的內部有著跟論述句相同的資訊，但因為句子過長，結構樹肯定會跟論述句有很大的差別，就因為有了上述的問題，所以在計算剖析樹的相似度時，就不是單單是論述句與文章句的結構樹互相比較而得到結果，透過這樣的方法，即便相關句很長，只要裡面有與論述句相關的內文，我們就能利用那些相同之處，來與論述句的結構樹作相似度的計算。第三步我們將前一步所得到的 LCS 字串與相關句的 DFS 字串，進行比對，. 政治大的 DFS 相同，所謂 insert立 operation，即為將兩字串作比對，如果出現一字串有，. 利用 insert operation 的方法將 LCS 字串中缺少的字元補上，使得該字串與相關句. ‧ 國. 學. 而另一字串沒有的字元，則將之補入(insert)，並將所有補上(insert)的花費代價視為兩字串的距離，如圖 4.14 所示，換句話說，就是相關句與論述句的相關程度，. ‧. 最後我們將得到的數值正規化，如下頁公式[4]所示，即完成此特徵的計算流程。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 4.13 結構樹比較. 23. v.

(34) (1)論述句 DFS={a, b, a, g, c, f, c, h} (2)相關句 DFS={a, b, d, b, e, a, c, g, c, h, c, i} (3)論述句與相關句 LCS={a, b, a, g, c, h} (4)Insert Operation={c, f} 圖 4.14 相關度計算範例. 政治大. Similarity between Parse Trees =. 立. 10−�|Insert Operation| 10. (4). ‧ 國. 學. 而公式[4]中，我們採用 10 扣除 Insert Operation 開根號，再除以十的原因是，如圖 4.15 所示，開根號的曲線圖中，y 值增加的幅度會隨著 x 值的增加而趨緩，. ‧. 而在比對相似度中，假設論述句與四個相關句間(A、B、C、D)，其 A 和 B 的. sit. y. Nat. Insert Operation差距為 5 和 10，而 C、D 的Insert Operation差距為 75 和 80，則. io. er. 論相似度我們應該給予，A 和 B 有較大的差距，而 C 和 D 則有較小的差距，因為 A 和 B 基本上已經與論述句有一定的相似度(Insert Operation 小)，因此些微. al. n. v i n 的不同則會產生句上很大C 的變，而 C 和 U D 與論述句的相似度不大 h化 en gchi. (Insert Operation 大)，因此即使是些微的不同則不太影響相似度的改變，而分子以 10 扣除 Insert Operation 開根號的原因是，據統計，目前實驗的所有論述句及相關句之間的 Insert Operation 皆不大於 100 ，因此可利用此特性，將. Similarity between Parse Trees 特徵值控制於 0 到 1 之間。. 24.

(35) 立. 政治大圖 4.15 開根號曲線圖. 學. ‧ 國. 4.2.2文章權重. ‧. 除了相關句與論述句的相關程度外，相關句出自於哪篇文章也是一個需要考量的. y. Nat. 地方，若某相關文章中，出現大量的相關句，那也就表示該篇文章與論述句有很. er. io. sit. 大的關聯性，因此，文章中若出現較多的相關句，我們也應該要給予那些相關句較高的相似權重，我們計算的方式是將一論述句中的相關句數量作為分母，而每. al. n. v i n 篇相關文章的相關句數量作為分子，如公式[5]所示，因為是加成的關係，我們 Ch engchi U 將相關文章的相關句數量除以論述句中的相關句數量，再加上 1，如此一來，則可以得到文章的相關性權重。. 文章權重 = 1 +. 相關文章的相關句數量論述句中的相關句數量. 25. (5).

(36) 例如我們有一論述句擷取出 5 篇文章，A、B、C、D、E，而此五篇文章所擁有的相關句句數為 6、4、10、5、5，則我們就可以計算出此五篇文章的相似度權重依序為，1.2、1.134、1.334、1.1667、1.1667。. 4.2.3相關句綜合權重在前兩小節中，我們透過前述的計算，得到了相關句的相似度權重，與相關文章的相似度權重，在本小節中我們將兩權重值合併計算，成為最後的綜合權重，因. 政治大似度，第二個則是依據相關句出處文章的相關性給予該相關句一個文章權重，公立此每個相關句的相似度權重都考慮了兩個方向，第一個就是相關句與論述句的相. ‧ 國. 學. 式[6]即為我們最後計算相關句綜合權重的方法，便將該值作為下一小節推論判斷時每個相關句的加乘權重分數。. ‧ y. Nat. n. al. 4.3 推論驗證系統. (6). er. io. sit. 相關句綜合權重= 相關句的相似度權重 × 文章的相關性權重. Ch. engchi. i n U. v. 本小節開始介紹如何透過 Linearly Weighted Functions (LWFs)推論出論述句的真實性，在 4.3.1 中我們介紹透過六個語文特徵組成 LWFs 公式，並於 4.3.2 節中介紹 LWFs 公式的組成以及各相特徵參數訓練方法。. 26.

(37) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. i n U. 圖 4.16 推論判斷流程. Ch. engchi. v. 4.3.1語文特徵介紹為了建構 Linearly Weighted Functions (LWFs) 模組，藉由相關句與論述句的關係，我們提出了以下六個語文特徵，而此六個語文特徵開始針對文字的語意層面，透過分析句子的語意層面，希望能更有效的幫助推論。. 27.

(38) 1. 否定詞、反義詞、否定副詞正反面判斷兩個句子即使擁有高比例的詞彙覆蓋和實體名稱，但常因為句對間存在了否定詞，而使句意大為改變；在英文中我們視「no」、「not」為否定詞，利用否定詞設計一個判斷方法如公式[7]，我們先透過 Stanford Parser 將論述句與相關句的詞彙相依性(typed dependencies)擷取出來，比對其詞彙與標籤，若句對中存在著相同的詞彙且任一詞彙的標籤標為「neg」，則我們將之視為反向，代表句對的涵義具有反向的關係給予 Polarity 特徵值-1，反之若找不到相同的詞彙且亦無法找到任一詞彙標籤標為「neg」，則代表句對的涵義具有正向的關係給予 Polarity 特徵值 1。. PAD = Polarity * Antonyms. 學. (7). ‧. ‧ 國. 立. 政治大. er. io. sit. y. Nat. 在沒有否定詞的情況下，當論述句和文章句有反義詞的出現時，也會使句義. al. n. v i n 大相逕庭，因此我們透過 WordNet C h 擷取句對中每一個詞彙的反義詞與近義詞， engchi U. 並比對句對間是否有出現與另一句的詞彙相同的反義詞，若存在的話我們給予 Antonyms Detection 特徵值-1，反之我們給予 Antonyms Detection 特徵值 1。當句子中同時出現否定詞和反義詞時，會有負負得正的效果，例如「not accept」. 和「refuse」分別出現在兩句子中時，「not」會被系統判定為否定詞「accept」會被判定為「refuse」的反義詞，因此如果照特徵 Polarity 和 Antonyms Detection 的計算方式，則被扣了兩次分數，也就是說此二特徵對於句對的文字蘊含持反對意見，但殊不知「not accept」和「refuse」在意義上是相同的，因此為了避免此情. 28.

(39) 況發生，我們透過詞彙間的相依關係，當我們發現否定詞修飾的對象正好為反義詞時，系統則將計算出的 Polarity 和 Antonyms 特徵值相乘作為我們的新特徵 PAD，則可部分有效地解決負負得正的情況發生。而上述所討論到的否定詞與反義詞，透過分析詞彙相依關係，我們可以知道否定詞修飾的對象為何，因此套用 PAD 公式的前提是，Polarity 修飾的對象必須是近義詞或反義詞才能進行計算，也就是說，假如句對中有否定詞與反義詞，但否定詞並非修飾相同的對象則不可納入公式計算。以圖 4.17 來說，A 句: I do not like it，從詞彙相依的「neg」標籤可以得知，. 政治大. 否定詞"not"是修飾"like" --> neg(like-4, not-3)，因此在判斷 A 句: I do not like it. 立. 和 B 句 : I like it，我們可以知道 like 這個動詞，一句有否定詞修飾，另一句沒有，. ‧ 國. 學. 因此可判定為反向關係。. ‧. Nat. sit. n. al. er. io. B : I like it. y. A : I do not like it. i n U. 圖 4.17 否定詞範例. Ch. engchi. v. 又以圖 4.18 為例，A 句 : I do not like it、B 句 : I hate it，我們透過 WordNet 和分析詞彙相依性發現，A 句有否定詞 not 修飾 like，而 B 句又出現了 A 句中 like 的反義詞 hate，因此透過公式[7]，A 句的 PAD =(-1)*1，會與 B 句的 PAD=1*(-1) 相同。. 29.

(40) A: I do not like it B : I hate it 圖 4.18 反義詞範例但當出現句中出現否定詞和反義詞，卻沒有修飾關係時，以圖 4.19 為例，則判斷句對是否有反向就如下策略： (1)當句對出現反義詞時，且沒有否定詞修飾，則直接給予反向的關係，即便句中出現其他否定詞。. 政治大. (2)當句對中，某句有否定詞修飾句對共同出現的動詞，另一句沒有的情況時，則直接給與反向關係。. 立. ‧ 國. 學. 上述例子符合(1)有出現反義詞(hates , likes)，沒有否定詞修飾之，所以給予反向. ‧. 關係。. Nat. io. sit. y. A: He hates computer science. er. B : He likes computer science not just because of his girl friend. n. a圖l 4.19 反義詞與否定詞範例 i v n Ch U engchi. 因此當句對符合(1)或(2)其中一個步驟時，也代表著，句對中的某個陳述互為反向關係，所以即便其他處(非修飾該處的地方)有正反向的詞彙存在，也不能改變該反向關係的事實。而否定副詞(negative adverb)就如一般的副詞相同，主要是用來修飾動詞、形容詞、作為強調、比較程度、反向等作用，而以反向作用來說，當加了否定副詞時，句意會因而產生很大的改變，所以否定副詞對於正反向的判斷是一項相當重要的語文資訊，以圖 4.20 為參照，(1): I seldom fly to USA. 和 (2): I can barely. 30.

(41) walk.，因為句對中出現了否定副詞表中的否定副詞 seldom 和 rarely 的修飾，導致句意從正向轉為反向；我們考量了前面所述的反義詞與否定詞的公式，並結合否定副詞的判斷形成下頁公式[8]，將於下面簡介實作的方法與範例介紹。在否定副詞中，我們根據 Lucene [13]所提供的否定副詞表蒐集了圖 4.20 的否定副詞，並透過該表和詞彙的相依關係去做正反向的判斷依據。以圖 4.21 來說， I seldom fly to USA. 可透過 Stanford parser 剖析並蒐集到詞彙間的相依關係。 Time : never, seldom, rarely, unusually, infrequently, uncommonly, irregularly, sporadically. 立. 政治大. Space : sparsely, nowhere, narrowly, diffusely, skimpily. ‧ 國. 學. Degree : barely, sparely, hardly, insufficiently, inadequately, almost, scarcely, marginally, insignificantly, merely, meagerly, negligibly, scantily, slightly, weakly,. ‧. minimally. 圖 4.20 Lucene 否定副詞表. n. al. er. io. sit. y. Nat I seldom fly to USA. nsubj(fly-3, I-1). Ch. engchi. i n U. advmod(fly-3, seldom-2) root(ROOT-0, fly-3) prep(fly-3, to-4) pobj(to-4, USA-5) 圖 4.21 詞彙相依標記範例一. 31. v.

(42) 又透過否定副詞表，我們可以知道否定副詞 seldom 修飾動詞 fly，因此 NegAdverb 會給予反向的關係-1。而 I can barely walk 亦可透過 Stanford parser 剖析並蒐集到圖 4.22 的詞彙相依關係。. I can barely walk. nsubj(walk-4, I-1). aux(walk-4, can-2). advmod(walk-4, barely-3). root(ROOT-0, walk-4). 政治大. 立圖 4.22 詞彙相依標記範例二. ‧ 國. 學. 透過否定副詞表，我們可以知道否定副詞 barely 修飾動詞 walk，因此 NegAdverb. ‧. 會給予反向的關係-1。最後我們判斷正反向關係的方法就公式[8]所示。. sit. y. Nat. n. al. er. io. 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 & 𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 = Polarity ∗ Antonyms ∗ NegAdverb (8). Ch. engchi. i n U. v. 2. 主詞與受詞覆蓋率(Subject and Object Match Rate) 要推論兩個句子的關聯性，當句對有相同的主詞和直接受詞，代表兩句子有很大的部分傳遞相同的資訊，因此我們將相關句與論述句是否共同出現相同的主詞和直接受詞視為一個語文特徵，我們透過 StanfordCoreNLP 先標記論述句與相關句的主詞和直接受詞，然後相互比對，若兩句子出現相同的主詞或直接受詞時則將它們記錄下來，如果論述句的主詞和直接受詞都出現在相關句，則給予此特徵值 1，否則給予依據覆蓋的比率給予其特徵值。. 32.

(43) 主詞與受詞覆蓋率 =. 相符的主受詞數量論述句中的主受詞數量. 3. 主動與被動判斷(Passive Recognition) 在判別句子的主詞和受詞，會因為句子論述是主動或是被動的關係而受影響所以判斷句子是主動句或是被動句就顯得十分重要，特別在英文語料使用被動句的情. 政治大理主被動的方法是先剖析出句子中詞彙間的相依關係，以圖 4.23 為例，我們可立. 況也不在少數，因此英文語料對於主被動的判別是需要去做處理的，目前打算處. ‧ 國. 學. 以看到 S1 和 S2 的主詞與動詞的關係性，一個是主動 nsubj(gave-2, John-1)(S1) 一個是被動 nsubjpass(given-3, Mary-1)(S2)的關係，因此在一句是主動，另一句被. ‧. 動句的情況下，我們只要讓程式去判斷兩句對的主詞與受詞相同，且順序顛倒即. sit. y. Nat. 可確認兩句子為主被動的關係。但一個句子可能會有不只一個主詞或受詞，因此. io. al. n. 不相干的受詞扯上關聯而導致分數計算的錯誤。. Ch. engchi. er. 也可以藉由詞彙相依關係去判別哪個主詞及受詞為一個組合，而不會導致主詞於. i n U. v. S1: John gave the apple to Mary. 可以得到：nsubj(gave-2, John-1) dobj(gave-2, apple-4) pobj(to-5, Mary-6) S2: Mary was given the apple from John. 可以得到：nsubjpass(given-3, Mary-1) dobj(given-3, apple-5) 圖 4.23 主動與被動句對比較. 33. pobj(from-6, John-7).

(44) 4. 實體名詞覆蓋率(NER Match Rate) 實體名詞標記是自然語言處理中的一項任務，也跟資訊檢索中的資訊擷取議題有關。在文件中，常有人名、地名、機構名等詞彙出現，以及關於時間、金錢等不同格式數據的表達，這些詞彙經常不會出現在既有的詞庫中，因此需要特別的標記，以便擷取及應用。我們利用 Stanford NER[19] 標記論述句和相關句的實體名詞，Stanford NER 採用的是 "english.all.3class.distsim.crf.ser.gz" 來進行分類，可將句子中的人名、. 治政組織名、地名(PERSON, ORGANIZATION, LOCATION)標記出來，我們透過公式大立 [9]來進行實體名詞覆蓋的計算。 ‧ 國. 學. 而文章句與論述句相同的實體名詞數量並不重複計算，亦就是當文章句出現. ‧. 兩個實體名詞與論述句某個實體名詞相同時只會計算一次，因此該實體名詞覆蓋. n. al. Ch. Named Entity Overlap. er. io. Named Entity Overlap Ratio =. sit. y. Nat. 率最高為 1。. Named Entity Number Of Query statement. engchi. i n U. (9). v. 5. 數字覆蓋率(Number Match Rate) 數字交集的擷取，在以往的方式中，普遍的方法是比對兩句子中的數字是否有相符，並計算其數量作為一特徵值，但如下句對所示： 1.. There are 8 cats and 9 dogs in Katy's garden.. 2.. Katy owns 8 dogs and 9 cats.. 從上述的句對來看數字的交集數量是 2，理應會給予一個正向的推論分數但如果 34.

(45) 仔細看句對的內容會發現，兩句對數字所修飾的對象不同，以數字 8 的修飾對象為例，第一句的是修飾 cats 而第二句則是修飾 dogs，而在數字 9 中，第一句的是修飾 dogs 而第二句則是修飾 cats，因此句意變的大為不同，不應再給予正向的推論分數，因此除了用單純的比對數字外，我們利用 Stanford Parser 的詞彙相依關係可以找出兩個關係「number」、「num」，如下圖 4.24 及圖 4.25 所示。因此在下實例中，論述句就可因為尋找到相關句，其數字的修飾對象相同，但數字本身不同，而使得最終使答案判斷為 Contradiction。論述句：Awards ceremony is now seen live in more than 150 countries and it started. 政治大. in 1943.. 立. 相關句：As one of the most prominent award ceremonies in the world the Academy. ‧ 國. 學. Awards ceremony is televised live in more than 100 countries annually. ‧. Nat. io. n. al. er. "I have four thousand sheep" => number(thousand, four). sit. y. number: element of compound number. Ch. "I lost $ 3.2 billion" => number(billion, 3.2). engchi. i n U. 圖 4.24 數字標記範例一 num: numeric modier "Sam ate 3 sheep" => num(sheep, 3) "Sam spent forty dollars" => num(dollars, 40) "Sam spent $ 40" => num($, 40) 圖 4.25 數字標記範例二 35. v.

(46) 因此數字有了修飾的對象，擷取該特徵也比較有語文意義。我們將此特徵的擷取方法設計如公式[10]所示。. Number Match Rate =. (10). 論述句數字總數. 政治大詞彙相依相似度(Typed Dependencies Similarity) 立. 學. ‧ 國. 6.. 論述句與相關句的相同數字總數. 我們利用 Stanford Parser 產生詞彙之間相依的關係 (Stanford Typed Dependencies)[21]，將相依關係中的詞彙做為節點，並視句子中的詞彙關係為一. ‧. 個有向圖(Directed Graph)，轉成矩陣形式。如表 4.1 所示，我們發現在此矩陣內. Nat. sit. y. 可以顯示的資訊並不充沛，因為矩陣裡面，所顯示的關係皆為詞彙間的直接關. n. al. er. io. 係，並無法顯示出詞彙間的間接關係，因此在如此稀疏的矩陣中，我們難以找到. i n U. v. 相關句與論述句間包含相同關係的詞彙組合，因此我們以相鄰矩陣(Adjacency. Ch. engchi. Matrix)的概念做進一步的運算；例如一個矩陣 M，可以經由矩陣相乘獲得節點到節點之間移動所需要的步數，因此計算 M2 便能瞭解任一個節點經過二步移動後的位置。我們將這樣的移動視為依賴關係的延伸，便能找出更多間接的詞彙依賴關係，並且將不同移動步數的矩陣結果取聯集，獲得更豐富的依賴關係。. 36.

(47) 表 4.1 詞彙相依關係有向圖 M1 My. dog. also. like. eating. sausage. ROOT. My. 0. 0. 0. 0. 0. 0. 0. dog. 1. 0. 0. 0. 0. 0. 0. also. 0. 0. 0. 0. 0. 0. 0. like. 0. 1. 1. 0. 1. 0. 0. eating. 0. 0. 0. 1. 0. sausage. 0. 0. 0. 0. ROOT. 0. 0. 0. 0. 1. 0. 0. 0. ‧. ‧ 國. 0. 學. 0. 表 4.2 詞彙相依關係有向圖 M2. io. n. al. also. like. 0. 0. eating. sausage. ROOT. 0. 0. er. dog. sit. y. Nat. My. 立. 0 政 0治大. i n U. 0. 0. dog. 0. 0. 0. engchi 0. 0. 0. 0. also. 0. 0. 0. 0. 0. 0. 0. like. 0. 0. 0. 0. 0. 1. 0. eating. 0. 0. 0. 0. 0. 0. 0. sausage. 0. 0. 0. 0. 0. 0. 0. ROOT. 0. 1. 1. 0. 0. 1. 0. Ch. 37. 0. v. My.

(48) 表 4.3 詞彙相依關係有向圖 M1∪M2 My. dog. also. like. eating. sausage. ROOT. My. 0. 0. 0. 0. 0. 0. 0. dog. 1. 0. 0. 0. 0. 0. 0. also. 0. 0. 0. 0. 0. 0. 0. like. 0. 1. 1. 0. 1. 1. 0. eating. 0. 0. 0. 1. 0. sausage. 0. 0. 0. 0. ROOT. 0. 1. 0. 0. 0. 1. 1. 0. 學. ‧ 國. 立. 0 政 0治大. 1. 0. ‧. 表 4.4 詞彙相依關係有向圖 M1∪M2 與橋梁詞彙. io. n. al. also. like. 0. 0. eating. sausage. ROOT. 0. 0. er. dog. sit. y. Nat. My My. 0. 0. dog. 1. 0. 0. also. 0. 0. like. 0. eating. Ch. engchi. i n U 0. v. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 1. 1(eating,1). 0. 0. 0. 0. 0. 0. 1. 0. sausage. 0. 0. 0. 0. 0. 0. 0. ROOT. 0. 1(like,1). 1(like,1). 1. 0. 1(like,1). 0. 38.

(49) 但在上述的計算，只考慮了詞彙間的「直接」和「間接」關係。當距離越遠的間接詞彙所得的分數則越低，反之越高。這樣的做法沒有考慮到詞彙間「連續」的關係，也就是說兩詞彙間即便是很遠的關係，但如果中間聯繫的詞彙相同，那整體來說的分數應該給得更高，以下例子來說: A 句: 美國熱愛和平假設詞彙相依為->[美國,熱愛],[熱愛,和平],. 因此可得到間. 接的詞彙相依->[美國,和平 ] 。 B 句: 美國討厭和平假設詞彙相依為->[美國,討厭],[討厭,和平],. 因此可得到間. 接的詞彙相依->[美國,和平 ] 。. 政治大在 A 和 B 兩句中[美國]和[和平]的橋梁是不一樣的，A 是[熱愛]，B 是卻[討厭]，立所以在比對的過程中，如果發現句對中有一組共同間接的詞彙相依，則我們會再. ‧ 國. 學. 審視它們連結的橋梁[詞彙]是否相同，若有相同的橋梁則我們給予相對高的分. ‧. 數，而橋樑數則決定權重要給的多高，如表 4.4，括號裡面代表著間接關係中，. sit. y. Nat. 橋梁詞彙為何，以及橋樑數為多少。. er. io. 4.3.2LWFs 公式與參數訓練方法. al. n. v i n Linearly Weighted Functions (LWFs) C h 是一種廣受使用且基本的機器學習方法，我 engchi U 們透過 4.3 小節建構了許多的語文特徵，用以判別出論述句的真實與否，但在實際上，每一個特徵根據不同的語料，都會有各別的重要性，也就是說，當某些特徵特別有助於判別答案時，我們就應該給予該特徵較高的權重分數，因此我們建立的 LWFs 模組，藉由每句論述句的正確答案(Yes or NO)，依據整體的準確率來調整每一個特徵的權重分數。如公式[11]所示，我們將 4.2 小節透過文章權重𝑤𝐴1 與相關句權重𝑤𝑆1 所組合. 而成的綜合權重，也作為每一個相關句的加權分數，假設一個論述句中有三十個. 39.

(50) 相關句，則三十個相關句都會有各別與論述句所擷取的特徵，F1 為否定詞、反義詞、否定副詞正反面判斷，F2 為主詞與受詞覆蓋率，F3 為主動與被動判斷， F4 為實體名詞覆蓋率，F5 為數字覆蓋率，最後 F6 為詞彙相依相似度；而α、 β、 γ、δ、ε、θ則分別代表上面六個特徵的權重參數。 LWFs Score =. (11). 𝑤𝑆1 *𝑤𝐴1 （α 𝐹1𝑆1 + β 𝐹2𝑆1 + γ𝐹3𝑆1 + δ𝐹4𝑆1 + ε𝐹5𝑆1 + 𝜃𝐹6𝑆1 ）+ 𝑤𝑆2 *𝑤𝐴2 （α 𝐹1𝑆2 + β 𝐹2𝑆2 + γ𝐹3𝑆2 + δ𝐹4𝑆2 + ε𝐹5𝑆2 + 𝜃𝐹6𝑆2 ）+. 政治大. …. 立. …. ‧ 國. 學. ‧. 𝑤𝑆30 *𝑤𝐴30 （α 𝐹1𝑆30 + β 𝐹2𝑆30 + γ𝐹3𝑆30 + δ𝐹4𝑆30 + ε𝐹5𝑆30 + 𝜃𝐹6𝑆30 ）. 而我們訓練各項特徵參數的方法是採用 exhaustive search 方式，中文稱做「窮舉. sit. y. Nat. 搜尋法」。窮舉搜尋法其中旨是嘗試列舉全部情形、全部數據，一一比對檢查，. al. er. io. 其特色是充分利用了電腦能做快速運算的特性，使所有情況無一遺漏，因此很多. v. n. 不容易計算出答案或最佳解，都可以用迴圈、遞迴等方式做窮舉，而快速的找出. Ch. engchi. i n U. 正確答案。但因為採用窮舉的方法相當耗時，因此我們基於窮舉法，採用 grid search[5]的原理進行最佳解的搜尋，grid search 將可行解透過網格的搜尋法，依序檢查每組特徵參數對於效能的變化，當找到目前最佳解時，我們可再縮小搜尋的範圍，從幾個最佳解範圍中再繼續搜索有無更好的結果，重覆計算幾次後，我們便可得的近最佳的參數組合。因此我們 LWFs 訓練權重的方法，採用 grid search 的原理，先透過一定的區間大小調整六個特徵的參數值(α、 β、 γ、δ、ε、θ)，在調整的過程中，我們將較高準確度的參數組合記錄下來，並針對紀錄下來的參數組合，縮小檢驗參數 40.

(51) 的區間大小，從較佳的參數組合區間中，比對是否有更好的準確率，並反覆的執行上述步驟，如此一來可以節省許多運算時間，並找到最近的最佳解的答案。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 41. i n U. v.

(52) 第5章. 系統效能評估. 5.1 Linearly Weighted Functions 參數及門檻值介紹我們透過 4.3 小節的方法，開始訓練各個特徵的參數(α、 β、 γ、δ、ε、θ)和 Linearly Weighted Functions 的門檻值(threshold)。首先，我們的訓練語料來源是. 政治大道論述句，其語料領域包含了政治經濟、歷史、文化等等。立. 由 NTCIR 單位所提供，包含了 RITE-2 和 RITE-VAL 的英文語料，總共有 362. ‧ 國. 學 ‧. 我們將各個特徵的參數初值都設定為 1，並以 0.3 為最小基本單位往上和往下作檢驗，透過窮舉法檢查每一種參數組合所得到的效果，然後我們再透過迴圈. y. Nat. io. sit. 檢驗門檻值(threshold)的大小哪一個為最佳，其門檻值初值為 0，而判斷答案的. n. al. er. 依據就根據門檻值作決定，如公式[12]所示；因此我們有六個特徵外加一個門檻. Ch. i n U. v. 值總計有七個迴圈，我們將效果較好的參數組合儲存下來，並將那些參數組合中，. engchi. 每個參數值以正負 0.5 為區間，並以最小單位為 0.1 再個別檢驗一遍，最後將數組最佳解就當作我們的最佳參數組合，透過此方法如圖 5.1 所示，此示意圖即為尋找各個區域最佳解的方法，透過此方法不斷的檢驗各個區間，我們就可以盡可能地找到每一個區域的最佳解，並於各組最佳解中尋求更佳的效果。. 42.

(53) 政治大. 學. ‧ 國. 立. 圖 5.1 區域最佳解. ‧. n. er. io. sit. y. Nat. al. Ch. 𝑄𝑄𝑄𝑄𝑄 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 =�. 𝑌𝑌𝑌(𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸) 𝑁𝑁(𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶). engchi. i n U. v. 𝐿𝐿𝐿𝐿 𝑆𝑆𝑆𝑆𝑆 > 𝑡ℎ𝑟𝑟𝑟ℎ𝑜𝑜𝑜 𝐿𝐿𝐿𝐿 𝑆𝑆𝑆𝑆𝑆 <= 𝑡ℎ𝑟𝑟𝑟ℎ𝑜𝑜𝑜. 43. (12).

(54) 5.2 實驗結果與討論本小節將開始介紹，效果較佳的參數組合，以及其比較討論，我們在實驗中共選出了一組原始參數組合以及八組較佳的參數組合作比較與討論，如表 5.1 和表 5.2 所示，在八組參數組合中，準確率大約落在 60%上下，而最好的參數組合是組合五，其準確率為 63.25%，效果較差的組合為組合二，其準確率為 57.54%，差了大約 5 個百分點，下列將開始介紹各項參數組中，各項特徵之重要性分析與探討。. 立. 政治大. 我們從組合一及組合二中看到，主被動判斷特徵和數字覆蓋率兩特徵中，對. ‧ 國. 學. 於推論判斷是相對於其他特徵來說幫助較大的，分別是 1.6、1.7 和 1.6、1.9，我們從對照組及組合一和組合二的準確率可以發現，藉由提高主被動判斷特徵，相. ‧. 關句可能有存在與論述句主被動關係相反的論述，但兩句子所要表達和傳遞的資. y. Nat. sit. 訊很有可能是相同的，因此透過該特徵可以將其反向的關係修正，而在數字覆蓋. n. al. er. io. 率中，我們可以猜測出在論述句及相關句中，因為語料的特性，可能存在了許多. i n U. v. 的數字資訊，諸如年分、月分、量詞等等，因此在比對其數字資訊上將可提升其. Ch. engchi. 準確度，而門檻中我們觀察到兩個門檻值皆為負數，-1.4 和-3.5，這項資訊代表所有的分數加總是較偏於負向的總和，也就是說，某些特徵值在分布上可能多分布於負數，因此在門檻值上，將之調整為負數也較利於答案的判斷；而準確率方面兩組合個別為 62.70%和 57.54%雖然都是較佳的參數組合，但正確率也差了約 5 個百分點，因為各項參數選定的差距不多，所以我們可以藉此推論出在門檻值的選定部分，組合二的-3.5 略低，為導致準確率下降的主因。. 44.

(55) 表 5.1 訓練語料結果一特徵. 原始組. 組合一. 對照組. 組合二. 對照組. 組合三. 對照組. 1.1. 1.1. 0.9. 0.9. 1.8. 1.8. 1.6. 政治大 1.0 1.6 1.6. 3.8. 1. 1.1. 1.1. 1.1. 1.1. 1. 1. 1.1. 1.1. 1.1. 1.1. 1.9. 1.9. 1.7. 1.9. 1. 1.8. 1.8. 0.6. 1.8. 1.8. 合 1. 特徵 1. 立. 1. 覆蓋率 1. 1. al. n. 率詞彙相依. 1.7. io. 數字覆蓋. y. Nat. 詞覆蓋率. ‧. 主詞和受. 學. 實體名詞. ‧ 國. 斷特徵. 1. 0.8. 0. -1.4. Ch. e n g 0.6 chi. 0.8. sit. 主被動判. er. 正反判斷. i n U. v. 性相似度門檻值準確率. 53.59% 62.70%. -1.4. -3.5. -3.5. 0. 0. 59.11%. 57.54%. 53.86%. 60.49%. 58.83%. 45.

(56) Training data Results 2 1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0. 原始組合組合一組合二. 政治大. 立. ‧ 國. 組合一. 組合二. 組合三. 學. 原始組合. 組合三. 圖 5.2 訓練語料結果圖一. ‧ y. Nat. sit. 從參數組合三中看到，當我們將主被動判斷特徵調升至很高的數值時，對於推論. n. al. er. io. 的判斷有很大的幫助，而其他特徵中，正反判斷特徵和主詞和受詞覆蓋率也維持. i n U. v. 較高的數值 1.8 和 1.9，在主詞和受詞覆蓋率中我們可以觀察到，因為語料的特. Ch. engchi. 性，在政治、經濟、歷史上，常常會出現一些特殊的人名作為句子的主詞或受詞，因此如果兩個句子中其主詞或受詞相同的話也意味著，兩句子要描述的主軸相去不遠，所以較利於推論的判斷，而在門檻值的部分，這裡異於組合一和組合二，這裡的數值為 0，因此可以藉由推論出，主被動判斷特徵值有可能是分布於正數的比例較高，因此在拉高參數權重後其總分數也因此被拉高了許多。. 46.