• 沒有找到結果。

第二章 文獻回顧

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5

2. 第二章 文獻回顧

本節針對過去 RITE 及 RTE 競賽中英文語句推論的研究及 WordNet[31]與知網(HowNet) 在詞彙語意相似度計算方法進行回顧。

2.1 中英文語句語意推論

過去 RITE 相關研究多採用機器學習的方法,透過不同的特徵擷取與機器學習演算法來 建構系統,例如使用 SVM、決策樹(Decision Tree)等演算法,或使用投票(Voting)綜合多 種分類器等方式來預測推論關係。Cao[18]等人透過機器學習的演算法與特徵項來建構系 統,他們將一般常見的語句資訊擷取出來做為特徵,而他們更致力於自己開發的自然語 言處理工具,針對實體名詞標記、日期與數字處理,提升文字中資訊擷取的能力,研究 結果顯示具備良好的實體語意名詞標記技術,能有效獲得語句中的資訊。Wu[24]等人亦 透過機器學習演算法,利用機器翻譯效能評估的 BLEU[15][16]分數及句子長度做為特徵 訓練分類器,在 RITE-1 的簡體中文競賽中也有不錯的表現。而 Zhang[33]等人提出加入 語意相關特徵處理,透過上下位詞、同義詞與反義詞等資訊,來進行語意的推論,並使 用多種機器學習的演算法,透過投票的機制更能有效地提升推論關係判斷的準確率。Lin 與 Hsiao[10]則提出經由機器翻譯的語句後,以英文的文本進行特徵的擷取,針對英文詞 彙的校對位置做為特徵,提供一種不同的思維來處理語句推論的問題。除了機器學習的 方法外,Shih[7]等人以知識為基底建構語句推論的系統架構,透過既有的知識表達,進

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6

行字詞分析、句型語法分析與實體名詞標記,依據制訂的規則計算語句間的關連程度。

Day[22]等人則建立一套結合機器學習與以知識為基底的語句推論系統,並且除了前面 提到的各種語言特徵外,更以詞彙的依賴關係計算特徵,並加入其他的語意資源輔助語 句間的推論效果。綜合以上研究的結果發現由詞彙的分析、實體名詞標記與語法結構等 語言特徵所建構的模型,於 RITE-1 競賽皆能獲得一個高於平均的評分。

英文相關的研究始於 RTE 競賽,也發展出各種作法來提升語句推論的效果。

Adams[23] 的 研 究 採 用 詞 彙 覆 蓋 (Lexical Overlap) 的 相 似 度 判 斷 推 論 關 係 , 並 加 入 WordNet 以拓展詞彙的鏈結關係來達到更佳的相似度計算效果,但這樣的系統仍然過於 簡易,在 RTE 競賽中的僅能獲得中等的成績,而需要更多的語言資訊輔助來提升推論 效果,但此種較容易計算推論關係的作法提供我們一個不錯的嘗試機會。而同樣地,機 器學習的分類器仍然在語句推論中是經常被運用的一種技術,Hickl[6]等人透過詞彙對 齊(Textual Alignment)擷取可能指出推論關係的詞彙特徵,以及加上如句子極性(Polarity) 或否定標記等語意特徵和標記詞彙之間的依賴關係來計算特徵,最後採用分類器預測推 論關係,否定標記及詞彙依賴關係的語法結構特徵在推論關係的判斷上也具有不錯的效 果;並且 Hickl 等人的研究更指出,額外的語料蒐集將可以有效地提升英文語句推論關 係的系統效能,但此項工作的仍屬於較為困難的工作。Tatu[21]等人則是使用邏輯形式 的推論系統,該研究指出透過邏輯的使用,可以進行更多因子之間的關連性推導,而有 效地判定否定意義、數量形式與時間表達,判定語句之間的推論關係;Tatu 的研究指出 此項方法在推論關係的判斷上具有一定的成效,但在邏輯角色的標記工作上則是相對較 困難的部分。因此我們採用詞彙覆蓋比例、否定標記、詞彙語意分析及語法結構等語言 特徵建構推論模型,在一般性的新聞語料中可以獲得較好的效能,而針對研究議題所設 計的語料則相對缺乏特定領域的語言特徵處理,無法取得良好的推論效能。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

7

2.2 詞彙語意相似度之計算

在詞彙語意的分析中,如何能判斷同義詞、反義詞、上位詞或下位詞等詞彙間的關係?

WordNet 是一個線上的英文辭典,WordNet 提出一套知識表達的方法,將詞彙分成各種 同義詞集(Synset),並提供簡短的語意說明,根據詞彙的分類建置為一套具有蘊含關係 的層次結構,因此使用者可以根據這些資訊來做文本的分析與人工智慧應用。Budanitsky 與 Hirst[5]便以 WordNet 為基礎,提出數種詞彙間語意的相似度計算的方法,藉以比較 詞彙之間的語意關係。而中文則有由董振東等人所發展的知網(HowNet)[1],這是以簡體 中文為主要語言的一套知識表達系統,透過義原的組合來闡述詞彙語意,同時知網可由 使用者自由的分析使用,來獲得近義詞、反義詞與其他詞彙關係。劉群[3]等人的研究便 是瞭解知網中用以描述詞彙的義原間的關連性,並提出兩種資料結構來解析定義的表達 式,除此之外,亦提出一套基於義原群相似的詞彙語意相似度計算方法。而廣義知網 (E-HowNet)是一套基於知網的知識本體與語意定義機制所建構的知識表達系統,主要收 納繁體中文的常用詞彙,並修改知網部分的定義方式,讓詞彙的表達式更符合語意表 徵。

我們的研究將透過經驗法則建構一套語句推論模型,並且加上機器學習的分類模型,

透過多種的方式提升系統的推論能力,並對於廣義知網做分析與應用,檢視詞彙間的相 似關係,以提升系統對於句子語意的理解,接下來我們將提出幾項方法來建置推論系 統。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8