• 沒有找到結果。

第七章 結論與未來工作

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

78

7. 第七章 結論與未來工作

本節總結本研究的發現與成果,並針對所觀察的重點,歸納未來可進行的工作,持續提 升我們系統的推論效果。

7.1 結論

本研究目標是發展一套系統能夠判斷語句之間是否具有推論的關係,為此我們提出兩種 方法進行推論關係的評斷,第一種為經驗法則式推論系統,根據對語料本身的分析設計 多種函式協助推論關係的評分,第二種則是採用機器學習演算法,經由數學模型分析統 計,學習語句推論關係中的特性,而後給予語句之間的推論關係分類。本系統採用的兩 種方式都能夠在經由調整後的門檻值及最佳的特徵組合,在中文與英文語料中給予正確 的推論關係結果。

首先我們建置幾項文本處理的元件,將語句進行前處理之後的結果更容易使用於推 論關係的判斷,第一個我們進行文本中的數字轉換,將中英文不同的數字表達形式轉為 統一的羅馬數字格式,然後將語句進行中文斷詞或英文分詞,從詞彙組成的角度解讀句 子包含的資訊與含意,並且標記語句中的實體名詞,因為我們認為實體名詞為特定的詞 彙,在句子意義中佔有重要的地位,最後我們希望判斷語句中的近義詞、否定詞與反義 詞來識別句子中語意的可能變化;在中文近義詞的部分,我們也提出一套基於廣義知網

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

79

的詞彙語意相似度計算方法。透過這些前處理的步驟後,我們將處理後的文本丟入經驗 法則式的推論模型中,依據各個函式的制訂,評估推論關係的程度,通過門檻值的設定 判斷是否具有推論關係;同時我們按照經驗法則式所使用的函式計算相關特徵值,並且 提出多種句法結構的特徵輔助機器學習演算法的分類模型訓練,通過不同的演算法所獲 得的分類模型進行推論關係的預測。

我們針對經驗法則式推論模型進行實驗,分為訓練語料的參數調校與測試語料實驗,

並且在中文語料以我們提出的詞彙語意相似度計算方法進行實驗評估,最後針對 RITE-2 競賽使用的參數設定及結果進行說明。在參數調校中,我們採用貪婪式的搜尋方法,通 過各種參數設定的組合找尋較佳的準確率結果,根據這些參數設定對測試語料進行實驗,

在中文語料的結果中可以發現這些函式讓系統具備不錯的推論效能,尤其在否定推論關 係的正確率上,但在簡體中文語料仍需要進一步加強否定推論關係的判定;同時我們加 入中文近義詞的使用,觀察近義詞在推論關係判斷的效果,在 RITE-1 兩種中文測試語 料的結果中,加入近義詞的推論效果都稍稍的退步,但 RITE-2 的競賽結果卻是由加入 近義詞的模型獲得較佳的評分與名次,因此我們無法確定近義詞在中文語料中的實際效 果。反觀英文語料的實驗結果,MSR 語料依舊能夠在這些函式的組合下獲得不錯的推 論結果,而 RTE 語料卻表現不盡理想,我們認為這與語料本身的設計相關,MSR 語料 為新聞內容蒐集而成,RTE 語料卻是經由各方專家為了特定的研究議題所設計,因此在 語料的複雜度相對更高,導致我們提出的推論模型並不足以涵蓋整個 RTE 語料的特性 而獲得較佳的推論效果。

實驗的第二部分針對機器學習推論模型進行效能評估及特徵選擇,首先我們挑選三 種分類演算法中獲得較佳準確率的特徵組合,並採用這些組合進行各項訓練語料所要採 用的分類演算法選擇,通過挑選的演算法訓練推論模型判斷推論關係,當中除了 RTE

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

80

語料採用 SVM 演算法外,線性回歸演算法的效能平均值皆能在其他三種語料擁有較佳 的推論效果。接著透過指定的演算法訓練各種語料的分類模型,對測試語料進行效能評 估,由中文的結果觀察可以發現我們抽取的特徵在繁體中文語料能有較佳的系統效能評 比,簡體中文語料則欠缺否定推論關係的判斷能力,因此與 NTCIR-10 競賽成績相比並 不能獲得一個較好的成績。英文語料則以 MSR 語料能獲得較佳的準確率,但同樣缺乏 否定推論關係判定的能力,使得 Macro-F1 分數呈現偏低的情形;而 RTE 語料則由於語 料設計的複雜度,使我們提出的語言特徵難以抓到 RTE 語料的特性,因此系統效能都 表現的相當低落。上述中英文測試語料的效能評比說明我們所使用的特徵仍無法非常有 效的判定否定推論關係,並且在英文語料的特徵抽取仍有相當大的進步空間,需要加強 對英文文本的理解,以提升系統的推論能力。

接著我們進行特徵選擇的實驗,瞭解詞彙覆蓋比例、近義詞及語法結構在中英文測 試語料中的效能比較,觀察這些特徵在判斷推論關係上的效果。由實驗的結果可以發現 詞彙覆蓋比例在推論關係判斷中佔有非常重要的角色,在系統效能的表現上往往會造成 巨大的變化。近義詞則不若經驗法則式推論模型中與詞彙覆蓋比例混合使用的效能提升,

在單獨製作成一項特徵用以分類時,並不能提高系統效能,而同時也存在特徵之間的衝 突,造成效能比較上的困難。最後分析語法結構特徵的影響,實驗結果顯示語法結構特 徵在中文語料僅有些微的提升,並且同樣存在特徵之間衝突的問題,反觀英文語料,雖 然在 MSR 語料並未對語法特徵多加使用,但在 RTE 語料中,語法結構特徵在校能的表 現中反而較為突出,顯示英文語料對語法結構的依賴,並且能提升不錯的系統效能。

我們經由多項的實驗,發現在我們所提出的經驗法則式推論系統,僅使用幾個語言 特性的函式來判斷推論關係,經由參數調校後的測試語料實驗,都能獲得不錯的效果,

說明這些語言特性無論是中文或英文的語料中,對推論效果都有一定程度的幫助。此外

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

81

我們也進行機器學習分類模型的訓練,採用三種不同的演算法-SVM、J48 與線性回歸,

通過多樣化的方法比較演算法與特徵之間的推論效果,而詞彙覆蓋比例、近義詞、剖析 樹相似度、SVO 結構相似度與詞彙依賴關係相似度等特徵在推論關係預測中也屬於重要 的特徵,上述特徵與其他特徵組合後在指定演算法的模型分類下,都能獲得機器學習實 驗中不錯的系統效能。本研究中我們所提出的兩項方法在推論關係的預測上都具有一定 的水準,經驗法則式推論模型能在幾項函式的組合便能達到相當不錯的表現,亦在 NTCIR-10 競賽中獲得不錯的名次,而機器學習分類模型則落後經驗法則式推論模型些 許效能,但同樣在 NTCIR-10 競賽也能獲得僅次於經驗法則式推論模型的名次。透過競 賽的成績與實驗比較指出無論是經驗法則式推論模型或機器學習分類模型中,我們提出 的幾項特徵確實有助於提升推論關係判斷的效果,尤其以中文語料的推論關係判定上,

具有相當不錯的系統效能,有助於我們未來延伸相關的中文議題研究,而系統對英文語 料的推論關係判定效能雖然略顯低落,但也指出中英文語料在推論關係中具備不同的特 性,我們需要更深入研究相關語言特性,再次提升英文語料的推論系統效能。

7.2 未來工作

我們在各種不同的實驗結果可以發現,無論是那一項的模型,在否定推論關係的判定中,

都還有非常大的進步空間,我們目前所提出的函式及特徵多數聚焦在假設推論關係為正 向的時候,因此需要找出更多辨別否定推論關係的語言特性,甚至加強反義詞辭典的內 容與否定詞判斷規則的修正。並且目前我們採用最多的特性為字面上的比對與句法結構 的相似度,因此我們對於句子當中實際的意圖或含意並未加以分析,而無法切確掌握句 子欲敘述的事項,未來我們希望加入更多語意標記的功能與特徵,擷取句子當中的含意,

藉以提升語句間推論的效果。而我們也在語料的錯誤分析中發現,許多語句間的推論,

由詞彙覆蓋比例的高低判斷時,無法正確的考慮時間先後順序的情況,因此縱然具有再

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

82

高的重疊比例時,時間的順序一旦顛倒或錯亂,句子的意義將截然不同,而造成否定推 論關係的產生,目前我們仍無法針對時間做良好的標記,我們預期接下來將試圖建立時 間軸的概念,將句子中的動作與時間正確的標記在時間軸上,以判斷動作發生的先後順 序而提升推論效果。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y