• 沒有找到結果。

第三章 語料集及中英文辭典

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8

3. 第三章 語料集及中英文辭典

本節說明此研究所使用的中英文語料集及中英文辭典,首先說明語料內容,並列出每項 語料的相關統計數據,接著介紹廣義知網、WordNet 及教育部國語辭典,這些辭典將用 來輔助推論關係的判斷。

3.1 中文語料集

我們經由參與 NTCIR 的競賽,取得 RITE 的訓練(Dev.)與測試(Test)語料集,語料為推論 關係二元分類(Binary Classification),並且包含繁體中文與簡體中文兩種語言。圖 3.1 為 繁體中文二元分類的資料內容,每筆資料皆有一個編號記錄,並包含兩個句子-t1與 t2, 而 label 代表的是 t1的內容是否能推論出 t2中的假設,Y 表示成立,N 則反之。我們共 取得了 NTCIR-9 RITE-1 和 NTCIR-10 RITE-2 的訓練與測試語料,表 3.1 及表 3.2 為訓練 與測試語料集的數量統計。

圖 3.1 二元分類資料集

NTCIR-9 NTCIR-10

語言 繁體中文 簡體中文 繁體中文 簡體中文

Microsoft Research Paraphrase Corpus(MSR Corpus)於 2004 年由 Quirk 等人提出,語料集 共包含 5801 個英文句對,並且標記兩個句子之間是否相關聯,Quirk 等人並將其切割為

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10

圖 3.2 RTE 語料範例

RTE 為一項英文語句推論競賽,始於 2005 年,主要目標是為了解決越來越多的文 本應用的需求,包含文本蘊含意義分析與語意推理關係的判定,因此提出此項通用的評 估標準,藉以拓展對此問題的系統發展與研究方法,並且該競賽提供之語料具備廣泛的 應用面向,諸如問答系統(Question Answering, QA)、資訊檢索(Information Retrieval, IR)、

文件比較(Comparable Documents, CD)、閱讀理解(Reading Comprehension, RC)、機器翻 譯(Machine Translation, MT)和訊息抽取(Information Extraction, IE)等類別;語料內容包含 兩個句子,t 與 h,value 則指出 t 推論至 h 的結果為 TRUE 或 FALSE,圖實驗語料 3.2 為 RTE 語料的範例,task 標籤為此句對所屬的範疇。我們總共蒐集了 RTE-1、RTE-2 與 RTE-3 三次競賽的語料,並且將三個訓練語料綜合成一個獨立的訓練語料,使我們訓練 模型時的文本數量大為增加,表 3.4 為 RTE 語料的統計資訊。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

11

表 3.4 RTE 語料集統計

來源 RTE-1 RTE-2 RTE-3

類別 Dev. Test Dev. Test Dev. Test TRUE 283 400 400 400 412 410 FALSE 284 400 400 400 388 390 總和 567 800 800 800 800 800

3.3 廣義知網(E-HowNet)

廣義知網是中央研究院資訊所詞庫小組於 2003 年與董振東先生合作,將中研院詞庫小 組辭典(CKIP Chinese Lexical Knowledge Base)與知網做連結。詞庫小組針對定義的架構 做了一些修改,並增加以簡單概念取代義原,讓更為複雜的詞彙語意能以較簡單的表達 式來呈現,因而更精準地表達知識含意;在廣義知網中,義原與簡單概念是做為描述詞 彙的最基本元素。

圖 3.3 廣義知網詞彙定義式

圖 3.3 為廣義知網中詞彙定義式的例子,包含讀音、拼音與詞性等資訊,但在本研 究 中 著 重 於 詞 彙 表 達 知 識 的 擷 取 , 而 廣 義 知 網 包 含 兩 種 概 念 的 表 達 式 , 概 念 式 (TopLevelDefinition)與展開式(BottomLevelExpansion),當中皆由義原或簡單概念來定義 詞彙。在廣義知網的技術報告中提到,概念式實為較精簡的表達模型,他們將複雜的表 達式以廣義知網內既有的詞彙來表示,而展開式則是將該精簡化的表達式全數展開至義

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

圖 3.4 廣義知網分類結構

原及簡單概念來呈現,更可以表達最深層的詞彙語意[9]。因此,我們希望透過展開式的 解析,擷取詞彙間的語意關係。

廣義知網延伸知網的基礎架構,所以同樣建置了分類(Taxonomy)的概念,提供詞彙 間階層式的架構,如圖 3.4 顯示廣義知網中的分類結構,皆由事物或關連等類別往下拓 展。因此我們可以經由階層式的樹狀結構計算義原之間的距離來瞭解詞彙的相似、相反 或上下位詞的關係。

3.4 WordNet

WordNet 是由普林斯頓大學所發展的一套線上電子辭典,自 1985 年開發維護至今,當 中收錄大量的英文詞彙,包含動詞、名詞、副詞和形容詞等詞性。WordNet 的設計本身 已經將英文詞彙以同義詞集(Synset)作為分類,每項分類代表個別的一個語意概念,各 個同義詞集在 WordNet 中透過概念語意與詞性作為鏈結。而 WordNet 經由同義詞集的分 析,可以取得詞彙的反義詞(Antonym)、上位詞(Hypernym)和下位詞(Hyponym)。在這裡 我們採用 WordNet 2.1 的版本加入到本研究當中,使用 JAWS 工具對 WordNet 的辭典解 析,我們直接透過 JAWS 來獲得指定詞彙的同義詞集與反義詞集,在後面的章節我們會 說明如何使用同義詞與反義詞來建構推論系統。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

13

3.5 教育部國語辭典

教育部於 1994 年開始建構網路版的重編國語辭典修訂本[2],該辭典經由數位專家學者 編撰而成,歷經數次的檢索系統更新與內容修訂,使用者可透過檢索系統搜尋指定詞彙,

辭典內容包含詞彙讀音、拼音、相似詞與相反詞等資訊。我們透過授權取得教育部相似 詞與相反詞的辭典,圖 3.5 示意為辭典內容範例,相似詞辭典共包含 16005 個繁體中文 詞彙,相反詞辭典包含 8625 個繁體中文詞彙。

相似詞

高興; 得意、痛快、開心、快樂、快活、歡樂、歡喜、歡躍、喜悅、興奮、怡悅、愉 快、樂意、願意

相反詞

高興; 敗興、悲傷、悲哀、煩悶、難過、苦惱、沮喪、傷心、掃興、憂愁、厭惡、鬱 悶、不快、生氣

圖 3.5 相似詞與相反詞資料庫

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14