• 沒有找到結果。

第三章 語料來源與系統架構

3.4 辭典的選取

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14

象的結構,因此,若在比對過程中有吻合的情況產生,則系統將會進一步透過中文詞序 編號來將英文句的字詞進行調動,完成調動之後才開始利用機率式選詞模組進行翻譯。

而原始詞序範例樹資料庫的建立,為了節省大量的時間,張智傑[16]只利用辭典檔 內部的資訊來進行詞彙對列,除了其使用的辭典檔內部索引字數不足以外(約三萬餘個 索引字),並無執行其它詞彙對列的輔助技術。也因為這種處理方式,我們只能犧牲詞 序範例樹的品質,採用對應率(「產生對列的英文字詞數」/「英文句子的總字詞數」)大於 60%的對列結果,來換取範例樹的數量。而此種處理方式,其實會遺失一些實際上擁有 詞序互換現象的結構樹,而使翻譯系統效能之改善有所限制。因此我們首要的目標便是 增進詞彙對列模組的效能,以便獲得較多、較準確的詞序範例樹。

3.4 辭典的選取

大多數以辭典為基礎的詞彙對列模組,其成效與所選用的辭典有一定程度的關連,往往 一個辭典的優劣,對於詞彙對列整體的召回率和精確率有相當大的影響。在此我們比較 了三種免費的電子辭典,分別為牛津現代英漢雙解辭典[3](以下簡稱牛津辭典)、Dr.eye 譯典通線上辭典[23]和由MBDG團隊持續整理發布的CEDICT電子辭典檔[19],索引字數 如表3.3

表 3.3 辭典內含索引字詞數 所示。

辭典 索引字數

牛津現代英漢雙解辭典 39429

Dr.eye譯典通線上辭典 106269

97184 CEDICT電子辭典檔

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

這三種辭典,以牛津辭典有著最高的公信力,但其索引字數卻是最少,且內部結構 為「說明」類型的辭典,也就是說這類的辭典會針對一個英文字詞,利用其他的文字來解 釋其索引字,假若我們查詢英文字詞「him」,我們從表3.4

表 3.4 辭典內部資訊

可以發現牛津辭典利用大量的 文字,詳細的來「說明」這個字詞。而詞彙對列模組,主要是希望找到兩種語言之間相對 應的字詞,並記錄平行句對中間的連線以建立詞序範例樹。因此若我們要使用牛津辭 典,勢必需要過濾掉大量的「說明」文字,並且保留其相對應的「翻譯」字詞,也就是說,

實際上只需要把「他」和「它」這兩個中文字詞留下,其餘的文字訊息完全刪除。但從格式 範例中可以發現,這不僅僅只是把括號內部字詞刪掉而已,格式內部還帶有許多例句的 資訊,因此除了利用人工去進行過濾之外,實際上很難利用自動化程序來完成,所以我 們並不選用牛津辭典當作系統的索引字詞資料庫。

辭典 格式範例

牛津現代英漢雙解辭典 him / hIm; hIm/ pers pron 人稱代詞 (used as the object of a v or of a prep; also used independently or after be 用作動詞或介詞的賓語, 亦可單獨使用或用 於be之後) male person or animal mentioned earlier or being observed now 他; 它(用以指雄性動物): When did you see him? 你是什麼時候看見他的? * I'm taller than him. 我比他高. * (infml 口) That's him over there. 那邊那個人就是他. * Oh, not `him again! 噢, 可別再是他了! =>Usage at he 用法見he.

Dr.eye譯典通線上辭典 him=/(he的受格)他/(用於than或as後面/代替he)他 CEDICT電子辭典檔 他 [ta1] /he/him/

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

16

相較於牛津辭典,Dr.eye譯典通線上辭典和CEDICT電子辭典檔不論在索引字數上,

或是內部格式都較符合我們的需求,兩種辭典對於索引字詞之解釋大多直接是互為對應 的翻譯字詞,並且把詳細的「說明」單純利用括號隔開,因此我們可以利用簡單的自動化 程序去過濾這些「說明」。且從中可以發現,兩者最大的不同在於索引字的用法,Dr.eye 譯典通線上辭典是利用英文字詞當作索引字,而CEDICT電子辭典檔則是利用中文字詞 當作索引字,這兩種不同的方向,我們曾進行小型實驗的評估,發現CEDICT電子辭典 檔的召回率是較Dr.eye譯典通線上辭典優越的,我們猜測主要的原因為CEDICT電子辭典 檔是MBDG團隊在進行編修,直到現在(本模組所使用的版本時間為2010-02-22 06:12:50 GMT)都還不斷的進行修正和擴充索引字的數量,相對於Dr.eye譯典通線上辭典它的更 新速度較快,並且CEDICT電子辭典檔屬於免費軟體,容易取得其文字檔格式。因此我 們選用以CEDICT電子辭典檔做為主力,以中研院斷詞系統所產生的中文字詞為主,透 過查詢的動作,可以得到大量的英文字詞,利用這些英文字詞與目標的英文句子進行比 對。

另一個選擇CEDICT電子辭典檔的誘因是,CEDICT電子辭典檔內部的中文索引都以 字詞為單位,並且其英文翻譯擁有大量的片語和複合詞資訊(如: 「付清」有pay in full、

pay all of a bill和pay off三種相對應詞彙),我們將在第四章中說明,我們如何利用這些 資訊來增加系統的效能。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

17