• 沒有找到結果。

第四章 語料前處理及近義詞典建置

4.3 英漢動名詞組合對列

4.3.1 英漢辭典合併

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

4.2.3 中文關係樹剖析

與 4.1.3 小節相同,我們使用 Stanford Parser 剖析文句得到關係樹結構,一樣使 用「DIRECT_OBJECT」找出文句中動名詞組合的關係,如上頁表 4.6 所示,「老 師宣告了學生的成績。」一句中,名詞「成績」就是動詞「宣告」的描述對象,

因此這兩個詞彙之間的關係會以「dobj(宣告-2, 成績-6)」這樣的形式標記關係。

有了英文與中文的動名詞組合,我們可以使用查詢辭典的方式,將英文與中文的 動名詞組合翻譯對列,完成我們的英漢動名詞組合資料庫。

4.3 英漢動名詞組合對列

我們已經擁有英文及中文各自的動名詞組合,接下來就要把互為翻譯對照的動名 詞 組 合 對 列 產 生 翻 譯 結 果 。 我 們 使 用 的 方 法 是 基 於 辭 典 資 訊 的 機 器 翻 譯 (dictionary-based machine translation) ,採用的英漢辭典有兩部,分別為牛津現代 英漢雙解詞典[4]與 Dr.eye 譯典通線上字典[5]。但是只依靠英漢辭典的資訊是不 足夠的,因為英漢辭典所列出與英文詞彙對應的中文翻譯詞彙有限;為了找尋更 多與英文詞彙對應的中文翻譯詞彙,我們另外使用了一詞泛讀[21]及 E-HowNet [6]建立近義詞典,擴充我們的英漢詞彙對應,幫助英漢動名詞組合對列。4.3.1 小節為合併英漢辭典,4.3.2 說明近義詞典的建置過程。

4.3.1

英漢辭典合併

本研究使用兩部辭典,分別為牛津現代英漢雙解詞典(以下簡稱牛津詞典)與 Dr.eye 譯典通線上字典(以下簡稱譯典通字典)。如果查閱辭典的內容,英文詞 彙的中文翻譯約略可以分為兩種翻譯情形:第一種為與英文詞彙相等對應的中文

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

詞彙,即為同一種意義的事物在不同語言中的詞彙使用對照,例如:「egg」與「蛋」

的相等對應關係),這樣的詞彙本研究稱之為「對應詞彙」;第二種則為以中文片 語解釋該英文詞彙的意義,是屬於語意上的理解說明,例如:「effusion」與「(尤 指無約束的)思想和感情的流露;抒發感情」的註釋關係。我們需要英漢翻譯的 詞彙可由第一種相等詞彙對應關係取得,第二種註釋關係的內容屬於語意解釋,

主體對象為人類,因此不列入我們使用基於辭典資訊的機器翻譯方法。

4.3.1.1

牛津現代英漢雙解詞典

在牛津詞典中,並非每個英文詞彙都列有中文對應詞彙,中文翻譯部分亦混雜著 兩種翻譯情形,辭典中的例句也一併出現於中文翻譯部分,而且沒有明顯的規則 可以直接取出英文詞彙的中文相等詞彙。為了解決這個問題,我們將英文詞彙的 中文翻譯根據標點符號為分割單位,分列出許多的中文候選字串。我們設定了門 檻值:如果候選字串的長度不超過四個字,我們認為該字串是為中文對應詞彙的 機會較大,予以保留;如果候選字串的長度過長,我們相信該字串屬於第二種語 意說明的中文解釋的機會較大,便予以剔除。

表 4.7 牛津字典內容範例 英文詞彙:confusion

中文對應詞彙 辭典中的語意解釋或例句

迷亂;惶惑 gazing in confusion at the strange sight 惶惑地凝視著這種奇怪的景象

混亂;雜亂 Her unexpected arrival threw us into total confusion.

她來得很突然,使我們完全不知所措。

混淆;混同 There has been some confusion of names.

有些名字弄混了。

不確定狀態

There is some confusion about what the right procedure should be.

對應該採取怎樣的步驟這一點還不太明確。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23

牛津詞典含有 39178 個英文詞彙,本研究依上述的規則運作,總共得到了 26896 個英文詞彙含有中文對應詞彙。見上頁表 4.7,以英文詞彙「confusion」

為例,最後我們抽取出「迷亂、惶惑、混亂、雜亂、混淆及混同」作為我們的中 文翻譯詞彙,最後一個候選字串「不確定狀態」因為長度超過四個字因此不列入 中文對應詞彙內。

4.3.1.2

Dr.eye 譯典通線上字典

譯典通字典含有 106276 個英文詞彙,而且由 XML[19]格式撰寫而成,因此可以 由格式標記取得英文詞彙的中文翻譯部分,不會採取到例句的部分;但是中文的 翻譯部分仍然有上述的兩種翻譯情形,因此與牛津詞典相同,使用標點符號為分 割單位來切割字串。由於譯典通字典的中文翻譯部分不含有例句,因此我們將詞 彙的詞長條件放寬,將不超過五個字的候選字串視為中文對應詞彙,超出五個字 的字串則視為語意解釋,不列入採用。我們一樣使用英文詞彙「confusion」作範 例,表 4.8 中的「混亂、騷動、混亂狀況、混淆、困惑及慌亂」即是被我們認為 的中文對應詞彙。字典中的十萬個英文詞彙,其中有 88507 個英文詞彙具有中文 對應詞彙。

表 4.8 譯典通字典內容範例 英文詞彙:confusion

中文對應詞彙 辭典中的例句

混亂;騷動;

混亂狀況

The room was in a state of confusion.

房間一片雜亂。

混淆 You can avoid confusion by speaking clearly.

你說得清楚些,這樣可以避免誤解。

困惑;慌亂 The old woman looked at him in confusion.

老婦人用迷茫的目光打量著他。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

24

表 4.9 合併字典範例 英文詞彙:confusion

辭典 辭典中的中文翻譯詞彙

牛津詞典 迷亂、惶惑、混亂、雜亂、混淆、混同 譯典通字典 混亂、騷動、混亂狀況、混淆、困惑、慌亂

英漢合併字典 混亂、混亂狀況、騷動、混淆、困惑、慌亂、迷亂、惶惑、

雜亂、混同

4.3.1.3

合併牛津詞典及譯典通字典

由上頁表 4.8 可知,不同辭典對於英文詞彙所定義的中文對應詞彙並不完全相 同;因此本研究將牛津詞典和譯典通字典的中文對應詞彙合併,以增加英文詞彙 的中文對應詞彙數目,如表 4.9 所示。經合併之後,本研究的「英漢合併字典」

總共含有 99805 個英文詞彙。