• 沒有找到結果。

第二章 相關研究工作

第一節 翻譯檢索問句

翻譯檢索問句的目的,乃是將原始語言(Source Language)所寫成的檢索問句 翻譯成文件所屬的目的語言(Target Language)。主要的方法有兩種,一個是以字 典為本,一個以語料庫為本。以字典為本的方法是從字典所有可能的翻譯裡面選 擇適當的翻譯。以語料庫為本的方法則是從平行語料庫(Parallel Corpus),或是 比較語料庫(Comparable Corpus)中學習出正確的翻譯。其中,平行語料庫為一中 英文對照之語料庫,且每一句中文都有其相對應的英文語句,因此可以由字在語 句中的相對位置,判斷該字在另一個語言的正確翻譯。比較語料庫中的對應則是 一篇中文文件對應到一篇英文文件,缺乏句與句間的對應關係,因而無法從位置 關係來判斷翻譯。

本節分為兩部分,第一部分說明以字典為本的檢索問句翻譯方法,第二部分 則介紹以語料庫為本的檢索問句翻譯方法。

2.1.1 以字典為本的翻譯檢索問句方法

以字典為本的方法利用查詢雙語字典的方式,將原始語言翻譯成目的語言。

然而,一個詞鍵可能有多個翻譯結果,因此,便需要有選擇翻譯的策略。相關研 究中所採用的策略主要有以下幾種:1) 選擇排列第一的翻譯:字典羅列的翻譯 中,第一個翻譯通常為一般狀況下最常使用的意思;2) 選擇所有的翻譯:將所 有的翻譯都視為正確,但存在有翻譯歧義性問題;3) 選擇最佳的 N 個翻譯:藉

由判斷檢索問句語境,作為選擇該字最適合問句語境的翻譯。

[Chen02] 採用選擇最佳 N 個翻譯的策略。其所使用的漢英雙語詞典匯集多 部現有的電子版詞典,包括致遠漢英詞典 2.2 版、LDC 雙語詞典及英漢雙語詞 典等,共有20 萬個詞彙。[Chen02] 將一個中文詞集合翻譯成相對應的英文詞集 合;主要有兩個步驟,先產生一個英文詞集合的初始集合,再依據這個初始集合 產生完整的英文詞集合,茲將[Chen02]的做法簡述如下。

首先,從中文詞集合中挑選出存在於雙語詞典中且只具有單一英文翻譯之

文詞初始集合中,集合 S 中應該已存在了 i-1 個英文詞,這個初始集合作為英 English Version Play, applaud, abuse, band,

bingle, confidence

表 1: 中文詞集合翻譯為英文詞集合的例子 [Chen02]

2.1.2 語料庫為本的翻譯檢索問句方法

[Fung98] 使用比較語料庫(Comparable Corpus)的語境,學習出中文字詞 的英文翻譯。[Fung98] 假設一個字的語境可由其前後文(Context)的文字所決 定,亦即意思相同的中文字和英文字,他們在文件中會擁有類似的語境。如表 2 所示,「流感」與「flu」具有相似的語境。舉例來說,「流感」前後文中出現 147 次「病毒」,相對地,「flu」前後文中亦出現 26 次「virus」。

English Word Frequency Chinese Word Frequency Extract

Context Words

Extract Context Words

Translated Chinese Context Vector

Wc

We

English Context Vector

We

virus, citizenry, Hong Kong,

infection, confirmed, show

flu bird, virus, spread, people,

government

圖 6: 中文詞鍵翻譯成英文的流程圖[Fung98]

為計算中文詞與英文詞相似度的流程,對於一個中文字,例如「流感」, 取出比較語料庫中該字的中文語境,亦即每篇中文文件中「流感」前後的文字,

將這個中文語境利用雙語字典翻譯成英文,採用向量空間模型(Vector Space Model)將翻譯過後的語境以向量表示;而英文方面也是從語料庫中取出「flu」

的英文語境,採用向量空間模型將一個語境表示成語境向量。英文語境向量和

翻譯過後的中文語境向量位於同一個向量空間,可以計算兩個向量間Cosine 值 衡量相似程度。

[Fung98] 亦提出了幾種不同的模型(S0-S7)以計算向量中詞鍵權重與相似 度。S0 考慮考慮詞鍵頻率(Term Frequency, TF)[Salton83],即詞鍵在語境中的出 現次數,如公式 4:

Standard/Mingpao Corpus),其中出現頻率最高的字為「Hong Kong」,但是這 不表示Hong Kong就是某個中文字的翻譯。消除這類問題最常用的方法是逆向文 件頻率(Inverse Document Frequency, IDF)[Salton83] 。以此例來說,「virus」

與「Hong Kong」的IDF值分別是1.81及1.23,「病毒」與「香港」的逆向文件頻 率則為1.92和0.81。S1針對每個字都可以給一個權重W ,修正的相 似度函數如公式 5:

除此之外,Dice係數[Frakes92]也被用來比較相似程度。

S1用來比較簡短檢索問句(short query)和一篇文件的相似程度,S2則用來比 較兩篇文件內容的相似程度。此外,橋接中英文字的種子品質相當重要,首先中 文斷詞就會引入一些種子詞鍵的模糊性,而中英翻譯又會引入更多模糊性。

[Fung98] 針對此現象提出每個翻譯配對皆引進信心權重(Confidence Weighting) 的計算方式;假設一個英文字 是中文字 第k個候選翻譯,則將權重除以k。S4,

i

Model English Chinese Score Lei 流感 0.18111

flu 流感 0.08888 Tang 流感 0.08589 AP 流感 0.08141 flu 流感 0.12088 Lei 流感 0.09758 Beijing 流感 0.06866 poultry 流感 0.06583 flu 流感 0.08629 China 流感 0.04009 poultry 流感 0.02816 Beijing 流感 0.0245 flu 流感 0.01043 poultry 流感 0.00185 China 流感 0.00184 Beijing 流感 0.00168 flu 流感 0.00767 poultry 流感 0.00196 Beijing 流感 0.00167 China 流感 0.00139 S0

「poultry」。

Score English Chinese Score English Chinese

0.008421 Teng-hui 登輝 0.004275 Kalkanov 珠海

0.007895 SAR 特區 0.00355 poultry

0.007669 Flu 流感 0.003519 SAR 葉利欽

0.007588 Lei0.003481 Zhuhai 建華

0.007283 Poultry 家禽 0.003407 Prime Minister

0.006812 SAR 建華 0.003407 President

0.00643 Hijack 登輝 0.003338 Flu 家禽

0.006218 Poultry 特區 0.003324 apologies 登輝

0.005921 Tung 建華 0.00325 DPP 登輝

0.005527 Diaoyu 登輝 0.003206 Tang

0.005335 Prime Minister 登輝 0.003202 Tung

0.005335 President 登輝 0.00304 Leung

0.005221 China0.003033 China 特區

0.004731 Lien 登輝 0.002888 Zhuhai 農曆

0.00447 Poultry 建華 0.002886 Tung

表 4: [Fung98]從新聞語料庫尋找中英翻譯的結果