• 沒有找到結果。

機器翻譯是指將一種自然語言利用電腦自動翻譯為另一種自然語言。雖然機器 譯文的品質至今仍無法取代人工翻譯,但機器翻譯最大的優勢在於速度與數量,在全 球化的今天,翻譯需求有增無減,確實難以依賴人工翻譯滿足所有的翻譯需求。

Hutchins (2010) 將機器翻譯的發展分為五個階段:萌芽草創期 (1933-1956)、過度樂 觀至期望落空 (1956-1966)、低潮期 (1966-1976)、復甦期 (1976-1989)、當前發展 (1989 年迄今)。在 1956 年到 1966 年的樂觀期,機器翻譯是根據雙語詞典及語言學規 則對原文「解碼」,將分析結果轉換為譯文的對應詞彙及語法結構,最後重新「編碼」

組合成譯文,稱為基於規則的機器翻譯 (rule-based machine translation; RBMT),其間 的流程如圖 2-1 所示。

圖 2-1:Vauquois 機器翻譯金字塔

引用翻譯自 Dorr, Hovy 與 Levin (2004)

基於規則的機器翻譯經過多年研究一直沒有重要突破,1966 年美國政府的語言 自動處理諮詢委員會 (ALPAC) 發表調查報告,認為機器翻譯緩慢昂貴、品質不佳、

前景不明,美國的機器翻譯研究因而沈寂了十多年。到了 1980 年代,隨著個人電腦 和文書處理軟體普及,機器翻譯再度受到重視,也出現許多商用機器翻譯系統。Slocum (1985) 指出,在 1984 年約有 50 萬頁的文件是由機器所翻譯,他認為這個時期的復 甦一方面是因為使用者對機器翻譯的譯文品質要求轉趨務實,另方面則歸功於新開發 的機器翻譯系統功能有所提升。此時的機器翻譯仍然以基於規則的系統為主,此外也 出現了基於知識 (knowledge-based machine translation; KBMT) 的系統。

基於規則的機器翻譯,正如第 2.1-3 節討論的雙語術語擷取技術,也有相同的優 點和弱點。優點是直接利用語言學知識,便於處理複雜的結構,進行深層分析,但是 開發規則庫的成本極高,不同語種的規則庫無法移植套用。

1980 年代末 IBM 發佈以統計方法進行機器翻譯 (statistical machine translation;

SMT) 的實驗結果,日本則有研究團隊開始使用語料庫的翻譯例句,亦即今日所謂基 於實例的機器翻譯 (example-based machine translation; EBMT)。 統計式機器翻譯與基 於實例的機器翻譯,都借助語料庫大量的語料,馮志偉 (2010) 指出兩者的區別如 下:

‧在基於統計的機器翻譯方法中,知識的表示是統計數據,而不是語料庫本 身;翻譯知識的獲取是在翻譯之前完成,翻譯的過程中不再使用語料庫。

‧在基於實例的機器翻譯方法中,雙語語料庫本身就是翻譯知識的一種表現 形式 (不一定是唯一的),翻譯知識的獲取在翻譯之前沒有全部完成,在翻 譯的過程中還要查詢並利用語料庫。(馮志偉, 2010)

基於實例的機器翻譯有賴於建立規模夠大的實例 (雙語句對) 資料庫,做到自 動對齊,另外還要建立有效的實例匹配檢索機制和相似度計算準則,以找出有效的相 似句或詞串。計算相似度包括從字詞、詞串、句子、段落、文本到文本集等不同層級 的比對,Islam 與 Inkpen (2008) 將相似度演算法分為四類:基於字詞共現/空間向量 的文件模型、基於語料庫統計、混合式方法,以及基於描述特徵的方法。

兩個詞 (亦即字串) 是否相似,通常採用最短編輯距離 (minimum edit distance) 演算法計算字串距離 (string distance),亦即以插入、刪除、取代等編輯動作更改一個 字串,所需要的最少編輯次數。另一個常見方法是計算最長共同子序列 (longest common subsequene),亦即尋找兩個字串中相同的最長子序列。計算句子或段落的相 似度,常用的公式是 Dice 係數 = 2 c / (a+b),其中 a、b 各為兩個句子的字串長度,c 為兩句共有的字串長度。另外也可能考量詞與詞之間的互現訊息 (mutual information;

MI)。文本的相似度則常用向量空間模型來計算,亦即以文件中包含的詞彙所組成的 向量空間來表示文件集,以用於比較 (曾守正等, 2006)。

基於向量空間模型的方法,是將句子、段落看成詞的線性序列,語句相似度衡 量機制只能利用句中的詞頻、詞性等表層資訊。學者因此提出其他方法,例如進行語 句與語義的深層結構分析,基於語義的依存關係以計算相似度 (例如 Islam & Inkpen, 2008; Maynard & Ananiadou, 1999; 李彬、劉挺、秦兵、李生, 2003)。林語君、高照明 (2009, pp. 186-187) 結合統計與語言訊息,提出混合式雙語句對應演算法,句子的相 似度計算參數包括雙語詞典翻譯詞及停用詞表,句中重要標點符號序列,以共同數字 詞、時間詞、原文詞為對應錨。

自 1990 年代以來,許多研究團隊以統計式機器翻譯為研發重心,最新的研究趨 勢則走向統計加語言規則的混合系統,雙語對應從原本的單詞擴大到詞串,併用語言

學規則、雙語詞典;做為「語言模型」的平行語料及單語語料急遽成長;應用統計式 機器翻譯技術的語種也大幅增加。

Hutchins (2010) 指出統計式機器翻譯的基本方法是先利用互為翻譯的雙語文本 進行片語、詞串及單詞的對應,而後計算源語某一個句子中的任一單詞,與對齊的譯 語句子中任一單詞兩相對應的概率 (稱為「翻譯模型」);其次,根據「翻譯模型」

產出新的譯句後,再依譯語的詞對詞轉換頻率,調整為適當的詞序,詞對詞的轉換頻 率則是來自平行文本語料庫或單語語料庫 (稱為語言模型)。馮志偉 (2010) 以全球第 一個推出統計式機器翻譯軟體產品的 Language Weaver 公司4 為例,說明統計式機器 翻譯系統的工作流程分為訓練及解碼兩個部分,如圖 2-2 所示。

4 該公司已於 2011 年由 SDL 公司併購,參見 http://www.sdl.com/community/blog/。

圖 2-2:統計式機器翻譯的訓練及解碼流程 引用自馮志偉 (2010)

至於機器翻譯的實際應用,學者區分了不同的用途 (例如參見 Hutchins, 2003, 2010) 。 傳 統 對 人 工 翻 譯 的 品 質 要 求 適 合 用 於 資 訊 傳 播 (machine translation for dissemination),瀏覽網頁時想要瞭解大致內容,則屬於資訊吸收的用途 (machine translation for assimilation),對譯文品質的要求較低。而在即時通訊軟體、社群網站互 動所需的即時翻譯,屬於交流溝通的用途 (machine translation for communication),這 類需求不可能等待人工翻譯,於是經濟快速的機器翻譯就能派上用場。第四種用途是 將機器翻譯功能結合於資訊存取系統,例如資料庫全文檢索、擷取文本內容資訊、文 本摘要等,機器譯文並非最終使用的成品,而是做為中介,以利進行多語內容的處理。

2005 年 Google 推出線上自動翻譯服務 5,即是針對資訊吸收與交流溝通兩大用 途,2009 年又推出譯者工具包,結合了自訂 TM 與詞彙表的功能,進一步提升對譯 者的支援。關於 Google 翻譯及譯者工具包的翻譯品質,學者與業界的研究發現確實 有其效益 (Garcia, 2010; Ramos, 2010),產出的譯文雖不能直接做為發佈之用,但經 過人工編輯可達交件品質,並縮短整體翻譯時間,節省成本。Google 翻譯的說明網 頁指出:「對於任何一種語言來說,只要 Google 翻譯能夠分析愈多的人工翻譯文件,

就可以產生更好的翻譯品質。」Google 翻譯技術主管 Och 也表示,Google 翻譯還有 待改善,但是「進步得很快,目前品質改進曲線仍然陡峭。」(Helft, March 8, 2010)

本節簡介了機器翻譯的發展歷史、基本原理和相關服務,對於非資工背景的譯 者、文科教師等「外行人」,即使是最根本的計算機技術仍然會覺得「隔行如隔山」,

要使用相關工具軟體也無從下手。這是資工專家與語言學家、專職譯者可以加強合作 的地方。