第 2.2 節機器翻譯

機器翻譯是指將一種自然語言利用電腦自動翻譯為另一種自然語言。雖然機器譯文的品質至今仍無法取代人工翻譯，但機器翻譯最大的優勢在於速度與數量，在全球化的今天，翻譯需求有增無減，確實難以依賴人工翻譯滿足所有的翻譯需求。

Hutchins (2010) 將機器翻譯的發展分為五個階段：萌芽草創期 (1933-1956)、過度樂觀至期望落空 (1956-1966)、低潮期 (1966-1976)、復甦期 (1976-1989)、當前發展 (1989 年迄今)。在 1956 年到 1966 年的樂觀期，機器翻譯是根據雙語詞典及語言學規則對原文「解碼」，將分析結果轉換為譯文的對應詞彙及語法結構，最後重新「編碼」

組合成譯文，稱為基於規則的機器翻譯 (rule-based machine translation; RBMT)，其間的流程如圖 2-1 所示。

圖 2-1：Vauquois 機器翻譯金字塔

引用翻譯自 Dorr, Hovy 與 Levin (2004)

基於規則的機器翻譯經過多年研究一直沒有重要突破，1966 年美國政府的語言自動處理諮詢委員會 (ALPAC) 發表調查報告，認為機器翻譯緩慢昂貴、品質不佳、

前景不明，美國的機器翻譯研究因而沈寂了十多年。到了 1980 年代，隨著個人電腦和文書處理軟體普及，機器翻譯再度受到重視，也出現許多商用機器翻譯系統。Slocum (1985) 指出，在 1984 年約有 50 萬頁的文件是由機器所翻譯，他認為這個時期的復甦一方面是因為使用者對機器翻譯的譯文品質要求轉趨務實，另方面則歸功於新開發的機器翻譯系統功能有所提升。此時的機器翻譯仍然以基於規則的系統為主，此外也出現了基於知識 (knowledge-based machine translation; KBMT) 的系統。

基於規則的機器翻譯，正如第 2.1-3 節討論的雙語術語擷取技術，也有相同的優點和弱點。優點是直接利用語言學知識，便於處理複雜的結構，進行深層分析，但是開發規則庫的成本極高，不同語種的規則庫無法移植套用。

1980 年代末 IBM 發佈以統計方法進行機器翻譯 (statistical machine translation;

SMT) 的實驗結果，日本則有研究團隊開始使用語料庫的翻譯例句，亦即今日所謂基於實例的機器翻譯 (example-based machine translation; EBMT)。統計式機器翻譯與基於實例的機器翻譯，都借助語料庫大量的語料，馮志偉 (2010) 指出兩者的區別如下：

‧在基於統計的機器翻譯方法中，知識的表示是統計數據，而不是語料庫本身；翻譯知識的獲取是在翻譯之前完成，翻譯的過程中不再使用語料庫。

‧在基於實例的機器翻譯方法中，雙語語料庫本身就是翻譯知識的一種表現形式 (不一定是唯一的)，翻譯知識的獲取在翻譯之前沒有全部完成，在翻譯的過程中還要查詢並利用語料庫。(馮志偉, 2010)

基於實例的機器翻譯有賴於建立規模夠大的實例 (雙語句對) 資料庫，做到自動對齊，另外還要建立有效的實例匹配檢索機制和相似度計算準則，以找出有效的相似句或詞串。計算相似度包括從字詞、詞串、句子、段落、文本到文本集等不同層級的比對，Islam 與 Inkpen (2008) 將相似度演算法分為四類：基於字詞共現/空間向量的文件模型、基於語料庫統計、混合式方法，以及基於描述特徵的方法。

兩個詞 (亦即字串) 是否相似，通常採用最短編輯距離 (minimum edit distance) 演算法計算字串距離 (string distance)，亦即以插入、刪除、取代等編輯動作更改一個字串，所需要的最少編輯次數。另一個常見方法是計算最長共同子序列 (longest common subsequene)，亦即尋找兩個字串中相同的最長子序列。計算句子或段落的相似度，常用的公式是 Dice 係數 = 2 c / (a+b)，其中 a、b 各為兩個句子的字串長度，c 為兩句共有的字串長度。另外也可能考量詞與詞之間的互現訊息 (mutual information;

MI)。文本的相似度則常用向量空間模型來計算，亦即以文件中包含的詞彙所組成的向量空間來表示文件集，以用於比較 (曾守正等, 2006)。

基於向量空間模型的方法，是將句子、段落看成詞的線性序列，語句相似度衡量機制只能利用句中的詞頻、詞性等表層資訊。學者因此提出其他方法，例如進行語句與語義的深層結構分析，基於語義的依存關係以計算相似度 (例如 Islam & Inkpen, 2008; Maynard & Ananiadou, 1999; 李彬、劉挺、秦兵、李生, 2003)。林語君、高照明 (2009, pp. 186-187) 結合統計與語言訊息，提出混合式雙語句對應演算法，句子的相似度計算參數包括雙語詞典翻譯詞及停用詞表，句中重要標點符號序列，以共同數字詞、時間詞、原文詞為對應錨。

自 1990 年代以來，許多研究團隊以統計式機器翻譯為研發重心，最新的研究趨勢則走向統計加語言規則的混合系統，雙語對應從原本的單詞擴大到詞串，併用語言

學規則、雙語詞典；做為「語言模型」的平行語料及單語語料急遽成長；應用統計式機器翻譯技術的語種也大幅增加。

Hutchins (2010) 指出統計式機器翻譯的基本方法是先利用互為翻譯的雙語文本進行片語、詞串及單詞的對應，而後計算源語某一個句子中的任一單詞，與對齊的譯語句子中任一單詞兩相對應的概率 (稱為「翻譯模型」)；其次，根據「翻譯模型」

產出新的譯句後，再依譯語的詞對詞轉換頻率，調整為適當的詞序，詞對詞的轉換頻率則是來自平行文本語料庫或單語語料庫 (稱為語言模型)。馮志偉 (2010) 以全球第一個推出統計式機器翻譯軟體產品的 Language Weaver 公司⁴為例，說明統計式機器翻譯系統的工作流程分為訓練及解碼兩個部分，如圖 2-2 所示。

4 該公司已於 2011 年由 SDL 公司併購，參見 http://www.sdl.com/community/blog/。

圖 2-2：統計式機器翻譯的訓練及解碼流程引用自馮志偉 (2010)

至於機器翻譯的實際應用，學者區分了不同的用途 (例如參見 Hutchins, 2003, 2010) 。傳統對人工翻譯的品質要求適合用於資訊傳播 (machine translation for dissemination)，瀏覽網頁時想要瞭解大致內容，則屬於資訊吸收的用途 (machine translation for assimilation)，對譯文品質的要求較低。而在即時通訊軟體、社群網站互動所需的即時翻譯，屬於交流溝通的用途 (machine translation for communication)，這類需求不可能等待人工翻譯，於是經濟快速的機器翻譯就能派上用場。第四種用途是將機器翻譯功能結合於資訊存取系統，例如資料庫全文檢索、擷取文本內容資訊、文本摘要等，機器譯文並非最終使用的成品，而是做為中介，以利進行多語內容的處理。

2005 年 Google 推出線上自動翻譯服務⁵，即是針對資訊吸收與交流溝通兩大用途，2009 年又推出譯者工具包，結合了自訂 TM 與詞彙表的功能，進一步提升對譯者的支援。關於 Google 翻譯及譯者工具包的翻譯品質，學者與業界的研究發現確實有其效益 (Garcia, 2010; Ramos, 2010)，產出的譯文雖不能直接做為發佈之用，但經過人工編輯可達交件品質，並縮短整體翻譯時間，節省成本。Google 翻譯的說明網頁指出：「對於任何一種語言來說，只要 Google 翻譯能夠分析愈多的人工翻譯文件，

就可以產生更好的翻譯品質。」Google 翻譯技術主管 Och 也表示，Google 翻譯還有待改善，但是「進步得很快，目前品質改進曲線仍然陡峭。」(Helft, March 8, 2010)

本節簡介了機器翻譯的發展歷史、基本原理和相關服務，對於非資工背景的譯者、文科教師等「外行人」，即使是最根本的計算機技術仍然會覺得「隔行如隔山」，

要使用相關工具軟體也無從下手。這是資工專家與語言學家、專職譯者可以加強合作的地方。

在文檔中利用專門可比語料庫結合機器翻譯自動提取雙語對譯N連詞：以合約文類為例 (頁 28-33)

第 2.2 節 機器翻譯

圖 2-1：Vauquois 機器翻譯金字塔

引用翻譯自 Dorr, Hovy 與 Levin (2004)

圖 2-2：統計式機器翻譯的訓練及解碼流程 引用自馮志偉 (2010)

圖 2-2：統計式機器翻譯的訓練及解碼流程引用自馮志偉 (2010)