以下是本研究的第二部分,利用統計式機器翻譯工具,產生中英文合約 N 連詞 的翻譯語料,再以兩組平行語料進行相似度自動比對,從中找出互為翻譯的詞組。
如前所述,本研究的基本假說認為專門領域的可比語料庫存在許多重疊的術語 及習語,而且互為翻譯,只是實務上的困難在於如何快速有效的提取這些互為翻譯的 詞彙,做為翻譯參考資源或其他進一步的應用。現有的術語提取研究,不論是單語語 料或雙語可比語料,主要都是從計算語言學出發,設計各種演算法模型以自動辨識本 文當中的術語。這樣的途徑需要具備計算語言學或資訊工程方面的專業能力,研究論 文的作者通常不只一人也可看出,設計演算法機制以進行實驗,並非個別研究者能力 所及。
筆者從筆譯職場實務工作的角度,捨棄複雜的計算語言學技術,提出一個相對 簡單但有效的方法,可以快速從可比語料庫當中提取重疊交集的 N 連詞,同時將互 為翻譯的 N 連詞自動對齊,產生雙語的術語習語對譯表。這個方法是借用現有翻譯 記憶系統最基本的翻譯單元比對功能,在翻譯記憶系統中,只要提供既有翻譯的平行
語料 (稱為 TM 檔案) 做為參照,翻譯新文件時,工具就會自動搜尋 TM 檔案,檢索 新文件和舊文件有沒有完全相符或近似的單元,如果達到預設的相符比例,則會自動 擷取該單元的對應翻譯,呈現於譯文欄位。
本研究用於比對的「參照 TM」,來自可比語料庫機器翻譯的版本,這樣的方式 可以快速產生大量的平行語料,克服人工翻譯平行語料不足的困難。將中文、英文合 約 N 連詞分別產生機器翻譯版本後,可以得到每個語言各兩套 N 連詞,即可進行 EN(n)-EN(g)、TW(n)-TW(g)單語相似度比對,如下圖所示。
兩兩比對後產生的雙語對譯 N 連詞,還可以進一步交叉比較,具體操作步驟請見下 文說明。
機器翻譯與翻譯記憶系統,目前都已有相當成熟的工具,可以達到本研究所需 的功能。線上自動翻譯服務主要為 Google 公司提供的 Google Translate 和譯者工具包,
其次是微軟公司的 Bing Translator,兩者都是採用統計式機器翻譯,從海量的既有平 行語料當中,比對新舊原文的相似度,平行語料庫中如果找到近似的原文,則擷取其 對應的譯文,運作原理與翻譯記憶系統相同。
台灣筆譯職場使用的商用翻譯記憶系統,以 Trados SDLX Studio 最為人熟悉,
其他如 IBM TMWin, Logoport, Transit, Catalyst 等,基本的功能大同小異,都能夠根據 既有的翻譯記憶庫內容,比對套用於待譯文件。至於各軟體計算相似度所採用的演算
法技術,則是重要的營業祕密,外界不得而知,但基本原理和技術不出第 2.2 節所介 紹的方法,包括基於字詞共現/空間向量的文件模型、基於語料庫統計、混合式方法,
以及基於描述特徵等。
本研究中使用的機器翻譯工具為 Google 譯者工具包免費線上自動翻譯服務,平 行語料的自動比對則是利用 SDLX 2007 翻譯記憶系統。下圖 3-4 說明以英文做為相 似度比對語言的具體操作步驟:
圖 3-4:合約雙語對譯 N 連詞提取步驟
步驟 1:在 3.2 節以語料庫檢索工具所建立的中文合約 N 連詞,稱之為 TW(n),
英文合約 N 連詞稱為 EN(n),其中 (n)表示原文 N 連詞;兩個 N 連詞分別儲存為 純文字檔案。
步驟 2:要以英文 N 連詞 EN(n)做為待譯的新文件,找出其對應的中文,可以 視為「英譯中」。此時是以英文做為比對語言,因此須將 TW(n)透過 Google 機器翻 譯產生其英文平行語料,下載儲存為純文字檔案 EN(g),其中 (g) 表示 Google 機 器翻譯的譯文。Google 公司提供的 Google Translate 線上自動翻譯服務,可以直接輸 入或貼上文字、網址,現在也支援將檔案上傳,翻譯整個文件。2009 年推出的 Google
譯者工具包,除可上傳 1 MB 以內的多種檔案格式之外,最重要的新功能是雲端版本 的「翻譯記憶系統」,翻譯結果可由使用者在線上編輯修改,並儲存下載,同時支援 翻譯記憶庫 TM 及多語詞彙表做為翻譯參考資源,並可設定為群組共用或做為公用資 源 (參見圖 3-5、圖 3-6)。
圖 3-5:Google 譯者工具包登入介面
圖 3-6:翻譯結果編輯修改介面
步驟 3:將機器翻譯的 EN(g)、TW(n) 檔案內容貼入到 Excel 工作表左右兩欄,
另存為 tab 分隔的純文字檔案,用以匯入翻譯記憶系統,建立「機器英譯+中文原文」
的 TM 檔案 EN(g)_TW(n)。
步驟 4:在 SDLX 翻譯記憶系統中,以 EN(n)做為待譯的新文件,經過軟體工 具轉換為必要的檔案格式 (.itd 檔案)。其次,開啟 TM 套用功能,以 EN(g)_TW(n) 做 為參照 TM 套用到 EN(n).itd。軟體工具會自動將待譯的新單元與參照 TM 相比對,
從中搜尋相符或高度相似的內容並擷取 TM 中的對應譯文。翻譯記憶系統的 TM 套用 功能,都可以自訂相似度下限 (match value,參見圖 3-7),達到設定值以上才會顯示 比對結果。最後將比對相符的結果匯出,即成為「英文—中文」互為翻譯的 N 連詞 對譯表。
圖 3-7:SDLX 2007 TM 套用功能及設定
至於從中文 N 連詞尋找其對譯的英文,可以視為「中譯英」。此時可將中文做 為比對語言,亦即以中文 N 連詞做為待譯的新文件,與英文 N 連詞的機器中譯相比 對:
另外也可以反向操作,將中文 N 連詞以機器翻譯後,與英文 N 連詞相比對:
初步測試的結果,發現第二個方式能夠比對出較多相符的對譯 N 連詞,因此在「中 譯英」部分我們同樣以英文做為相似度比對的中介語言,也就是將中文 N 連詞的機 器英譯 EN(g)視為待譯的新文件,將英文 N 連詞做為參照 TM,最後再將套用 TM 的結果與中文 N 連詞合併,即可得到「中文—英文」N 連詞雙語對譯表。具體的操 作步驟如下:
1. 中文合約 N 連詞以 Google 譯者工具包翻譯,下載另存為 EN(g).txt,並經過 SDL 2007 轉檔成為 EN(g).itd。
2. 開啟 SDLX 的 TM 維護功能,以英文合約 N 連詞新建一支參照 TM 檔案 EN(n)_
EN(n) (實際上沒有譯文,左右兩欄皆為英文原文)。
3. 在 SDL 的 TM 套用功能中,將 EN(n)_ EN(n)套用於 EN(g).itd,最後將套 用結果複製貼入到 TW(n)工作表,即成為「中文—英文」N 連詞對譯表。
N 連詞英譯中、中譯英皆完成後,將配對的對譯詞組匯出至 Excel 工作表,再由專家 手動評估 N 連詞對譯詞組的品質。