第三章 運用領域相關單語語料庫改進簡化翻譯還原架構
3.1 使用譯後編輯記錄產生翻譯規則
3.1.1 產生譯後編輯記錄
如同在第一章所提到的,由於台灣醫院病歷皆是以英文書寫,加上病歷的隱
私性,使得中文病歷資料嚴重不足且難以取得。缺乏中文語料不只會造成統計式 翻譯無法運作,甚至連規則式的機器翻譯都無法實作,因此產生初步的中文病歷 語料是首要任務。由於我們已從台大醫院取得相當數量的英文病歷語料,因此可 以人工翻譯來產生平行病歷語料。然而,若要以人工做大量翻譯,其花費的時間 和金錢都必相對增加,為了減少金錢的花費及減少人工翻譯的時間,在Chen 等人 (2012)的研究中,他們從病歷語料中挑選少量的句子,先經過機器翻譯後再以人工 翻譯,以產生譯後編輯翻譯。在他們的研究中,經譯後編輯的翻譯只被拿來做為19
正確翻譯以測試翻譯效果,而在此論文中,我們則更進一步利用此譯後編輯的詳 細資訊來取得新的翻譯規則。接下來我們將介紹如何做譯後編輯,以及取得新翻 譯規則。
產生譯後編輯的過程如圖5:
圖 5. 產生譯後編輯的過程
首先從病歷語料庫中選取1004 句病歷句子,再使用 2.3 節所提到的簡化翻譯還原 架構翻譯這1004 句,而產生初步翻譯。由於初步翻譯是機器翻譯產生的翻譯,結 果未必正確,因此需再以人工修正成正確翻譯,也就是以人工對初步翻譯做譯後 編輯。一些初步翻譯及其譯後編輯的例子如表7。
在做譯後編輯時,使用的是特殊的譯後編輯網頁介面。編輯時,系統提供編 輯者四種操作:
(1) 修改:修改初步翻譯的詞(word)修正為正確的翻譯。
(2) 移動:將初步翻譯的詞在句子中移動到不同的位置,以修正翻譯順序錯 以簡化翻譯還原架構
翻譯
得到初步翻譯
以人工對初步翻譯 作譯後編輯
20
英文 X-ray on 2009/06/26 showed no bony lesions .
初步翻譯 骨 2009/06/26 的 X 射線 顯示 沒有 病變 。
譯後編輯 2009/06/26 的 X 光 顯示 沒有 骨頭的 病變 。
英文 Bone scan was arranged on 07/23 , and it showed uptake over left distal tibia .
初步翻譯 安排 了 骨掃描 在 07/23 , 它 表明 在 離開 吸收 distal 脛骨。
譯後編輯 在 07/23 安排 了 骨掃描 , 顯示 左側 遠端 脛骨 有 攝入 。
英文 After discharge , one episode of fever was noticed and then fever was subsided gradually under oral antibiotic treatment .
初步翻譯 出院 後 , 然後 發熱 一 次 發熱 被 發現 是 逐漸 緩和 下 口服 抗生素 治療 。
譯後編輯 出院 後 , 一 次 發熱 被 發現 然後 發熱 逐漸 緩和 因 口服 抗 生素 治療 。
英文 Bilateral leg weakness as well as polyuria were noticed during 2008/10 , and he received whole brain radiotherapy during 2008/11/14 ~ 28 .
初步翻譯 腿 以及 雙邊 弱點 尿 被 發現 在 2008/10 , 他 收到 的 整 個 腦 放療 在 2008/11/14 ~ 28 。
譯後編輯 雙 腿 無力 以及 多尿症 被 發現 於 2008/10 , 他 在 2008/11/14
~ 28 接受 全 腦 放射線治療 。
21
編輯者開始編輯後,系統會記錄下列資訊:
(1) 初步翻譯中每個詞對應到英文句子中哪個片語,若無對應片語則對應到 NULL。
(2) 譯後編輯句子中每個詞對應到英文句子中哪個片語(word alignment),若無對應 片語則對應到NULL。
其中(1)的對應資訊是由 Moses(Koehn 等人, 2007)所提供,(2)則是編輯者在修改翻 譯時所標註。該網頁系統(Chen 等人, 2012)的介面如圖 6。有了(1)和(2)的資訊,便 可用於3.1.2 節產生翻譯規則。(2)的例子如表 8。
圖 6. 病歷翻譯譯後編輯系統
22
表 8. 譯後編輯系統的編輯紀錄
23