第一章 緒論
1.1 研究動機
近十年來由於網路的發達,取得大量語料庫變得越來越容易,使得統計式機 器 翻 譯(statistical machine translation)逐漸成為機器翻譯的主流。Koehn 等人 (2003,2004)提出了基於片語的統計式機器翻譯模型(Phrase-Based Model, 以下簡稱 PBM),而許多研究皆顯示,PBM 的效果較基於詞(Word-Based Model)的統計式機 器翻譯模型為佳(Koehn 等人, 2003; Marcu and Wong, 2002),使得 PBM 成為統計式 機器翻譯的主流之一。
要訓練出一個PBM,首先須具備平行語料庫對照(parallel corpus alignment),
再以此訓練出片語表 (phrase table)。然而,使用一般領域平行語料庫對照訓練出 的PBM 來翻譯特殊領域的語句會發生許多問題,如未知詞問題、歧義性問題、排 序錯誤等。以下以一般領域的英翻中PBM 翻譯病歷的英文句子說明:
英文 After admission , lactulose was applied for hepatic encephalopathy . 翻譯 入學 後 , lactulose 人 申請 hepatic 病 。
在上面的例子,“入學” 和 “申請” 屬於歧義性錯誤(正確翻譯分別為 “入院” 和
“用於”),而未被翻譯的字 “lactulose” 和 “hepatic” 則為未知詞錯誤 ,其他的類 似例子如表1。從表 1 可發現,未知詞問題會造成原文無法翻譯,歧義性問題會造 成明顯的翻譯錯誤,而排序錯誤會產生錯誤的文法及語意。
2
表 1. 一般領域 PBM 翻譯發生的錯誤
英文 The BMA report on 2002/12/21 revealed remission . 翻譯 在 BMA 報告 2002/12/21 顯示 減免 。
英文 Under stable condition , he was discharged on 2002/10/30 . 翻譯 在 穩定 的 條件 , 他 被 釋放 在 2002/10/30 。 英文 We rechecked the CBC/DC and blood culture was done . 翻譯 我們 在 rechecked CBC/DC 和 血液 文化 所 做 的 。
以PBM 來翻譯特殊領域的語句,最好的方法是使用特殊領域的平行語料庫當 作訓練資料,但並非每個領域都有足夠的平行語料庫,資料稀少常造成跨領域翻 譯的障礙。對某些特定領域,例如醫院的病歷資料,甚至只能取得病歷單語語料 庫(英語)及醫學名詞詞典,使得機器翻譯任務更加困難。
在此論文中,為了解決跨領域翻譯資料不足的問題,我們提出了許多機器翻 譯模型,並使用不同的方法來利用領域相關單語語料庫,以增進跨領域機器翻譯 的效能。
1.2 研究方法
近年來跨領域機器翻譯的問題逐漸被注意到,也帶起了許多相關研究。許多 研究嘗試在網路搜集領域相關的語料庫,或是以資訊檢索(information retrieval)的 方法找出翻譯模型(translation model)或語言模型(language model)中領域相關的部 分,將其應用於統計式翻譯系統(相關研究將於第二章做更詳細的說明) 。但在某 些極端情況下,例如台灣的醫院病歷一律使用英文書寫,因而極度缺乏中文的病
3
歷語料。此外由於病歷的隱私性,網路上亦難以取得此類資料,使得機器翻譯在 翻譯醫院病歷上具有相當的挑戰性。由於中文資料嚴重缺乏,一般領域的統計式 機器翻譯並不適用,勢必得加入其他方法來提升翻譯效果。在此情況下,Chen 等 人(2012)對病歷的機器翻譯做了相關研究,並提出了一系列的架構來實現病歷的機 器翻譯,如圖1。
圖 1. Chen 等人(2012)提出的病歷機器翻譯架構
此架構包括抽取常用病歷句型(pattern)以及簡化翻譯還原的方法(於 2.3 節中詳述),
此架構可以大幅提升病歷翻譯的BLEU (Bilingual Evaluation Understudy)(Papineni 等人,2002) 分數。
簡化翻譯還原架構的精神在於,由於特殊領域的句子往往含有特殊領域的詞 彙及寫作風格,為了使一般領域的統計式機器翻譯系統能夠容易翻譯這領域句子,
4
因此需在翻譯前先以固定規則將句子簡化,簡化過的句子再交由一般領域的統計 式機器翻譯系統翻譯,之後再將簡化的部分還原。然而,簡化翻譯還原只能簡化 特定的句型,而無法應用到所有特殊領域句子。若是能改善統計式機器翻譯系統 本身,使其更適用於特殊領域,則翻譯效果或能有所提升。有鑑於此,本論文以 醫院病歷為例,嘗試使用譯後編輯(post-editing)的資料,以及領域相關的單語語料 庫來改善統計式翻譯系統。我們從譯後編輯資料中取出易翻錯的部分,並製作成 翻譯規則,以避免系統再翻錯,並嘗試使用譯後編輯的中文作為統計式翻譯系統 語言模型(language model)的訓練資料。對於領域相關的單語語料庫,我們則使用 非監督及半監督式學習來產生中文翻譯,以製作出虛擬領域相關平行語料庫 (pseudo in-domain parallel corpus),並以虛擬領域相關平行語料庫作為統計式翻譯 系統的訓練資料,進而產生領域相關的統計式翻譯系統 。 除此之外,我們也以 此方式重複訓練統計式翻譯系統,以期能得到更好的效能。實驗結果顯示,將此 改進過的統計式翻譯系統結合簡化翻譯還原架構,能得到更好的BLEU 分數。
1.3 實驗資料介紹
本論文使用的實驗語料庫是由台大醫院提供的病歷語料庫,總共 60448 個病 歷,包含 620 萬句的英文。一個病歷可分為三部分:主訴、簡史、治療過程。一個 病歷的範例如表2。
5
表 2. 一個病例範例(Chen 等人, 2012)
6
1.4 論文架構
本論文第一章敘述了論文研究動機,並簡述研究方法和實驗資料。第二章描 述統計式翻譯的相關研究,例如跨領域機器翻譯、非監督式學習的應用以及簡化 翻譯還原的研究。第三章敘述如何以領域相關單語語料庫改善簡化翻譯還原架構,
並提出數種方法,包括改進統計式翻譯系統和改進翻譯規則,以及他們的併用。
第四章則是各種模型的實驗結果及討論。第五章為結論及未來研究方向,將說明 未來可以再做的研究及改進。
7