緒論 - 運用單語相關語料庫於跨領域機器翻譯調適問題之研究：一種混合式機器翻譯策略

第一章緒論

1.1 研究動機

近十年來由於網路的發達，取得大量語料庫變得越來越容易，使得統計式機器翻譯(statistical machine translation)逐漸成為機器翻譯的主流。Koehn 等人 (2003,2004)提出了基於片語的統計式機器翻譯模型(Phrase-Based Model, 以下簡稱 PBM)，而許多研究皆顯示，PBM 的效果較基於詞(Word-Based Model)的統計式機器翻譯模型為佳(Koehn 等人, 2003; Marcu and Wong, 2002)，使得 PBM 成為統計式機器翻譯的主流之一。

要訓練出一個PBM，首先須具備平行語料庫對照(parallel corpus alignment)，

再以此訓練出片語表 (phrase table)。然而，使用一般領域平行語料庫對照訓練出的PBM 來翻譯特殊領域的語句會發生許多問題，如未知詞問題、歧義性問題、排序錯誤等。以下以一般領域的英翻中PBM 翻譯病歷的英文句子說明:

英文 After admission , lactulose was applied for hepatic encephalopathy . 翻譯入學後， lactulose 人申請 hepatic 病。

在上面的例子，“入學” 和 “申請” 屬於歧義性錯誤(正確翻譯分別為 “入院” 和

“用於”)，而未被翻譯的字 “lactulose” 和 “hepatic” 則為未知詞錯誤，其他的類似例子如表1。從表 1 可發現，未知詞問題會造成原文無法翻譯，歧義性問題會造成明顯的翻譯錯誤，而排序錯誤會產生錯誤的文法及語意。

表 1. 一般領域 PBM 翻譯發生的錯誤

英文 The BMA report on 2002/12/21 revealed remission . 翻譯在 BMA 報告 2002/12/21 顯示減免。

英文 Under stable condition , he was discharged on 2002/10/30 . 翻譯在穩定的條件，他被釋放在 2002/10/30 。英文 We rechecked the CBC/DC and blood culture was done . 翻譯我們在 rechecked CBC/DC 和血液文化所做的。

以PBM 來翻譯特殊領域的語句，最好的方法是使用特殊領域的平行語料庫當作訓練資料，但並非每個領域都有足夠的平行語料庫，資料稀少常造成跨領域翻譯的障礙。對某些特定領域，例如醫院的病歷資料，甚至只能取得病歷單語語料庫(英語)及醫學名詞詞典，使得機器翻譯任務更加困難。

在此論文中，為了解決跨領域翻譯資料不足的問題，我們提出了許多機器翻譯模型，並使用不同的方法來利用領域相關單語語料庫，以增進跨領域機器翻譯的效能。

1.2 研究方法

近年來跨領域機器翻譯的問題逐漸被注意到，也帶起了許多相關研究。許多研究嘗試在網路搜集領域相關的語料庫，或是以資訊檢索(information retrieval)的方法找出翻譯模型(translation model)或語言模型(language model)中領域相關的部分，將其應用於統計式翻譯系統(相關研究將於第二章做更詳細的說明) 。但在某些極端情況下，例如台灣的醫院病歷一律使用英文書寫，因而極度缺乏中文的病

歷語料。此外由於病歷的隱私性，網路上亦難以取得此類資料，使得機器翻譯在翻譯醫院病歷上具有相當的挑戰性。由於中文資料嚴重缺乏，一般領域的統計式機器翻譯並不適用，勢必得加入其他方法來提升翻譯效果。在此情況下，Chen 等人(2012)對病歷的機器翻譯做了相關研究，並提出了一系列的架構來實現病歷的機器翻譯，如圖1。

圖 1. Chen 等人(2012)提出的病歷機器翻譯架構

此架構包括抽取常用病歷句型(pattern)以及簡化翻譯還原的方法(於 2.3 節中詳述)，

此架構可以大幅提升病歷翻譯的BLEU (Bilingual Evaluation Understudy)(Papineni 等人,2002) 分數。

簡化翻譯還原架構的精神在於，由於特殊領域的句子往往含有特殊領域的詞彙及寫作風格，為了使一般領域的統計式機器翻譯系統能夠容易翻譯這領域句子，

因此需在翻譯前先以固定規則將句子簡化，簡化過的句子再交由一般領域的統計式機器翻譯系統翻譯，之後再將簡化的部分還原。然而，簡化翻譯還原只能簡化特定的句型，而無法應用到所有特殊領域句子。若是能改善統計式機器翻譯系統本身，使其更適用於特殊領域，則翻譯效果或能有所提升。有鑑於此，本論文以醫院病歷為例，嘗試使用譯後編輯(post-editing)的資料，以及領域相關的單語語料庫來改善統計式翻譯系統。我們從譯後編輯資料中取出易翻錯的部分，並製作成翻譯規則，以避免系統再翻錯，並嘗試使用譯後編輯的中文作為統計式翻譯系統語言模型(language model)的訓練資料。對於領域相關的單語語料庫，我們則使用非監督及半監督式學習來產生中文翻譯，以製作出虛擬領域相關平行語料庫 (pseudo in-domain parallel corpus)，並以虛擬領域相關平行語料庫作為統計式翻譯系統的訓練資料，進而產生領域相關的統計式翻譯系統。除此之外，我們也以此方式重複訓練統計式翻譯系統，以期能得到更好的效能。實驗結果顯示，將此改進過的統計式翻譯系統結合簡化翻譯還原架構，能得到更好的BLEU 分數。

1.3 實驗資料介紹

本論文使用的實驗語料庫是由台大醫院提供的病歷語料庫，總共 60448 個病歷，包含 620 萬句的英文。一個病歷可分為三部分:主訴、簡史、治療過程。一個病歷的範例如表2。

表 2. 一個病例範例(Chen 等人, 2012)

1.4 論文架構

本論文第一章敘述了論文研究動機，並簡述研究方法和實驗資料。第二章描述統計式翻譯的相關研究，例如跨領域機器翻譯、非監督式學習的應用以及簡化翻譯還原的研究。第三章敘述如何以領域相關單語語料庫改善簡化翻譯還原架構，

並提出數種方法，包括改進統計式翻譯系統和改進翻譯規則，以及他們的併用。

第四章則是各種模型的實驗結果及討論。第五章為結論及未來研究方向，將說明未來可以再做的研究及改進。

在文檔中運用單語相關語料庫於跨領域機器翻譯調適問題之研究：一種混合式機器翻譯策略 (頁 10-16)

緒論

第一章 緒論

1.1 研究動機

1.2 研究方法

1.3 實驗資料介紹

1.4 論文架構

第一章緒論