第三章 運用領域相關單語語料庫改進簡化翻譯還原架構
3.3 運用領域相關單語語料庫於簡化翻譯還原架構
在 3.1 節中我們提到運用譯後編輯的紀錄來產生新的翻譯規則,而在 3.2 節中 則說明了如何運用非監督及半監督式學習來產生虛擬平行雙語訓練資料。在這小 節中我們將說明如何把新的翻譯規則和虛擬平行雙語訓練資料以不同方式結合,
並產生不同的模型來改進簡化翻譯還原架構。
圖10 描述了我們的模型流程。我們提出了多種不同的模型,而各模型的主要 差別就在於圖中的翻譯規則和統計式翻譯系統。我們使用不同的翻譯規則和統計 式翻譯系統來組成不同的模型。接下來我們將以圖說明翻譯規則以及統計式翻譯 系統的產生方式,並於第四章詳述各個模型的內容。
31
圖 10. 翻譯流程
產生各模型的統計式翻譯系統和翻譯規則流程如圖 11。圖中首先將醫院的英 文病歷交給簡化翻譯還原架構來翻譯,也就是先以基本的醫學詞典和雙語翻譯規 則作簡化,再將簡化後的句子以統計式翻譯系統翻譯,接著把被簡化的部分還原,
還原後的結果就是初步翻譯。接著初步翻譯的用途主要分為兩個路徑: (1)挑選一部 份(1004 句)初步翻譯做譯後編輯(Chen 等人, 2012),並從譯後編輯的結果抽取新的 翻譯規則加入雙語翻譯規則中,另外譯後編輯也可作為新的語言模型的訓練資料,
以產生新的統計式翻譯系統。(2)大量的初步翻譯可直接做為翻譯模型和語言模型 的訓練資料,以產生新的統計式翻譯系統,亦可先經過挑選,並只將較佳的翻譯 做為新統計式翻譯系統的訓練資料。另外在實驗中,我們亦嘗試從網路收集醫學
以翻譯規則和字典來簡化病歷句子
以統計式翻譯系統翻譯
中文翻譯結果 將被簡化的部分還原
英文病歷句子
32
領域的中文語料,並將其做為新統計式翻譯系統的訓練資料(將於第四章詳述來 源)。
圖 11. 產生各模型的統計式翻譯系統和翻譯規則流程
33
香港中英平行語料庫(Hong Kong parallel text) (LDC2004T08),
UN中英平行語料庫(LDC2004E12)。
此兩個語料庫用來訓練基本統計式翻譯系統的翻譯模型,其內容包含法律、新聞 領域,共有6.8M句。基本統計式翻譯系統的語言模型則是以上述語料庫的中文部 分及中央社語料庫(Central News Agency part of the Tagged Chinese Gigaword) (LDC2007T03) 來訓練三元(trigram)語言模型。語言模型所用的語料庫共有18.8M 句。
除了用上述一般領域的語料庫來訓練統計式翻譯系統,我們還使用了一些醫 學領域的資料以建立簡化翻譯還原架構,敘述如下: 我們從台大醫院病歷中取出 60,448份英文病歷資料(共1.8M句),以取出n元翻譯規則(n-gram patterns),並以一 體化醫學語言系統(Metathesaurus of the Unified Medical Language System (UMLS)) 來提供醫學類別查詢。在簡化翻譯還原架構中,最後共得到了981條翻譯規則,這 些規則就是簡化翻譯還原架構的基本翻譯規則。
在以非監督/半監督式學習產生虛擬雙語語料庫的步驟中,我們從台大醫院病 歷中挑選了(隨機選取)2.1M及1.1M句英文病歷,並以M11模型(將於4.2節中敘述)