• 沒有找到結果。

第三章 運用領域相關單語語料庫改進簡化翻譯還原架構

3.2 非監督與半監督式學習之應用

在 Chen 等人(2012)的研究中,雖然簡化翻譯還原架構可以大幅提升翻譯效果,

但簡化翻譯還原需依靠既定的翻譯規則(pattern)和簡化規則,若英文句子中有翻譯 規則沒有涵蓋到的部分,則無法使用此架構。若要得到更好的翻譯,一種最根本 的方法仍是提升統計式翻譯的翻譯品質,但由於領域相關的雙語語料不足,使得 這個方法有其難度。為了解決領域相關雙語語料不足的問題,在這一小節我們提 出以非監督與半監督式學習的方式,產生虛擬的領域相關雙語語料庫,並以這個 語料庫當作訓練資料,以產生領域相關的統計式翻譯系統,並以此新的統計式翻 譯系統取代原本簡化翻譯還原架構中的統計式翻譯。

26

3.2.1 以非監督式學習訓練模型

接下來我們首先介紹如何產生虛擬平行雙語語料庫。產生虛擬平行雙語語料 庫的初步想法如圖7:

圖 7. 產生虛擬平行雙語語料庫的基本想法

首先我們以簡化翻譯還原系統翻譯1.3 節介紹的醫院英文病歷語料庫,接著 再將翻譯產生的中文句子和英文病歷語料庫做成平行語料庫,此平行語料庫便是

醫院英文病歷語料庫

以基本的翻譯規則和字典來簡化病 歷句子

以統計式翻譯系統翻譯

醫院英文病歷語料庫+初步中文翻譯

= 虛擬平行雙語語料庫 將被簡化的部分還原

初步中文翻譯

27

虛擬平行雙語語料庫。但是由實驗中(將於第四章詳述)發現,簡化翻譯還原系統加 入3.1 節介紹的新翻譯規則後可有效提升 BLEU 分數,因此我們決定在產生虛擬雙 語語料庫時加入3.1 節的新翻譯規則,以提高虛擬平行雙語語料庫的中文翻譯正確 性,這就是我們之後用非監督式學習來產生虛擬平行雙語語料庫的方式。

流程如圖8:

圖 8. 加入新翻譯規則以產生虛擬平行雙語語料庫的流程 以基本的翻譯規則+新翻譯規則和

字典來簡化病歷句子

以統計式翻譯系統翻譯 醫院英文病歷語料庫

醫院英文病歷語料庫+初步中文翻譯

= 虛擬平行雙語語料庫 將被簡化的部分還原

初步中文翻譯

28

3.2.2 以半監督式學習訓練模型

在圖 8 的流程中,我們將全部的中文翻譯都視為正確的翻譯,並製作成平行 雙語語料庫,此種將全部翻譯皆視為正確,不經挑選的方式可看做一種非監督式 的學習。除了以非監督式學習的方式產生虛擬平行雙語語料庫,我們也提出了半 監督式學習的方式,如圖9:

圖 9. 以半監督式學習產生虛擬平行雙語語料庫的流程 醫院英文病歷語料庫

以基本的翻譯規則+新翻譯規則和 字典來簡化病歷句子

以統計式翻譯系統翻譯

挑選過的中文翻譯+對應的醫院英文病歷句子

= 虛擬平行雙語語料庫 挑選較佳的初步中文翻譯

將被簡化的部分還原

初步中文翻譯

29

在經過簡化翻譯還原架構翻譯後,我們不接受全部的初步中文翻譯,只選出經過 挑選的初步中文翻譯和其對應的英文句子做為虛擬平行雙語語料庫。我們挑選的 標準是:只挑選整句皆為中文的句子。其原因是,由於簡化翻譯還原架構產生的翻 譯中仍有一些問題,包括未知詞問題、拼錯字而未翻譯的英文、未斷詞的英文,

其統計資料如表11,例如平均 100 句中有 38 句有未知詞問題。

表 11. 簡化翻譯還原架構翻譯中的錯誤統計

錯誤類型 發生百分比

未知詞 38%

拼錯字 8%

未斷詞 4%

一些含有英文的中文翻譯如表12:

表 12. 含有英文的句子的例子

這 是 introverted 12y3m/o 女 病人 的 性質 。

在 印象 經常 膀胱腫瘤 、 pt2n0m0 或 ct3an0m0 , 她 收到 的 人 工 血管 implatation 94-11-21 。

thepain 是 dullness 在 字符 和 局部 anterior 左手 胸部 。

出生 : 歷史 g2p2 : 39+wks 、 GA 、 BBW 、 NSD : 3570gm PROM ( - ) ,

小伙子 , pobas 和 LCX RCA 進行 順利 。

我們發現摻有英文的句子通常是較差的翻譯,原因是由於無法辨識的英文詞而造

30

成翻譯規則無法套用,簡化翻譯還原架構也會無法使用。而整句皆為中文的句子 通常是較佳的翻譯,一些全句皆為中文的句子如表 13。因此我們嘗試移除含有英 文的中文翻譯,只選擇全句皆為中文的句子當做虛擬平行語料庫的訓練資料。

表 13. 整句都為中文的例子

然後 她 來到 我們 的 門診 作 進一步 評估 。

左乳房 和 腋窩淋巴結 的 細針穿刺 完成 及 細胞學 的 淋巴結 是 腺癌 。 但 她 沒有 經驗 咳嗽 、 發燒 或 呼吸急促 。

近年 來 , 她 住院 幾 次 主要 是 由於 腹脹 及 呼吸困難 。 由於 溫度 機構 穩定 , 我們 制止 恆溫箱 使用 自 2/17 。

相關文件