• 沒有找到結果。

第二章 相關研究與文獻

2.3 簡化翻譯還原架構

對於特定領域,例如醫院病歷,由於雙語語料不足,以一般用途的統計式機 器翻譯應用於該領域會造成翻譯品質下降。因此,Chen 等人(2012)以醫院病歷為 例,提出了在特定領域雙語語料不足的情況下,一個可用於跨領域的簡化翻譯還 原架構。此架構流程如圖3。

其運作方式如下:

(1)給定一個英文句子,首先利用雙語詞典及雙語翻譯規則(Bilingual Patterns)辨識 句子中的領域相關部分(in-domain pattern)。

(2) 將 此 領 域 相 關 部 分 作 簡 化 (Simplification): 以 領 域 相 關 雙 語 詞 典 (Bilingual In-Domain Dictionary)及雙語翻譯規則來做簡化,替換掉艱澀的領域相關部分。

(3)以領域外的 PBM 統計式翻譯系統翻譯經過(2)簡化的句子。

(4)以領域相關雙語詞典及雙語翻譯規則翻譯艱澀的領域相關部分。

(5)將(4)中翻譯完的領域相關部分和簡化的部分作交換(Restoration),而產生最終的 翻譯結果。

由於本論文會使用到簡化翻譯還原架構做為基本的模型,因此接下來會先概 略介紹此架構。簡化翻譯還原的實作需要兩個部分: 取得雙語翻譯規則和簡化翻譯 還原方法。在2.3.1 節中我們將介紹如何取得重要的雙語翻譯規則,2.3.2 節則介紹 了簡化翻譯還原的方法。

11

圖 3. Chen 等人(2012)提出的簡化翻譯還原架構

12

2.3.1 雙語翻譯規則的取得

在醫院病歷中,許多特定句型常會重複使用,例如(Chen等人, 2011)

“Port-A implantation was performed on 2009/10/9”

含有一個常用的醫學句型,此句型為

SURGERY was performed on DATE

其他例子如表3。

表3. 病歷中常用的句型例子

paracentesis was performed on 2010-01-08 repositioning was performed on 2008/04/03 incision and drainage was performed on 2010-01-15

tracheostomy was performed on 2010/1/11

它表示某個手術在某個時間執行,SURGERY代表手術名稱,DATE代表時間。一般領 域的統計式機器翻譯系統無法辨認出此類常用句型,並且常在翻譯此類句型時出 錯。其中一個原因是,此類特殊領域句型及片語很少出現在ㄧ般領域的語料庫,

另一個原因是由於該特殊領域目標語言語料庫(target language corpus)難以取得,資 料稀少使得一般領域統計式翻譯系統難以翻譯此類句子。若是能辨識此類重要句 型,並以人工的方式翻譯而得到句型翻譯,如表4,便可將其應用在特殊領域的機 器翻譯。

雙語翻譯規則的取得可分為兩階段任務:(1)取得常用句型,和(2)人工翻譯句 型。取得常用句型後,再請領域專家翻譯這些句型,便能得到雙語翻譯規則,接 下來將概述如何取得常用句型。

13

表4. 病歷句型及其中文翻譯例子(Chen等人, 2011)

Chen等人(2011)提出了五階段的方式以找出常用句型,敘述如下:

(a) 醫學名詞辨識(Medical Entity Classification)

以醫學辭典辨識出醫學名詞,包括手術、疾病、藥物等,將他們轉為對應的 醫學類別,並形成新的語料庫。

(b) 抽取常用句型(Frequent Pattern Extraction)

以N-gram從新語料庫中找出常用句型。

(c) 找出符合文法的句型(Linguistic Pattern Extraction)

對每個句型,隨機選取含有此句型的若干句子,若這個句型在這些句子中至 少形成一個子樹,則保留此句型。

(d) 找出覆蓋句型(Pattern Coverage Finding)

若某個較短的句型被某個較長的句型覆蓋,則移除較短的句型。

(e) 句型分群(Pattern Clustering)

將剩下的句型分群,並從每群中找出有代表性的句型。

類型翻譯規則的一些例子如表5:

14

表5. 類型翻譯規則例子

英文 中文翻譯

there was no significant $診斷 並 無 明顯 $診斷

was implanted on $時間 smoothly 在 $時間 順利 植入

was admitted for $檢驗 follow-up 為了 $檢驗 追蹤 而 住院

distal $部位 and $部位 $醫學詞 遠端 $部位1 及 $部位2 $醫學詞

received $診斷 $手術 on $時間 接受 了 $診斷 $手術 於 $時間

$藥物 was given for $醫學詞 使用 $藥物 用於 治療 $醫學詞

$診斷 with $醫學詞 was impressed 被 診斷為 $診斷 合併 $醫學詞

with $部位 and $部位 $診斷 併有 $部位1 與 $部位2 之 $診斷

$醫學詞 and $診斷 was suspected 懷疑 有 $醫學詞 及 $診斷

treatment with $藥物 and $藥物 $藥物1 和 $藥物2 的 治療

had the history of $診斷 有 $診斷 的 過去 病史

詞彙翻譯規則的一些例子如表6:

15

表6. 詞彙翻譯規則例子

英文 中文翻譯

sudden onset of consciousness change 突然 發作 的 意識 變化

then received regular follow up 然後 接受 定期 追蹤

got admitted for further management 住院 接受 進一步 處置

no definite abnormal tracer uptake 沒有 明確 的 異常 示 踪 劑 攝取

revealed high grade urothelial carcinoma 顯示 高 惡性度 尿道 上皮癌

had fair activity and appetite 活動 和 食慾 尚可

no specific discomfort was noted 沒有 注意到 特異 的 不適

with initial loss of consciousness 最初 有 意識 喪失

no evidence of local recurrence 沒有 證據 顯示 局部 復發

was discharged with oral medication 攜帶 口服 藥物 出院

did not improve after medication 用藥 後 沒有 改善

2.3.2 簡化翻譯還原架構

Chen等人(2012)提出的簡化翻譯還原架構是以下列四步驟組成:

1. 從輸入的句子S辨識領域相關的片段 , , … , 。 2. 簡化S中的 , , … , ,得到一個新的來源句子S’。

3. 將來源句子S’以統計式翻譯系統翻譯成目標句子T’。

16

4. 還原S’-T’中的雙語片段 − , − , … − ,得到最後的翻譯。

一個簡化翻譯還原的例子如圖4:

圖4. 簡化翻譯還原的例子 (Chen等人, 2012)

關於如何簡化領域相關的片段,則是使用以下規則:

(a) 名詞片語(Noun Phrase)

保留NP片段中的表頭部分,去除其修飾語。若表頭名詞是特殊領域的名詞,

則更進一步使用特定的簡化規則做簡化。

(b) 動詞片語 (Verb Phrase)

VP  V + NP: 保留動詞部分不變,並以簡化規則(a)來簡化NP,例如我們會 將"had underlying diseases of ventricular tachycardia and dyslipidemia" 簡化成 "had diseases"。

17

VP  V + PP: 保留動詞部分不變,且若PP是修飾語,則移除PP。例如我們 會將"he was discharged on the morning of 6/30" 簡化成 "he was discharged"。

(c) 介系詞片語(Prepositional Phrase)

PP  P + NP: 保留P並以(a)簡化NP,例如我們會將"with underlying diseases of ventricular tachycardia and dyslipidemia" 簡化成"with diseases"。

(d) 子句 (Clause)

以上述的規則遞迴地簡化一個子句的子樹。

18

第三章 運用單語相關語料庫改進 簡化翻譯還原架構

在這一章節我們將會說明我們所提出的方法,包括詳述如何利用單語相關語 料庫改善簡化翻譯還原架構。在3.1 節將介紹如何產生譯後編輯,以及如何利用譯 後編輯的紀錄來產生新的翻譯規則。在3.2 節將介紹如何以非監督式及半監督式學 習的方式產生虛擬領域相關雙語語料庫(pseudo in-domain bilingual corpus)。3.3 節 則介紹如何運用譯後編輯資料和虛擬領域相關雙語語料庫於簡化翻譯還原架構,

並提出我們的模型。

3.1 使用譯後編輯記錄產生翻譯規則

3.1.1 產生譯後編輯記錄

如同在第一章所提到的,由於台灣醫院病歷皆是以英文書寫,加上病歷的隱

私性,使得中文病歷資料嚴重不足且難以取得。缺乏中文語料不只會造成統計式 翻譯無法運作,甚至連規則式的機器翻譯都無法實作,因此產生初步的中文病歷 語料是首要任務。由於我們已從台大醫院取得相當數量的英文病歷語料,因此可 以人工翻譯來產生平行病歷語料。然而,若要以人工做大量翻譯,其花費的時間 和金錢都必相對增加,為了減少金錢的花費及減少人工翻譯的時間,在Chen 等人 (2012)的研究中,他們從病歷語料中挑選少量的句子,先經過機器翻譯後再以人工 翻譯,以產生譯後編輯翻譯。在他們的研究中,經譯後編輯的翻譯只被拿來做為

19

正確翻譯以測試翻譯效果,而在此論文中,我們則更進一步利用此譯後編輯的詳 細資訊來取得新的翻譯規則。接下來我們將介紹如何做譯後編輯,以及取得新翻 譯規則。

產生譯後編輯的過程如圖5:

圖 5. 產生譯後編輯的過程

首先從病歷語料庫中選取1004 句病歷句子,再使用 2.3 節所提到的簡化翻譯還原 架構翻譯這1004 句,而產生初步翻譯。由於初步翻譯是機器翻譯產生的翻譯,結 果未必正確,因此需再以人工修正成正確翻譯,也就是以人工對初步翻譯做譯後 編輯。一些初步翻譯及其譯後編輯的例子如表7。

在做譯後編輯時,使用的是特殊的譯後編輯網頁介面。編輯時,系統提供編 輯者四種操作:

(1) 修改:修改初步翻譯的詞(word)修正為正確的翻譯。

(2) 移動:將初步翻譯的詞在句子中移動到不同的位置,以修正翻譯順序錯 以簡化翻譯還原架構

翻譯

得到初步翻譯

以人工對初步翻譯 作譯後編輯

20

英文 X-ray on 2009/06/26 showed no bony lesions .

初步翻譯 骨 2009/06/26 的 X 射線 顯示 沒有 病變 。

譯後編輯 2009/06/26 的 X 光 顯示 沒有 骨頭的 病變 。

英文 Bone scan was arranged on 07/23 , and it showed uptake over left distal tibia .

初步翻譯 安排 了 骨掃描 在 07/23 , 它 表明 在 離開 吸收 distal 脛骨。

譯後編輯 在 07/23 安排 了 骨掃描 , 顯示 左側 遠端 脛骨 有 攝入 。

英文 After discharge , one episode of fever was noticed and then fever was subsided gradually under oral antibiotic treatment .

初步翻譯 出院 後 , 然後 發熱 一 次 發熱 被 發現 是 逐漸 緩和 下 口服 抗生素 治療 。

譯後編輯 出院 後 , 一 次 發熱 被 發現 然後 發熱 逐漸 緩和 因 口服 抗 生素 治療 。

英文 Bilateral leg weakness as well as polyuria were noticed during 2008/10 , and he received whole brain radiotherapy during 2008/11/14 ~ 28 .

初步翻譯 腿 以及 雙邊 弱點 尿 被 發現 在 2008/10 , 他 收到 的 整 個 腦 放療 在 2008/11/14 ~ 28 。

譯後編輯 雙 腿 無力 以及 多尿症 被 發現 於 2008/10 , 他 在 2008/11/14

~ 28 接受 全 腦 放射線治療 。

21

編輯者開始編輯後,系統會記錄下列資訊:

(1) 初步翻譯中每個詞對應到英文句子中哪個片語,若無對應片語則對應到 NULL。

(2) 譯後編輯句子中每個詞對應到英文句子中哪個片語(word alignment),若無對應 片語則對應到NULL。

其中(1)的對應資訊是由 Moses(Koehn 等人, 2007)所提供,(2)則是編輯者在修改翻 譯時所標註。該網頁系統(Chen 等人, 2012)的介面如圖 6。有了(1)和(2)的資訊,便 可用於3.1.2 節產生翻譯規則。(2)的例子如表 8。

圖 6. 病歷翻譯譯後編輯系統

22

表 8. 譯後編輯系統的編輯紀錄

23

3.1.2 運用譯後編輯記錄產生翻譯規則

此節將說明如何使用 3.1.1 節所取得的片語對應資訊,來得到新的翻譯規則。

從譯後編輯記錄(表)中我們可以得知每個英文片語的譯後編輯中文翻譯,因此可以 找出容易被翻錯的部分,並將之修正。在此我們抽取出兩種新的翻譯規則,類型 翻譯規則(class pattern)和詞彙翻譯規則(lexical pattern):

1.類型翻譯規則:

在2.3.1 節中,我們提到 Chen 等人(2012)用頻率及文法合理性來取出重要的病 歷英文句型,再交由專家翻譯而得到重要雙語翻譯規則。然而由於專家的人數有 限,代價很高,無法翻譯所有的句型,在步驟(5)只翻譯每群中出現頻率最高的句 型。因此仍有許多句型尚未被翻譯,而這些句型都是經過文法合理性驗證的。

我們將用來做譯後編輯的1004 句英文句子集合稱作 A,經過步驟(4)處理後的 句型集合稱為 B,經過步驟(5)處理後的句型集合稱為 C。抽取新類型翻譯規則的 方法如下:

對B 中的每一個句型,若符合下述條件(1)、(2),則抽取此句型和其譯後編輯 的翻譯做為可能的類型翻譯規則。

(1) 此句型有出現在 A 中。

(2) 此句型沒有出現在 C 中。

經過上述過程後,由於未必每個翻譯規則都適合作為類型翻譯規則,因此我們接 著以人工檢視抽取出的翻譯規則,只挑選出較適合的規則。

一些取出的類型翻譯規則如表9。

24 英文 empirical $藥物 was prescribed 中文 經驗 $藥物 被 開立

25

則取此英文片語和該中文翻譯做為詞彙翻譯規則,一些修正及取得的詞彙翻譯規

則取此英文片語和該中文翻譯做為詞彙翻譯規則,一些修正及取得的詞彙翻譯規

相關文件