• 沒有找到結果。

第四章 實驗設計與結果分析

4.3 實驗結果分析

4.3.2 結果分析

c 為翻譯結果的長度,r 為正確答案的長度,完整的 BLEU 公式為:

BLEU = BP∙ exp (∑ )

(5) 為權重。在我們的實驗中,N 設為 4, = 1/ 。

4.3.2 結果分析

表14、15 的模型的實驗結果如表 16。

40

表 16. 各模型的實驗結果

Model BLEU Score Simple Moses 15.24

B 28.04

Simple Moses 代表沒有使用簡化翻譯還原,而只使用 Moses 來翻譯(Moses 的 翻譯模型、語言模型、調適資料都和B 相同),做為比較,顯示若只單純使用一般 領域的統計式翻譯系統可得到的效能。由表16 中可發現,加上簡化翻譯還原架構 (B)後 BLEU 會從 15.24 提升到 28.05,可看出簡化翻譯還原的效果。再觀察其他模 型,也可發現所有模型的BLEU 分數都較 B 高出許多,而表現最好的則是 M16。

41

42

表17。其中的 M13 是從 M3 加入新翻譯規則後的模型,其 BLEU 分數較 M3 有顯 著提升,由於M3 的模型中沒有用到新翻譯規則,因此可證明從譯後翻譯取出的新 規則確實能提升翻譯效果。另外M15 和 M14 的差距仍不顯著(p>0.05)。而 M16 的 BLEU 分數和 M11、M12 的差距以 t-test 測試後結果為顯著(p<0.05),證明以半監 督式學習方式產生的虛擬平行雙語語料庫確實能增強簡化翻譯還原架構。

表 17. 各模型 BLEU 分數差距的 t-test 結果

Model 比較 Significance?(p<0.05)

M2 vs M12 No, p = 0.42162

M3 vs M13 Yes

M4 vs M14 No, p = 0.26473 M5 vs M15 No, p = 0.05803

M6 vs M15 No, p = 0.16620

M7 vs M17 No, p = 0.13263

M16 vs M12 Yes M16 vs M11 Yes

我們以人工對B、M11~M17 的翻譯結果做了分析,我們將出現的錯誤分為順 序錯誤、歧義性錯誤。順序錯誤是指明顯不合中文文法的錯誤,歧義性錯誤是指 詞被翻為不適用的翻譯。未此兩種錯誤的例子如表18。

43

表 18. M11~M17 的翻譯錯誤例子

錯誤種類 例子

順序錯誤 原文 No discomfort after chemotherapy . 翻譯 沒有 不舒服 後 化療 。

歧義性錯誤 原文 After admission , lactulose was applied for hepatic encephalopathy .

翻譯 入院 後 , 乳果糖 是 申請 肝性腦病 。

統計的結果如表19,其中的 n%表示平均每 100 句中有 n 句有此錯誤。

表 19. 各模型的錯誤統計

Model B M11 M12 M13 M14 M15 M16 M17

Ordering

error 23% 15% 15% 17% 16% 15% 14% 15%

Word sense ambiguity

45% 24% 23% 39% 28% 29% 23% 28%

BLEU 28.02 39.72 39.72 32.85 35.11 35.52 40.71 37.81

由表20 可發現,B 以外的其他模型的順序錯誤差距都不大,可推論出 200 句的譯 後編輯調適資料能使詞的排序做得更好。除了B 之外,M13 的歧義性錯誤較其他 的模型多,可得知為語言模型的影響,由於M12 的語言模型雖然只有 804 句,因 此可進一歩推論是因為M13 語言模型的領域不同所造成,而非語言模型訓練資料

44 opy temporarily .

M16 翻譯 與 他 討論 後 , 他 不 想 接受 的 腸鏡檢查 暫時 的 。 M17 翻譯 與 他 討論 後 , 他 不 想 領取 在 腸鏡檢查 暫停 。

在例子1 中,M17 錯誤的將 ”and" 翻譯成 ”和 傳統”,在例子 2 中則錯將 “receive”

翻譯為 “領取”。藉由觀察 M16 和 M17 的片語表,我們發現在 M16 的片語表中“和 傳統” 翻成 “and” 的機率是 0,而 M17 的片語表中的機率則大於 0 ; 在 M16 的片 語表中”接受”翻成”receive”的機率是 0.0677263,在 M17 中則是 0.0450522(“接受”

是病歷中”receive”最常用的翻譯,在 1000 句測試資料中”receive”的正確翻譯全部 都是”接受”),較 M16 為低。更進一步觀察片語表的內容,我們發現在 M16 的片 語表中”receive”和 “and”在 M17 的翻譯選項數量比 M16 要少,如表 21。

45 M13 的 BLEU 分數也有顯著差異(P<0.05),證明從譯後編輯取得的新翻譯規則確實 有用。表23 為歧義性錯誤的例子,表 24 為順序錯誤的例子。

表 22. M3 和 M13 的錯誤統計

Model M3 M13 Ordering

error 18% 17%

Word sense

ambiguity 43% 39%

BLEU 32.03 32.85

46

表 23. 歧義性錯誤的例子 例句

原文 He received blood transfusion and then was discharged M3 翻譯 他 收到 輸血 然後 出院

M13 翻譯 他 接受 輸血 然後 出院

原文 5th course of Taxol 253mg ( 175mg/BSA ) + Cisplatin 108mg M3 翻譯 第五 過程 紫杉醇 253mg ( 175mg/bsa ) + 順鉑 108mg M13 翻譯 第五 療程 紫杉醇 253mg ( 175mg/bsa ) + 順鉑 108mg

表 24. 順序錯誤的例子 例句

原文 And then Biopsy was done .

M3 翻譯 然後 活檢 是 .

M13 翻譯 然後 做了 活檢 .

原文 Stenting was done from distal IVC through left common iliac vein to external iliac vein .

M3 翻譯 支架置入術 是 做 從 distal 下腔靜脈 通過 從 左髂總靜脈 到 髂 外靜脈 .

M13 翻譯 完成 支架置入術 從 distal 下腔靜脈 通過 從 左髂總靜脈 到 髂 外靜脈 .

由於M16 在實驗中有最好的效果,因此我們對 M16 額外做了一些觀察。我們 將M6 和 M16 做了一些比較,以觀察加入譯後編輯的新翻譯規則後,對翻譯結果

47

有什麼影響。我們觀察到新翻譯規則可以改善一些錯誤,並將錯誤分為歧義性錯 誤和順序錯誤,其改善的例子如下:

1. 歧義性錯誤:

原文 Enhancement of right side pleural , and mild pericardial effusion was noted .

M6 翻譯 增強 方面 的 權利 胸腔 、 和 發現 有 輕微 的 心包積液 。 M16 翻譯 增強 的 右 胸腔 、 輕微 心包積液 被 注意到 。

2. 順序錯誤

原文

Thoracentesis was done on Feb 14 due to dyspnea with 1000ml

exudative pleural effusion

M6 翻譯 穿刺 是 在 二月 十四日 因 呼吸困難 的 因素 與 1000ml 滲出 性 胸腔積液 。

M16 翻譯 做了 穿刺 在 二月 十四日 因 呼吸困難 的 因素 與 1000ml 滲 出性 胸腔積液 。

原文

Stenting was done from distal IVC through left common iliac vein to

external iliac vein .

M6 翻譯 支架置入術 是 從 遠端 下腔靜脈 通過 從 左髂總靜脈 到 髂外

48

誤。我們對這些部分做了一些分析,並檢視這些錯誤為何沒有被虛擬雙語語料庫 及新翻譯規則改善。

(1)歧義性錯誤

原文: After tracheostomy , he was transferred to our ward for post operation care . M16 翻譯: 氣管切開術 後 , 他 被 轉送到 我們 病房 為 員額 關懷 行動 。

“post operation care” 應翻為術後照護,此為歧義性錯誤。由於 422 條新翻譯規則 是取自1,004 句譯後翻譯,而此 1,004 句無法涵蓋所有病歷內容,因此仍會有許多 歧義性錯誤沒有被修正。

(2)順序錯誤

原文: Antibiotics were discontinued after 8 days of treatment . M16 翻譯: 抗生素 中斷 後 8 天 的 治療 。

正確翻譯為”8 天 的 治療 後 抗生素 中斷 。”,這是一個順序錯誤,由於 422 條 新翻譯規則中只有2~5-gram,因此超過 5-gram 的順序錯誤便無法被更正。在 M16 的14%的順序錯誤中,有 9%屬於此種超過 5-gram 導致的錯誤,剩下的 5%則屬於 小於5-gram 的錯誤。可見未來若想更進一步改善順序錯誤,應該從改善長距離的 順序錯誤著手。

從上述觀察可看出,歧義性錯誤仍是跨領域翻譯最大的問題,而若要進一歩 有效的解決順序錯誤,未來可先由處理長距離(超過 5-gram)順序錯誤著手。

49

相關文件