結果分析

第四章實驗設計與結果分析

4.3 實驗結果分析

4.3.2 結果分析

c 為翻譯結果的長度，r 為正確答案的長度，完整的 BLEU 公式為:

BLEU = BP∙ exp (∑ )

(5) 為權重。在我們的實驗中，N 設為 4， = 1/ 。

4.3.2 結果分析

表14、15 的模型的實驗結果如表 16。

表 16. 各模型的實驗結果

Model BLEU Score Simple Moses 15.24

B 28.04

Simple Moses 代表沒有使用簡化翻譯還原，而只使用 Moses 來翻譯(Moses 的翻譯模型、語言模型、調適資料都和B 相同)，做為比較，顯示若只單純使用一般領域的統計式翻譯系統可得到的效能。由表16 中可發現，加上簡化翻譯還原架構 (B)後 BLEU 會從 15.24 提升到 28.05，可看出簡化翻譯還原的效果。再觀察其他模型，也可發現所有模型的BLEU 分數都較 B 高出許多，而表現最好的則是 M16。

表17。其中的 M13 是從 M3 加入新翻譯規則後的模型，其 BLEU 分數較 M3 有顯著提升，由於M3 的模型中沒有用到新翻譯規則，因此可證明從譯後翻譯取出的新規則確實能提升翻譯效果。另外M15 和 M14 的差距仍不顯著(p>0.05)。而 M16 的 BLEU 分數和 M11、M12 的差距以 t-test 測試後結果為顯著(p<0.05)，證明以半監督式學習方式產生的虛擬平行雙語語料庫確實能增強簡化翻譯還原架構。

表 17. 各模型 BLEU 分數差距的 t-test 結果

Model 比較 Significance?(p<0.05)

M2 vs M12 No, p = 0.42162

M3 vs M13 Yes

M4 vs M14 No, p = 0.26473 M5 vs M15 No, p = 0.05803

M6 vs M15 No, p = 0.16620

M7 vs M17 No, p = 0.13263

M16 vs M12 Yes M16 vs M11 Yes

我們以人工對B、M11~M17 的翻譯結果做了分析，我們將出現的錯誤分為順序錯誤、歧義性錯誤。順序錯誤是指明顯不合中文文法的錯誤，歧義性錯誤是指詞被翻為不適用的翻譯。未此兩種錯誤的例子如表18。

表 18. M11~M17 的翻譯錯誤例子

錯誤種類例子

順序錯誤原文 No discomfort after chemotherapy . 翻譯沒有不舒服後化療。

歧義性錯誤原文 After admission , lactulose was applied for hepatic encephalopathy .

翻譯入院後 , 乳果糖是申請肝性腦病。

統計的結果如表19，其中的 n%表示平均每 100 句中有 n 句有此錯誤。

表 19. 各模型的錯誤統計

Model B M11 M12 M13 M14 M15 M16 M17

Ordering

error 23% 15% 15% 17% 16% 15% 14% 15%

Word sense ambiguity

45% 24% 23% 39% 28% 29% 23% 28%

BLEU 28.02 39.72 39.72 32.85 35.11 35.52 40.71 37.81

由表20 可發現，B 以外的其他模型的順序錯誤差距都不大，可推論出 200 句的譯後編輯調適資料能使詞的排序做得更好。除了B 之外，M13 的歧義性錯誤較其他的模型多，可得知為語言模型的影響，由於M12 的語言模型雖然只有 804 句，因此可進一歩推論是因為M13 語言模型的領域不同所造成，而非語言模型訓練資料

44 opy temporarily .

M16 翻譯與他討論後，他不想接受的腸鏡檢查暫時的。 M17 翻譯與他討論後，他不想領取在腸鏡檢查暫停。

在例子1 中，M17 錯誤的將 ”and" 翻譯成 ”和傳統”，在例子 2 中則錯將 “receive”

翻譯為 “領取”。藉由觀察 M16 和 M17 的片語表，我們發現在 M16 的片語表中“和傳統” 翻成 “and” 的機率是 0，而 M17 的片語表中的機率則大於 0 ; 在 M16 的片語表中”接受”翻成”receive”的機率是 0.0677263，在 M17 中則是 0.0450522(“接受”

是病歷中”receive”最常用的翻譯，在 1000 句測試資料中”receive”的正確翻譯全部都是”接受”)，較 M16 為低。更進一步觀察片語表的內容，我們發現在 M16 的片語表中”receive”和 “and”在 M17 的翻譯選項數量比 M16 要少，如表 21。

45 M13 的 BLEU 分數也有顯著差異(P<0.05)，證明從譯後編輯取得的新翻譯規則確實有用。表23 為歧義性錯誤的例子，表 24 為順序錯誤的例子。

表 22. M3 和 M13 的錯誤統計

Model M3 M13 Ordering

error 18% 17%

Word sense

ambiguity 43% 39%

BLEU 32.03 32.85

表 23. 歧義性錯誤的例子 例句

原文 He received blood transfusion and then was discharged M3 翻譯他收到輸血然後出院

M13 翻譯他接受輸血然後出院

原文 5th course of Taxol 253mg ( 175mg/BSA ) + Cisplatin 108mg M3 翻譯第五過程紫杉醇 253mg ( 175mg/bsa ) + 順鉑 108mg M13 翻譯第五療程紫杉醇 253mg ( 175mg/bsa ) + 順鉑 108mg

表 24. 順序錯誤的例子 例句

原文 And then Biopsy was done .

M3 翻譯然後活檢是 .

M13 翻譯然後做了活檢 .

原文 Stenting was done from distal IVC through left common iliac vein to external iliac vein .

M3 翻譯支架置入術是做從 distal 下腔靜脈通過從左髂總靜脈到髂外靜脈 .

M13 翻譯完成支架置入術從 distal 下腔靜脈通過從左髂總靜脈到髂外靜脈 .

由於M16 在實驗中有最好的效果，因此我們對 M16 額外做了一些觀察。我們將M6 和 M16 做了一些比較，以觀察加入譯後編輯的新翻譯規則後，對翻譯結果

有什麼影響。我們觀察到新翻譯規則可以改善一些錯誤，並將錯誤分為歧義性錯誤和順序錯誤，其改善的例子如下:

1. 歧義性錯誤:

原文 Enhancement of right side pleural , and mild pericardial effusion was noted .

M6 翻譯增強方面的權利胸腔、和發現有輕微的心包積液。 M16 翻譯增強的右胸腔、輕微心包積液被注意到。

2. 順序錯誤

原文

Thoracentesis was done on Feb 14 due to dyspnea with 1000ml

exudative pleural effusion

M6 翻譯 穿刺是在二月十四日因呼吸困難的因素與 1000ml 滲出 性胸腔積液。

M16 翻譯 做了穿刺在二月十四日因呼吸困難的因素與 1000ml 滲 出性胸腔積液。

原文

Stenting was done from distal IVC through left common iliac vein to

external iliac vein .

M6 翻譯 支架置入術是從遠端下腔靜脈通過從左髂總靜脈到髂外

誤。我們對這些部分做了一些分析，並檢視這些錯誤為何沒有被虛擬雙語語料庫及新翻譯規則改善。

(1)歧義性錯誤

原文: After tracheostomy , he was transferred to our ward for post operation care . M16 翻譯: 氣管切開術後，他被轉送到我們病房為員額關懷行動。

“post operation care” 應翻為術後照護，此為歧義性錯誤。由於 422 條新翻譯規則是取自1,004 句譯後翻譯，而此 1,004 句無法涵蓋所有病歷內容，因此仍會有許多歧義性錯誤沒有被修正。

(2)順序錯誤

原文: Antibiotics were discontinued after 8 days of treatment . M16 翻譯: 抗生素中斷後 8 天的治療。

正確翻譯為”8 天的治療後抗生素中斷。”，這是一個順序錯誤，由於 422 條新翻譯規則中只有2~5-gram，因此超過 5-gram 的順序錯誤便無法被更正。在 M16 的14%的順序錯誤中，有 9%屬於此種超過 5-gram 導致的錯誤，剩下的 5%則屬於小於5-gram 的錯誤。可見未來若想更進一步改善順序錯誤，應該從改善長距離的順序錯誤著手。

從上述觀察可看出，歧義性錯誤仍是跨領域翻譯最大的問題，而若要進一歩有效的解決順序錯誤，未來可先由處理長距離(超過 5-gram)順序錯誤著手。

在文檔中運用單語相關語料庫於跨領域機器翻譯調適問題之研究：一種混合式機器翻譯策略 (頁 48-58)

第四章 實驗設計與結果分析

4.3 實驗結果分析

4.3.2 結果分析

BLEU = BP∙ exp (∑ )

4.3.2 結果分析

1. 歧義性錯誤:

2. 順序錯誤

Thoracentesis was done on Feb 14 due to dyspnea with 1000ml

Stenting was done from distal IVC through left common iliac vein to

(1)歧義性錯誤

(2)順序錯誤

第四章實驗設計與結果分析