• 沒有找到結果。

以漢英翻譯的翻譯品質評估斷詞效能之實驗

第六章 實驗結果與分析

6.4 以漢英翻譯的翻譯品質評估斷詞效能之實驗

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

果,但在訓練斷詞模型時加入辭典的情況下則會得到正確斷詞結果;上頁圖 6.3 之範例 (a)為第一種情況的例子,因為辭典中包含詞彙「維珍藍」,所以在訓練斷詞模型時加入 辭典的情況下會得到正確斷詞結果,而上頁圖 6.3 中之斷詞標準答案是以人工斷詞方式 取得。第二種情況為:對某一中文句進行斷詞時,在訓練斷詞模型時未加入辭典的情況 下會得到正確斷詞結果,在訓練斷詞模型時加入辭典的情況下則會得到錯誤斷詞結果。

上頁圖 6.3 之範例(b)、範例(c)為第二種情況的例子;在範例(b)、範例(c)中 訓練斷詞模型時未加入辭典的情況下皆會得到正確斷詞結果,但在範例(b)中訓練斷 詞模型時加入辭典的情況下,因為辭典中包含詞彙「孟德爾」及「德爾」,所以會將中 文句斷成錯誤斷詞結果;在範例(c)中訓練斷詞模型時加入辭典的情況下,因為辭典 中包含較不常見之詞彙「的是」,所以會將中文句斷成錯誤斷詞結果。我們覺得因為受 到上述第二種情況的影響,所以訓練斷詞模型時加入辭典的結果之斷詞效能可能差於訓 練斷詞模型時未加入辭典的結果之斷詞效能,例如若對測試語料進行斷詞後,上述之第 二種情況的出現次數多於第一種情況的出現次數的話,則訓練斷詞模型時加入辭典的結 果之斷詞效能會差於訓練斷詞模型時未加入辭典的結果之斷詞效能。

6.4 以漢英翻譯的翻譯品質評估斷詞效能之實驗

在 6.3 節我們透過人工斷詞之測試語料去評估斷詞效能,但如此可能因斷詞者之斷詞正 確率,以及斷詞者之斷詞標準與系統的斷詞標準不同等因素而影響到評估之準確度,例 如「他當上副主席了。」這句中文句,在不同的斷詞標準下會有「他/當上/副主席/了/。」、

「他/當上/副/主席/了/。」兩種可能斷詞結果;當斷詞者以自己的斷詞標準將其斷成「他 /當上/副主席/了/。」,而我們的系統或其他斷詞系統依照不同斷詞標準將其斷成「他/當 上/副/主席/了/。」時,就會形成斷詞錯誤。因此除了透過 6.3 節的方式來評估本系統的 斷詞效能外,我們也透過漢英翻譯的翻譯品質來評估斷詞效能。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

在進行漢英機器翻譯時,需要先對中文語料進行斷詞才能進行後續處理;所以對於 漢英機器翻譯,中文斷詞會是一件重要的基礎工作,而中文斷詞效能的好壞可能會影響 到最後的翻譯品質。雖然在[22]中有提到斷詞效能越佳不一定保證翻譯品質越好,但在 [22]的一些實驗結果中也可以看到,斷詞效能較好之斷詞器能夠有較好之翻譯品質,例 如採用長詞優先斷詞的 MaxMatch 斷詞器之斷詞效能優於將句子斷成一個個字的 CharBased 斷詞器之斷詞效能,且 MaxMatch 斷詞器之翻譯品質也優於 CharBased 斷詞 器之翻譯品質;所以我們假設在大多數的情形下利用斷詞效能較佳的系統所斷出的中文 訓練語料進行翻譯模型訓練,能夠有較好的漢英翻譯之翻譯品質,以利用漢英翻譯之翻 譯品質的好壞去間接地評估本系統的斷詞效能。

6.4.1 實驗流程設計

我們將於本實驗中分別使用不同領域之中英平行語料進行漢英翻譯實驗,而所使用的實 驗語料有:科學文章類型的C220、 C300、科學人與新聞文章類型的新聞語料以及會話 文章類型的廣播會話語料。由於 NTCIR-9 PatentMT 並未提供測試語料的正確答案,所 以我們以 NTCIR-9 PatentMT 提供的有正確答案之 2000 句優化資料(tuning data)作為 C300、C220 之測試語料去進行翻譯效能評估。對科學人、新聞語料、廣播會話語料這 三種語料,我們則從語料中切割出 2000 句作為測試語料,其餘的部分則作為訓練翻譯 模型之訓練語料。

產生訓練語料 訓練斷詞模型 斷詞模型A到P (LPS或SCS)

英漢訓練語料

(中文句未斷詞)

圖 6.4 得到斷詞模型的流程

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

本研究透過統計式機器翻譯系統「Moses」去進行實驗。在上頁圖 6.4、圖 6.5 中,

我們將用來訓練翻譯模型之中英平行語料稱為英漢訓練語料,以跟我們的系統所產生的 已斷詞中文訓練語料作區別。而各個實驗的流程大略為:首先我們依照圖 6.4 的流程來 透過我們的系統得到各個斷詞模型;與 6.3 節相同,為了評估加入外部辭典進行訓練對 於斷詞效能的影響,在利用 LPS 或 SCS 訓練時會分成訓練斷詞模型時加入辭典與訓練 斷詞模型時未加入辭典兩種類型。而產生訓練語料的方式也與 6.3 節相同,由有或沒有 利用英漢翻譯的資訊去處理交集型歧異之兩種情況去與有或沒有加入未知詞及中英詞 對之兩種情況進行組合,故有 4 種產生訓練語料的方式。得到斷詞模型後,我們依照圖

MOSES翻譯模型訓練 MOSES翻譯模型 MA到MP

翻譯結果A到P 英漢訓練語料之已斷

詞中文句A到P

英漢訓練語料之英文句

測試語料之已斷 詞中文句A到P

MOSES翻譯模型 MA到MP

圖 6.6 得到翻譯結果的流程

斷詞模型A到P 斷詞模型A到P

英漢訓練語料之中文句

英漢訓練語料之已斷詞中文句A到P 測試語料之中文句

測試語料之已斷詞中文句A到P

圖 6.5 測試語料與英漢訓練語料之中文句的斷詞流程

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6.5 的流程對測試資料、英漢訓練語料之中文句進行斷詞。最後依照上頁圖 6.6 的流程進 行翻譯模型訓練,將測試語料之已斷詞中文句提供給所得到之翻譯模型進行翻譯。

在 6.4.2 節我們將 SCS 之 Pku 斷詞模型、Ctb 斷詞模型及 ICTCLAS 作為我們的系統 之斷詞效能比較對象,並藉由翻譯品質去間接評估我們的系統與 SCS 之 Pku 斷詞模型、

Ctb 斷詞模型及 ICTCLAS 的斷詞效能。在 C300、C220 的部分,我們另外將 Tseng 等人 在 NTCIR-9 PatentMT 利用優化資料進行評估所得的結果之翻譯品質(以下簡稱 Tseng.PatentMT 的結果之翻譯品質)作為透過我們的系統所得之翻譯品質的比較對象。

在翻譯結果的評估上,我們則使用 BLEU 和 NIST 兩個指標進行評估。

6.4.2 實驗結果與分析

表 6.21 為 Tseng.PatentMT 的結果之翻譯品質,表中用紅色斜體標示的組別為利用 C220 作為訓練語料的結果,其餘的組別為利用 C300 作為訓練語料的結果;在表 6.21 利用 C300 作為訓練語料的結果中,BLEU 分數最高的是 Z16;而利用 C220 作為訓練語料的 結果中,BLEU 分數最高的是 Z18*。下頁表 6.22 為 C300、C220 之漢英翻譯實驗結果,

表 6.23 則為科學人、新聞語料、廣播會話語料之漢英翻譯實驗結果;在表 6.22、表 6.23 中,我們將我們的系統之最高 BLEU 分數與其他斷詞系統或斷詞模型中的最高 BLEU 分

表 6.21 Tseng.PatentMT 的結果之翻譯品質

排序 組別 NIST BLEU 排序 組別 NIST BLEU 排序 組別 NIST BLEU 1 Z18* 7.6120 0.2604 8 Z2 6.7831 0.2203 15 Z11 5.1946 0.1487 2 Z17* 7.3990 0.2514 9 Z15 6.4609 0.2050 16 Z12 4.9405 0.1467 3 Z16* 7.4346 0.2500 10 Z14 6.3295 0.1995 17 Z6 3.3105 0.0674 4 Z1 7.3911 0.2486 11 Z13 6.0342 0.1918 18 Z9 3.0507 0.0643 5 Z16 7.3778 0.2407 12 Z5 6.2146 0.1911 19 Z7 2.8805 0.0616 6 Z18 7.3822 0.2403 13 Z4 6.1948 0.1811 20 Z8 2.7636 0.0602 7 Z17 7.2038 0.2325 14 Z3 5.8907 0.1730 21 Z10 2.9282 0.0551

數(0.2407)低了 0.0009。在表 6.22 中 C220 的實驗結果部分,我們的系統之最高 BLEU 分數(0.2541),高於 ICTCLAS 之 BLEU 分數(0.2527),但比表 6.21中同樣是利用 C220

有 4.0716 0.0757 3.9606 0.0675 3.7303 0.0988 有 沒有 4.0010 0.0739 3.8884 0.0661 3.6602 0.0961 有 4.0592 0.0755 3.9510 0.0680 3.7066 0.0965

SCS

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

高了 0.0142。在上頁表 6.23 新聞語料的部分,我們的系統之最高 BLEU 分數(0.0719),

比起 SCS 之 Ctb 斷詞模型的 BLEU 分數(0.0738)低了 0.0019。在表 6.23 廣播會話語 料的部分,我們的系統之最高 BLEU 分數(0.1044),比起 ICTCLAS 斷詞器之 BLEU 分 數(0.1067)低了 0.0023,但比起 SCS 之各個斷詞模型之 BLEU 分數皆高出 0.004 左右。

由以上分析可看出,在科學文章類型之科學人、C300 或新聞文章類型之新聞語料 或會話文章類型之廣播會話語料的部分,我們的系統之最佳翻譯品質都略差於其他斷詞 系統或斷詞模型中的最佳翻譯品質,而在 C300 的部分,我們的系統之最高 BLEU 分數 跟其他斷詞系統或斷詞模型中的最高 BLEU 分數之差距只有 0.0009。所以我們覺得這間 接顯示了我們的系統可以有一定的斷詞效能。

以下我們藉由表 6.22、上頁表 6.23 的數據來分析透過本研究提出的加入未知詞及中 英詞對與利用英漢翻譯的資訊去處理交集型歧異的方法是否能提升斷詞效能。在訓練斷 詞模型時未加入辭典的情況下,所有實驗語料當中,只有廣播會話語料的部分,有利用 英漢翻譯資訊處理交集型歧異的實驗結果之 BLEU 分數皆高於沒有利用英漢翻譯資訊 處理交集型歧異的實驗結果之 BLEU 分數。在訓練斷詞模型時未加入辭典的情況下,在 任何一種實驗語料的結果中,都並非所有的有加入未知詞與中英詞對的實驗結果之 BLEU 分數皆高於沒有加入未知詞與中英詞對的實驗結果之 BLEU 分數。所以由以上分 析可看出,利用英漢翻譯資訊處理交集型歧異或加入未知詞與中英詞對不一定能提升斷 詞效能。

以下我們針對表 6.22、上頁表 6.23 中訓練斷詞模型時加入辭典與訓練斷詞模型時未 加入辭典的實驗結果進行分析。在表 6.22 中的 C300、C220 之利用 LPS 訓練斷詞模型 的部分,除了 C220 之有加入未知詞與中英詞對且沒有利用英漢翻譯資訊處理交集型歧 異的結果之外,其他的結果都是訓練斷詞模型時加入辭典之情況下的 BLEU 分數比起訓 練斷詞模型時未加入辭典之情況下的 BLEU 分數來得低;但在利用 SCS 訓練斷詞模型

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

歧異之結果外,其他的結果都是訓練斷詞模型時加入辭典之情況下的 BLEU 分數高於訓 練斷詞模型時未加入辭典之情況下的 BLEU 分數。

在表 6.23 中的科學人部分,除了利用 SCS 訓練斷詞模型的其中兩組結果之外,其 他的結果皆是訓練斷詞模型時加入辭典的情況下之 BLEU 分數低於訓練斷詞模型時未 加入辭典的情況下之 BLEU 分數。在廣播會話語料部分,除了利用 SCS 訓練斷詞模型,

沒有加入未知詞與中英詞對且有利用英漢翻譯資訊處理交集型歧異的結果外,其餘的結 果皆是訓練斷詞模型時加入辭典的情況下之 BLEU 分數低於訓練斷詞模型時未加入辭

沒有加入未知詞與中英詞對且有利用英漢翻譯資訊處理交集型歧異的結果外,其餘的結 果皆是訓練斷詞模型時加入辭典的情況下之 BLEU 分數低於訓練斷詞模型時未加入辭