• 沒有找到結果。

輔助式機器翻譯系統翻譯品質提升評估

第五章 系統效率評估

5.4 實驗結果與比較

5.4.4 輔助式機器翻譯系統翻譯品質提升評估

cumulative n-gram scoring 的 4-gram 為平均值,

而 NIST 則以 cumulative n-gram scoring 最高的 分數。表 5.16 為產生詞序範例樹之實驗語料 統計,其中只有中英文句子中,有詞序互換現

象的句子,才會被記錄在詞序範例樹資料庫內,我們從表 5.16 中可以看見,A 組和 C 組的句對數分別為 972 句和 1985 句,但其產生出來的範例樹數目卻只有 619 組和 1515 組,其原因為國中語料的句法結構,在對應率等於 100%的句對中,有很多都是相似的 句子,如「I am happy.」、「I am sad.」和「I am fine.」,在我們的資料庫中,相同句法結構的

表 5.16 產生詞序範例樹之實驗語料

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

60

詞序範例樹只會記錄一次,因而導致詞序範例樹的數量減少。而詞序範例樹的數量,除 了與句對數有所相關外,也跟句子本身的長度有關,通常越長的句子其生成的子樹量也 越多,我們也會把有發生詞序互換的子樹進行記錄。

在這之前,我們首先與舊有的翻譯效能進行比較,2009 年田侃文利用科學人雜誌當 作訓練語料,以 TIMSS 2003 當作測試語料(在此設其組別名稱為 old),在原始的翻譯 系統中,其詞彙對列模組的效果有限,2685 組平行語料對應率為 100%的句對數為 0,

因此當時是以對應率大於 60%當作門檻值,從 2685 句中只能得到 30 句來產生詞序範例 樹。而我們現今已對詞彙對列模組進行改良,從 2685 組平行句對我們可以產生 23 組對 應率為 100%的句對(K 組),若是以對應率大於 60%當作門檻值,更可以獲得 1544 組

(L 組),與過去相比,我們提升了約 50 倍的產能。在此若把 K 組和 L 組當作訓練語料 去對 TIMSS 2003 試題進行翻譯,透過 BLEU 和 NIST 的評估,我們的分數如表 5.17 所 示。除了 4MQ 和 4MT 是 old 較為優秀以外,在其他各組可以發現改良後的詞彙對列模 組,有助於獲得更為優良的詞序範例樹以增進輔助試題翻譯系統整體的表現。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

62

而從其他方面來看,我們發現高中語料所產生的詞序範例樹較適合 TIMSS 八年級 的試題,國中語料的範例樹,則在 TIMSS 四年級的試題中表現較為亮眼,這表示針對 不同的翻譯目標,我們應該適度選用不同英文程度的語料來進行詞序範例樹的生成。

接下來從另一個方向來觀察,我們發現高中語料在進行字詞對列的改良之後,可以 產生較多的詞序範例樹,但是整體的翻譯結果並沒有原始版本來的好,主要的原因在於 我們利用遺留字詞所產生的新詞組,目前系統門檻值設立為分數累積只要超過 1.0,便 判定其為正確的詞組,而透過圖 5.4 和圖 5.5 的結果發現,818 個新詞組其平均正確率為 80%,也就表示有 20%的新詞組會降低詞彙對列結果的正確性,引此可能產生錯誤的詞 序範例樹,影響詞序範例樹的品質。

表 5.19 是為各組對 TIMSS 2007 試題包含問句及誘答選項之 BLEU 和 NIST 分數。

我們同樣以粗體字代表該組別裡的最高分。從表中我們發現,整體的效果與表 5.18 類似,

在八年級的試題翻譯結果,以高中語料表現最為優秀,四年級的試題,則是以國中語料 占有優勢。其中較為特別的是,G 組(高中語料(補))在四年級數學試題中,表現較為 突出,表示 G 組所產生之範例樹,能夠有效地幫助四年級數學試題之誘答選項進行詞序 調動,且正確的詞序有助於翻譯模組進行翻譯詞的選取。

從表 5.18 和表 5.19 我們發現,由於科學人雜誌本身語料難度偏高,其詞彙對列結 果相對較差,但科學人雜誌對於 TIMSS 2007 試題之翻譯效果,在各組的情況上看來,

雖然沒有特別的優秀,但也非淪為末座。我們也發現,三種不同英文程度的語料,其詞 序範例樹的產出比例也大不相同,從表 5.16 可以發現,一句國中語料可以產生 1 組詞序 範例樹,高中語料則約可產出 2.5 組詞序範例樹,科學人雜誌則為最高,一句原始句可 以產出 7 組詞序範例樹,這也相對呼應,句子長度與詞序範例樹的數量互有正向關係。

而整體的實驗結果也符合田侃文[4]文中的期待,「如果我們針對翻譯語料主題的不同,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

63

而去選擇不同主題的本文當作訓練語料,則相信不論在句法或是用詞順序上,都較能貼 近欲測試的翻譯本文,則在翻譯的表現上會更好 」。因此,如果想提升整體的翻譯效果,

除了翻譯系統內部的技術之外,還需考慮到翻譯目標與測試語料之間的相似度,如此一 來才能得到較高的翻譯品質。我們也在附錄 III 附上完整的 BLEU 和 NIST 之分數結果。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

66