• 沒有找到結果。

第五章 系統效率評估

5.4 實驗結果與比較

5.4.1 不同語料之詞彙對列結果比較

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

51

作各 n-gram 平均資訊量的大小。另外 NIST 採用了算術平均數來替代 BLEU 中所使用的 幾何平均數,這也使得 1-gram 的共現次數對於整體的評估分數有著相當大的影響,除 此之外,NIST 還特別改善了句子長度的懲罰影響,以減少翻譯文句的長度對於整體評 估分數的影響。由此可知,中文標準翻譯與系統所建議的中文翻譯詞彙選擇相同時,NIST 的分數會比較高;中文標準翻譯與系統所建議的中文翻譯順序相同時,BLEU 的分數會 比較高[4]。最後利用這兩個評估指標,來對我們第二部分的實驗進行 TIMSS 2007 英文 試題之翻譯結果評估。

5.4 實驗結果與比較

依照 5.2 節中所設計的實驗流程,我們主要將實驗分成兩個部分。在第一部分,我們將 三種不同英文程度的平行語料,透過詞彙對列模組所產生出來的對列結果,利用人工的 方式進行評估;並且依照 4.2 節之敘述,我們透過不同的評估公式,探討其門檻值的設 立,以獲得較精準的詞對組合;更進一步把符合門檻值的詞彙組合與原有的辭典檔結合,

重新運行詞彙對列模組,並且以 4.2.1 節中所提之「停用詞列表與遺漏詞修補」,來對中 文斷詞和對列結果進行修正,並與原始之對列結果進行比較。依序在 5.4.1 節、5.4.2 節 和 5.4.3 節中進行說明。第二部分的實驗,我們則透過不同的語料與不同的對應率來產 生詞序範例樹,並對 TIMSS 2007 試題的翻譯結果進行評估。

5.4.1 不同語料之詞彙對列結果比較

依實驗設計流程,我們從不同英文程度的平行語料中,隨機抽選數句的對列結果來進行 評估。由於我們並沒有其詞彙對列的正確答案,因此我們以人工的方式進行檢測。我們 將觀察第一階段(未利用遺留字詞)詞彙對列模組所產生的連線其正確性,並計算出其 召回率與精確率,整體結果如表 5.6 所示。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

52

表 5.6 隨機抽選句數與其對列結果

語料 句對總數 抽選句數 平均召回率 平均精確率

國中語料 7360 400 71% 95%

高中語料 9954 500 62% 91%

高中語料

(未使用同義詞詞林) 9954 500 46% 95%

科學人雜誌 2685 50 54% 84%

首先我們針對有無同義詞詞林來進行中文擴充進行比較,使用同義詞詞林的目的在 於,希望得到更多目標字詞來和原始的英文字詞進行比對,如此一來便可以增加更多對 列的可能性,但也因為我們將中文字詞進行擴充,接連產生的問題是,擴充之後的字詞 有可能出現不正確的對列結果,在此我們將同義詞詞林當作一個變因,一樣利用人工去 檢測度列的結果,從表 5.6 的結果發現,我們損失了約 4%的精確率,換得召回率提升 約 16%,整體來說同義詞詞林的擴充犧牲了些微的精確率,換得較高的召回率。而若以 語料的英文程度來分析,對列結果是以國中語料效果最佳,接著依序為高中語料和科學 人雜誌。由於在對列的過程中,我們是以辭典檔內部的資訊做為基礎,再以原詞還原和 同義詞詞林進行擴充,如此一來我們可以先確保在第一個步驟中對應的精確率,其後才 對尚未產生連結的字詞進行擴充的動作,所以整體平均精確率可以達到九成。而在人工 檢測的過程中,我們發現某些詞彙,常會出現對列錯誤的情況產生,常見的有「 a(n)/the

」這類的量/冠詞、「to」、「in」和「of」這類的介系詞和「it」、「that」這類的代名詞,上述之英 文字詞,常會導致整體的對列結果發生錯誤,也因此降低召回率的數值,我們以表 5.7、

表 5.8 和表 5.9 為例,正確的對應為表格外部之跨欄連線。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

53

表 5.7 對列結果 a.

履歷表 是 一 份 自我 介紹 的 工具 。

A resume is a tool of self introduction .

表 5.8 對列結果 b.

這些 年 來 , 人 們 用 各 種 不同 的 方式 旅行 。

Over the years , people use a variety of different ways to travel .

表 5.9 對列結果 c.

下面 有 幾 個 建議 也許 能 幫助 你 交 朋友 。

There are several suggestions below that may help you make friends .

由上述之例子中我們可以發現,這些對應錯誤的情況可分為兩種情況,第一種情況,

中英文平行句對,中文句子常會省略某些量詞,如表 5.7 所示。第二種情況則是中文句 子斷詞造成的誤差,某些中文字詞應該被斷成同一組,如表 5.8 中,「這些 年 來」應 該被歸為同一個詞,表 5.9 中,「幾 個」也應該算成同一個詞,這樣在進行對列時才不 會形成這些錯誤,因此我們將利用中文遺留字詞來對中文斷詞進行修正,並且透過英文 遺留字詞輔助對列結果進行修補,以降低這類錯誤的產生。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y