• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6

第二章 文獻探討

文獻探討分為兩個小節:在 2.1 節中,將會回顧近幾年來詞彙對列的技術,並討論各種 技術上的運用,其如何提升機器翻譯整體之效果。2.2 節則回顧過去對於遺留字詞(Null Alignment)之相關研究,探討其利用的方式。

2.1 詞彙對列技術之相關研究

機器翻譯的步驟主要是由來源語言(source language)透過翻譯模型(translation model)

來與目標語言(target language)進行對應(mapping),其後再透過各種技術來進行翻譯,

目前最常見的為以統計為基礎的方式來進行翻譯。針對以統計為基礎的機器翻譯,則需 要龐大的雙語語料庫(bilingual corpus)來進行前處理,在利用雙語語料庫的過程中,

對列(alignment)技術則是相當重要的關鍵因素之一,從對列技術的優劣,幾乎可以決 定機器翻譯系統所產生目標句的品質,而對列技術則有下列幾大方向,如段落對列

(paragraph alignment)、文句對列(sentence alignment)和詞彙對列(word alignment)。

其中詞彙對列主要是由來源字詞,來找出與目標字詞互相對應的關係,更可以整合 句子詞性標記(Part-Of-Speech tagging)的資訊,透過對列整理(alignment arrangement)

得到關於兩個語言之間的資訊,以進一步協助詞義辨析(word-sense disambiguation)的 研究,甚至可以進行雙語字典的編撰(bilingual lexicography)。

以中英文平行語料為例,最簡單且原始的對列方法為以字對字(word-by-word),依 靠辭典來進行詞彙對列。主要的步驟為將平行語料中的中文句子先經過斷詞,再將斷詞

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

7

後的中文字詞透過漢英辭典查詢相對應之英文單字,依序與英文句子中的單字互相比 對。這種方法會基於辭典內部詞彙量,影響詞彙對列的召回率。

1995年,Wu[41]利用反向轉錄語法(inversion transduction grammar, ITG)的概念進 行詞彙對列,當我們得知兩個語言之間的剖析標記對列情況後,利用上下文無關文法

(context-free grammar)的語法概念進行資料庫的建立。

1997年,Ker和Chang [24]提出以類別(class)為基礎來實作詞彙對列,主要以英漢 辭典為索引資料庫,利用英文類別辭典和哈爾濱工業大學訊息檢索實驗室同義詞詞林擴 充版[7],進行中英文平行語料間的相互對應關係,並且建立辭典相似度和類別相似度兩 個數據來當作門檻值,進而提高詞彙對列的對應率(「產生對列的英文字詞數」除上「英 文句子的總字詞數」)。整體來說可以獲得80%的召回率(recall),並且其中的精確率

(precision)高達90%。

2000年,Le等[25]提出以區塊(chunks)為基礎進行詞彙對列,主要是以詞性標記 為基礎來進行對列的動作。提出的步驟如下,首先將中文句子進行斷詞,再將英文句子 依照連結詞或動詞分割成多塊區塊,並且由左至右標記上詞序;接著透過英漢雙語辭 典,找尋該中文字詞會對應到哪一個英文區塊,並將該中文字詞標記上所對應的區塊編 號。對應完畢之後,其結果很有可能出現一個中文字詞對應到一個以上的英文區塊,此 時則可利用該中文字詞的前、後字詞編號,來選定正確的區塊編號,最後再處理尚未被 連結的中文字詞,利用上下文的位置,來找出其對應的英文區塊。

2005年,Chiang[21]觀察語句的剖析樹,並且由上至下(top-down)透過詞性標記 來完成詞彙對列,在對應的過程中,可以針對過往只能進行一對一(word-to-word)的 詞彙對列進行改進,進而達成片語(phrases)這類多字詞的對列,此法使其翻譯系統的 BLEU分數,提升了7.5%。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8

2007年,Ren等[35]首先利用型態分析(morphological analysis)來獲得第一輪的詞 彙對列結果,接著觀察第一輪對列結果中無法產生對列的字詞,提出遺留字詞模型(null alignment model)的概念,認為這些遺留字詞極有可能是互為對應字詞,接著利用人工 建立的辭典(handcraft dictionary),和透過大量平行訓練語料並自動化建立的辭典

(automatically trained dictionary),最後結合命名實體(named entity)和Le所提出的區 塊概念,共六種詞彙對列的線索(various clues),並將技術進行量化機制,也就是不完 全信任於某種特定方法,反倒是結合各種方法,並且給予每種對列技術一個量化分數,

最後進行加總,並以高分優先(best-first)來找出互為對列的字詞。

2008年,Ma等[27]利用句法相依性(syntactic dependencies)來改進詞彙對列的效果。

以一個範例來說明,一句中文句經過斷詞處理之後為:「我 打 網球 時 扭傷 的 。」,

其對應的英文句為:「I twisted it playing tennis .」,經過以字典為基礎的詞彙對列技術之 後,我們會發現中文字的<打>和英文句的<playing>應該是互相對應的,但是由於句 法的結構,<playing>為一個現在式的時態,會牽動著中文句中的<時>這個字,然而 這個字詞是舊有技術無法成功對列。因此作者利用舊有的詞彙對列組合,搭配其句法結 構標籤(syntactic annotation),並計算其共現頻率,以獲得大量的雙語字詞相似度分數,

則可跳脫以單一字詞為基礎的對列方式,進而達到上述所提之句法相依性之結果。

2009年,Bai等[18]利用平行語料庫來擷取多字詞語(multiword expression),當找 出中英文平行句對中可能互為翻譯的字串之後,作者利用正規化頻率(normalized frequency)來對中英文詞對組合評分,並把英文字串切割成多個共同子序列(common subsequences),文中又稱之為目標候選字(target candidate word)。計算其出現頻率後,

進而利用Dice係數(Dice coefficient)[29]來產生量化分數,接著將這些可能互為翻譯的

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

9

詞彙組合進行排序(ranking),最後探討並設立其門檻值,挑選出最佳的英文目標候選 字。

在我們原始的系統中,詞彙對列模組並沒有做到上述文獻中的補強技術,只是單純 的利用辭典檔內部的資訊進行比對,這造成整體的對列效能非常依賴所使用辭典檔。因 此我們先利用文獻中較簡單的技術,如中文同義詞的擴充、英文原詞還原和一個中文字 詞可對應多個英文字詞等,來對原始的詞彙對列模組進行補強,以得出較為優秀的詞序 範例樹。

2.2 遺留字詞對列之相關研究

1997 年,Chang 和 Chen[20]將影像處理技術(image processing techniques)的概念與詞 彙對列結合,主要的構想是希望能將無法被成功連結的字詞進行修補。利用已完成對列 的字詞當作線索,利用二維表格對遺留字詞之對列(null alignment)進行預測,並且依 循保持原始句法結構,和已對應的連線不可與連續的遺留詞彙之間發生相交情況,其實 驗結果顯示,可以將大量原先無法對應的字詞產生對列。

Mihalcea 和 Pedersen[30]在 2003 年的 Human Language Technologies 2003 的工作坊,

提出了幾點提升詞彙對列整體效能的建議,其中一點就是盡可能的整合所有可用資源,

更提出了遺留詞彙如果可以透過有效的評估機制,則可得到大量有用的資源。

我們將學習 Ma 等[26]在 2007 所提出的方式,更進一步的去評估這些遺留詞彙之對 列,在完成詞彙對列的過程之後,便可以去觀察遺留詞彙的交互組合,並且設立信心分 數來做為門檻值,進而彙整出新的雙語辭典,並整合至原始的辭典檔,進而改善詞彙對 列模組。