第四章 詞彙對列技術
4.1 中英文平行句對的詞彙對列
4.1.2 以原詞還原為基礎進行詞彙對列
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
23
4.1.2 以原詞還原為基礎進行詞彙對列
在辭典為基礎的詞彙對列中,對列模組以原始的英文句子當作對列目標,主要的原因是 我們所使用的辭典內部會有許多複合詞的資訊,如「 撲克牌」所對應的翻譯詞為「playing card」,如果直接先對原始英文句子進行還原處理(lemma),則會把 「playing」還原成「play
」,這樣便無法正確的把兩組詞會產生連結,因此我們會先把原始英文句進行以辭典為 基礎的對列之後,才針對還沒有完成的英文字詞進行原詞還原(lemmatization)以執行 對列動作。
而執行原詞還原的目的是,英文字詞常在不同的詞性或是不同的時態下,皆會對原 始的單字進行一些變化,因此在第二步驟的詞彙對列中,我們將會對尚未完成對列的英 文字詞,透過史丹佛詞性標記器(Stanford Part-Of-Speech tagger)來進行原詞還原,期 盼加強整體的對應率。
主要的概念在於,一句英文句子常會因為時態(如過去式、現在進行式和未來式),
或者是前後文的因素來改變其單字的型態(如複數型態等),而我們手邊的辭典檔內部 大多都是儲存英文單字的原始形態。基於這個情況,我們必須對輸入的英文句子進行原 詞處理,進而使英文句子經過斷詞之後的英文字詞,可以不因為時態和複數等因素而無 法進行詞彙對列。
Porter[34]是提出詞幹處理(stemming)的先驅,主要是透過字尾的字串規則來進行 辨識,再透過其撰寫的規則來進行英文字詞還原。例如字尾最後有 「y」的就直接把「y」
刪 除 改 成「 e 」 ( policy→police ), 字 尾 最 後 是「 ization 」 就 刪 去 「 ization 」
(organization→organ),透過大量規則可以快速的得到英文字詞的原始型態,但是這樣
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
24
子的做法,常會出現許多問題,如「European」便無法成功的還原成「Europe」,「playing」
會被還原成「plai」,這類情況會導致詞彙對列模組的失誤。
基於上面這點,我們也試圖使用WordNet3.0[42]來協助我們進行原詞處理,但由於 其內部資料所含的不規則變化詞彙只有5,952個,這些資訊量並不足以支援我們的詞彙對 列模組,所以最後為了在原詞處理可以得到較佳的效果,我們先利用史丹佛剖析器將英 文字詞進行詞類標記,再將其英文字詞和詞類標記一起透過史丹佛詞類標記器作型態上 的(morphological)原詞還原。史丹佛詞類標記器產生的所有標記,皆採用 「Penn Treebank Tags」,同時其內部也提供相關的還原函式輔助系統進行原詞處理。
我們針對表4.6中尚未完成對列的字詞進行原詞處理,英文第七個字詞 「functions」複 數型態(其詞性標記為NNS),透過史丹佛詞類標記器還原成原型「function」,而「with」
一樣透過內建函式進行查詢,其結果與原始的字詞相同,在此我們以原始字詞「with」進 行標記,如圖4.3所示,左邊為輸入字串「英文字詞/詞類標記」,右邊則為輸入字串「還原 後的英文字詞」。接著進行第二輪的詞彙對列,整體的效果如表4.7所示。
functions/NNS → function with/IN → with
圖 4.3 史丹佛詞類標記器原詞處理之結果
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
25
表 4.7 詞彙對列(c)
詞序 1/1 2/2 3/5 4/6 5/6 6/6
7/7
8 9 10/4 11/4 12/8英文字詞 you can change a lot of functions with the remote control .
原詞還原
function with
詞序 1 2 3 4 5 6 7 8
中文字詞 你 可以 用 遙控器 改變 許多 功能 。
翻譯 字詞
you can use remote
control change many
function .
may alter much capability
possible transform a lot of able to