• 沒有找到結果。

以原詞還原為基礎進行詞彙對列

第四章 詞彙對列技術

4.1 中英文平行句對的詞彙對列

4.1.2 以原詞還原為基礎進行詞彙對列

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23

4.1.2 以原詞還原為基礎進行詞彙對列

在辭典為基礎的詞彙對列中,對列模組以原始的英文句子當作對列目標,主要的原因是 我們所使用的辭典內部會有許多複合詞的資訊,如「 撲克牌」所對應的翻譯詞為「playing card」,如果直接先對原始英文句子進行還原處理(lemma),則會把 「playing」還原成「play

」,這樣便無法正確的把兩組詞會產生連結,因此我們會先把原始英文句進行以辭典為 基礎的對列之後,才針對還沒有完成的英文字詞進行原詞還原(lemmatization)以執行 對列動作。

而執行原詞還原的目的是,英文字詞常在不同的詞性或是不同的時態下,皆會對原 始的單字進行一些變化,因此在第二步驟的詞彙對列中,我們將會對尚未完成對列的英 文字詞,透過史丹佛詞性標記器(Stanford Part-Of-Speech tagger)來進行原詞還原,期 盼加強整體的對應率。

主要的概念在於,一句英文句子常會因為時態(如過去式、現在進行式和未來式),

或者是前後文的因素來改變其單字的型態(如複數型態等),而我們手邊的辭典檔內部 大多都是儲存英文單字的原始形態。基於這個情況,我們必須對輸入的英文句子進行原 詞處理,進而使英文句子經過斷詞之後的英文字詞,可以不因為時態和複數等因素而無 法進行詞彙對列。

Porter[34]是提出詞幹處理(stemming)的先驅,主要是透過字尾的字串規則來進行 辨識,再透過其撰寫的規則來進行英文字詞還原。例如字尾最後有 「y」的就直接把「y」

刪 除 改 成「 e 」 ( policy→police ), 字 尾 最 後 是「 ization 」 就 刪 去 「 ization 」

(organization→organ),透過大量規則可以快速的得到英文字詞的原始型態,但是這樣

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

24

子的做法,常會出現許多問題,如「European」便無法成功的還原成「Europe」,「playing」

會被還原成「plai」,這類情況會導致詞彙對列模組的失誤。

基於上面這點,我們也試圖使用WordNet3.0[42]來協助我們進行原詞處理,但由於 其內部資料所含的不規則變化詞彙只有5,952個,這些資訊量並不足以支援我們的詞彙對 列模組,所以最後為了在原詞處理可以得到較佳的效果,我們先利用史丹佛剖析器將英 文字詞進行詞類標記,再將其英文字詞和詞類標記一起透過史丹佛詞類標記器作型態上 的(morphological)原詞還原。史丹佛詞類標記器產生的所有標記,皆採用 「Penn Treebank Tags」,同時其內部也提供相關的還原函式輔助系統進行原詞處理。

我們針對表4.6中尚未完成對列的字詞進行原詞處理,英文第七個字詞 「functions」複 數型態(其詞性標記為NNS),透過史丹佛詞類標記器還原成原型「function」,而「with」

一樣透過內建函式進行查詢,其結果與原始的字詞相同,在此我們以原始字詞「with」進 行標記,如圖4.3所示,左邊為輸入字串「英文字詞/詞類標記」,右邊則為輸入字串「還原 後的英文字詞」。接著進行第二輪的詞彙對列,整體的效果如表4.7所示。

functions/NNS → function with/IN → with

圖 4.3 史丹佛詞類標記器原詞處理之結果

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

25

表 4.7 詞彙對列(c)

詞序 1/1 2/2 3/5 4/6 5/6 6/6

7/7

8 9 10/4 11/4 12/8

英文字詞 you can change a lot of functions with the remote control .

原詞還原

function with

詞序 1 2 3 4 5 6 7 8

中文字詞 你 可以 用 遙控器 改變 許多 功能 。

翻譯 字詞

you can use remote

control change many

function .

may alter much capability

possible transform a lot of able to