• 沒有找到結果。

第四章 詞彙對列技術

4.2 遺留字詞的利用

4.2.1 停用詞列表與遺漏詞修補

實際上發現,平行句對的中文句子有一定比例不對「the」進行翻譯,如「You can change a lot of functions with the remote control .」其中文翻譯可為「你可以用遙控器改變許多功

能。」,或是「你可以用『這個』遙控器改變許多功能。」。實際上,在這種情況下「the」

應該和「remote control」合併,並且與中文字詞「遙控器」進行對列,結果如 所示。

5 引用自譯典通線上詞典 http://www.dreye.com:8080/axis/ddict.jsp?ver=big5&dod=0102&w=the

表 4.14 英文遺留字詞次數統計

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

36

表 4.15 利用英文遺漏詞進行修補

詞序 1/1 2/2 3/5 4/6 5/6 6/6 7/7 8/3

9/4

10/4 11/4 12/8 英文字詞 you can change a lot of functions with the remote control .

原詞還原 function with

詞序 1 2 3 4 5 6 7 8

中文字詞 你 可以 用 遙控器 改變 許多 功能 。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

37

表 4.16 英文遺漏詞修補失敗範例

英文詞序 1/1 2/2 3/3

4/0

5/0 6/5 7/6

英文字詞 When I entered

the

lungshan temple ,

中文詞序 1 2 3 4 5 6

中文字詞 當 我 走進 龍山 寺 ,

第二名和第三名的英文字詞為「to」和「a」,「a」的詞性規則與「the」相似,一樣可當作 冠 詞 來 使 用 , 在 此 我 們 沿 用 「 the 」 的 修 補 方 式 , 而 「 to 」 的 詞 性 可 為 介 係 詞 類 別

(preposition)和副詞類別,由於介係詞的用法較為特殊,且語料中的 「to」有時候會被翻 譯成「去」,所以我們並不對「to」進行修補。而在這有一點要特別提出,在進行修補的過 程中,我們只會將尚未有對應詞序的停用詞進行修補;而倘若右邊的英文字詞經過詞彙 對列之後,本來就無法找到其對應的詞序便維持原狀,以表 4.16 為例。

「中英都有遺留字詞」表示我們的詞彙對列模組還不甚完美,依照表 4.10 所表示 ,絕 大多數平行句對都為這種情況,主要是因為我們的詞彙對列模組以辭典為基礎,所以假 若辭典檔內部的資訊量不夠,則表示無法把平行句對中的字詞產生正確的對列。但從另 一方面來想,若其中英文句子確實互為翻譯句,且平行句對並無過多的翻譯潤飾,那我 們便大膽假設這些遺留字詞其實是互為對列的。如同表 4.10 中的例句所表示的,中文句 子的遺留字詞為「很多」,英文句子所遺留的字詞為「a lot of」,其實應該是互為對列的組 合,但是因為目前手邊的辭典檔,對於 「很多」這個中文字詞,只有如表 4.17 這些翻譯。

儘管我們透過同義詞詞林,依舊無法得到我們所期望的翻譯-「a lot of」。

表 4.17 辭典內部不慎完美之資訊

中文字詞 翻譯字詞

很多 /very many/very much/great/

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

38

因此我們想到了,如何將剩餘字詞重新利用,使詞彙對列更佳的完善。實際上詞彙 對列結束後,「中英都有遺留字詞」的組合情況共有四種,如表 4.18 所示。由於我們的模 組主要是以中文字詞當作索引詞,且可以 完成一個中文字詞對應多個英文字詞的對應方 式,所以在這邊除了觀察一個中文字詞與一個英文字詞的配對以外,還刻意將英文句子 中連續的遺留字詞視為一個單位,與中文字詞進行配對。

我們會對中英遺留字詞進行配對,試圖找出互為翻譯的詞對組合,最簡單的配對法 則是一個中文字詞搭配一個英文字詞,如表 4.18 中多對多的例句,我們可以得到<自助

-Self-arranged>、<自助-enables>、<使-Self-arranged>、<使-enables>、<可 以-Self-arranged>、<可以-enables>、<的-Self-arranged>和<的-enables>共六 種配對結果。但我們詞彙對列的系統,也已經可以處理一個中文字詞對應多個英文字詞 的情況,所以我們一樣也考慮了一對多的情況,在此我們是利用以對應的字詞當作詞組 邊界,例如表 4.18 一對多的例句,原始的情況只有三種組合(<眼見為憑-Seeing>、

<眼見為憑-is>、<眼見為憑-believing>),此時我們將利用詞組邊界來產生<眼見 為憑-Seeing is believing>這種一個中文字詞對應多個英文字詞的詞對組合,由 於計算量的關係,我們並不討論 n-gram 的所有可能性。

從 9954 句高中英文平行語料「中英都有遺留字詞」的對列結果中,一對多個組合數 有兩萬六千餘組,一對一的組合數則有十一萬五千餘組,在這些組合當中,我們必須過 濾出互為翻譯字詞的詞對組合,因此我們必須透過對列計算來進行篩選,以設立門檻值 來取得正確率較高的新詞對。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

39

表 4.18 遺留字詞的情況 遺留

字詞 對列結果 遺留

字詞

一對一 我 在 想 她 是 誰 。 想

I am wondering who she is . wondering

一對多 眼見為憑 。 眼見為憑

Seeing is believing . Seeing is

believing 多對一 我們 用 有毒 的 化學 藥品 來 殺死 老鼠 。 的 化學

藥品

We use poisonous chemicals to kill rats . chemicals 多對多 自助 旅行 使 你 可以 遇見 當地 的 人 。 自助 使

可以 的

Self-arranged traveling enables you to meet local people . Self-arranged enables