• 沒有找到結果。

第四章 詞彙對列技術

4.2 遺留字詞的利用

4.2.2 對列計算

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

39

表 4.18 遺留字詞的情況 遺留

字詞 對列結果 遺留

字詞

一對一 我 在 想 她 是 誰 。 想

I am wondering who she is . wondering

一對多 眼見為憑 。 眼見為憑

Seeing is believing . Seeing is

believing 多對一 我們 用 有毒 的 化學 藥品 來 殺死 老鼠 。 的 化學

藥品

We use poisonous chemicals to kill rats . chemicals 多對多 自助 旅行 使 你 可以 遇見 當地 的 人 。 自助 使

可以 的

Self-arranged traveling enables you to meet local people . Self-arranged enables

4.2.2 對列計算

在此我們將參照曾元顯[14]所使用的計分公式,進而篩選由「中英都有遺留字詞」所產生 的中文字詞對應英文字詞之詞對組合,最後則可以擴張手邊原始的辭典檔,重新進行詞 彙對列模組,來達到提升詞彙對列整體的效果。在原始的文獻中,作者想利用大量專利 文書的平行語料,來擷取出互為翻譯的詞彙,使得作者既有的上百萬條雙語詞庫,可再 增加約 20%的新詞彙。而在文獻中,作者利用了六種評估公式,交互討論從專利文書語 料庫中所召回新詞彙的正確性。文獻中一共提到了六種評估公式,在此我們選用其中五 個較為基礎的評估公式,分別為點互訊息(pointwise mutual information)、相關分析

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

40

(correlation coefficient)、可能性比例(likelihood ratios)、Dice 係數(Dice coefficient)

和分數累積(fractional count),我們將會針對各個不同的公式來進行討論和分析。

相較於[14]的做法,原作者先將中英文平行句對中的連結詞、代名詞等停用詞進行 替換後,利用單語詞庫針對一般性的詞彙進行詞彙過濾,如此一來便可以減少對列計算 的運算量。而在本系統中,在進行對列計算之前,我們已經先對中英文平行句對進行詞 彙對列,等同於進行了詞彙過濾的動作,接著系統便可以進一步將詞彙對列後所剩餘的 字詞進行配對,再透過對列分析來進行篩選,找出原始辭典中沒有的翻譯組合。在此我 們將參考[14]所選用的分析公式,下列將依序說明:

1. 相關分析(correlation coefficient)

首先,卡方測定(Pearson’s chi-square test)是一個常見的相關分析公式[28],主要 是因為這種卡方測定相當容易對兩個變數進行分析。我們先將各個變數進行如表 4.19 之定義:

表 4.19 中英平行句對遺留字詞出現之次數

中文遺留字詞存在 中文遺留字詞不存在 合計

英文遺留字詞存在 f11 f12 Fe

英文遺留字詞不存在 f21 f22 Fe

合計 Fc Fc N

表 4.19 內的f11、f12、f21、f22分別代表,中文遺留字詞(以下用 c 表示)和英文遺 留字詞(以下用 e 表示)同時存在的句對次數、e 存在但是 c 不存在的句對次數、c 存在 但是 e 不存在的句對次數和 c 和 e 都同時不存在的對句次數。而 Fe、Fe、Fc、Fc和 N,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

41

分別為縱軸、橫軸之總計。透過這樣的變數定義,我們便可以快速的進行卡方測定,而 卡方測定最大的好處在於,可以對常態分布的變數,來進行相依性(dependence)的計 算,如公式(1)所示。

χ2(c, e) =(f11 ∗ f22− f12∗ f21)2

𝐹𝐹𝐹𝐹 ∗ 𝐹𝐹𝐹𝐹 ∗ 𝐹𝐹𝐹𝐹 ∗ 𝐹𝐹𝐹𝐹 (1)

卡方檢定所得出來的數值介於 0 至 1 之間,我們將卡方檢定的式子做一個開根號的 處理,我們可以得到如公式(2)所示之式子[14],如此一來我們便可以把卡方檢定的值 域從[0,1]轉至成[-1,1]之間,其中正、負號分別代表的兩個變數之間的正相關與負相關,

透過公式的計算,我們知道當分數越大時,互為翻譯詞對的可能性也越高,因此我們為 了過濾出遺留字詞組合優劣,我們將透過公式(2)來對遺留字詞產生的新詞對進行量 化。

CC(c, e) =(f11 ∗ f22− f12∗ f21)

�𝐹𝐹𝐹𝐹 ∗ 𝐹𝐹𝐹𝐹 ∗ 𝐹𝐹𝐹𝐹 ∗ 𝐹𝐹𝐹𝐹 (2)

2 . 點互訊息(pointwise mutual information)

點互訊息為統計式自然語言處理中常見的評估公式[28],如公式(3)所示。

PMI(c, e) = log2 Pr(c, e) Pr(c) ∗ Pr(e)

(3)

我們將會計算遺留字詞在各種情況的機率,p(c,e)表是中文遺留字詞於英文遺留 字詞同時出現在平行句對的機率,p(c)、p(e)則分別代表中文遺留字詞、英文遺留 字詞各別在訓練語料中出現的機率。

3. 分數累積(fractional count)

此為一個最直接也最簡單的量化機制,以表 4.20 作為說明,表中有兩組已經透過 對列模組之後的結果。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

42

表 4.20 分數累積之範例

自助 旅行 使 你 可以 遇見 當地 的 人 。

Self-arranged traveling enables you to meet local people . 一本 旅遊 指南 對 自助 旅行 者 來 說 是 最 重要 的 。

A guidebook is the most important item for a self-arranged traveler .

由於詞彙對列模組是以漢英辭典做為索引檔,因此我們以中文遺留字詞的數量當作 分母,對過去的詞彙對列結果中進行分數累積,來得到各個詞組的量化分數,如<自助

-self-arranged>這個組合,在表 4.20 的第一組中共有四個中文遺留字詞(自助、使、

可以、的),因此可以獲得 1/4 的分數;在第二組中共有八個中文遺留字詞(旅遊、指南、

自助、旅行、者、來、說、的),其可以獲得 1/8 的分數,最後將所有的分數進行加總,

此例中我們可以得到<自助-self-arranged>的量化分數為 3/8。透過分數累積的計算,

當分數越高時,代表兩詞彙的相關性也越高。

4. Dice 係數(Dice coefficient)

Dice 係數為資訊檢索(Information Retrieval)中常見之評估公式[29],也常見於自 然語言處理計算兩個字串之間的相似度,如公式(4)所示。

DC(c, e) = 2 ∗ f11

(Fc + Fe)= 2 ∗ f11

2 ∗ f11 + f12+ f21 (4)

Dice 係數會統計遺留字詞組合的次數,但也會統計中文遺留字詞和英文遺留字詞各 別出現的次數,並且進行相除的動作,如此一來便可以排除一些出現頻率過高的詞彙。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

43

5. 可能性比例(likelihood ratios)

首先對於新詞組中的中文字詞(c)和英文字詞(e)進行兩個假設:

假設 1(H1):p(e|c) = p(e|c�) 假設 2(H2):p(e|c) ≠ p(e|c�)

在此為了檢驗H1和H2何者假設成立,我們利用可能性比例公式來進行檢定,將 L(H1)

當作分子,L(H2)當作分母,以得到我們所觀察的詞對組合較偏向於何種假設。由於其

計算出來的數據原為負數,我們仿照[14]的方法將其改為正數,如公式(5)所示[28]。

𝐿𝐿𝐿𝐿(c, e) = −log

𝐿𝐿(H𝐿𝐿(H1)

2)

= log

b�f11,Fc,p(e|c)�∗b�f12,Fc,p(e|c)�

b(f11,Fc,p(e))∗b�f12,Fc,p(e)�

= log𝐿𝐿�f11, Fc, p(e|c)� + log𝐿𝐿 �f12, Fc, p(e|c)�

− �log𝐿𝐿(f11, Fc, p(e)) + log𝐿𝐿�f12, Fc, p(e)��

(5)

在 公 式 ( 5 ) 中 的 b(k;n,x)=�nk�xk(1 − x)n−k , L(k,n,x)= xk∗ (1 − x)n−k , p(e)=Fe

N ,p(e|c)=fFc11,p(e|c)=fFc12,而由於可能性比例在計算的同時,由於我們沒有執行平 滑(smoothing)的修正,進而導致某些可能互為翻譯的新詞對產生非數字(NaN)的現象,

在此我們將忽略這些詞對組合,以便進行排序。我們將會在實驗的部分,利用這五個評 估公式來進行分析,來對這些中英遺留字詞所產生的詞對組合進行篩選,並且設立門檻 值進而挑選出可以使用的新詞對。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

44