• 沒有找到結果。

利用可能性比例與共現頻率進行篩選

第五章 產生訓練語料

5.3 擷取中英詞對與未知詞

5.3.2 利用可能性比例與共現頻率進行篩選

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

文句會有未被斷詞的「中文遺留字詞」,英文句會有無法在中文句中找到對應詞彙的「英 文遺留字詞」。對於中文句中的所有「中文遺留字詞」,我們使用 PAT-tree 抽詞程式[35]

進行初步的詞彙擷取。我們發現利用 PAT-tree 抽詞程式所擷取出的結果中,許多錯誤的 結果都會含有停用詞,如表 5.1 中的「會不」、「確的」;因此對於以 PAT-tree 抽詞程式所 擷取出的結果,我們藉由停用詞列表將其中包含停用詞的結果去除後,我們稱其餘的結 果為「候選中文遺留字詞」。由同一平行句對的「候選中文遺留字詞」及「英文遺留字 詞」所產生的詞對則稱為「候選中英遺留詞對」。然後因為我們希望得到的是新的中英 詞對與未知詞,所以我們去除包含於英漢辭典模組中的辭典之「候選中英遺留詞對」及 包含於中文辭典模組中的辭典之「候選中文遺留字詞」。

5.3.2 利用可能性比例與共現頻率進行篩選

因為可能性比例可用於分析兩個詞的關連度[34],而由較有關連的「候選中文遺留字詞」

與「英文遺留字詞」所形成的「候選中英遺留詞對」有較大的機會為正確的中英詞對,

所以本研究利用可能性比例對「候選中英遺留詞對」進行篩選。

表 5.1 PAT-tree 抽詞程式所擷取出之結果 擷取出之結果 詞頻

劍橋 10 會不 10

歐斯 10

確的 10

飛利浦 9

火劫學說 8

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

我們首先對「候選中文遺留字詞」(c)與「英文遺留字詞」(e)進行 H1、H2 兩個 假設:

H1: 𝑃(𝑒|𝑐) = 𝑝 = 𝑃(𝑒|𝑐̅) (6) H2: 𝑃(𝑒|𝑐) = 𝑝1 ≠ 𝑝2 = 𝑃(𝑒|𝑐̅) (7) 𝑝 =𝐹𝑒

𝑁 (8)

𝑝1 =𝐹𝑐𝑒

𝐹𝑐 (9)

𝑝2 = 𝐹𝑒 − 𝐹𝑐𝑒

𝑁 − 𝐹𝑐 (10)

H1 表示兩個詞之間是獨立的,H2 表示兩個詞之間是相依的。𝐹𝑒為在所有英文句中

「英文遺留字詞」出現的句數,𝐹𝑐為在所有中文句中「候選中文遺留字詞」出現的句數,

𝐹𝑐𝑒為「候選中英遺留詞對」的共現頻率(共現頻率為候選中英遺留詞對中的中文詞與 英文詞共同出現的句對數,而中文詞與英文詞共同出現的意思是:中文詞出現在某平行 句對的中文句,且英文詞也出現在該句對的英文句),𝑁為中英平行語料的總句數。

我們利用可能性比例檢驗 H1、 H2;假設機率分佈為 binomial distribution,則 b(𝑘, 𝑛, 𝑥) = �𝑛𝑘�𝑥𝑘(1 − 𝑥)𝑛−𝑘

而可能性比例的公式如下:

Likelihood ratio (𝑐, 𝑒) = logλ = log b(𝐹𝑐𝑒, 𝐹𝑐, 𝑝)b(𝐹𝑒 − 𝐹𝑐𝑒, 𝑁 − 𝐹𝑐, 𝑝)

b(𝐹𝑐𝑒, 𝐹𝑐, 𝑝1)b(𝐹𝑒 − 𝐹𝑐𝑒, 𝑁 − 𝐹𝑐, 𝑝2) (11) = logL(𝐹𝑐𝑒, 𝐹𝑐, 𝑝) + logL(𝐹𝑒 − 𝐹𝑐𝑒, 𝑁 − 𝐹𝑐, 𝑝)

−logL(𝐹𝑐𝑒, 𝐹𝑐, 𝑝1) − logL(𝐹𝑒 − 𝐹𝑐𝑒, 𝑁 − 𝐹𝑐, 𝑝2) 在公式(11)中,L(𝑘, 𝑛, 𝑥) = 𝑥𝑘(1 − 𝑥)𝑛−𝑘

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

我們將信心水準(confidence level)訂為 99.5%,則臨界值(critical value)為 7.88。當

−2logλ超過 7.88 時,代表接受 H2,此時「候選中文遺留字詞」與「英文遺留字詞」是 有關連的。

除了利用可能性比例做為篩選「候選中英遺留詞對」的條件外,我們也將「候選中 英遺留詞對」的共現頻率作為門檻值來對「候選中英遺留詞對」進行篩選。我們將共現 頻率作為第一篩選條件,可能性比例檢驗為第二篩選條件,而以下為篩選的大略流程:

首先我們會將候選中英遺留詞對依照共現頻率之大小由大到小進行排序,當共現頻率相 等時再依照−2logλ之大小由大到小進行排序。而在篩選時,首先判斷該「候選中英遺留 詞對」的共現頻率是否大於或等於我們設定的門檻值,若通過會再對該「候選中英遺留 詞對」進行可能性比例檢驗,若該詞對之−2logλ超過 7.88,則將該詞對視為正確的詞對,

將其篩選出。不過若由某候選中文遺留字詞或某英文遺留字詞所形成的許多詞對都被篩 選出的話,則我們只取包含該候選中文遺留字詞或英文遺留字詞的排名最高之詞對。

以下透過表 5.2 說明如何利用可能性比例與共現頻率進行篩選,而表 5.2 中的候選 中英遺留詞對已依照上一段落所述方法依序依照共現頻率、−2logλ大小由大到小進行排 序。假設將共現頻率的門檻值設為 3,則表 5.2 中的詞對“越高 increase”雖然共現頻率 大於或等於 3,但因進行可能性比例檢測後其−2logλ小於 7.88,所以該詞對會被視為錯 誤的詞對。而「石墨薄膜 graphene」、「奈米碳管 nanotube」、「線寬 feature」、「波束 beams」

表 5.2 候選中英遺留詞對之共現頻率與−2logλ對應表

排名 候選中英遺留詞對 共現頻率 −2logλ 1 石墨薄膜 graphene 11 65.154 2 奈米碳管 nanotube 10 55.323 3 線寬 feature 7 27.043

4 波束 beams 7 24.219

5 越高 increase 3 6.230

6 損失 major 1 1.152

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

之共現頻率皆大於或等於 3 且進行可能性比例檢測後其−2logλ大於 7.88,所以這 4 個詞 彙會被視為新的中英詞對並加入至英漢辭典模組中。