• 沒有找到結果。

第五章 產生訓練語料

5.1 產生各種斷詞組合

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第五章 產生訓練語料

第五章主要介紹產生訓練語料與擷取中英平行語料中的中英詞對與未知詞的方法。5.1 節介紹產生句子的各種斷詞組合的方法,5.2 節介紹如何利用英漢翻譯的資訊處理交集 型歧異,並去除錯誤的斷詞組合,5.3 節介紹擷取中英詞對與未知詞的方法。

5.1 產生各種斷詞組合

中文句可以看成是由字所組成的字串,而隨著組合成句子的詞彙的不同,會形成不同的 斷詞組合。因此我們針對未斷詞語料中的每句中文句,透過查詢中文辭典的方式,產生 由不同的詞彙所組成的句子之各種斷詞組合,藉此得到訓練語料。我們產生中文句的各 種斷詞組合的目的為希望在訓練斷詞模型的過程中,透過大量語料的統計現象,來得到 較佳的斷詞模型。我們將句子表示成字串 C1n (C1n = C1

C

2…

C

n),並依照圖 5.1 的步 驟來產生句子的各種斷詞組合。以下為圖 5.1 中 Vi與 Candi(i=1 to n)的定義。Vi為詞 彙集合,在 Vi內會存放句子中所有以 Ci開頭的詞彙。Candi為候選集合,在 Candi內會

1. 針對句子中的每一個字 Ci(i=1 to n)查詢中文辭典模組的辭典中是否包含句 子中以該字開頭的不同長度之字串(字串的長度為 1 to n-i+1),若包含則將該 字串加入 Vi

2. 將 i 的初始值設為 1。

3. (a).如果 V1中的某一詞彙等同於 C1i,則把該詞彙加入至 Candi(b). for j =1 to i-1, i > 1

如果 Candj中的某一斷詞組合加上 Vj+1中的另一詞彙後,不含有「包含 單字詞的詞彙組合」,並且等同於 C1i,則把該斷詞組合加入至 Candi。 4. 如果 i 不等於 n,則把 i 遞增 1,並重回到步驟 3。如果 i 等於 n,則 Candi

內的所有斷詞組合即為該句子的各種斷詞組合。

圖 5.1 產生句子的各種斷詞組合的步驟

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

存放字串 C1i 的各種斷詞組合。

在上頁圖 5.1 步驟 3(b)中提到的「包含單字詞的詞彙組合」的定義為:當某詞彙組 合中包含單字詞,且該詞彙組合可以結合成一個詞彙時,則該詞彙組合為「包含單字詞 的詞彙組合」。例如「科學/家」這一個詞彙組合包含了單字詞「家」,且「科學/家」可 以結合成詞彙「科學家」,則「科學/家」為「包含單字詞的詞彙組合」。我們發現若句子 內含有許多「包含單字詞的詞彙組合」時,會產生大量的斷詞組合。如「一家民間公司 提議用鐵粉在部分海洋施肥」這句中文句,包含了「一/家」、「民/間」、「公/司」、「提/

議」、「鐵/粉」、「部/分」、「海/洋」、「施/肥」這些「包含單字詞的詞彙組合」,而在不去 除含有「包含單字詞的詞彙組合」之斷詞組合的情況下,最後該中文句會產生 256 組的 斷詞組合。若語料中的許多中文句都會產生大量的斷詞組合,就會使得訓練語料變得過 於龐大,造成在訓練斷詞模型時會消耗大量時間、資源。因此在步驟 3(b)我們不將含有

「包含單字詞的詞彙組合」的斷詞組合加入 Candi,藉此去除含有「包含單字詞的詞彙 組合」之斷詞組合。

以下我們以「貼近市場需求,」這一句子為例,對產生句子的各種斷詞組合的步驟

字串 C1i

C1:貼 C2:近 C3:市 C4:場 C5:需 C6:求 C7:,

詞彙集合 Vi

V1 V2 V3 V4 V5 V6 V7

貼近 市場 需求

市場需求

查詢中文辭典中是否包含句子中以 Ci開頭的不同長度之字串,若包含則將該字串加入 Vi

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

進行說明。在上頁圖 5.1 中步驟 1,會針對「貼」、「近」、「市」…「,」一一去查詢中 文辭典模組的辭典中是否包含句子中以該字開頭的不同長度之字串。若以「貼」為例,

會查詢辭典中是否包含「貼」、「貼近」、「貼近市」等字串,若辭典中有包含,則表示該 字串為一詞彙,所以該字串會被加入至 V1;此外若 Ci為標點符號,我們則把它視為存 在於辭典中的單字詞,將其加入至 Vi。最終的 Vi則如上頁圖 5.2 所示。

在圖 5.1 步驟 3 中的 i 代表不同的階段,而在各個階段會產生字串 C1i 之各種斷詞 組合。在 i 等於 1 時,在步驟 3(a)會檢查 V1中是否有詞彙等同於 C11,而因為 V1中的

「貼」等同於 C11,所以會被加入至 Cand1。i 等於 2 時,在步驟 3(a)會查詢 V1中是否 有詞彙等同於 C12,而 V1中的「貼近」等同於 C12,所以會被加入至 Cand2;在步驟 3(b),「貼」加上「近」後會形成「貼 近」,為含有「包含單字詞的詞彙組合」的斷詞 組合,所以「貼 近」不會被加入至 Cand2。重複執行步驟 3、步驟 4 到 i 等於 6 時,在 步驟 3(b),Cand5中的「貼近 市場 需」加上「求」後會含有「需 求」這個「包含單字 詞的詞彙組合」,所以不會被加入至 Cand6;而 Cand4中的「貼近 市場」加上 V5中的

「需求」會等同於 C16,所以會被加入至 Cand6; Cand2中的「貼近」加上 V3中的「市 場需求」會等同於 C16,所以也會被加入至 Cand6。重複執行步驟 3、步驟 4 到 i 等於 7,

則 Cand7內的所有斷詞組合就是句子之各種斷詞組合。圖 5.3 則是各階段的 Candi的內 容。

i=1 i=2 i=3 i=4 i=5

Cand

1

Cand

2

Cand

3

Cand

4

Cand

5

貼 貼近 貼近 市 貼近 市場 貼近 市場 需

i=7 i=6

Cand

7

Cand

6

貼近 市場 需求 , 貼近 市場 需求 貼近 市場需求 , 貼近 市場需求

圖 5.3 各階段的 Candi的內容

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y