利用詞性序列規則進行篩選

第五章產生訓練語料

5.3 擷取中英詞對與未知詞

5.3.3 利用詞性序列規則進行篩選

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

之共現頻率皆大於或等於 3 且進行可能性比例檢測後其−2logλ大於 7.88，所以這 4 個詞彙會被視為新的中英詞對並加入至英漢辭典模組中。

5.3.3 利用詞性序列規則進行篩選

我們觀察了所擷取出的「候選中文遺留字詞」後，發現「候選中文遺留字詞」可分成以下 3 大類：第一類為存在於辭典中的「已知詞」，第二類為不存在於辭典中的「未知詞」，第三類為「不是詞彙的中文字串」，例如「我搶」。中文詞彙通常會擁有特定之構詞結構

（如並列式、偏正式等結構[15]），而不是任意地由幾個中文字進行組合就可構成；我們稱由不同詞性之詞素所組成的規則為詞性序列規則，而詞彙之構詞結構可由不同詞性序列規則所構成，例如「名詞動詞」這個詞性序列規則是由名詞與動詞之詞素組成，而偏正式結構可由「名詞動詞」所構成。對於辭典中的各個詞彙，本研究設計了一套流程去取得構成辭典詞彙之構詞結構的各個詞性序列規則，之後利用所取得的詞性序列規則去對「候選中文遺留字詞」進行篩選。利用詞性序列規則篩選「候選中文遺留字詞」

的原因是：當構成「候選中文遺留字詞」的構詞結構之詞性序列規則符合構成辭典詞彙之構詞結構的詞性序列規則時，表示「候選中文遺留字詞」所擁有的構詞結構符合辭典中的詞彙之構詞結構，因此我們認為該「候選中文遺留字詞」較可能為未知詞，而非「不是詞彙的中文字串」。我們將通過篩選的「候選中文遺留字詞」視為未知詞，將其加入至中文辭典模組，以擴充詞彙數量。

為了利用詞性序列規則去篩選「候選中文遺留字詞」，首先需建立詞性序列規則表。

建立詞性序列規則表後，我們利用詞性序列規則的出現次數作為門檻值，並利用通過門檻值的詞性序列規則對「候選中文遺留字詞」進行篩選。

為了取得詞彙的詞性序列規則，需要先將詞彙切割成幾個小單位，再對其標注詞性。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的部分詞彙的方式，將這些詞彙當作未知詞；若這些詞彙出現在語料中，則該詞彙經過斷詞處理後會被斷成幾個較小的單位。本研究把由這幾個較小的單位構成的詞彙組合稱為「未知詞候選詞彙組合」。比方說我們將「房地產」由辭典中去除，使其成為未知詞。

而「房地產」經過斷詞後被斷成「房地」、「產」兩個小單位，由「房地」、「產」構成的詞彙組合「房地產」即為「未知詞候選詞彙組合」。

我們透過圖 5.5 之各個步驟來建立詞性序列規則表。在圖 5.5 中步驟 1，我們將 N 取 10，把辭典切割成十等份。以下我們對步驟 3 到 6 進行說明：在第 k 回合，我們將原始中文辭典的第 k 份去除，所以在辭典之第 k 份中的詞彙會被當成未知詞；對語料斷詞後，出現在語料中之第 k 份中的詞彙會被斷成「未知詞候選詞彙組合」。在步驟 5，本研究利用史丹佛剖析器對語料標注詞性，而標注時所使用的字典模型為 xinhuaFactored.ser.gz。對語料標注詞性後，語料中的「未知詞候選詞彙組合」之詞性序列規則即為該詞彙之詞性序列規則。例如「房地產」經過詞性標注後變為「房地/NN 產 /NN」，則「房地產」之詞性序列規則為“ NN NN ”。不過史丹佛剖析器在不同的語境下，對相同的「未知詞候選詞彙組合」可能會標注不同的詞性，如「房地產」也可能被標注為「房地/NN 產/VV」，所以一個詞彙的詞性序列規則可能不只一種。在步驟 6 我們對各個經過詞性標注後的未知詞候選詞彙組合（如「房地/NN 產/NN」）進行擷取，

就取得各個詞彙之詞性序列規則；而在統計詞性序列規則時，我們將詞彙之可能的各種 1. 將原始中文辭典切割成 N 等份

2. for k =1 to N

3. 將原始中文辭典中的第 k 份去除

4. 利用去除掉第 k 份的中文辭典對語料進行斷詞 5. 利用史丹佛剖析器對已斷詞的語料標注詞性

6. 從語料中取得各詞彙之詞性序列規則，統計各個詞性序列規則的出現次數並記錄於R_k中

7. 合併上述R1, R2,…, RN的結果

圖 5.5 建立詞性序列規則表的步驟

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

詞性序列規則都納入統計。最後我們將R1到R10的結果進行合併，就完成詞性序列規則表的建置。

表 5.3 為詞性序列規則表的內容格式；在篩選「候選中文遺留字詞」時我們將詞性序列規則的出現次數做為門檻值，以出現次數大於或等於門檻值的各個詞性序列規則對

「候選中文遺留字詞」進行篩選。假設我們將門檻值設為 30，則表 5.3 中用紅色粗體標示的詞性序列規則為出現次數大於或等於門檻值的規則，我們會利用這些詞性序列規則對「候選中文遺留字詞」進行篩選。

下頁圖 5.6 為利用詞性序列規則篩選候選中文遺留字詞之範例。以下我們藉圖 5.6 說明利用詞性序列規則篩選候選中文遺留字詞的整體流程。首先透過中文辭典以長詞優先方式對候選中文遺留字詞進行斷詞，再利用史丹佛剖析器標注詞性，就可取得各個候選中文遺留字詞之詞性序列規則；如果以圖 5.6 中之「前鋒報」為例，因為「前鋒報」

經過斷詞、標注詞性後變成「前鋒/NN 報/NN」，所以「前鋒報」之詞性序列規則為「NN NN」。之後我們透過詞性序列規則表中各個詞性序列規則（圖 5.6 中以紅色斜體標示的規則）進行篩選，將詞性標記、空白去除就得到通過篩選之候選中文遺留字詞；例如在圖 5.6 中，透過詞性序列規則表中的詞性序列規則「VV NN NN」篩選出「淘/VV 寶 /NN 網/NN」、「治/VV 區/NN 主席/NN」之後，將詞性標記、空白去除就得到「淘

表 5.3 詞性序列規則表的內容格式 詞性序列規則出現次數

NN NN

6238

VV NN

3596

AD VV

3579

VV M

213

VV NN NN

156

AD NR

NN NN VV NN 19 NR NN CD 6

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 6.1 實驗語料句數統計

語料句數

科學人 63256

新聞語料 54002 C300 296748 C220 222250 廣播會話語料 24351

在文檔中應用平行語料建構中文斷詞組件 - 政大學術集成 (頁 45-49)

第五章 產生訓練語料

5.3 擷取中英詞對與未知詞

5.3.3 利用詞性序列規則進行篩選

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

NN NN

VV NN

AD VV

VV M

VV NN NN

AD NR

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章產生訓練語料

立政治大學

立政治大學

立政治大學

立政治大學