• 沒有找到結果。

利用詞性序列規則進行篩選

第五章 產生訓練語料

5.3 擷取中英詞對與未知詞

5.3.3 利用詞性序列規則進行篩選

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

之共現頻率皆大於或等於 3 且進行可能性比例檢測後其−2logλ大於 7.88,所以這 4 個詞 彙會被視為新的中英詞對並加入至英漢辭典模組中。

5.3.3 利用詞性序列規則進行篩選

我們觀察了所擷取出的「候選中文遺留字詞」後,發現「候選中文遺留字詞」可分成以 下 3 大類:第一類為存在於辭典中的「已知詞」,第二類為不存在於辭典中的「未知詞」, 第三類為「不是詞彙的中文字串」,例如「我搶」。中文詞彙通常會擁有特定之構詞結構

(如並列式、偏正式等結構[15]),而不是任意地由幾個中文字進行組合就可構成;我們 稱由不同詞性之詞素所組成的規則為詞性序列規則,而詞彙之構詞結構可由不同詞性序 列規則所構成,例如「名詞 動詞」這個詞性序列規則是由名詞與動詞之詞素組成,而 偏正式結構可由「名詞 動詞」所構成。對於辭典中的各個詞彙,本研究設計了一套流 程去取得構成辭典詞彙之構詞結構的各個詞性序列規則,之後利用所取得的詞性序列規 則去對「候選中文遺留字詞」進行篩選。利用詞性序列規則篩選「候選中文遺留字詞」

的原因是:當構成「候選中文遺留字詞」的構詞結構之詞性序列規則符合構成辭典詞彙 之構詞結構的詞性序列規則時,表示「候選中文遺留字詞」所擁有的構詞結構符合辭典 中的詞彙之構詞結構,因此我們認為該「候選中文遺留字詞」較可能為未知詞,而非「不 是詞彙的中文字串」。我們將通過篩選的「候選中文遺留字詞」視為未知詞,將其加入 至中文辭典模組,以擴充詞彙數量。

為了利用詞性序列規則去篩選「候選中文遺留字詞」,首先需建立詞性序列規則表。

建立詞性序列規則表後,我們利用詞性序列規則的出現次數作為門檻值,並利用通過門 檻值的詞性序列規則對「候選中文遺留字詞」進行篩選。

為了取得詞彙的詞性序列規則,需要先將詞彙切割成幾個小單位,再對其標注詞性。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

的部分詞彙的方式,將這些詞彙當作未知詞;若這些詞彙出現在語料中,則該詞彙經過 斷詞處理後會被斷成幾個較小的單位。本研究把由這幾個較小的單位構成的詞彙組合稱 為「未知詞候選詞彙組合」。比方說我們將「房地產」由辭典中去除,使其成為未知詞。

而「房地產」經過斷詞後被斷成「房地」、「產」兩個小單位,由「房地」、「產」構成的 詞彙組合「房地 產」即為「未知詞候選詞彙組合」。

我們透過圖 5.5 之各個步驟來建立詞性序列規則表。在圖 5.5 中步驟 1,我們將 N 取 10,把辭典切割成十等份。以下我們對步驟 3 到 6 進行說明:在第 k 回合,我們將原 始中文辭典的第 k 份去除,所以在辭典之第 k 份中的詞彙會被當成未知詞;對語料斷詞 後,出現在語料中之第 k 份中的詞彙會被斷成「未知詞候選詞彙組合」。在步驟 5,本研 究 利 用 史 丹 佛 剖 析 器 對 語 料 標 注 詞 性 , 而 標 注 時 所 使 用 的 字 典 模 型 為 xinhuaFactored.ser.gz。對語料標注詞性後,語料中的「未知詞候選詞彙組合」之詞性序 列規則即為該詞彙之詞性序列規則。例如「房地 產」經過詞性標注後變為「房地/NN 產 /NN」,則「房地產」之詞性序列規則為“ NN NN ”。不過史丹佛剖析器在不同的語境 下,對相同的「未知詞候選詞彙組合」可能會標注不同的詞性,如「房地 產」也可能 被標注為「房地/NN 產/VV」,所以一個詞彙的詞性序列規則可能不只一種。在步驟 6 我們對各個經過詞性標注後的未知詞候選詞彙組合(如「房地/NN 產/NN」)進行擷取,

就取得各個詞彙之詞性序列規則;而在統計詞性序列規則時,我們將詞彙之可能的各種 1. 將原始中文辭典切割成 N 等份

2. for k =1 to N

3. 將原始中文辭典中的第 k 份去除

4. 利用去除掉第 k 份的中文辭典對語料進行斷詞 5. 利用史丹佛剖析器對已斷詞的語料標注詞性

6. 從語料中取得各詞彙之詞性序列規則,統計各個詞性序列規則的出現次數並 記錄於Rk

7. 合併上述R1, R2,…, RN的結果

圖 5.5 建立詞性序列規則表的步驟

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

詞性序列規則都納入統計。最後我們將R1到R10的結果進行合併,就完成詞性序列規則 表的建置。

表 5.3 為詞性序列規則表的內容格式;在篩選「候選中文遺留字詞」時我們將詞性 序列規則的出現次數做為門檻值,以出現次數大於或等於門檻值的各個詞性序列規則對

「候選中文遺留字詞」進行篩選。假設我們將門檻值設為 30,則表 5.3 中用紅色粗體標 示的詞性序列規則為出現次數大於或等於門檻值的規則,我們會利用這些詞性序列規則 對「候選中文遺留字詞」進行篩選。

下頁圖 5.6 為利用詞性序列規則篩選候選中文遺留字詞之範例。以下我們藉圖 5.6 說明利用詞性序列規則篩選候選中文遺留字詞的整體流程。首先透過中文辭典以長詞優 先方式對候選中文遺留字詞進行斷詞,再利用史丹佛剖析器標注詞性,就可取得各個候 選中文遺留字詞之詞性序列規則;如果以圖 5.6 中之「前鋒報」為例,因為「前鋒報」

經過斷詞、標注詞性後變成「前鋒/NN 報/NN」,所以「前鋒報」之詞性序列規則為「NN NN」。之後我們透過詞性序列規則表中各個詞性序列規則(圖 5.6 中以紅色斜體標示的 規則)進行篩選,將詞性標記、空白去除就得到通過篩選之候選中文遺留字詞;例如在 圖 5.6 中,透過詞性序列規則表中的詞性序列規則「VV NN NN」篩選出「淘/VV 寶 /NN 網/NN」、「治/VV 區/NN 主席/NN」之後,將詞性標記、空白去除就得到「淘

表 5.3 詞性序列規則表的內容格式 詞性序列規則 出現次數

NN NN

6238

VV NN

3596

AD VV

3579

VV M

213

VV NN NN

156

AD NR

55

NN NN VV NN 19 NR NN CD 6

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 6.1 實驗語料句數統計

語料 句數

科學人 63256

新聞語料 54002 C300 296748 C220 222250 廣播會話語料 24351