• 沒有找到結果。

第三章 斷詞系統

3.3 客語分詞與詞性標記

由於我們在客語語料上的不足,無法以條件隨機域方法獨自訓練出客語專用的斷 詞系統,因此本論文採用客語外掛詞典、國語詞典、客語構詞規則以及中文條件隨機 域模型組合成客語分詞與詞性標記系統。

在分詞階段,文句輸入經由優先搜尋客語外掛詞典,若是在詞典搜尋到該詞則將 此詞切分開,其餘文字經由中文條件隨機域模型及國語內部詞典挑選出分詞候選句,

接著查詢外掛詞典及內部詞典得到每個詞的詞性標記組合,最後由中文條件隨機域模 型得到最佳斷詞與詞性標記序列。

3.3.1 客語詞典

客語外掛詞典是客語分詞與詞性標記系統中很關鍵的資訊,我們先將客語詞典中 與中文內部詞典相同的共用詞彙刪除,其所有外掛詞典之資料量在表 3-6 詳細列出。

表 3-5 客語外掛詞典統計表

詞數

一字詞 91 二字詞 5296 三字詞 5521 四字詞 3401 五字詞 293 六字詞 75 七字詞 80 八字詞 12

總計 14769

18

3.3.2 構詞規則

分詞會將輸入的文句和詞典做比對,我們無法將所有可能的詞條列於詞典當中,

這些無法收錄於詞典之詞,有些是有規律的,可由「詞類標記單元」得到詞性標籤後 再經由「構詞單元」結合出來。

客家話的構詞規則和國語非常相似,大致上分為四種,分別是重複,附加,附合

及合併。所謂重複是指單一詞彙之重複,如「洗湯」重複成「洗洗湯湯」(表廚房內擦

擦洗洗之事)。附加則是在詞的前後附加綴詞,如在「婆」之前加前綴詞「阿」形成「阿

婆」一詞,後綴詞如在「刀」之後加「仔」形成「刀仔」。附合詞是指兩個獨立的詞結

合而成另一個新詞,例如「青菜」是由「青」和「菜」組成,但「青菜」不一定是指

「青色的菜」,而是所有蔬菜的泛稱,附合詞兩個詞之間不能插加任何詞語,由此可見

附合詞並不單純是兩個詞的併列,而是有其密不可分的構詞特性。第四種構詞方式稱 為合併,這是中文構詞規則所沒有的,如 cin1(親)ga1(家)念快時會變成 cia1(親

家),這種合併結果是單音節多詞素的構詞。我們解決附合詞的方式為新增詞條至詞典,

而合併詞在四縣客家話當中並不常見,因此本系統所採用的構詞規則主要以重複和附 加為主。

我們採用中央研究院詞庫小組所制訂的「中文分詞處理原則」,由其處理原則中挑

選出符合客語文章之構詞規則加入本系統,詳細構詞規則如表 3-6、表 3-7 所示。表 3-6 列出了客語和國語完全相同的構詞規則,表 3-8 則為客語和國語平行的構詞規則,

其構詞結構一樣,但關鍵字由中文詞替換為客語詞。

19

20

詞情形。

為了處理客語字之詞性組合和中文模型無法相對應的問題,我們從中文模型可允 許的詞性組合中找出最相近的,上例中為「Na_Nf_VC」,並將其加入外掛詞典,如 下例所表示:

客語字 語料庫中出現對應中文字/POS 對應中文字/POS 加入客語外部詞典 POS

擺 次/Nf 次/Nes_Nf Na_Nf_VC

擺/VC 擺/VAC_VC

本實驗從客語語料中統計出現次數最多的 40 個一字詞,將有此問題之單元整理其 對應詞性,並加入外掛詞典中,所加入之一字詞如附錄二所表示。

21

相關文件