• 沒有找到結果。

第二章 文獻探討

2.1 中文斷詞之相關研究

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二章 文獻探討

本章共分為兩小節。在 2.1 節回顧中文斷詞之相關研究,2.2 節介紹基於英漢雙語平行語 料進行中文斷詞的相關研究。

2.1 中文斷詞之相關研究

本節共分為四個小節。在 2.1.1 節、2.1.2 節分別回顧法則式斷詞法、統計式斷詞法之相 關研究,2.1.3 節回顧處理斷詞歧異性、未知詞問題之相關研究,2.1.4 節為斷詞標準不 一問題之相關研究。

2.1.1 法則式斷詞法之相關研究

法則式的斷詞法會利用辭典,並搭配規則進行斷詞。Chen[19]提出了利用經驗法則

(heuristic rules)處理斷詞歧異性問題的方法。該方法當斷詞歧異性問題發生時,會根 據辭典及 determinative-measure compounds rule 產生以該字詞開頭的連續三個詞的所有 詞組。產生所有詞組後,會利用六條經驗法則去挑選符合規則的詞組。

2.1.2 統計式斷詞法之相關研究

在統計式斷詞法中,有許多研究將中文斷詞視為字元標記的工作,而在其中較廣泛被使 用的技術有條件隨機域模型(Conditional Random Fields)、隱藏式馬可夫模型(Hidden Markov Models)、感知器(Perceptron)等。以下為統計式斷詞法之相關研究介紹。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Wang 等[40]結合 character-based discriminative model 和 character-based generative model 這兩種模型以進行斷詞;該研究中提到了比起使用單一模型,如果將兩種模型結 合,能夠有更好的斷詞效能。

Jiang[28]使用 cascaded linear model 進行斷詞與詞性標記(POS tagging);cascaded linear model 為兩層的結構,在內層利用以字元為基礎的(character-based) 感知器作為核 心,並在外層的線性模型(linear model),將感知器的輸出結果作為特徵(feature),搭配 語言模型(language model)等其他特徵一起去訓練模型。結果顯示比起單獨使用感知 器的斷詞模型,cascaded linear model 不管在斷詞還是結合斷詞與詞性標記的工作上都能 有更好的正確率。

以下介紹國內一些採用統計式的斷詞法的研究。詹嘉丞[14]提出一個針對非繁體中 文字進行處理的方法,使得斷詞系統遇到非繁體中文字也能斷詞。該研究利用判斷模組 處理中文人名與日文人名,並將繁簡日韓漢字對應到繁體字,以便之後能使用繁體的已 知詞進行候選詞判斷。在斷詞效能上,採用 bigram 機率模型時,F-Measure 可以達到 94.16

%。

朱怡霖[6]採用交疊式(interleaving)方式將中文斷詞與專有名詞辨識兩項工作整合。

與管流式(pipeline) 方式不同,採用交疊式方式,會把所有候選詞保留住,並利用人名、

地名、組織名等辨識模組辨識出可能的候選詞,到最後再選出由候選詞組成的斷詞組合 中的最佳斷詞組合。

林筱晴[8]認為與傳統語料庫相比,web 擁有更大的資料量,且具有即時性;所以該 研究將 web 當成一個大型語料庫,將搜尋引擎所提供的 page count 作為詞頻套用至 likelihood ratio test,以辨識人名、地名、組織名這三種型態的未知詞;在斷詞歧異性問 題方面,則是利用 word-based bigram model 進行處理。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

利用隱藏式馬可夫模型進行中文斷詞時,許多研究會使用外部資源或是結合其他的 機器學習演算法來提高斷詞效能。但林 千翔[9]不使用任何外部資源,而是應用特製化

(specialization)的概念,將長詞優先斷詞法與隱藏式馬可夫模型結合,使得隱藏式馬 可夫模型能夠帶有斷詞歧義性及未知詞的資訊,進而提升斷詞效能。

羅永聖[18]透過兩階段的方式進行斷詞。在第一階段,透過查詢辭典得到斷詞候選 句後,利用條件隨機域模型從斷詞候選句中去除機率較低的句子;在第二階段會利用語 言規則處理人名、二字詞拆解等問題,最後再利用條件隨機域模型選出最好的候選句做 為最後的斷詞結果。

上述提到的研究中,有部分研究透過查詢辭典並搭配規則的方式來產生所有的斷詞 組合[8][14][18],並在產生所有斷詞組合後,利用馬可夫 bigram 機率模型去處理斷詞歧 異性問題[8][14],或利用條件隨機域模型去處理斷詞歧異性問題[18];他們的作法是透 過機率模型算出所有斷詞組合的機率,再選擇所有斷詞組合中機率值最高的斷詞組合作 為正確的斷詞組合。而與他們的作法不同,我們產生各種斷詞組合後,不透過機率模型,

而是利用英漢翻譯的資訊去找出正確的斷詞組合。

綜觀上述所提到的各種統計式的斷詞法,幾乎都會需要使用大量的訓練語料;而因 為現在公開提供使用的人工斷詞的訓練語料不多,所以他們所使用的訓練語料大多是中 研院平衡語料庫[3]或 SIGHAN Bakeoff 2[37]所公開的 4 種訓練語料(由中央研究院

(Academia Sinica)、香港城市大學(City University of Hong Kong)、北京大學(Peking University)及微軟亞洲研究院(Microsoft Research)所提供)。我們希望能透過系統化的 流程來自動地產生訓練語料,這樣在訓練斷詞模型時就可以不用侷限於少數幾種公開提 供使用的語料。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.1.3 斷詞歧異性問題與未知詞問題之相關研究

在處理斷詞歧異性問題的研究中, Li[30]等人利用非監督式(unsupervised)訓練的方 法處理交集型歧異。該研究利用非監督式的方式去訓練 Naive Bayesian 分類器,將判斷 交集型歧異的問題轉換成二元分類的問題後,搭配 ensemble learning,藉由多數的分類 器的投票結果去決定最後的斷詞結果。之後利用 5759 筆人工標記的交集型歧異字串的 測試集進行實驗,結果顯示該方法能夠有 94.3%的正確率。

以下介紹一些處理未知詞問題的研究。利用以辭典為基的斷詞法對未知詞進行斷詞 的話,未知詞會被切成幾個較小的單位,而 Chen 等人[20]觀察到大多數的未知詞的詞構 中都會包含單字詞。不過單字詞除了可能是未知詞的一部份之外,也有可能是單獨使用 的已知詞。所以他們利用以語料庫為基的學習法(corpus-based learning approach)去產生 偵測單獨使用的已知詞的規則,符合規則的單字詞為單獨使用的已知詞,而不符合規則 的單字詞即為未知詞的一部份。

Chen 等人[21]在 2002 年的研究中提出了一種擷取未知詞的方法;該研究在擷取未 知詞時,會針對屬於未知詞一部份的單字詞,判斷該單字詞是否可以和相鄰的詞彙進行 合併。該研究使用「形態規則」(morphological rules)與「統計規則」(statistical rules)去 擷取未知詞,並利用結構正確性(structure validity)、句法正確性(syntactic validity)、區域 一致性 (local consistency)三條準則去驗證所擷取出的結果是否為未知詞。

2.1.4 斷詞標準不一問題之相關研究

由於「中文詞」的定義每個人並不相同,且不同的工作可能適合不同的斷詞標準,所以 各個斷詞系統之間或各個人工標記語料庫(manually annotated corpora)之間可能擁有不

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

同的斷詞標準。以下介紹處理各個人工標記語料庫之間斷詞標準不一的問題之相關研 究。

為了處理人工標記語料庫之間斷詞標準不一的問題,Jiang[29]提出了自動化地將斷 詞標準轉換成另一種斷詞標準的方法。Jiang 使用以來源語料庫(source corpus)所訓練的 來源分類器(source classifier)對目標語料庫(target corpus)斷詞,將該斷詞結果作為引導資 訊(guide information),使用引導資訊與目標語料庫訓練出目標分類器(target classifier)。

之後以目標分類器將句子從來源語料庫的斷詞標準轉換成目標語料庫的斷詞標準。