文法剖析技術

第二章文獻探討

第三節文法剖析技術

文句剖析 (Sentence Parsing)是在自然語言處理方面主要的工作之一。近年更是被大量應用在許多熱門的應用程式上，例如資料擷取跟機器翻譯（Chen, Huang, Li, and Kit, 2009）。目前在自然語言處理領域方面，較廣為人知能處理中文的文法剖析器 (Parser) 有Stanford Parser、Berkerly Parser及Bikel’s Parser。

Bikel’s Parser (Bikel, 2004)是按照Collin的剖析演算法及其統計模型實作出的文法剖析器，主要有兩個部分：語法模型及因子模型，可以進行英文、中文、

阿拉伯語的文法剖析，而聲稱目前仍在製作的有韓文的文法剖析。Bikel文法剖析器在中文的領域是屬於比較早期的技術，近年沒有更新版本發表。

Stanford Parser是史丹佛大學所開發出來的文法剖析器，使用JAVA語言所寫，在跨帄台上執行較無限制。一種機率式的自然語言文法剖析，具有高度優化的PCFG(Highly optimized Probabilistic Context-Free Grammars)和語法相依。

Stanford Parser使用A*演算法並建置出一個因子相積模型(factored product model)，

整合分離PCFG片語結構及語法相依實做出的文法剖析器。可使用在英文、中文、德文、阿拉伯語、義文、保加利亞語及葡萄牙文。在中文方面，使用中文句結構樹進行剖析。

Berkeley Parser是柏克萊大學所開發的文法剖析器，相異於Bikel與Stanford Parser，Berkeley Parser是一種由非語句分析的剖析模型實做出的剖析器，因此更加的一般化及語言獨立(lexical independent)（Chen, Huang, Li, and Kit, 2009）。

Petrov 和 Klein(2007)在NAACL的研討論文中指出，使用句結構樹有一個主要的問題：處理語法時會有歧異性(ambiguity)的問題，這在訓練及推論預測階段皆會發生。因此，Berkeley Parser使用一種無限樹分配的技術，直接使用PCFG而非句結構樹，來實作Berkeley Parser。當解析遇到NP-complete的問題時，使用標籤支架演算法(Labeled bracket algorithm)等方法解決。

在我們研究的初步綜合評比中，針對正體中文的剖析效能，我們發現 Stanford的效能略優於Berkeley Parser，因此我們選擇Stanford Parser作為本研究所使用之與法剖析器。

英文或其他較早發展剖析器的語言，例如德文，與中文有一點最大的差異，

便是斷詞技術的需求。英文的文句裡，每個字都與空格隔開，每個字有自己的意思；而中文的語意基本單位是詞而非字(許菱祥，1986)。例如，「小朋友在公園盪鞦韆」這句話，「鞦」及「韆」兩字需要合成一個詞才具備它應有的意思，而「公」「園」兩字分開來看的話，更無法得知它原本的意思。相反的，

在英文裡則沒有這個問題，在處理英文文本時，所需解析的最小單位「詞」

(word) 已經在撰寫時被處理好。因此，在處理文本時，中文的斷詞比英文的斷詞來的複雜，而且是一個相當重要的工作(胡夢珂，2011)。

所謂的中文斷詞就是將一連串的中文「字串」轉換成「詞串」的組合(林千翔、張嘉惠及陳貞伶，2010)。很多自然語言處理的工作必頇先經過中文斷詞後才得以進行，例如語音辨識、資料檢索、機器翻譯等。斷詞結果若不正確，會造成語法及語意表達偏離原本的意思，使得斷詞後的處理工作，如詞性標記、

語言分析、資訊擷取等，發生很多的錯誤(張晏晟，2008)。本節所提及的剖析器，使用在中文上時，也皆需要先將其斷詞才能使用。

實作中文斷詞時會遇到「歧異性(ambiguity)問題」及「未知詞(unknown word)問題」。歧異性，意即同一個中文字串於不同文章中，可能存在不同的斷詞結果，歧異性問題又可分為主要兩類：交集型歧異─「不可以」這個字於不同文句中，會有不同的結果，例如可分成「不＼可以＼忘記」及「不可＼以＼

營利＼為＼目的」；組合型歧異─「才能」，「他＼才能＼卓越」及「下課＼

才＼能＼回家」(林千翔、張嘉惠及陳貞伶，2010)。

詞彙是在中文斷詞中重要的影響因素之一，根據不同詞彙庫的輸入，會產出不同斷詞結果。陳稼興、謝佳倫、許芳誠(2000)與胡夢珂(2011)整理出的中文斷詞法，主要有以下三個，一、統計法(Statistical-based)，參照文本內字句前後搭配的出現機率，找出最佳的斷詞組合；第二、詞庫法(Dictionary-based)，主要找出文本包含那些存在於辭典內的詞，再切割出詞彙；第三、結合統計法及詞庫法的混合式斷詞法，為了解決上述兩種方法的缺點，將其合併兩種形成互補。

結合統計式及詞庫法的斷詞方法中，使用多年的有隱藏式馬可夫模型 (Hidden Markov Model, HMM)，近年則有由Lafferty，McCullum及Pereira(2001) 提出的條件式隨機領域的斷詞方法 (Conditional Random Field Word Segmenter, CRF)。CRF斷詞法是一個為正規化的轉置機率去執行的有限狀態機。

定義圖G=(V,E)

( )

(X,Y) 為CRF，當達成條件X時，隨機變數滿足馬可夫性質，其圖型 ( | ) ( | )

其中代表w與v為鄰近點。

有許多後續研究使用此CRF為模板，改變其中之機率變量及改變輸入之訓練文本，求得更精確的斷詞(Tseng, Chang, Andrew, Jurafsky and Manning, 2005; Zhao, Huang, and Li, 2006 )。

在中文的文句中，若要剖析句法結構，必頇先經過斷詞，再進行文法剖析。因此斷詞的準確度與文法剖析結果，便是在自然語言處理研究中重要的探討目標。

在文檔中華語作文分級系統 (頁 27-31)

第二章 文獻探討

第三節 文法剖析技術

第二章文獻探討

第三節文法剖析技術