• 沒有找到結果。

文法剖析技術

在文檔中 華語作文分級系統 (頁 27-31)

第二章 文獻探討

第三節 文法剖析技術

文句剖析 (Sentence Parsing)是在自然語言處理方面主要的工作之一。近年 更是被大量應用在許多熱門的應用程式上,例如資料擷取跟機器翻譯(Chen, Huang, Li, and Kit, 2009)。目前在自然語言處理領域方面,較廣為人知能處理 中文的文法剖析器 (Parser) 有Stanford Parser、Berkerly Parser及Bikel’s Parser。

Bikel’s Parser (Bikel, 2004)是按照Collin的剖析演算法及其統計模型實作出 的文法剖析器,主要有兩個部分:語法模型及因子模型,可以進行英文、中文、

阿拉伯語的文法剖析,而聲稱目前仍在製作的有韓文的文法剖析。Bikel文法剖 析器在中文的領域是屬於比較早期的技術,近年沒有更新版本發表。

Stanford Parser是史丹佛大學所開發出來的文法剖析器,使用JAVA語言所 寫,在跨帄台上執行較無限制。一種機率式的自然語言文法剖析,具有高度優 化的PCFG(Highly optimized Probabilistic Context-Free Grammars)和語法相依。

Stanford Parser使用A*演算法並建置出一個因子相積模型(factored product model),

整合分離PCFG片語結構及語法相依實做出的文法剖析器。可使用在英文、中 文、德文、阿拉伯語、義文、保加利亞語及葡萄牙文。在中文方面,使用中文 句結構樹進行剖析。

Berkeley Parser是柏克萊大學所開發的文法剖析器,相異於Bikel與Stanford Parser,Berkeley Parser是一種由非語句分析的剖析模型實做出的剖析器,因此 更加的一般化及語言獨立(lexical independent)(Chen, Huang, Li, and Kit, 2009)。

Petrov 和 Klein(2007)在NAACL的研討論文中指出,使用句結構樹有一個主要的 問題:處理語法時會有歧異性(ambiguity)的問題,這在訓練及推論預測階段皆 會發生。因此,Berkeley Parser使用一種無限樹分配的技術,直接使用PCFG而 非句結構樹,來實作Berkeley Parser。當解析遇到NP-complete的問題時,使用 標籤支架演算法(Labeled bracket algorithm)等方法解決。

在我們研究的初步綜合評比中,針對正體中文的剖析效能,我們發現 Stanford的效能略優於Berkeley Parser,因此我們選擇Stanford Parser作為本研究 所使用之與法剖析器。

英文或其他較早發展剖析器的語言,例如德文,與中文有一點最大的差異,

便是斷詞技術的需求。英文的文句裡,每個字都與空格隔開,每個字有自己的 意思;而中文的語意基本單位是詞而非字(許菱祥,1986)。例如,「小朋友在 公園盪鞦韆」這句話,「鞦」及「韆」兩字需要合成一個詞才具備它應有的意 思,而「公」「園」兩字分開來看的話,更無法得知它原本的意思。相反的,

在英文裡則沒有這個問題,在處理英文文本時,所需解析的最小單位「詞」

(word) 已經在撰寫時被處理好。因此,在處理文本時,中文的斷詞比英文的斷 詞來的複雜,而且是一個相當重要的工作(胡夢珂,2011)。

所謂的中文斷詞就是將一連串的中文「字串」轉換成「詞串」的組合(林千 翔、張嘉惠及陳貞伶,2010)。很多自然語言處理的工作必頇先經過中文斷詞後 才得以進行,例如語音辨識、資料檢索、機器翻譯等。斷詞結果若不正確,會 造成語法及語意表達偏離原本的意思,使得斷詞後的處理工作,如詞性標記、

語言分析、資訊擷取等,發生很多的錯誤(張晏晟,2008)。本節所提及的剖析 器,使用在中文上時,也皆需要先將其斷詞才能使用。

實作中文斷詞時會遇到「歧異性(ambiguity)問題」及「未知詞(unknown word)問題」。歧異性,意即同一個中文字串於不同文章中,可能存在不同的斷 詞結果,歧異性問題又可分為主要兩類:交集型歧異─「不可以」這個字於不 同文句中,會有不同的結果,例如可分成「不\可以\忘記」及「不可\以\

營利\為\目的」;組合型歧異─「才能」,「他\才能\卓越」及「下課\

才\能\回家」(林千翔、張嘉惠及陳貞伶,2010)。

詞彙是在中文斷詞中重要的影響因素之一,根據不同詞彙庫的輸入,會產 出不同斷詞結果。陳稼興、謝佳倫、許芳誠(2000)與胡夢珂(2011)整理出的中文 斷詞法,主要有以下三個,一、統計法(Statistical-based),參照文本內字句前後 搭配的出現機率,找出最佳的斷詞組合;第二、詞庫法(Dictionary-based),主 要找出文本包含那些存在於辭典內的詞,再切割出詞彙;第三、結合統計法及 詞庫法的混合式斷詞法,為了解決上述兩種方法的缺點,將其合併兩種形成互 補。

結合統計式及詞庫法的斷詞方法中,使用多年的有隱藏式馬可夫模型 (Hidden Markov Model, HMM),近年則有由Lafferty,McCullum及Pereira(2001) 提出的條件式隨機領域的斷詞方法 (Conditional Random Field Word Segmenter, CRF)。CRF斷詞法是一個為正規化的轉置機率去執行的有限狀態機。

定義 圖G=(V,E)

( )

(X,Y) 為CRF,當達成條件X時,隨機變數 滿足馬可夫性質,其圖型 ( | ) ( | )

其中 代表w與v為鄰近點。

有許多後續研究使用此CRF為模板,改變其中之機率變量及改變輸入之 訓練文本,求得更精確的斷詞(Tseng, Chang, Andrew, Jurafsky and Manning, 2005; Zhao, Huang, and Li, 2006 )。

在中文的文句中,若要剖析句法結構,必頇先經過斷詞,再進行文法剖 析。因此斷詞的準確度與文法剖析結果,便是在自然語言處理研究中重要的探 討目標。

在文檔中 華語作文分級系統 (頁 27-31)

相關文件