相關研究與構想 - 基於貝氏機器學習法之中文自動作文評分系統

在本章節中，將詳細的介紹本論文提及的相關研究與構想，首先概略的介紹英文的作文評分系統，隨之介紹設計系統的理念與想法。本章的章節順序安排如下，首先在 2.1 節簡單的介紹英文作文評分系統 e-rater 的發展原理。接著在 2.2 節詳細描述貝氏機器學習法（Bayesian Learning Theorem）所使用的概念與其機率模型。最後，在 2.3 節概述中文斷詞處理的重要性。

2.1 e-rater

GMAT(Graduate Management Admission Test)是美國商業學校入學測驗考試，這項測驗中除了與商業相關的筆試，同時也包含作文評量項目，其中作文的分數是以六級分制為主，最低分為一分，最高分為六分。在早期的閱卷過程中，

一篇文章的評比必須經由兩位閱卷老師來進行評鑑工作，當兩位老師的評分結果相差超過一分時，則必須經由第三位閱卷老師來進行裁定任務；換言之，一篇測驗文章的分數依據，至少須有兩位閱卷老師達成一定程度上的共識。到了 1999 年 2 月，參加 GMAT 測驗的人數日漸增多，相對之下，所需作文評閱的工作量也大幅提升，於是引進了 e-rater 系統來代替初期所須兩位閱卷老師的其中之一，

其主要原因為經由 e-rater 系統所評定的分數結果中，其 92％以上的結果皆與實際閱卷老師所批改的分數相差位於一分之內。事實上，這個統計結果與真實情況中兩名受過訓練的閱卷老師相比，兩者之間的誤差比率是非常相近的。

而在 e-rater 的系統在進行評閱的過程中，總共包含了三個模組：結構 (structure)、組織(organization)、內容(content)。其中，結構模組主要的工作為分析句法的多樣性，搜尋有意義的詞組，進而判別不定詞、成語、慣用語、

以及完整或從屬子句等分析任務。接著，由組織模組負責分析句法中的主要概念，包括句子與句子之間的轉折詞或連接詞，以及句中所使用的修辭結構等。之後，交由內容模組進行評估文章中所使用的字彙是否能反應文章內容與主題的相

關性。最後，對於各個模組所提供的資訊進行整合，e-rater 方可評定測驗文章的分數並提供少許的反饋訊息。

2.2 Bayesian Theorem

貝氏機器學習法是一個基於機率理論的分類方法，此方法假設所有的輸入屬 probability），再依所搜集到的資訊，來修正事前機率分配，使之成為事後機率分配（posterior probability），再由其中選出機率最高的可能性來作為預測的依據。說明如下

P(d)：prior probability of obtaining data d P(H)：prior probability that H is correct

P(d|H)：probability of obtaining data d if H is correct P(H|d)：posterior probability that h is correct

例：某校畢業校友之性別與從事職業類別調查結果顯示男性有 80%從商，女性有 50%從商，而調查樣本中男性比例佔 30%，女性比例佔 70%，請問若已知某校友從事行業為商業，則此人為男性的機率為何？

依此問題，各項機率可化簡如下：

obtaining data d：從商 P(d)：所有人從商的機率

P(d) = 30%．80% + 70%．50% = 59%

P(H)：該校友為男性的機率 P(H) = 30%

P(d|H)：該校友為男性且從商的機率 P(d|H) = 80%

P(H|d)：該校友從商且為男性的機率 P(H|d) =

% 59

% 30

% 80 ×

= 40.7%

2.3 中文斷詞處理

所謂「中文斷詞」，是將一連串的中文「字」，轉換成「詞」的組合，其中每個「詞」是由「一個字」或者「多個字」所組成。如何將由「字」所組成的「句子」切割成一個個的「詞」，則是中文斷詞的主要使命。

斷詞是中文語言處理中最基礎的工作。中文的句法(syntactic)和語意 (semantic)基本單位是「詞」，單獨的中文字未必是語句分析的最小單位。因此，

任何中文自然語言處理，例如：檔案檢索、中文輸入、光學字體辨識、語音辨識、

機器翻譯等，都需先對中文句子進行「斷詞」，才能進行下一步的處理。由於斷詞結果的正確性及完整性對後續的處理動作有關鍵性的影響，這使得中文斷詞變成一件非常重要的工作。相對於歐美語系國家，句法和語意基本單位是「字 (word)」而非「詞」，雖然每個字都是由多個字母組成，但在字與字之間都有明顯的空白作為分隔，所以如何判斷出單字則屬較為簡單的工作。換言之，這類型的語言並不存在斷詞的困擾。

在文檔中基於貝氏機器學習法之中文自動作文評分系統 (頁 9-12)