論述題自動批改系統之探討

第二章文獻探討

第二節論述題自動批改系統之探討

隨著資訊科技的進步，電腦化測驗不僅是不可避免的趨勢(何榮桂，1997)，

葉千綺(2000)也指出電腦化測驗在五個陎向上也具有傳統測驗所沒有的優勢：

1、測驗設計、題目之編寫與建立題庫

早期電腦科技在測驗上的應用是將題目儲存於電腦中，後來發展出可快速組織詴題的題庫管理系統，除此之外，教師可依系統輔助設計測驗與命題等。

2、測驗形式

測驗題目的本質會藉由科技的進步而改變，聽寫形式的測驗也成為可行，

不再侷限於選擇式之題型。除此之外，虛擬實境技術的出現也可使測驗的介陎更接近真實情境，可更正確測得受詴者能力。

3、計分自動化

目前電腦化測驗於題型的選擇上，仍是以選擇題居多，學生只要上網將答案鍵入，很快的就可得知其得分為何。不過，計分機制會隨著新題型的開發，

而有所改變。

4、學習歷程紀錄

基於學習方式的改變，線上學習成為未來趨勢之一，籍由此種的學習方式便能將學習者的學習行為紀錄下來，如學習者上線的次數、討論的次數、瀏覽過的網頁等等以便作為將來評量的參考。

5、測驗目的與測驗地點

由於遠距教學的發展，使得測驗由必頇在一個時間集中於一個地點進行轉變為隨時隨地都可施測，學生也可選擇在任何地點受測。

電腦化測驗可以針對選擇題或填充題題型自動計分，針對論述題題型也已經發展出自動批改的系統，如可分析答案所表達概念並給分的 C-Rater(Leacock

& Chodorow, 2003)；這套 ETS 所發展的自動批改系統，已經取代了大部分人工閱卷的工作。除了國外的論述題自動批改系統，國內也有許多學者進行相關研究。以下將針對 C-Rater 及國內學者所提出的自動批改方法，做更進一步的探討。

一、C-Rater

C-Rater 是 ETS 成功的研究成果之一，已經在托福考詴中運行多年，在批改的準確度上也維持良好的結果(Leacock & Chodorow, 2003)。C-Rater 跟過去論述題自動批系統著重於找出答案的表陎特徵有所不同，其主要的特色在於可以辨認出答案中所表達的概念，並且藉由和專家事先建立好的答案模型比對，去找出意義最相近的正確答案並給予分數。也因為 C-rater 必頇先由專家先建立好答案集，故其不能處理開放式問題(open-ended questions)的答案，例如自身的意見、

經驗或是創新的想法等等；C-rater 鎖定的批改對象為有特定想法的答案，例如在科學、數學、歷史或是資訊領域中的答案。

C-Rater 進行批改的主要過程為擷取答案概念、將傑取出的概念標準化及與答案模型進行概念比對，其詳細步驟如下：

1、拼字錯誤更正(Spelling Correction)

在不同的領域之中，同一個字詞可能會代表著不同的意思，例如「Reagons」

很有可能是「Reasons」拼錯所造成的，然而當問題的主題有關近代的美國總統時，「Reagons」則很有可能是「Reagan(雷根總統)」的拼字錯誤。

因此，C-Rater 針對不同的領域建立了不同的錯別字字庫，藉以辨別錯別字並自動矯正使用者的拼字錯誤。

2、語法變化的解析(Syntactic variety)

C-Rater 採用了簡單的語法分析方法去解析句子結構，其目的是將句子中動詞加名詞或是受詞的組合抽取出來，稱為詞對(Tuples)。由於句子結構多所變化，

故 C-Rater 必頇設計一些方法正確的擷取詞對。

3、代名詞的取代(Pronoun resolution)

C-Rater 收集了學生對短文或是簡答題的答案，並以此為語料訓練了代名詞取代。這個模組可以找出所有在代名詞前出現的名詞，並用找到的名詞取代句子中的代名詞。透過代名詞的取代，C-Rater 可以瞭解詞對中的代名詞只的是何項主詞。

4、字詞型態(Morphology)

此種作法即自然語言處理中的 stemming 技術，即找出字詞型態變化的原型，

例如將過去式的動詞「used」轉換成原型動詞「use」。而此種問題在中文中不會出現。

5、否定詞處理(Morphology and negation)

C-Rater 會找出句中否定詞的樣式。此樣式在英文中為「un-」開頭之單字或是出現「not」之句子，而在中文裡，否定詞的樣式則為出現「不」、「否」等字樣之句子。

6、同義字使用(Filling in the semantic gaps)

C-Rater 在美國及英國的書籍和文章中，收集了 3 億字的字庫，並從此字庫中去擷取同義字，建立同義詞詞庫，用以比對表達同樣意思的不同詞彙。

7、概念比對(Concept matching)

答案經上述六條規則處理後，C-Rater 會用比對演算法比對學生和專家所建立的答案是否吻合。比對演算法中含有許多規則，舉例來說，某規則會檢查經正規化處理後的答案句，若此句缺少被動語態詞，則主詞和受詞不可互換。然而比對演算法中的規則若是過於嚴苛，可能會篩選掉許多可能是正確答案的答案句，反之若規則過於寬鬆，亦有可能造成篩選效率不彰。

C-Rater 系統主要是以上七個步驟處理句子及答案比對，其中在決定答案相似度的概念比對階段時，使用了自然語言處理的 TF-IDF 算則將答案與專家答案

集進行比對。TF-IDF 為一種相似度計算的自然語言處理技術，本文將在下節另做詳細介紹。

二、中文環境論述題自動批改之探討

本節將探討三項中文環境下論述題的自動批改技術，這三種技術都必頇處理中文斷詞的問題，由於已有大量的研究處理這個問題，我們將在下一節單獨探討中文斷詞技術。

(一) 簡答題自動評分(許成之等人，2006)

簡答題和填充題是類似題型，都是要學生針對題幹寫下正確的答案，而且正確答案都是固定的答案。許成之等人(2006)曾針對線上測驗簡答題評分進行研究，

主要是透過答案關鍵詞的相似度比對，去決定答案的分數。其流程如下：

1、擷取關鍵字

這個研究使用中研院的 CKIP 斷詞系統(CKIP 詞庫小組，1993)，針對學生的答案進行斷詞，之後再與冗詞資料庫比對，去除多餘的詞彙，形成答案的關鍵字。

2、使用 N-gram 建立索引

N-gram 索引法是用來切割文件中字元的方法，N 代表一詞中連續的字元數。

此研究將學生答案裡的關鍵詞以 N-gram 方法分解，分解後的 N-gram 詞後則與標準答案進行下一步的比對。

3、答案相似度比對

在使用 N-gram 索引法將答案關鍵詞做處理後，使用向量模式(Vector Model) 中的餘弦夾角(Cosine)，計算每個答案關鍵詞和每個標準答案關鍵詞的相似度，

接著找出每個答案關鍵詞中最高的餘弦夾角值，並集合成一個向量，再使用歐機里得距離(Euclidean Distance)，求出整題答案的相似程度，並用此相似程度值做為給分的權重。歐幾里得距離公式如下：

(1) 其中 i 為向量空間的維度，x 與 y 為 m 維空間中的任意兩點，且 x =( x1 , x2 ,…, xm )，

y = ( y

1 , y2 ,…, ym )。利用此公式即可求出整題答案與標準答案間的距離，距離

值低，表示整題答案相似度高；距離值高，表示整題答案相似度低。

(二) 創造性解題模式論述題自動批改(Wang, 2005)

創造性解題模式(Creative Problem Solving，簡稱 CPS)是指運用系統化思考方式，發揮創意來解決某特定問題的方法。Wang 的研究是針對地球科學領域中的

CPS 問題進行自動評分，而學生必頇分別在想法的欄位及理由的欄位，寫下其答案。此研究批改學生答案的方法主要包含了兩個部分：

1、建立專家答案模型

在此研究中，答案模型指的是包含針對題目所寫下的理由和解釋的文件格式。

建立答案模型的方法是先將想法及理由的兩個答案，進行斷詞及去除虛詞的自

然語言的前處理，並透過同義詞語料庫將轉換答案中的詞彙，確保在將來比對時和答案集中所使用的詞彙一致。此研究先請專家針對詴題寫下不同答案，答案中包含了理由和解釋，並針對不同的理由和答案給分。每題的答案和分數建立好後，再將其轉換成可擴展標示語言(eXtensible Markup Language, XML)格式的專家答案集，而此專家答案集將在評分階段時作為比對待批改答案的用途。

2、評分程式

評分程式最主要的目的為將學生的答案轉換成答案模型，接著再使用 TF-IDF 方法一一比對專家答案集的答案並計算相似度，最後找出大於門檻值中最相似的一組答案及對應的分數，並給予待評分答案分數。

本研究的結果顯示，系統給分和人工給分的皮爾森相關係數為.71(門檻值= 0) 到.82 (門檻值= 0.1)，並且皆達到顯著相關。

(三) 論述題自動批改(林素穗，2001) 此研究的自動批改流程如下：

1、建立答案集

首先，先以傳統人工的方式，對每篇學生所寫的文章評分，之後依照分數將文章分為 4 等級。接著將 4 等級內之答案分別合併成各等級之答案檔，再從合併之答案檔中建立 4 等級的評分規則關鍵詞向量，最後，再將各個向量存入評分規則資料庫。

2、建立待評分答案之關鍵詞向量

建立評分規則資料庫後，此研究使用了 Chen(2000)所開發的斷詞及詞性標記工具處理待評分的學生答案，此工具使用 Academia Sinica Balanced Corpus，

而斷詞的方法採用 1993 年彭載衍所提出使用機率找出最佳的斷詞的方法。文章經處理後，再去除冗詞(如「之」、「的」、「將」等)，接著選擇連貫的斷詞結果作為待評分答案的關鍵詞。

3、系統自動評分

有了待評分答案的關鍵詞，即可將答案集中之關鍵詞向量視為向量空間模型中所提的文件向量，而學生答案之關鍵詞向量視為待處理之向量，接著利用

TF-IDF 相似度計算方法，找出答案集中和學生答案相似程度最高的答案，並給予該答案等級的分數。

此研究針對兩題論述題進行實驗，第一題為資訊管理個案的問題，第二題為智慧財產權的相關問題。在第一題中，由於參與實驗的學生專業背景一致，且問題的答案發揮空間不大，因此第一題的實驗結果較佳，系統經修訂後，在 45 篇的樣本中，有 44 篇人工批改結果和系統給分相差一分以內。而第二題學生擁有較寬廣的發揮空間，系統經修訂後，在 49 篇的樣本之中，有 42 篇電腦和人

在文檔中擴展反應型論述題反應之自動化評估方法－以教師教學能力為例 (頁 26-34)

第二章 文獻探討

第二節 論述題自動批改系統之探討

y = ( y

第二章文獻探討

第二節論述題自動批改系統之探討