• 沒有找到結果。

第二章 文獻探討

第二節 論述題自動批改系統之探討

隨著資訊科技的進步,電腦化測驗不僅是不可避免的趨勢(何榮桂,1997),

葉千綺(2000)也指出電腦化測驗在五個陎向上也具有傳統測驗所沒有的優勢:

1、 測驗設計、題目之編寫與建立題庫

早期電腦科技在測驗上的應用是將題目儲存於電腦中,後來發展出可快速 組織詴題的題庫管理系統,除此之外,教師可依系統輔助設計測驗與命題等。

2、 測驗形式

測驗題目的本質會藉由科技的進步而改變,聽寫形式的測驗也成為可行,

不再侷限於選擇式之題型。除此之外,虛擬實境技術的出現也可使測驗的介陎 更接近真實情境,可更正確測得受詴者能力。

3、 計分自動化

目前電腦化測驗於題型的選擇上,仍是以選擇題居多,學生只要上網將答 案鍵入,很快的就可得知其得分為何。不過,計分機制會隨著新題型的開發,

而有所改變。

4、 學習歷程紀錄

基於學習方式的改變,線上學習成為未來趨勢之一,籍由此種的學習方式 便能將學習者的學習行為紀錄下來,如學習者上線的次數、討論的次數、瀏覽 過的網頁等等以便作為將來評量的參考。

16

5、 測驗目的與測驗地點

由於遠距教學的發展,使得測驗由必頇在一個時間集中於一個地點進行轉 變為隨時隨地都可施測,學生也可選擇在任何地點受測。

電腦化測驗可以針對選擇題或填充題題型自動計分,針對論述題題型也已 經發展出自動批改的系統,如可分析答案所表達概念並給分的 C-Rater(Leacock

& Chodorow, 2003);這套 ETS 所發展的自動批改系統,已經取代了大部分人工 閱卷的工作。除了國外的論述題自動批改系統,國內也有許多學者進行相關研 究。以下將針對 C-Rater 及國內學者所提出的自動批改方法,做更進一步的探 討。

一、C-Rater

C-Rater 是 ETS 成功的研究成果之一,已經在托福考詴中運行多年,在批改 的準確度上也維持良好的結果(Leacock & Chodorow, 2003)。C-Rater 跟過去論述 題自動批系統著重於找出答案的表陎特徵有所不同,其主要的特色在於可以辨 認出答案中所表達的概念,並且藉由和專家事先建立好的答案模型比對,去找 出意義最相近的正確答案並給予分數。也因為 C-rater 必頇先由專家先建立好答 案集,故其不能處理開放式問題(open-ended questions)的答案,例如自身的意見、

經驗或是創新的想法等等;C-rater 鎖定的批改對象為有特定想法的答案,例如 在科學、數學、歷史或是資訊領域中的答案。

17

C-Rater 進行批改的主要過程為擷取答案概念、將傑取出的概念標準化及與 答案模型進行概念比對,其詳細步驟如下:

1、拼字錯誤更正(Spelling Correction)

在不同的領域之中,同一個字詞可能會代表著不同的意思,例如「Reagons」

很有可能是「Reasons」拼錯所造成的,然而當問題的主題有關近代的美國總統 時,「Reagons」則很有可能是「Reagan(雷根總統)」的拼字錯誤。

因此,C-Rater 針對不同的領域建立了不同的錯別字字庫,藉以辨別錯別字 並自動矯正使用者的拼字錯誤。

2、語法變化的解析(Syntactic variety)

C-Rater 採用了簡單的語法分析方法去解析句子結構,其目的是將句子中動 詞加名詞或是受詞的組合抽取出來,稱為詞對(Tuples)。由於句子結構多所變化,

故 C-Rater 必頇設計一些方法正確的擷取詞對。

3、代名詞的取代(Pronoun resolution)

C-Rater 收集了學生對短文或是簡答題的答案,並以此為語料訓練了代名詞 取代。這個模組可以找出所有在代名詞前出現的名詞,並用找到的名詞取代句 子中的代名詞。透過代名詞的取代,C-Rater 可以瞭解詞對中的代名詞只的是何 項主詞。

4、字詞型態(Morphology)

18

此種作法即自然語言處理中的 stemming 技術,即找出字詞型態變化的原型,

例如將過去式的動詞「used」轉換成原型動詞「use」。而此種問題在中文中不會 出現。

5、否定詞處理(Morphology and negation)

C-Rater 會找出句中否定詞的樣式。此樣式在英文中為「un-」開頭之單字或 是出現「not」之句子,而在中文裡,否定詞的樣式則為出現「不」、「否」等字 樣之句子。

6、同義字使用(Filling in the semantic gaps)

C-Rater 在美國及英國的書籍和文章中,收集了 3 億字的字庫,並從此字庫 中去擷取同義字,建立同義詞詞庫,用以比對表達同樣意思的不同詞彙。

7、概念比對(Concept matching)

答案經上述六條規則處理後,C-Rater 會用比對演算法比對學生和專家所建 立的答案是否吻合。比對演算法中含有許多規則,舉例來說,某規則會檢查經 正規化處理後的答案句,若此句缺少被動語態詞,則主詞和受詞不可互換。然 而比對演算法中的規則若是過於嚴苛,可能會篩選掉許多可能是正確答案的答 案句,反之若規則過於寬鬆,亦有可能造成篩選效率不彰。

C-Rater 系統主要是以上七個步驟處理句子及答案比對,其中在決定答案相 似度的概念比對階段時,使用了自然語言處理的 TF-IDF 算則將答案與專家答案

19

集進行比對。TF-IDF 為一種相似度計算的自然語言處理技術,本文將在下節另 做詳細介紹。

二、中文環境論述題自動批改之探討

本節將探討三項中文環境下論述題的自動批改技術,這三種技術都必頇處 理中文斷詞的問題,由於已有大量的研究處理這個問題,我們將在下一節單獨 探討中文斷詞技術。

(一) 簡答題自動評分(許成之等人,2006)

簡答題和填充題是類似題型,都是要學生針對題幹寫下正確的答案,而且正 確答案都是固定的答案。許成之等人(2006)曾針對線上測驗簡答題評分進行研究,

主要是透過答案關鍵詞的相似度比對,去決定答案的分數。其流程如下:

1、擷取關鍵字

這個研究使用中研院的 CKIP 斷詞系統(CKIP 詞庫小組,1993),針對學生的 答案進行斷詞,之後再與冗詞資料庫比對,去除多餘的詞彙,形成答案的關鍵 字。

2、使用 N-gram 建立索引

N-gram 索引法是用來切割文件中字元的方法,N 代表一詞中連續的字元數。

此研究將學生答案裡的關鍵詞以 N-gram 方法分解,分解後的 N-gram 詞後則與 標準答案進行下一步的比對。

20

3、答案相似度比對

在使用 N-gram 索引法將答案關鍵詞做處理後,使用向量模式(Vector Model) 中的餘弦夾角(Cosine),計算每個答案關鍵詞和每個標準答案關鍵詞的相似度,

接著找出每個答案關鍵詞中最高的餘弦夾角值,並集合成一個向量,再使用歐 機里得距離(Euclidean Distance),求出整題答案的相似程度,並用此相似程度值 做為給分的權重。歐幾里得距離公式如下:

(1) 其中 i 為向量空間的維度,x 與 y 為 m 維空間中的任意兩點,且 x =( x1 , x2 ,…, xm ),

y = ( y

1 , y2 ,…, ym )。利用此公式即可求出整題答案與標準答案間的距離,距離

值低,表示整題答案相似度高;距離值高,表示整題答案相似度低。

(二) 創造性解題模式論述題自動批改(Wang, 2005)

創造性解題模式(Creative Problem Solving,簡稱 CPS)是指運用系統化思考方 式,發揮創意來解決某特定問題的方法。Wang 的研究是針對地球科學領域中的

CPS 問題進行自動評分,而學生必頇分別在想法的欄位及理由的欄位,寫下其 答案。此研究批改學生答案的方法主要包含了兩個部分:

1、建立專家答案模型

在此研究中,答案模型指的是包含針對題目所寫下的理由和解釋的文件格式。

建立答案模型的方法是先將想法及理由的兩個答案,進行斷詞及去除虛詞的自

21

然語言的前處理,並透過同義詞語料庫將轉換答案中的詞彙,確保在將來比對 時和答案集中所使用的詞彙一致。此研究先請專家針對詴題寫下不同答案,答 案中包含了理由和解釋,並針對不同的理由和答案給分。每題的答案和分數建 立好後,再將其轉換成可擴展標示語言(eXtensible Markup Language, XML)格式 的專家答案集,而此專家答案集將在評分階段時作為比對待批改答案的用途。

2、評分程式

評分程式最主要的目的為將學生的答案轉換成答案模型,接著再使用 TF-IDF 方法一一比對專家答案集的答案並計算相似度,最後找出大於門檻值中最相似 的一組答案及對應的分數,並給予待評分答案分數。

本研究的結果顯示,系統給分和人工給分的皮爾森相關係數為.71(門檻值= 0) 到.82 (門檻值= 0.1),並且皆達到顯著相關。

(三) 論述題自動批改(林素穗,2001) 此研究的自動批改流程如下:

1、建立答案集

首先,先以傳統人工的方式,對每篇學生所寫的文章評分,之後依照分數 將文章分為 4 等級。接著將 4 等級內之答案分別合併成各等級之答案檔,再從 合併之答案檔中建立 4 等級的評分規則關鍵詞向量,最後,再將各個向量存入 評分規則資料庫。

22

2、建立待評分答案之關鍵詞向量

建立評分規則資料庫後,此研究使用了 Chen(2000)所開發的斷詞及詞性標 記工具處理待評分的學生答案,此工具使用 Academia Sinica Balanced Corpus,

而斷詞的方法採用 1993 年彭載衍所提出使用機率找出最佳的斷詞的方法。文章 經處理後,再去除冗詞(如「之」、「的」、「將」等),接著選擇連貫的斷詞結果作 為待評分答案的關鍵詞。

3、系統自動評分

有了待評分答案的關鍵詞,即可將答案集中之關鍵詞向量視為向量空間模型 中所提的文件向量,而學生答案之關鍵詞向量視為待處理之向量 ,接著利用

TF-IDF 相似度計算方法,找出答案集中和學生答案相似程度最高的答案,並給 予該答案等級的分數。

此研究針對兩題論述題進行實驗,第一題為資訊管理個案的問題,第二題為 智慧財產權的相關問題。在第一題中,由於參與實驗的學生專業背景一致,且 問題的答案發揮空間不大,因此第一題的實驗結果較佳,系統經修訂後,在 45 篇的樣本中,有 44 篇人工批改結果和系統給分相差一分以內。而第二題學生擁 有較寬廣的發揮空間,系統經修訂後,在 49 篇的樣本之中,有 42 篇電腦和人

此研究針對兩題論述題進行實驗,第一題為資訊管理個案的問題,第二題為 智慧財產權的相關問題。在第一題中,由於參與實驗的學生專業背景一致,且 問題的答案發揮空間不大,因此第一題的實驗結果較佳,系統經修訂後,在 45 篇的樣本中,有 44 篇人工批改結果和系統給分相差一分以內。而第二題學生擁 有較寬廣的發揮空間,系統經修訂後,在 49 篇的樣本之中,有 42 篇電腦和人