• 沒有找到結果。

第二章 文獻探討

第四節 綜合分析

本節將探討中文環境下發展論述題自動批改的難處,並分析國內外學者的相 關研究,探討國外研究應用於中文環境的可行性,並提出與國內學者針對論述 題研究的不同看法。

一、中文環境發展論述題自動批改之難處

國外已經有許多學者針對論述題自動批改進行研究,雖然國外的相關研究非 常成功並且已發展到商業用途,但是由於語言環境的不同,國外的研究成果並 不能直接複製到中文環境中使用。其主要的原因在於進行中文的自然語言處理 時,會遭遇在英語環境中不會碰到的困難。張道行等人(2006)提出三項在中文環 境下應用國外自動批改技術路陎臨的困難:

1、文法自動剖析工具的缺乏

在英語環境下已經有效能相當好的文法自動剖析工具,故可以擷取語法結 構相關的特徵,例如句型、文法、邏輯性等,以供自動批改系統使用。然而由 於中文結構較為複雜,因此高效能的中文語法剖析工具發展不易。

2、中文斷詞的困難

由於中文詞與詞間並無辨別符號,因此需要進行斷詞處理,而英文並沒有這 個問題。由於斷詞結果錯誤會使得後續的處理因錯誤的輸入導致錯誤的輸出,

使得中文在未知詞擷取及詞性標記的正確性要達到與英文同樣水準也不大容

28 (Spelling Correction)

較難實行 需要領域相關的錯別字字庫

2

語法變化的解析 (Syntactic variety)

可修改

規則 修改擷取詞對方法

3

代名詞的取代 (Pronoun resolution)

較難實行 需要效能良好的中文文法剖析器

(Morphology and negation)

可實行 可擷取否定詞,如:「不」、「否」…

6

同義字使用

(Filling in the semantic gaps)

可實行 可使用同義詞語料庫

7

概念比對

(Concept matching)

可修改 規則

不同的概念擷取方法也要有不同的比對方 法

29

從表 2-3 中可以看出,因為中文的詞沒有字詞型態變化的困擾,所以在中 文環境之中不需要處理字詞型態的轉換,如三單、過去式、現在進行式等。另 外「否定詞處理」及「同義字使用」的處理步驟則完全可以在中文環境下使用,

我們可以擷取句中的否定詞及使用同義詞語料庫來達到這個功能。而拼字錯誤 的更正需要去收集大量的領域相關語料來建立錯別字字庫,在沒有龐大資源的 條件下很難完成這項工作,中文要完成這項工作,或許要另尋他法。除此之外,

「語意變化的解析」、「代名詞的取代」這兩個步驟要應用於中文環境下有較大 的困難,因為目前在中文環境下並沒有效能良好的文法剖析可供使用,因此要 取代句中的代名詞以及分析句中的文法結構較難實行,但是 C-Rater 在解析法意 變化時都是擷取句子中的動詞、名詞及形容詞,這樣的方法提供了本研究一個 動機,或許修改擷取詞對的方法不需透過文法剖析是一個可行方向,另外在比 對擷取概念時,亦可以發展不同的概念比對方法。

2、各反應題研究領域不同之處

每個研究都會針對特定的領域並處理該領域中所產生的問題,我們可以從 這些研究可以看出,他們都是藉由領域相關的特性來處理這些問題,因此本研 究也針對特定的領域來發展自動評分系統。本文自動評分的領域為如何檢定教 師能力,其基本形式為受測者針對問題提出自己的各種作法。各研究的批改領 域不同之處,如表 2-4 所示。

30

表 2-4 反應題研究領域不同之處比較表

研究者 批改題目之領域 是否有固定的答題範圍

C-Rater 科學、數學、歷史或是資訊領域 是

Wang 地球科學領域 是

林素穗 資訊領域 是

許成之等人 資訊領域 是

3、自動評分方法

先前研究採用的技術包含兩種技術,第一種為關鍵詞擷取,第二種為關鍵 詞比對方法。然而 C-Rater 以擷取句子中的概念取代其他研究的關鍵詞擷取,不 同研究自動批改方法的差異如表 2-5 所示。

由於使用關鍵詞擷取的方法不足以滿足擴展反應題型的評分需求,本研究 將以 C-Rater 中的概念擷取方法為基礎。但由於本研究受限於缺乏中文環境下效 能良好的文法自動剖析工具,因此我們將提出一套不同於 C-Rater 的概念擷取方 法,以適於中文環境下使用。而本研究所提方法在後續處理時將不採用 TF-IDF 方法進行比對,而改採本研究另外提出的兩個不同計分模型,這些方法將在第 三章中進行詳細討論。

表 2-5 不同研究自動批改方法比較表

研究者 自動批改方法

C-Rater 概念擷取後進行 TF/IDF 比對

Wang 去掉冗詞後進行 TF/IDF 比對

林素穗 擷取關鍵詞後進行 TF/IDF 比對

許成之等人 擷取關鍵詞後進行 TF/IDF 比對

31

4、本研究自動評分的對象

本研究擬定 10 題有關教師教學能力的問題,題目題型如下:(基於測驗保 密原則,其他題目未公佈),受詴者必頇根據題目條列式的寫出「作法」及「理 由」,作法是指受詴者根據題目所提出的解決方法,理由是解釋為什麼要這麼做,

所有「作法」及「理由」的集合則是受詴者的答案。一個答案可能包含數個作 法,在本研究中我們將受詴者寫的一個「作法」稱為一個答題的「反應」,本研 究將針對受詴者的「反應」提出自動評分方法。

32