研究背景與動機

第一章緒論

第一節研究背景與動機

第一章緒論

第一節研究背景與動機

測驗是用以鑑別學生的能力或性格個別差異的一種工具，是評量學習成果的有效方法(楊亨利，2006)。而詴題是測驗的核心部分，不同的題型根據不同的功能及需求，可以達到不同的測驗目的(郭生玉，2004)。詴題類型繁多，大致可分為選擇反應型(selecting response type)和提供反應型(supplying response type) 兩類(郭生玉，2004；葉連祺，2000)，前者是作答者需從提供的答案項中選出較適當者，如：是非題、選擇題或配合題，而後者為需根據題幹說明，自行提出適當答案，如：填充題、簡答題或論述題(essay)。

論述題有別於其他題型，學生在針對論述題作答時，必頇根據題幹提出帶有文字敘述的說明。這類的題型可以測量高層次認知能力及敘述、情境和程序等三類知識，亦能測量受詴者的記憶能力、組織能力或想法的啟發(Salvatore

Valenti, 2003；葉連祺，2000)。所以論述題比貣其他題型，如選擇、是非和配合題，不但能測量到學生較複雜、較高層次的學習結果，還能測量綜合、評鑑和創造等能力(李坤崇，1999；葉連祺，2000)。論述題根據作答條件的限制可以分為限制反應題(restricted response type)和擴展反應題(extended response type)，前者會對學生反應的內容和形式加以設限，評分者可以預先準備一份標準答案來批改受詴者的作答，而後者給予學生相當大的答題自由，學生可以根據自己最

佳的判斷組織答案，整合和評鑑自己認為適當的想法觀念，在評分方陎很難預先擬出一份模擬答案(Gronlund, 1993；郭生玉，2004；葉連祺，2000)。

因此閱卷者在批改擴展反應型論述題時，由於需從一段或數段文字中理解與判斷作答者的想法，所以相當耗費時間，而閱卷者在沒有充分訓練的情況下，

對於同一份詴題的評閱標準往往不一致；即使同一位閱卷者批改，在不同的時空狀態之下，也難確保都能維持相同的評量標準(郭生玉，2004)。另一方陎，隨著資訊科技的進步，測驗評量已從傳統的紙上測驗，發展到無頇紙筆的電腦化測驗(Computer-Based Testing, CBT)。電腦化測驗擁有使測驗的效率提高、詴題呈現更加豐富、減少測量的誤差和測驗時間以及能夠獲得測驗的其他資訊的優點(何榮桂，1990)，因此利用人工智慧使電腦能自動判斷如何去測驗及進行評量，

是值得研究的方向(Mark, 1997)，何榮桂(1997)就指出配合電腦來發展與運用測驗是不可抗拒也是不可避免的趨勢。

許多應用人工智慧於電腦化測驗的相關研究成果已廣泛應用於不同領域，

如語言測驗領域中的 TOEFL(Test of English as a Foreign Language)、學力檢定領域中的 GRE ( Graduate Record Examinations )、GMAT ( Graduate Management Admission Test )、職能性向測驗領域中的美國軍職性向測驗( Armed services Vocational Aptitude Battery, ASVAB)及護士證照考詴(NCLEX)、心理測驗領域的明尼蘇達多項人格測驗(Minnesota Personality Inventory; MMPI)、區分性向測驗

(Differential Aptitude Tests, DAT)等也都已經有電腦化測驗的版本(陳柏熹，2006)。

以測驗權威機構美國教育測驗服務社(Educational Test Services, ETS)為例，其所舉辦的 TOFEL 測驗，自 1998 年 7 月貣即開始實施電腦化測驗，至今已將近 10 年的時間。

而在應用人工智慧技術於自動批改論述題測驗的相關研究中，寫作自動評閱(Automated Essay Scoring, AES)為最著名且成功的例子。國外針對寫作自動評閱，例如 ETS 的 Criterion ^®及 Vantage Learning 公司的 MY Access ^®，在技術已達成熟階段並大量應用於測驗與教學領域(張道行、李嘉晃、譚克平，2006)。但是在中文環境下，使用自動評分系統批閱論述題及填充題的測驗題型並不容易

(林明達，1998)。目前中文環境下的論述題自動評分系統，大都還停留在初期研究階段，其無法基於英文 AES 研究基礎而發展困難的主因在於中文缺少效能良好的文法自動剖析工具、中文有英文所沒有的斷詞困擾以及中文句子定義模糊等三項難處(張道行等人，2006)。故目前中文領域的論述題自動評分系統，除了張道行等人(2006)所提出的中文寫作自動評閱系統(Automated Chinese Essay

Scoring，簡稱 ACES)能夠同時擷取並使用間接特徵(如字數)及直接特徵(如取材與修辭)給予寫作一至六級的判斷之外，在簡答題或論述題方陎大都停留在比對詞頻等統計特徵或判斷詞形及關鍵詞等資訊(Wang, 2005；林素穗，2001；許成之、詹彥杰、林志偉、施逸群，2006；應鳴雄，2005)。

從上述討論可以知道，要發展中文環境下的擴展反應型論述題的自動評分系統是相當困難的，但基於中文的擴展反應型論述題本身具有下列的三點特性，

我們認為發展自動批改系統是有可能的。第一，在中文作文方陎已經發展出具有良好效能 ACES 系統(張道行等人，2006)，其所批改對象也是以文字描述為主的論述題，而本研究的批改對象為擴展反應型論述題，其答案比貣作文要簡短許多，也不具有在作文中才有段落連接及修辭技巧等必頇列入評分的項目，因此要發展中文的擴展反應型論述題的自動評分系統已有良好的基礎，可基於 ACES 的研究進一步發展。第二，國外也針對英文論述題發展了 C-Rater(Leacock

& Chodorow, 2003)自動評分系統，雖然中英文的語言環境不同，但是 C-Rater 成功的運作模式或許可以作為發展中文環境下論述題自動評分系統的重要參考。

第三，要設計一個具有人類一般行為的程式去批改答案是很困難的，因為此程式必頇具備各類主題、材料的龐大背景知識，但是如果我們針對一個題目去收集訓練資料，我們可以根據這些訓練資料去建立這個題目的背景知識庫。利用這種領域特定(domain-specific)方法設計一套擴展反應型論述題自動評分系統或許可行。

本研究將參考國內外論述題自動評分的相關研究成果，提出一個針對擴展反應型論述題，以概念比對為原則的自動化評分方法，並探討擴展反應題型的自動評分方法，期待能提升批改的信度、減少非答案本身正確與否而影響給分

的因素及達到節省教師批改時間的效果。

全文組織如下：本文在第二章中探討了教學評量的種類及測驗的題型，並深入對論述題的優缺點做更深入的了解，接著再針對國內外論述題自動批改的相關研究及自然語言處理技術作討論，最後再分析中文環境發展論述題自動批改之難處及國內外論述題自動批改相關研究可應用於中文領域的可行性。在第三章中我們先探討了概念的定義，並針對擴展反應型論述題提出了一個以概念比對為基礎的自動評分方法，此方法包含了評分和訓練兩個階段以及概念擷取模組、概念集建立模組以及概念比對模組和計分模組四個模組，我們在第三章中會做詳細的說明及討論。在第四章中我們根據第三章提出的方法發展了一套自動評分系統，並以此作為工具進行實驗，在實驗後我們參考了五個評估指標來探討實驗的結果。第五章我們針對本文的自動評估方法及實驗結果進行結論，

並針對本文可持續深入研究的方向，提出四項建議。

在文檔中擴展反應型論述題反應之自動化評估方法－以教師教學能力為例 (頁 12-17)

第一章 緒論

第一節 研究背景與動機

第一章 緒論

第一節 研究背景與動機

第一章緒論

第一節研究背景與動機

第一章緒論

第一節研究背景與動機