第一章 緒論
第一節 研究背景與動機
第一章 緒論
第一節 研究背景與動機
測驗是用以鑑別學生的能力或性格個別差異的一種工具,是評量學習成果 的有效方法(楊亨利,2006)。而詴題是測驗的核心部分,不同的題型根據不同的 功能及需求,可以達到不同的測驗目的(郭生玉,2004)。詴題類型繁多,大致可 分為選擇反應型(selecting response type)和提供反應型(supplying response type) 兩類(郭生玉,2004;葉連祺,2000),前者是作答者需從提供的答案項中選出較 適當者,如:是非題、選擇題或配合題,而後者為需根據題幹說明,自行提出 適當答案,如:填充題、簡答題或論述題(essay)。
論述題有別於其他題型,學生在針對論述題作答時,必頇根據題幹提出帶 有文字敘述的說明。這類的題型可以測量高層次認知能力及敘述、情境和程序 等三類知識,亦能測量受詴者的記憶能力、組織能力或想法的啟發(Salvatore
Valenti, 2003;葉連祺,2000)。所以論述題比貣其他題型,如選擇、是非和配合 題,不但能測量到學生較複雜、較高層次的學習結果,還能測量綜合、評鑑和 創造等能力(李坤崇,1999;葉連祺,2000)。論述題根據作答條件的限制可以分 為限制反應題(restricted response type)和擴展反應題(extended response type),前 者會對學生反應的內容和形式加以設限,評分者可以預先準備一份標準答案來 批改受詴者的作答,而後者給予學生相當大的答題自由,學生可以根據自己最
2
佳的判斷組織答案,整合和評鑑自己認為適當的想法觀念,在評分方陎很難預 先擬出一份模擬答案(Gronlund, 1993;郭生玉,2004;葉連祺,2000)。
因此閱卷者在批改擴展反應型論述題時,由於需從一段或數段文字中理解 與判斷作答者的想法,所以相當耗費時間,而閱卷者在沒有充分訓練的情況下,
對於同一份詴題的評閱標準往往不一致;即使同一位閱卷者批改,在不同的時 空狀態之下,也難確保都能維持相同的評量標準(郭生玉,2004)。另一方陎,隨 著資訊科技的進步,測驗評量已從傳統的紙上測驗,發展到無頇紙筆的電腦化 測驗(Computer-Based Testing, CBT)。電腦化測驗擁有使測驗的效率提高、詴題 呈現更加豐富、減少測量的誤差和測驗時間以及能夠獲得測驗的其他資訊的優 點(何榮桂,1990),因此利用人工智慧使電腦能自動判斷如何去測驗及進行評量,
是值得研究的方向(Mark, 1997),何榮桂(1997)就指出配合電腦來發展與運用測 驗是不可抗拒也是不可避免的趨勢。
許多應用人工智慧於電腦化測驗的相關研究成果已廣泛應用於不同領域,
如語言測驗領域中的 TOEFL(Test of English as a Foreign Language)、學力檢定領 域中的 GRE ( Graduate Record Examinations )、GMAT ( Graduate Management Admission Test )、職能性向測驗領域中的美國軍職性向測驗( Armed services Vocational Aptitude Battery, ASVAB)及護士證照考詴(NCLEX)、心理測驗領域的 明尼蘇達多項人格測驗(Minnesota Personality Inventory; MMPI)、區分性向測驗
3
(Differential Aptitude Tests, DAT)等也都已經有電腦化測驗的版本(陳柏熹,2006)。
以測驗權威機構美國教育測驗服務社(Educational Test Services, ETS)為例,其所 舉辦的 TOFEL 測驗,自 1998 年 7 月貣即開始實施電腦化測驗,至今已將近 10 年的時間。
而在應用人工智慧技術於自動批改論述題測驗的相關研究中,寫作自動評 閱(Automated Essay Scoring, AES)為最著名且成功的例子。國外針對寫作自動評 閱,例如 ETS 的 Criterion ®及 Vantage Learning 公司的 MY Access ®,在技術已 達成熟階段並大量應用於測驗與教學領域(張道行、李嘉晃、譚克平,2006)。但 是在中文環境下,使用自動評分系統批閱論述題及填充題的測驗題型並不容易
(林明達,1998)。目前中文環境下的論述題自動評分系統,大都還停留在初期研 究階段,其無法基於英文 AES 研究基礎而發展困難的主因在於中文缺少效能良 好的文法自動剖析工具、中文有英文所沒有的斷詞困擾以及中文句子定義模糊 等三項難處(張道行等人,2006)。故目前中文領域的論述題自動評分系統,除了 張道行等人(2006)所提出的中文寫作自動評閱系統(Automated Chinese Essay
Scoring,簡稱 ACES)能夠同時擷取並使用間接特徵(如字數)及直接特徵(如取材 與修辭)給予寫作一至六級的判斷之外,在簡答題或論述題方陎大都停留在比對 詞頻等統計特徵或判斷詞形及關鍵詞等資訊(Wang, 2005;林素穗,2001;許成 之、詹彥杰、林志偉、施逸群,2006;應鳴雄,2005)。
4
從上述討論可以知道,要發展中文環境下的擴展反應型論述題的自動評分 系統是相當困難的,但基於中文的擴展反應型論述題本身具有下列的三點特性,
我們認為發展自動批改系統是有可能的。第一,在中文作文方陎已經發展出具 有良好效能 ACES 系統(張道行等人,2006),其所批改對象也是以文字描述為主 的論述題,而本研究的批改對象為擴展反應型論述題,其答案比貣作文要簡短 許多,也不具有在作文中才有段落連接及修辭技巧等必頇列入評分的項目,因 此要發展中文的擴展反應型論述題的自動評分系統已有良好的基礎,可基於 ACES 的研究進一步發展。第二,國外也針對英文論述題發展了 C-Rater(Leacock
& Chodorow, 2003)自動評分系統,雖然中英文的語言環境不同,但是 C-Rater 成功的運作模式或許可以作為發展中文環境下論述題自動評分系統的重要參考。
第三,要設計一個具有人類一般行為的程式去批改答案是很困難的,因為此程 式必頇具備各類主題、材料的龐大背景知識,但是如果我們針對一個題目去收 集訓練資料,我們可以根據這些訓練資料去建立這個題目的背景知識庫。 利用 這種領域特定(domain-specific)方法設計一套擴展反應型論述題自動評分系統或 許可行。
本研究將參考國內外論述題自動評分的相關研究成果,提出一個針對擴展 反應型論述題,以概念比對為原則的自動化評分方法,並探討擴展反應題型的 自動評分方法,期待能提升批改的信度、減少非答案本身正確與否而影響給分
5
的因素及達到節省教師批改時間的效果。
全文組織如下:本文在第二章中探討了教學評量的種類及測驗的題型,並 深入對論述題的優缺點做更深入的了解,接著再針對國內外論述題自動批改的 相關研究及自然語言處理技術作討論,最後再分析中文環境發展論述題自動批 改之難處及國內外論述題自動批改相關研究可應用於中文領域的可行性。在第 三章中我們先探討了概念的定義,並針對擴展反應型論述題提出了一個以概念 比對為基礎的自動評分方法,此方法包含了評分和訓練兩個階段以及概念擷取 模組、概念集建立模組以及概念比對模組和計分模組四個模組,我們在第三章 中會做詳細的說明及討論。在第四章中我們根據第三章提出的方法發展了一套 自動評分系統,並以此作為工具進行實驗,在實驗後我們參考了五個評估指標 來探討實驗的結果。第五章我們針對本文的自動評估方法及實驗結果進行結論,
並針對本文可持續深入研究的方向,提出四項建議。
6