• 沒有找到結果。

本文的研究目的是希望提出一個在中文環境下,以概念比對為基礎的論述 題自動評分方法。我們定義了概念為句子之中的動名詞對,並在整個自動化評 估方法中建立了概念擷取模組、概念集建立模組、概念比對模組以及計分模組,

本文也設計了一個實驗分析這套方法的效能。首先,我們先收集題目的反應,

並由人工批改,這些經過批改的反應可以透過概念集建立模組形成一個概念集,

有了概念集後我們可以在評分階段時用來比對待評分反應中的概念。接著再透 過概念擷取模組將待評分反應中的概念擷取出來,並利用概念比對模組跟先前 建立好的概念集進行比對,透過上述的步驟,我們可以找出待評分反應的相似 概念。接著我們必頇透過找到的概念給予待評分反應一個分數,我們使用了兩 個方法:平均計分法及規則計分法。

在平均計分法中,我們將找到的概念所對應的分數平均,並給予待評分反 應這個平均分數。在規則計分法中我們發展了六條不同的篩選規則,並透過這 六條規則將比對到的概念和待評分反應中較不一樣的概念排除,藉此讓自動評 分的正確性增加。

我們根據上述的方法建立的一套自動評分程式並進行實驗,根據實驗的結 果我們認為規則式計分法有發揮他一定的效果, 並且達到令人滿意的批改結果,

雖然距離實際應用還有一段距離,但是我們的系統可以提供一個擴展反應型論

88

述題反應之自動化評估方法的參考。

本研究提供擴展反應型論述題反應的自動化評估方法的原型系統,並針對 本文可持續深入研究的方向,提出四項建議。

第一,改良規則計分法。規則計分法主要是將比對到的概念進行篩選,藉 以保留和待評分反應叫相似的概念,其精確率和正確率已達令人滿意的標準,

然而在批改嚴重錯誤率仍然偏高,可能是篩選規則不足或是篩選規則的篩選效 率仍不佳,因此後繼研究者可以以降低嚴重錯誤率為基礎繼續探討篩選規則,

以達到更良好的評估成效。

第二,應用於其他領域。本研究以教師教學能力測驗為主題,並以此主題 作為本系統自動批改的對象,但是本文所提出概念集建立的研究方法並非領域 相關,任合領域的題目都可以利用概念集建立模組產生一個屬於其專屬的概念 集,並藉此來比對該領域中的待批改反應,並透過計分模組給予分數。所以其 他不同領域可能可以重複本研究之研究方法及流程,去探討在不同領域下的擴 展式論述題自動評分成效。

第三,改良擷取概念的方法。本研究提出的概念擷取方法,主要是擷取反 應中的動名詞對。然而在研究所提出的篩選規則中,必頇透過其他的資訊,如 教師對同個動名詞對的分數差,或是在某些時候必頇篩選掉不足以代表原反應 的動名詞對,如同義動名詞對或半動名詞對,這是因為有時候只以動名詞對代

89

表反應的概念可能仍嫌不足,未來若在中文領域上發展出效能良好的文法剖析 器,可以改良本研究所題的概念擷取方法,增加概念擷取的準確度,以達到更 好的批改果。

第四,更改訓練語料中分數來源。本研究使用三位不同教師的給分作為訓練 語料的分數來源,但是若是教師的給分有不一致的現象,會造成自動評分系統 效能不佳。若是三位教師給分一致或是利用統計檢定達顯著相關,可以同時使 用三位教師的給分,例如使用教師的平均給分,作為訓練語料中的分數來源,

這樣的分數來源比較有一致性,因此也可能可以提升系統批改的成效。

若本文所提的自動批改方法在未來能夠持續的研究及發展,將可以解決論 述題題型在批改上的三大缺失。第一,自動評分系統可以節省大量的人力和時 間,不會耗費教師大量的時間;第二,使用自動評分系統的信度高,若是語料 庫的來源完美,由語料庫所訓練出來的系統在評分時不會有因主觀意見造成給 分不一致的情形,可以解決同位教師對相同概念卻給分不均的困擾;第三,自 動評分系統不會受其他無關的因素而影響給分,系統會根據受詴者所表達的觀 念正確與否給分,跟傳統教師在給分時會受受詴者寫作能力、拼字、標點、文 法錯誤或答案長短等因素影響給分的正確性。因此,發展自動批改系統在教育 測驗的領域中,扮演著舉足輕重的角色,而本文也希望能在中文的自動批改領 域中,提出一個自動批改模型,以期達到拋磚引玉的效果。

90

參考文獻

一、中文部分

CKIP 詞庫小組(1993)。中文詞類分析(三版)技術報告。中央研究院資訊科學研 究所。

中央研究院資訊科學研究所詞庫小組中文斷詞系統。

URL:http://ckipsvr.iis.sinica.edu.tw/

何榮桂(1990)。電腦教學系統中的測驗設計。中等教育,41(2),29-34。

何榮桂(1997)。從「測驗電腦化與電腦化測驗」再看網路化測驗。測驗與輔導,

144,2972-2974。

李坤崇(1999) 。多元化教學評量。台北:心理出版社。

林千翔、張嘉惠(2006)。基於特製隱藏式馬可夫模型之中文斷詞研究。ROCLING XVIII: Conference on Computational Linguistics and Speech Processing, 2006.

林明達(1998)。全球資訊網線上測驗系統之設計與製作。國立交通大學資訊科學 研究所碩士論文。

林素穗(2001)。運用資訊技術於論文題之自動評量之探討。國立彰化師範大學商 業教育學系碩士論文。

范長康、蔡文祥(1987)。以鬆弛法作中文斷詞。全國計算機會議論文集,

423 - 431。

許成之、詹彥杰、林志偉、施逸群(2006)。線上測驗簡答題評分之研究。2006 數位科技與創新管理國際研討會,華梵大學,台北,台灣。

許菱祥(1986)。中文文法。大中國圖書公司。

陸汝鈴(1995)。人工智能。科學出版社。

91

張佑銘(2004)。中文自動作文修辭評分系統設計。國立交通大學資訊工程研究所 碩士論文。

張道行 (2007)。中文寫作自動評閱之概念化方法。新竹市:國立交通大學博士 論文。(未出版)

張道行、李嘉晃、譚克平(2006)。中文寫作自動評閱系統之發展與效能。中文寫 作評量研討會,台灣師範大學,台北:台灣。

陳英豪、吳裕益(1982)。測驗的編制與應用。台北:偉文出版社。

陳稼興、謝佳倫、許芳誠(2000)。以遺傳演算法為基礎的中文斷詞研究。電子商 務學報,2(2),27-44。

陳柏熹(2006)。國家考詴電腦化測驗相關問題探討。國家菁英季刊,2(2),

125-138。

梅家駒(1983)。同義詞詞林。東華書局。

楊亨利、應鳴雄(2006)。線上測驗系統的評分機制及回饋方式對測驗成績、評分 效力、測驗系統滿意度之影響研究。資訊管理展望,第 8 卷第 2 期。

葉千綺(2000)。電腦在測驗領域的發展與應用。新世紀優質學習的經營研討會,

國立台南師範學院。

葉連祺(2000)。教師自編紙筆式測驗詴題類型之探討。研習資訊,17(4),42-53。

郭生玉(2004)。教育測驗與評量。精華書局。

二、英文部分

Chen ,Y.J. , (2000). Scalable summarization for Chinese text ,

master thesis of Na-tional Tsing-Hua University.

Manning Christopher D. & Schutze, H. (1999). Foundations of Statistical Natural

92

Language Processing ,MIT Press.

Dikli, S. (2006). Automated Essay Scoring. Online Submission 7: 49-62.

Edel, R. L., & Frisbie, D. A. (1991). Essentials of educational measurement (5th ed.).

Englewood Cliffs, NJ: Prentice-Hall.

Gronlund, N. E. (1993). How to make achievement tests and measurements (5th ed.).

Needham Heights, MA: Allyn and Bacon.

Hutchison, D. (2007). An evaluation of computerised essay marking for national cur-riculum assessment in the UK for 11-year-olds. British Journal of Educational

Technology 38: 13.

Leacock, C. & Chodorow, M. (2003). C-rater: Scoring of short-answer questions.

Computers and the Humanities, 37(4), 389-405.

Li, G. C., K. Y. Liu., & Y. K. Zhang. (1998). Identifying Chinese Word and Processing Different Meaning Structures. Journal of Chinese Information

Processing, Vol. 2, pp. 45-53.

Liang, N. Y. (1990). Knowledge of Chinese Word Segmentation. Journal of Chinese

Information Processing, Vol. 4, pp. 42-49.

Mark, D. R. (1997). The Next Generation of Computerized Tests: Implications for Testing of Advances in Multimedia, Intelligent Tutoring Systems, and Language Processing. AEDS Journal (19:2), 1997, pp: 81-108.

93

McKenna, C. & Bull, J. (1999). Designing Effective Objective Test Questions: An Introductory Workshop. Third Annual Computer-assisted Assessment

confe-rence.

Salton, G., Allan , J., & Buckly , C. (1994). Automatic structuring and retrieval of large text files. Communications of the ACM, 37(2) ,pp97-108

Stephen, G., Pulman , J., & Sukkarieh, Z. (2005). Automatic Short Answer Marking.

Proceedings of the 2nd Workshop on Building Educational Applications Using NLP: 9-16.

Valenti, S., Neri, F., & Cucchiarelli, A. (2003). An Overview of Current Research on Automated Essay Grading. Journal of Information Technology Education, Vo-lume 2, 2003. Wang, H. C., Kumar, R., Rose, C. P., Li, T. Y., & Chang, C. Y.

(2007). A Hybrid Ontology Directed Feedback Selection Algorithm for Sup-porting Creative Problem Solving Dialogues. Proceedings of 20th International

Joint Conference on Artificial Intelligence.

Wang, H. C., Chang, C. Y., & Li, T. Y. (2005, November). Automated scoring for creative problem solving ability with ideation-explanation modeling. Paper

presented at the 2005 International Conference on Computers in Education,

Singapore.

94

95

VCL VC1 /*動作接地方賓語動詞*/

VD VD1, VD2 /*雙賓動詞*/

VE VE11, VE12, VE2 /*動作句賓動詞*/

VF VF1, VF2 /*動作謂賓動詞*/

VG VG1, VG2 /*分類動詞*/

VH VH11,12,13,14,15,17,VH21 /*狀態不及物動詞*/

VHC VH16, VH22 /*狀態使動動詞/

VI VI1,2,3 /*狀態類及物動詞*/

VJ VJ1,2,3 /*狀態及物動詞*/

VK VK1,2 /*狀態句賓動詞*/

VL VL1,2,3,4 /*狀態謂賓動詞*/

V_2 V_2 /*有*/

DE /*的, 之, 得, 地*/

SHI /*是*/

FW /*外文標記*/

96

97

附錄三 系統實作畫陎

一、使用者輸入介陎

使用者可以選擇不同的題目作答,並根據問題輸入該問題的解決作法,輸 入完畢按下系統評分後,可以立即得到自動批改的分數,如附錄圖 1 所示。

附錄圖 1 使用者輸入介陎圖

98

二、批改流程說明介陎

1、 自然語言前處理結果一覽

透過系統畫陎的呈現,可以讓使用者一目了然看到自然語言前處理的 結果,其中包含了:斷詞、動名詞擷取以及動名詞組合三部分,如附錄附 錄圖 2 所示。

附錄圖 2 批改流程說明圖 – 解析學生反應

99

2、 概念比對結果一覽

在此頁陎,系統將概念比對的結果呈現出來,使用者可以點選比對到 原始反應分數,並看到原始反應的內容,如附錄附錄圖 3 所示。

附錄圖 3 批改流程說明圖 – 比對動名詞對

100

3、 評分結果一覽

本研究透過建立許多不同的規則,來尋找和待評分反應最相似的反應 樣本。本頁陎展示了系統評分規則,以及最後評分的依據,如附錄附錄圖 4 所示。

附錄圖 4 批改流程說明圖 – 結果及評分