第一章為緒論,說明本研究的動機與目的;第二章為相關研究,將介紹現有的中文 自動評分系統及相關研究資訊;第三章將說明本系統的架構和詳細的演算法流程;第四 章為實驗過程與結果,以及與其他系統的比較結果;第五章將說明本論文的結論及未來 展望。
2
二、 相關研究
自動評閱技術在國外發展甚早,1960 年代 Page 利用某些與文章成績有高度相關的 統計特徵進行線性回歸而提出了Project Essay Grader(PEG)系統,可說是自動評閱技 術的先驅。由於 PEG 只使用文章的字數、逗號數、罕見詞數等間接特徵,這些特徵雖 然與文章成績在統計上有相關性,卻無法代表文章的水準;而文章的直接特徵如內容、
組織及文法等資訊並未被加入,雖然評分結果與人工評分的相關係數可以達到0.78,但 寫作者很容易掌握其統計特徵,進而寫出內容明顯不佳卻能被評為高分的文章。
在 PEG 之後,隨著自然語言處理及資料擷取等技術的進步,許多自動評分系統陸 續被提出,如Page[4]加入了句子完備性等,Attali 及 Burstein [2]加入了語法正確 性與主題符合度等直接特徵;Landauer 等[3]利用作品與詞彙的潛在語意關係(Latent Semantic Analysis, LSA)來取得文章間的語意關係,提出了以語意特徵為核心的系統 IEA。以上系統加入了直接特徵的資訊,使得評分結果更接近人工評分,且較難以欺騙。
在中文寫作自動評閱方面,目前提出的系統([7][8][9][10])主要架構與英文 系統相同,均以特徵擷取為基礎,再使用機器學習的方法整合特徵值的資訊以建立評分 規則。
在特徵擷取方面,由於中文的語言特性,遭遇到許多處理英文時不會出現的困難,
也造成英文的自動評閱技術無法直接套用在中文寫作上。在目前的系統中,張[8]使 用了詞數、形容詞數、成語數等表面特徵及譬喻、排比兩項修辭方面的直接特徵;蔡[10]
使用同主題的訓練文章找出鑑別義原數這項直接特徵;林[7]則在鑑別義原數外再加 入了單字詞比率、字數、句號數、名詞數及平均段落字數等五項特徵。
在機器學習方面,嘗試過的模型包括貝氏學習機[7]、ID3 決策樹[8]以及支援 向量機[9],這些模型的共通點為必須輸入訓練文章的特徵值和人工評閱成績以建立評 分規則,再用這些規則自動評閱測試文章的分數。
然而,這些系統都需要150~300 篇以上同主題的訓練文章資訊才足以建立起評分規 則,因此無法利用在缺乏訓練資料的狀況上。
圖一為ID3 決策樹[8]及支援向量機(SVM)[9]在不同訓練文章篇數時,對同
一份包含346 篇文章的測試資料的正確率及精確率。可見兩個系統在訓練文章不足 150
SVM ID3
30%
SVM ID3
圖一 現有系統在不同訓練資料數下之正確率與精確率
另外,以上的自動評分系統雖然有採用直接特徵為評分項目,但並沒有偵測文章是 否合乎主題的機制,因此當不合題意的文章的表面特徵夠好時,便有出現評分錯誤的可 能性,使得系統容易被有心人士所破解。
4
三、 系統設計
中文作文的評分標準,主要分為立意取材、結構組織、遣詞造句及錯別字與格式等 項目。本系統僅探討文章取材方面的優劣程度,並未深入文章語意方面之表現。
3.1 節將描述整個系統的架構與流程,其後的四個小節將詳細介紹各個模組的內容。