實驗過程與結果討論 - 基於貝氏機器學習法之中文自動作文評分系統

在本章節中，將於 5.1 節說明本系統所使用的實驗資料來源。並於 5.2 節中說明主要實驗流程。最後於 5.3 節中探討實驗的數據結果。

5.1 實驗資料

本實驗中所使用的資料為臺北市敦化國中二年級學生所撰寫的作文，作文題目為『下課十分鐘』，可用資料共有 689 篇。這些作文是由人工建立電子檔，建檔的過程中保留學生原本的錯字及標點符號，以維持文章原貌。作文分數等級仿照 GMAT 作文測驗，採六級分制。每篇作文皆由二至三位老師所評閱，以維持閱卷分數可靠性。其中一至六分文章分別有 45 篇、128 篇、210 篇、208 篇、91 篇、7 篇，在本實驗中，選定一至六分文章各二分之一作為訓練資料，其餘二分之一作為測試資料用以評估系統效能。

5.2 實驗流程

所有作文皆經由「中央研究院資訊科學研究所詞庫小組中文斷詞系統 1.0 版」[5]進行文章的斷詞與詞性標記後，開始擷取各項特徵。本實驗共分兩大階段，首先，在系統訓練的階段，以 343 篇作文作為訓練資料，接著將訓練文章中各類特徵屬性依序排序完成，同時紀錄各類別間的 min-Max 區間，用以計算各類特徵屬性預測機率值。接著在測試階段中，以 346 篇的測試文章作為測試資料，

此時系統根據訓練階段所產生的屬性預測機率值，將文章分為整體與分段評鑑進行評分後再加以整合，最後比較系統評閱的等級與原先所受的評閱等級差異，來計算系統的正確率。

5.3 實驗結果與討論

本次實驗中共計算二種正確率 Adjacent Rate、Exact Rate：

Adjacent Rate：允許一分誤差的整體正確率 Exact Rate ：毫無誤差的精準正確率

因受限於每位閱卷老師的背景知識、主觀認知與評量標準不盡相同之下，本實驗認為相差一分為可容許的誤差，在這一分的誤差範圍之下皆視為正確的評斷。

在本實驗中，針對現有的 689 篇作文中，於一至六分等級中選定各類文章之二分之一作為訓練資料，共計 343 篇訓練資料，其餘尚有 346 篇作文用以作為測試資料，實驗結果如下表 3 所示，並與[6][7]方法比較結果如表 4 所示：

評分結果 文章類別

1-pt 2-pt 3-pt 4-pt 5-pt 6-pt

Adjacent Rate

Exact Rate 1-pt (23 篇) 18 4 1 0 0 0 95.7% 78.3%

2-pt (64 篇) 10 33 21 0 0 0 100% 51.6%

3-pt (105 篇) 0 17 53 32 3 0 97.1% 50.5%

4-pt (104 篇) 0 0 30 65 9 0 100% 62.5%

5-pt (46 篇) 0 0 1 27 18 0 97.8% 39.1%

6-pt (4 篇) 0 0 0 2 2 0 50% 0%

表格 3：本系統實驗結果

Modified ID3 Concept Method Bayesian Method Adjacent

Rate

91.1% 92.30% 97.98%

Exact Rate

38.9% 46.89% 54.05%

表格 4：實驗結果

如表 3 所示，一分類別的測試文章共有 23 篇，其中 18 篇經由本評閱系統評為一分、4 篇評為二分、1 篇評為三分；二分類別的測試文章共有 64 篇，其中 10 篇評為一分、33 篇評為二分、21 篇評為三分；依此類推，可分別算出各類文章的 Adjacent Rate 及 Exact Rate。在允許一分的誤差下，一至五分類別文章的 Adjacent Rate 皆可達 95%以上的準確率；相較之下，在六分類別文章中，因有效樣本數較少，因此所得準確率較低；但從系統的整體效能觀之，在允許一分的誤差下，其整體的準確率可達 97.98%。根據表 4 所示，本系統與 Modified ID3 及 Concept Method 兩者相比，在整體的效能表現上，不論是 Adjacent Rate 或 Exact Rate，皆較另二種評閱系統優異，足以顯示本系統的可信度，因此適合用以作為老師評閱作文時的參考工具之一。

第六章、結論與展望

在本論文中，我們提出以貝氏機器學習法為基礎的作文評分方式，經由觀察統計文章中的直接與間接關係，我們發現文章的單一特徵雖無法直接決定作文分數，但將多樣性的特徵透過貝氏學習法的整合卻能凸顯其優異的評分效能。根據實驗結果所示，本系統對於作文的評閱擁有相當高的正確率，在允許一分誤差下的正確率(Adjacent Rate)可高達將近 98%，意謂著本系統與實際閱卷老師的批閱結果相當接近，可提供作為閱卷老師批改作文時的協助工具之一。

本系統提出一以貝氏機器學習法為基礎的中文評分系統，其中所需的訓練資料量過多，若欲應用於大考之中，稍嫌不便。盼未來能提出一套僅須少量訓練樣本即可達到同樣高正確率的系統模型。

參考文獻

[1] L. M. Rudner & L. Liang, Automated essay scoring using Bayes' theorem, National Council on Measurement in Education, New Orleans, LA.(2002) [2] Jill Burstein, Karen Kukich, Susanne Wolf, Chi Lu, Martin Chodorow, Lisa Braden-Harder, Mary Dee Harris, Automated scoring using a hybrid feature identification technique, Proceedings of the 17^th

international conference on Computational linguistics(1998)

[3] Jill Burstein. The E-rater Scoring Engine: Automated Essay Scoring With Natural Language Processing. Automated Essay Scoring: A Cross-Disciplinary Perspective (2003). pp. 113-121

[4] Tsunenori ISHIOKA, Masayuki KAMEDA, Automated Japanese Essay Scoring System : Jess.(2003)

[5] 中央研究院資訊科學研究所詞庫小組中文斷詞系統 URL：http://ckipsvr.iis.sinica.edu.tw/

[6] 張佑銘, 中文自動作文修辭評分系統設計(2005)

[7] 蔡沛言, 自動建構中文作文評分系統：產生、篩選與評估(2005)

在文檔中基於貝氏機器學習法之中文自動作文評分系統 (頁 31-35)