實驗實作

我們使用的作文為國中二年級學生作文，這些作文輸入成電子檔時保留所有的錯字以及標點符號，不加以修改，以維持學生作文的原貌。修辭分數從 1 分到 6 分，1 分為最低，6 分為最高。每篇由二到三名老師評分，取平均分數。實驗資料包括 693 篇作文。

修辭分數 1 分到 6 分的文章篇數分別為 40 篇、166 篇、234 篇、177 篇、70 篇以及 6 篇。

每次實驗時隨機取出 394 篇訓練作文，其中 197 篇用來建立決策樹，197 篇用來作為 prune 時的檢驗資料，299 篇測試作文則用來評估整個系統的效能。

5.1 實驗流程

本實驗是藉由 ID3 演算法建立決策樹，因此要將連續資料予以離散化。先將所有訓練作文中 2 個連續性特徵─詞數及形容詞數─由小到大排序得到兩個數列，以這兩個數列各自的第一四分位數、中位數、第三四分位數做為邊界，將詞數及形容詞數各分成 4 群。成語數分為沒出現、出現 1 次、出現 2 次以上共 3 群；譬喻手法、非口語化的喻詞及排比三項特徵分為沒出現、出現 1 次以上共 2 群。

訓練作文先經過「中央研究院資訊科學研究所詞庫小組中文斷詞系統 1.0 版」進行斷詞與詞性標記後，開始擷取各項特徵。特徵擷取完畢之後經由改良的 ID3 演算法產生決策樹，測試用的作文同樣經過斷詞與詞性標記後，取出特徵，比對決策樹由根部到所有葉節點的路徑後可以得到該文的分數，所有測試作文經比對規則得到分數後，再與實際評分比較，以評估系統的效能。

5.2 實驗結果與討論

三次隨機抽取訓練及測試作文，並分別記錄兩種機器學習方式的效能，包括原始的 ID3 演算法(ID3)、以及本修辭評分系統使用的演算法─“Modified ID3＂。我們使用兩

個數值來評估系統的效能：由於本論文是建立在“作文評分時相差一分為可容許的誤差＂之概念上，因此計算測試作文中系統預測分數與實際分數相差一分以內的比例，記為 Adjacent value。另外一個數值名為 Exact value，代表系統預測分數與實際分數完全相同的比例。在三次的實驗中如，使用 modified ID3 方式的機器學習方法其效能皆高於原始的 ID3 演算法，平均 Adjacent value 高出 4.7%。其結果記錄在表 2 及表 3 中。

表 2 為三次實驗中，以原始 ID3 演算法以及本系統所使用的 Modified ID3 演算法對測試作文評分後所得之 Adjacent value。表 3 為三次實驗中，以原始 ID3 演算法以及本系統所使用的 modified ID3 演算法對測試作文評分後所得之 Exact value。

ID3 Modified ID3 實驗一 0.85 0.93 實驗二 0.857 0.89 實驗三 0.884 0.913

平均 0.864 0.911

表 2 Adjacent value 統計表

ID3 Modified ID3 實驗一 0.345 0.375 實驗二 0.395 0.408 實驗三 0.362 0.385 平均 0.367 0.389

表 3 Exact value 統計表

Exact Adjacent Two teachers 0.297 0.749 Modified ID3 0.389 0.911

表 4 系統效能評估表

在作文資料庫中，每篇作文由二到三名老師批改，每一位老師批改的作文數目為 50 到 100 不等，此外這些老師都沒有接受標準化批改作文方式的訓練。我們計算每一篇作文的任兩名閱卷老師所評分數的差距，如表 4，兩名老師之間的平均 exact value 為 0.297，adjacent value 為 0.749，而本研究之自動評分系統與作文平均分數之間的 adjacent value 平均值為 0.911，較兩名老師間的 adjacent value 高出 16.2%。因此老師在批改作文時，本系統可以提出一個具有可信度的參考分數。

第六章結論與展望

在本論文中，我們使用六種修辭特徵及一個改良式的 ID3 演算法做為機器學習的方式來預測作文分數。這個改良式的演算法在決定一個 if-then 規則的分類時，為了符合作文評分的特性，於是以「避免產生過大誤差，但容許微小的差異」為原則定義了一個適合作文評分的分類方式，這個方式也確實帶來了效能上的提升。在系統與老師，以及兩名未受過訓練老師間的評分差異性評估中，系統與老師間的差異要比兩名不同老師間的差異來得低。因此本系統可以嘗試做為批改作文時的協助工具，提出作文分數以供參考。

往後我們希望能建立完善的修辭技法分析工句，以擷取作文中其他重要的修辭技法。另外，設計一個線上評分介面，輸入作文後顯示該作文的評分，並提供使用者一些修辭方面的建議。

參考文獻

[1]黃麗貞。《實用修辭學「增訂本」》台北，文津出版社，2004。

[2]陳品卿。《中學作文教學指導》國立臺灣師範大學中等教育輔導委員會，1989。

[3] Jill Burstein. The E-rater Scoring Engine: Automated Essay Scoring With Natural Language Processing.Automated Essay Scoring: A Cross-Disciplinary Perspective (2003), pp. 113-121

[4] Thomas K Landauer, Darrell Laham, Peter W. Foltz. Automated Scoring and Annotation of Essays with the Intelligent Essay Assessor. Automated Essay Scoring: A Cross-Disciplinary Perspective (2003), pp. 87-112

[5] Thomas K. Landauer, Darrell Laham, Bob Rehder, and M. E. Schreiner. How Well Can Passage Meaning be Derived without Using Word Order? A Comparison of Latent Semantic Analysis and Humans. In M. G. Shafto & P. Langley (Eds.), Proceedings of the 19th annual meeting of the Cognitive Science Society (1997), pp. 412-417.

[6] Berry, M. W., Dumais, S. T. and O'Brien, G. W.. Using linear algebra for intelligent information retrieval. SIAM: Review (1995), 37(4), 573-595.

[7] Hearst, M.. The debate on automated essay grading. IEEE Intelligent Systems (2003), 15(5), 22-37, IEEE CS Press.

[8] Richard Sproat, Thomas Emerson. The First International Chinese Word Segmentation Bakeoff. Which was held as part of the Second Meeting of SIGHAN, July 11-12, 2003 in Sapporo, Japan.

[9] Tom Mitchell, McGraw Hill. Machine Learning (1997).

[10]92.10.22 經濟日報

http://mag.udn.com/mag/life/storypage.jsp?f_ART_ID=6732

[11] http://163.26.9.12/noise/hcjh-ca/1-12.htm

在文檔中中文自動作文修辭評分系統設計 (頁 32-37)

5.1 實驗流程

5.2 實驗結果與討論

第六章 結論與展望

參考文獻

第六章結論與展望