• 沒有找到結果。

我們使用的作文為國中二年級學生作文,這些作文輸入成電子檔時保留所有的錯字 以及標點符號,不加以修改,以維持學生作文的原貌。修辭分數從 1 分到 6 分,1 分為 最低,6 分為最高。每篇由二到三名老師評分,取平均分數。實驗資料包括 693 篇作文。

修辭分數 1 分到 6 分的文章篇數分別為 40 篇、166 篇、234 篇、177 篇、70 篇以及 6 篇。

每次實驗時隨機取出 394 篇訓練作文,其中 197 篇用來建立決策樹,197 篇用來作為 prune 時的檢驗資料,299 篇測試作文則用來評估整個系統的效能。

5.1 實驗流程

本實驗是藉由 ID3 演算法建立決策樹,因此要將連續資料予以離散化。先將所有訓 練作文中 2 個連續性特徵─詞數及形容詞數─由小到大排序得到兩個數列,以這兩個數 列各自的第一四分位數、中位數、第三四分位數做為邊界,將詞數及形容詞數各分成 4 群。成語數分為沒出現、出現 1 次、出現 2 次以上共 3 群;譬喻手法、非口語化的喻詞 及排比三項特徵分為沒出現、出現 1 次以上共 2 群。

訓練作文先經過「中央研究院資訊科學研究所詞庫小組中文斷詞系統 1.0 版」進行 斷詞與詞性標記後,開始擷取各項特徵。特徵擷取完畢之後經由改良的 ID3 演算法產生 決策樹,測試用的作文同樣經過斷詞與詞性標記後,取出特徵,比對決策樹由根部到所 有葉節點的路徑後可以得到該文的分數,所有測試作文經比對規則得到分數後,再與實 際評分比較,以評估系統的效能。

5.2 實驗結果與討論

三次隨機抽取訓練及測試作文,並分別記錄兩種機器學習方式的效能,包括原始的 ID3 演算法(ID3)、以及本修辭評分系統使用的演算法─“Modified ID3"。我們使用兩

個數值來評估系統的效能:由於本論文是建立在“作文評分時相差一分為可容許的誤 差"之概念上,因此計算測試作文中系統預測分數與實際分數相差一分以內的比例,記 為 Adjacent value。另外一個數值名為 Exact value,代表系統預測分數與實際分數完 全相同的比例。在三次的實驗中如,使用 modified ID3 方式的機器學習方法其效能皆 高於原始的 ID3 演算法,平均 Adjacent value 高出 4.7%。其結果記錄在表 2 及表 3 中。

表 2 為三次實驗中,以原始 ID3 演算法以及本系統所使用的 Modified ID3 演算法對測 試作文評分後所得之 Adjacent value。表 3 為三次實驗中,以原始 ID3 演算法以及本系 統所使用的 modified ID3 演算法對測試作文評分後所得之 Exact value。

ID3 Modified ID3 實驗一 0.85 0.93 實驗二 0.857 0.89 實驗三 0.884 0.913

平均 0.864 0.911

表 2 Adjacent value 統計表

ID3 Modified ID3 實驗一 0.345 0.375 實驗二 0.395 0.408 實驗三 0.362 0.385 平均 0.367 0.389

表 3 Exact value 統計表

Exact Adjacent Two teachers 0.297 0.749 Modified ID3 0.389 0.911

表 4 系統效能評估表

在作文資料庫中,每篇作文由二到三名老師批改,每一位老師批改的作文數目為 50 到 100 不等,此外這些老師都沒有接受標準化批改作文方式的訓練。我們計算每一篇作 文的任兩名閱卷老師所評分數的差距,如表 4,兩名老師之間的平均 exact value 為 0.297,adjacent value 為 0.749,而本研究之自動評分系統與作文平均分數之間的 adjacent value 平均值為 0.911,較兩名老師間的 adjacent value 高出 16.2%。因此老 師在批改作文時,本系統可以提出一個具有可信度的參考分數。

第六章 結論與展望

在本論文中,我們使用六種修辭特徵及一個改良式的 ID3 演算法做為機器學習的方 式來預測作文分數。這個改良式的演算法在決定一個 if-then 規則的分類時,為了符合 作文評分的特性,於是以「避免產生過大誤差,但容許微小的差異」為原則定義了一個 適合作文評分的分類方式,這個方式也確實帶來了效能上的提升。在系統與老師,以及 兩名未受過訓練老師間的評分差異性評估中,系統與老師間的差異要比兩名不同老師間 的差異來得低。因此本系統可以嘗試做為批改作文時的協助工具,提出作文分數以供參 考。

往後我們希望能建立完善的修辭技法分析工句,以擷取作文中其他重要的修辭技 法。另外,設計一個線上評分介面,輸入作文後顯示該作文的評分,並提供使用者一些 修辭方面的建議。

參考文獻

[1]黃麗貞。《實用修辭學「增訂本」》台北,文津出版社,2004。

[2]陳品卿。《中學作文教學指導》國立臺灣師範大學中等教育輔導委員會,1989。

[3] Jill Burstein. The E-rater Scoring Engine: Automated Essay Scoring With Natural Language Processing.Automated Essay Scoring: A Cross-Disciplinary Perspective (2003), pp. 113-121

[4] Thomas K Landauer, Darrell Laham, Peter W. Foltz. Automated Scoring and Annotation of Essays with the Intelligent Essay Assessor. Automated Essay Scoring: A Cross-Disciplinary Perspective (2003), pp. 87-112

[5] Thomas K. Landauer, Darrell Laham, Bob Rehder, and M. E. Schreiner. How Well Can Passage Meaning be Derived without Using Word Order? A Comparison of Latent Semantic Analysis and Humans. In M. G. Shafto & P. Langley (Eds.), Proceedings of the 19th annual meeting of the Cognitive Science Society (1997), pp. 412-417.

[6] Berry, M. W., Dumais, S. T. and O'Brien, G. W.. Using linear algebra for intelligent information retrieval. SIAM: Review (1995), 37(4), 573-595.

[7] Hearst, M.. The debate on automated essay grading. IEEE Intelligent Systems (2003), 15(5), 22-37, IEEE CS Press.

[8] Richard Sproat, Thomas Emerson. The First International Chinese Word Segmentation Bakeoff. Which was held as part of the Second Meeting of SIGHAN, July 11-12, 2003 in Sapporo, Japan.

[9] Tom Mitchell, McGraw Hill. Machine Learning (1997).

[10]92.10.22 經濟日報

http://mag.udn.com/mag/life/storypage.jsp?f_ART_ID=6732

[11] http://163.26.9.12/noise/hcjh-ca/1-12.htm

相關文件