實驗結果與討論

第四章、實驗過程與結果討論

4.4 實驗結果與討論

在本實驗中，從蒐集到所有的689 篇作文中，在每個不同等級中隨機挑選約 二分之一數量共計343 篇作文做為訓練資料，剩餘的 346 篇作為測試資料，實驗 結果與原有評分系統比較如下：

針對各分數類別的準確率P(Precision)：

表格 3 實驗結果準確率比較

針對各分數類別的召回率R(Recall)：

表格 4 實驗結果召回率比較

針對各分數類別的F1 值：

表格 5 實驗結果F1 值比較

本系統與原有的評分系統相比皆有很高的效能提昇，其中，表格3 在系統準 確率P(Precision)方面，分數類別二分至五分分別有著 34.57%→_68.29%、_37.14%

→_49.12%、_44.26%→51.35%及 47.05%→58.49%的效能提昇，其中在二分的效 能提昇更有將近一倍的顯著表現，而整體提昇幅度在7.09% ~ 33.72%；而表格 4 在系統召回率R(Recall)方面，分數類別一分至五分有著 0%→_82.61%、_38.89%

→_43.75%、_52%→_53.33%、_36%→54.80%及 26.67%→67.39%的效能提昇，而 在一分及五分的效能提昇更是有大幅度的成長表現，而整體提昇幅度在1.33% ~ 82.61%；而表格 5 在系統 F1 值方面，分數類別一分至五分有著 0%→_77.55%、 36.6%→_53.33%、_43.33%→_51.14%、_39.7%→53.02%及 34.04%→_{62.63%的效能} 提昇，而在一分及五分的效能提昇更是有大幅度的成長表現，而整體提昇幅度在 7.81% ~ 77.55%。

實驗結果的總體平均準確率(MacroP)與個體平均準確率(MicroP)比較：

表格 6 實驗結果平均準確率比較

實驗結果的總體平均召回率(MacroR)與個體平均召回率(MicroR)比較：

表格 7 實驗結果平均召回率比較

實驗結果的總體平均F1 值(MacroF1)與個體平均 F1 值(MacroF1)比較：

表格 8 實驗結果平均F1 值比較

本系統與原有的評分系統相比皆有很高的效能提昇，其中，表格6 在系統總 體平均準確率(MacroP)與個體平均準確率(MicroP)方面，有著 40.75%→_60.07%

及38.46%→55.2%的效能提昇；而表格 7 在系統總體平均召回率(MacroR)與個 體平均召回率(MicroR)方面，有著 30.71%→60.37%及 38.46%→_{55.2%的效能提} 昇；而表格8 在系統總體平均 F1 值(MacroF1)與個體平均 F1 值(MacroF1)方 面，有著35.02%→60.22%及 38.46%→55.2%的效能提昇。

本實驗最後另外對支援向量機模型在處理中文作文評分分類上，對於不同的 Training Size 做實驗比較分析，對照組為不同老師的評分比較，在蒐集的作文資 料中，每篇作文由二至三位老師批改，每位老師的批改數量約50 至 100 篇作文。

計算每篇作文的任意兩名老師所評分分數的差距，Exact 值計算兩個老師對作文 給相同評分的百分比，Adjacent 值計算兩個老師對作文批閱差距在一分之內的百 分比，可以得到下列表格9。

表格 9 老師之間評分差距

而不同Training Size 實驗流程分別從蒐集到所有的 689 篇作文中隨機挑選 100,150,...,500 篇作文做為訓練資料，剩餘的篇數作為測試資料。表格 10 顯示其 實驗結果。

表格 10 不同訓練集大小正確率比較

圖表 12 不同訓練集大小正確率折線圖

圖表12 為將表格 10 的實驗結果畫成折線圖來看，當訓練集大小大於總 資料的二分之一時，其系統的Exact 值已有 50%以上的表現，而系統的 Adjacent 值也有超過 90%的表現，再跟表格 9 的老師之間評分表現做比較，

發現本系統在這兩項評分項目中，Exact 值與 Adjacent 值皆比老師之間的 Exact 值與 Adjacent 值高出很多，這也代表著本系統的評分分數具有相當的 可信度，可作為老師批閱作文時的參考依據。

第五章、結論

在文檔中基於支援向量機之中文自動作文評分系統 (頁 37-42)

第四章、 實驗過程與結果討論

4.4 實驗結果與討論

第五章、結論

第四章、實驗過程與結果討論