• 沒有找到結果。

第四章、 實驗過程與結果討論

4.4 實驗結果與討論

在本實驗中,從蒐集到所有的689 篇作文中,在每個不同等級中隨機挑選約 二分之一數量共計343 篇作文做為訓練資料,剩餘的 346 篇作為測試資料,實驗 結果與原有評分系統比較如下:

針對各分數類別的準確率P(Precision):

表格 3 實驗結果準確率比較

針對各分數類別的召回率R(Recall):

表格 4 實驗結果召回率比較

針對各分數類別的F1 值:

表格 5 實驗結果F1 值比較

本系統與原有的評分系統相比皆有很高的效能提昇,其中,表格3 在系統準 確率P(Precision)方面,分數類別二分至五分分別有著 34.57%68.29%37.14%

49.12%44.26%51.35%及 47.05%58.49%的效能提昇,其中在二分的效 能提昇更有將近一倍的顯著表現,而整體提昇幅度在7.09% ~ 33.72%;而表格 4 在系統召回率R(Recall)方面,分數類別一分至五分有著 0%82.61%38.89%

43.75%52%53.33%36%54.80%及 26.67%67.39%的效能提昇,而 在一分及五分的效能提昇更是有大幅度的成長表現,而整體提昇幅度在1.33% ~ 82.61%;而表格 5 在系統 F1 值方面,分數類別一分至五分有著 0%77.55%36.6%53.33%43.33%51.14%39.7%53.02%及 34.04%62.63%的效能 提昇,而在一分及五分的效能提昇更是有大幅度的成長表現,而整體提昇幅度在 7.81% ~ 77.55%。

實驗結果的總體平均準確率(MacroP)與個體平均準確率(MicroP)比較:

表格 6 實驗結果平均準確率比較

實驗結果的總體平均召回率(MacroR)與個體平均召回率(MicroR)比較:

表格 7 實驗結果平均召回率比較

實驗結果的總體平均F1 值(MacroF1)與個體平均 F1 值(MacroF1)比較:

表格 8 實驗結果平均F1 值比較

本系統與原有的評分系統相比皆有很高的效能提昇,其中,表格6 在系統總 體平均準確率(MacroP)與個體平均準確率(MicroP)方面,有著 40.75%60.07%

38.46%55.2%的效能提昇;而表格 7 在系統總體平均召回率(MacroR)與個 體平均召回率(MicroR)方面,有著 30.71%60.37%及 38.46%55.2%的效能提 昇;而表格8 在系統總體平均 F1 值(MacroF1)與個體平均 F1 值(MacroF1)方 面,有著35.02%60.22%及 38.46%55.2%的效能提昇。

本實驗最後另外對支援向量機模型在處理中文作文評分分類上,對於不同的 Training Size 做實驗比較分析,對照組為不同老師的評分比較,在蒐集的作文資 料中,每篇作文由二至三位老師批改,每位老師的批改數量約50 至 100 篇作文。

計算每篇作文的任意兩名老師所評分分數的差距,Exact 值計算兩個老師對作文 給相同評分的百分比,Adjacent 值計算兩個老師對作文批閱差距在一分之內的百 分比,可以得到下列表格9。

表格 9 老師之間評分差距

而不同Training Size 實驗流程分別從蒐集到所有的 689 篇作文中隨機挑選 100,150,...,500 篇作文做為訓練資料,剩餘的篇數作為測試資料。表格 10 顯示其 實驗結果。

表格 10 不同訓練集大小正確率比較

圖表 12 不同訓練集大小正確率折線圖

圖表12 為將表格 10 的實驗結果畫成折線圖來看,當訓練集大小大於總 資料的二分之一時,其系統的Exact 值已有 50%以上的表現,而系統的 Adjacent 值也有超過 90%的表現,再跟表格 9 的老師之間評分表現做比較,

發現本系統在這兩項評分項目中,Exact 值與 Adjacent 值皆比老師之間的 Exact 值與 Adjacent 值高出很多,這也代表著本系統的評分分數具有相當的 可信度,可作為老師批閱作文時的參考依據。

第五章、結論

相關文件