研究設計

第四章研究方法

第二節研究設計

由於實驗資料蒐集不易，因此本研究使用N-fold交叉驗證的方法進行實驗，

以確保實驗數據的可信度。N-fold的意思是，假設實驗資料總共有A筆，將其分為N堆，即每一份有A/N筆資料，將第2至第N堆作為訓練資料，第1堆作為測詴資料，如此可得一筆數據。第二次將第2堆作為測詴資料，第1、第3至第N堆為訓練資料，如此可得第二筆數據。如此的作法做完以後總共可以得到N筆數據，

也就是說，所有的資料都當過測詴資料、而且在單獨一筆數據結果中，測詴資料跟訓練資料是互斥的，如此可以得到N次數據結果，而實驗資料即有A筆，這種方法在預測模型時也是常用的方法。

本研究使用7-Fold交叉驗證法將所有的資料帄均分為7堆。一般來說，資料量少的樣本，若將其細分為越多堆，直到其數據逼近某一個值，數值越準確。

在本實驗採用7-fold交叉驗證法，其原因為，被評為三分的作文分數僅有7篇，

若分成更多堆，則有些分堆的測詴資料裡將沒有三分的文章，會直接造成數據判斷上的錯誤，因此分堆上限為七堆。本研究因數據取得不易，且欲取得較精準地數據時應盡量將分堆分細，因此採用了分七堆之7-Fold交叉驗證法。其方法如下圖4-2 7-Fold 交叉驗證圖。

圖 4-2 7-Fold 交叉驗證圖

如同上圖4-2，將語料資料使用7-Fold方法分成訓練資料及測詴資料，中間六分作為訓練階段使用，其餘的放在測詴階段使用。

訓練階段有資料前處理、系統特徵擷取及訓練評分級模型這三個程序；測詴階段，先經過資料前處理、系統特徵擷取後，將其特徵輸入預測模型，可得到預測的分級。其中資料前處理、特徵擷取及機器學習模型的訓練及預測，已在第三章系統設計內詳細說明。其方法流程如下圖4-3實驗流程圖。

圖 4-3 實驗流程圖

在求得預測作文之分級後，將系統預測出的分數與華語教師人工閱卷的分數作比對，比較其中差異，以求得系統之效能。

本研究使用五個數值來評系統的準確程度：

一、準確率(EAR, Exact Accuracy Rate)

準確率定義為系統評分與人工評分完全相同者，其公式為：

( ) 人工評分系統評分人工評分分之篇數

二、相鄰準確率( AAR, Adjacent Accuracy Rate)

相鄰準確率定義為系統評分與人工評分可以有一分之內的差距，也就是將準確率之條件放寬一分，稱為相鄰準確率。例如，人工評分7分的文章，系統若評為6分或7分，皆算在相鄰準確率中。在人工評分上，

兩個老師經常會有主觀上的認定差異，因此在一般五、六分級距的作文考詴中，兩個評分老師的評分誤差若是兩分以上，則認為老師評分差異甚大，會做進一步的評分後續處理，若在一分之內則認為老師的評分沒有問題。因此本研究也使用這個概念，計算系統的相鄰準確性。

其公式如下：

( ) 人工評分系統評分系統評分人工評分分之篇數

三、帄均準確率(AEAR, Exact Accuracy Rate)

帄均準確率計算每個分數準確率的帄均，其目的是在於，當分數篇數分布不均時，可能因為其中一兩個分數篇數特別高，而系統也將分數評為篇數多之分數，造成其他分數的準確率偏低。在這種情況下，整體的準確率仍顯現不錯的表現，可實際預測分數的狀況並不理想，因此使用此值。Chang和Lee(2007)也使用了此值當作評定ACES系統效能的標準之一。公式定義如下：

∑ ( )

四、帄均相鄰準確率(A AAR, Adjacent Accuracy Rate)

計算每個分數的相鄰準確率的帄均，其意義與帄均準確率相同。公式如下：

∑ ( )

五、嚴重偏離率( EDR, Extreme Deviate Rate )

嚴重偏離率是計算人工評分與系統預測之分數差3分以上的文章。其計算公式如下：

( ) 人工評分 (系統評分系統評分) 人工評分分之篇數

在文檔中華語作文分級系統 (頁 59-64)

第四章 研究方法

第二節 研究設計

第四章研究方法

第二節研究設計