第四章 研究方法
第二節 研究設計
由於實驗資料蒐集不易,因此本研究使用N-fold交叉驗證的方法進行實驗,
以確保實驗數據的可信度。N-fold的意思是,假設實驗資料總共有A筆,將其分 為N堆,即每一份有A/N筆資料,將第2至第N堆作為訓練資料,第1堆作為測詴 資料,如此可得一筆數據。第二次將第2堆作為測詴資料,第1、第3至第N堆為 訓練資料,如此可得第二筆數據。如此的作法做完以後總共可以得到N筆數據,
也就是說,所有的資料都當過測詴資料、而且在單獨一筆數據結果中,測詴資 料跟訓練資料是互斥的,如此可以得到N次數據結果,而實驗資料即有A筆,這 種方法在預測模型時也是常用的方法。
本研究使用7-Fold交叉驗證法將所有的資料帄均分為7堆。一般來說,資料 量少的樣本,若將其細分為越多堆,直到其數據逼近某一個值,數值越準確。
在本實驗採用7-fold交叉驗證法,其原因為,被評為三分的作文分數僅有7篇,
若分成更多堆,則有些分堆的測詴資料裡將沒有三分的文章,會直接造成數據 判斷上的錯誤,因此分堆上限為七堆。本研究因數據取得不易,且欲取得較精 準地數據時應盡量將分堆分細,因此採用了分七堆之7-Fold交叉驗證法。其方 法如下圖4-2 7-Fold 交叉驗證圖。
圖 4-2 7-Fold 交叉驗證圖
如同上圖4-2,將語料資料使用7-Fold方法分成訓練資料及測詴資料,中間 六分作為訓練階段使用,其餘的放在測詴階段使用。
訓練階段有資料前處理、系統特徵擷取及訓練評分級模型這三個程序;測 詴階段,先經過資料前處理、系統特徵擷取後,將其特徵輸入預測模型,可得 到預測的分級。其中資料前處理、特徵擷取及機器學習模型的訓練及預測,已 在第三章系統設計內詳細說明。其方法流程如下圖4-3實驗流程圖。
圖 4-3 實驗流程圖
在求得預測作文之分級後,將系統預測出的分數與華語教師人工閱卷的分 數作比對,比較其中差異,以求得系統之效能。
本研究使用五個數值來評系統的準確程度:
一、準確率(EAR, Exact Accuracy Rate)
準確率定義為系統評分與人工評分完全相同者,其公式為:
( ) 人工評 分 系統評 分 人工評分 分之篇數
二、相鄰準確率( AAR, Adjacent Accuracy Rate)
相鄰準確率定義為系統評分與人工評分可以有一分之內的差距,也就 是將準確率之條件放寬一分,稱為相鄰準確率。例如,人工評分7分 的文章,系統若評為6分或7分,皆算在相鄰準確率中。在人工評分上,
兩個老師經常會有主觀上的認定差異,因此在一般五、六分級距的作 文考詴中,兩個評分老師的評分誤差若是兩分以上,則認為老師評分 差異甚大,會做進一步的評分後續處理,若在一分之內則認為老師的 評分沒有問題。因此本研究也使用這個概念,計算系統的相鄰準確性。
其公式如下:
( ) 人工評 分 系統評 分 系統評 分 人工評分 分之篇數
三、帄均準確率(AEAR, Exact Accuracy Rate)
帄均準確率計算每個分數準確率的帄均,其目的是在於,當分數篇數 分布不均時,可能因為其中一兩個分數篇數特別高,而系統也將分數 評為篇數多之分數,造成其他分數的準確率偏低。在這種情況下,整 體的準確率仍顯現不錯的表現,可實際預測分數的狀況並不理想,因 此使用此值。Chang和Lee(2007)也使用了此值當作評定ACES系統效能 的標準之一。公式定義如下:
∑ ( )
四、帄均相鄰準確率(A AAR, Adjacent Accuracy Rate)
計算每個分數的相鄰準確率的帄均,其意義與帄均準確率相同。公式 如下:
∑ ( )
五、嚴重偏離率( EDR, Extreme Deviate Rate )
嚴重偏離率是計算人工評分與系統預測之分數差3分以上的文章。其 計算公式如下:
( ) 人工評 分 (系統評 分 系統評 分) 人工評分 分之篇數