三、 實驗說明
3.4 評量準則
3.4.1 總劑量預測和 PCA 劑量預測
總劑量和 PCA 劑量兩種預測分析均使用了 1099 位病患,都是依據麻醉藥劑量的多 寡程度將所有病患分為三個區間,各區間麻醉藥總劑量的標準差類似,意即三類資料的 麻醉藥總劑量離散程度相似,將其分為低劑量(low dose)、一般劑量(medium dose)和高劑
29
量(high dose)。在這兩種預測分析中,我們使用整體準確度(overall accuracy)做為主要評 量準則,除此之外,也以各類別的 recall 和 precision 做為評量準則。整體準確度(overall accuracy)為所有資料中,預測正確的比率。各類別的 recall 和 precision 的計算公式如表 3 和表 4,recall 意指在該類別中預測正確的比率,例如,”low dose” Recall 表示類別為 低劑量(low dose)的資料中,有多少比率的資料被預測正確;而 precision 表示被預測為 該類別的資料中,原始類別確實為該類別的比率,例如,”medium dose” Precision 表 示被預測為一般劑量(medium dose)的資料中,其中原始類別亦為一般劑量的資料比率為
“medium dose” Recall
○7 )
○5 / (○2 +○5 +
“high dose” Recall
○8 )
○9 / (○3 +○6 +
“low dose” Precision
○9 )
○1 /(○1 +○2 +
“medium dose” Precision
○3 )
○5 /(○4 +○5 +
“high dose” Precision
○6 )
○9 /(○7 +○8 + Overall Accuracy
○9 ) 則是不合理的。例如,多數類別(majority class)的資料筆數佔全數的 95%,而少數類別 (minority class)僅佔全數的 5%,倘若學習演算法將全數預測為多數類別,則其準確度可 高達 95%,然而在此情況之下,所有少數類別的資料都被分類錯誤。在一個分類相當不 平衡的資料中,我們有時更為關注少數類別的資料,因為它們通常俱備特殊意義,因此
30
在有類別不平衡問題的資料中,少數類別的預測準確度才是我們想要改善的重點。就 此,我們除了使用整體準確度(overall accuracy)以及各類別的 recall 和 precision 作為參考 之外,在該預測分析上,我們增加了幾何平均(geometric mean)[33]和 F-score[34]作為評 量準則,其中幾何平均為 positive recall 和 negative recall 的幾何平均。各評量準則之詳 細計算方式如表 5 和表 6。
表 5. Confusion Matrix
Positive Negative
Positive(prediction) True Positive(TP) False Positive(FP) Negative(prediction) False Negative(FN) True Negative(TN)
表 6. PCA 裝置參數設定調整預測的評量準則之說明
評量準則 說明
Positive Recall TP/(TP+FN) Positive Precision TP/(TP+FP) Positive F-score
Negative Recall TN/(FP+TN) Negative Precision TN/(TN+FN) Negative F-score
Geometric Mean
Overall Accuracy (TP+TN)/(TP+FP+FN+TN)
3.4.3 檢定方法
在上述三種預測分析中,總劑量預測和 PCA 劑量預測是以整體準確度(overall accuracy) 為 主 要 評 量 準 則 , PCA 裝 置 參 數 設 定 調 整 預 測 因 為 有 類 別 不 平 衡 (class imbalance)之問題,若使用整體準確度為主要評量準則會有不合理之情況,應以少數類 別的預測準確值為其主要改善之重點,而在 PCA 資料中,僅少數病患在 PCA 初始設定 後,需要重新調整設定,因此「有做調整」(positive)為少數類別(minority class),故此預 測分析是以 positive F-score 為其主要評量準則。
在總劑量預測、PCA 劑量預測和 PCA 裝置參數設定調整預測上,三種預測分析皆 會比較決策樹(C4.5)、簡單貝氏分類器(Naive Bayes Classifier)、類神經網路(Artificial
31
Neural Network ,ANN)、支援向量機(Support Vector Machine ,SVM)和決策表(Decision Table)五種學習演算法,比較方式是以五種學習演算法中表現最好之演算法為基準,使 用 paired t-test 檢定,比較該演算法和其餘四種學習演算法之差異,若其差異之 p-value 小於 0.05,即認為兩者演算法之準確值有顯著差異,以此方式比較五種學習演算法。而 整體學習演算法(ensemble learning algorithm)的部分,一樣會以所有整體學習演算法中表 現最好之演算法為基準,與其餘之整體學習演算法以 paired t-test 檢定,藉此得知個別演 算法之準確值彼此間的差異性。
而在 PCA 裝置調整預測分析上,我們以 k-nearest-neighbor 演算法刪除雜訊(noise),
對資料進行資料清理(data cleaning),希望藉此方式改善類別不平衡的問題。為檢測資料 清理對個別演算法預測類別不平衡之資料是否有幫助,我們會針對相同的演算法,包含 五種學習演算法以及十種整體學習演算法,以 paired t-test 檢定,比較未作資料清理和已 作資料清理之結果,若已作資料清理之表現優於未作資料清理之結果,且其差異之 p-value 小於 0.05,則表示資料清理對該演算法而言,確實可達到改善之效果。
32
四、 結果與討論