評量準則

三、實驗說明

3.4 評量準則

3.4.1 總劑量預測和 PCA 劑量預測

總劑量和 PCA 劑量兩種預測分析均使用了 1099 位病患，都是依據麻醉藥劑量的多寡程度將所有病患分為三個區間，各區間麻醉藥總劑量的標準差類似，意即三類資料的麻醉藥總劑量離散程度相似，將其分為低劑量(low dose)、一般劑量(medium dose)和高劑

量(high dose)。在這兩種預測分析中，我們使用整體準確度(overall accuracy)做為主要評量準則，除此之外，也以各類別的 recall 和 precision 做為評量準則。整體準確度(overall accuracy)為所有資料中，預測正確的比率。各類別的 recall 和 precision 的計算公式如表 3 和表 4，recall 意指在該類別中預測正確的比率，例如，”low dose” Recall 表示類別為低劑量(low dose)的資料中，有多少比率的資料被預測正確；而 precision 表示被預測為該類別的資料中，原始類別確實為該類別的比率，例如，”medium dose” Precision 表示被預測為一般劑量(medium dose)的資料中，其中原始類別亦為一般劑量的資料比率為

“medium dose” Recall

○⁷ )

○⁵ / (○² +○⁵ +

“high dose” Recall

○⁸ )

○⁹ / (○³ +○⁶ +

“low dose” Precision

○⁹ )

○¹ /(○¹ +○² +

“medium dose” Precision

○³ )

○⁵ /(○⁴ +○⁵ +

“high dose” Precision

○⁶ )

○⁹ /(○⁷ +○⁸ + Overall Accuracy

○⁹ ) 則是不合理的。例如，多數類別(majority class)的資料筆數佔全數的 95%，而少數類別 (minority class)僅佔全數的 5%，倘若學習演算法將全數預測為多數類別，則其準確度可高達 95%，然而在此情況之下，所有少數類別的資料都被分類錯誤。在一個分類相當不平衡的資料中，我們有時更為關注少數類別的資料，因為它們通常俱備特殊意義，因此

在有類別不平衡問題的資料中，少數類別的預測準確度才是我們想要改善的重點。就此，我們除了使用整體準確度(overall accuracy)以及各類別的 recall 和 precision 作為參考之外，在該預測分析上，我們增加了幾何平均(geometric mean)[33]和 F-score[34]作為評量準則，其中幾何平均為 positive recall 和 negative recall 的幾何平均。各評量準則之詳細計算方式如表 5 和表 6。

表 5. Confusion Matrix

Positive Negative

Positive(prediction) True Positive(TP) False Positive(FP) Negative(prediction) False Negative(FN) True Negative(TN)

表 6. PCA 裝置參數設定調整預測的評量準則之說明

評量準則 說明

Positive Recall TP/(TP+FN) Positive Precision TP/(TP+FP) Positive F-score

Negative Recall TN/(FP+TN) Negative Precision TN/(TN+FN) Negative F-score

Geometric Mean

Overall Accuracy (TP+TN)/(TP+FP+FN+TN)

3.4.3 檢定方法

在上述三種預測分析中，總劑量預測和 PCA 劑量預測是以整體準確度(overall accuracy) 為主要評量準則， PCA 裝置參數設定調整預測因為有類別不平衡 (class imbalance)之問題，若使用整體準確度為主要評量準則會有不合理之情況，應以少數類別的預測準確值為其主要改善之重點，而在 PCA 資料中，僅少數病患在 PCA 初始設定後，需要重新調整設定，因此「有做調整」(positive)為少數類別(minority class)，故此預測分析是以 positive F-score 為其主要評量準則。

在總劑量預測、PCA 劑量預測和 PCA 裝置參數設定調整預測上，三種預測分析皆會比較決策樹(C4.5)、簡單貝氏分類器(Naive Bayes Classifier)、類神經網路(Artificial

Neural Network ,ANN)、支援向量機(Support Vector Machine ,SVM)和決策表(Decision Table)五種學習演算法，比較方式是以五種學習演算法中表現最好之演算法為基準，使用 paired t-test 檢定，比較該演算法和其餘四種學習演算法之差異，若其差異之 p-value 小於 0.05，即認為兩者演算法之準確值有顯著差異，以此方式比較五種學習演算法。而整體學習演算法(ensemble learning algorithm)的部分，一樣會以所有整體學習演算法中表現最好之演算法為基準，與其餘之整體學習演算法以 paired t-test 檢定，藉此得知個別演算法之準確值彼此間的差異性。

而在 PCA 裝置調整預測分析上，我們以 k-nearest-neighbor 演算法刪除雜訊(noise)，

對資料進行資料清理(data cleaning)，希望藉此方式改善類別不平衡的問題。為檢測資料清理對個別演算法預測類別不平衡之資料是否有幫助，我們會針對相同的演算法，包含五種學習演算法以及十種整體學習演算法，以 paired t-test 檢定，比較未作資料清理和已作資料清理之結果，若已作資料清理之表現優於未作資料清理之結果，且其差異之 p-value 小於 0.05，則表示資料清理對該演算法而言，確實可達到改善之效果。

四、結果與討論

在文檔中資料探勘技術於病人疼痛自控裝置之應用與分析 (頁 37-41)

三、 實驗說明

3.4 評量準則

三、實驗說明