第二章 文獻探討
第二節 ROC 曲線
Revotskie, & Stokes, 1961)、GRACE 風險評分 (D'Ascenzo et al., 2012)都是透過 多變量統計方式建立,這類模型相對稍微複雜,臨床上使用大多需要透過查 表或是簡易計算才可以推導出患者發生不良事件的風險高低。而近來也有許 多技術例如:神經網絡、支持向量機、分類樹與機器學習被使用在建立評分 系統 (Thomas et al., 2005; Ustun & Rudin, 2016),但是此類的方式可以有最佳 化的預測準確性,但是建立與運算過程相對複雜,大多僅適用於電腦上的運 (Lee B Lusted, 1960; L. B. Lusted, 1971) 。而之後ROC分析更被廣泛應用於模式 識別 (Bradley, 1997)和機器學習(Provost, Fawcett, & Kohavi, 1998)。ROC曲線成 為主流績效評估工具的主要原因是其不需要考慮類別分佈與潛在錯誤分類成 本便可以產生的曲線 (Provost & Fawcett, 1997),因為在真實世界中類別分佈 與潛在錯誤分類成本是很難去考慮與量化的。舉例而言,在現實生活中把一
7
個有癌症的病人診斷成沒病與跟把一個健康病人診斷成有癌症,它們的錯誤 分類成本是無法量化與比較的。因此ROC曲線並不需要考慮分佈與潛在錯誤 的分類成本便可比較出診斷工具的優劣,更能貼近臨床醫學的使用。
分類器的好壞可以用分類精準來作為評估的標準,對於目標資料,如果 分類器能將真實類別(true class)及錯誤類別(false class)全數分類正確,
則此分類器可說是完美分類器。一般使用二元分類器會有四種可能的結果。
如果實例是真實,且分類器預測它是真實,那麼它稱為TP(True Positive),
如果是預測為錯誤,這就是所謂的FN(False Negative)。如果實例是錯誤的 並且是預測也是錯誤的,它被稱為TN(True Negative),如果預測是真實,
那麼它被稱為FP(False Positive)。因此如圖3分類器便是透過資料設定調整,
形成一個名叫混淆矩陣(Confusion Matrix)的2x2矩陣(Stehman, 1997)。
8
圖3 混淆矩陣
資料來源:(Stehman, 1997)
因此TP rate及FP rate便是使用在衡量分類器的性能指標。TP rate即是指 將目標樣本分類正確的樣本數目比率,FP rate則指將非目標樣本分類成目標 樣本的錯誤樣本數目比率。一般而言,又將TP rate稱作靈敏度(sensitivity),
而(1-FP rate)又稱為特異性(specificity)。而ROC曲線如圖4即是一條透過 把靈敏度和特異性接合,改變分類器閥值(cut-off values ),進而產生許多不同 的操作點(TP rate,1- specificity)所組成的曲線,透過ROC曲線的形狀變化 可顯示出此分類器的性能高低。
9
圖4 ROC曲線
資料來源:(DAVID, 1966)
ROC 曲線評估分類器的好壞則是透過曲線下方面積(Area Under the Curve, AUC)作為準則,一般而言如果 AUC 數值若是愈大則代表分類器效果 愈佳。如圖 5 表示當 AUC = 1 表示分類器可以百分之一百完全正確分類是一 個是完美分類器。0.5 < AUC < 1,優於隨機猜測,這個分類器具有預測能力。
AUC = 0.5,跟隨機猜測一樣(例如:丟銅板),這個分類器並不具有任何預測 能力。AUC < 0.5,比隨機猜測還差,較差的原因是他是反向指標;但只要總 是反分類器預測而行,就會優於隨機猜測。總結來說 ROC 曲線下面積範圍介
10
於 0 到 1,表 1 為 AUC 的大小值相對於分類器的優劣性。因此本研究將會透 過最大化 AUC 數值當作目標函數,把 AUC 作為最佳模型的目標值。
圖5 不同ROC曲線下面積差異
表 1 AUC 判斷診斷分類器的優劣性
面積 診斷優劣性
0.9 – 1.0 優秀
0.8 - 0.9 非常好
0.7 - 0.8 很好
0.6 - 0.7 足夠
0.5 - 0.6 不佳
11