• 沒有找到結果。

例題九:心臟病診斷個案

在文檔中 中 華 大 學 (頁 51-57)

第五章 最小成本之醫學診斷模型

5.2 例題九:心臟病診斷個案

為了驗證此方法,本節選擇文獻[25]的心臟病診斷例題來進行測試。原始資

料中有 270 筆記錄,診斷心臟病時使用的自變數如表 5-1。由於在醫學診斷過程

中,用來診斷疾病的診斷變數值的取得需要時間與成本,在此假設其成本如表

5-1 之末欄。例如年齡(A)與性別(B)的取得成本極低,在此假設一相對很低的成

本。而休息心電圖結果(G)、運動相對休息導致之 ST 減退(K)、尖峰運動 ST 區段

之斜率(L)、被 X 光透視法著色之主動脈數目(M)的取得成本很高,在此假設一相

對很高的成本。而帶因率(N)的取得成本極高,在此假設一相對極高的成本。

表 5- 1 心臟病診斷例題之自變數 診斷

變數

變數意義 資料

型態

值域 成本

(元)

A 年齡 實數 [29…77] 10

B 性別 二元 0 女/1 男 10

C 胸痛類型 名目 {1 心絞痛,2 異常心絞

痛,3 無特性,4 無症狀} 400

D 休息血壓 實數 [94…200] 100

E 血膽固醇(mg/dl) 實數 [126…564] 1000 F 快速血糖大於 120mg/dl 二元 0 否/1 是 1000 G 休息心電圖結果 名目 {0=正常,1=異常,2=

可疑} 3000

H 最大心跳率 實數 [71…202] 100

J 運動中曾導致心絞痛 二元 0 否/1 是 100 K 運動相對休息導致之 ST 減退 實數 [0…6.2] 5000 L 尖峰運動 ST 區段之斜率 等級 [1…3] 5000 M 被 X 光透視法著色之主動脈

數目

實數 [0…3]

5000 N 帶因率(thal 值) 名目 {3=正常,6=修正缺陷,

7=反轉缺陷} 30000

其中診斷變數 C, G, N 為名目變數,因此各以多個二元變數編碼,例如「胸 痛類型」有四類,需用四個二元變數編碼:

心絞痛 Î1 0 0 0 異常心絞痛Î0 1 0 0 無特性 Î0 0 1 0 無症狀 Î0 0 0 1

經過編碼後,原來的十三個變數擴充到 20 個變數,整理如表 5-2。

表 5- 2 心臟病診斷例題編碼後之變數

變數 類型 值域

X1= 年齡 實數 [29…77]

X2= 性別 二元 0 女/1 男

X3= 胸痛類型=心絞痛 二元 0 否/1 是 X4= 胸痛類型=異常心絞痛 二元 0 否/1 是 X5= 胸痛類型=無特性 二元 0 否/1 是 X6= 胸痛類型=無症狀 二元 0 否/1 是 X7= 休息血壓 實數 [94…200]

X8= 血膽固醇(mg/dl) 實數 [126…564]

X9= 快速血糖大於 120mg/dl 二元 0 否/1 是 X10=休息心電圖結果=正常 二元 0 否/1 是 X11=休息心電圖結果=異常 二元 0 否/1 是 X12=休息心電圖結果=可疑 二元 0 否/1 是 X13=最大心跳率 實數 [71…202]

X14=運動中曾導致心絞痛 二元 0 否/1 是 X15=運動相對休息導致之 ST 減退 實數 [0…6.2]

X16=尖峰運動 ST 區段之斜率 等級 [1…3]

X17=被 X 光透視法著色之主動脈數目 實數 [0…3]

X18=帶因率(thal 值)= 正常 二元 0 否/1 是 X19=帶因率(thal 值)= 修正缺陷 二元 0 否/1 是 X20=帶因率(thal 值)= 反轉缺陷 二元 0 否/1 是

詳細的步驟如下:

(1) 先利用部分因子實驗法做 13 因子 32 回合的實驗,並以懲罰係數、核心係數 等兩個參數為噪音因子,經建構 32 × 9 = 288 個 SVM 模型,建構完畢後將模 型的準確度填入表中。

(2) 計算每列的最佳準確度值Y 。誤判率 P

f

= 1 − Y 。 (3) 計算 總成本 。

(4) 利用「總成本」計算各實驗因子的效果。

(5) 取出效果為負的實驗因子,將其對應的診斷變數列入輸入變數。

(6) 用上述輸入變數以網格法嘗試不同參數建模,產生最佳模型。

假設誤診成本分別為 30、100、300 萬元,依上述方法可得如圖 5-1~5-3 的 實驗因子效果,可知應分別選取七、八、十個診斷變數來診斷。再依選取診斷變 數配合網格法找到最佳懲罰係數、核心係數,建構 SVM 模型,得到其正判率與 總成本,其結果如表 5-3。由表可知,在這三個情況下,依選取診斷變數建構之 SVM 模型的總成本雖然只有在高誤診本下,低於原先的 32 回合實驗的最低總成 本,另外二個雖略高於最低值,但遠低於平均值,代表所選取的診斷變數都很有 成本效益,可見本法確實可以建構總成本最低的醫學診斷模型。

表 5- 3 心臟病診斷三種誤診成本下的結果 方法 評估項目 低誤診成本

(30 萬元)

中誤診成本 (100 萬元)

高誤診成本 (300 萬元)

最低 68.5%

最高 84.1%

平均值 78.5%

準 確 率

標準差 3.8%

最低 62711 181970 514377 最高 119989 330915 960545 平均值 92909 243522 673846 總

成 本

標準差 15040 33374 106494 32 回合實

選取診斷變 數

A, B, C, F, H, J, M

A, B, C, F, H, J, M, N

A, B, C, F, H, J, K, L, M, N

懲罰係數 1 10 10000

核心係數 0.1 0.001 0.0001

正判率 81.1% 84.8% 84.8%

依選取診 斷變數建 構之 SVM

模型 總成本 63320 188620 502620

由以上可知,誤診成本對選診斷變數很重要,當誤診成本低(30 萬元)時,診

斷變數 N(帶因率)不被選取;誤診成本高(300 萬元)時,該變數卻被選取。這是因

為該變數對提高準確率雖有幫助,但成本甚高,因此當誤診成本低時,系統寧可

讓準確率低一些,例如在上述例子中,準確率為 81.1%,也不選取該變數。但是 當誤診成本高時,系統必須追求更高的準確率,以壓低風險成本,故選取該變數,

例如在上述例子中,在選取該變數後準確率提高 84.8%-81.1%=3.7%。雖然因為 選取該變數付出了高昂的診斷成本(增加了 3 萬元),但考量誤判率降低 3.7%,在 誤診成本高達 300 萬元下,可節省 11.1 萬元的風險成本,仍然較為經濟。

-15000 -10000 -5000 0 5000 10000 15000 20000 25000

A B C D E F G H J K L M N

因子

因子效果

圖 5- 1 誤診成本假設為 30 萬元時的心臟病診斷例題之實驗因子效果

-50000 -40000 -30000 -20000 -10000 0 10000 20000

A B C D E F G H J K L M N

因子

因子效果

圖 5- 2 誤診成本假設為 100 萬元時的心臟病診斷例題之實驗因子效果

-150000 -100000 -50000 0 50000

A B C D E F G H J K L M N

因子

因子效果

圖 5- 3 誤診成本假設為 300 萬元時的心臟病診斷例題之實驗因子效果

為了進一步了解誤診成本之影響,在此設誤診成本為 10 萬、30 萬、100 萬、

300 萬、1000 萬、3000 萬、1 億等七種情形,其結果如表 5-4。可知,當誤診成 本增加

z 選取診斷變數增加

z 準確率提高 (誤判率降低) z 風險成本提高

z 診斷成本提高 z 總成本提高

證實本法可依照誤診成本的高低,選取符合成本效益的診斷變數,以建構總成本 最低的醫學診斷模型。

表 5- 4 心臟病診斷誤診成本之影響分析

誤診成本 選取診斷變數 準確率 風險成本 診斷成本 總成本

10 萬 A, B, C, H, J 75.2% 24800 620 25420

30 萬 A, B, C, F, H, J, M 81.1% 56700 6620 63320

100 萬 A, B, C, F, H, J, M, N 84.8% 152000 36620 188620

300 萬 A, B, C, F, H, J, K, L, M, N 84.8% 456000 46620 502620

1000 萬 A, B, C, F, H, J, K, L, M, N 84.8% 1520000 46620 1566620

3000 萬 A, B, C, F, H, J, K, L, M, N 84.8% 4560000 46620 4606620

1 億 A, B, C, F, H, J, K, L, M, N 84.8% 15200000 46620 15246620

在文檔中 中 華 大 學 (頁 51-57)

相關文件