• 沒有找到結果。

個人信用卡之風險預測

在文檔中 摘要 (頁 73-101)

4-1 導論

近年來國人消費方式改變從過去的現金付款演變成現今的信用卡付款,信用卡 付款逐漸盛行,隔月付款或者繳交最低繳款金額已經變成國人辦理信用卡的重要原 因。而近年來信用卡市場競爭激烈,國內信用卡流通卡數於短短十年間成長 16 倍,

而年簽帳金額亦成長 9.54 倍。但隨著塑膠貨幣的盛行,越來越多人借款不還,造成 了個人信用不良、銀行呆帳越來越多,使銀行越來越重視信用卡風險的問題。本研 究目的主要是針對各種資料探勘方法,預測持有信用卡人是否會持續逾期繳款之適 用性。

4-2 方法

本研究主要資料來源於國內某發卡銀行,研究對象為持有該銀行信用卡的消費 者。本研究以顧客下期是否會逾期繳款做為因變數。在全部 25000 筆資料中,會逾 期繳款者佔 5529 筆,約 22.12%。

本研究使用下列變數做為自變數:

z LIMIT_BAL(歸戶額度):數值屬性。客戶在此銀行所有信用卡額度(包含共 用額度)的加總。

z SEX(性別):類別屬性。

1:男性 2:女性

z EDUCATION(教育程度):類別屬性。

0:博碩士 1:大學專科 2:高中 3:其他

z MARRIAGE(婚姻狀況):類別屬性。

1:已婚 2:未婚 3:離婚

z AGE(年齡):數值屬性。

z PAY(繳款狀況):類別屬性。繳款狀況分為以下幾種:

-2:未消費 -1:全額繳清 0:使用循環

1:遲繳天數為 1~29 天 2:遲繳天數為 30~59 天 3:遲繳天數為 60~89 天 4:遲繳天數為 90~119 天 5:遲繳天數為 120~149 天 6:遲繳天數為 150~179 天 7:遲繳天數為 180~209 天 8:遲繳天數為 210~239 天 9:遲繳天數為 240 天數以上

PAY_1,PAY_2,……,PAY_6 分別代表前第 1 個月,前第 2 個月,……,

前第 6 個月的繳款狀況。

z BILL_AMT(帳單金額):數值屬性。單位:元。

BILL_AMT1、BILL_AMT2,……,BILL_AMT6,分別代表前第 1 個月,

前第 2 個月,……,前第 6 個月帳單金額。

z PAY_AMT(繳款金額):數值屬性。單位:元。

PAY_AMT1、PAY_AMT2,……,PAY_AMT6 分別代表前第 2 個月,前 第 3 個月,……,前第 7 個月繳款金額。

4-3 結果

方法一:最近鄰居分類

k 值是最近鄰居分類的重要參數,可以用試誤法找出最佳 k 值。本研究採用 k=1~10,以不同的 k 值進行分類,其結果如圖 4-3-1 所示。由表可知在 k=9 時有最 低的驗證資料誤判率。其混亂矩陣與誤判率分析如表 4-3-1 所示,可發現,Y=1(會 逾期繳款)的誤判率遠比 Y=0(不會逾期繳款)的誤判率高很多。其提升圖如圖 4-3-2 所示。由圖可知訓練資料的提升圖遠優於驗證資料的提升圖。

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00

1 2 3 4 5 6 7 8 9 10

k值

誤判率

% Error Training

% Error Validation

圖 4-3-1 不同 K 值下之訓練資料與驗證資料之誤判率

表 4-3-1 最近鄰居分類訓練資料與驗證資料之混亂矩陣

Lift chart (training dataset)

0 500 1000 1500 2000 2500

0 5000 10000 15000

# cases

Cumulative Cumulative y when sorted using predicted values Cumulative y using average

Lift chart (validation dataset)

0 1000 2000 3000 4000

0 10000 20000

# cases

Cumulative Cumulative y when sorted using predicted values Cumulative y using average

圖 4-3-2 最近鄰居分類訓練資料與驗證資料之提升圖

方法二:邏輯迴歸

以全部的 23 個自變數建立模型,其迴歸模型如 4-3-2 所示。其混亂矩陣與誤判 率分析如表 4-3-3 所示,可發現,Y=1(會持續違約繳款)的誤判率遠比 Y=0(不會 持續違約繳款)的誤判率高很多。其提升圖如圖 4-3-3 所示。由圖可知

(1)驗證資料的提升圖與訓練資料的提升圖有相近的預測能力。

(2)驗證資料的提升圖顯示被預測為會持續違約繳款中,確實大多數是會持續違約 繳款。

表 4-3-2 選用全部自變數之迴歸模型

表 4-3-3 邏輯迴歸訓練資料與驗證資料之混亂矩陣

Lift chart (training dataset)

0 500 1000 1500 2000 2500

0 5000 10000 15000

# cases

Cumulative Cumulative y

when sorted using predicted values Cumulative y using average

Lift chart (validation dataset)

0 1000 2000 3000 4000

0 10000 20000

# cases

Cumulative Cumulative y

when sorted using predicted values Cumulative y using average

圖 4-3-3 選用 23 個自變數邏輯迴歸訓練資料與驗證資料之提升圖

方法三:判別分析

以全部的 23 個自變數建模,其判別分析模型如表 4-3-4 所示。其混亂矩陣 如表 4-3-5 所示,可發現,Y=1(會持續違約繳款)的誤判率遠比 Y=0(不會持續違 約繳款)的誤判率高很多。其提升圖如圖 4-3-4 所示。由圖可知

(1)驗證資料的提升圖與訓練資料的提升圖有相近的預測能力。

(2)驗證資料的提升圖顯示被預測為會持續違約繳款中,確實大多數是實際會持續 違約繳款。

表 4-3-4 判別分析模型

Classification Function Variables

1 0

Constant -31.1276951 -31.8672409 LIMIT_BAL(歸戶額度) 0.00001315 0.00001352 SEX(性別) 7.65550709 7.77346182 EDUCATION(教育程度) 3.06549644 3.20656419 MARRIAGE(婚姻狀況) 11.68497658 11.86645412 AGE(年齡) 0.65397877 0.65104491 PAY_1 (前 1 個月繳款狀況) 0.63912565 0.03431166 PAY_2 (前 2 個月繳款狀況) 0.38131291 0.29577318 PAY_3 (前 3 個月繳款狀況) 0.21487956 0.14352249 PAY_4 (前 4 個月繳款狀況) -0.11786731 -0.14257734 PAY_5 (前 5 個月繳款狀況) 0.21124908 0.15061356 PAY_6 (前 6 個月繳款狀況) -0.24898589 -0.26604712 BILL_AMT1 (前 1 個月帳單金額) -0.00000317 0.00000238 BILL_AMT2 (前 2 個月帳單金額) 0.00000235 0.0000003 BILL_AMT3 (前 3 個月帳單金額) -0.00000637 -0.00000526 BILL_AMT4 (前 4 個月帳單金額) 0.00000014 0.00000029 BILL_AMT5 (前 5 個月帳單金額) 0.00000928 0.00000809 BILL_AMT6 (前 6 個月帳單金額) -0.00000354 -0.00000478 PAY_AMT1 (前 2 個月繳款金額) 0.00001014 0.00001784 PAY_AMT2 (前 3 個月繳款金額) 0.00000615 0.00000642 PAY_AMT3 (前 4 個月繳款金額) 0.00000054 0.00000434 PAY_AMT4 (前 5 個月繳款金額) -0.00000234 -0.00000242 PAY_AMT5 (前 6 個月繳款金額) -0.0000166 -0.00001509 PAY_AMT6 (前 7 個月繳款金額) -0.00000141 -0.00000116

表 4-3-5 判別分析訓練資料與驗證資料之混亂矩陣

Lift chart (training dataset)

0 500 1000 1500 2000 2500

0 5000 10000 15000

# cases

Cumulative Cumulative y

when sorted using predicted values Cumulative y using average

Lift chart (validation dataset)

0 1000 2000 3000 4000

0 10000 20000

# cases

Cumulative Cumulative y

when sorted using predicted values Cumulative y using average

圖 4-3-4 判別分析訓練資料與驗證資料之提升圖

方法四:貝氏分類

當貝氏分類應用在連續輸入變數時必須先將輸入變數離散化。本文採用等深裝 箱法,選取 23 個自變數,將其裝箱為五個區間,其條件機率表如表 4-3-6 所示。其 混亂矩陣如表 4-3-7 所示,可發現,Y=1(會持續違約繳款)的誤判率遠與 Y=0(不 會持續違約繳款)的誤判率高。其提升圖如圖 4-3-5 所示。由圖可知訓練資料的提 升圖較驗證資料的提升圖來的略好一些。

表 4-3-6 貝氏分類之條件機率表 逾期繳款

Input Variables 平均值

是 否 差值 橫條圖 差異指標

35043 0.37 0.22 0.15 80683 0.19 0.15 0.04 146727 0.19 0.21 -0.02 223210 0.13 0.19 -0.07 LIMIT_BAL

(歸戶額度)

378028 0.12 0.23 -0.11

1

2

3

4

5

0.08

1(男性) 0.46 0.41 0.05 SEX

(性別)

2(女性) 0.54 0.59 -0.05

1

2

0.05

0(博碩士) 0.00 0.00 0.00 1(大學專科) 0.35 0.38 -0.04 2(高中) 0.49 0.47 0.02 EDUCATION

(教育程度)

3(其他) 0.16 0.15 0.01

1

2

3

4

0.02

表 4-3-6 貝氏分類之條件機率表(續)

逾期繳款

輸入變數 代表值

是 否 差值 橫條圖 差異指標

1(已婚) 0.46 0.44 0.03 2(未婚) 0.53 0.55 -0.03 MARRIAGE

(婚姻狀況)

3(離婚) 0.01 0.01 0.00

1

2

3

0.02

24.9 0.24 0.21 0.03

29.4 0.16 0.19 -0.03

34.5 0.22 0.23 -0.01

40.3 0.17 0.17 -0.01

AGE(年齡)

50.0 0.21 0.19 0.02

1

2

3

4

5

0.02

-2(未消費) 0.04 0.09 -0.04 -1(全額繳清) 0.17 0.22 -0.05 0(使用循環) 0.28 0.54 -0.26 1(遲繳 1~29 天) 0.19 0.11 0.08 PAY_1

(前 1 個月繳款狀態)

2(遲繳 29 天以上) 0.32 0.04 0.27

1

2

3

4

5

0.14

-2(未消費) 0.10 0.12 -0.02 -1(全額繳清) 0.17 0.24 -0.07 0(使用循環) 0.37 0.55 -0.18 1(遲繳 1~29 天) 0.00 0.00 0.00 PAY_2

(前 2 個月繳款狀態)

2(遲繳 29 天以上) 0.35 0.09 0.27

1

2

3

4

5

0.11

-2(未消費) 0.11 0.13 -0.02 -1(全額繳清) 0.16 0.23 -0.07 0(使用循環) 0.41 0.55 -0.14 1(遲繳 1~29 天) 0.00 0.00 0.00 PAY_3

(前 3 個月繳款狀態)

2(遲繳 29 天以上) 0.32 0.09 0.23

1

2

3

4

5

0.09

-2(未消費) 0.13 0.14 -0.01 -1(全額繳清) 0.15 0.21 -0.07 0(使用循環) 0.47 0.59 -0.12 1(遲繳 1~29 天) 0.00 0.00 0.00 PAY_4

(前 4 個月繳款狀態)

2(遲繳 29 天以上) 0.26 0.06 0.20

1

2

3

4

5

0.08

-2(未消費) 0.13 0.14 -0.01 -1(全額繳清) 0.15 0.21 -0.07 0(使用循環) 0.47 0.58 -0.11 PAY_5

(前 5 個月繳款狀態)

2(遲繳 29 天以上) 0.25 0.06 0.19

1

2

3

4

0.10

表 4-3-6 貝氏分類之條件機率表(續)

逾期繳款

輸入變數 代表值

是 否 差值 橫條圖 差異指標

-2(未消費) 0.15 0.16 -0.01 -1(全額繳清) 0.17 0.24 -0.07 0(使用循環) 0.43 0.54 -0.10 PAY_6

(前 6 個月繳款狀態)

2(遲繳 29 天以上) 0.25 0.07 0.18

1

2

3

4

0.09

359 0.20 0.20 0.01 65709 0.19 0.20 0.00 23512 0.23 0.20 0.03 57079 0.20 0.20 -0.01 BILL_AMT1

(前 1 個月帳單金額)

169606 0.18 0.21 -0.03

1

2

3

4

5

0.01

179 0.20 0.20 0.00 5999 0.18 0.20 -0.02 22508 0.24 0.20 0.04 54657 0.20 0.20 0.00 BILL_AMT2

(前 2 個月帳單金額)

163452 0.18 0.20 -0.02

1

2

3

4

5

0.02

60.0 0.20 0.20 0.00 5751 0.18 0.21 -0.03 21413 0.23 0.19 0.04 51679 0.20 0.20 0.00 BILL_AMT3

(前 3 個月帳單金額)

157816 0.19 0.20 -0.02

1

2

3

4

5

0.02

19 0.21 0.20 0.01 5329 0.16 0.21 -0.04 19808 0.23 0.19 0.05 46723 0.20 0.20 0.00 BILL_AMT4

(前 4 個月帳單金額)

146920 0.19 0.20 -0.01

1

2

3

4

5

0.02

-39 0.22 0.20 0.01 4473 0.16 0.20 -0.04 17936 0.23 0.19 0.03 42256 0.21 0.20 0.01 BILL_AMT5

(前 5 個月帳單金額)

137749 0.19 0.20 -0.01

1

2

3

4

5

0.02

-238 0.21 0.20 0.01 3589 0.16 0.21 -0.05 16718 0.23 0.19 0.03 40716 0.21 0.20 0.01 BILL_AMT6

(前 6 個月帳單金額)

134484 0.19 0.20 0.00

1

2

3

4

5

0.02

20 0.33 0.17 0.16 1174 0.20 0.20 0.00 2303 0.19 0.21 -0.02 4433 0.16 0.21 -0.04 PAY_AMT1

(前 2 個月繳款金額)

20511 0.12 0.22 -0.10

1

2

3

4

5

0.06

表 4-3-6 貝氏分類之條件機率表(續)

逾期繳款

輸入變數 代表值

是 否 差值 橫條圖 差異指標

15 0.30 0.18 0.12 1106 0.21 0.19 0.02 2269 0.20 0.22 -0.02 4375 0.17 0.19 -0.02 PAY_AMT2

(前 3 個月繳款金額)

22476 0.12 0.22 -0.10

1

2

3

4

5

0.06

0.14 0.29 0.17 0.12 786 0.21 0.20 0.02 1861 0.19 0.20 -0.01 3830 0.16 0.21 -0.05 PAY_AMT3

(前 4 個月繳款金額)

20300 0.14 0.22 -0.08

1

2

3

4

5

0.05

0 0.31 0.19 0.12 612 0.22 0.21 0.01 1602 0.18 0.18 0.01 3510 0.16 0.22 -0.06 PAY_AMT4

(前 5 個月繳款金額)

19071 0.13 0.21 -0.08

1

2

3

4

5

0.05

0 0.30 0.20 0.10 623 0.21 0.20 0.01 1618 0.18 0.18 0.00 3524 0.17 0.21 -0.04 PAY_AMT5

(前 6 個月繳款金額)

18909 0.14 0.21 -0.07

1

2

3

4

5

0.04

0 0.31 0.22 0.09 626 0.21 0.19 0.03 1621 0.17 0.17 0.01 3525 0.18 0.22 -0.04 PAY_AMT6

(前 7 個月繳款金額)

21105 0.13 0.21 -0.08

1

2

3

4

5

0.05

表 4-3-7 貝氏分類訓練資料與驗證資料之混亂矩陣

Lift chart (training dataset)

0 500 1000 1500 2000 2500

0 5000 10000 15000

# cases

Cumulative Cumulative y

when sorted using predicted values Cumulative y using average

Lift chart (validation dataset)

0 1000 2000 3000 4000

0 10000 20000

# cases

Cumulative Cumulative y

when sorted using predicted values Cumulative y using average

圖 4-3-5 貝氏分類訓練資料與驗證資料之提升圖

方法五:類神經網路

以不同的網路參數進行類神經網路建模,其結果如表 4-3-8 所示。訓練循環是 影響驗證資料面積率的主要因素,而隱藏神經元數目的影響很小。在此選擇驗證資 料面積率最大的 25 個隱藏神經元、30 個訓練循環之結果,其混亂矩陣如表 4-3-9 所示。可發現,Y=1(會持續違約繳款)的誤判率遠與 Y=0(不會持續違約繳款)

的誤判率高很多。其提升圖如圖 4-3-6 所示。由圖可知訓練資料的提升圖較驗證資 料的提升圖來的略好一些。

表 4-3-8 類神經網路比較表 方法 隱藏神

經元

訓練 循環

訓練資料 誤判率%

驗證資料 誤判率%

訓練資料提 升圖面積率

驗證資料提 升圖面積率

1 5 30 18.5 17.27 0.52 0.54

2 5 100 18.28 17.49 0.52 0.52 3 5 300 18.14 .17.73 0.52 0.52 4 5 1000 17.85 17.82 0.52 0.52 5 10 30 18.28 17.18 0.54 0.54 6 10 100 18.16 17.13 0.56 0.53 7 10 300 17.88 17.29 0.57 0.52 8 10 1000 17.75 17.41 0.58 0.51 9 15 30 18.36 17.19 0.54 0.54 10 15 100 17.30 18.18 0.57 0.52 11 15 300 16.70 19.41 0.59 0.49 12 15 1000 16.41 20.61 0.60 0.48

表 4-3-8 類神經網路比較表(續) 方法 隱藏神

經元

訓練 循環

訓練資料 誤判率%

驗證資料 誤判率%

訓練資料提 升圖面積率

驗證資料提 升圖面積率 13 20 30 18.30 17.60 0.55 0.53 14 20 100 17.05 18.25 0.60 0.51 15 20 300 16.30 19.16 0.61 0.48 16 20 1000 15.53 20.00 0.62 0.47 17 25 30 18.28 17.23 0.55 0.54 18 25 100 16.84 18.78 0.59 0.52 19 25 300 15.46 20.1 0.63 0.49 20 25 1000 14.56 20.64 0.64 0.47

表 4-3-9 類神經網路訓練資料與驗證資料之混亂矩陣

Lift chart (training dataset)

0 500 1000 1500 2000 2500

0 5000 10000 15000

# cases

Cumulative Cumulative y

when sorted using predicted values Cumulative y using average

Lift chart (validation dataset)

0 1000 2000 3000 4000

0 10000 20000

# cases

Cumulative Cumulative y

when sorted using predicted values Cumulative y using average

圖 4-3-6 類神經網路訓練資料與驗證資料之提升圖

方法六:分類樹

以不同的參數進行分類樹建模,其結果如表 4-3-10 所示。由表可知在 Minimum

# records in a terminal node 為 500 下,有最高的驗證資料面積率。其混亂矩陣如表 4-3-11 所示。可發現,Y=1(會持續違約繳款)的誤判率遠與 Y=0(不會持續違約 繳款)的誤判率高很多。其提升圖如圖 4-3-7 所示。由圖可知訓練資料的提升圖較 驗證資料的提升圖來的好。

表 4-3-10 不同分類樹參數之誤差結果之比較 方法

Minimum # records in a terminal node

訓練資料 誤差率

驗證資料 誤差率

訓練資料 面積率

驗證資料 驗證率

1 5 0.102 0.259 0.92 0.320

2 10 0.139 0.242 0.851 0.387

3 15 0.160 0.219 0.793 0.432

4 20 0.169 0.200 0.758 0.441

5 50 0.183 0.175 0.648 0.487

6 100 0.188 0.178 0.591 0.513 7 200 0.190 0.170 0.541 0.523 8 500 0.190 0.170 0.489 0.536 9 1000 0.190 0.170 0.465 0.509

表 4-3-11 分類樹訓練資料與驗證資料之混亂矩陣

Lift chart (training dataset)

0 500 1000 1500 2000 2500

0 5000 10000 15000

# cases

Cumulative Cumulative y

when sorted using predicted values Cumulative y using average

Lift chart (validation dataset)

0 1000 2000 3000 4000

0 10000 20000

# cases

Cumulative Cumulative y

when sorted using predicted values Cumulative y using average

圖 4-3-7 分類樹訓練資料與驗證資料之提升圖 執行結果之 Full Tree 如圖 4-3-8 所示。由圖可知

z 若 PAY_1(前 1 月繳款狀態)小於 0.5、PAY_AMT2(前 3 月繳款金額)大於 1629.01、PAY_AMT1(前 2 月繳款金額)大於 3520、LIMIT_BAL(歸戶額度)

大於 215000、BILL_AMT5(前 5 月帳單金額)小於 3958.99 的客戶是不容易逾 期繳款(逾期繳款機率為 0.05)。

z 若 PAY_1(前 1 月繳款狀態)大於 1.5、BILL_AMT5(前 5 月帳單金額)大於 29916.51 的客戶是較容易逾期繳款(逾期繳款機率為 0.699)。

圖 4-3-8 分類樹 (P(1)代表有財務危機的機率)

表 3-3-12 是比較各方法的分類準確度,由表 4-3-12 可知:

(1) 若以訓練資料誤判率來看,最近鄰居分類與分類樹方法具有最低之誤判率;

若以訓練資料面積率來看,最近鄰居分類具有最高之面積率。

(2) 若以驗證資料誤判率來看,類神經網路方法具有最低之誤判率;若以驗證資 料面積率來看,類神經網路具有最高之面積率。

(4) 在此採用驗證資料的面積率為基準,模型準確度的排序為:類神經網路、分 類樹、貝氏分類、最近鄰居分類、邏輯迴歸、判別分析。

表 4-3-12 比較各方法的分類準確度 誤差

方法

訓練資料 誤判率

驗證資料 誤判率

訓練資料 面積率

驗證資料 面積率 最近鄰居分類 0.18 0.19 0.68 0.45

邏輯迴歸 0.20 0.18 0.41 0.44 判別分析 0.29 0.26 0.40 0.44 貝氏分類 0.21 0.21 0.47 0.53 類神經網路 0.18 0.17 0.55 0.54 分類樹 0.19 0.17 0.48 0.536

4-4 自變數數目的影響

變數篩選的目的是要在眾多變數中,找出對於結果影響性較大的變數。本研究 採用逐步邏輯迴歸,將在不同係數下的殘差方差繪成圖 4-4-1。由圖可知,當係數的 數目(含常數項)超過 13 個以後,殘差方差和的降低有限。因此本文選取 SEX、

EDUCATION、MARRIAGE、PAY_1、PAY_2、PAY_3、PAY_5、BILL_AMT1、

BILL_AMT2、BILL_AMT5、PAY_AMT1、PAY_AMT2、PAY_AMT5 這 13 變數作 為重要變數。執行逐步邏輯迴歸所建立的模型如表 4-4-1 所示。其提升圖如圖 4-4-2 所示。比較圖 4-3-3 與圖 4-4-2 可知,只採用 13 個最重要的變數即可達到與採用 24 個變數相當的模型準確度。

在文檔中 摘要 (頁 73-101)

相關文件