第四章 研究結果
第五節 迴歸模型配適與預測
一、變數定義
本研究主要目的在於觀察顧客在不同交易型為資料下,是否出現資金需 求,因此依變數(Dependent Variable)的選擇為辦理信用貸款與否,為二元
(Binary)型態,接著加入不同的自變數(Independent Variable)後,以 Logistic 迴歸模式和 Probit 模式產生迴歸式,計算樣本擊中率(Hit Ratie)。
首先,原始的人口統計變數為類別變數(Category Variable),為使其能 夠放進迴歸模式中,於是將資料調整為虛擬變數(Dummy Variable),如表 4-9 所示。而交易行為資料的自變數選擇如同本章第二節的變數假設,整理如 表 4-10 所示。
52
53
表 4-10 交易資料變數定義
變數名稱及代號 說明 單位
持有信用卡數
(Card_Num)
顧客持有本行及他行總信用卡數 張
與本行往來年資
(Relation_Yr)
顧客持有本行第一張信用卡至今時間長短 年
(Share of Wallet)
顧客持本行與他行信用卡消費占比 百分比
本行來電客服數
(Phone_srv)
顧客過去半年來電客服數 次
平均每月刷卡金額
(Avg_mth_spt)
顧客於本行平均每月消費金額 元
平均每月刷卡次數
(Avg_mth_frq)
顧客於本行平均每月消費次數 次
顧客消費金額波動性
(JCIC_Std)
顧客交易金額的變異大小 無
顧客消費金額平均
(JCIC_Avg)
顧客於行內行外交易金額的平均 元
顧客消費金額變異程度
(JCIC_CV)
顧客交易金額的變異程度 百分比
前期較平均消費變動
(JCIC_Last_to_avg)
顧客前期交易金額對於 平均交易金額的變動程度
百分比
54
前期較前二期消費變動
(JCIC_05_to_04)
顧客前期交易金額對於 前二交易金額的變動程度
百分比
本行荷包占有率
(CT_SOW)
顧客於本行與他行消費金額占比 百分比
平均簽帳金額占餘額
(SA_RB)
每月簽帳金額占總欠款的比率 百分比
循環信用金額占餘額
(LA_RB)
每月循環信用餘額占總欠款的比率 百分比
顧客每月平均還款比率
(Pay_ratio)
每月顧客償還簽帳金額的比率 百分比
55
二、交易行為變數相關性分析
將人口統計變數及交易行為變數放入迴規模式前,必須先針對所有變數 進行相關性分析,為避免產生共線性的問題,降低迴歸式的解釋力,當兩變 數存在高度相關時(本研究設定相關係數大於 0.7 即為高度相關),則不宜同 時放入迴歸式中。根據本研究針對所有變數進行相關性分析,發先以下兩組 變數出現高度相關,分別為:
(一)每月消費次數(Avg_amt_frq)和穩定性指標(CRI):選擇 CRI 放入 迴歸式中。
(二)顧客消費金額波動性(JCIC_Std)和顧客消費金額平均(JCIC_Avg):
選擇 JCIC_Avg 放入迴歸式中。
56
三、Logistic 模式
本研究根據先前整理之基本組顧客 5,407 名和信貸組顧客 3,150 名的資料 中,採用隨機抽樣的方式各抽取 1,500 名,兩組共 3,000 名樣本,將所有設定 好的人口統計變數和交易行為相關變數放入 Logistic 模型中試算,結果如表 4-11 所示。採用的顯著水準為 α=0.05,當表中的變數之 p-value < 0.05 時,即 可判定該變數顯著,代表對於辦理信用貸款具有影響力。
舉例而言,Gen(1)為顯著變數且係數估計值為 0.219425,代表顧客若為 男性,則相較於女性,男性出現資金需求而去辦理信貸的勝算比(Odds ratio)
為 exp(0.219425) =1.245,顯示單就性別來說,男性辦理信貸的機率為 55.46%
(由 p/(1-p)=1.245 可得);而 Card_Num 亦為顯著變數且係數估計值為 0.160203,代表顧客每增加持有一張信用卡,辦理信用貸款的勝算比為 exp(0.160203) =1.174,顯示多持有一張信用卡的顧客去辦理信貸的機率為 54.00%(由 p/(1-p)=1.174 可得)。此外,若顯著變數的係數估計值為負,代表 該變數對於辦理信貸與否具有反向關係,例如來電客服數愈多,辦理信貸的可 能性愈低。
57 Card_num 0.160203
0.000
Relation_Yr -0.054670.000
R_num 0.0873620.001
Phone_num -2.892730.000
Avg_mth_spt 0.0000250.000
JCIC_AVG 0.000000 0.530 JCIC_CV -0.529890.000
JCIC_Last_to_avg 0.035914 0.541 JCIC_05_to_04 -0.00027 0.786 CAI -0.01744 0.935 CRI 0.7384820.001
CT_SOW -0.04367 0.479 SA_RB 57.45130.001
LA_RB 57.23970.001
Avg_pay_ratio -2.20656 0.126常數 57.70588
0.001
58
接續我們可以根據投入 Logistic 迴歸模式所估計出的預測機率值,設定顧 客的預測機率大於 50%則有可能辦理信貸,並比較該名顧客真實的信貸申辦情 形,究竟為有申辦或無申辦,進行擊中率分析如表 4-12 所示。結果顯示,
Logistic 迴歸模式的整體擊中率為 (1,068+1,113)/3,000 = 72.7%,比起一開始各 投入 1,500 名顧客時,以隨機預測法可得到的 50%擊中率來的好。
表 4-12 Logistic 模式擊中率
單位:人數
預測次數 信貸申辦
百分比修正 無申辦 有申辦
觀察次數
信貸申辦
無申辦 1,068 432 71.2%
有申辦 387 1,113 74.2%
擊中率
72.7%
此外,為使該模型可以應用於隨機顧客的機率預測,並了解其真實擊中 情形為何,本研究接續以樣本外預測的方式,從基本組與信貸組各隨機抽樣 500 名樣本,依據 Logistic 迴歸模式所估計的變數係數,將 1,000 名樣本外顧 客的觀察值代入,再藉由 Logistic 迴歸公式的轉換,計算信貸貸款的預測機 率,當預測機率大於 0.5 時,視為辦理信貸者,反之當預測機率小於 0.5 時,
視顧客為不會辦理信用貸款者。
因此藉由整理樣本外 1,000 名顧客真實信貸觀察與預測的信貸結果,如 表 4-13 所示,整體的信貸預測擊中率為 72.2%,稍低於樣本內的擊率率,但 表現尚可接受。對於銀行端而言,行銷的義涵在於,不管真實顧客信貸狀況 為何,當篩選顧客進行信貸資訊的推廣時,可以鎖定預測結果為申辦信貸
59
者,命中率將高達 388/(161+388)=70.4%,而預測結果為無信貸但真實情況卻 辦理信貸者(117 人),可視為銀行端對於信貸宣傳的「漏網之魚」,亦即不 給予任何訊息,這群人依然會出現資金需求前來辦理信貸。
表 4-13 Logistic 模式樣本外預測擊中率
單位:人數
預測次數 信貸申辦
百分比修正 無申辦 有申辦
觀察次數
信貸申辦
無申辦 339 161 67.8%
有申辦 117 383 76.6%
擊中率
72.2%
60
四、Probit 模式
除 Logistic 迴歸模型外,我們建立另一種模式來比較預測結果,將原本隨 機抽樣的基本組與信貸組同一群樣本納入 Probit 中,並同樣設定顯著水準 α=0.05,模型結果如表 4-14 所示,顯著的變數與 Logistic 模式中差異不大,其 中平均每月還款金額(Avg_pay_ratio)此時轉為顯著。當變數顯著時,代表其 對於辦理信貸與否具有影響力,係數估計值的正負符號則代表影響的相關方 向。
相同地,我們也能針對 Probit 模式進行擊中率分析,結果如表 4-15 所示,
顯示整體擊中率高達 70.2%,和 Logistic 模式相差並不大。
61 Card_num 0.0939858
0.000
Relation_Yr -0.03237890.000
R_num 0.05367130.000
Phone_num -1.2243940.000
Avg_mth_spt 0.00001140.000
JCIC_AVG 0.000000 0.547 JCIC_CV -0.31957440.000
JCIC_Last_to_avg 0.0204857 0.559 JCIC_05_to_04 -0.0001331 0.770 CAI -0.0148068 0.907 CRI 0.36571430.005
CT_SOW -0.0102113 0.779 SA_RB 30.137590.000
LA_RB 29.914360.000
Avg_pay_ratio -1.7433820.044
常數 30.80054
0.000
62
表 4-15 Probit 模式擊中率
單位:人數
預測次數 信貸申辦
百分比修正 無申辦 有申辦
觀察次數
信貸申辦
無申辦 1,075 425 71.7%
有申辦 469 1,031 68.73%
擊中率
70.2%
接著,樣本外預測的樣本選擇和 Logistic 模式相同,將各變數帶入模型中 試算進行樣本外擊中率分析,結果如表 4-16 所示,擊中率達 71.9%。
表 4-16 Probit 模式樣本外預測擊中率
單位:人數
預測次數 信貸申辦
百分比修正 無申辦 有申辦
觀察次數
信貸申辦
無申辦 337 163 67.4%
有申辦 136 364 72.8%
擊中率
70.1%
63
五、模型預測力評估
本研究以 2012 年 5 月為基準,比較基本組與信貸組過去六個月的交易記錄 資料,用以預測下兩個月(6 月或 7 月)是否會辦理信用貸款,透過兩模型的 建立,試評估不同模式的預測力效果。
(一) 隨機機率法:在不參考任何資訊的情況下,根據隨機猜測方式的擊中 率為 50%。
(二) Logistic 模式:樣本外擊中率為 72.2%。
(三) Probit 模式:樣本外擊中率為 70.1%。
接著,本研究的模型評估方式以推力圖(Lift Chart)呈現,推力可以指出 不同模式在預測信貸的績效上比起隨機機率法提升多少,依據基本組與信貸組 各選取 500 名顧客樣本的模型外預測結果,我們將這 1,000 名顧客不同變數的 觀察值分別投入 Logistic 和 Probit 模型後產生每位顧客的機率預測值,再將這 些機率值由大到小排序,並切割為十個等分區塊,每個區塊 100 名顧客,計算 每名顧客辦理信貸與否的真實觀察結果,記錄在每一區塊的信貸人數中,即可 計算每一區塊的回應率,結果如表 4-17 所示。
此外,推力的計算方式為,推力=(每一區塊回應率)/(整體回應率)。
當推力值大於 1,代表比平均績效好,當推力值小於 1,代表比平均績效差,故 由兩模型的樣本外預測結果顯示,機率預測值的前 6 個區塊推力值均大於一,
代表模型在前 60%的顧客信貸預測績效較佳。
64
表 4-17 Logistic 和 Probit 模式推力圖比較
區塊
顧客 人數
信貸人數 回應率 推力 累積推力
L P L P L P L P
1
100 85 80 85% 80% 1.70 1.60 1.70 1.602
100 74 75 74% 75% 1.48 1.50 3.18 3.103
100 72 68 72% 68% 1.44 1.36 4.62 4.464
100 69 65 69% 65% 1.38 1.30 6.00 5.765
100 56 56 56% 56% 1.12 1.12 7.12 6.886
100 51 48 51% 48% 1.02 0.96 8.14 7.847
100 42 45 42% 45% 0.84 0.90 8.98 8.748
100 32 36 32% 36% 0.64 0.72 9.62 9.469
100 18 25 18% 25% 0.36 0.50 9.98 9.9610
100 1 2 1% 2% 0.02 0.04 10.00 10.00 總和 1,000 500 500 50% 50%接著我們可以將兩模式的累積推力以推力圖表示,三種模式的比較如圖 4-6 所示,其中 45 度角的斜對角線為隨機機率法預測,導因於樣本篩選個數 相等,而 Logistic 和 Probit 模型的各區塊預測績效相等,均可同時搭配使用 於信貸機率的預測。
65
圖 4-6 模型推力績效比較
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
累積推力
Deciles
模型推力比較
Random
66