• 沒有找到結果。

由圖 6 可知,「因素分群篩選法-決策樹」在前 15 個百分位數時,明顯 地其抓取違約逾期的能力是較優於其他兩模型,而在超過前20 個百分位數 後,則以「違約逾期相關程度法-決策樹」所得之測試結果較佳,此點與利 用ROC 曲線圖判斷所得之結果是一致的。

測試資料集

0 0.2 0.4 0.6 0.8 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

1-特異度

敏感

壞帳相關程度法 因素分群篩選法 因素後主成份法

圖5 決策樹測試資料集 ROC 曲線圖

10ROC 曲線圖的橫軸 1-特異度(Singular)等於本研究之 1-違約逾期誤判率(型一誤差),而其縱 軸的敏感度(Sensitive)則代表著違約逾期預測率;當曲線愈凹向下或曲線下面積(AUC)愈大 者表示模型在預測能力可容忍的錯誤中表現愈佳。

11 Cumulative Lift 之定義為將預期違約率由大至小排序後,在各分位數中預測為違約逾期且實際 是違約逾期人數占所有違約逾期人數比例除以整體違約逾期率,也就是預測模型中所能抓到的 違約逾期率相對於整體整違約逾期率的倍數。

測試資料集

0 0.5 1 1.5 2 2.5 3 3.5

0 20 40 Decile 60 80 100

Cumulative Lift

壞帳相關程度法 因素分群篩選法 因素後主成份法

圖6 決策樹測試資料集 Cumulative Lift 曲線圖 (三) 最適模型選取

本研究所建構之各決策樹模型之預測結果彼此差異並不大,很難斷定模型的 優劣。但在考量ROC 曲線圖及 Cumulative Lift 曲線圖中模型判斷之結果後,本 研究選擇最適之決策樹預測模型為「違約逾期相關程度法-決策樹」,其最終葉子 節點數為26 個、最大深度為 10 層。該模型的整體預測正確率達 77%以上;違約 逾期預測率為46.12%,其違約逾期誤判率為 53.88%,此決策樹結構圖見附錄一 所示。而圖中被黑色粗虛線框選取的葉子節點為大於等於預期違約率最適切點

(0.2316)之葉子節點,亦即當預期違約率大於 0.2316 時,顧客將被判定為會產 生預期違約的行為。這些節點的詳細分類規則如附錄二所示。

(四) 重要研究發現

本研究資料庫的整體違約逾期比例為 16.26%,建模訓練資料集的違約逾期 比例為16.24%。由附錄一及附錄二的「違約逾期相關程度法-決策樹」及其訓練 資料集預期違約率分類情形可以得知,本研究預期違約率高於 0.50 之族群共有 305 人,占訓練資料集(7,197 人)的 4.24%;在此群的 305 人中,實際為違約逾 期的人數有182 人,占訓練資料集中所有違約逾期人數(1,169 人)的 15.57%。

預期違約率介於 0.30-0.49 之族群,共有 510 人,占所有訓練資料集的 7.09%;

在此群的510 人中,實際為違約逾期的人數亦為 182 人,占訓練資料集中所有違 約逾期人數的15.57%。預期違約率介於 0.23-0.39 之族群,共有 737 人,占所有 訓練資料集的10.24%;在此群的 737 人中,實際為違約逾期的人數亦為 180 人,

占訓練資料集中所有違約逾期人數的15.40%。

由上述數據顯示,運用本模式可在預測違約率排名約5%的顧客中,抓取到 實際違約逾期顧客的15%以上;在預測違約率排名大約前 11%的顧客中,可抓取 到實際違約逾期顧客的 30%以上;在預測違約率排名約 20%的顧客中,可抓取

到實際違約逾期顧客的47%以上。

伍 結論與建議 一、 研究結論

本研究針對信用貸款顧客基本資料及顧客於聯合徵信中心之相關信用資料 進行剖析,以期找出對違約風險具影響力之變數。並採用分類與迴歸樹(CART)

建立信用貸款違約風險之預測模型。以下即分別彚整說明本研究的發現及結論。

(一) 對違約風險具影響力之變數

本研究所考慮二大類可能影響信用貸款違約風險變數,總共有65 個;其中 基本資料變數共25 個,信用相關整合變數共 40 個。經由卡方獨立性檢定或獨立 樣本T 檢定後,篩選出對違約逾期具影響力的變數共 36 個,包含基本資料變數 9 個,分別為:性別、年齡、學歷、現住房屋型態(居住狀況)、戶籍地是否與 現居地相同、近親關係、現任公司地址(縣市)、是否提供戶籍地電話、現任職 稱;信用相關整合變數共27 個,分別為:正卡是否強停、繳款狀況、發放銀行

(活卡)家數、首張卡持卡月數、活卡持卡月數、有效卡金張數、有效卡白金卡 張數、有效卡金卡張數比例、有效卡白金卡張數比例、具預借現金的信用卡張數、

信用總額度、最高信用額度、最低信用額度、平均信用額度、目前持卡之總掛帳 總金額、信用總額度與總掛帳總金額的差值、過去N 月無消費次數比率、過去 N 月全額繳清次數比率、過去N 月循環無逾期次數比率、過去 N 月逾期次數比率、

循環掛帳比率、預借現金比率、預借現金月數比率、循環無逾期最後一次距今月 數、預借現金最後一次距今月數、最近三個月他行查詢銀行家數、最近他行查詢 距現在天數。

各銀行在進行信用貸款違約風險評估時,可優先考慮上述36 個變數。在建 構信用貸款違約風險建模分析資料庫時,建議亦應納入此36 個變數。在過去國 內外研究中,未有研究能如此完整地建議及提供建立違約預測模型時可採用的起 啓變數。

(二) 決策樹模型之預測能力探討 1. 精簡變數能力

本研究運用分類與迴歸樹(CART)建立信用貸款違約風險之預測模,

最後所選擇的最適模型為「違約逾期相關程度法-決策樹」,透過該模型篩選 出的建模變數依其重要度排序依次為最近三個月他行查詢家數、信用總額度 與總掛帳總金額之差值、性別、學歷、現任公司地址、過去 N 月全額繳清 次數比率、等8 個。各銀行在進行信用貸款違約風險評估時,在節省時間及

成本考量下,建議可精簡地採用上述8 個變數篩選申請者,並進行必要之信 用貸款違約風險估計。

本研究決策樹模型所選取的建模變數中,三個月他行查詢家數、性別、

學歷等三個變數為過去研究中常被採用且具有顯著影響力之變數,信用總額 度與總掛帳總金額之差值、過去 N 月全額繳清次數比率、具預借現金的信 用卡張數、平均信用額度及現任公司地址等五個變數為過去研究中較少被提 及的變數。因為本研究的資料量夠大,且抽樣比率皆與實際資料庫相近,故 本研究所發掘的這些顯著性變數應具有一定的代表性,可做為未來研究者或 銀行界選用時之考量變數。

相關文件