(投稿編號:26053)
2006/07/15 投稿,2007/08/05 第一修正,2007/11/06 接受
消費者信用貸款違約風險評估模型之研究 - 以 CART 分類與迴歸樹建模
On the Research of Default Risk Model of Consume Credit Loan –Using CART(Classification and Regression Tree)
梁德馨 Te-Hsin Liang
*私立輔仁大學 Fu Jen Catholic University
葉建良 Chien-Liang Yeh 玉山銀行
E. Sun Bank
摘 要
本研究旨在找出影響消費者信用貸款違約之重要變數,並藉以建立消費者信 用貸款違約風險評估模型,以期做為銀行在信用貸款風險管理上之參考依據。本 研究以相關分析、因素分析及主成份分析來選擇及整合對信用貸款違約有重要影 響力之變數,並以分類與迴歸決策樹(CART)進行預測違約模型之建構,最後 經由模型預測能力指標、ROC 曲線與 Cumulative Lift 曲線之綜合比較後,選取 出消費者信用貸款違約風險預測之最適模型~「違約逾期相關程度法-決策樹」
模型。研究結果顯示,此模型整體的預測正確率可達 77%以上。
關鍵字:消費信用貸款、違約風險、預期違約率、分類與迴歸決策樹 Abstract
This research is for the purpose of discovering the important variables which will affect the consumer credit loan. So as to and establishes the default risk model of consume credit loan. This research uses the correlation analysis, factor analysis and principle component analysis to integrate those important effective variables. And the CART (Classification and Regression Tree) method is adopted to build up a
* 聯絡作者([email protected])
default risk model of consume credit loan. Three kinds of evaluation models are set up. By comparing the Accuracy rate, ROC Curve, and Cumulative Lift Curve of those models, the “relation with default – decision tree” model is chosen to be the adaptable model. The Accuracy rate of this chosen model is high than 77 percent.
Key Words:Consume Credit Loan, Default Risk, The probability of expect Default, CART
壹 緒論
台灣近年來貸款業務隨著新銀行的開放而競爭激烈。在追求市場佔有率及獲 利之下,各類貸款更是以多元化且較寬鬆審核方式出現。在惡性競爭之下,使得 放款業務市場呈現飽和,各家銀行皆出現逾放比過高且獲利不佳之狀況。而隨著 台灣地區消費習慣的改變及國人消費意識抬頭,國內的消費金融市場出現了極大 的需求。是以,各銀行逐漸將獲利的矛頭轉向消費金融業務,其中又以消費性信 用貸款為盛,所相中的無非是其不同於以往的放款型態,存在著顧客廣、金額小、
回收快及利差大等誘因。由圖 1 可得知近年來消費貸款市場的蓬勃發展。
消費金融放款為銀行放款業務的熱門首選業務,其中又以消費者小額信用貸 款最受矚目。消費者小額信用貸款主要強調申請便利及核貸迅速,銀行必須在最 短時間內,有效對顧客的信用狀況與違約風險進行衡量評估。但其申請對象分布 於社會各階層,故所面臨的違約風險迥異且不易掌控。因而,各銀行特別強調個 人的信用狀況評估與違約風險的測量,亦即必須重視違約逾期管理(薛兆亨,
1991),期能透過有效辨識顧客違約風險程度給予不同風險屬性的顧客適當的授 信調整,以降低銀行業者的違約損失。
0 1,000,000 2,000,000 3,000,000 4,000,000 5,000,000 6,000,000 7,000,000
8612 8712
8812 8912
9012 9112
9212 9312
9412 9501
9502 年月底
單位:百萬元
圖 1 消費貸款餘額變化情形
11資料來源:中央銀行統計資料,
http://www.cbc.gov.tw/economic/statistics/total_index.asp
如前述所言,銀行能成功發展消費者小額信用貸款的主要關鍵因素,在於事 先能對顧客的信用狀況加以辨識及有效管理違約風險。隨著新巴塞爾新資本協定
(Basel II)之提出及實施,國內金融機構須在風險管理上追上國際標準,皆著 手嘗試建立內部模型,以期降低需計提資本,使資金運用更具效率。因此如何估 計風險值(Value-at-Riskm,VaR)變成顯學。
金融風險一般可分為市場風險(Market Risks)、信用風險(Credit Risks)、
流動性風險(Liquidity Risks) 、作業風險(Operational Risks)及法律風險(Legal Risks)五類(林邵杰,2003)。這五類風險中,信用風險是唯一完全由顧客行為 所產生之風險,因此必須透過針對顧客的違約行為進行分析,才能預估及防範信 用風險之發生。
VaR 最初是用於市場風險之管理,但近年來學者開始嘗試將其概念應用在信 用風險的管理上;利用顧客違約機率以及違約後可能損失,或者顧客信用評等被 降級的機率以及降級後可能產生的損失,計算出信用風險所導致的最大可能損 失,此最大可能損失即為信用風險值(Credit-at-Risk,Credit VaR)。在新巴塞爾 新資本協定中估計信用風險值的方法有三,分別為標準法(Stardadized method)、
基本內部評等法(Internal Rating Based:Foundation,IRB)及進階內部評等法
(Internal Rating Based: Advanced) 。其中標準法是允許銀行採用外部評等機構之 評等結果作為風險權數,而採用此法較無法依顧客特性來降低銀行資本提列的金 額。內部評等法則可依銀行顧客的風險等級,來分別提列最低資本,因此相對於 標準法而言,較有可能精算出最低或最適的資本提列金額。在信用風險值的衡量 模型中,有 Creditmetrics、KMV、CreditPortfolioView 等,各模型雖各有優缺點 及特色,各模型皆必須立內部信用評等系統,並計算違約機率(Probability of Default,PD)(林邵杰,2003)。相較於標準法而言,內部評等法存在更高的技 術障礙,此障礙即是必須針對貸款者違約機率(Probability of Default,PD)提出 計算標準,以說服主管機關相信該銀行有能力利用內部評等法進行信用風險資本 提列(張大成,2003)。本研究即是針對違約機率之預測及計算進行研究。
有關違約機率之計算方式,根據 Hull(2003)的分類,主要可分為債券價格 法(Bond Price Approach)、歷史評等資料法(Historical Rating Data Approach)
及選擇權理論法(Option Theory Approach)。台灣現行的債券市場並不是十分發
達,故債券評等法之實用性不高;選擇權理論法較試用於法人金融之公司違約機
率估計;歷史評等資料法則需有完整且品質良好的顧客歷史資料,隨著資料庫及
資訊科技技術的快速發展及進步,近年來台灣各銀行大多已整併出完整且品質不
錯的顧客資料庫,因此若銀行欲採用內部評等法進行資本提列,歷史評等資料法
則是較佳的選擇(張大成,2003)。在違約機率計算方法之歷史評等資料法中,
目前較常被採用的信用評等系統,主要可分為二大類:一為專家意見法,二為統 計模型法(張大成,2003)。而專家意見法通常是由金融機構地方或分行放款主 管所決定,其較屬於主觀判斷的結果,不符合新巴塞爾新資本協定的規範。因此 本研究將以統計模型法進行違約機率之計算及預測。
目前國內之相關研究,最常採用的統計預測模型有區別分析(Discriminate Analysis)、邏輯斯迴歸(Logistic Resgrssion)、類神經網路(Neural Network)及 決策樹(Decision Tree)等方法。而區別分析及類神經網路雖然常可以做出很準 確地預測,但區別分析之資料要求需要符合常態性、獨立性及均質性等假設,在 實務上不易達到(陳順宇,2005),且區別分析的模型無法解釋變數間共線性的 問題(Henley and Hand, 1996;莊瑞珠,2007);而類神經網路其計算的過程為一 黑箱作業(黃宇翔、毛紹睿,2005;謝邦昌,2005),無法明確地掌握自變數對 違約機率之影響,因此無法符合新巴塞爾新資本協定的要求,亦較無法透過模式 去解讀顧客的特質及行為;故此二種方法較少被銀行界正式採用。邏輯斯迴歸及 決策樹法則是目前業界較廣為採用的二種統計預測模型法,此二種方法皆可透過 模式去解讀顧客的特質及行為。邏輯斯迴歸法在選用建模變數時,其建模變數之 尺度雖不設限,但若資料為間斷變數型態時,則必須將其轉換為虛擬變數
(Dummy Variable) ,而當間斷變數個數較多時,會造成模型的維度過大等現象,
而且分判點之決定亦會影響模型的預測力(范哲銘,2003);但決策樹法則不受 此限,且決策樹在建模過程中一次僅取一個建模變數(謝邦昌,2005),可有架 構地找到不同風險等級下之重要影響因素組合,其產生的訊息最容易解讀。因為 本研究的資料型態包含連續及間斷二類,所以本研究採用決策樹法進行違約風險 之預測。
此外,由於銀行除了本身所擁有的顧客資料外,尚可透過聯合徵信中心
(JCIC)取得相關顧客信用資料,所以在資訊較以往充足的情況下,各家銀行更 是積極地著手建立違約風險模型,以區辨出銀行所面臨的顧客風險大小,降低銀 行的違約損失(Loss Given Default, LGD) 。然而目前大多研究者在建立違約風險 評估模型時所選用的建模變數,多為顧客基本資料或少部分的信用狀況資料,能 完整考慮顧客於聯合徵信中心的信用狀況資料(後續稱信用相關整合變數)的研 究極少。而本研究除將採用顧客基本資料或行內信用狀況資料外,將大量採用顧 客之聯合徵信中心的信用狀況資料,進行違約風險之預測,以期能更完整地分析 具有違約風險顧客,以了解其基本特質及在行內及他行信用狀況。
在上述研究背景下,本研究與國內某家金控銀行(以下簡稱 A 銀行)合作,
運用其既有之顧客資料庫,建立消費者小額信用貸款違約風險評估模型,除可做 為計算 VaR 值時風險權數之參考基礎外,並期望能有效的辨識現有顧客之違約 風險程度高低,並用以預測新顧客之違約風險程度高低,以適時規避或控管違約 風險較高之顧客族群,進而能篩選出信用狀況良好之顧客特性,加以積極爭取;
另外,亦可同時提升審核及放款效率,為銀行爭取更高之利潤。故基於上述本研 究之主要目的如下:
1. 針對信用貸款顧客基本資料及顧客於聯合徵信中心之相關信用資料進 行剖析,以期找出對違約風險具影響力之變數。
2. 透過分類與迴歸決策樹法(以下簡稱CART,Classification and Regression Tree)進行違約風險模型之建構,以期找出較適變數組合,並且將顧客 分群,以預估各群顧客之預期違約機率;另外,亦針對所估計之預期違 約率進行最適切點分析之探討。
貳 相關研究探討
本研究蒐集消費者信用貸款相關文獻,進行其建模分析方法及主要影響變數 之整理,以作為本研究模型建構及變數選取時之重要參考。
一、 消費性信用貸款與信用風險
個人消費性信用貸款從消費者角度所下之定義
2: 「凡信用良好之顧客,為小 額投資理財或週轉之目的向銀行申請免擔保之短/中期無擔保放款,稱為個人消 費性信用貸款」 。若以銀行經營角度觀之,則可以定義為: 「銀行為提高放款收益 率,增加消費者各階段之產品服務,提供經銀行徵信審核合格之顧客,申請免擔 保及免保證人之小額融資,並在有效控制之風險程度內追求利潤之極大,謂之個 人消費性信用貸款」 。
所謂信用風險(Credit Risk),又稱為授信風險,係由於債權人於「現在」將 錢貸與債務人,而「期待」債務人於「未來」還本付息的行為。其中「期待」及
「未來」充滿風險性和不確定性,因為錢貸放出去後,必須經過一段時間之後,
才能收回本息,而在這未來的一段時間裡,充滿著許多不確定因素,所以「信用 風險」伴隨著「授信」而存在(馬芳資,1994)。換言之,信用風險是指交易對 手不願意或無法履行契約中規定義務時所產生的風險。信用風險為雙方承諾交易 完成後,其某一方未遵守合約完成物品、服務或者是金融資產的交付(Daniels and VanHoose, 1999) 。整體而言,金融機構的信用風險係由違約風險、暴露風險及回
2參考汪海清、黃景泰、謝維國、楊培宏、王南豪,消費者貸款實務,台北市:台灣金融研訓院,
1999 年。
收風險所構成。其中所謂違約風險(Default risk)係由違約事件的發生機率來描 述,銀行面對的違約行為涵蓋尚未履行付款義務的違約、交易對手未遵守契約規 定的違約及經濟違約三種層面。本研究所探討的信用風險即為銀行面對的違約行 為涵蓋尚未履行付款義務的違約風險。 (陳木在、陳錦村,2001)。
消費者貸款風險的評估因素歸納為三項。其一為穩定性(Stability),指申 貸人職業特性、任職期間及個人本身特質所作的考慮(劉長寬,2003)。此即 為本研究之顧客基本資料類之變數。其二償債能力(Ability to Pay),包括對於 申貸者所得來源、所得水準及持續性負債多寡以及申貸金額之綜合考慮。其三 為還款意願(Willing to Pay)指運用所得以償還借款之意願,過去的還款紀錄 可做為參考指標,銀行於承做貸款之前會先行查證申請人有無債信不良或違約 紀錄,若有則設法予以婉拒(劉長寬,2003)。後二項即為本研究所採用之聯 徵信用相關類變數。
信用風險評估方法常見的有以下五種方法,分別為:經驗法則(Rules of Thumb)、信用評等制度(Credit Grading System)、信用評分制度(Credit Scoring System) 、混合評等與評分制度及專家系統法,各評分方法之定義及其優缺點(龔 昶元,1998;莊瑞珠,2007) 。綜合各種評估方法,可知「信用評分制度」及「專 家系統」方法較為客觀。「混合評等與評分制度」雖然結合「信用評等」和「信 用評分制度」之優點,但複雜度高;而「專家系統」在方法建立的過程較為繁複,
並且實際執行上仍有許多困難有待克服,成本也較高。因此五種方法中以「信用 評分制度」較具實用性。故本研究根據信用評分制度之觀念,建立消費者小額信 用貸款風險評估模型。
二、 建模方法
在建模方法之使用上,近幾年在消費者小額信用貸款之相關研究中,有部分 研究者皆採用邏輯斯模型建立風險評估模型(陳鴻文,2002;范哲銘,2003;戴 堅,2004;林勉金,2004;許育嘉,2005;張維仁,2005;羅金川,2005),部 分學者採用決策樹模型(Glorfeld and Hardgrave,1996;Joos et al., 1998;吳振晃,
2003) ,有部分學者採用類神經網路(江世傑, 2001 吳振晃,2003;洪榮隆,2003)
及 Logit 模型(林建州,2001;蔡明憲,2002;張明哲,2003),極少數研究採 用描述性統計法進行信用貸款風險之研究(陳宗豪、2000;何貴清,2002)。
在上述各方法中,若僅採用描述性統計法進行信用貸款風險似乎過分簡單,
而且較無法同時將多個變數的訊息一併考量分析,以進行違約機率之預測。區別
分析及類神經網路雖然常可以做出很準確地預測,但區別分析之資料要求需要符
合常態性、獨立性及均質性等假設,在實務上不易達到(陳順宇,2005),且區
別分析的模型無法解釋變數間共線性的問題(Henley and Hand, 1996;莊瑞珠,
2007);而類神經網路其計算的過程為一黑箱作業(黃宇翔、毛紹睿,2005;謝 邦昌,2005),無法明確地掌握自變數對違約機率之影響,因此無法符合新巴塞 爾新資本協定的要求,亦較無法透過模式去解讀顧客的特質及行為,此外,類神 經網路之演算效率常不佳,江世傑(2000)就曾僅用 30 筆資料進行消費者貸款 違約之預測模型訓練,其訓練模型之時間竟高達 20 分鐘。故區別分析及類神經 網路此二種方法較少正式被銀行界正式採用。而邏輯斯迴歸雖然預測能力極佳,
且無區分分析模型之限制,但是當其建模變數為間斷型變數資料時,則必須將其 轉換成虛擬變數始得以進行建模,容易形成維度過大的現象,而且分判點之決定 亦會影響模型的預測力(范哲銘,2003)。
Glorfeld and Hardgrave(1996)運用區別分析、Ratchet 口袋演算法(Pocket Algorithm with Ratchet)、邏輯斯迴歸、決策樹 ID3、遞迴分割分析(Recursive Partition Analysis) 、倒傳遞類神經網路(Standard Back-propagation) 、串接網路廻 歸 (Cascaded Network Regression) 、記憶推理法(Cased-based Reasoning,CBR)
八種方法,針對美國阿肯色洲西北國際銀行消費者放款資料共 40 筆,其中核可 資料 20 筆,駁回資料 20 筆,進行放款研究。其結果顯示,決策樹 ID3 在模型訓 練階段準確率為 100%,排名第一。Joo, Vanhoof and Ooghe(1998)運用決策樹 針對比利時某家大型銀行 1991 至 1993 年的借款人信用資料共計 3,187 筆(其中 正常戶 2,473 筆,違約戶 714 筆) ,研究結果顯示決策樹的準確率為 81.3%。吳振 晃(2003)以資料採礦技術進行銀行消費者貸款授信之研究,採用決策樹及類神 經法,針對 58,535 筆(正常戶 49,298 筆,違約戶 9,237 筆,違約率為 18.74%)
資料進行是否發生逾期違約之預測,結果發現決策樹法其預測正確性較類神經法 為佳。Ikizler and Guvenir(2002)以決策樹 C4.5 法進行銀行放款顧客資料之逾 期還款預測,其資料分為訓練資料集 1300 筆(其中 909 筆為正常戶,391 筆為 逾期還款戶) ,測試資料集 143 筆;其研究結果發現當借款期間大於 8 年且職業 為自由業且無車子者,其可能發生逾期還款的機率為 80.9%。
由上述研究可發現,決策樹模型在與其他模型相較時,其預測的準確率極 佳。決策樹法在建模過程中一次僅取一個建模變數,可有架構地找到不同風險等 級下之重要影響因素組合,其產生的訊息最容易解讀(謝邦昌、易丹輝,2003;
謝邦昌,2005)。另外,決策樹法在選用建模變數時,其建模變數若為間斷型變 數型態時,無須將其轉換為虛擬變數,因為本研究的資料包含大量之間斷型變 數,故本研究將採用決策樹法進行違約風險之預測。
三、 變數共線性之問題
另外,在建立預測模型時,若變數間出現高相關性之共線性現象,會使被選 入模型的變數有相互的連帶影響性,而使模式的預測力失真(林真真、鄒幼涵,
1993)。上述研究在變數之選用時較未考量變數間之共線性問題,而因素分析
(Factor Analysis)常可用於將變數依相關性分群(陳順宇,2004;Sharma, 1996) , 是以,本研究為了在眾多共線性高的變數中選擇出對信用貸款違約最具影響性之 變數,提出了三種篩選及整合法用以解決變數間共線性的問題,這三種方法分別 為相關程度法、因素篩選法及因素主成份法(馮志剛,1996;鄭廳宜,1999)。
四、 建模變數之選擇
在建模變數之選擇上,絕大部分的研究主要採用的建模變數皆為顧客的基本 特性相關資料。因為文獻較多,本研究將對逾期違約具顯著影響力之基本資料類 變數彚整如表 1 所示。
表 1 對逾期違約具顯著影響力之基本資料類變數彚整表
變數名稱 曾提列該變數對逾期違約具顯著影響力之研究
性別 葉秋南,1997;陳宗豪,2000;江世傑,2001;蔡明憲,2002;何貴清,
2002;陳鴻文,2002;范哲銘,2003;洪榮隆,2003;張明哲,2003;林 勉金,2004;許育嘉,2005; Liang, Lin and Liao, 2007
月(年)所得或 其衍生性變數
陳宗豪,2000;江世傑,2001;林建州,2001;蔡明憲,2002;何貴清,
2002;吳振晃,2003;洪榮隆,2003;林勉金,2004;許育嘉,2005;
Steenackers and Goovate, 1989;Ikizler and Guvenir, 2002
學歷 江世傑,2001;林建州,2001;蔡明憲,2002;范哲銘,2003;羅金川,
2004;戴堅,2004;許育嘉,2005; Liang, Lin and Liao, 2007
工作年資 陳宗豪,2000;何貴清,2002;陳鴻文,2002;范哲銘,2003;林勉金,
2004;羅金川,2005;Steenackers and Goovate, 1989
年齡 葉秋南,1997;陳宗豪,2000;江世傑,2001;蔡明憲,2002;張明哲,
2003;Steenackers and Goovate, 1989; Liang, Lin and Liao, 2007
職業 葉秋南,1997;陳宗豪,2000;江世傑,2001;蔡明憲,2002;洪榮隆,
2003;Steenackers and Goovate, 1989;Ikizler and Guvenir, 2002; Liang, Lin and Liao, 2007
婚 姻 及 家 庭 狀 況
何貴清,2002;蔡明憲,2002;林勉金,2004;張維仁,2005;
Ikizler and Guvenir, 2002; Liang, Lin and Liao, 2007
居所及地區別 何貴清,2002;林勉金,2004;張維仁,2005;Ikizler and Guvenir, 2002;
Steenackers and Goovate, 1989; Liang, Lin and Liao, 2007 服 務 公 司 或 其
分類
林建州,2001;張明哲,2003;林勉金,2004;張維仁,2005;Steenackers and Goovate, 1989
職稱或職稱 陳宗豪,2000;江世傑,2001;林建州,2001;何貴清,2002 是 否 願 意 為 家
人所知
陳宗豪,2000;范哲銘,2003 資料來源:本研究整理
由表 1 可得知,各研究的結果所得的結果不盡相同,其中「月(年)所得或 其衍生性變數」及「性別」為最多研究指出之重要影響變數,其他對逾期違約具 影響力之變數依序為「學歷」 、 「工作年資」 、 「年齡」 、 「職業」 、 「婚姻及家庭狀況」 、
「居所及地區別」 、 「服務公司或其分類」及「職稱或職稱」另外,陳宗豪(2000)
及范哲銘(2003)的研究中發現「是否願意為家人所知」亦為對信用貸款違約之 顯著影響性變數。
除了顧客的基本特性相關資料之外,亦有眾多研究採用聯徵中心之資料作為 預測信用貸款違約之建模變數。其中又以「他行查詢次數或家數」 (陳宗豪, 2000;
蔡明憲,2002;陳鴻文,2002;范哲銘,2003;洪榮隆,2003;羅金川,2004;
戴堅,2004)為最常被各研究採用。
亦有一些研究指出, 「信用卡張數及額度」 (陳宗豪,2000;何貴清,2002;
陳鴻文, 2002;洪榮隆,2003;)為對信用貸款違約之顯著影響變數。其他如「是 否使用循環利息」 (陳鴻文,2002;戴堅,2004)、「現金卡張數」(戴堅,2004)
及「信用卡現欠金額」 (陳宗豪,2000)亦有學者提出該等變數為對信用貸款違 約具顯著影響性。
此外,一些研究採用了信用貸款產品本身相關之資料進行貸款違約之預測,
並指出「貸款期間」 (張哲銘,2003;Steenackers and Goovate, 1989;Ikizler and Guvenir, 2002; Liang, Lin and Liao, 2007) 、「貸款餘額」(范哲銘,2003;張 維仁,2005;Ikizler and Guvenir, 2002)、「借款用途」(陳宗豪,2000;吳振晃,
2003) 、 「貸款利率」 (張哲銘, 2003;林勉金,2004) 、 「攤還方式」 (吳振晃, 2003;
Liang, Lin and Liao, 2007)、「擔保內容」 (吳振晃,2003)、「是否有保證人」、「是 否自動轉帳繳款」 (Liang, Lin and Liao, 2007)等為具顯著影響性變數。亦有少數 研究發現「擁有的不動產總值」 (葉秋南,1997;陳宗豪,2000;江世傑,2001;
Steenackers and Goovate, 1989)、 「過去借款及保證狀況或個數」 (江世傑,2001;
Steenackers and Goovate, 1989) 、 「支票存款開戶數」 (何清貴, 2002) 、 「負債比率」 、
「信用狀況」(林勉今,2004;林育嘉,2005)、「是否願意接受交叉銷售活動」
(Liang, Lin and Liao, 2007)等對信用貸款違約具顯著影響性。
由前述的文獻探討及彚整可發現,在消費者信用貸款的相關文獻中,大多研
究者於主要影響變數中都採用了顧客基本資料,其中尤以性別、收入、學歷、工
作年資、年齡及職業等為最常被採用且具有顯著影響力之變數。另外,有部分研
究採用取自於聯徵中心之個人信用相關變數,做為重要顯著影響變數。是以本研
究主要考慮採用此兩大類變數作為建模變數,總共採用了 25 個基本資料變數
3, 40 個來自於聯徵中心的信用相關變數
4,所採用的變數幾乎囊括了上述各文獻所 提及的各類對信用貸款違約之顯著影響性變數,相較於過去國內外各研究而言,
本研究所考量的變數最為廣泛完整。
本研究根據上述文獻探討,擬將採用顧客之基本資料、聯徵狀況中的個人信 用相關資料為建模考慮變數,再利用 CART(Classification and Regression Tree)
建立消費貸款信用風險評估模型。
五、 建模資料量之探討
張仁哲(1982)以某金融機構對個人消費貸款者為研究對象,隨機抽樣 100 個優良顧客與 33 個不良顧客進行研究。Glorfeld and Hardgrave(1996)針對美國 阿肯色洲西北國際銀行消費者放款資料共 40 筆,其中核可資料 20 筆,駁回資料 20 筆,進行放款研究。江世傑(2001)針對台灣中部某銀行進行消費者貸款信 用評等之研究,其所採用的資料僅 30 個個案。林建州(2001)亦曾以國內某金 融銀行為研究對象,抽取正常戶 200 件,違約戶 200 件,共 400 件建立信用風險 審核模式。陳鴻文(2002)曾針對台灣南部某銀行顧客進行信用貨款違約之研究,
其研究資料採用正常顧客 150 件,呆帳顧客 150 件。范哲銘(2003)利用羅吉斯 迴歸及區別分析,針對銀行體系與行銷體系的授信案件,各抽取正常繳息之案件 150 件,滯欠案件 150 件,共計 600 個樣本資料,而其用以建模變數共有 16 個。
張明哲(2003)以國內某金融機構為對象,蒐集樣本逾期戶 157 件、正常戶 469 件,共計 626 件。戴堅(2004)以國內某金融機構為對象,抽取樣本正常戶 150 件、違約戶 150 件,共計 300 件進行個人消費性信用貸款之授信評量模式建構。
林勉金(2004)以某銀行消費者貸款案件為研究對象,以 2001 年 1 月到 12 月底 於該銀行辦理消費貸款案件為抽樣母體,為了建立模型,由正常貸款抽取 231
325 個基本資料變數為:性別、學歷、年齡、現任年收入、現住房屋型態(居住狀況)、戶籍地是 否與現居地相同、近親關係、保證人婚姻狀況、是否提供近親姓名、婚姻狀況、婚姻與小孩關 係、現任公司地址(縣市)、戶籍地址(縣市)、現居地(縣市)、是否提供戶籍地電話、是否提供現 居地電話、是否提供行動電話、是否提供現任公司電話、是否提供朋友電話、現任公司營業項 目、營業型態、工作層級、聘僱關係、現任職稱、現任年資。
440 個聯徵信用相關變數為:正卡是否強停、附卡是否強停、繳款狀況、曾經授信異常註記、發 放銀行(活卡)家數、首張卡持卡月數、活卡持卡月數、正卡強停距現在月數、附卡強停距現 在月數、正卡張數、附卡張數、有效卡普卡張數、有效卡金張數、有效卡白金卡張數、有效卡 普卡張數比例、有效卡金卡張數比例、有效卡白金卡張數比例、具預借現金的信用卡張數、信 用總額度、最高信用額度、最低信用額度、平均信用額度、目前持卡之總掛帳總金額、信用總 額度與總掛帳總金額的差值、過去N 月無消費次數比率、過去 N 月全額繳清次數比率、過去 N 月循環無逾期次數比率、過去N 月逾期次數比率、過去 N 月循環無逾期月數比率、過去 N 月 逾期月數比率、循環掛帳比率、預借現金比率、預借現金月數比率、逾期次數、最近授信異常 距現在月數、循環無逾期最後一次距今月數、預借現金最後一次距今月數、逾期最後一次距今 月數、最近三個月他行查詢銀行家數、最近他行查詢距現在天數。
件,逾期案件抽取 231 件,共計 462 件。羅金川(2005)以國內某一銀行之個人 消費性信用貸款為資料抽樣對象,總共抽樣出 300 個樣本進行建模研究,其中 150 個為不良戶,150 個為正常戶。
上述各研究所獲取的模型雖然預測的正確率皆不錯,但其所採用的建模資料 集資料筆數少,且樣本中正常戶與非正常戶(違約戶)的占比大多各占一半。而 在銀行授信管理實務上,正常戶相較於違約戶應為較稀少事件(Rare Event) ,而 該研究在建模資料集中過分放大違約之占比,會使所建構出之模型預測力佳,但 實際上有誇大預測能力之嫌。若該等模式若要於實務上採用,仍需進行調整及修 正。依據 Zavgren(1985)、Shi(2006)及 Liang, Lin and Liao(2007)的研究指 出,若遇稀少事件而使樣本結構無法與資料庫結構一致時,則正常戶與違約戶在 樣本資料中之占比,亦非以 1:1 為最佳組合。因綜觀國內外多變相關研究,其 資料大多僅幾百筆,易會造成模型分類效果或被選取出之建模變數不具代表性。
本研究為避免預測力被誇大不實及結論不具代表性等現象,與國內某銀行進行合 作研究,取得小額信貸有效資料共計 10,285 筆,其中有 1,672 筆為違約逾期戶,
8,613 筆為正常繳交每期攤還金額戶,該等資料與該銀行實際資料結構相符。
參 研究設計 一、 實證分析流程架構
本研究將以 A 銀行 2003 年 6 月至 2004 年 6 月已核貸之貸款人所申辦之消 費者小額信用貸款相關資料為研究標的,有效資料共計 10,285 筆,其中有 1,672 筆為違約逾期戶及 8,613 筆為正常繳交每期攤還金額戶。其整體違約逾期率為 16.26%。
本研究之實證分析流程架構圖如下圖 2 所示。本研究首先探討 A 銀行信用 貸款個人戶之基本資料及信用相關整合變數與是否違約逾期之關係,並進行建模 變數之篩選,再將資料集分割成訓練和測試資料集後,運用 CART 分析方法建 立信用貸款違約風險評估模型。
二、 名詞操作型定義 (一) 違約逾期戶定義
本研究違約逾期戶的定義為在 2004 年 6 月 30 日以前曾經有逾期天數超過
90 天以上未繳足最低應繳款者。
圖 2 實證分析流程架構圖
(二) 預期違約率
本研究將 CART 模型葉子節點上的違約逾期比例定義為預期違約率。由於 本研究採用 CART 方法,是以最終葉子節點上的違約逾期比例,來估計每一個 人的違約機率,故同一葉子節點內的顧客其預期違約率皆相同。
(三) 建模變數
1. 基本資料變數
係指 A 銀行透過信用貸款顧客所填具之貸款申請書中所取得之個人相 關基本資料。
2. 信用相關整合變數
係指 A 銀行透過聯合徵信中心所取得之個人信用狀況資料,以及 A 銀 行自行將信用狀況資料再行產生之整合性變數。
三、 建模方法:分類與迴歸樹(Classification And Regression Tree)
本研究主要是利用 CART 來分析信用貸款顧客資料集透過二元遞迴切割的 基本原理過程, CART 會依照自變數與其相對應的屬性,將訓練資料集切割成數 個兩兩相對的類別,並將其切割過程彙總成一連串的規則(樹狀結構圖);在其
YES 1.資料集範圍選取 基本資料變數與
違約逾期之關係探討
篩選較具後續建模意義 之基本資料變數
篩選較具代表性之信用 相關整合變數進入建模
3.資料剖析 2.建模變數篩選
4.資料集分割
5.CART 分析
6.模型驗證、評估
7.較適模型確立 NO
信用相關整合變數在違約 逾期分布之重要性探討
+
資料來源:本研究整理
切割運算過程中,會產生末端節點數最多的最大樹狀結構,然後,CART 本身會 再依照使用者所設定之的準則來進行決策樹的修剪,直到滿足停止修剪的準則為 止;在 CART 的運算過程中,雖然較傳統決策樹在切割時一旦達到設定之準則 即停止切割,所耗費的運算時間久但能避免資訊隱藏的缺點;並且,CART 以樹 狀結構呈現分析結果,讓使用者清楚了解到模型的重要變數及其切割的效果。
(Berry, 1997;Quinlan, 1993;SAS, 2005)
CART 分析流程依續大致可分為三個步驟
5: (一) 步驟一:建構最大樹狀結構
如同前述所言,CART 會依照自變數與其相對應的屬性,將訓練資料集切割 成數個兩兩相對的類別,並將其切割過程彙總成一連串的規則(樹狀結構圖)。
而切割點的選取準則,則是每個節點的異質性(Heterogeneity)高低。評估節點 異值性的指標有三種,分別是 Twoing,Entropy 及 Gini,其中 Gini Index 較為 普遍,是以本研究將採用 Gini Index 做為評估節點異值性的指標。Gini Index 的 計算方式如下:
( ) = − ∑
i
pi
t
Gini
1
2其中 t 為已知節點 t;Pi 為第 t 個節點中第 i 個類別的機率。當 Gini 值越小 時代表在該切割點所產生的子節點中組成份子越單純,即該切割點判別不同類別 差異的能力越好,因此所造成之誤判率也越低。
(二) 步驟二:修剪樹狀結構並產生子樹群
找出最大樹結構後,CART 便開始修剪樹狀結構以降低誤判率,並找出最適 當的決策樹,決定最適決策樹所依據的準則為誤判率(Error Rate),其計算方 式如下:
節點中總資料筆數 筆數 節點中分類錯誤的資料 節點誤判率=
CART 會計算最大樹與所有子樹的誤判率,而最適當的決策樹是具有最低誤 判率的樹狀結構。在決策樹修剪過程中亦會考量重代估計值(Resubsitution Estimate)。當重代估計值越小時,代表末端節點個數越多,即樹狀結構中切割 點越多,樹狀結構也越大。另外,本研究設定每個葉子節點樣本數大於等於 30。
(三) 步驟三:挑選最佳樹狀結構
5參考下列:
陳姍霓,2004,整合類神經網路、多元適應性雲形迴歸與分類迴歸樹於信用評等模式之建構- 以房屋貸款為例,輔仁大學管理學研究所碩士論文
Breiman, L., Friedman, J.H., Olshen, R.A. and C.J. Stone,1984, Classification and Regression Trees, New York, Chapman and Hall.
完成前述步驟後,將測試樣本再次代入所有可能的樹狀結構並計算每個樹狀 結構的誤判率,最後再選取最小誤判率的樹狀結構為最佳樹狀模型。
肆 違約風險評估模型建構及預測 一、 建模變數選取
本研究首先依據資料型態將變數區分為間斷及連續二類,在間斷類之變數 中,將依卡方獨立性檢定、Goodman and Kruskal tau 及 Cramer’s V 值選,取出對 消費者信用貸款違約逾期具有顯著影響力之變數用以建模。在連續型之變數中,
將初步依獨立樣本平均數 T 檢定及 Eta Squared 值中,選取出對違約逾期具有顯 著影響力之變數;接著考量顯著性變數之間的共線性狀況,運用三種不同方式(違 約逾期相關程度法、因素分群篩選法及因素後主成份法)進行變數選取或縮減,
並採用選取或縮減後之變數用以建模。整體步驟如圖 3。
(一) 間斷型建模變數選取
1. 間斷型基本資料變數之篩選
本研究所用資料庫中間斷型基本資料變數共有 22 個。透過卡方獨立性 檢定 (Weiss, 2002) ,並考慮 Goodman and Kruskal tau 值與 Cramer's V 值(Kass, 1980)之後,最後選取出本研究用以建模的基本資料變數共 8 個,如表 2 所 示。
2. 間斷型信用相關整合變數之篩選
間斷型信用相關整合變數共有 4 個,分別為「正卡是否強停」 、 「附卡是 否強停」 、 「繳款狀況」及「曾經授信異常註記」等。本研究亦依上述步驟進 行篩選,最後選用了「正卡是否強停」及「繳款狀況」此兩變數投入建模(表 2)。
圖 3 建模變數選取過程示意圖
1、卡方獨立性檢定 2、Goodman and Kruskal tau 3、Cramer’s V基本 資料 變數
and 信用 相關 整合 變數
連續型基本資料 間斷型基本資料
連續型信用相關 整合變數 間斷型信用相關
整合變數
1、違約逾期相關程度法 2、因素分群篩選法 3、因素後主成份法 1、 獨立樣本 T 檢定
2、 Eta Squared
表 2 間斷型建模變數與目標變數之檢定結果
項目 Pearson
Chi-Square P-value
Goodman and Kruskal
tau
Cramer's V 性別 187.3423 0.0000 0.0182 0.1350 學歷 138.2016 0.0000 0.0134 0.1159 現住房屋型態(居住狀況) 16.4499 0.0115 0.0016 0.0400 戶籍地是否與現居地相同 11.0054 0.0041 0.0011 0.0327 近親關係 17.9635 0.0013 0.0017 0.0418 現任公司地址(縣市) 98.3093 0.0000 0.0096 0.0978 是否提供戶籍地電話 4.8045 0.0284 0.0005 0.0216 基本
資料 變數
現任職稱 27.1641 0.0013 0.0026 0.0514 正卡是否強停 11.9546 0.0025 0.0012 0.0341 信用相關
整合變數 繳款狀況 34.1891 0.0000 0.0033 0.0577
(二) 連續型建模變數選取
1. 連續型基本資料變數之篩選
本研究所用資料庫中連續型基本資料變數有「年齡」 、 「年資」及「年收 入」等 3 個。藉由平均數檢定,並輔以 Eta Squared 值(Kass, 1980)判讀,
最後本研究僅選取「年齡」變數用以建模。
2. 連續型信用整合變數之篩選
本研究之連續型信用相關整合變數共計有 36 個,本研究篩選出在是否 違約逾期上存在顯著差異(P-value≦0.05)之變數共計 25 個(表 3)。
接著再將上述所篩選出的 25 個連續型信用相關整合變數,以「違約逾 期相關程度法」、「因素分群篩選法」及「因素後主成份法」,進一步篩選及 整合信用相關變數。詳細過程說明如后。
(1) 違約逾期相關程度法
本研究所篩選出之 25 個變數進行兩兩配對相關性檢定,將變數間相關 係數大於或等於 0.4 視為相似屬性的變數。若變數與是否違約逾期之 Eta Squared 值大於 0.1 則將其選入做為建模變數。針對 Eta Squared 值小於 0.1 之變數,再由相似屬性的變數中,選取其與是否違約逾期之 Eta Squared 值 最大者,做為代表用以建模的變數(表 3)。
另外,若某一連續型信用相關整合變數與其他變數間之相關係數皆未大
於或等於 0.4,但其與是否違約逾期存在顯著相關者,則此變數將被視為具
獨特變數,直接列入建模變數中。依上述原則,本研究最後共選擇了 15 個
變數參與建模(表 3)。
表 3 連續型建模變數與目標變數之檢定結果
項目
相似1 屬性 分群
變異數 同質性 檢定 P-value
平均數 檢定 P-value
Eta Squared
違約逾期 相關 程度法之 選擇變數 基本資料 1.年齡 - 0.0000 0.0000 0.0103 -
循環掛帳比率 2 0 0 0.4878 ●
過去N 月循環無逾期次數比率 2 0.0703 0 0.2965 ●
預借現金比率 2 0 0 0.2899 ●
平均信用額度 1 0 0 0.1964 ●
信用總額度與總掛帳總金額的差值 4 0 0 0.1772 ●
信用總額度 4 0 0 0.1659 ●
過去N 月全額繳清次數比率 S 0 0 0.1551 ● 目前持卡之總掛帳總金額 2 0 0 0.1014 ● 過去N 月無消費次數比率 S 0 0 0.0279 ● 最近三個月他行查詢銀行家數 S 0 0 0.0611 ● 過去N 月逾期次數比率 S 0.0093 0.0246 0.0507 ●
首張卡持卡月數 1 0 0 0.0265 ●
活卡持卡月數 1 0 0 0.0233
有效卡金卡張數比例 1 0 0 0.0117
有效卡白金卡張數比例 1 0 0 0.006
有效卡白金卡張數 1 0 0.0024 0.0038
有效卡金張數 1 0 0 0.0033
發放銀行(活卡)家數 1 0.299 0.0365 0.0028
具預借現金的信用卡張數 2 0 0 0.0147 ●
預借現金月數比率 2 0.0061 0 0.0134
最近他行查詢距現在天數 3 0 0.0038 0.0279 ● 循環無逾期最後一次距今月數 3 0 0 0.0054
預借現金最後一次距今月數 3 0 0 0.005
最高信用額度 4 0.0095 0 0.0475 ●
信用相關 整合變數
最低信用額度 4 0.0122 0 0.0269
1:將變數相關程度大於 0.4 者畫分為同一群,S 表示該變數與其他變數之相關係數皆未大於 0.4
(2) 因素分群篩選法
藉由因素分析可將變數區隔成數群內部相關性高的變數族群。本研究將 從每一群中挑選符合設定條件之變數作為建模之自變數,以期能由相關性高 之自變數中,選取或整合出具代表性之建模變數(Sharma, 1996) 。本研究將 所篩選出之 25 個變數進行因素分群,其中因素萃取方法採用主成份法,旋 轉方法為變異最大旋轉法(Varimax)。並以共通性大於或等於 0.4 者做為變 數是否選擇進入因素分群的準則。在 25 個變數中僅有「過去 N 月逾期次數 比率」其共通性的萃取是小於 0.4,故此變數將被獨立考慮進入建模變數中。
(表 4)
因素分群結果主要將變數區分為五群,而在最後一群中僅有「最近三個
月他行查詢銀行家數」變數單獨存在,故本研究亦將之選擇獨立考慮進入建
模變數;剩餘的四群因素分群本研究將之分別命名如為:「持卡行為變數
群」 、 「借款行為變數群」 、 「信用狀況變數群」及「時間影響變數群」 。
表 4 因素分群結果
因素 變數 Eta
Squared 因素負荷 特徵值 累積解釋
變異量 首張卡持卡月數 0.0265 0.9040
平均信用額度 0.1964 0.8761 活卡持卡月數 0.0233 0.8685 發放銀行(活卡)家數 0.0028 0.8592 有效卡金張數 0.0033 0.8345 有效卡金卡張數比例 0.0117 0.8158 有效卡白金卡張數 0.0038 0.6830
持卡行為
有效卡白金卡張數比例 0.0060 0.6455
7.5912 23.8087
過去N 月循環無逾期次數比率 0.2965 0.8623 預借現金月數比率 0.0134 0.8608 循環掛帳比率 0.4878 0.8470 預借現金比率 0.2899 0.8033 具預借現金的信用卡張數 0.0147 0.8033
借款行為
目前持卡之總掛帳總金額 0.1014 0.7541
4.1394 44.6572
信用總額度與總掛帳總金額的差值 0.1772 0.7978 最高信用額度 0.0475 0.6964
信用總額度 0.1659 0.6779
過去N 月全額繳清次數比率 0.1551 0.5789 最低信用額度 0.0269 0.5629
信用狀況
過去N 月無消費次數比率 0.0279 0.5286
2.1216 56.2765
最近他行查詢距現在天數 0.0279 0.8503 循環無逾期最後一次距今月數 0.0054 0.8438
時間影響
預借現金最後一次距今月數 0.0050 0.7229
1.9863 65.2936 因素 5 最近三個月他行查詢銀行家數 0.0611 0.4918 1.1842 70.9286
對同一群內的變數中,本研究將選取其與是否違約逾期之檢定 t 值及 Eta Squared 值最大者做為代表用以建模的變數。在「持卡行為」中選出變數 為「平均信用額度」 ; 「借款行為」中選出變數為「循環掛帳比率」 ; 「信用狀 況」中選出變數為「信用總額度與總掛帳總金額的差值」 ; 「時間影響」中選 出變數為「最近他行查詢距現在天數」 。
(3) 因素後主成份法
由於主成份分析可將多個相關的變數簡化成為少數幾個獨立的線性組 合的主成份指標(Sharma, 1996) 。故本研究將利用因素分析將變數分群,再 逐一將每群內的變數透過主成份分析創造總指標,其主要目的除了整合自變 數間之相關性並降低自變數個數外,尚可避免將可用的變數資訊遺漏。
前述因素分析已將變數分成「持卡行為變數群」 、 「借款行為變數群」 、 「信
用狀況變數群」及「時間影響變數群」等四群,接著將嘗試運用主成份分析
來整合各群內高相關性之變數。在針對相關矩陣求取特徵值(Eigenvalue)
與特徵向量(Eigenvector)後,保留特徵值大於或等於 1 的主要成份,做為 建模變數。 (表 5)
表 5 顯示透過主成份分析,可將因素所歸類的四群變數整合出六個主成 份指標。若再加上「最近三個月他行查詢銀行家數」此一單獨成群變數及共 同性小於 0.4 的「過去 N 月逾期次數比率」,最後本研究最後共萃取出八個 建模變數。
(4) 變數篩選結果之彚整
三種連續型信用相關整合變數篩選結果彙整表 6。
表 5 連續型信用卡相關整合建模變數-因素後主成份
主成份指標名稱 主成份方程式 Eigenvalue 累積解釋 變異
主成份指標1
=-0.3730*發放銀行(活卡)家數-0.3836*首張卡持卡 月數-0.3683*活卡持卡月數-0.3615*有效卡金卡張數 -0.3153*有效卡白金卡張數-0.3418*有效卡金卡張數 比例-0.2957*有效卡白金卡張數比例-0.3791*平均信 用額度
5.5773
持卡行為
主成份指標2
=-0.1140*發放銀行(活卡)家數-0.1713*首張卡持卡 月數-0.2310*活卡持卡月數-0.1632*有效卡金卡張數 +0.5856*有效卡白金卡張數-0.3336*有效卡金卡張 數比例+0.6501*有效卡白金卡張數比例-0.0277*平 均信用額度
1.0000
82.2169
借款行為
主成份指標
=-0.4174*具預借現金的信用卡張數-0.3804*目前持卡 之總掛帳總金額-0.4091*過去 N 月循環無逾期次數 比率-0.4093*循環掛帳比率-0.3955*預借現金比率 -0.4357*預借現金月數比率
4.2273 70.4544
主成份指標1
=-0.5020*信用總額度-0.5090*最高信用額度-0.3827*
最低信用額度-0.4628*信用總額度與總掛帳總金額 的差值-0.2268*過去 N 月無消費次數比率-0.2774*過 去N 月全額繳清次數比率
2.9395
信用狀況
主成份指標2
=-0.3063*信用總額度-0.3243*最高信用額度-0.1303*
最低信用額度+0.1331*信用總額度與總掛帳總金額 的差值+0.6800*過去 N 月無消費次數比率+0.5513*
過去N 月全額繳清次數比率
1.1248
67.7386
時間影響
主成份指標
=-0.6124*循環無逾期最後一次距今月數-0.5251*預借 現金最後一次距今月數-0.5909*最近他行查詢距現 在天數
2.0580 68.5995
最近三個月他行查詢銀行家數 過去N 月逾期次數比率
表 6 三種連續型信用相關整合變數建模變數一覽表
違約逾期相關程度法 因素分群篩選法 因素後主成份法 過去N 月逾期次數比率 過去N 月逾期次數比率 過去N 月逾期次數比率 最近三個月他行查詢銀行家數 最近三個月他行查詢銀行家數 最近三個月他行查詢銀行家數 平均信用額度 平均信用額度 持卡行為主成份指標1 信用總額度與總掛帳總金額差值 信用總額度與總掛帳總金額差值 持卡行為主成份指標2
循環掛帳比率 循環掛帳比率 借款行為主成份指標
信用總額度 最近他行查詢距現在天數 信用狀況主成份指標1
過去N 月無消費次數比率 信用狀況主成份指標2
過去N 月全額繳清次數比率 時間影響主成份指標
目前持卡之總掛帳總金額 過去N 月循環無逾期次數比率 預借現金比率
首張卡持卡月數
具預借現金的信用卡張數 最近他行查詢距現在天數 最高信用額度
二、 資料集描述與分割
本研究目標變數為「是否違約逾期」其中違約逾期定義為逾期超過九十天未 繳款者,違約逾期資料筆數占整體資料集之比例為 16.26%。本研究將違約逾期 定義為「成功」之事件進行建模及預測,即定義違約逾期為 1,定義非違約逾期 為 0。為確保建模及測試資料集的代表性,本研究以「性別」與「是否違約逾期」
二變數為分層變數,將原始資料集切割為 70%之訓練及 30%之測試資料集,並 以卡方齊一性檢定驗證。由表 7 得知,二資料集在「性別」與「是否違約逾期」
二變數之分配結構上與全資料集無差異(P-value 皆大於 α=0.05)。
表 7 資料集分割結果與齊一性檢定結果
是否違約逾期 齊一性檢定 P-value 資料集 類別 計數
否 是 總計
性別 違約逾期 比例 人數 3,906 456 4,362
女 總和百分比 37.98 4.43 42.41 人數 4,707 1,216 5,923 男 總和百分比 45.77 11.82 57.59 人數 8,613 1,672 10,285 原始資料集
總計 總和百分比 83.74 16.26 100.00
-- --
人數 2,717 319 3,036 女 總和百分比 37.75 4.43 42.18 人數 3,311 850 4,161 男 總和百分比 46.01 11.81 57.82 人數 6,028 1,169 7,197 70%
訓練資料集
總計 總和百分比 83.76 16.24 100.00
0.7111 0.8956
人數 1,189 137 1,326 女 總和百分比 38.50 4.44 42.94 人數 1,396 366 1,762 男 總和百分比 45.21 11.85 57.06 人數 2,585 503 3,088 30%
測試資料集
總計 總和百分比 83.71 16.29 100.00
0.5434 0.9866
三、 模型建構結果
本研究利用 70%訓練資料集進行模型之建構,將基本資料及信用相關整合變 數等自變數利用 CART 建立模型。其中模型一包含基本資料及信用相關整合變數 之「違約逾期相關程度法」等自變數,模型二包含基本資料及信用相關整合變數 之「因素分群篩選法」等自變數,模型三則包含基本資料及信用相關整合變數之
「因素後主成份法」等自變數。在三種模型建構完成後,本研究除了將比較各模 型在 70%訓練資料集與 30%之測試資料集中之預測與判斷能力,另將利用 ROC 及 Cumulative Lift 兩基準來比較決定本研究之最適模型。其模型建構示意圖如圖 4 所示。
(一) 各模型重要建模變數
運用前述研究方法中所提及的 CART 方法及步驟,本研究三種決策樹模型所 使用到之建模變數、變數使用次數與重要性指標彙整如表 8 所示。
圖 4 模型建構示意圖
表 8 決策樹模型之建模變數、使用次數與重要性指標整理表
違約逾期相關程度法 因素分群篩選法 因素後主成份法 變數 使用
次數 重要性
指標 變數 使用 次數
重要性
指標 變數 使用
次數
重要性 指標 最 近 三 個 月 他 行
查詢銀行家數
5 1.0000 最 近 三 個 月 他 行 查詢銀行家數
6 1.0000 最近三個月他行 查詢銀行家數
3 1.0000 信 用 總 額 度 與 總
掛 帳 總 金 額 的 差 值
5 0.7025 信 用 總 額 度 與 總 帳 掛 總 金 額 的 差 值
2 0.6053 信用狀況 主成份指標1
6 0.7062
性別 2 0.3846 性別 1 0.3550 借款行為 主成份指標
4 0.4026 學歷 2 0.3688 現任公司地址
(縣市)
3 0.3315 性別 1 0.3835 現任公司地址
(縣市)
3 0.3302 學歷 1 0.3048 信用狀況 主成份指標2
1 0.2108 過去 N 月全額繳
清次數比率
5 0.3105 平均信用額度 3 0.2878 現任公司地址
(縣市)
2 0.2081 具 預 借 現 金 的 信
用卡張數
2 0.1772 循環掛帳比率 3 0.2613 學歷 1 0.1952 平均信用額度 1 0.1576
信用相關整合變數- 違約逾期相關程度法
(共計十一個變數) 模型一
信用相關整合變數- 因素分群篩選法
(共計六個變數) 模型二
信用相關整合變數- 因素後主成份法
(共計八個變數) 模型三 基本資料
(共計九個變數)
+
(二) 決策樹模型結果比較
1. 決策樹預測能力綜合比較
為進行決策樹預測能力綜合之比較,本研究首先針對各決策樹所得的預 期違約率設定一個切點,以便能將資料區分成預測違約逾期及預測非違約逾 期二類。在考量整體預測正確率
6、違約逾期
7及非違約逾期的預測能力
8後,
本研究設定最適預期違約率切點值的判定準則為:整體預測正確率能達 75%
以上、非違約逾期預測率 80%以上、違約逾期誤判率
9約 50%左右。在此準 則下各模型的切點值主要仍介於 0.20-0.25 之間(表 10 的第一欄)。為探討 各模型的預測能力,本研究以混淆矩陣來表示決策樹模型在最適預期違約率 切點下分類正確性結果。 (表 9)
表 9 決策樹訓練資料集模型預測能力綜合比較
目標變數 條件百分比
預測/決策值
條件百分比 樣本數 總合 百分比
整體分類 模型與 正確性
預期違約 率切點1
目 標 變 數
預測 /決策
值 訓練 測試 訓練 測試 訓練 測試 訓練 測試 訓練 測試 0 0 88.93% 88.84% 83.28% 83.48% 5,020 2,158 69.75% 69.88%
1 0 11.07% 11.16% 53.46% 53.88% 625 271 8.68% 8.78%
0 1 64.95% 64.80% 16.72% 16.52% 1,008 427 14.01% 13.83%
違約逾期 相關 程度法
0.2316 1 1 35.05% 35.20% 46.54% 46.12% 544 232 7.56% 7.51%
77.31
% 77.40
%
0 0 88.59% 88.99% 82.66% 82.24% 4,983 2,126 69.24% 68.85%
1 0 11.41% 11.01% 54.92% 52.29% 642 263 8.92% 8.52%
0 1 66.48% 65.67% 17.34% 17.76% 1,045 459 14.52% 14.86%
因素分群 篩選法 0.2149
1 1 33.52% 34.33% 45.08% 47.71% 527 240 7.32% 7.77%
76.56
% 76.62
%
0 0 88.69% 88.68% 82.48% 81.20% 4,972 2,099 69.08% 67.97%
1 0 11.31% 11.32% 54.23% 53.28% 634 268 8.81% 8.68%
0 1 66.37% 67.41% 17.52% 18.80% 1,056 486 14.67% 15.74%
因素後主 成份法 0.2154
1 1 33.63% 32.59% 45.77% 46.72% 535 235 7.43% 7.61%
76.52
% 75.58
% 1:最適預期違約率切點值的判定準則為:整體預測正確率能達 75%以上、非違約逾期預測正確
率80%以上、違約逾期誤判率約 50%左右。
6整體預測正確率(Accuracy rate) (比率越高表示模型之整體預測準確率越高)
×100%
= +
總人數
非違約逾期人數 預測非違約逾期且實際
約逾期人數
預測違約逾期且實際違
7違約逾期預測率(Recall rate)(此一比率表示模型預測為壞帳且實際為壞帳之人數佔實際總壞 帳人數的比例,此比率越高表示模型中所能抓出之壞帳能力越好)
總人數 100%
實際
人數 實際
預測 ×
= 違約逾期
為違約逾期的 為違約逾期但
8非違約逾期預測率(True Negative rate)(此一比率表示模型預測出好帳且實際為好帳之人數佔 好帳實際總人數的比例,此比率越高表示模型中所能抓出的好帳人數愈多)
總人數 100%
實際
人數 且實際
預測 ×
= 非違約逾期
非違約逾期 非違約逾期
9違約逾期誤判率(False Negative rate)(此比率亦為一般混淆矩陣中所指的型一誤差,亦即代表 損失成本之機率值,一般情況而言,此比率越低表示越好)
總人數 100%
實際
人數 實際
預測 ×
= 違約逾期
為違約逾期的 為非違約逾期但
以測試資料結果而言,整體預測正確率在三種模型中以「違約逾期相關 程度法-決策樹」的 77.40%較優,然就違約逾期預測率而言,則以「因素分 群篩選法-決策樹」較佳有 47.71%正確性;若再以代表型一誤差的違約逾期 誤判率而論,仍以「因素分群篩法-決策樹」最低(52.29%)。(表 9)
本研究所設立的三個決策樹模式在整體預測正確率、違約逾期預測率及 違約逾期誤判率上的差異極小,顯示三個決策樹預測能力是難分軒輊的。
2. 測試資料集 ROC 曲線圖
10本研究將 30%之測試資料集代入所建構之模型後,各決策樹模型之 ROC 曲線圖如圖 5。在所建構的三種決策樹 ROC 曲線圖中,以「違約逾期 相關程度法-決策樹」在圖裡所呈現的情況較佳。
可由 ROC 曲線圖之橫座標”1-特異度=0.2”之後的曲線可得知,「違約逾 期相關程度法-決策樹」其敏感度皆明顯高於其他兩者;而「因素分群篩選 法-決策樹」及「因素後主成份法-決策樹」兩模型結果在 ROC 曲線圖中幾 乎重疊,故較無法判斷其優劣。
3. 測試資料集 Cumulative Lift 曲線圖
11由圖 6 可知,「因素分群篩選法-決策樹」在前 15 個百分位數時,明顯 地其抓取違約逾期的能力是較優於其他兩模型,而在超過前 20 個百分位數 後,則以「違約逾期相關程度法-決策樹」所得之測試結果較佳,此點與利 用 ROC 曲線圖判斷所得之結果是一致的。
測試資料集
0 0.2 0.4 0.6 0.8 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1-特異度
敏感度
壞帳相關程度法 因素分群篩選法 因素後主成份法
圖 5 決策樹測試資料集 ROC 曲線圖
10ROC 曲線圖的橫軸 1-特異度(Singular)等於本研究之 1-違約逾期誤判率(型一誤差),而其縱 軸的敏感度(Sensitive)則代表著違約逾期預測率;當曲線愈凹向下或曲線下面積(AUC)愈大 者表示模型在預測能力可容忍的錯誤中表現愈佳。
11 Cumulative Lift 之定義為將預期違約率由大至小排序後,在各分位數中預測為違約逾期且實際 是違約逾期人數占所有違約逾期人數比例除以整體違約逾期率,也就是預測模型中所能抓到的 違約逾期率相對於整體整違約逾期率的倍數。
測試資料集
0 0.5 1 1.5 2 2.5 3 3.5
0 20 40 Decile 60 80 100
Cumulative Lift
壞帳相關程度法 因素分群篩選法 因素後主成份法
圖 6 決策樹測試資料集 Cumulative Lift 曲線圖 (三) 最適模型選取
本研究所建構之各決策樹模型之預測結果彼此差異並不大,很難斷定模型的 優劣。但在考量 ROC 曲線圖及 Cumulative Lift 曲線圖中模型判斷之結果後,本 研究選擇最適之決策樹預測模型為「違約逾期相關程度法-決策樹」,其最終葉子 節點數為 26 個、最大深度為 10 層。該模型的整體預測正確率達 77%以上;違約 逾期預測率為 46.12%,其違約逾期誤判率為 53.88%,此決策樹結構圖見附錄一 所示。而圖中被黑色粗虛線框選取的葉子節點為大於等於預期違約率最適切點
(0.2316)之葉子節點,亦即當預期違約率大於 0.2316 時,顧客將被判定為會產 生預期違約的行為。這些節點的詳細分類規則如附錄二所示。
(四) 重要研究發現
本研究資料庫的整體違約逾期比例為 16.26%,建模訓練資料集的違約逾期 比例為 16.24%。由附錄一及附錄二的「違約逾期相關程度法-決策樹」及其訓練 資料集預期違約率分類情形可以得知,本研究預期違約率高於 0.50 之族群共有 305 人,占訓練資料集(7,197 人)的 4.24%;在此群的 305 人中,實際為違約逾 期的人數有 182 人,占訓練資料集中所有違約逾期人數(1,169 人)的 15.57%。
預期違約率介於 0.30-0.49 之族群,共有 510 人,占所有訓練資料集的 7.09%;
在此群的 510 人中,實際為違約逾期的人數亦為 182 人,占訓練資料集中所有違 約逾期人數的 15.57%。預期違約率介於 0.23-0.39 之族群,共有 737 人,占所有 訓練資料集的 10.24%;在此群的 737 人中,實際為違約逾期的人數亦為 180 人,
占訓練資料集中所有違約逾期人數的 15.40%。
由上述數據顯示,運用本模式可在預測違約率排名約 5%的顧客中,抓取到
實際違約逾期顧客的 15%以上;在預測違約率排名大約前 11%的顧客中,可抓取
到實際違約逾期顧客的 30%以上;在預測違約率排名約 20%的顧客中,可抓取
到實際違約逾期顧客的 47%以上。
伍 結論與建議 一、 研究結論
本研究針對信用貸款顧客基本資料及顧客於聯合徵信中心之相關信用資料 進行剖析,以期找出對違約風險具影響力之變數。並採用分類與迴歸樹(CART)
建立信用貸款違約風險之預測模型。以下即分別彚整說明本研究的發現及結論。
(一) 對違約風險具影響力之變數
本研究所考慮二大類可能影響信用貸款違約風險變數,總共有 65 個;其中 基本資料變數共 25 個,信用相關整合變數共 40 個。經由卡方獨立性檢定或獨立 樣本 T 檢定後,篩選出對違約逾期具影響力的變數共 36 個,包含基本資料變數 9 個,分別為:性別、年齡、學歷、現住房屋型態(居住狀況)、戶籍地是否與 現居地相同、近親關係、現任公司地址(縣市)、是否提供戶籍地電話、現任職 稱;信用相關整合變數共 27 個,分別為:正卡是否強停、繳款狀況、發放銀行
(活卡)家數、首張卡持卡月數、活卡持卡月數、有效卡金張數、有效卡白金卡 張數、有效卡金卡張數比例、有效卡白金卡張數比例、具預借現金的信用卡張數、
信用總額度、最高信用額度、最低信用額度、平均信用額度、目前持卡之總掛帳 總金額、信用總額度與總掛帳總金額的差值、過去 N 月無消費次數比率、過去 N 月全額繳清次數比率、過去 N 月循環無逾期次數比率、過去 N 月逾期次數比率、
循環掛帳比率、預借現金比率、預借現金月數比率、循環無逾期最後一次距今月 數、預借現金最後一次距今月數、最近三個月他行查詢銀行家數、最近他行查詢 距現在天數。
各銀行在進行信用貸款違約風險評估時,可優先考慮上述 36 個變數。在建 構信用貸款違約風險建模分析資料庫時,建議亦應納入此 36 個變數。在過去國 內外研究中,未有研究能如此完整地建議及提供建立違約預測模型時可採用的起 啓變數。
(二) 決策樹模型之預測能力探討 1. 精簡變數能力
本研究運用分類與迴歸樹(CART)建立信用貸款違約風險之預測模,
最後所選擇的最適模型為「違約逾期相關程度法-決策樹」,透過該模型篩選
出的建模變數依其重要度排序依次為最近三個月他行查詢家數、信用總額度
與總掛帳總金額之差值、性別、學歷、現任公司地址、過去 N 月全額繳清
次數比率、等 8 個。各銀行在進行信用貸款違約風險評估時,在節省時間及
成本考量下,建議可精簡地採用上述 8 個變數篩選申請者,並進行必要之信 用貸款違約風險估計。
本研究決策樹模型所選取的建模變數中,三個月他行查詢家數、性別、
學歷等三個變數為過去研究中常被採用且具有顯著影響力之變數,信用總額 度與總掛帳總金額之差值、過去 N 月全額繳清次數比率、具預借現金的信 用卡張數、平均信用額度及現任公司地址等五個變數為過去研究中較少被提 及的變數。因為本研究的資料量夠大,且抽樣比率皆與實際資料庫相近,故 本研究所發掘的這些顯著性變數應具有一定的代表性,可做為未來研究者或 銀行界選用時之考量變數。
2. 違約逾期的抓取能力
依據本研究的資料庫,若不採用任何風險預測模型隨機猜測顧客的違約 逾期狀況,平均每 6 至 7 個顧客才有可能抓取到一個違約逾期顧客。而採用 本研究的「違約逾期相關程度法-決策樹」進行顧客的篩選,在經篩選出的 不好顧客中,約每 3 個
12顧客就有一個為實際違約逾期顧客;且在預期違約 率前 20%的顧客中,即可抓取到近五成的實際違約逾期顧客。由此可知,本 研究之決策樹模型可以有效地判讀出高違約逾期族群,節省銀行授信時所花 的人力及時間。換言之,運用本研究的模型,可以有效地規避或控管違約風 險較高之顧客族群,進而能篩選出信用狀況良好之顧客特性,加以積極爭 取;另外,亦可同時提升審核及放款效率,為銀行爭取更高之利潤。
3. 違約逾期者的特徵
透過本研究之「違約逾期相關程度法-決策樹」建模分類規則可知,最 近三個月他行查詢銀行家數愈高者發生違約逾期情形也愈高;信用總額度與 總掛帳總金額的差值愈大者發生違約逾期情形則是愈低;性別為男性考發生 違約逾期情形相對於女性為高;學歷愈低者其發生違約逾期之情形亦是相對 較學歷較高者為高;過去 N 月全額繳清次數比率愈高者則發生違約逾期的 情形愈低;具預借現金的信用卡張數愈多者則發生違約逾期情形愈高;平均 信用額度愈高者發生違約逾期情形則愈低。
二、 未來研究建議
本研究採用分類與迴歸樹(CART)建立信用貸款違約風險之預測模型,建 議未來研究者,可參考本研究之建模變數選取原則,但採用其他建模方式,如邏 輯斯迴歸、區別分析等,進行信用貸款違約風險預測模型之建構,更進一步或可 嘗試比較各種不同建模方式之預測效果。
12: 544÷1552=0.35=1/2.85≈1/3,其中 544 為模式預測為違約逾期且實際為違約逾期的人數;1552 為模式預測為違約逾期的人數。