• 沒有找到結果。

研究樣本說明及資料預處理

第三章 研究方法

第二節 研究樣本說明及資料預處理

本研究使用美國最大 P2P 網路借貸平台-Lending Club 2016 年借貸數據做為 研究樣本來源,樣本取自數據建模及分析平台-Kaggle 之公開資料(https://www.

kaggle.com/wendykan/lending-club-loan-data),本樣本包含了借款人貸款相關資 訊、還款現況等 145 個變數,434,387 個觀測值。

將其中 loan_status(貸款狀態)設為目標變數,貸款狀態分為 Current(當前)、

Fully paid(全額付清)、Charged Off(轉呆帳)、In Grace Period(寬限期內)、Late (16-30 days)(遲繳 16 天到 (16-30 天)、Late (31-120 days)(遲繳 31 天到 120 天)及 Default(違 約)七種狀態,本研究將貸款狀態變更為雙元變數,Current(當前)及 Fully paid(全 額付清)視為正常還款(false),而其餘貸款狀態則視為廣義的違約(true)。如表 4 所 示。

表 4 顯示合併後觀察值,貸款是否違約之數量及比例,其中違約貸款有 73,873 筆,占 17.0%,而非違約貸款共有 359,596 筆,占 83.0%,屬於不平衡資料 (imbalanced dataset),不平衡資料可能高估預測準確率(Accuracy)及降低模型之召 回率(Recall),因此本研究以創造權重(Generate Weight (Stratification))的方式,改 善對資料不平衡的問題。

表4 貸款狀態合併前後分布

acc_now_delinq 借款人現在欠款的帳戶數量。

acc_open_past_24mths 過去24 個月內開立的帳戶數量。

addr_state 借款人提供之州別。

all_util 所有交易信貸限額餘額。

annual_inc 自行報告之年收入。

application_type 貸款是單獨申請或兩個共同借款人聯合申請。

chargeoff_within_12_mths 12 個月內的銷帳次數。

collections_12_mths_ex_med 除醫療欠款外 12 個月內的欠款數量。

debt_settlement_flag 借款人是否曾有被債務清算。

delinq_2yrs 過去兩年借款人信用檔案中逾期30 天以上的拖 欠紀錄。

delinq_amnt 借款人拖欠帳戶以逾期數量。

disbursement_method 借款人收取貸款的方法。

dti 債務所得比率。總債務償還總額(不包括房貸和

LC 貸款)除以月收入之比率。

earliest_cr_line 借款人最早信貸額度開始的月份。

emp_length 目前職位就業年數。

grade Lending Club(LC)貸款等級。

hardship_flag 借款人是否處於困難計劃中。

home_ownership 房屋持有狀態。

initial_list_status 是否為初始貸款。

inq_fi 個人財務被查詢次數。

inq_last_12m 過去12 個月的信用查詢次數。

inq_last_6mths 借款人6 個月內信用被查詢之次數。

int_rate 貸款利率。

issue_d 貸款獲得資金的月份。

last_credit_pull_d Lending Club 最近一個月查詢信用狀況的時間。

last_pymnt_amnt 上次收到的付款金額。

last_pymnt_d 上次收到付款的日期。

loan_amnt 借款人申請的貸款金額。

max_bal_bc 所有循環帳戶上的最大當前餘額。

mo_sin_old_rev_tl_op 最早的循環帳戶開始以來的幾個月。

mo_sin_rcnt_rev_tl_op 最近的循環帳戶開始以來的幾個月。

mo_sin_rcnt_tl 最近開戶以來的幾個月。

mort_acc 抵押帳戶數量。

mths_since_recent_bc_dlq 最近一次銀行卡違約以來的幾個月。

num_accts_ever_120_pd 逾期120 天或以上的帳戶數量。

num_actv_bc_tl 當前有效的銀行卡帳戶數。

num_bc_tl 銀行卡帳戶數量。

pct_tl_nvr_dlq 從未拖欠的交易百分比。

policy_code 產品是否公開。

pub_rec 詆毀信用數量。

pub_rec_bankruptcies 公共記錄破產次數。

purpose 貸款目的。

pymnt_plan 是否已為貸款實施還款計劃。

recoveries 總回收費用。

revol_bal 貸款帳戶循環使用餘額。

revol_util 貸款帳戶循環使用率。

sub_grade LC 貸款等級之次分(subgrade)。

term 貸款期間。

tot_coll_amt 欠款總額。

tot_cur_bal 所有帳戶的當前總餘額。

total_bal_il 所有分期付款帳戶的當前總餘額。

total_bc_limit 總銀行卡最高信用/信用額度。

total_cu_tl 融資交易數量。

total_rec_int 至今收到的利息。

total_rec_late_fee 至今收到的滯納金。

verification_status 年收入是否經過LC 驗證。

相關文件