第三章 研究方法
第二節 研究樣本說明及資料預處理
本研究使用美國最大 P2P 網路借貸平台-Lending Club 2016 年借貸數據做為 研究樣本來源,樣本取自數據建模及分析平台-Kaggle 之公開資料(https://www.
kaggle.com/wendykan/lending-club-loan-data),本樣本包含了借款人貸款相關資 訊、還款現況等 145 個變數,434,387 個觀測值。
將其中 loan_status(貸款狀態)設為目標變數,貸款狀態分為 Current(當前)、
Fully paid(全額付清)、Charged Off(轉呆帳)、In Grace Period(寬限期內)、Late (16-30 days)(遲繳 16 天到 (16-30 天)、Late (31-120 days)(遲繳 31 天到 120 天)及 Default(違 約)七種狀態,本研究將貸款狀態變更為雙元變數,Current(當前)及 Fully paid(全 額付清)視為正常還款(false),而其餘貸款狀態則視為廣義的違約(true)。如表 4 所 示。
表 4 顯示合併後觀察值,貸款是否違約之數量及比例,其中違約貸款有 73,873 筆,占 17.0%,而非違約貸款共有 359,596 筆,占 83.0%,屬於不平衡資料 (imbalanced dataset),不平衡資料可能高估預測準確率(Accuracy)及降低模型之召 回率(Recall),因此本研究以創造權重(Generate Weight (Stratification))的方式,改 善對資料不平衡的問題。
表4 貸款狀態合併前後分布
acc_now_delinq 借款人現在欠款的帳戶數量。
acc_open_past_24mths 過去24 個月內開立的帳戶數量。
addr_state 借款人提供之州別。
all_util 所有交易信貸限額餘額。
annual_inc 自行報告之年收入。
application_type 貸款是單獨申請或兩個共同借款人聯合申請。
chargeoff_within_12_mths 12 個月內的銷帳次數。
collections_12_mths_ex_med 除醫療欠款外 12 個月內的欠款數量。
debt_settlement_flag 借款人是否曾有被債務清算。
delinq_2yrs 過去兩年借款人信用檔案中逾期30 天以上的拖 欠紀錄。
delinq_amnt 借款人拖欠帳戶以逾期數量。
disbursement_method 借款人收取貸款的方法。
dti 債務所得比率。總債務償還總額(不包括房貸和
LC 貸款)除以月收入之比率。
earliest_cr_line 借款人最早信貸額度開始的月份。
emp_length 目前職位就業年數。
grade Lending Club(LC)貸款等級。
hardship_flag 借款人是否處於困難計劃中。
home_ownership 房屋持有狀態。
initial_list_status 是否為初始貸款。
inq_fi 個人財務被查詢次數。
inq_last_12m 過去12 個月的信用查詢次數。
inq_last_6mths 借款人6 個月內信用被查詢之次數。
int_rate 貸款利率。
issue_d 貸款獲得資金的月份。
last_credit_pull_d Lending Club 最近一個月查詢信用狀況的時間。
last_pymnt_amnt 上次收到的付款金額。
last_pymnt_d 上次收到付款的日期。
loan_amnt 借款人申請的貸款金額。
max_bal_bc 所有循環帳戶上的最大當前餘額。
mo_sin_old_rev_tl_op 最早的循環帳戶開始以來的幾個月。
mo_sin_rcnt_rev_tl_op 最近的循環帳戶開始以來的幾個月。
mo_sin_rcnt_tl 最近開戶以來的幾個月。
mort_acc 抵押帳戶數量。
mths_since_recent_bc_dlq 最近一次銀行卡違約以來的幾個月。
num_accts_ever_120_pd 逾期120 天或以上的帳戶數量。
num_actv_bc_tl 當前有效的銀行卡帳戶數。
num_bc_tl 銀行卡帳戶數量。
pct_tl_nvr_dlq 從未拖欠的交易百分比。
policy_code 產品是否公開。
pub_rec 詆毀信用數量。
pub_rec_bankruptcies 公共記錄破產次數。
purpose 貸款目的。
pymnt_plan 是否已為貸款實施還款計劃。
recoveries 總回收費用。
revol_bal 貸款帳戶循環使用餘額。
revol_util 貸款帳戶循環使用率。
sub_grade LC 貸款等級之次分(subgrade)。
term 貸款期間。
tot_coll_amt 欠款總額。
tot_cur_bal 所有帳戶的當前總餘額。
total_bal_il 所有分期付款帳戶的當前總餘額。
total_bc_limit 總銀行卡最高信用/信用額度。
total_cu_tl 融資交易數量。
total_rec_int 至今收到的利息。
total_rec_late_fee 至今收到的滯納金。
verification_status 年收入是否經過LC 驗證。