第四章 實證結果
第二節、 預測結果
一、決策樹
經變數優化選擇後的結果,共有9 種:EDUCATION、PAY_1、PAY_3、PAY_5、
BILL_AMT1、BILL_AMT4、PAY_AMT1、PAY_AMT5 及 PAY_AMT6,如圖 4-11;
各變數權重值如圖4-12,以 PAY_1 最高,達 8.9%。同時本文選取決策樹中四項 參數,分別是criterion、maximal_depth、apply_pruning 及 apply_prepruning 進行 參數最佳化,如圖4-13。
圖4- 11 決策樹變數篩選結果
圖 4- 12 決策樹變數權重值
圖4- 13 決策樹參數選擇
參數最佳化篩選結果為criterion = gini_ratio、maximal_depth = -1(不限制樹 的 深 度 , 樹 會 被 建 立 到 滿 足 其 他 條 件 為 止) 、 apply_pruning = false 及 apply_prepruning = true,如圖 4-14,最後決策樹的預測準確率為 82.90%,如圖 4-15。
圖 4- 14 決策樹參數最佳化結果
圖 4- 15 決策樹預測準確率 二、隨機森林
經變數優化選擇後的結果,共有 8 種:PAY_1、PAY_2、PAY_3、PAY_5、
BILL_AMT1、BILL_AMT6、PAY_AMT4 及 PAY_AMT5,如圖 4-16;各變數權 重值如圖4-17,以 PAY_1 最高,達 8.9%。同時本文選取隨機森林中四項參數,
38
分別是criterion、maximal_depth、number_of_trees 及 apply_prepruning 進行參數 最佳化,如圖4-18。
圖 4- 16 隨機森林變數篩選結果
圖4- 17 隨機森林變數權重值
圖 4- 18 隨機森林參數選擇
參 數 最 佳 化 篩 選 結 果 為 criterion = gini_ratio 、 maximal_depth = -1 、 number_of_trees = 21 及 apply_prepruning = true,如圖 4-19,最後隨機森林的預 測準確率與決策樹相同為82.90%,如圖 4-20。
圖4- 19 隨機森林參數最佳化結果
圖4- 20 隨機森林準確率 三、類神經網路篩選結果
經變數優化選擇後的結果,共有11 種:EDUCATION、AGE、PAY_1、PAY_2、
PAY_3、PAY_4、PAY_5、BILL_AMT1、BILL_AMT3、BILL_AMT4 及 PAY_AMT5,
如圖4-21;各變數權重值如圖 4-22,以 PAY_1 最高,達 8.9%。同時本文選取類 神經網路中三項參數,分別是分別是learning_rate、normalize 及 momentum 進行 參數最佳化,如圖4-23。
40
圖4- 21 類神經網路變數篩選結果
圖 4- 22 類神經網路變數權重值
圖4- 23 類神經網路參數選擇
參數最佳化篩選結果為learning_rate = 0.3、normalize = true 及 momentum = 0.8,如圖 4-24,最後類神經網路的預測準確率為 82.97%,如圖 4-25。
圖 4- 24 類神經網路參數最佳化結果
圖 4- 25 類神經網路準確率 四、支持向量機
經變數優化選擇後的結果,共有 11 種:LIMIT_BAL、MARRIAGE、AGE、
PAY_1、PAY_2、PAY_5、BILL_AMT1、BILL_AMT3、BILL_AMT6、PAY_AMT2 及PAY_AMT4,如圖 4-26;各變數權重值如圖 4-27,以 PAY_1 最高,達 8.9%。
同時本文選取支持向量機中兩項參數,分別是 kernel_type 及 kernel_cache 進行 參數最佳化,如圖4-28。
42
圖4- 26 支持向量機變數篩選結果
圖 4- 27 支持向量機變數權重值
圖4- 28 支持向量機參數選擇
參數最佳化篩選結果為kernel_type = radial 及 kernel_cache = 10,如圖 4-29,
最後支持向量機的預測準確率為81.50%,如圖 4-30。
圖 4- 29 支持向量機參數最佳化結果
圖 4- 30 支持向量機準確率 五、倒轉遞類神經網路
經變數優化選擇後的結果,共有 9 種變數:PAY_1、PAY_2、PAY_4、
BILL_AMT1、BILL_AMT6、PAY_AMT2、PAY_AMT4、PAY_AMT5 及 PAY_AMT6,
如圖4-31;各變數權重值如圖 4-32,以 PAY_1 最高,達 8.9%。同時本文選取倒 轉遞類神經網路中四項參數,分別是 activation、learning_rate、loss_function 及 distribution_function 進行參數最佳化,如圖 4-33。
44
圖 4- 31 倒轉遞類神經網路變數篩選結果
圖4- 32 倒轉遞類神經網路變數權重值
圖 4- 33 倒轉遞類神經網路參數選擇
參數最佳化篩選結果為 activation = ExpRectifier、learning_rate = 0.8、
loss_function = Absolute 及 distribution_function = bernoulli,如圖 4-34 所示,最 後倒轉遞類神經網路的預測準確率為81.82%,如圖 4-35。
圖4- 34 倒轉遞類神經網路參數最佳化結果
圖4- 35 倒轉遞類神經網路準確率
46
表4- 2 各演算法篩選之變數依權重排序
1
PAY_1 PAY_1 PAY_1 PAY_1 PAY_1
2
PAY_3 PAY_2 PAY_2 PAY_2 PAY_2
3
PAY_5 PAY_3 PAY_3 PAY_5 PAY_4
4
PAY_AMT1 PAY_5 PAY_4 LIMIT_BAL PAY_AMT2
5
PAY_AMT6 PAY_AMT4 PAY_5 PAY_AMT2 PAY_AMT4
6PAY_AMT5 PAY_AMT5 PAY_AMT5 PAY_AMT4 PAY_AMT6
7EDUCATION BILL_AMT1 EDUCATION AGE PAY_AMT5
8BILL_AMT1 BILL_AMT6 AGE BILL_AMT1 BILL_AMT1
9BILL_AMT4 BILL_AMT1 MARRIAGE BILL_AMT6
10