6 622
1. 將類神經網路的所有輸入設為 0。
2. 取一個輸入整數之輸入為+0.5,計算類神經網路輸出值y ; 再將其輸入設為-0.5,計算類神經網路之輸出值y ;計算其影 響值r y y ;重新將其輸入恢復為 0。
3. 重複步驟 2 直到所有輸入變數均得其影響值。
4. 選影響值最大的輸入變數為分枝變數,並產生二個分枝,一 為+0.5 分枝,一為-0.5 分枝;每個分枝均重複步驟 2~4 直到 指定次數。
利用上述方式將二例題產生之決策樹分別表示於圖 5.1、圖 5.2。
6 644
圖 5.2 汽車保險例題
以健身中心例題而言,利用此法判斷的結果,輸入變數的重要性 依序為:性別、學年、年齡、是否從事重量訓練運動、平均從事運動 時間、是否從事有氧舞蹈;比對表 3.15 對於類神經網路方法及決策 樹方法的重要輸入變數,整理於表 5.1。
表 5.1 重要輸入變數比較(健身中心)
方法
排序 類神經網路方法 決策樹方法 類神經網路產生之決策樹
1 學年 學年 性別
2 性別 學院 學年
3 是否從事重量訓練運動 性別 年齡
4 是否從事有氧舞蹈 年齡 是否從事重量訓練運動
5 有無固定運動習慣 有無固定運動習慣 平均從事運動時間 6 平均從事運動時間 平均從事運動時間 是否從事有氧舞蹈
由表 5.1 可看出,三種方法判斷的重要輸入變數有三者相同,分 別為學年、性別、平均從事運動時間。
以汽車保險例題而言,利用此方法判定之重要輸入變數,參考圖 5.2,分別為 Contribution car policies、Contribution social security insurance policies、Middle management、Number of boat policies、Lower level education、Number of car policies、Number of private third party insurance,與表 4.9 比較並整理於表 5.2。
表 5.2 重要輸入變數比較(汽車保險)
方法
排序 類神經網路方法 決策樹方法 類神經網路產生之決策樹 1 Contribution car
policies
Contribution car
policies Contribution car policies 2 Number of boat
policies
Middle management
Contribution social security insurance policies 3
Number of private third party
insurance
Lower level
education Middle management
4 Lower level education
Number of private third party
insurance
Number of boat policies
由表 5.1 與表 5.2 可知,若就類神經網路方法而言,經由類神經 網路產生之決策樹與類神經網路一般所建構的模型相類似。因此,利 用此方式產生之決策樹是可以解釋類神經網路的模型與思考邏輯,並 且將類神經網路方法進一步讓使用者可以更容易判讀。
6 666
5-3 由類神經網路模型修正訓練範例,再用以產生決策樹模 型
本節使用之方式與 5-2 節不同,本節利用類神經網路方法將模型 建構完成後,將經由倒傳遞網路訓練完成之「訓練範例」預測輸出變 數,套用在供決策樹軟體 XpertRule Miner 使用的數據中,取代原有 的「訓練範例」輸出變數,再進行決策樹模型建構,最後比對經由此 方法產生之「測試範例」誤判率,進而了解經由類神經網路訓練後之 輸出變數,是否可以提高決策樹模型的判斷準確率。
5-3-1 數據導入
將第三章與第四章中,學習循環最佳化之隱藏單元數 2、4、8、
16、32,經由類神經網路方法建構模型之「訓練範例」輸出變數,導 入 XpertRule Mine 使用之數據中,同時使用軟體內建的「自動歸納」
功能,對於健身中心例題,將分支最小範例數設為「20」,分支最大 顯著性設定為「None」,分支判定準則設定為「Entropy」;對於汽 車保險例題,將分支最小範例數設為「10」,分支最大顯著性設定為
「None」,分支判定準則設定為「Entropy」,並在決策樹形成後利 用人工方式修剪。
5-3-2 模型建構
導入完成後,隨即建構決策樹模型,經由修剪後,計算各模型之 誤判率,圖 5.3~圖 5.7 為健身中心例題各隱藏單元數之決策樹模型,
圖 5.8~圖 5.12 為汽車保險例題各隱藏單元數之決策樹模型。
學 年
< 91.10361473 性 別
2 學 院
1
2 年 齡
< 21.13811569 二 16 3 4
1
是 27 69.2%
否 12 30.8%
會 員 39 4.9%
NN測 試 是 11 64.7%
否 6 35.3%
會 員 17 4.0%
6 2 1 5
2
否 12 60.0%
是 8 40.0%
會 員 20 2.5%
NN測 試 是 7 53.8%
否 6 46.2%
會 員 13 3.0%
>= 21.13811569
3
是 28 93.3%
否 2 6.7%
會 員 30 3.8%
NN測 試 是 10 71.4%
否 4 28.6%
會 員 14 3.3%
3 4
4
是 45 97.8%
否 1 2.2%
會 員 46 5.8%
NN測 試 是 22 59.5%
否 15 40.5%
會 員 37 8.6%
1
5
是 177 100.0%
否 0 0.0%
會 員 177 22.1%
NN測 試 是 84 78.5%
否 23 21.5%
會 員 107 25.0%
>= 91.10361473 學 年
< 92.05000001
6
否 280 92.4%
是 23 7.6%
會 員 303 37.9%
NN測 試 否 90 66.7%
是 45 33.3%
會 員 135 31.5%
>= 92.05000001 二 9
< 2.05264864
7
是 125 86.8%
否 19 13.2%
會 員 144 18.0%
NN測 試 是 45 55.6%
否 36 44.4%
會 員 81 18.9%
>= 2.05264864
8
否 23 56.1%
是 18 43.9%
會 員 41 5.1%
NN測 試 否 13 54.2%
是 11 45.8%
會 員 24 5.6%
圖 5.3 隱藏單元數=2 之決策樹(健身中心)
6 688
學 年
< 91.10361473 性 別 1
1
是 177 100.0%
否 0 0.0%
會員 177 22.1%
NN測試 是 84 78.5%
否 23 21.5%
會 員 107 25.0%
2 二15
2
1 學 院
1 3
2
是 41 91.1%
否 4 8.9%
會員 45 5.6%
NN測 試 是 23 71.9%
否 9 28.1%
會員 32 7.5%
4 2 二8
< 3 3
是 23 79.3%
否 6 20.7%
會員 29 3.6%
NN測 試 是 13 65.0%
否 7 35.0%
會員 20 4.7%
>= 3 4
否 17 54.8%
是 14 45.2%
會員 31 3.9%
NN測 試 是 7 53.8%
否 6 46.2%
會員 13 3.0%
6 4 5 3
5
是 30 100.0%
否 0 0.0%
會員 30 3.8%
NN測 試 否 9 56.3%
是 7 43.8%
會 員 16 3.7%
>= 91.10361473 年 齡
< 18.20403270 二8
< 5 二 15 4 2 1
6
是 53 75.7%
否 17 24.3%
會員 70 8.8%
NN測 試 否 25 54.3%
是 21 45.7%
會員 46 10.7%
3 5 6
7
否 14 66.7%
是 7 33.3%
會員 21 2.6%
NN測 試 否 5 50.0%
是 5 50.0%
會員 10 2.3%
>= 5
8
否 18 81.8%
是 4 18.2%
會員 22 2.8%
NN測 試 否 4 57.1%
是 3 42.9%
會員 7 1.6%
>= 18.20403270
9
否 335 89.3%
是 40 10.7%
會員 375 46.9%
NN測 試 否 105 59.3%
是 72 40.7%
會 員 177 41.4%
圖 5.4 隱藏單元數=4 之決策樹(健身中心)
學年
< 91.10361473 學院 2
4 性別
2 年齡
< 21.06103022 二8
< 2.17784980 1
是 14 60.9%
否 9 39.1%
會員 23 2.9%
NN測試 是 12 52.2%
否 11 47.8%
會員 23 5.4%
>= 2.17784980 2
否 17 65.4%
是 9 34.6%
會員 26 3.3%
NN測試 否 6 60.0%
是 4 40.0%
會員 10 2.3%
>= 21.06103022
3
是 18 72.0%
否 7 28.0%
會員 25 3.1%
NN測試 是 8 66.7%
否 4 33.3%
會員 12 2.8%
1
4
是 41 87.2%
否 6 12.8%
會員 47 5.9%
NN測試 是 17 68.0%
否 8 32.0%
會員 25 5.8%
3 1
5
是 180 94.2%
否 11 5.8%
會員 191 23.9%
NN測試 是 93 78.8%
否 25 21.2%
會員 118 27.6%
>= 91.10361473 學年
< 92.05000001 性別 2
6
否 121 86.4%
是 19 13.6%
會員 140 17.5%
NN測試 否 49 76.6%
是 15 23.4%
會員 64 15.0%
1 二9
< 2.01639489 二16 4 5
7
是 17 54.8%
否 14 45.2%
會員 31 3.9%
NN測試 否 12 60.0%
是 8 40.0%
會員 20 4.7%
6 3 2 1
8
否 53 71.6%
是 21 28.4%
會員 74 9.3%
NN測試 否 17 60.7%
是 11 39.3%
會員 28 6.5%
>= 2.01639489
9
否 51 87.9%
是 7 12.1%
會員 58 7.2%
NN測試 否 12 52.2%
是 11 47.8%
會員 23 5.4%
>= 92.05000001 二9
< 1.13158108 二14
< 1.11214738
10
否 29 82.9%
是 6 17.1%
會員 35 4.4%
NN測試 否 10 71.4%
是 4 28.6%
會員 14 3.3%
>= 1.11214738
11
是 20 58.8%
否 14 41.2%
會員 34 4.3%
NN測試 是 14 77.8%
否 4 22.2%
會員 18 4.2%
>= 1.13158108 二8
< 4.22300090
12
是 63 69.2%
否 28 30.8%
會員 91 11.4%
NN測試 是 30 50.0%
否 30 50.0%
會員 60 14.0%
>= 4.22300090
13
否 13 52.0%
是 12 48.0%
會員 25 3.1%
NN測試 是 8 61.5%
否 5 38.5%
會員 13 3.0%
7 700
學年
< 92 學院 2
4 二9
< 2 二8
< 3
1
是 14 70.0%
否 6 30.0%
會員 20 2.5%
NN測試 是 10 52.6%
否 9 47.4%
會員 19 4.4%
>= 3
2
否 12 52.2%
是 11 47.8%
會員 23 2.9%
NN測試 是 3 60.0%
否 2 40.0%
會員 5 1.2%
>= 2
3
是 67 85.9%
否 11 14.1%
會員 78 9.8%
NN測試 是 28 60.9%
否 18 39.1%
會員 46 10.7%
3 1
4
是 186 97.4%
否 5 2.6%
會員 191 23.9%
NN測試 是 93 78.8%
否 25 21.2%
會員 118 27.6%
>= 92 年齡
< 19 二9
< 2
5
否 23 65.7%
是 12 34.3%
會員 35 4.4%
NN測試 否 10 55.6%
是 8 44.4%
會員 18 4.2%
>= 2
6
是 60 76.9%
否 18 23.1%
會員 78 9.8%
NN測試 否 24 53.3%
是 21 46.7%
會員 45 10.5%
>= 19 性別 2
7
否 149 87.1%
是 22 12.9%
會員 171 21.4%
NN測試 否 55 67.1%
是 27 32.9%
會員 82 19.2%
1 二9
< 3 二16 1 4 二16
1 8
否 11 55.0%
是 9 45.0%
會員 20 2.5%
NN測試 否 3 100.0%
是 0 0.0%
會員 3 0.7%
4 9
是 20 57.1%
否 15 42.9%
會員 35 4.4%
NN測試 否 14 60.9%
是 9 39.1%
會員 23 5.4%
6 2 5 3
10
否 60 73.2%
是 22 26.8%
會員 82 10.3%
NN測試 是 20 54.1%
否 17 45.9%
會員 37 8.6%
>= 3
11
否 60 89.6%
是 7 10.4%
會員 67 8.4%
NN測試 是 16 50.0%
否 16 50.0%
會員 32 7.5%
圖 5.6 隱藏單元數=16 之決策樹(健身中心)
學年
< 91.10361473
1
是 276 88.5%
否 36 11.5%
會員 312 39.0%
NN測試 是 134 71.3%
否 54 28.7%
會員 188 43.9%
>= 91.10361473 學年
< 92.05000001
2
否 269 88.8%
是 34 11.2%
會員 303 37.9%
NN測試 否 90 66.7%
是 45 33.3%
會員 135 31.5%
>= 92.05000001 年齡
< 18.06326668 二8
< 3.17252392 性別 2
3
否 18 52.9%
是 16 47.1%
會員 34 4.3%
NN測試 否 13 65.0%
是 7 35.0%
會員 20 4.7%
1 4
是 21 72.4%
否 8 27.6%
會員 29 3.6%
NN測試 是 11 55.0%
否 9 45.0%
會員 20 4.7%
>= 3.17252392
5
是 41 87.2%
否 6 12.8%
會員 47 5.9%
NN測試 是 11 52.4%
否 10 47.6%
會員 21 4.9%
>= 18.06326668
6
否 48 64.0%
是 27 36.0%
會員 75 9.4%
NN測試 是 27 61.4%
否 17 38.6%
會員 44 10.3%
圖 5.7 隱藏單元數=32 之決策樹(健身中心)
7 722
圖 5.8 隱藏單元數=2 之決策樹(汽車保險)
圖 5.9 隱藏單元數=4 之決策樹(汽車保險)
7 744
圖 5.10 隱藏單元數=8 之決策樹(汽車保險)
圖 5.11 隱藏單元數=16 之決策樹(汽車保險)
7 766
圖 5.12 隱藏單元數=32 之決策樹(汽車保險)
各隱藏單元數之決策樹誤判率,健身中心例題表示於表 5.3,汽 車保險例題表示於表 5.4。
表 5.3 健身中心例題誤判率
訓練範例誤判率 測試範例誤判率 差異
原始數據 27.3% 35.7% NA
隱藏單元數=2 10.3% 34.3% -1.4%
隱藏單元數=4 11.5% 37.3% +1.6%
隱藏單元數=8 20.3% 34.4% -1.3%
隱藏單元數=16 17.3% 38.3% +2.6%
隱藏單元數=32 12.5% 35.5% -0.2%
表 5.4 汽車保險例題誤判率
訓練範例誤判率 測試範例誤判率 差異
原始數據 27.2% 35.0% NA
隱藏單元數=2 4.8% 32.2% -2.8%
隱藏單元數=4 6.0% 32.4% -2.6%
隱藏單元數=8 6.3% 32.2% -2.8%
隱藏單元數=16 6.9% 32.1% -2.9%
隱藏單元數=32 6.0% 32.1% -2.9%
5-3-3 結果討論
根據表 5.4 所示,健身中心例題的訓練範例誤判率,經由本方法
7 788
由表 5.4 可知,汽車保險例題在經由本方法改進後,訓練範例誤 判率明顯降低,而測試範例誤判率也有降低趨勢,尤其隱藏單元數為 16 及 32 時,誤判率降低約 3%,可見本方法在汽車保險例題模型的 提升效果較佳。
5-4 由決策樹模型修正訓練範例,再用以產生類神經網路模 型
本方法先將決策樹建立模型後,利用各分枝規則作為判斷依據,
導入類神經網路之原始數據,修改其「訓練範例」之輸出變數,再利 用神經網路方法中的倒傳遞網路建立模型,比較其測試範例提升圖、
混亂矩陣、敏感性分析與誤判率等結果。
5-4-1 數據導入
以汽車保險例題為例,以表 5.5 之規則套用至類神經網路方法之 原始數據內,更改其「訓練範例」之輸出變數結果。
表 5.5 決策樹模型規則(汽車保險)
規則邏輯
規則 1
{Contribution car policies(47 項)≦0} and { Middle management (22 項)≦3}
and{ Number of private third party insurance (65 項 ) ≦ 0} Then 購買 = Yes(22.6%) ; No(77.4%)
規則 2
{Contribution car policies(47 項)≦0} and { Middle management (22 項)≦3}
and{ Number of private third party insurance (65 項)>0} Then 購買=
Yes(20.6%) ; No(79.4%)
規則 3 {Contribution car policies(47 項)≦0} and { Middle management (22 項)>3}
Then 購買=;Yes (45.7%) ; No (54.3%)
規則 4 {Contribution car policies(47 項)≧1}and{ Lower level education(18 項≦
3}and{ Middle management (22 項)≦2} Then 購買= Yes(79.3%); No(20.7%) 規則 5
{Contribution car policies(47 項)≧1}and{ Lower level education(18 項) ≦ 3}and{ Middle management (22 項)>2}and{ Number of private third party insurance (65 項)≦0} Then 購買= Yes(53.8%) ; No(46.2%)
規則 6
{Contribution car policies(47 項)≧1}and and{ Lower level education(18 項) ≦ 3}and{ Middle management (22 項)>2}and{ Number of private third party insurance (65 項)>0} Then 購買= Yes(69.6%) ; No(30.4%)
規則 7
{Contribution car policies(47 項)≧1}and and{ Lower level education(18 項)
>3}and{ Middle management (22 項 ) ≦ 1} Then 購 買 = Yes(50.0%) ; No(50.0%)
規則 8 {Contribution car policies(47 項)≧1}and and{ Lower level education(18 項)
>3}and{ Middle management (22 項)>1} Then 購買= Yes(58.7%) ; No(41.3%)
5-4-2 建立模型
將變更完成之「訓練範例」載入 PC Neuron 軟體中進行倒傳遞網 路模型建立,使用設定為隱藏單元數 2、4、8、16、32,並取學習循 環數最佳化,其餘設定則參照軟體建議值。
5-4-3 健身中心例題模型
依照上述設定所建立之健身中心類神經網路模型測試範例提升
8 800 0
50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員與非會員人數 會
員 人 數
圖 5.13 隱藏單元數=2 學習循環=2000 測試範例提升圖(健身中心)
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員與非會員人數 會
員 人 數
圖 5.14 隱藏單元數=4 學習循環=1000 測試範例提升圖(健身中心)
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員與非會員人數 會
員 人 數
圖 5.15 隱藏單元數=8 學習循環=5000 測試範例提升圖(健身中心)
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員與非會員人數 會
員 人 數
圖 5.16 隱藏單元數=16 學習循環=3000 測試範例提升圖(健身中心)
8 822 0
50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員與非會員人數 會
員 人 數
圖 5.17 隱藏單元數=32 學習循環=2000 測試範例提升圖(健身中心)
比較圖 3.12~圖 3.16 與圖 5.13~圖 5.17,可發現經由本方法建 立之測試範例提升圖並無較顯著之改善。
表 5.6 為經由本方法產生之測試範例混亂矩陣。
表 5.6 測試範例混亂矩陣(健身中心)
隱藏單元數 實際推論 是 否 合計
是 149 73 222
否 86 120 206
2
合計 235 193 428
是 161 88 249
否 74 105 179
4
合計 235 193 428
是 154 80 234
否 81 113 194
8
合計 235 193 428
是 166 84 250
否 69 109 178
16
合計 235 193 428
是 161 82 243
否 74 111 185
32
合計 235 193 428
由表 3.10 與表 5.6 比較可知,經由本方法所建立之模型,測試範 例混亂矩陣並無顯著提升。
表 5.7 為經由本方法產生之敏感性分析。
8 844
表 5.7 敏感性分析(健身中心)
隱藏單元數=2 隱藏單元數=4 隱藏單元數=8 隱藏單元數=16 隱藏單元數=32
變數 會員 非會員 會員 非會員 會員 非會員 會員 非會員 會員 非會員
二 1a 7.1 -7.1 4.0 -4.0 0.8 -0.8 -0.3 0.3 3.6 -3.6
二 1b 1.2 -1.2 0.0 0.0 -1.1 1.1 2.7 -2.7 5.7 -5.7
二 1c 0.6 -0.6 -3.1 3.1 -5.4 5.4 -2.0 2.0 -5.9 5.9
二 7a -8.2 8.2 -6.8 6.8 4.1 -4.1 -6.9 6.9 -5.7 5.7
二 7b 3.4 -3.4 11.0 -11.0 5.3 -5.3 4.7 -4.7 5.9 -5.9
二 8 4.2 -4.2 12.6 -12.6 7.6 -7.6 10.2 -10.2 9.0 -8.9
二 9 -3.9 3.9 -7.5 7.5 -12.8 12.8 -6.4 6.4 -9.2 9.2
二 12 -1.2 1.2 -0.1 0.1 -3.5 3.5 3.1 -3.1 -0.6 0.6
二 14 0.2 -0.2 -0.6 0.6 1.4 -1.4 -0.4 0.4 3.4 -3.4
二 15 0.0 0.0 -2.4 2.4 -1.4 1.4 1.4 -1.4 -3.1 3.0
二 16 -2.0 2.0 -1.8 1.8 -13.0 13.0 -3.7 3.7 -7.8 7.7
學年 -32.8 32.8 -55.1 55.1 -45.5 45.5 -60.6 60.6 -103.7 103.4
學院 15.9 -15.9 7.2 -7.2 9.5 -9.5 4.7 -4.7 4.6 -4.7
性別 -17.2 17.2 -11.6 11.6 -12.2 12.2 -14.2 14.2 -8.2 8.1
年齡 -10.3 10.3 -19.1 19.1 -18.4 18.4 -43.1 43.1 -40.0 40.1
由表 5.7 可知,在隱藏單元數為 2 時,大於 4 之輸入變數為學年、
性別、學院、年齡、二 7a、二 1a、二 8,對照表 3.15,可發現本方法 判斷輸入變數重要性,近似於單獨使用類神經網路方法與決策樹方法 的結果。
表 5.8 為本方法與原類神經網路方法測試範例誤判率比較。
表 5.8 誤判率比較(健身中心)
隱藏單元數 轉換與否 學習循環 測試範例誤判率 差異 NO 700 34.0%
2
YES 2000 37.0%
+3%
NO 500 35.0%
4
YES 1000 38.0%
+3%
NO 500 37.0%
8
YES 5000 36.0%
-1%
NO 150 37.0%
16
YES 3000 34.0%
-3%
NO 150 37.0%
32
YES 2000 36.0%
-1%
由表 5.8 可知,經由本方法所得到之測試範例誤判率並無明顯降 低情況,在隱藏單元數為 8、16 及 32 時,誤判率有降低情況。