實例分析 - 碩士論文中華大學

4-1. 前言

此章旨在比較BPN 與 MRNN 的預測能力與解釋能力。用來比較的例題包括五個實際分類例題(參考表 4-1)。由於這些例題的特性不同，資料量的多寡不一，

其比較結果應具有不錯的參考價值。此外，為了避免網路的初始設定的影響，本章的結果都是執行十次的平均值成果。本章第二節將簡略介紹五個實際分類例題的特性。第三節以五個實際分類例題比較BPN 與 MRNN 的預測能力。第四節為結論。

表 4 - 1 五個實際分類例題

應用實例自變數

數目

分類數目

範例數目

訓練範例數目

測試範例數目森林地表覆蓋分類(實例一) 14 7 4000 3000 1000 集集大地震引致山崩實驗(實例二) 15 2 4000 3200 800 垃圾郵件分類(實例三) 57 2 4500 3600 900 風險房貸顧客評估(實例四) 16 2 3000 1500 1500 潛在貸款客戶發掘(實例五) 22 2 1500 1000 500

4-2. 應用實例介紹

一、森林地表覆蓋分類

本例題來自文獻[11]。在此資料集中，森林被分割30 30公尺的格子，其實際森林覆蓋類型是由美國森林服務署(USFS) Region 2 資源資訊系統(RIS)資料決定。獨立變數是從美國地質調查署(USGS)與美國森林服務署(USFS)原始資料導出。總共有54 個欄位資料，獨立變數包括 10 個定量連續變數，及 44 個定性二元變數(4 個自然保護區和 40 種土壤類型)。其中 40 個用來表示土壤分類類型的二元變數，因其數量龐大，但對分類的影響很小，本研究將其捨去，只取其餘 14 個變數，如表 4-2 所示。原始資料共有 58 萬(581012)筆資料，有七種覆蓋類

的資料數目接近，故實際上只用4000 筆，各覆蓋類型的資料數目如表 4-3。其中 3000 筆做為訓練範例，1000 筆做為測試範例。

表 4 - 2 森林地表覆蓋類型實例的輸入變數

變數名稱資料型態單位

X1=高程連續變數公尺

X2=方位連續變數度

X3=坡度連續變數度

X4=對水體水平距離連續變數公尺

X5=對水體垂直距離連續變數公尺

X6=對道路水平距離連續變數公尺

X7=上午九點陰影連續變數 0 to 255

X8=中午陰影連續變數 0 to 255

X9=下午三點陰影連續變數 0 to 255

X10=對火點距離連續變數公尺

X11= Rawah Wilderness 荒野區二元變數 0/1 X12= Neota Wilderness 荒野區二元變數 0/1

X13= Comanche Peak 荒野區二元變數 0/1

X14= Cache la Poudre 荒野區二元變數 0/1

表 4 - 3 各覆蓋類型的資料數目

編號覆蓋類型原始數目採用數目

1 雲杉木 (Spruce-Fir) 211840 580 2 海灘松樹 ( Lodgepole Pine) 283301 557 3 美國黃松木 (Ponderosa Pine) 35754 551 4 楊樹/柳樹 (Cottonwood/Willow) 2747 560

5 白楊樹 (Aspen) 9493 607

6 花旗松 (Douglas-fir) 17367 556 7 矮盤灌叢 (Krummholz) 20510 589

合計 581012 4000

二、集集大地震引致山崩

台灣由於受地理與氣候響，水土災害一直是主要的天然災害。再加上多處山坡地過度開發，往往在地震發生時帶來嚴重的山崩及土石鬆動，造成嚴重的土石崩塌災害發生。1999 年 9 月 21 日於台灣中部發生芮氏規模 7.3 的地震，而此次地震亦獲得大量的坡地破壞資料及地震紀錄，可供學者們進行地震對山崩影響的研究。

本例題資料來自文獻[12]所提供的 60000 筆資料。首先隨機抽樣山崩、未山崩各2000 筆樣本，做為本研究的數據。再隨機取 3200 筆為訓練範例，800 筆樣本為驗證範例。本研究有15 個輸入變數，如表 4-4。

表 4 - 4 輸入變數表

編號變數名稱編號變數名稱

1 高程 9 垂直地表加速度

2 坡向 10 東西向地表加速度 3 坡度 11 南北向地表加速度 4 距離車籠埔斷層距離12 九格點之平均坡度

5 距離斷層破碎帶距離13 九格點之最大最小坡度差 6 距離道路距離 14 九格點之平均坡向

7 距水系距離 15 九格點之最大最小坡度差 8 距震央距離

三、垃圾郵件分類

本例題資料來自文獻[13]所提供的 SPAMBASE 資料集。在此資料集中，57 個文字特徵用來做為區分垃圾郵件與否的輸入變數，如表4-5。資料筆數共 4500 筆，其中39.4%為垃圾郵件。訓練範例 3600 筆、驗證範例 900 筆。

表 4 - 5 SPAMBASE 的欄位說明

編號意義屬性編號意義屬性

1 word_freq_make 連續 31 word_freq_telnet 連續 2 word_freq_address 連續 32 word_freq_857 連續 3 word_freq_all 連續 33 word_freq_data 連續 4 word_freq_3d 連續 34 word_freq_415 連續 5 word_freq_our 連續 35 word_freq_85 連續 6 word_freq_over 連續 36 word_freq_technology 連續 7 word_freq_remove 連續 37 word_freq_1999 連續 8 word_freq_internet 連續 38 word_freq_parts 連續 9 word_freq_order 連續 39 word_freq_pm 連續 10 word_freq_mail 連續 40 word_freq_direct 連續 11 word_freq_receive 連續 41 word_freq_cs 連續 12 word_freq_will 連續 42 word_freq_meeting 連續 13 word_freq_people 連續 43 word_freq_original 連續 14 word_freq_report 連續 44 word_freq_project 連續 15 word_freq_addresses 連續 45 word_freq_re 連續 16 word_freq_free 連續 46 word_freq_edu 連續 17 word_freq_business 連續 47 word_freq_table 連續 18 word_freq_email 連續 48 word_freq_conference 連續 19 word_freq_you 連續 49 char_freq_; 連續 20 word_freq_credit 連續 50 char_freq_( 連續 21 word_freq_your 連續 51 char_freq_[ 連續 22 word_freq_font 連續 52 char_freq_! 連續 23 word_freq_000 連續 53 char_freq_$ 連續 24 word_freq_money 連續 54 char_freq_# 連續 25 word_freq_hp 連續 55 capital_run_length_average 連續 26 word_freq_hpl 連續 56 capital_run_length_longest 連續 27 word_freq_george 連續 57 capital_run_length_total 連續

28 word_freq_650 連續連續

29 word_freq_lab 連續 30 word_freq_labs 連續

四、風險房貸顧客評估

銀行傳統上主要的應收源自於存放款間的利差。近年來，由於金融的自由化，產品的設計逐漸趨向多元化，因此銀行的獲利來源愈來愈多。但對銀行而言，

與客戶往來之任何交易皆面臨許多風險危機之本質不變；如信用風險、市場風險、作業風險、利率風險等。

本例題資料來自文獻[14]。在此資料集中，16 個客戶屬性用來做為預測指數型房貸申請人是否會違約的輸入變數，如表4-6。資料筆數共 3000 筆，其中違約件數佔9.7%。訓練範例 1500 筆、驗證範例 1500 筆。

表 4 - 6 風險房貸顧客評估變數表

No 變數名稱型態變數說明用途

1 年齡連續年齡自變數

2 目前工作年資連續目前工作年資自變數

3 教育程度等級教育程度自變數

4 性別二元 1=男 2=女自變數

5 婚姻狀況離散婚姻狀況自變數

6 子女數目連續子女數目自變數

7 負債整合或房屋修繕離散 1=負債整合 2=房屋修繕自變數

8 申請金額連續申請金額自變數

9 現存抵押貸款之到期金額/月連續現存抵押貸款之到期金額/月自變數 10 財產價值(車子、房子…) 連續財產價值(車子、房子…) 自變數

11 負債/所得比連續負債/所得比自變數

12 授信(放款)筆數連續授信(放款)筆數自變數 13 最長授信期間/月連續最長授信期間/月自變數

14 延遲筆數連續延遲筆數自變數

15 退票次數連續退票次數自變數

16 被信用查詢次數連續被信用查詢次數自變數

五、潛在貸款客戶發掘

一家銀行提供貸款產品供中小企業公司客戶借貸。這家銀行希望根據歷史資料來建立一個模型，以預測那些客戶會想借貸。實驗資料來自文獻[15]的 SME(Small Medium Enterprise)客戶研究資料庫。SME 資料庫包含 22 個客戶屬性 (21 個數值屬性、1 個類別屬性)，變數說明如表 4-7。資料總筆數 32681 筆，其中「SME 客戶」有 738 筆，「非 SME 客戶」有 31943 筆。「SME 客戶」只佔全部資料的2.3%。因為二類資料極不平衡，在此將 738 筆「SME 客戶」全部取出，

再從31943 筆「非 SME 客戶」中，以亂數取資料組成 1500 筆資料，形成一個二個分類的比例大約各50%的分類問題，其中訓練資料 1000 筆，測試資料 500 筆。

表 4 - 7 潛在貸款客戶發掘變數表

變數名稱變數說明用途

1 ck 是否有支存自變數

2 ck-saveall 支存存入總金額(一年) 自變數 3 ck-drawall 支存提領總金額(一年) 自變數 4 ck-savetime 支存存入總次數(一年) 自變數 5 ck-drawtime 支存提領總次數(一年) 自變數 6 ck-saveavg 支存平均每次存入金額(一年) 自變數 7 ck-drawavg 支存平均每次提領金額(一年) 自變數

8 ck-avg 支存平均餘額(半年) 自變數

9 dep-saveall 活期存入總金額(一年) 自變數 10 dep-drawall 活期提領總金額(一年) 自變數 11 dep-savetime 活期存入總次數(一年) 自變數 12 dep-drawtime 活期提領總次數(一年) 自變數 13 dep-saveavg 活期平均每次存入金額(一年) 自變數 14 dep-drawavg 活期平均每次提領金額(一年) 自變數 15 dep-avg 活期平均餘額(半年) 自變數 16 dep-9201 92 年一月存入活期金額自變數 17 fed-9201 92 年一月外幣月底餘額自變數 18 fed-avg 外幣平均餘額(一年) 自變數 19 ck-changame 支存交換票總金額(一年)(實際兌現的) 自變數 20 dep-changame 活存交換票總金額(一年)(實際兌現的) 自變數 21 ck-changtime 支存交換票總次數(一年)(實際兌現的) 自變數 22 dep-changtime 活存交換票總次數(一年)(實際兌現的) 自變數

VV 是否為SME 公司戶因變數

4-3. 應用實例結果

一、森林地表覆蓋分類

在此實例中參數取0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 10, 100 等九種值，其誤判率分別為22.98%, 23.04%, 22.33%, 22.21%, 23.14%, 25.00%, 27.24%, 43.45%, 51.67%，而 BPN 的誤判率為 22.48%，結果如圖 4-1。由圖 4-1 可知，在適當的 (0.01, 0.03)參數時，MRNN 比傳統的 BPN 誤判率低。

0.2 0.25 0.3 0.35 0.4 0.45 0.5

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 4-1 實例一的雜訊與參數與誤判率的關係

二、集集大地震引致山崩

在此實例中參數取0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 10, 100 等九種值，其誤判率分別為20.14%, 20.04%, 20.01%, 19.59%, 19.38%, 19.55%, 20.23%, 25.31%, 26.59%，而 BPN 的誤判率為 20.04%，結果如圖 4-2。由圖 4-2 可知，在適當的

(0.001, 0.01, 0.03, 0.1, 0.3)參數時，MRNN 比傳統的 BPN 誤判率略低一點點。

BPN

0.19 0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 4 - 2 實例二的雜訊與參數與誤判率的關係

三、垃圾郵件分類

在此實例中參數取0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 10, 100 等九種值，其誤判率分別為 4.91%, 4.98%, 5.03%, 5.06%, 5.07%, 5.71%, 7.49%, 14.89%, 33.11%，而 BPN 的誤判率為 4.93%，結果如圖 4-3。由圖 4-3 可知，在適當的 (0.001) 參數時，MRNN 比傳統的 BPN 誤判率略低一點點。

0.04 0.09 0.14 0.19 0.24 0.29 0.34

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 4 - 3 實例三的雜訊與參數與誤判率的關係

四、風險房貸顧客評估

BPN BPN

在此實例中參數取0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 10, 100 等九種值，其誤判率分別為6.77%, 6.74%, 6.74%, 6.72%, 6.65%, 6.53%, 7.24%, 9.05%, 9.70%，

而BPN 的誤判率為 6.75%，結果如圖 4-4。由圖 4-4 可知，在適當的 (0.003, 0.01, 0.03, 0.1, 0.3)參數時，MRNN 比傳統的 BPN 誤判率略低一點點。

0.06 0.065 0.07 0.075 0.08 0.085 0.09 0.095 0.1

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 4 - 4 實例四的雜訊與參數與誤判率的關係

五、潛在貸款客戶發掘

在此實例中參數取0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 10, 100 等九種值，其誤判率分別為15.7%, 15.6%, 15.6%, 15.3%, 15.7%, 15.6%, 16.0%, 22.8%, 36.0%，

而BPN 的誤判率為 15.8%，結果如圖 4-5。由圖 4-5 可知，在適當的 (0.001,0.003, 0.01, 0.03, 0.1, 0.3)參數時，MRNN 比傳統的 BPN 誤判率略低一點點。

BPN

0.15 0.2 0.25 0.3 0.35

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 4 - 5 實例五的雜訊與參數與誤判率的關係

4-4. 少量樣本之影響

為了再次驗證 MRNN 在少量樣本數，也有較傳統 BPN 較優的結果，將本章節的5 題應用實例，以原本 1/5、1/10、1/20 之訓練樣本作為研究。其結果如圖 4-6、4-7、4-8、4-9、4-10，詳細結果如下：

1. 在實例五 MRNN 在適當參數下，其誤判率只能與 BPN 相同。

2. 在實例一、實例二、實例三、實例四中，MRNN 參數取適當值下，其誤判率明顯比 BPN 低。

0.24 0.26 0.28 0.3 0.32 0.34 0.36 0.38 0.4 0.42

0.0001 0.001 0.01 0.1 1

Gamma Error Rate 1/5樣本

1/10樣本 1/20樣本

圖 4 - 6 實例一不同樣本的雜訊與參數與誤判率的關係

BPN

0.21 0.22 0.23 0.24 0.25 0.26

0.0001 0.001 0.01 0.1 1 10

Gamma

Error Rate

1/5樣本 1/10樣本 1/20樣本

圖 4 - 7 實例二不同樣本的雜訊與參數與誤判率的關係

0.068 0.078 0.088 0.098 0.108 0.118 0.128 0.138 0.148

0.0001 0.001 0.01 0.1 1 10

Gamma

Error Rate

1/5樣本 1/10樣本 1/20樣本

圖 4 - 8 實例三不同樣本的雜訊與參數與誤判率的關係

BPN

0.078 0.083 0.088 0.093 0.098

0.0001 0.001 0.01 0.1 1 10

Gamma

Error Rate

1/5樣本 1/10樣本 1/20樣本

圖 4 - 9 實例四不同樣本的雜訊與參數與誤判率的關係

0.13 0.18 0.23 0.28 0.33 0.38 0.43

0.0001 0.001 0.01 0.1 1

Gamma

Error Rate

1/5樣本 1/10樣本 1/20樣本

圖 4 - 10 實例五不同樣本的雜訊與參數與誤判率的關係

4-5. 結論

由上面五個應用實例歸納得下列結論：

1. 參數的影響：由應用實例一至五的結果可知，MRNN 在參數設定太小時，

其效果等同BPN；在參數設定太大時( 參數>1)，其效果比 BPN 還差；但在適當的參數時，其效果比BPN 還要佳。

2. 樣本數量的影響：將五個例題的大、小樣本數目下的結果整理表 4-8 與圖 4-11。可知在大樣本下，MRNN 只有例題二與例題四明顯比 BPN 佳；在小樣

BPN BPN

本下，MRNN 有例題二、例題三、例題四明顯比 BPN 佳。可見當樣本數目少時，MRNN 更能發揮其優勢。

表 4 - 8 樣本數目之影響比較表

大量樣本下誤判率% 少量樣本下誤判率%

(1/10 樣本數) 應用實例

BPN MRNN BPN MRNN 森林地表覆蓋分類(實例一) 22.5 22.2 30.2 30.1 集集大地震引致山崩實驗(實例二) 20.0 19.4 24.1 22.2

垃圾郵件分類(實例三) 4.9 4.9 8.2 7.5

風險房貸顧客評估(實例四) 6.8 6.5 9.0 8.4

潛在貸款客戶發掘(實例五) 15.8 15.3 16.5 16.5

0 5 10 15 20 25 30 35

實例一實例二實例三實例四實例五

應用實例

誤判率%

大量樣本下BPN 大量樣本下MRNN 小量樣本下BPN 小量樣本下MRNN

圖 4 - 11 樣本數目之影響比較

在文檔中碩士論文中華大學 (頁 49-62)