• 沒有找到結果。

實例分析

在文檔中 碩 士 論 文 中 華 大 學 (頁 49-62)

4-1. 前言

此章旨在比較BPN 與 MRNN 的預測能力與解釋能力。用來比較的例題包括 五個實際分類例題(參考表 4-1)。由於這些例題的特性不同,資料量的多寡不一,

其比較結果應具有不錯的參考價值。此外,為了避免網路的初始設定的影響,本 章的結果都是執行十次的平均值成果。本章第二節將簡略介紹五個實際分類例題 的特性。第三節以五個實際分類例題比較BPN 與 MRNN 的預測能力。第四節為 結論。

表 4 - 1 五個實際分類例題

應用實例 自變數

數目

分類 數目

範例 數目

訓練範例 數目

測試範例 數目 森林地表覆蓋分類(實例一) 14 7 4000 3000 1000 集集大地震引致山崩實驗(實例二) 15 2 4000 3200 800 垃圾郵件分類(實例三) 57 2 4500 3600 900 風險房貸顧客評估(實例四) 16 2 3000 1500 1500 潛在貸款客戶發掘(實例五) 22 2 1500 1000 500

4-2. 應用實例介紹

一、森林地表覆蓋分類

本例題來自文獻[11]。在此資料集中,森林被分割30 30公尺的格子,其實 際森林覆蓋類型是由美國森林服務署(USFS) Region 2 資源資訊系統(RIS)資料決 定。獨立變數是從美國地質調查署(USGS)與美國森林服務署(USFS)原始資料導 出。總共有54 個欄位資料,獨立變數包括 10 個定量連續變數,及 44 個定性二 元變數(4 個自然保護區和 40 種土壤類型)。其中 40 個用來表示土壤分類類型的 二元變數,因其數量龐大,但對分類的影響很小,本研究將其捨去,只取其餘 14 個變數,如表 4-2 所示。原始資料共有 58 萬(581012)筆資料,有七種覆蓋類

的資料數目接近,故實際上只用4000 筆,各覆蓋類型的資料數目如表 4-3。其中 3000 筆做為訓練範例,1000 筆做為測試範例。

表 4 - 2 森林地表覆蓋類型實例的輸入變數

變數名稱 資料型態 單位

X1=高程 連續變數 公尺

X2=方位 連續變數 度

X3=坡度 連續變數 度

X4=對水體水平距離 連續變數 公尺

X5=對水體垂直距離 連續變數 公尺

X6=對道路水平距離 連續變數 公尺

X7=上午九點陰影 連續變數 0 to 255

X8=中午陰影 連續變數 0 to 255

X9=下午三點陰影 連續變數 0 to 255

X10=對火點距離 連續變數 公尺

X11= Rawah Wilderness 荒野區 二元變數 0/1 X12= Neota Wilderness 荒野區 二元變數 0/1

X13= Comanche Peak 荒野區 二元變數 0/1

X14= Cache la Poudre 荒野區 二元變數 0/1

表 4 - 3 各覆蓋類型的資料數目

編號 覆蓋類型 原始數目 採用數目

1 雲杉木 (Spruce-Fir) 211840 580 2 海灘松樹 ( Lodgepole Pine) 283301 557 3 美國黃松木 (Ponderosa Pine) 35754 551 4 楊樹/柳樹 (Cottonwood/Willow) 2747 560

5 白楊樹 (Aspen) 9493 607

6 花旗松 (Douglas-fir) 17367 556 7 矮盤灌叢 (Krummholz) 20510 589

合計 581012 4000

二、集集大地震引致山崩

台灣由於受地理與氣候響,水土災害一直是主要的天然災害。再加上多處山 坡地過度開發,往往在地震發生時帶來嚴重的山崩及土石鬆動,造成嚴重的土石 崩塌災害發生。1999 年 9 月 21 日於台灣中部發生芮氏規模 7.3 的地震,而此次 地震亦獲得大量的坡地破壞資料及地震紀錄,可供學者們進行地震對山崩影響的 研究。

本例題資料來自文獻[12]所提供的 60000 筆資料。首先隨機抽樣山崩、未山 崩各2000 筆樣本,做為本研究的數據。再隨機取 3200 筆為訓練範例,800 筆樣 本為驗證範例。本研究有15 個輸入變數,如表 4-4。

表 4 - 4 輸入變數表

編號 變數名稱 編號 變數名稱

1 高程 9 垂直地表加速度

2 坡向 10 東西向地表加速度 3 坡度 11 南北向地表加速度 4 距離車籠埔斷層距離12 九格點之平均坡度

5 距離斷層破碎帶距離13 九格點之最大最小坡度差 6 距離道路距離 14 九格點之平均坡向

7 距水系距離 15 九格點之最大最小坡度差 8 距震央距離

三、垃圾郵件分類

本例題資料來自文獻[13]所提供的 SPAMBASE 資料集。在此資料集中,57 個文字特徵用來做為區分垃圾郵件與否的輸入變數,如表4-5。資料筆數共 4500 筆,其中39.4%為垃圾郵件。訓練範例 3600 筆、驗證範例 900 筆。

表 4 - 5 SPAMBASE 的欄位說明

編號 意義 屬性 編號 意義 屬性

1 word_freq_make 連續 31 word_freq_telnet 連續 2 word_freq_address 連續 32 word_freq_857 連續 3 word_freq_all 連續 33 word_freq_data 連續 4 word_freq_3d 連續 34 word_freq_415 連續 5 word_freq_our 連續 35 word_freq_85 連續 6 word_freq_over 連續 36 word_freq_technology 連續 7 word_freq_remove 連續 37 word_freq_1999 連續 8 word_freq_internet 連續 38 word_freq_parts 連續 9 word_freq_order 連續 39 word_freq_pm 連續 10 word_freq_mail 連續 40 word_freq_direct 連續 11 word_freq_receive 連續 41 word_freq_cs 連續 12 word_freq_will 連續 42 word_freq_meeting 連續 13 word_freq_people 連續 43 word_freq_original 連續 14 word_freq_report 連續 44 word_freq_project 連續 15 word_freq_addresses 連續 45 word_freq_re 連續 16 word_freq_free 連續 46 word_freq_edu 連續 17 word_freq_business 連續 47 word_freq_table 連續 18 word_freq_email 連續 48 word_freq_conference 連續 19 word_freq_you 連續 49 char_freq_; 連續 20 word_freq_credit 連續 50 char_freq_( 連續 21 word_freq_your 連續 51 char_freq_[ 連續 22 word_freq_font 連續 52 char_freq_! 連續 23 word_freq_000 連續 53 char_freq_$ 連續 24 word_freq_money 連續 54 char_freq_# 連續 25 word_freq_hp 連續 55 capital_run_length_average 連續 26 word_freq_hpl 連續 56 capital_run_length_longest 連續 27 word_freq_george 連續 57 capital_run_length_total 連續

28 word_freq_650 連續 連續

29 word_freq_lab 連續 30 word_freq_labs 連續

四、風險房貸顧客評估

銀行傳統上主要的應收源自於存放款間的利差。近年來,由於金融的自由 化,產品的設計逐漸趨向多元化,因此銀行的獲利來源愈來愈多。但對銀行而言,

與客戶往來之任何交易皆面臨許多風險危機之本質不變;如信用風險、市場風 險、作業風險、利率風險等。

本例題資料來自文獻[14]。在此資料集中,16 個客戶屬性用來做為預測指數 型房貸申請人是否會違約的輸入變數,如表4-6。資料筆數共 3000 筆,其中違約 件數佔9.7%。訓練範例 1500 筆、驗證範例 1500 筆。

表 4 - 6 風險房貸顧客評估變數表

No 變數名稱 型態 變數說明 用途

1 年齡 連續 年齡 自變數

2 目前工作年資 連續 目前工作年資 自變數

3 教育程度 等級 教育程度 自變數

4 性別 二元 1=男 2=女 自變數

5 婚姻狀況 離散 婚姻狀況 自變數

6 子女數目 連續 子女數目 自變數

7 負債整合或房屋修繕 離散 1=負債整合 2=房屋修繕 自變數

8 申請金額 連續 申請金額 自變數

9 現存抵押貸款之到期金額/月 連續 現存抵押貸款之到期金額/月 自變數 10 財產價值(車子、房子…) 連續 財產價值(車子、房子…) 自變數

11 負債/所得比 連續 負債/所得比 自變數

12 授信(放款)筆數 連續 授信(放款)筆數 自變數 13 最長授信期間/月 連續 最長授信期間/月 自變數

14 延遲筆數 連續 延遲筆數 自變數

15 退票次數 連續 退票次數 自變數

16 被信用查詢次數 連續 被信用查詢次數 自變數

五、潛在貸款客戶發掘

一家銀行提供貸款產品供中小企業公司客戶借貸。這家銀行希望根據歷史資 料 來 建 立 一 個 模 型 ,以 預 測 那 些客戶會想借貸。實驗資料來自文獻[15]的 SME(Small Medium Enterprise)客戶研究資料庫。SME 資料庫包含 22 個客戶屬性 (21 個數值屬性、1 個類別屬性),變數說明如表 4-7。資料總筆數 32681 筆,其 中「SME 客戶」有 738 筆,「非 SME 客戶」有 31943 筆。「SME 客戶」只佔全 部資料的2.3%。因為二類資料極不平衡,在此將 738 筆「SME 客戶」全部取出,

再從31943 筆「非 SME 客戶」中,以亂數取資料組成 1500 筆資料,形成一個二 個分類的比例大約各50%的分類問題,其中訓練資料 1000 筆,測試資料 500 筆。

表 4 - 7 潛在貸款客戶發掘變數表

變數名稱 變數說明 用途

1 ck 是否有支存 自變數

2 ck-saveall 支存存入總金額(一年) 自變數 3 ck-drawall 支存提領總金額(一年) 自變數 4 ck-savetime 支存存入總次數(一年) 自變數 5 ck-drawtime 支存提領總次數(一年) 自變數 6 ck-saveavg 支存平均每次存入金額(一年) 自變數 7 ck-drawavg 支存平均每次提領金額(一年) 自變數

8 ck-avg 支存平均餘額(半年) 自變數

9 dep-saveall 活期存入總金額(一年) 自變數 10 dep-drawall 活期提領總金額(一年) 自變數 11 dep-savetime 活期存入總次數(一年) 自變數 12 dep-drawtime 活期提領總次數(一年) 自變數 13 dep-saveavg 活期平均每次存入金額(一年) 自變數 14 dep-drawavg 活期平均每次提領金額(一年) 自變數 15 dep-avg 活期平均餘額(半年) 自變數 16 dep-9201 92 年一月存入活期金額 自變數 17 fed-9201 92 年一月外幣月底餘額 自變數 18 fed-avg 外幣平均餘額(一年) 自變數 19 ck-changame 支存交換票總金額(一年)(實際兌現的) 自變數 20 dep-changame 活存交換票總金額(一年)(實際兌現的) 自變數 21 ck-changtime 支存交換票總次數(一年)(實際兌現的) 自變數 22 dep-changtime 活存交換票總次數(一年)(實際兌現的) 自變數

VV 是否為SME 公司戶 因變數

4-3. 應用實例結果

一、森林地表覆蓋分類

在此實例中參數 取0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 10, 100 等九種值,其 誤判率分別為22.98%, 23.04%, 22.33%, 22.21%, 23.14%, 25.00%, 27.24%, 43.45%, 51.67%,而 BPN 的誤判率為 22.48%,結果如圖 4-1。由圖 4-1 可知,在適當的 (0.01, 0.03)參數時,MRNN 比傳統的 BPN 誤判率低。

0.2 0.25 0.3 0.35 0.4 0.45 0.5

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 4-1 實例一的雜訊與 參數與誤判率的關係

二、集集大地震引致山崩

在此實例中參數 取0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 10, 100 等九種值,其 誤判率分別為20.14%, 20.04%, 20.01%, 19.59%, 19.38%, 19.55%, 20.23%, 25.31%, 26.59%,而 BPN 的誤判率為 20.04%,結果如圖 4-2。由圖 4-2 可知,在適當的

(0.001, 0.01, 0.03, 0.1, 0.3)參數時,MRNN 比傳統的 BPN 誤判率略低一點點。

BPN

0.19 0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 4 - 2 實例二的雜訊與 參數與誤判率的關係

三、垃圾郵件分類

在此實例中參數 取0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 10, 100 等九種值,其 誤 判 率 分 別 為 4.91%, 4.98%, 5.03%, 5.06%, 5.07%, 5.71%, 7.49%, 14.89%, 33.11%,而 BPN 的誤判率為 4.93%,結果如圖 4-3。由圖 4-3 可知,在適當的 (0.001) 參數時,MRNN 比傳統的 BPN 誤判率略低一點點。

0.04 0.09 0.14 0.19 0.24 0.29 0.34

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 4 - 3 實例三的雜訊與 參數與誤判率的關係

四、風險房貸顧客評估

BPN BPN

在此實例中參數 取0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 10, 100 等九種值,其 誤判率分別為6.77%, 6.74%, 6.74%, 6.72%, 6.65%, 6.53%, 7.24%, 9.05%, 9.70%,

而BPN 的誤判率為 6.75%,結果如圖 4-4。由圖 4-4 可知,在適當的 (0.003, 0.01, 0.03, 0.1, 0.3)參數時,MRNN 比傳統的 BPN 誤判率略低一點點。

0.06 0.065 0.07 0.075 0.08 0.085 0.09 0.095 0.1

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 4 - 4 實例四的雜訊與 參數與誤判率的關係

五、潛在貸款客戶發掘

在此實例中參數 取0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 10, 100 等九種值,其 誤判率分別為15.7%, 15.6%, 15.6%, 15.3%, 15.7%, 15.6%, 16.0%, 22.8%, 36.0%,

而BPN 的誤判率為 15.8%,結果如圖 4-5。由圖 4-5 可知,在適當的 (0.001,0.003, 0.01, 0.03, 0.1, 0.3)參數時,MRNN 比傳統的 BPN 誤判率略低一點點。

BPN

0.15 0.2 0.25 0.3 0.35

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 4 - 5 實例五的雜訊與 參數與誤判率的關係

4-4. 少量樣本之影響

為了再次驗證 MRNN 在少量樣本數,也有較傳統 BPN 較優的結果,將本 章節的5 題應用實例,以原本 1/5、1/10、1/20 之訓練樣本作為研究。其結果如 圖 4-6、4-7、4-8、4-9、4-10,詳細結果如下:

1. 在實例五 MRNN 在適當參數 下,其誤判率只能與 BPN 相同。

2. 在實例一、實例二、實例三、實例四中,MRNN 參數 取適當值下,其誤判 率明顯比 BPN 低。

0.24 0.26 0.28 0.3 0.32 0.34 0.36 0.38 0.4 0.42

0.0001 0.001 0.01 0.1 1

Gamma Error Rate 1/5樣本

1/10樣本 1/20樣本

圖 4 - 6 實例一不同樣本的雜訊與 參數與誤判率的關係

BPN

BPN

0.21 0.22 0.23 0.24 0.25 0.26

0.0001 0.001 0.01 0.1 1 10

Gamma

Error Rate

1/5樣本 1/10樣本 1/20樣本

圖 4 - 7 實例二不同樣本的雜訊與 參數與誤判率的關係

0.068 0.078 0.088 0.098 0.108 0.118 0.128 0.138 0.148

0.0001 0.001 0.01 0.1 1 10

Gamma

Error Rate

1/5樣本 1/10樣本 1/20樣本

圖 4 - 8 實例三不同樣本的雜訊與 參數與誤判率的關係

BPN

BPN

0.078 0.083 0.088 0.093 0.098

0.0001 0.001 0.01 0.1 1 10

Gamma

Error Rate

1/5樣本 1/10樣本 1/20樣本

圖 4 - 9 實例四不同樣本的雜訊與 參數與誤判率的關係

0.13 0.18 0.23 0.28 0.33 0.38 0.43

0.0001 0.001 0.01 0.1 1

Gamma

Error Rate

1/5樣本 1/10樣本 1/20樣本

圖 4 - 10 實例五不同樣本的雜訊與 參數與誤判率的關係

4-5. 結論

由上面五個應用實例歸納得下列結論:

1. 參數的影響:由應用實例一至五的結果可知,MRNN 在 參數設定太小時,

其效果等同BPN;在 參數設定太大時( 參數>1),其效果比 BPN 還差;但 在適當的 參數時,其效果比BPN 還要佳。

2. 樣本數量的影響:將五個例題的大、小樣本數目下的結果整理表 4-8 與圖 4-11。可知在大樣本下,MRNN 只有例題二與例題四明顯比 BPN 佳;在小樣

BPN BPN

本下,MRNN 有例題二、例題三、例題四明顯比 BPN 佳。可見當樣本數目少 時,MRNN 更能發揮其優勢。

表 4 - 8 樣本數目之影響比較表

大量樣本下誤判率% 少量樣本下誤判率%

(1/10 樣本數) 應用實例

BPN MRNN BPN MRNN 森林地表覆蓋分類(實例一) 22.5 22.2 30.2 30.1 集集大地震引致山崩實驗(實例二) 20.0 19.4 24.1 22.2

垃圾郵件分類(實例三) 4.9 4.9 8.2 7.5

風險房貸顧客評估(實例四) 6.8 6.5 9.0 8.4

潛在貸款客戶發掘(實例五) 15.8 15.3 16.5 16.5

0 5 10 15 20 25 30 35

實例一 實例二 實例三 實例四 實例五

應用實例

誤判率%

大量樣本下BPN 大量樣本下MRNN 小量樣本下BPN 小量樣本下MRNN

圖 4 - 11 樣本數目之影響比較

在文檔中 碩 士 論 文 中 華 大 學 (頁 49-62)

相關文件