4-1 前言
此章旨在比較MEPNN 與 BPN 的預測能力與解釋能力。用來比較的例題包 括三個人為迴歸數值例題與三個人為分類數值例題、十個實際分類例題(參考表 4-1)。由於這些例題的特性不同,資料量的多寡不一,其比較結果應具有不錯的 參考價值。
表4-1 十個實際分類例題
應用實例 自變數
數目 分類 數目
範例 數目
訓練範例 數目
測試範例 數目 森林地表覆蓋分類(實例一) 14 7 4000 3000 1000 健身中心會員開發(實例二) 15 2 1200 960 240 休旅車潛在顧客開發(實例三) 30 2 400 320 80 汽車保險潛在顧開發(實例四) 7 2 700 560 140 集集大地震引致山崩實驗(實例五) 15 2 4000 3200 800 遙測影像分類(實例六) 36 6 6000 4800 1200 垃圾郵件分類(實例七) 57 2 4500 3600 900 風險房貸顧客評估(實例八) 16 2 3000 1500 1500 面板瑕疵判斷(實例九) 9 2 2954 2000 954 潛在貸款客戶發掘(實例十) 22 2 1500 1000 500
本章第二節將簡略介紹十個實際分類例題的特性。第三節比較 MEPNN 與 BPN 的預測能力。第四節提出改善 MEPNN 解釋能力的方法。第五節比較 MEPNN 與BPN 的解釋能力。第六節為結論。
4-2 應用實例介紹
4-2-1 森林地表覆蓋分類
本例題來自文獻[1]。相關詳細內容如本文第二章的應用實例介紹。
4-2-2 健身中心會員開發
一家健身中心為發掘潛在顧客[16],作了一個問卷調查,調查項目包括15 項,問卷內容如下表4-2。本案例得到1228筆有效問卷,其中「會員」數量為672 筆,占總數約54.7%,「非會員」數量為556筆,占總數約45.3%。
表4-2 健身中心會員開發之輸入變數
輸入變數 意義 值域
X1 瑜珈 常從事瑜珈運動 0=非;1=是 X2 重量訓練 常從事重量訓練運動 0=非;1=是 X3 有氧舞蹈 常從事有氧舞蹈運動 0=非;1=是 X4 有固定 有固定從事運動的習慣 0=非;1=是 X5 無固定 無固定從事運動的習慣 0=非;1=是 X6 運動次數 平均每週從事運動次數
1=一次以下;2=一次;3=兩次;4=
三次;5=四次;6=五次;7=六次;
8=七次;9=八次(含八次)以上 X7 運動時間 平均每次從事運動時間
1=一小時(含)以下;2=一小時~兩小 時(含);3=兩小時~三小時(含);4=
三小時(含)以上
X8 運動時段 通常從事運動的時段 1=清晨;2=上午;3=中午;4=下午;
5=夜間 X9 到達時間 通常到達從事運動的地點
約須用時間
1=10 分鐘(含)以下;2=11~30 分 鐘;3=31~60 分鐘;4=60 分鐘以上 X10 訊息地點 通常由何處獲得運動相關
的活動訊息
1=電視 2=報章雜誌 3=網路 4=廣 播 5=親朋好友 6=其他
X11 訊息內容 希望獲得運動之相關訊息 1=體適能;2=國內外賽事;3=運動 指導;4=運動與健康;5=其他
X12 學年 學年 填入實際數值
X13 學院 學院 1=工學院;2=建築學院;3=管理學
院;4=人文社會學院
X14 性別 性別 1=男性;2=女性
X15 年齡 年齡 填入實際數值
4-2-3 休旅車潛在顧客開發
一家休旅車廠商為發掘潛在顧客[5],作了一個問卷調查,調查項目包括 31 項,問卷內容如下表4-3。前 30 個問卷項目在了解顧客的態度,以 1 表完全不同 意,9 表完全同意。最後一題則詢問顧客的購車意願。
表4-3 休旅車潛在顧客開發之輸入變數
輸入變數 值域
X1= 我是在非常好的生理情況 1~9
X2= 當我必須選擇在二者之間, 我穿戴為時尚, 不為舒適 1~9 X3= 我比大多數我的朋友有更加時髦的衣裳 1~9 X4= 我想要看起來有一點與其他人不同 1~9 X5= 生命太短以至於不能不採取一些賭博 1~9
X6= 我不關注臭氧層 1~9
X7= 我認為政府做太多對於控制汙染 1~9
X8= 基本上, 現今社會是好的 1~9
X9= 我沒有時間為慈善做義工 1~9
X10=我們的家庭現今在債務不是太沉重 1~9
X11=我喜歡付現金對一切我買的 1~9
X12=我喜歡在今天花費而讓明天隨它去 1~9 X13=我使用信用卡因為我可以慢慢地支付票據 1~9
X14=當我購物時我很少使用優惠券 1~9
X15=利率是低到足以讓我買我想要的 1~9
X16=我比大多數我的朋友有更多自信 1~9
X17=我喜歡被認為是領導者 1~9
X18=其他人經常要求我幫助他們弄出果醬 1~9
X19=孩子是在婚姻中最重要的東西 1~9
X20=我寧可在家度過一個安靜的晚上比起出去宴會 1~9 X21=外國製造的汽車無法和美國製造的汽車相比 1~9 X22=政府應該限制來自日本的產品的進口 1~9
X23=美國人應該總是設法買美國產品 1~9
X24=我希望去全世界旅行 1~9
X25=我願我能離開現今的生活並做完全不同的事 1~9 X26=我通常是嘗試一項新產品的最早的人之一 1~9
X27=我喜歡努力工作和努力玩樂 1~9
X28=多疑的預言通常是錯誤的 1~9
X29=我能做任何我決心做的事 1~9
X30=從現在起五年我的收入比現在多很多 1~9
Y=我會考慮買 Land Rover 製造的「發現者」 0=非 1=是
4-2-4 汽車保險潛顧客開發
本例題來自COIL2000 競賽題目[12],其中共有 5822 筆顧客紀錄,每筆紀錄 包含86 個變數,變數 1~43 為人口統計資料,包含教育程度、收入、工作類型等;
44~85 為保險產品資料,包含顧客所購買的其他保險以及是否有出險紀錄等;變 數86 為是否購買汽車保險,為輸出變數。
經過簡單的分析發現有7 個自變數的影響較大,如表 4-4,故本研究只取這 7 個為輸入變數。此外,原數據中輸出變數的部分,紀錄為 1 者(會購買汽車保險) 僅有348 筆,而紀錄為 0 者(不會購買汽車保險)則有 5474 筆,因數量差異過大,
故保留所有紀錄為1 者,再從紀錄為 0 者中隨機挑選出 352 筆,最後將兩者合併。
因此,本例題所用之數據為700 筆。
表4-4 篩選後的變數
變數 變數內容 變數型態
X1(第 18 項) 低教育水準 連續值:0~9 X2(第 22 項) 中階管理人 連續值:0~9 X3(第 47 項) 汽車保險金額 連續值:0~9 X4(第 64 項) 社會安全保險金額 連續值:0~9 X5(第 65 項) 第三責任險保單數目 連續值:1~12 X6(第 68 項) 汽車保險保單 連續值:0~2 X7(第 82 項) 船艇保險保單 連續值:0~2 輸出變數 是否購買汽車保險 離散值:{0,1}
4-2-5 集集大地震引致山崩
台灣由於受地理與氣候響,水土災害一直是主要的天然災害。再加上多處山 坡地過度開發,往往在地震發生時帶來嚴重的山崩及土石鬆動,造成嚴重的土石 崩塌災害發生。1999 年 9 月 21 日於台灣中部發生芮氏規模 7.3 的地震,而此次 地震亦獲得大量的坡地破壞資料及地震紀錄,可供學者們進行地震對山崩影響的 研究。
本例題資料來自文獻[19]所提供的 60000 筆資料。首先隨機抽樣山崩、未山 崩各2000 筆樣本,做為本研究的數據。再隨機取 3200 筆為訓練範例,800 筆樣 本為驗證範例。本研究有15 個輸入變數,如表 4-5。
表4-5 輸入變數表
編號 變數名稱 編號 變數名稱
1 高程 9 垂直地表加速度
2 坡向 10 東西向地表加速度
3 坡度 11 南北向地表加速度
4 距離車籠埔斷層距離12 九格點之平均坡度
5 距離斷層破碎帶距離13 九格點之最大最小坡度差 6 距離道路距離 14 九格點之平均坡向
7 距水系距離 15 九格點之最大最小坡度差 8 距震央距離
4-2-6 遙測影像分類
在此資料集中,LANDSAT 衛星多光譜影像被用來進行地表覆蓋判釋[14]。
其中二個光譜在可見光(綠光段及紅光段),二個光譜在近紅外光段。每個像素採 8-bit,即 0 相對於黑;255 相對於白。每筆數據相對於一個像素的 3×3=9 鄰近像 素(參考下圖 4-1),因此每筆數據包含 9(像素)×4(光譜)=36 個光譜反射值。其中 X1~X4:左上角綠光、紅光、近紅光 1、近紅光 2 反射率;…;X33~X36:右下 角綠光、紅光、近紅光1、近紅光 2 反射率。此區域主要有六種覆蓋物,共計 6435 筆數據,其統計如表 4-6。
1 5 9 2 6 10 13 17 21 14 18 22 25 29 33 26 30 34 綠光區 紅光區 3 7 11 4 8 12 15 19 23 16 20 24 27 31 35 28 32 36 近紅光1 區 近紅光 2 區
圖4-1 光譜反射值
表4-6 區域覆蓋物 分類 全部範例 1 紅土 1533 (23.82%) 2 棉田 703 (10.92%) 3 灰土 1358(21.10%) 4 濕灰土 626 (9.73%) 5 矮植生地 707 (10.99%) 6 很濕灰土 1508 (23.43%)
4-2-7 垃圾郵件分類
本例題資料來自文獻[13]所提供的 SPAMBASE 資料集。在此資料集中,57 個文字特徵用來做為區分垃圾郵件與否的輸入變數,如表4-7。資料筆數共 4500 筆,其中39.4%為垃圾郵件。訓練範例 3600 筆、驗證範例 900 筆。
表4-7 SPAMBASE 的欄位說明
編號 意義 屬性 編號 意義 屬性
1 word_freq_make 連續 31 word_freq_telnet 連續 2 word_freq_address 連續 32 word_freq_857 連續 3 word_freq_all 連續 33 word_freq_data 連續 4 word_freq_3d 連續 34 word_freq_415 連續 5 word_freq_our 連續 35 word_freq_85 連續 6 word_freq_over 連續 36 word_freq_technology 連續 7 word_freq_remove 連續 37 word_freq_1999 連續 8 word_freq_internet 連續 38 word_freq_parts 連續 9 word_freq_order 連續 39 word_freq_pm 連續 10 word_freq_mail 連續 40 word_freq_direct 連續 11 word_freq_receive 連續 41 word_freq_cs 連續 12 word_freq_will 連續 42 word_freq_meeting 連續 13 word_freq_people 連續 43 word_freq_original 連續 14 word_freq_report 連續 44 word_freq_project 連續 15 word_freq_addresses 連續 45 word_freq_re 連續 16 word_freq_free 連續 46 word_freq_edu 連續 17 word_freq_business 連續 47 word_freq_table 連續 18 word_freq_email 連續 48 word_freq_conference 連續 19 word_freq_you 連續 49 char_freq_; 連續 20 word_freq_credit 連續 50 char_freq_( 連續 21 word_freq_your 連續 51 char_freq_[ 連續 22 word_freq_font 連續 52 char_freq_! 連續 23 word_freq_000 連續 53 char_freq_$ 連續 24 word_freq_money 連續 54 char_freq_# 連續 25 word_freq_hp 連續 55 capital_run_length_average 連續 26 word_freq_hpl 連續 56 capital_run_length_longest 連續 27 word_freq_george 連續 57 capital_run_length_total 連續 28 word_freq_650 連續
29 word_freq_lab 連續 30 word_freq_labs 連續
4-2-8 風險房貸顧客評估
銀行傳統上主要的應收源自於存放款間的利差。近年來,由於金融的自由 化,產品的設計逐漸趨向多元化,因此銀行的獲利來源愈來愈多。但對銀行而言,
與客戶往來之任何交易皆面臨許多風險危機之本質不變;如信用風險、市場風 險、作業風險、利率風險等。
本例題資料來自文獻[17]。在此資料集中,16 個客戶屬性用來做為預測指數 型房貸申請人是否會違約的輸入變數,如表4-8。資料筆數共 3000 筆,其中違約 件數佔9.7%。訓練範例 1500 筆、驗證範例 1500 筆。
表4-8 風險房貸顧客評估變數表
No 變數名稱 型態 變數說明 用途
1 年齡 連續 年齡 自變數
2 目前工作年資 連續 目前工作年資 自變數
3 教育程度 等級 教育程度 自變數
4 性別 二元 1=男 2=女 自變數
5 婚姻狀況 離散 婚姻狀況 自變數
6 子女數目 連續 子女數目 自變數
7 負債整合或房屋修繕 離散 1=負債整合 2=房屋修繕 自變數
8 申請金額 連續 申請金額 自變數
9 現存抵押貸款之到期金額/月 連續 現存抵押貸款之到期金額/月 自變數 10 財產價值(車子、房子…) 連續 財產價值(車子、房子…) 自變數
11 負債/所得比 連續 負債/所得比 自變數
12 授信(放款)筆數 連續 授信(放款)筆數 自變數 13 最長授信期間/月 連續 最長授信期間/月 自變數
14 延遲筆數 連續 延遲筆數 自變數
15 退票次數 連續 退票次數 自變數
16 被信用查詢次數 連續 被信用查詢次數 自變數
4-2-9 面板瑕疵判斷
在 TFT-LCD 製造過程中,基板或面板製造廠使用自動光學檢查設備(AOI) 來確保生產的產品品質,主要是使用CCD 判別面板上的斑點是否為瑕疵。一家 工廠希望根據人工檢測資料來建立一個模型,以偵測那些面板上的斑點是瑕疵 [4]。在其資料集中,包含 9 個斑點的特徵。資料總筆數 2954 筆,瑕疵者佔 16.9%。
其中2000 筆做為訓練範例,954 筆做為驗證範例。
4-2-10 潛在貸款客戶發掘
一家銀行提供貸款產品供中小企業公司戶客戶借貸。這家銀行希望根據歷史 資料來建立一個模型,以預測那些客戶會想借貸。實驗資料來自文獻[11]的 SME(Small Medium Enterprise)客戶研究資料庫。SME 資料庫包含 22 個客戶屬性 (21 個數值屬性、1 個類別屬性),變數說明如表 4-9。資料總筆數 32681 筆,其 中「SME 客戶」有 738 筆,「非 SME 客戶」有 31943 筆。「SME 客戶」只佔全 部資料的2.3%。因為二類資料極不平衡,在此將 738 筆「SME 客戶」全部取出,
再從31943 筆「非 SME 客戶」中,以亂數取資料組成 1500 筆資料,形成一個二 個分類的比例大約各50%的分類問題,其中訓練資料 1000 筆,測試資料 500 筆。
表4-9 潛在貸款客戶發掘變數表
變數名稱 變數說明 用途
1 ck 是否有支存 自變數
2 ck-saveall 支存存入總金額(一年) 自變數 3 ck-drawall 支存提領總金額(一年) 自變數 4 ck-savetime 支存存入總次數(一年) 自變數 5 ck-drawtime 支存提領總次數(一年) 自變數 6 ck-saveavg 支存平均每次存入金額(一年) 自變數 7 ck-drawavg 支存平均每次提領金額(一年) 自變數
8 ck-avg 支存平均餘額(半年) 自變數
9 dep-saveall 活期存入總金額(一年) 自變數 10 dep-drawall 活期提領總金額(一年) 自變數 11 dep-savetime 活期存入總次數(一年) 自變數 12 dep-drawtime 活期提領總次數(一年) 自變數 13 dep-saveavg 活期平均每次存入金額(一年) 自變數 14 dep-drawavg 活期平均每次提領金額(一年) 自變數 15 dep-avg 活期平均餘額(半年) 自變數 16 dep-9201 92 年一月存入活期金額 自變數 17 fed-9201 92 年一月外幣月底餘額 自變數 18 fed-avg 外幣平均餘額(一年) 自變數 19 ck-changame 支存交換票總金額(一年)(實際兌現的) 自變數 20 dep-changame 活存交換票總金額(一年)(實際兌現的) 自變數 21 ck-changtime 支存交換票總次數(一年)(實際兌現的) 自變數 22 dep-changtime 活存交換票總次數(一年)(實際兌現的) 自變數
VV 是否為SME 公司戶 因變數