• 沒有找到結果。

4-1 前言

此章旨在比較MEPNN 與 BPN 的預測能力與解釋能力。用來比較的例題包 括三個人為迴歸數值例題與三個人為分類數值例題、十個實際分類例題(參考表 4-1)。由於這些例題的特性不同,資料量的多寡不一,其比較結果應具有不錯的 參考價值。

表4-1 十個實際分類例題

應用實例 自變數

數目 分類 數目

範例 數目

訓練範例 數目

測試範例 數目 森林地表覆蓋分類(實例一) 14 7 4000 3000 1000 健身中心會員開發(實例二) 15 2 1200 960 240 休旅車潛在顧客開發(實例三) 30 2 400 320 80 汽車保險潛在顧開發(實例四) 7 2 700 560 140 集集大地震引致山崩實驗(實例五) 15 2 4000 3200 800 遙測影像分類(實例六) 36 6 6000 4800 1200 垃圾郵件分類(實例七) 57 2 4500 3600 900 風險房貸顧客評估(實例八) 16 2 3000 1500 1500 面板瑕疵判斷(實例九) 9 2 2954 2000 954 潛在貸款客戶發掘(實例十) 22 2 1500 1000 500

本章第二節將簡略介紹十個實際分類例題的特性。第三節比較 MEPNN 與 BPN 的預測能力。第四節提出改善 MEPNN 解釋能力的方法。第五節比較 MEPNN 與BPN 的解釋能力。第六節為結論。

4-2 應用實例介紹

4-2-1 森林地表覆蓋分類

本例題來自文獻[1]。相關詳細內容如本文第二章的應用實例介紹。

4-2-2 健身中心會員開發

一家健身中心為發掘潛在顧客[16],作了一個問卷調查,調查項目包括15 項,問卷內容如下表4-2。本案例得到1228筆有效問卷,其中「會員」數量為672 筆,占總數約54.7%,「非會員」數量為556筆,占總數約45.3%。

表4-2 健身中心會員開發之輸入變數

輸入變數 意義 值域

X1 瑜珈 常從事瑜珈運動 0=非;1=是 X2 重量訓練 常從事重量訓練運動 0=非;1=是 X3 有氧舞蹈 常從事有氧舞蹈運動 0=非;1=是 X4 有固定 有固定從事運動的習慣 0=非;1=是 X5 無固定 無固定從事運動的習慣 0=非;1=是 X6 運動次數 平均每週從事運動次數

1=一次以下;2=一次;3=兩次;4=

三次;5=四次;6=五次;7=六次;

8=七次;9=八次(含八次)以上 X7 運動時間 平均每次從事運動時間

1=一小時(含)以下;2=一小時~兩小 時(含);3=兩小時~三小時(含);4=

三小時(含)以上

X8 運動時段 通常從事運動的時段 1=清晨;2=上午;3=中午;4=下午;

5=夜間 X9 到達時間 通常到達從事運動的地點

約須用時間

1=10 分鐘(含)以下;2=11~30 分 鐘;3=31~60 分鐘;4=60 分鐘以上 X10 訊息地點 通常由何處獲得運動相關

的活動訊息

1=電視 2=報章雜誌 3=網路 4=廣 播 5=親朋好友 6=其他

X11 訊息內容 希望獲得運動之相關訊息 1=體適能;2=國內外賽事;3=運動 指導;4=運動與健康;5=其他

X12 學年 學年 填入實際數值

X13 學院 學院 1=工學院;2=建築學院;3=管理學

院;4=人文社會學院

X14 性別 性別 1=男性;2=女性

X15 年齡 年齡 填入實際數值

4-2-3 休旅車潛在顧客開發

一家休旅車廠商為發掘潛在顧客[5],作了一個問卷調查,調查項目包括 31 項,問卷內容如下表4-3。前 30 個問卷項目在了解顧客的態度,以 1 表完全不同 意,9 表完全同意。最後一題則詢問顧客的購車意願。

表4-3 休旅車潛在顧客開發之輸入變數

輸入變數 值域

X1= 我是在非常好的生理情況 1~9

X2= 當我必須選擇在二者之間, 我穿戴為時尚, 不為舒適 1~9 X3= 我比大多數我的朋友有更加時髦的衣裳 1~9 X4= 我想要看起來有一點與其他人不同 1~9 X5= 生命太短以至於不能不採取一些賭博 1~9

X6= 我不關注臭氧層 1~9

X7= 我認為政府做太多對於控制汙染 1~9

X8= 基本上, 現今社會是好的 1~9

X9= 我沒有時間為慈善做義工 1~9

X10=我們的家庭現今在債務不是太沉重 1~9

X11=我喜歡付現金對一切我買的 1~9

X12=我喜歡在今天花費而讓明天隨它去 1~9 X13=我使用信用卡因為我可以慢慢地支付票據 1~9

X14=當我購物時我很少使用優惠券 1~9

X15=利率是低到足以讓我買我想要的 1~9

X16=我比大多數我的朋友有更多自信 1~9

X17=我喜歡被認為是領導者 1~9

X18=其他人經常要求我幫助他們弄出果醬 1~9

X19=孩子是在婚姻中最重要的東西 1~9

X20=我寧可在家度過一個安靜的晚上比起出去宴會 1~9 X21=外國製造的汽車無法和美國製造的汽車相比 1~9 X22=政府應該限制來自日本的產品的進口 1~9

X23=美國人應該總是設法買美國產品 1~9

X24=我希望去全世界旅行 1~9

X25=我願我能離開現今的生活並做完全不同的事 1~9 X26=我通常是嘗試一項新產品的最早的人之一 1~9

X27=我喜歡努力工作和努力玩樂 1~9

X28=多疑的預言通常是錯誤的 1~9

X29=我能做任何我決心做的事 1~9

X30=從現在起五年我的收入比現在多很多 1~9

Y=我會考慮買 Land Rover 製造的「發現者」 0=非 1=是

4-2-4 汽車保險潛顧客開發

本例題來自COIL2000 競賽題目[12],其中共有 5822 筆顧客紀錄,每筆紀錄 包含86 個變數,變數 1~43 為人口統計資料,包含教育程度、收入、工作類型等;

44~85 為保險產品資料,包含顧客所購買的其他保險以及是否有出險紀錄等;變 數86 為是否購買汽車保險,為輸出變數。

經過簡單的分析發現有7 個自變數的影響較大,如表 4-4,故本研究只取這 7 個為輸入變數。此外,原數據中輸出變數的部分,紀錄為 1 者(會購買汽車保險) 僅有348 筆,而紀錄為 0 者(不會購買汽車保險)則有 5474 筆,因數量差異過大,

故保留所有紀錄為1 者,再從紀錄為 0 者中隨機挑選出 352 筆,最後將兩者合併。

因此,本例題所用之數據為700 筆。

表4-4 篩選後的變數

變數 變數內容 變數型態

X1(第 18 項) 低教育水準 連續值:0~9 X2(第 22 項) 中階管理人 連續值:0~9 X3(第 47 項) 汽車保險金額 連續值:0~9 X4(第 64 項) 社會安全保險金額 連續值:0~9 X5(第 65 項) 第三責任險保單數目 連續值:1~12 X6(第 68 項) 汽車保險保單 連續值:0~2 X7(第 82 項) 船艇保險保單 連續值:0~2 輸出變數 是否購買汽車保險 離散值:{0,1}

4-2-5 集集大地震引致山崩

台灣由於受地理與氣候響,水土災害一直是主要的天然災害。再加上多處山 坡地過度開發,往往在地震發生時帶來嚴重的山崩及土石鬆動,造成嚴重的土石 崩塌災害發生。1999 年 9 月 21 日於台灣中部發生芮氏規模 7.3 的地震,而此次 地震亦獲得大量的坡地破壞資料及地震紀錄,可供學者們進行地震對山崩影響的 研究。

本例題資料來自文獻[19]所提供的 60000 筆資料。首先隨機抽樣山崩、未山 崩各2000 筆樣本,做為本研究的數據。再隨機取 3200 筆為訓練範例,800 筆樣 本為驗證範例。本研究有15 個輸入變數,如表 4-5。

表4-5 輸入變數表

編號 變數名稱 編號 變數名稱

1 高程 9 垂直地表加速度

2 坡向 10 東西向地表加速度

3 坡度 11 南北向地表加速度

4 距離車籠埔斷層距離12 九格點之平均坡度

5 距離斷層破碎帶距離13 九格點之最大最小坡度差 6 距離道路距離 14 九格點之平均坡向

7 距水系距離 15 九格點之最大最小坡度差 8 距震央距離

4-2-6 遙測影像分類

在此資料集中,LANDSAT 衛星多光譜影像被用來進行地表覆蓋判釋[14]。

其中二個光譜在可見光(綠光段及紅光段),二個光譜在近紅外光段。每個像素採 8-bit,即 0 相對於黑;255 相對於白。每筆數據相對於一個像素的 3×3=9 鄰近像 素(參考下圖 4-1),因此每筆數據包含 9(像素)×4(光譜)=36 個光譜反射值。其中 X1~X4:左上角綠光、紅光、近紅光 1、近紅光 2 反射率;…;X33~X36:右下 角綠光、紅光、近紅光1、近紅光 2 反射率。此區域主要有六種覆蓋物,共計 6435 筆數據,其統計如表 4-6。

1 5 9 2 6 10 13 17 21 14 18 22 25 29 33 26 30 34 綠光區 紅光區 3 7 11 4 8 12 15 19 23 16 20 24 27 31 35 28 32 36 近紅光1 區 近紅光 2 區

圖4-1 光譜反射值

表4-6 區域覆蓋物 分類 全部範例 1 紅土 1533 (23.82%) 2 棉田 703 (10.92%) 3 灰土 1358(21.10%) 4 濕灰土 626 (9.73%) 5 矮植生地 707 (10.99%) 6 很濕灰土 1508 (23.43%)

4-2-7 垃圾郵件分類

本例題資料來自文獻[13]所提供的 SPAMBASE 資料集。在此資料集中,57 個文字特徵用來做為區分垃圾郵件與否的輸入變數,如表4-7。資料筆數共 4500 筆,其中39.4%為垃圾郵件。訓練範例 3600 筆、驗證範例 900 筆。

表4-7 SPAMBASE 的欄位說明

編號 意義 屬性 編號 意義 屬性

1 word_freq_make 連續 31 word_freq_telnet 連續 2 word_freq_address 連續 32 word_freq_857 連續 3 word_freq_all 連續 33 word_freq_data 連續 4 word_freq_3d 連續 34 word_freq_415 連續 5 word_freq_our 連續 35 word_freq_85 連續 6 word_freq_over 連續 36 word_freq_technology 連續 7 word_freq_remove 連續 37 word_freq_1999 連續 8 word_freq_internet 連續 38 word_freq_parts 連續 9 word_freq_order 連續 39 word_freq_pm 連續 10 word_freq_mail 連續 40 word_freq_direct 連續 11 word_freq_receive 連續 41 word_freq_cs 連續 12 word_freq_will 連續 42 word_freq_meeting 連續 13 word_freq_people 連續 43 word_freq_original 連續 14 word_freq_report 連續 44 word_freq_project 連續 15 word_freq_addresses 連續 45 word_freq_re 連續 16 word_freq_free 連續 46 word_freq_edu 連續 17 word_freq_business 連續 47 word_freq_table 連續 18 word_freq_email 連續 48 word_freq_conference 連續 19 word_freq_you 連續 49 char_freq_; 連續 20 word_freq_credit 連續 50 char_freq_( 連續 21 word_freq_your 連續 51 char_freq_[ 連續 22 word_freq_font 連續 52 char_freq_! 連續 23 word_freq_000 連續 53 char_freq_$ 連續 24 word_freq_money 連續 54 char_freq_# 連續 25 word_freq_hp 連續 55 capital_run_length_average 連續 26 word_freq_hpl 連續 56 capital_run_length_longest 連續 27 word_freq_george 連續 57 capital_run_length_total 連續 28 word_freq_650 連續

29 word_freq_lab 連續 30 word_freq_labs 連續

4-2-8 風險房貸顧客評估

銀行傳統上主要的應收源自於存放款間的利差。近年來,由於金融的自由 化,產品的設計逐漸趨向多元化,因此銀行的獲利來源愈來愈多。但對銀行而言,

與客戶往來之任何交易皆面臨許多風險危機之本質不變;如信用風險、市場風 險、作業風險、利率風險等。

本例題資料來自文獻[17]。在此資料集中,16 個客戶屬性用來做為預測指數 型房貸申請人是否會違約的輸入變數,如表4-8。資料筆數共 3000 筆,其中違約 件數佔9.7%。訓練範例 1500 筆、驗證範例 1500 筆。

表4-8 風險房貸顧客評估變數表

No 變數名稱 型態 變數說明 用途

1 年齡 連續 年齡 自變數

2 目前工作年資 連續 目前工作年資 自變數

3 教育程度 等級 教育程度 自變數

4 性別 二元 1=男 2=女 自變數

5 婚姻狀況 離散 婚姻狀況 自變數

6 子女數目 連續 子女數目 自變數

7 負債整合或房屋修繕 離散 1=負債整合 2=房屋修繕 自變數

8 申請金額 連續 申請金額 自變數

9 現存抵押貸款之到期金額/月 連續 現存抵押貸款之到期金額/月 自變數 10 財產價值(車子、房子…) 連續 財產價值(車子、房子…) 自變數

11 負債/所得比 連續 負債/所得比 自變數

12 授信(放款)筆數 連續 授信(放款)筆數 自變數 13 最長授信期間/月 連續 最長授信期間/月 自變數

14 延遲筆數 連續 延遲筆數 自變數

15 退票次數 連續 退票次數 自變數

16 被信用查詢次數 連續 被信用查詢次數 自變數

4-2-9 面板瑕疵判斷

在 TFT-LCD 製造過程中,基板或面板製造廠使用自動光學檢查設備(AOI) 來確保生產的產品品質,主要是使用CCD 判別面板上的斑點是否為瑕疵。一家 工廠希望根據人工檢測資料來建立一個模型,以偵測那些面板上的斑點是瑕疵 [4]。在其資料集中,包含 9 個斑點的特徵。資料總筆數 2954 筆,瑕疵者佔 16.9%。

其中2000 筆做為訓練範例,954 筆做為驗證範例。

4-2-10 潛在貸款客戶發掘

一家銀行提供貸款產品供中小企業公司戶客戶借貸。這家銀行希望根據歷史 資料來建立一個模型,以預測那些客戶會想借貸。實驗資料來自文獻[11]的 SME(Small Medium Enterprise)客戶研究資料庫。SME 資料庫包含 22 個客戶屬性 (21 個數值屬性、1 個類別屬性),變數說明如表 4-9。資料總筆數 32681 筆,其 中「SME 客戶」有 738 筆,「非 SME 客戶」有 31943 筆。「SME 客戶」只佔全 部資料的2.3%。因為二類資料極不平衡,在此將 738 筆「SME 客戶」全部取出,

再從31943 筆「非 SME 客戶」中,以亂數取資料組成 1500 筆資料,形成一個二 個分類的比例大約各50%的分類問題,其中訓練資料 1000 筆,測試資料 500 筆。

表4-9 潛在貸款客戶發掘變數表

變數名稱 變數說明 用途

1 ck 是否有支存 自變數

2 ck-saveall 支存存入總金額(一年) 自變數 3 ck-drawall 支存提領總金額(一年) 自變數 4 ck-savetime 支存存入總次數(一年) 自變數 5 ck-drawtime 支存提領總次數(一年) 自變數 6 ck-saveavg 支存平均每次存入金額(一年) 自變數 7 ck-drawavg 支存平均每次提領金額(一年) 自變數

8 ck-avg 支存平均餘額(半年) 自變數

9 dep-saveall 活期存入總金額(一年) 自變數 10 dep-drawall 活期提領總金額(一年) 自變數 11 dep-savetime 活期存入總次數(一年) 自變數 12 dep-drawtime 活期提領總次數(一年) 自變數 13 dep-saveavg 活期平均每次存入金額(一年) 自變數 14 dep-drawavg 活期平均每次提領金額(一年) 自變數 15 dep-avg 活期平均餘額(半年) 自變數 16 dep-9201 92 年一月存入活期金額 自變數 17 fed-9201 92 年一月外幣月底餘額 自變數 18 fed-avg 外幣平均餘額(一年) 自變數 19 ck-changame 支存交換票總金額(一年)(實際兌現的) 自變數 20 dep-changame 活存交換票總金額(一年)(實際兌現的) 自變數 21 ck-changtime 支存交換票總次數(一年)(實際兌現的) 自變數 22 dep-changtime 活存交換票總次數(一年)(實際兌現的) 自變數

VV 是否為SME 公司戶 因變數

相關文件