分析比較 - 題目：橢圓空間機率神經網路

4-1 前言

此章旨在比較MEPNN 與 BPN 的預測能力與解釋能力。用來比較的例題包括三個人為迴歸數值例題與三個人為分類數值例題、十個實際分類例題(參考表 4-1)。由於這些例題的特性不同，資料量的多寡不一，其比較結果應具有不錯的參考價值。

表4-1 十個實際分類例題

應用實例 ^自變數

數目分類數目

範例數目

訓練範例數目

測試範例數目森林地表覆蓋分類(實例一) 14 7 4000 3000 1000 健身中心會員開發(實例二) 15 2 1200 960 240 休旅車潛在顧客開發(實例三) 30 2 400 320 80 汽車保險潛在顧開發(實例四) 7 2 700 560 140 集集大地震引致山崩實驗(實例五) 15 2 4000 3200 800 遙測影像分類(實例六) 36 6 6000 4800 1200 垃圾郵件分類(實例七) 57 2 4500 3600 900 風險房貸顧客評估(實例八) 16 2 3000 1500 1500 面板瑕疵判斷(實例九) 9 2 2954 2000 954 潛在貸款客戶發掘(實例十) 22 2 1500 1000 500

本章第二節將簡略介紹十個實際分類例題的特性。第三節比較 MEPNN 與 BPN 的預測能力。第四節提出改善 MEPNN 解釋能力的方法。第五節比較 MEPNN 與BPN 的解釋能力。第六節為結論。

4-2 應用實例介紹

4-2-1 森林地表覆蓋分類

本例題來自文獻[1]。相關詳細內容如本文第二章的應用實例介紹。

4-2-2 健身中心會員開發

一家健身中心為發掘潛在顧客[16]，作了一個問卷調查，調查項目包括15 項，問卷內容如下表4-2。本案例得到1228筆有效問卷，其中「會員」數量為672 筆，占總數約54.7%，「非會員」數量為556筆，占總數約45.3%。

表4-2 健身中心會員開發之輸入變數

輸入變數意義值域

X1 瑜珈常從事瑜珈運動 0=非；1=是 X2 重量訓練常從事重量訓練運動 0=非；1=是 X3 有氧舞蹈常從事有氧舞蹈運動 0=非；1=是 X4 有固定有固定從事運動的習慣 0=非；1=是 X5 無固定無固定從事運動的習慣 0=非；1=是 X6 運動次數平均每週從事運動次數

1=一次以下；2=一次；3=兩次；4=

三次；5=四次；6=五次；7=六次；

8=七次；9=八次(含八次)以上 X7 運動時間平均每次從事運動時間

1=一小時(含)以下；2=一小時～兩小時(含)；3=兩小時～三小時(含)；4=

三小時(含)以上

X8 運動時段通常從事運動的時段 1=清晨；2=上午；3=中午；4=下午；

5=夜間 X9 到達時間通常到達從事運動的地點

約須用時間

1=10 分鐘(含)以下；2=11～30 分鐘；3=31～60 分鐘；4=60 分鐘以上 X10 訊息地點通常由何處獲得運動相關

的活動訊息

1=電視 2=報章雜誌 3=網路 4=廣播 5=親朋好友 6=其他

X11 訊息內容希望獲得運動之相關訊息 1=體適能；2=國內外賽事；3=運動指導；4=運動與健康；5=其他

X12 學年學年填入實際數值

X13 學院學院 1=工學院；2=建築學院；3=管理學

院；4=人文社會學院

X14 性別性別 1=男性；2=女性

X15 年齡年齡填入實際數值

4-2-3 休旅車潛在顧客開發

一家休旅車廠商為發掘潛在顧客[5]，作了一個問卷調查，調查項目包括 31 項，問卷內容如下表4-3。前 30 個問卷項目在了解顧客的態度，以 1 表完全不同意，9 表完全同意。最後一題則詢問顧客的購車意願。

表4-3 休旅車潛在顧客開發之輸入變數

輸入變數值域

X1= 我是在非常好的生理情況 1~9

X2= 當我必須選擇在二者之間, 我穿戴為時尚, 不為舒適 1~9 X3= 我比大多數我的朋友有更加時髦的衣裳 1~9 X4= 我想要看起來有一點與其他人不同 1~9 X5= 生命太短以至於不能不採取一些賭博 1~9

X6= 我不關注臭氧層 1~9

X7= 我認為政府做太多對於控制汙染 1~9

X8= 基本上, 現今社會是好的 1~9

X9= 我沒有時間為慈善做義工 1~9

X10=我們的家庭現今在債務不是太沉重 1~9

X11=我喜歡付現金對一切我買的 1~9

X12=我喜歡在今天花費而讓明天隨它去 1~9 X13=我使用信用卡因為我可以慢慢地支付票據 1~9

X14=當我購物時我很少使用優惠券 1~9

X15=利率是低到足以讓我買我想要的 1~9

X16=我比大多數我的朋友有更多自信 1~9

X17=我喜歡被認為是領導者 1~9

X18=其他人經常要求我幫助他們弄出果醬 1~9

X19=孩子是在婚姻中最重要的東西 1~9

X20=我寧可在家度過一個安靜的晚上比起出去宴會 1~9 X21=外國製造的汽車無法和美國製造的汽車相比 1~9 X22=政府應該限制來自日本的產品的進口 1~9

X23=美國人應該總是設法買美國產品 1~9

X24=我希望去全世界旅行 1~9

X25=我願我能離開現今的生活並做完全不同的事 1~9 X26=我通常是嘗試一項新產品的最早的人之一 1~9

X27=我喜歡努力工作和努力玩樂 1~9

X28=多疑的預言通常是錯誤的 1~9

X29=我能做任何我決心做的事 1~9

X30=從現在起五年我的收入比現在多很多 1~9

Y=我會考慮買 Land Rover 製造的「發現者」 0=非 1=是

4-2-4 汽車保險潛顧客開發

本例題來自COIL2000 競賽題目[12]，其中共有 5822 筆顧客紀錄，每筆紀錄包含86 個變數，變數 1~43 為人口統計資料，包含教育程度、收入、工作類型等；

44~85 為保險產品資料，包含顧客所購買的其他保險以及是否有出險紀錄等；變數86 為是否購買汽車保險，為輸出變數。

經過簡單的分析發現有7 個自變數的影響較大，如表 4-4，故本研究只取這 7 個為輸入變數。此外，原數據中輸出變數的部分，紀錄為 1 者(會購買汽車保險) 僅有348 筆，而紀錄為 0 者(不會購買汽車保險)則有 5474 筆，因數量差異過大，

故保留所有紀錄為1 者，再從紀錄為 0 者中隨機挑選出 352 筆，最後將兩者合併。

因此，本例題所用之數據為700 筆。

表4-4 篩選後的變數

變數變數內容變數型態

X1(第 18 項) 低教育水準連續值：0~9 X2(第 22 項) 中階管理人連續值：0~9 X3(第 47 項) 汽車保險金額連續值：0~9 X4(第 64 項) 社會安全保險金額連續值：0~9 X5(第 65 項) 第三責任險保單數目連續值：1~12 X6(第 68 項) 汽車保險保單連續值：0~2 X7(第 82 項) 船艇保險保單連續值：0~2 輸出變數是否購買汽車保險離散值：{0,1}

4-2-5 集集大地震引致山崩

台灣由於受地理與氣候響，水土災害一直是主要的天然災害。再加上多處山坡地過度開發，往往在地震發生時帶來嚴重的山崩及土石鬆動，造成嚴重的土石崩塌災害發生。1999 年 9 月 21 日於台灣中部發生芮氏規模 7.3 的地震，而此次地震亦獲得大量的坡地破壞資料及地震紀錄，可供學者們進行地震對山崩影響的研究。

本例題資料來自文獻[19]所提供的 60000 筆資料。首先隨機抽樣山崩、未山崩各2000 筆樣本，做為本研究的數據。再隨機取 3200 筆為訓練範例，800 筆樣本為驗證範例。本研究有15 個輸入變數，如表 4-5。

表4-5 輸入變數表

編號變數名稱編號變數名稱

1 高程 9 垂直地表加速度

2 坡向 10 東西向地表加速度

3 坡度 11 南北向地表加速度

4 距離車籠埔斷層距離12 九格點之平均坡度

5 距離斷層破碎帶距離13 九格點之最大最小坡度差 6 距離道路距離 14 九格點之平均坡向

7 距水系距離 15 九格點之最大最小坡度差 8 距震央距離

4-2-6 遙測影像分類

在此資料集中，LANDSAT 衛星多光譜影像被用來進行地表覆蓋判釋[14]。

其中二個光譜在可見光(綠光段及紅光段)，二個光譜在近紅外光段。每個像素採 8-bit，即 0 相對於黑；255 相對於白。每筆數據相對於一個像素的 3×3=9 鄰近像素(參考下圖 4-1)，因此每筆數據包含 9(像素)×4(光譜)=36 個光譜反射值。其中 X1~X4：左上角綠光、紅光、近紅光 1、近紅光 2 反射率；…；X33~X36：右下角綠光、紅光、近紅光1、近紅光 2 反射率。此區域主要有六種覆蓋物，共計 6435 筆數據，其統計如表 4-6。

1 5 9 2 6 10 13 17 21 14 18 22 25 29 33 26 30 34 綠光區紅光區 3 7 11 4 8 12 15 19 23 16 20 24 27 31 35 28 32 36 近紅光1 區近紅光 2 區

圖4-1 光譜反射值

表4-6 區域覆蓋物分類全部範例 1 紅土 1533 (23.82%) 2 棉田 703 (10.92%) 3 灰土 1358(21.10%) 4 濕灰土 626 (9.73%) 5 矮植生地 707 (10.99%) 6 很濕灰土 1508 (23.43%)

4-2-7 垃圾郵件分類

本例題資料來自文獻[13]所提供的 SPAMBASE 資料集。在此資料集中，57 個文字特徵用來做為區分垃圾郵件與否的輸入變數，如表4-7。資料筆數共 4500 筆，其中39.4%為垃圾郵件。訓練範例 3600 筆、驗證範例 900 筆。

表4-7 SPAMBASE 的欄位說明

編號意義屬性編號意義屬性

1 word_freq_make 連續 31 word_freq_telnet 連續 2 word_freq_address 連續 32 word_freq_857 連續 3 word_freq_all 連續 33 word_freq_data 連續 4 word_freq_3d 連續 34 word_freq_415 連續 5 word_freq_our 連續 35 word_freq_85 連續 6 word_freq_over 連續 36 word_freq_technology 連續 7 word_freq_remove 連續 37 word_freq_1999 連續 8 word_freq_internet 連續 38 word_freq_parts 連續 9 word_freq_order 連續 39 word_freq_pm 連續 10 word_freq_mail 連續 40 word_freq_direct 連續 11 word_freq_receive 連續 41 word_freq_cs 連續 12 word_freq_will 連續 42 word_freq_meeting 連續 13 word_freq_people 連續 43 word_freq_original 連續 14 word_freq_report 連續 44 word_freq_project 連續 15 word_freq_addresses 連續 45 word_freq_re 連續 16 word_freq_free 連續 46 word_freq_edu 連續 17 word_freq_business 連續 47 word_freq_table 連續 18 word_freq_email 連續 48 word_freq_conference 連續 19 word_freq_you 連續 49 char_freq_; 連續 20 word_freq_credit 連續 50 char_freq_( 連續 21 word_freq_your 連續 51 char_freq_[ 連續 22 word_freq_font 連續 52 char_freq_! 連續 23 word_freq_000 連續 53 char_freq_$ 連續 24 word_freq_money 連續 54 char_freq_# 連續 25 word_freq_hp 連續 55 capital_run_length_average 連續 26 word_freq_hpl 連續 56 capital_run_length_longest 連續 27 word_freq_george 連續 57 capital_run_length_total 連續 28 word_freq_650 連續

29 word_freq_lab 連續 30 word_freq_labs 連續

4-2-8 風險房貸顧客評估

銀行傳統上主要的應收源自於存放款間的利差。近年來，由於金融的自由化，產品的設計逐漸趨向多元化，因此銀行的獲利來源愈來愈多。但對銀行而言，

與客戶往來之任何交易皆面臨許多風險危機之本質不變；如信用風險、市場風險、作業風險、利率風險等。

本例題資料來自文獻[17]。在此資料集中，16 個客戶屬性用來做為預測指數型房貸申請人是否會違約的輸入變數，如表4-8。資料筆數共 3000 筆，其中違約件數佔9.7%。訓練範例 1500 筆、驗證範例 1500 筆。

表4-8 風險房貸顧客評估變數表

No 變數名稱型態變數說明用途

1 年齡連續年齡自變數

2 目前工作年資連續目前工作年資自變數

3 教育程度等級教育程度自變數

4 性別二元 1=男 2=女自變數

5 婚姻狀況離散婚姻狀況自變數

6 子女數目連續子女數目自變數

7 負債整合或房屋修繕離散 1=負債整合 2=房屋修繕自變數

8 申請金額連續申請金額自變數

9 現存抵押貸款之到期金額/月連續現存抵押貸款之到期金額/月自變數 10 財產價值(車子、房子…) 連續財產價值(車子、房子…) 自變數

11 負債/所得比連續負債/所得比自變數

12 授信(放款)筆數連續授信(放款)筆數自變數 13 最長授信期間/月連續最長授信期間/月自變數

14 延遲筆數連續延遲筆數自變數

15 退票次數連續退票次數自變數

16 被信用查詢次數連續被信用查詢次數自變數

4-2-9 面板瑕疵判斷

在 TFT-LCD 製造過程中，基板或面板製造廠使用自動光學檢查設備(AOI) 來確保生產的產品品質，主要是使用CCD 判別面板上的斑點是否為瑕疵。一家工廠希望根據人工檢測資料來建立一個模型，以偵測那些面板上的斑點是瑕疵 [4]。在其資料集中，包含 9 個斑點的特徵。資料總筆數 2954 筆，瑕疵者佔 16.9%。

其中2000 筆做為訓練範例，954 筆做為驗證範例。

4-2-10 潛在貸款客戶發掘

一家銀行提供貸款產品供中小企業公司戶客戶借貸。這家銀行希望根據歷史資料來建立一個模型，以預測那些客戶會想借貸。實驗資料來自文獻[11]的 SME(Small Medium Enterprise)客戶研究資料庫。SME 資料庫包含 22 個客戶屬性 (21 個數值屬性、1 個類別屬性)，變數說明如表 4-9。資料總筆數 32681 筆，其中「SME 客戶」有 738 筆，「非 SME 客戶」有 31943 筆。「SME 客戶」只佔全部資料的2.3%。因為二類資料極不平衡，在此將 738 筆「SME 客戶」全部取出，

再從31943 筆「非 SME 客戶」中，以亂數取資料組成 1500 筆資料，形成一個二個分類的比例大約各50%的分類問題，其中訓練資料 1000 筆，測試資料 500 筆。

表4-9 潛在貸款客戶發掘變數表

變數名稱變數說明用途

1 ck 是否有支存自變數

2 ck-saveall 支存存入總金額(一年) 自變數 3 ck-drawall 支存提領總金額(一年) 自變數 4 ck-savetime 支存存入總次數(一年) 自變數 5 ck-drawtime 支存提領總次數(一年) 自變數 6 ck-saveavg 支存平均每次存入金額(一年) 自變數 7 ck-drawavg 支存平均每次提領金額(一年) 自變數

8 ck-avg 支存平均餘額(半年) 自變數

9 dep-saveall 活期存入總金額(一年) 自變數 10 dep-drawall 活期提領總金額(一年) 自變數 11 dep-savetime 活期存入總次數(一年) 自變數 12 dep-drawtime 活期提領總次數(一年) 自變數 13 dep-saveavg 活期平均每次存入金額(一年) 自變數 14 dep-drawavg 活期平均每次提領金額(一年) 自變數 15 dep-avg 活期平均餘額(半年) 自變數 16 dep-9201 92 年一月存入活期金額自變數 17 fed-9201 92 年一月外幣月底餘額自變數 18 fed-avg 外幣平均餘額(一年) 自變數 19 ck-changame 支存交換票總金額(一年)(實際兌現的) 自變數 20 dep-changame 活存交換票總金額(一年)(實際兌現的) 自變數 21 ck-changtime 支存交換票總次數(一年)(實際兌現的) 自變數 22 dep-changtime 活存交換票總次數(一年)(實際兌現的) 自變數

VV 是否為SME 公司戶因變數

在文檔中題目：橢圓空間機率神經網路 (頁 58-93)