中 華 大 學 碩 士 論 文
題目:類神經網路與決策樹在顧客關係管理 應用之比較
系 所 別:土木工程學系碩士班 學號姓名:M09204039 文少宣 指導教授:葉怡成 博 士
中華民國 九十四 年 七 月
類神經網路與決策樹在顧客關係管理應用之比較
研究生:文少宣 指導教授:葉怡成 博士 中華大學土木工程系碩士班
摘要
在顧客關係管理應用中,類神經網路方法(artificial neural network)
與決策樹方法(decision tree)為較常使用之預測與分類方法,一般而 言,類神經網路方法之優點,在於準確率高,但模型架構不易理解,
而決策樹方法則可以產生具體的模型架構,讓使用者容易理解,但其 準確率不如類神經網路方法。本論文利用類神經網路方法與決策樹方 法以及整合二方法之優點,應用在兩個例題:(一)休閒健身中心會 員;(二)汽車保險購買,探討其分類準確性。研究結果顯示,單獨 使用類神經網路方法與決策樹方法時,類神經網路方法在二例題中均 有較高的模型準確率,而決策樹方法則對於模型解釋能力較佳。此 外,本文提出從已訓練的類神經網路產生決策樹的方法,並提出二種 整合類神經網路與決策樹的方法,發現先用決策樹淨化訓練範例,再 訓練類神經網路,可以提昇準確
率。
誌 謝
兩年前的一個決定,讓我從職場重返校園,兩年的時間雖然短 暫,但卻是充滿回憶,這篇論文的完成,表示我將面對人生下一階段 的挑戰。
感謝我的執導教授葉怡成博士,在這段時間給予我的悉心教導,
帶領我進入資料探勘的領域中,同時給我很大的空間,讓我可以選擇 有別於傳統土木領域的研究方向,並予以支持跟鼓勵。感謝台灣大學 曾惠斌老師、本校周文杰老師,在論文口試時給予我的建議與指導,
讓這篇論文更加完善。
應用人工智慧研究室的伙伴:立川、仲宏、豐銘、陳安、皓博、
柏愷,從大學就一路相挺的摯友:定中與同宇,以及振民學長、婷鈺 學姐和冠傑學長,感謝您們陪同我一起學習成長,度過辛苦卻快樂的 美好時光。當然,也要感謝我的家人,在這段時間中不管是精神或是 經濟上的支持,還有及將要成為我的家人的佩嵐,因為有妳的鼓勵與 相伴,讓我能專心為學業努力。
最後,將此篇論文獻給我的家人、我的師長以及朋友,謝謝您們。
文少宣 謹識 于 中華大學土木所 民國九十四年
目錄
目錄 ...I 圖目錄 ...III 表目錄 ... V
第一章 導論 ...1
1-1 研究目的...1
1-1-1 運動健身中心行銷問題...2
1-1-2 汽車保險行銷問題...2
1-2 研究方法...2
1-2-1 運動健身中心行銷最佳化模型建構 ...2
1-2-2 汽車保險行銷最佳化模型建構...2
1-2-3 類神經網路方法與決策樹方法之整合 ...3
1-3 論文架構...3
第二章 文獻回顧 ...5
2-1 資料探勘...5
2-2 顧客關係管理 ...8
2-3 類神經網路...9
2-4 決策樹方法...13
2-5 類神經網路方法與決策樹方法之整合...14
第三章 資料探勘在健身中心行銷之應用 ...16
3-1 前言 ...16
3-1-4 資料描述...16
3-1-2 資料前處理...17
3-1-3 變數篩選...20
3-2 類神經網路方法...20
3-2-1 初步模型建構...20
3-2-2 學習循環最佳化模型建構...30
3-3 決策樹方法...36
I III
第四章 資料探勘在汽車保險行銷之應用 ...47
4-1 前言 ...47
4-1-1 資料描述...47
4-1-2 變數篩選...47
4-1-3 資料前處理...48
4-2 類神經網路方法...49
4-2-1 模型建構...49
4-3 決策樹方法...55
4-3-1 決策樹模型建立與修剪...55
4-3-2 混亂矩陣...58
4-3-3 提升圖...59
4-4 討論 ...59
第五章 類神經網路方法與決策樹方法之整合 ...62
5-1 前言 ...62
5-2 由類神經網路模型產生決策樹模型 ...62
5-3 由類神經網路模型修正訓練範例,再用以產生決策樹模型 ....66
5-3-1 數據導入...66
5-3-2 模型建構...66
5-3-3 結果討論...77
5-4 由決策樹模型修正訓練範例,再用以產生類神經網路模型 ....78
5-4-1 數據導入...78
5-4-2 建立模型...79
5-4-3 健身中心例題模型...79
5-4-4 汽車保險例題模型...86
5-5 結果討論...91
第六章 結論與建議 ...94
6-1 結論 ...94
6-2 建議 ...95
參考文獻 ...96
附錄 A 健身中心問卷 ...99
附錄 B 汽車保險例題變數說明 ...105
圖目錄
圖 2.1CRISP-DM 資料探勘程序模型...7
圖 2.2 資料探勘方法的要素...8
圖 2.3 人工神經元模型...10
圖 2.4 倒傳遞網路模型...12
圖 3.1PCNEURON倒傳遞網路設定畫面 ...21
圖 3.2 隱藏單元數=2,學習循環=1000 之收斂圖...22
圖 3.3 隱藏單元數=4,學習循環=1000 之收斂圖...22
圖 3.4 隱藏單元數=8,學習循環=1000 之收斂圖...23
圖 3.5 隱藏單元數=16,學習循環=1000 之收斂圖...23
圖 3.6 隱藏單元數=32,學習循環=1000 之收斂圖...24
圖 3.7 隱藏單元數=2,學習循環=1000 之測試範例提升圖...25
圖 3.8 隱藏單元數=4,學習循環=1000 之測試範例提升圖...25
圖 3.9 隱藏單元數=8,學習循環=1000 之測試範例提升圖...26
圖 3.10 隱藏單元數=16,學習循環=1000 之測試範例提升圖...26
圖 3.11 隱藏單元數=32,學習循環=1000 之測試範例提升圖...27
圖 3.12 隱藏單元數=2,學習循環=700 之測試範例提升圖...31
圖 3.13 隱藏單元數=4,學習循環=500 之測試範例提升圖...31
圖 3.14 隱藏單元數=8,學習循環=500 之測試範例提升圖...32
圖 3.15 隱藏單元數=16,學習循環=150 之測試範例提升圖...32
圖 3.16 隱藏單元數=32,學習循環=150 之測試範例提升圖...33
圖 3.17 自動歸納功能設定...37
圖 3.18 未修剪之決策樹...39
圖 3.19 手動修剪...40
圖 3.20 修剪後之決策樹...41
圖 3.21 決策樹方法之測試範例提升圖...44
圖 3.22 二方法重要輸入變數...45
圖 4.1 隱藏單元數=2,學習循環=1000 之測試範例提升圖...50
圖 4.2 隱藏單元數=4,學習循環=1000 之測試範例提升圖...51
圖 4.3 隱藏單元數=8,學習循環=500 之測試範例提升圖...51
圖 4.4 隱藏單元數=16,學習循環=500 之測試範例提升圖...52
I IVV
圖 4.9 二方法重要輸入變數 ...61
圖 5.1 健身中心例題...63
圖 5.2 汽車保險例題...64
圖 5.3 隱藏單元數=2 之決策樹(健身中心) ...67
圖 5.4 隱藏單元數=4 之決策樹(健身中心) ...68
圖 5.5 隱藏單元數=8 之決策樹(健身中心) ...69
圖 5.6 隱藏單元數=16 之決策樹(健身中心) ...70
圖 5.7 隱藏單元數=32 之決策樹(健身中心) ...71
圖 5.8 隱藏單元數=2 之決策樹(汽車保險) ...72
圖 5.9 隱藏單元數=4 之決策樹(汽車保險) ...73
圖 5.10 隱藏單元數=8 之決策樹(汽車保險) ...74
圖 5.11 隱藏單元數=16 之決策樹(汽車保險) ...75
圖 5.12 隱藏單元數=32 之決策樹(汽車保險) ...76
圖 5.13 隱藏單元數=2 學習循環=2000 測試範例提升圖(健身中心) ...80
圖 5.14 隱藏單元數=4 學習循環=1000 測試範例提升圖(健身中心) ...80
圖 5.15 隱藏單元數=8 學習循環=5000 測試範例提升圖(健身中心) ...81
圖 5.16 隱藏單元數=16 學習循環=3000 測試範例提升圖(健身中心) ...81
圖 5.17 隱藏單元數=32 學習循環=2000 測試範例提升圖(健身中心) ...82
圖 5.18 隱藏單元數=2 學習循環=2000 測試範例提升圖(汽車保險) ...86
圖 5.19 隱藏單元數=4 學習循環=2000 測試範例提升圖(汽車保險) ...86
圖 5.20 隱藏單元數=8 學習循環=2500 測試範例提升圖(汽車保險) ...87
圖 5.21 隱藏單元數=16 學習循環=2000 測試範例提升圖(汽車保險) ...87
圖 5.22 隱藏單元數=32 學習循環=3000 測試範例提升圖(汽車保險) ...88
圖 5.23 模型改善效果...93
表目錄
表 2.1 人工神經元參數說明...11
表 3.1 問卷形式與內容簡述...17
表 3.2 類神經網路方法之資料前處理...18
表 3.3 決策樹方法之資料前處理...19
表 3.4 篩選後的變數...20
表 3.5 倒傳遞網路設定值...21
表 3.6 測試範例混亂矩陣...28
表 3.7 敏感性分析...29
表 3.8 各節點之誤判率...30
表 3.9 各隱藏單元數之最佳學習循環次數 ...30
表 3.10 測試範例混亂矩陣-學習循環數最佳化 ...34
表 3.11 學習循環數最佳化之敏感性分析 ...35
表 3.12 學習循環數最佳化之測試範例誤判率 ...36
表 3.13 修剪後之規則...42
表 3.14 決策樹方法之訓練範例混亂矩陣 ...43
表 3.15 二方法之輸入變數重要性比較...45
表 4.1 篩選後的變數...48
表 4.2 決策樹方法數值屬性設定...49
表 4.3 最佳化學習循環次數...50
表 4.4 測試範例混亂矩陣...53
表 4.5 敏感性分析...54
表 4.6 學習循環數最佳化之測試範例誤判率 ...54
表 4.7 修剪後之規則...58
表 4.8 決策樹方法之測試範例混亂矩陣 ...59
表 4.9 重要輸入變數...61
表 5.1 重要輸入變數比較(健身中心) ...64
表 5.2 重要輸入變數比較(汽車保險) ...65
表 5.3 健身中心例題誤判率...77
表 5.4 汽車保險例題誤判率...77
表 5.5 決策樹模型規則(汽車保險)...79
V VII
表 5.11 誤判率比較(汽車保險) ...91
第一章 導論
1-1 研究目的
顧客關係管理(Customer Relationship Management,簡稱CRM)
乃技術性之策略,將資料驅動決策〈Data-driven decisions〉轉變為商 業行動,以回應並期待實際的顧客行為。從技術觀點來看,CRM代 表必要的系統與基礎架構,以擷取、分析與共享所有企業與顧客間的 關係。從策略的角度來看,CRM代表一個過程,用來評估與分配組 織的資源,給那些能帶來最大利益的顧客關係活動[1]。在技術層面 上,顧客關係管理分析資料的主要工具之一即為資料探勘技術,利用 資料庫技術,使企業可以蒐集所有客戶相關資料,加以大量轉換、載 入、分析,並將這些資料加以預測和分析,以作為行銷策略制訂的參 考,使其執行成功的機率提高,而達到提高利潤及降低成本的目的之 系統[2]。而資料探勘技術中,常見的兩種方法:決策樹方法(decision tree)與類神經網路方法(artificial neural network),這二種各有優點。
以決策樹方法而言,具備視覺化的模型建構能力,可讓使用者容易理 解;而類神經網路方法則具備較高的模型準確率。本研究目的在於將 二種資料探勘技術應用於實際案例,比較二方法之準確性以及何者適 用於顧客關係管理中,並將二方法做進一步的整合,探討其準確性是 否提高。
本研究將分成下列二個案例探討,(1)運動健身中心行銷(2)
汽車保險行銷。
2 2
1-1-1 運動健身中心行銷問題
本問題探討關於健身中心會員行銷,對於運動健身中心而言,其 主要獲利來源為會員所繳交之場地使用費,因此會員的多寡直接影響 運動健身中心營運績效。因此,建立會員入會模型,可對於日後行銷 方式做適當修正,進而達到降低行銷成本及增加會員人數之目的。
1-1-2 汽車保險行銷問題
以台灣而言,汽車保險在整體產險市場佔有率達55%以上[3],在 行銷方式上,傳統利用保險業務員進行銷售的方式,其行銷成本過 大。因此,若能透過資料探勘技術,建立保險購買人的模型,進而找 出有潛力的消費者進行推銷,即可達到降低行銷成本及提高獲利之目 的。
1-2 研究方法
本文研究方法分為三部分,(1)運動健身中心行銷最佳化模型 建構(2)汽車保險行銷最佳化模型建構(3)類神經網路方法與決策 樹方法之整合。
1-2-1 運動健身中心行銷最佳化模型建構
運用類神經網路方法中之倒傳遞網路(BPN)與決策樹方法,建 立最佳化模型,並且比較二方法之訓練範例提升圖、混亂矩陣、敏感 性分析及誤判率。
1-2-2 汽車保險行銷最佳化模型建構
同樣運用類神經網路方法中之倒傳遞網路(BPN)與決策樹方 法,建立最佳化模型,比較二方法之訓練範例提升圖、混亂矩陣、敏 感性分析及誤判率。
1-2-3 類神經網路方法與決策樹方法之整合
整合類神經網路方法與決策樹方法之優點,以加強模型之解釋性 與準確性,分為以下三個方向。
1. 由類神經網路模型產生決策樹模型
將類神經網路方法所建構之最佳化模型以決策樹形態表示,創造 具解釋性之類神經網路模型。
2. 由類神經網路模型修正訓練範例,再用以產生決策樹模型
將類神經網路方法訓練完成之「訓練範例」輸出變數,經由決策 樹方法重新建立模型,以提升決策樹模型之準確性。
3. 由決策樹模型修正訓練範例,再用以產生類神經網路模型
將決策樹方法訓練完成之「訓練範例」輸出變數,經由類神經網 路方法重新建立模型,提升神經網路模型之準確性。
1-3 論文架構
本論文之架構,共分為六個章節,各章節結構說明如下:
第一章 導論
4 4
共分為三部分,第一部份說明資料探勘之架構與方法,第二部分 說明類神經網路方法與決策樹方法,第三部分說明顧客關係管理之定 義。
第三章 資料探勘在健身中心行銷之應用
本章利用類神經網路方法與決策樹方法建立最佳化模型,並比較 二者之差異。
第四章 資料探勘在汽車保險行銷之應用
本章同第三章之作法,利用類神經網路方法與決策樹方法建立最 佳化模型,並比較二者之差異。
第五章 類神經網路方法與決策樹方法之整合
本章利用第三章與第四章之結果,創造具解釋能力之類神經網路 模型,並且由類神經網路模型修正訓練範例,再用以產生決策樹模 型,以及由決策樹模型修正訓練範例,再用以產生類神經網路模型,
再與第三章及第四章之結果比較。
第六章 結論與建議
說明本研究之整體結論與未來研究發展之建議。
第二章 文獻回顧
2-1 資料探勘
關於資料探勘的定義,目前並無統一的解釋,本節將介紹資料探 勘相關文獻與評論。
Cabena[4]認為資料探勘是從大型資料庫中,採掘出先前未知、有 效的、可利用的資訊並利用這些資料做出正確的商業決策的一種程 序。
Han[5]認為資料探勘是關於從大量的資料中萃取或挖掘知識的 一個程序,利用這程序挖掘出珍貴的寶藏。
Berry[6]指出資料探勘是為了發現有意義的規則或模型,以自動 或半自動的方式,來探勘、分析大量資料而進行的流程。
林傑斌[7]認為資料探勘是從大量的資料中,萃取出隱含的、以前 不為人知、可信的、新穎的、有效的,並能被人了解模式的高級處理 過程。
Frawley[8]認為資料探勘是從資料庫中發掘未知、潛在有用,且 最終是可理解的資料型樣(patterns)的過程。
Gnardellis[9]認為資料探勘為資料庫中知識發掘( Knowledge Discovery in Databases, KDD)過程的一個步驟,KDD 顧名思義就是 從資料庫中找尋知識,其不但結合了資料庫、知識庫、而且也包括人 工智慧、統計學等方面相關的應用,主要的資料探勘技術包含購物籃
6 6
Analysis)、決策樹和規則歸納(Decision Tree and Rule Induction)、
類 神 經 網 路 ( Artificial NeuralNetworks ) 、 基 因 演 算 法( Genetic Algorithms)、以及線上即時分析(OLAP)。
謝邦昌[10]指出資料探勘為找尋隱藏在資料中的訊息,如趨勢
(Trend)、特徵(Pattern)、及相關性(Relationship)的過程,也 就是從資料中發掘資料或知識。
葉怡成[11]認為資料探勘就是在龐大的資料庫中尋找出有價值的 隱藏事件,籍由統計及人工智慧的科學技術,將資料做深入分析,找 出其中的知識,並根據企業的問題建立不同的模型,以提供企業進行 決策時的參考依據。
以下整理國內外學者對於資料探勘流程的文獻與評論。
Fayyad[12]認為資料探勘程序包含八個步驟分別為:瞭解資料、
獲取相關知識、資料整合與檢核、資料清理、發展模型、進行資料採 礦、測試與檢核模型與結果解釋與應用。
Kennedy[13]指出資料探勘程序為下列八個階段:1、定義問題,
2、蒐集資料,3、準備資料,4、資料前置作業,5、選擇演算法,6、
選擇演算法訓練參數,7、訓練與測試模型,8、評估模型。
Cabena[4]認為認為資料探勘程序包含下面五個階段:1、清楚明 確的定義商業問題與挑戰,2、資料準備,包含:資料定義、資料擷 取、資料品質檢驗、資料轉換,3、選擇演算法建置模型,4、解釋與 評估模型,5、以商業的眼光去洞悉資料採礦分析的結果並將其應用 於組織的商業行為與資訊系統中。
Chapman[14]提出CRISP-DM 資料探勘程序模型,認為資料探勘 程序包含六大階段分別為:1、產業認知,2、資料透視,3、資料準 備,4、模型建立,5、成效評估,6、規劃部署。
圖 2.1 CRISP-DM 資料探勘程序模型
資料來源:www.corporateintellect.com/ services/crisp_dm.htm
葉怡成[11]認為資料探勘方法的要素包含下列四個要素:
知識原料:數值型資料、類別型資料 知識表現:數值型知識、類別型知識 知識評價:數值型評價、類別型評價
8 8
知識的
原料處理
+
表達架構 知識的+
評價函數 知識的+
優化技術知識的=
資料探勘方法圖 2.2 資料探勘方法的要素
2-2 顧客關係管理
Bhatia[20]認為顧客關係管理是利用軟體與相關科技的支援,針 對銷售、行銷、顧客服務與支援等範疇,自動化與改善企業流程,同 時顧客關係管理的應用軟體不僅僅在於多重企業功能〈銷售、行銷、
顧客服務與支援〉的協調,同時也整合了與顧客溝通的多重管道—面 對面〈face to face〉、電話中心〈call center〉與網際網路〈web〉,
使得組織可以視情況選用不同顧客所偏好的互動模式。
Kalakota[21]指出,顧客關係管理可視為在運用整合性銷售、行 銷與服務策略下,所發展出組織的一致性行動。即在企業結合流程與 科技的整合之下,找出顧客的真正需求,同時並要求企業內部在產品 與服務上力求改進,以致力於顧客滿意與顧客忠誠度的提升。
吳欣穎[22]認為將顧客關係管理歸納為企業有效利用企業功能支 援與資訊化能力,瞭解顧客需求,探尋適合的顧客,協助能以最有效 的方式購得產品,提供整合性服務,並有效掌握交易資訊,以調整行 銷策略,確保顧客滿意並開發市場機會,創造更高利潤。
盧坤利[23]指出經由國內外文獻的整理將顧客關係管理定義為
「利用資料庫技術,使企業可以蒐集所有客戶相關資料,加以大量轉 換、載入、分析,並將這些資料加以預測和分析,以作為行銷策略制 訂的參考,使其執行成功的機率提高,而達到提高利潤及降低成本的 目的之系統」。
John Ott[24] 認為顧客關係管理,應該是「持續性的關係行銷」
〈Continuous Relationship Marketing;CRM〉。其強調的重點是:尋 找對企業最有價值的顧客,以微型區隔〈Micro-Segmentation〉的概 念,界定出不同價值的顧客群。企業以不同的產品、不同的通路,滿 足不同區隔顧客的個別需求,並在關鍵時刻,持續地與不同層次的顧 客溝通,強化顧客的價值貢獻。同時還必須進行反覆測試,進而隨著 顧客消費行為的改變調整銷售策略,甚至是更動組織結構。
遠擎管理顧問公司[25]提出在運用資料採礦發展顧客流失模型要 能達到下列目標:
1. 短期目標:提供潛在流失的顧客名單,支援行銷或顧客維繫活動。
2. 中期目標:建構有效流失模型,建立企業流失管理應用〈Churn ManagementApplication; CMA〉自動化程序。CMA 主要作業包括建構及管理模型、提供模型建構資料分 析環境、模型輸入資料整理與轉換、產生流失資訊。
3. 長期目標:整合流失模型於企業顧客關係管理,使顧客流失管理 成為顧客關係管理系統的一環。
2-3 類神經網路
葉怡成[16]提到類神經網路是一種腦與神經系統研究所啟發的資 訊處理技術,為模擬生物神經系統的一種電腦模式,這種模式是由許 多的處理單元所組成,處理單元又被稱之為神經細胞,每個神經細胞
1 100
權值,並加總後再經由人工神經元中的數學函數轉換通常是以 sigmoid function,最後Yj代表神經元的最後輸出。
圖 2.3 人工神經元模型
圖 2.3 中,各函數的計算方式如下:
) X W ( f Y
n
1 i
j i ij
j ……….……….(2-1)
其中 f 為轉換函數,可表為
e
xx
f 1
) 1
(
………..…....(2-2)式(2-1)亦可表示為 )
( j
j
f net
Y
………...………….(2-3)Wij
: X2 X1
Xn
: :
Xi θi netj f Yj
轉移函數
輸出訊號 處理單元淨值 輸入訊號 X
鏈結加權值 Wn
閥值
W1j W2j
Wnj
其中
net 為加法單元(summation),可表為
jj i n
1 i
ij
j W X
net ………....(2-4)
圖 2.3 中,各參數說明如表 2.1 所示。
表 2.1 人工神經元參數說明
參數 說 明
X
i神經元的輸入(Input),用來模仿生物神經元模型的輸入訊號(input signal)。
W
ij鍵結加權值(weights),類神經網路的訓練就是在調整鍵結加權值,使 其變得更大或是更小,通常由隨機的方式產生介於+1 到- 1 之間的初始 值。其值越大,則代表連結的神經元更容易被激發,對類神經網路的 影響也更大;反之,則代表對類神經網路並無太大的影響,而太小的 鍵結值通常可以移除以節省電腦計算的時間與空間。用來模仿生物神 經元模型的神經鏈結強度。
j
閥值(bias),有偏移的效果。模仿生物神經元模型的閥值(threshold value),又稱「偏權值」。
net
j 加法單元(summation),此部分是將每一個輸入與鍵結值相乘後做一 加總的動作。f
活化函數(activation function)通常是非線性函數,有數種不同的型式,
其目的是將 netj 的值做映射得到所需要的輸出。用來模仿生物神經元 模型的轉換函數(transfer function)。
Y
輸出(output),亦即我們所需要的結果。用來模仿生物神經元模型的輸1 122
倒傳遞網路(Back-propagation Network,BPN)為目前應用最廣 的類神經網路模型,倒傳遞網路屬於前向式網路架構,為一種監督式 網路。其基本原理是利用最陡坡降法(the gradient steepest descent method)的觀念,將誤差函數予以最小化,圖 2.4 為倒傳遞網路模型
圖 2.4 倒傳遞網路模型
倒傳遞網路架構分為輸入層、隱藏層及輸出層,說明如下[16]:
1. 輸入層
用以表現網路的輸入變數,其處理單元依問題而定。使用線性 轉換函數。
2. 隱藏層
用以表現輸入處理單元間的交互影響,其處理單元數目並無標 準方法可以決定,經常需以試驗方式決定其最佳數目。使用非線 性轉換函數。
3. 輸出層
輸入向量 輸出向量
輸入層 隱藏層 輸出層
用以表現網路的輸出變數,其處理單元依問題而定。使用非線 性轉換函數。
2-4 決策樹方法
Jiawei[17]認為決策樹是強大且普遍使用的分類或預測工具,它 以樹狀的方式由上而下(top-down)表現出規則,將特定的物件集合,
隨著樹的成長,逐步地分割成更小的子集合,且方便將規則轉換為 SQL 語法進行運用。其中樹的每一個內部節點代表對應某屬性的測 試資料,例如 “是否居住北部”,每一個分支代表此屬性的一個可能 性,例如 “是”或 “否”,而樹末端的葉節點則代表一個類別或類別屬 性,例如 “成績表現好”。
黃俊英[18]認為決策樹也就是二元樹的應用,是在分類時的決策 判斷過程以樹狀圖來表示,而且樣本需夠大,主要是根據某一準則變 數而將整個樣本劃分成若干最具同性質的組別,其中包含了節點
〈nodes〉與枝幹〈branch〉,每個節點代表一個資料的屬性檢驗,分 為內部節點〈interior nodes〉與末梢節點〈terminal nodes〉,而內部 節點表示在做決策時所依據的屬性;末梢節點表示最後分類的類別;
枝幹則表示一個檢驗結果所對應的屬性。依照屬性的不同將資料區分 到不同的枝幹,由上而下一層層的往下將資料分類,而每個樹葉
〈Leaf〉代表分類的類別。這種方式所處理的資料為類別型態,即是 將資料分成少數幾個類別,再由我們所關心的屬性逐次分割,最後形
1 144
變數的情形發生;相反的,如果過多,即表示做了太多的分割動作,
所做出來的決策原則將會沒有意義。
Hastie[19]提到目前最被廣泛使用的決策樹演算法包括C4.5,
CHAID(Chi-Square Automatic Interaction Detector) , CART (Classification and Regression Trees)等。
2-5 類神經網路方法與決策樹方法之整合
Zhi-Hua Zhou[26]認為類神經網路是一種適用性極高的演算法,
類神經網路方法在許多領域都有非常成功的應用,但是其關連性都是 經由編碼而成,所以難以理解其模型架構,而決策樹方法對於模型架 構則具有非常高的解釋能力。因此,將兩者的優點合併,可以創造出 一種同時具備普遍性與模型解釋能力的演算法,將類神經網路與決策 樹演算法C4.5結合,可以提高決策樹之準確率。
Schmitz[27]提到雖然類神經網路可以準確的模擬非常複雜的系 統,但其中的模型架構卻難以理解,這對於使用類神經網路而言是一 個非常大的限制,因此,我們提出了一個新的類神經網路決策樹演算 法,將訓練完成的類神經網路模型轉換成二元樹,可以將類神經網路 的架構容易理解,其建構方法如下:
一、數據利用類神經網路訓練。
二、在特定空間中選取抽樣點作為歸納規則。
三、利用內插法將相關連的數據分類。
四、選擇變數項目與門檻作為分類依據。
五、決定終止條件與修剪決策樹。
Kijsirikul[28]提出利用倒傳遞網路(Backpropagation Neural
Networks)作為C4.5決策樹的修剪依據,以避免過渡學習(Overfitting)
的發生,對於模型準確率而言,亦獲得提升。
1 166
第三章 資料探勘在健身中心行銷之應用
3-1 前言
近年來因周休二日的影響,國人越來越重視休閒活動,相關運動 休閒產業也因為這股風潮而逐漸受到重視,根據行政院經濟建設委員 會統計,未來四年國內運動休閒服務業總產值將可達到新台幣 600 億,因此,需多相關運動休閒相關產業均看好未來商機;健身中心為 運動休閒產業的一環,產業也從早期單一以健身為主的服務,轉型為 包含美容、SPA、整體運動諮詢等服務型態,甚至為配合都市生活習 慣,將營業時間延長至 24 小時,以配合不同生活作息的顧客。
健身中心大多採取會員制,而會員費用為主要收入來源,因此,
會員的管理就是企業營運的核心,會員數量多寡會直接影響健身中心 經營績效及往後發展空間;本研究利用某健身中心所做的問卷調查資 料,利用資料探勘方法試圖找出會員入會的規則,並且回饋給該健身 中心做為下一階段行銷之參考。
3-1-4 資料描述
本案例所取得之資料型態為問卷調查形式,問卷內容分為三部分 共六十五個問題,問卷內容簡述於表 3.1。
表 3.1 問卷形式與內容簡述
類型 內容簡述 選擇項目 題數
第一部份 生活型態 態度、思考、人際關 係、消費方式等
從同意~非常不同意
共分為五等級 43
第二部份
運動參 與情形
對於運動的喜好,時 間、地點、頻率及運動 資訊收集方式
十題複選題,七題單選
題 17
第三部份
個人 基本資料
系級、學號、性別等 受訪者自行填寫 5
本問卷因涉及個人隱私部分,故第三部分個人基本資料中的姓 名、學號內容將予以隱藏。
3-1-2資料前處理
經過初步篩選有較多缺值的問卷,得到 1228 筆有效問卷,輸出 結果為是否為會員,其中「會員」數量為 672 筆,占總數約 54.7%,
「非會員」數量為 556 筆,占總數約 45.3%。
因應所使用之類神經網路方法軟體與決策樹方法軟體在數據使 用上的不同,故使用兩種不同的前處理方式以符合軟體需要。
以類神經網路方法而言,第一部分依照同意~非常不同意五等級 依序改成 1~5 之數值,第二部分「單選題」以 0、1 型態轉換,「複
1 188
出值代表「會員」,第二個輸出值代表「非會員」。表 3.2 為類神經 網路方法之資料前處理。
表 3.2 類神經網路方法之資料前處理
選擇項目 轉換方式
第一部份 非常不同意~同意分
為五等級 1.依等級順序填入 1~5 數值
第二部份 十題複選題,七題單選 題
1.單選題:以 0、1 轉換
2.複選題:依照選項排列順序編號後以 0、1 轉換
第三部份 受訪者自行填寫之文 字型態
1.學院:工學院=1、建築學院=2、管理 學院=3、人文社會學院=4 2.學年:填入實際數值
3.年齡:填入實際數值 4.性別:男性=1、女性=2
輸出 是否為會員
第一個輸出值:會員=1 非會員=0 第二個輸出值:會員=0
非會員=1
決策樹方法的資料前處理方式,大致上與類神經網路方法的資料 前處理方式類似,不同之處在於決策樹方法可以接受變數為離散值或 文字類型,因此在資料前處理的方法上,可以比類神經網路方法的資 料前處理具有彈性。
決策樹方法的第一部份處理方式與類神經網路方法的資料前處 理方式相同,數值設定為連續值,第二部分單選題則以數列方式轉換 並且設定為離散值,複選題在轉換成數值後設定為離散值,第三部份 則將學院、學年轉換成數值後設定為離散值,年齡則設定為連續值,
性別轉換為 1、2 之離散值,輸出值轉換成“是"與“否"之文字並 設定為離散值,表 3.3 為決策樹方法之資料前處理。
表 3.3 決策樹方法之資料前處理
選擇項目 轉換方式 數值型態
第一部份 同意~非常不同意
分為五等級 1.依等級順序填入 5~1 數值 連續值
1.單選題以數列轉換 離散值 第二部份 單選題及複選題
2.複選題依照選項排列順序
編號填入數值 連續值
1.學年填入實際數值 連續值 2.學院分類轉換數值 離散值 3.學院分類轉換數值 離散值 第三部份 受訪者自行填寫之
文字型態
4.年齡填入實際值 連續值
2 200
3-1-3變數篩選
變數篩選的目的是要在眾多變數中,找出對於結果影響性相對較 大的變數。本案例採用 XLminer 軟體中 Logistic Regression 的逐步迴 歸功能,找出最重要的十五個輸入變數,如表 3.4 所示。
表 3.4 篩選後的變數
篩選後變數
第一部份
第二部份 二 1a、二 1b、二 1c、二 7a、二 7b、二 8、二 9、二 12、
二 14、二 15、二 16
第三部份 學院、學年、性別、年齡
由表 3.4 可知,第一部份在經過篩選後是沒有留下任何一個變數。
3-2 類神經網路方法
3-2-1初步模型建構
經過資料前處理以及變數篩選後,將數據載入 PC Neuron 中,利 用倒傳遞網路(BPN)建立分類模型。訓練範例為 800 筆,測試範例 為 428 筆,學習循環 1000 次,隱藏層隱藏單元數分別採用 2、4、8、
16、32 個,其他設定部分則利用軟體建議值,並試圖找出各隱藏單 元數的最佳學習循環次數,表 3.5 說明其設定值,圖 3.1 為倒傳遞網 路設定畫面。
表 3.5 倒傳遞網路設定值
輸入變數個數 15
輸出變數個數 2
第一層隱藏層隱藏單元數 2、4、8、16、32
訓練範例 800
測試範例 428
學習循環 1000
圖 3.1 PC Neuron 倒傳遞網路設定畫面
參照上述之設定方式所得到的收斂圖表示於圖 3.2~圖 3.6。
2 222 0.1
0.2 0.3 0.4 0.5 0.6
0 100 200 300 400 500 600 700 800 900 1000
學習循環數 誤
差 均 方 根
測試範例 訓練範例
圖 3.2 隱藏單元數=2,學習循環=1000 之收斂圖
0.1 0.2 0.3 0.4 0.5 0.6
0 100 200 300 400 500 600 700 800 900 1000
學習循環數 誤
差 均 方 根
測試範例 訓練範例
圖 3.3 隱藏單元數=4,學習循環=1000 之收斂圖
0.1 0.2 0.3 0.4 0.5 0.6
0 100 200 300 400 500 600 700 800 900 1000
學習循環數 誤
差 均 方 根
訓練範例 測試範例
圖 3.4 隱藏單元數=8,學習循環=1000 之收斂圖
0.1 0.2 0.3 0.4 0.5 0.6
0 100 200 300 400 500 600 700 800 900 1000
學習循環數 誤
差 均 方 根
測試範例 訓練範例
圖 3.5 隱藏單元數=16,學習循環=1000 之收斂圖
2 244 0.1
0.2 0.3 0.4 0.5 0.6
0 100 200 300 400 500 600 700 800 900 1000
學習循環數 誤
差 均 方 根
訓練範例 測試範例
圖 3.6 隱藏單元數=32,學習循環=1000 之收斂圖
由圖 3.3~3.6 可知,當隱藏單元數為 4、8、16、32 時,在 1000 次學習循環下,都呈現過度學習的趨勢,只隱藏單元數為 2 時,過度 學習的趨勢不明顯。
接著將上述設定所產生的結果,繪製提升圖(Lift Chart),提升 圖可以幫助了解經由倒傳遞網路訓練後,模型的分類能力,圖 3.7~
3.11 隱藏單元數為 2、4、8、16、32,學習循環為 1000 之測試範例 提升圖。
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員及非會員人數 會
員 人 數
圖 3.7 隱藏單元數=2,學習循環=1000 之測試範例提升圖
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員及非會員人數 會
員 人 數
圖 3.8 隱藏單元數=4,學習循環=1000 之測試範例提升圖
2 266
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員及非會員人數 會
員 人 數
圖 3.9 隱藏單元數=8,學習循環=1000 之測試範例提升圖
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員及非會員人數 會
員 人 數
圖 3.10 隱藏單元數=16,學習循環=1000 之測試範例提升圖
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450 會員及非會員人數
會 員 人 數
圖 3.11 隱藏單元數=32,學習循環=1000 之測試範例提升圖
表 3.6 表示由軟體產生之測試範例混亂矩陣(Confusion Matrix)。
2 288
表 3.6 測試範例混亂矩陣
隱藏 單元數
實際
推論 會員 非會員 合計
會員 134 51 185
非會員 101 142 243
2
合計 235 193 428
會員 177 98 275
非會員 58 95 153
4
合計 235 193 428
會員 151 80 231
非會員 84 113 197
8
合計 235 193 428
會員 151 84 235
非會員 84 109 193
16
合計 235 193 428
會員 156 92 248
非會員 79 101 180
32
合計 235 193 428
表 3.7 為軟體產生之敏感性分析,可以藉由敏感性分析了解各輸 入變數對於輸出變數的影響性。
表 3.7 敏感性分析
隱藏單元數=2 隱藏單元數=4 隱藏單元數=8 隱藏單元數=16 隱藏單元數=32 變數 會員 非會員 會員 非會員 會員 非會員 會員 非會員 會員 非會員 二 1a -0.9 0.9 0.0 0.0 -5.2 5.2 -2.1 2.1 -5.9 5.8 二 1b 4.5 -4.5 5.3 -5.3 7.8 -7.8 6.3 -6.3 8.2 -8.2 二 1c 4.3 -4.3 3.7 -3.7 13.5 -13.5 8.1 -8.1 14.9 -14.9 二 7a 0.4 -0.4 0.2 -0.2 -4.8 4.8 -15.4 15.4 -22.3 22.3 二 7b 4.1 -4.1 2.9 -2.9 2.6 -2.6 2.7 -2.7 -12.6 12.7
二 8 -1.6 1.6 -1.4 1.4 -0.4 0.4 9.0 -9.0 1.4 -1.5 二 9 -4.6 4.6 -0.5 0.5 -2.1 2.1 11.8 -11.8 20.3 -20.3 二 12 1.5 -1.5 2.3 -2.3 3.2 -3.2 5.7 -5.7 11.0 -11.1 二 14 0.8 -0.8 -0.9 0.9 7.8 -7.8 18.0 -18.0 26.9 -26.8 二 15 -0.8 0.8 1.5 -1.5 4.2 -4.2 1.8 -1.8 -0.5 0.3 二 16 -0.5 0.5 -0.3 0.3 5.3 -5.3 2.5 -2.5 11.5 -11.5
學年 -18.6 18.6 -21.0 21.0 -16.9 16.9 -10.9 10.9 -16.1 16.1 學院 -1.2 1.2 -7.6 7.6 -1.7 1.7 -12.2 12.2 -1.8 1.7 性別 -9.8 9.8 -9.6 9.6 -11.6 11.6 -23.0 23.0 -19.1 19.2 年齡 -3.6 3.6 -0.8 0.8 -7.9 7.9 -7.0 7.0 -10.0 9.9
表 3.8 顯示 經由此五種不同隱藏單元數所產生之倒傳遞網路的 誤判率。
3 300
表 3.8 各節點之誤判率
隱藏單元數 學習循環次數 誤判率
2 1000 36.0%
4 1000 36.4%
8 1000 38.3%
16 1000 39.2%
32 1000 40.0%
由表 3.8 可知,在 1000 次學習循環下,當隱藏單元數越多,誤 判率也相對提高。
3-2-2學習循環最佳化模型建構
經過初步建立倒傳遞網路模型後,從收斂圖中尋找各隱藏單元數 的最佳學習循環次數,如表 3.9 所示。
表 3.9 各隱藏單元數之最佳學習循環次數 隱藏單元數 最佳學習循環次數
2 700 4 500 8 500 16 150 32 150
找出最佳學習循環次數後,再利用 PC Neuron 軟體進行倒傳遞網 路模型建構,同樣繪製測試範例提升圖,以及記錄軟體所產生之混亂 矩陣、敏感性分析、誤判率,並與上一小節之各項結果進行比較。
圖 3.12~圖 3.16 為各隱藏單元數之最佳學習循環次數測試範例 提升圖。
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員及非會員人數 會
員 人 數
圖 3.12 隱藏單元數=2,學習循環=700 之測試範例提升圖
0 50 100 150 200 250
會 員 人 數
3 322
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員及非會員人數 會
員 人 數
圖 3.14 隱藏單元數=8,學習循環=500 之測試範例提升圖
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員及非會員人數 會
員 人 數
圖 3.15 隱藏單元數=16,學習循環=150 之測試範例提升圖
0 50 100 150 200 250
0 50 100 150 200 250 300 350 400 450
會員及非會員人數 會
員 人 數
圖 3.16 隱藏單元數=32,學習循環=150 之測試範例提升圖
由圖 3.7~3.11 與圖 3.12~3.16 比較得知,對於學習循環數取最 佳值後,其測試範例的準確率有顯著提升。
表 3.10 為學習循環數最佳化後之測試範例混亂矩陣。
3 344
表 3.10 測試範例混亂矩陣-學習循環數最佳化
隱藏單元數 實際
推論 會員 非會員 合計
會員 179 88 267
非會員 56 105 161
2
合計 235 193 428
會員 177 92 269
非會員 58 101 159
4
合計 235 193 428
會員 155 78 233
非會員 80 115 195
8
合計 235 193 428
會員 160 84 244
非會員 75 109 184
16
合計 235 193 428
會員 160 83 243
非會員 75 110 185
32
合計 235 193 428
由表 3.6 與表 3.10 比較可知,在經由學習循環數最佳化後,對於 結果的正判率有提高的效果。
學習循環數最佳化後,各隱藏單元數之敏感性分析,如表 3.11 所示。
表 3.11 學習循環數最佳化之敏感性分析
隱藏單元數=2 隱藏單元數=4 隱藏單元數=8 隱藏單元數=16 隱藏單元數=32 變數 會員 非會員 會員 非會員 會員 非會員 會員 非會員 會員 非會員 二 1a -0.3 0.3 -1.0 1.0 -2.4 2.4 -1.2 1.3 -1.2 1.2 二 1b 4.6 -4.6 4.2 -4.2 6.5 -6.5 3.4 -3.3 4.2 -4.2 二 1c 3.6 -3.6 2.9 -2.9 9.9 -9.9 2.7 -2.7 2.1 -2.1 二 7a 0.1 -0.1 -1.3 1.3 -3.7 3.7 -2.2 2.2 0.1 -0.1 二 7b 3.3 -3.3 2.1 -2.1 2.5 -2.5 2.6 -2.6 3.1 -3.2
二 8 -1.3 1.3 -1.6 1.6 -0.6 0.6 -1.3 1.3 0.0 0.1 二 9 -3.1 3.1 -2.1 2.1 -1.1 1.1 -1.0 1.1 2.3 -2.3 二 12 1.4 -1.4 1.5 -1.5 3.2 -3.2 0.0 -0.1 1.9 -1.9 二 14 0.5 -0.5 -0.6 0.6 9.8 -9.8 2.8 -2.8 7.8 -7.9 二 15 -0.7 0.7 1.1 -1.1 1.3 -1.3 -0.8 0.8 1.2 -1.2 二 16 -0.2 0.2 -0.2 0.2 3.1 -3.1 0.6 -0.6 0.6 -0.6
學年 -18.5 18.5 -18.2 18.2 -18.4 18.4 -13.5 13.4 -13.7 13.7 學院 -0.6 0.6 -4.8 4.8 -2.1 2.1 -2.9 2.9 -1.9 1.9 性別 -8.0 8.0 -7.2 7.2 -12.3 12.3 -6.9 7.0 -4.8 4.8 年齡 -2.6 2.6 -1.1 1.1 -6.4 6.4 -2.7 2.6 -3.5 3.4
3 366
最後,在經由學習循環數最佳化後,各隱藏單元數之測試範例誤 判率,如表 3.12 所示。
表 3.12 學習循環數最佳化之測試範例誤判率
隱藏單元數 學習循環次數 誤判率
2 700 34.0%
4 700 35.0%
8 500 37.0%
16 150 37.0%
32 150 37.0%
比較表 3.8 與表 3.12 可發現,經由學習環數最佳化後,各隱藏單 元數之測試範例誤判率有降低的趨勢,降低幅度約 1%~3%之間。
綜合 3-2-1 節與 3-2-2 節,可以很明顯的看出,在經由學習循環 最佳化後,經由倒傳遞網路所建立之模型準確度的確獲得提升。
3-3 決策樹方法
將 3-1-3 節中對於決策樹方法所做的資料前處理數據,為求與類 神經網路方法有一致性,再遵照 3-1-4 節所篩選出的變數,整理後載 入 XpertRule Miner 軟體中建立決策樹。
3-3-1 決策樹設定
在 XpertRule Miner 中對於決策樹產生的方法分為二種,一種為 使用者自行判定變數的重要性後,再以手動方式產生;另一種方式為 利用軟體內建的自動歸納功能(Automatic Induction),此功能共有 三個設定值,分別是:
分枝最小範例數(Minimum examples in a branch)
分枝最大顯著性(Maximum significance level of a branch)
分枝判定準則(Split criteria)
分枝最小範例數可設定決策樹分類末端之訓練範例數量,當數字 越大時,決策樹分枝越少,而數字越小時則相反;分枝最大顯著性以 百分比設定;分枝準則為軟體內建的決策樹演算法,分為 Entropy 與 Chi square 二種,圖 3.17 為自動歸納功能設定畫面。
圖 3.17 自動歸納功能設定
為求其一致性,並且降低人為因素造成的干擾,對於本例題採用
3 388
並在決策樹形成後利用人工方式修剪,以確保所形成的決策樹具有較 佳的「解釋性」。
3-3-2 決策樹產生與修剪
利用上一節所做的設定,將決策樹產生,如圖 3.18 所示。
學 年
< 9 1.1 03 61 47 3 學 院
2 性 別
2 年 齡
< 21 .05 64 15 5 6 二9
< 1.1 20 47 50 5
1 0 1 6 8 0 .0 %
1 4 2 0 .0 %
會 員 2 0 2 .5 % 原 始 CT測 試
1 8 6 6.7 %
0 4 3 3.3 %
會 員 12 2.8 %
>= 1 .12 04 75 05
2 0 1 2 5 2 .2 % 1 1 1 4 7 .8 % 會 員 2 3 2 .9 %
原 始 CT測 試
0 8 6 6.7 %
1 4 3 3.3 %
會 員 12 2.8 %
>= 2 1.0 56 41 5 56
3 1 1 5 6 5 .2 %
0 8 3 4 .8 %
會 員 2 3 2 .9 % 原 始 CT測 試
1 7 6 3.6 %
0 4 3 6.4 %
會 員 11 2.6 %
1
4 1 3 4 7 3 .9 % 0 1 2 2 6 .1 % 會 員 4 6 5 .8 %
原 始 CT測 試
1 16 6 6.7 %
0 8 3 3.3 %
會 員 24 5.6 %
4 3 1
二 12
< 4.1 47 73 9 39 二 1 5 3 1 2
二8
< 1.2 81 31 33 9
5 1 1 5 6 8 .2 %
0 7 3 1 .8 %
會 員 2 2 2 .8 % 原 始 CT測 試
1 8 7 2.7 %
0 3 2 7.3 %
會 員 11 2.6 %
>= 1 .28 13 13 39 二 1 2
< 3.00 4 56 39 9
6 1 2 7 9 3 .1 %
0 2 6 .9 %
會 員 2 9 3 .6 % 原 始 CT測 試
1 13 7 2.2 %
0 5 2 7.8 %
會 員 18 4.2 %
>= 3 .0 0 45 63 99 學 院 1 二 16
2
7 1 2 0 1 0 0.0 %
0 0 0.0 %
會 員 2 0 2.5 % 原 始 CT測 試 1 1 1 73 .3%
0 4 26 .7%
會 員 1 5 3 .5%
5 6 3 4 1
8 1 3 2 8 2 .1 %
0 7 1 7 .9 %
會 員 3 9 4 .9 % 原 始 CT測 試
1 18 8 1.8 %
0 4 1 8.2 %
會 員 22 5.1 %
3 4
9 1 1 5 6 5 .2 %
0 8 3 4 .8 %
會 員 2 3 2 .9 % 原 始 CT測 試
1 12 6 0.0 %
0 8 4 0.0 %
會 員 20 4.7 %
5 4 6
10 1 2 7 9 6 .4 %
0 1 3 .6 %
會 員 2 8 3 .5 % 原 始 CT測 試
1 13 9 2.9 %
0 1 7.1 %
會 員 14 3.3 %
>= 4 .14 77 3 93 9
11 1 3 8 9 7 .4 %
0 1 2 .6 %
會 員 3 9 4 .9 % 原 始 CT測 試
1 24 8 2.8 %
0 5 1 7.2 %
會 員 29 6.8 %
>= 91 .10 36 14 73 學 年
< 9 2.05 0 00 00 1 年 齡
< 20 .15 72 3 30 0 二9
< 2.0 71 10 82 4 二 1 5 5 2
12 0 1 6 8 0 .0 %
1 4 2 0 .0 %
會 員 2 0 2 .5 % 原 始 CT測 試
0 8 6 1.5 %
1 5 3 8.5 %
會 員 13 3.0 %
3 1 4 6
學 院
3 二 16
6 4 5
13 0 1 7 8 1 .0 %
1 4 1 9 .0 %
會 員 2 1 2 .6 % 原 始 CT測 試 0 68 5 .7 % 1 11 4 .3 % 會 員 7 1 .6 %
3 2 1
14 0 1 3 6 1 .9 %
1 8 3 8 .1 %
會 員 2 1 2 .6 % 原 始 CT測 試 0 36 0 .0 % 1 24 0 .0 % 會 員 5 1 .2 %
4 1 2
二 7b 0 二 16
5
2 二8
< 2 .1 0 29 94 25 15 0 1 4 6 6 .7 %
1 7 3 3 .3 %
會 員 2 1 2 .6 % 原 始 CT測 試 1 45 0 .0 % 0 45 0 .0 % 會 員 8 1 .9 %
>= 2.1 02 99 42 5 16 0 1 5 7 1 .4 %
1 6 2 8 .6 %
會 員 2 1 2 .6 % 原 始 CT測 試 0 46 6 .7 % 1 23 3 .3 % 會 員 6 1 .4 %
4 3 1 6
年 齡
< 1 9.0 50 00 00 1 17 1 2 3 5 7 .5 % 0 1 7 4 2 .5 % 會 員 4 0 5 .0 %
原 始 CT測 試
0 17 8 1.0 %
1 4 1 9.0 %
會 員 21 4.9 %
>= 19 .05 00 00 01 18 0 1 8 6 4 .3 % 1 1 0 3 5 .7 % 會 員 2 8 3 .5 %
原 始 CT測 試
0 9 6 9.2 %
1 4 3 0.8 %
會 員 13 3.0 %
1
19 1 1 5 6 8 .2 %
0 7 3 1 .8 %
會 員 2 2 2 .8 % 原 始 CT測 試 1 48 0 .0 % 0 12 0 .0 % 會 員 5 1 .2 %
>= 2 .07 11 08 2 4 二 7 b 0
20 0 3 1 8 8 .6 %
1 4 1 1 .4 %
會 員 3 5 4 .4 % 原 始 CT測 試
1 6 5 0.0 %
0 6 5 0.0 %
會 員 12 2.8 %
1
21 0 1 8 6 4 .3 % 1 1 0 3 5 .7 % 會 員 2 8 3 .5 %
原 始 CT測 試
0 8 6 1.5 %
1 5 3 8.5 %
會 員 13 3.0 %
>= 2 0 .1 57 2 33 00 學 院 3 4
22 0 2 0 9 5 .2 %
1 1 4 .8 %
會 員 2 1 2 .6 % 原 始 CT測 試
0 10 8 3.3 %
1 2 1 6.7 %
會 員 12 2.8 %
1 2
23 0 1 9 7 6 .0 %
1 6 2 4 .0 %
會 員 2 5 3 .1 % 原 始 CT測 試
0 14 7 0.0 %
1 6 3 0.0 %
會 員 20 4.7 %
>= 92 .0 5 00 00 01 二 7a
1 二8
< 3.1 63 41 20 0 年 齡
< 18 .12 93 14 01 學 院 1
24 0 1 6 5 9 .3 % 1 1 1 4 0 .7 % 會 員 2 7 3 .4 %
原 始 CT測 試
0 11 6 1.1 %
1 7 3 8.9 %
會 員 18 4.2 %
3 4 2
25 1 1 8 6 4 .3 % 0 1 0 3 5 .7 % 會 員 2 8 3 .5 %
原 始 CT測 試
0 10 6 2.5 %
1 6 3 7.5 %
會 員 16 3.7 %
>= 1 8.1 29 31 40 1 二8
< 2.00 0 00 01 0
26 0 1 5 5 7 .7 % 1 1 1 4 2 .3 % 會 員 2 6 3 .3 %
原 始 CT測 試
0 9 5 2.9 %
1 8 4 7.1 %
會 員 17 4.0 %
>= 2 .0 0 00 00 10
27 0 1 5 6 8 .2 %
1 7 3 1 .8 %
會 員 2 2 2 .8 % 原 始 CT測 試
1 8 6 6.7 %
0 4 3 3.3 %
會 員 12 2.8 %
28 原 始 CT測 試
4 400
未經修剪之決策樹規則高達 30 項,訓練範例誤判率為 26%,測 試範例誤判率為 36%。
接著,利用手動修剪決策樹,修剪原則為同一分支點下,其「測 試範例」測試範例正判率若能因兩分枝合併而提高,則將該分支點刪 除,如圖 3.19 所示,軟體會自動合併該分支點末端的判斷結果,如 此重複直到分支點末端之「測試範例」正判率不再提高為止,經由修 剪後之決策樹規則減少為 16 項,而「測試範例」正判率也獲得提升,
圖 3.20 為修剪後之決策樹,表 3.13 為修剪後之規則。
圖 3.19 手動修剪