決策樹分析與羅吉斯迴歸於資料探勘的整合運用:以人事資料與民眾健康影響因素之探討為例
全文
(2) 謝 誌 首先真的要非常感謝我的指導老師邱皓政教授在我暫時離開學校後重返校園仍給予相當 多耐心與學業上的許多指導,也很感謝老師在幫助自己建立信心的同時,也幫助自己多用不 同的思維去思考人生中所遭遇的問題。即便老師在擅長的多變量統計領域中已有非常好的學 術成就之外,對於仍在摸索統計學的我也是具耐心地指導我,更是引薦很棒的課程讓我去學 習這次論文的相關題材與資源。在資料探勘的領域中同樣非常感謝溫志皓老師在我正式進入 數據研究之前,能先對於資料探勘的技術與原理能有更明確的了解與方向,並在論文寫作期 間還能撥空回答我所提的問題;感謝施人英老師在這麼短的時間內即答應了做為自己論文的 口試委員老師,但也因為在修讀研究所課程學分之時曾上過老師的知識管理與研究方法,了 解施老師在量化研究上是非常厲害的一位老師,感謝施老師在這次論文上的指導和提點,使 論文的產出上能更加周全。感謝三位老師,當初沒有太多的信心完成論文,也套句邱老師常 常對我說的那句「這段路都是要自己去親身經歷的」,雖然這段路走得實在是有點急迫,也 趕得要命,但現在終於走到了尾聲,再次謝謝三位老師的指導! 最後謝謝家人的陪伴與包容我的作息顛倒,也謝謝陪我東奔西跑的書僮 Gary,謝謝你們, 我愛大家!. 莉雅 2015.08.
(3) 摘 要 資料是企業組織的重要資產,如何有效進行資料分析與探勘是提升企業運作效 能的重要議題。應用資料探勘方法於資料中挖掘與篩選出良好的資訊時,分類是一 項重要的工作,而決策樹分析則是最常使用的資料探勘分類技術,然而當投入的變 數越多,決策樹分析的執行效能也就受到影響,為改善此一缺點,本研究試圖導入 羅吉斯迴歸來提高決策樹分析的分類效能,透過羅吉斯迴歸的顯著性檢定,篩選出 具有解釋力與重要變數再投入決策樹模型,藉以提升決策樹分析的分析效能與規則 的實務價值。 在實徵分析部分,本研究利用人事資料庫與華人家庭動態資料庫,進行決策樹 與羅吉斯迴歸的整合分析,其中人事資料庫帶有薪資的強勢變數,因此將進行有無 強勢變數對於二階段分析效能與其影響的比較。至於華人家庭動態資料庫具有多年 期固定樣本追蹤調查的特性,因此得以針對民眾健康的影響因素進行多年期資料的 分析與比較。 研究結果發現,在人事資料庫中,影響具有三個水準的職別變數的重要投入變 數為起薪、目前薪資、教育程度與過去的資歷。當投入變數包含強勢變數時,執行 羅吉斯迴歸變數篩選程序前後的決策樹分析結果並無變化,不過刪除不顯著之變數 後,分類準確率向上提升,但是當投入變數未包涵強勢變數時,決策樹分析結果則 有明顯變化。在華人家庭動態資料庫的民眾健康之影響因素分析中,對於民眾的健 康狀況三種水準的分類,以配偶的健康狀況、與父、母親的健康狀況三項是主要的 投入變數,分析結果發現,二階段整合程序使得後續決策樹 C5.0 分析大幅減少決策 規則,增強規則的解釋意義,但也因為減少許多變數投入,分類準確率與其他相關 指標並無顯著提升。本研究除了針對羅吉斯迴歸與決策樹分析的原理與應用進行說 明,提出兩階段的整合性分析策略,並以兩個實徵資料庫進行實徵分析,具體說明 資料探勘技術可配合多變量統計的變數重要性檢定策略來提高分析效能,最後討論 了本研究的限制與未來研究與應用上的建議。. 關鍵字:資料探勘、決策樹、羅吉斯迴歸、變數篩選。. 1.
(4) Abstract Data is one of the most important assets in an enterprise or organization, and it is a big issue to use data analysis and data mining efficiently to progress the effectiveness of enterprise operation.When applying data mining to dig out or select great information, classification is the main work, and decision tree analysis is the technic of data mining usually used. However, when entering more variables, it would be possibly influenced on the effectiveness of analysis. In order to improve this weakness, we would like to integrate logistic regression into research to raise the effectiveness of classification. With significance test of logistic regression, selecting out some important variables with strong explanatory into decision tree model could progress the effectiveness of analysis, also the rules of practical value. Thus, this article uses decision tree analysis, which is usually applied for data mining, and tries to integrate logistic regression into whole research to realize how variables selection and effectiveness of classification would operate in these two databases. In this research, we choose logistic regression to analyze the data and determine what kind of variables should be used, selecting these variables which possess higher Wald test and more significant as well into decision tree, and compare with the model which is non-selecting variables for the outcome whether the new rules are less or much efficient in the end. In part of empirical analysis, the databases resourced the personnel database and Panel Study of Family Dynamics (PSFD) for analysis of decision tree and logistic regression. Especially, there are strong salary variables in the personnel database, so we would analyze the model whether there are strong salary variables in it with this two-steps analysis and compare the outcomes in the end. For PSFD which has the feature of multi-year connected data, we would focus on influence factors on people’s health to analyze and compare several of this multi-year datasets We find that, the improtant selected variables are salary-beginning、salary、education and previous experiences in personnel database. When entering variables including strong variables, the outcome doesn’t chang with decision tree analysis if implement variables selection in logistic regression or not, but it could have the classification accuracy rise after deleting these insignificant variables. On the other hand, when it doesn’t include the strong variables, it presents obviously change in decision tree analysis. In PSFD, the improtant variables are marital health and health of father and mother for the primary variables. We find that when intergrating with logistic regression, it could lower the rules 2.
(5) for analysis in C5.0. However, due to reduction of variables entering, all the rates about model evaluation do not raise. In this research, we would introduce the concept and application of logistic regression and decision tree analysis, and submit the strategy of two-setps analysis as well, and implement this two pratical databases, specificly illustrating the data mining technic could raise the effectiveness of analysis with strategy of variables signicance test in multiple statistic. Finally, we have the discussion of limitation about this reaserch and future study, also sugesstions of application.. Key word:Data mining, Decision tree, Logistic regression, Variable selection.. 3.
(6) 目 錄 摘 要 … … … … … … …… … … … … … … … … … … … … … … … … … … … … … … . 1 Abstract………………………………………………………………………………….2 目錄…………………………………………………………………………………4 表目錄…………………………………………………………………………….………..5 圖目錄…………………………………………………………………………….………..6 附錄…………………………………………………………………………….…………..6 第一章緒論………………………………………………………………………7 第一節研究背景…………………………………………………………………7 第二節研究目的…………………………………………………………………9 第二章文獻探討…………………………………………………………………….10 第一節資料探勘……………………………………………………………………10 第二節決策樹………………………………………………………………………13 第三節羅吉斯迴歸…………………………………………………………………23 第四節決策樹與羅吉斯迴歸之相關文獻應用……………………………………27 第 五 節 實 徵 資 料 庫 的 相 關 文 獻 回 顧 … … …… … … . . … … … … … … … … … 3 1 第三章研究方法…………………………………………………………………..35 第一節資料來源………………………………………………………………….36 第二節分析方法……………………………………………………………………43 第四章結果與討論…………………….……………………………………………..47 第一節人事資料庫的實徵分析……………………………………………………47 第二節民眾健康影響因素分析……………………………………………………61 第五章結論與建議…………………………………………………………………74 第一節主要研究發現………………………………………………………………74 第二節實務意涵……………………………………………………………………78 第三節研究結論……………………………………………………………………79 第四節研究限制與建議……………………………………………………………80 參考文獻……………………………………………………………………………….82. 4.
(7) 表目錄 表 2-1:混淆矩陣…………………………………………………………………………15 表 2-2:決策樹演算法比較………………………………………………………………17 表 2-3:二分類別依變數行預測結果表…………………………………………………25 表 2-4:決策樹相關文獻應用……………………………………………………………29 表 2-5:決策樹與其他模型之準確率評估………………………………………………30 表 3-1:人事資料庫之敘述統計表………………………………………………………36 表 3-2:2010 年華人家庭動態資料庫之敘述統計表……………………………………37 表 3-3:華人家庭動態資料庫之研究變數………………………………………………38 表 3-4:本研究之混淆矩陣………………………………………………………………45 表 4-1:人事資料庫之參數估計─有「薪資資料」………………………………...........49 表 4-2:人事資料庫之參數估計─無「薪資資料」………………………………...........49 表 4-3:篩選變數前包含薪資變數的決策樹分析規則集………………………………50 表 4-4:篩選變數後包含薪資變數的決策樹分析規則集……………………………....52 表 4-5:篩選變數前不包含薪資變數的決策樹分析規則集……………………………54 表 4-6:篩選變數後不包含薪資變數的決策樹分析規則集……………………………56 表 4-7:人事資料庫之決策樹 C5.0 變數篩選前後結果比較表………………………..58 表 4-8:人事資料庫之模型評估…………………………………………………………60 表 4-9:華人家庭資料庫之參數估計─2010 年 RR 健康狀況…………………….…..63 表 4-10:華人家庭資料庫之參數估計─2008 年 RR 健康狀況.………………………63 表 4-11:華人家庭資料庫之參數估計─2006 年 RR 健康狀況……………….………63 表 4-12:華人家庭資料庫之參數估計─2002 年 RIII&RIV 健康狀況………….……64 表 4-13:華人家庭資料庫之參數估計─2000 年 RII 健康狀況……………………….64 表 4-14:華人家庭資料庫之參數估計─2000 年 RI 健康狀況………………………..64 表 4-15:華人家庭資料庫之羅吉斯迴歸結果彙整……………………………….........66 表 4-16:華人家庭資料庫的決策樹分析規則集……………………………………….67 表 4-17:華人家庭資料庫之決策樹 C5.0 變數篩選前後結果比較表………………..71 表 4-18:華人家庭資料庫之模型評估………………………………………………….73. 5.
(8) 圖目錄 圖 圖 圖 圖 圖 圖 圖 圖 圖. 2-1:決策樹…………………………………………………………………………14 3-1:研究流程圖……………………………………………………………………35 3-2:人事資料庫之決策樹 C5.0 模型……………………………………………43 3-3:調整後的人事資料庫之決策樹 C5.0 模型…………………………….……44 3-4:華人家庭資料庫之決策樹 C5.0 模型……………………………………….44 4-1:決策樹 C5.0 模型分析─有「薪資資料」…………………………………51 4-2:經變數篩選之決策樹 C5.0 模型分析─有「薪資資料」…………………53 4-3:決策樹 C5.0 模型分析─無「薪資資料」…………………………………55 4-4:經變數篩選之決策樹 C5.0 模型分析─無「薪資資料」…………………57. 附 錄 附錄一:華人家庭資料庫之羅吉斯迴歸分析…………………………………………..88 附錄二:華人家庭資料庫之決策樹分析規則集………………………………………..98. 6.
(9) 第一章 緒論 第一節. 研究背景. 隨著數位科技的快速發展與普及應用,數據分析不但廣受重視,資料探勘技術 在數位化商務上已有相當之成效與成功範例。根據國際數據資訊公司(IDC)研究機構 的分析,這個世界上的資料正以每兩年翻倍的速度增加中。應網路科技發達及 3C 電 子商品的普及,各領域的資料量呈現相當大幅度地增長,加上現今資訊快速流通下, 資料/訊更是容易取得,著名的谷歌(Google)曾經大量收集相關疾病資訊得以事先出 預測流感的趨勢,表示一般民眾相當善用網路資源做資訊收集,也顯示出對於自身 健康狀態是非常關心。而谷歌也相當善用網上的點擊與輸入,於是 google 的搜尋引 擎上常常搜尋的字眼尚未輸入完畢,便能夠顯示出最為多人搜尋過的關鍵字為何。 基本上,資料(data)已經普遍被接受為企業組織裡一項最重要的資產,在資訊量 急劇增加時從中獲得有效的資訊,最後轉換成智慧的過程中,即是資料探勘中的精 髓所在,因此各界無不思考如何應用資料探勘來挖掘與篩選出良好的資訊於此巨量 資料之時代。資料探勘(data mining)是指在資料庫中,利用各種分析方法與技術,將 過去所累積的大量歷史資料,進行分析、歸納與整合等工作,以萃取出使用者感興 趣的資訊,同時能夠利用過去的資料來分析過去的行為,並進而建立模型以預測未 來(姚昌辰,2014;廖述賢、溫志皓,2009;簡禎富、許嘉裕,2014)。資料探勘的方 式有許多種,分類(category)是最常使用到的一種功能,分類的目的主要是針對一個 帶有多個群集的離散目標變數,尋找能夠加以有效辨識的投入變數,期能將每一個 群集的特徵清楚定義,據以建立模型,將未歸類的原始資料分門別類(廖述賢、溫志 皓,2009)。能夠用於分類的資料探勘技術甚多,其中最廣為使用者為決策樹分析 (decision tree analysis)。決策樹分析為一監督式資料探勘技術,具有特徵選取與描 述功能,所建立的樹狀規則邏輯易於了解與應用,因此本研究將以決策樹分析作為 討論的焦點。 傳統上在資料探勘中,縮減變數的方式有特徵選取、特徵萃取、因素分析、主 成份分析等等,決策樹分析的特徵選取策略為資訊增益量測(information measurement) 的評估,又稱決策樹特徵選取法。其關鍵是透過熵(entropy)量測,衡量變數對目標變 數的區分能力,去除較不相關或多餘的變數或是透過樣本的選取技術刪除資料庫中 重複和錯誤的資料(簡禎富、許嘉裕,2014),而當決策樹分析作為主要的分類探勘工 具時,其執行效能(effectiveness)高低取則決於變數的多寡與選擇的過程,因此若能 找到輸入變數選擇的適切方法,可能會獲得較佳的決策樹分類結果。. 7.
(10) 回顧過去文獻上所使用決策樹模型分析或一般實務上應用的經驗,可發現決策 樹分析可能因為樣本數太大導致模型過度訓練所以錯誤率較高;此外,資料探勘的 分析模型對資料進行分類及預測時,決策樹模型的準確率卻不如其它的模型,例如 類神經網路及迴歸(Chang et al., 2009)、(Resul, 2010)。可以見得決策樹的分類能力很 好,但成果不彰,可能原因是決策樹分析法是依據貪婪演算法(greedy algorithm),於 每一步面臨決策時,都會看重當前最有利的選擇而沒有考慮到對未來是否有不利之 影響。因重複選取屬性或變數作為分割變數不僅產生多餘的規則,也會造成決策樹 過於龐大而不容易解釋。因此當決策樹欲進行分類之前,若能先行刪除不必要的變 數或篩選出良好的變數,此時的決策樹模型的分析成果應能夠有所提升。 決策樹雖可針對離散目標變數的分類有效地做出決策法則,但分析過程中在投 入變數的選擇上並無有效的先行策略。環顧各種主流的多變量統計技術中,功能相 仿且能夠有效選擇重要解釋變數者,羅吉斯迴歸不失為一個最適方法。羅吉斯迴歸 (logistic regression)是一套基於迴歸分析所發展用以預測類別依變數的統計檢定技術, 其所考量的主要是每一個觀察值在一組自變數的影響下,在依變數上產生特定結果 的機率值。羅吉斯迴歸特別適用於當依變數與某個自變數並無線性關係之時。由於 依變數必須為類別變數,因此羅吉斯迴歸先將依變數數值轉換成機率值,再利用取 對數值的方式轉為線性關係,進行自變數與依變數的迴歸分析(邱皓政,2008)。因決 策樹分析法與羅吉斯迴歸同屬於監督式學習法,是依據所選擇的變數與對應的目標 變數找出相對應的規則,表示這兩種方法在分析資料上有共同之標的,得以加以整 合運用。 回顧過去與決策樹分析與羅吉斯迴歸兩者有關的文獻可以看出,過往的研究多 將兩種方法同時使用於研究議題上的分析與討論,藉以比較兩者間的準確性與效能, 例如 Jian 等(2007)與許榮傑(2008)的研究分別使用決策樹模型或羅吉斯迴歸來進行資 料探勘研究,其他學者則將羅吉斯迴歸與決策樹分析法一同進行於資料探勘來建立 模型 (Meng et al., 2013; 曾仁人,2013; 余依良等人,2012),但是卻鮮少針對羅吉斯 迴歸作為篩選變數的先行策略進行深入討論,因此,對於如何導入羅吉斯迴歸此一 重要的多變量統計技術來提升決策樹分類效能是一個值得探討的知識缺口。 在多變量統計領域,迴歸分析可說是發展最成熟的方法,其主要優勢是可以利 用線性整合原理納入一系列的投入變數來解釋連續依變數的變異,並提供多元化的 變數重要性判斷指標與檢定方法。但如果依變數的尺度是離散的類別變數,甚而其 中可能包含兩個、三個甚至多個類別,便需將傳統的線性迴歸擴展至羅吉斯迴歸, 也是在傳統多變量統計的方法中,最常用來判別及預測類別依變數的模型或變數選 擇之方法。因此本研究將引入羅吉斯迴歸進行變數重要性與顯著性的分析,以 Wald 檢定進行判定與變數選擇,進而提升決策樹的分類效能。 8.
(11) 在決策樹分析部分,得以進行規則建立的各種演算法中,C5.0 演算法能夠處理 更多元的資料且以單純的演算法進行分析,故本研究將著重於 C5.0 演算法搭配羅吉 斯迴歸之篩選變數模式探討資料庫的分類預測。本研究除了探討二階段分類探勘的 程序應用於傳統的單期資料,也對於多年期的資料,例如華人家庭動態資料庫蒐集 2000 至 2011 年間 12 個年度的台灣民眾相關工作與家庭狀態資料,以本研究所提出 的二階段整合策略來配合決策樹分析與羅吉斯迴歸的整合應用探討其分類效能。. 第二節. 研究目的. 綜合前述的說明,本研究的主要目的在於探討如何將多變量統計方法中用來探 討依變數為類別型變數的羅吉斯迴歸分析法,以兩階段模式來整合應用,藉以提升 決策樹分析。具體的研究目的條列如下: 1. 探討決策樹模型以 C5.0 演算法進行分類效能。 2. 運用羅吉斯迴歸進行變數重要性與顯著性的判定與變數選擇程序。 3. 探討羅吉斯迴歸所提供的變數解釋力能否有效進行變數選擇以協助決策樹分析。 4. 整合及評估此兩種方法在資料分類效果上能否有顯著改善之效果。 5. 探討 C5.0 演算法搭配羅吉斯迴歸應用於多年期資料分析的程序。 在實徵數據分析部分,本研究採取兩個資料庫進行分析檢驗:第一個資料庫是 SPSS 軟體工具所提供的人事資料庫,本研究以帶有職員、保全、管理層級三個群集 的職別變數作為目標變數(以職員為參照組),投入變數為薪資資料與員工的性別、 教育程度、資歷與種族背景等背景變數,此一資料庫的特色是帶有兩個與職別變數 具有高度相關的薪資變數,因為解釋力很高,因此對於分類效果具有絕對強勢的影 響力,可作為本研究比較變數篩選策略的效果之用。 第二個資料庫是中央研究院所釋放的「華人家庭動態資料庫」多年期固定樣本 追蹤資料,由於其建置過程嚴謹,資料豐富,因此適合進行資料探勘的研究。本研 究所選擇的目標變數為民眾的身體健康程度,投入變數為個人背景變數、家庭狀況 變數、工作特性變數、財務狀況變數與居住環境變數等五大類。因「華人家庭動態 資料庫」的資料數相當龐大且為多年期資料之串連,故從資料庫中的十二個年度裡 選取其中五個年度分別作為分析的資料,探討分析方法的整合運用。. 9.
(12) 第二章. 文獻探討. 本章整理了本論文所提及的分析方法原理與相關文獻資料,第一節說明資料探 勘的定義和功能,第二節討論決策樹及常見的決策樹演算法,第三節討論羅吉斯迴 歸,第四節回顧相關研究方法及文獻比較,第五節則是實徵資料庫的背景文獻回顧。. 第一節. 資料探勘. 資料探勘是一門相當熱門的技術,應用範圍甚廣,包含金融、行銷、運輸、電 信、醫療生技業…等,是近年來於資料庫應用領域中相當熱門的議題。它不僅僅是 從龐大的資料群裡找出所要的資訊,更是一門結合資訊科學與統計學相關理論的方 法學,藉由各種功能與模式的導入與實踐,使得資料探勘之應用遍及各個領域(廖述 賢、溫志皓,2009)。資料探勘一般是指在資料庫中,利用各種分析方法與技術,將 過去所累積的大量歷史資料,進行分析、歸納與整合等工作,以萃取出使用者感興 趣的資訊。資料探勘可分為六種功能:分類(Classification)、推估(Estimation)、預測 (Prediction)、集群(Clustering)、關聯(Association Rule)與順序(Squential) (廖述賢、溫 志皓,2009)。使用資料探勘是希望能夠利用過去的資料來分析過去的行為,並建立 一個模型以預測未來。擁有一套完整的系統協助挖掘資料之過程,並運用電腦來處 理複雜且龐大的資料已成為一種趨勢,因此如何從複雜的資料中,分析並找出隱藏 於其中有用的知識,儼然已成為一項重要的研究課題。資料探勘的六種功能各具有 不同的特性與應用時機,目前亦沒有任何一種技術能夠同時包含上述的所有功能。 分類是最常使用的資料探勘方法之一,本論文也將著重在探討分類與預測之研究。. 一、 資料探勘之定義 Curt(1995)指出資料探勘是一種資料轉換的過程,從最初沒有組織的數字與文字 之資料集合,先轉換為資訊,再轉換為知識,最後產生相關的決策支援。而根據 Han and Kamber(2000)對資料探勘所下的定義:Data mining is the process of seeking interesting or valuable information in large data bases。意即,資料探勘是發現知識後, 將隱含的、先前不知道的、潛在有用的資訊將資料庫中萃取出來的過程。Keim, Pansea, Sipsa & Northb(2004)認為資料探勘即為從所觀察的資料中,萃取觀察者所感興趣的 類型(pattern)或模型(model)。Grupe and Owrang(1995)、Fayyad 等學者(1996)則認為資 料發掘是由已經存在的資料中,發掘潛藏有用的資訊,以提供決策人員參考,故可 10.
(13) 將資料探勘視為資料庫知識發掘(Knowledge Discovering in Databases, KDD)的步驟 之一。Berry and Linoff(1997)指出資料探勘技術的進步,是因資料倉儲的技術使得資 料的存取更加方便,還有相關的萃取工具不斷研發出來,而 Hui & Jha(2000)則延續 這樣的概念,指出新技術、科技可以協助分析,並利用所儲存於資料庫或倉儲等相 關儲存庫之大量資料,從中找到如類型(pattern)、關聯(association)、改變(change)、 異常(anomaly)和重要結構(significant structure),稱之為資料探勘。 依據廖述賢(2007)學者之多年研究於資料探勘,茲將所整理之定義呈現如下: 1. 資料探勘是一種資料轉換的過程,先將沒有組織的文字與數字集合的資料轉換 為資訊,再轉換為知識,最後產生決策。 2. 資料探勘為知識發現的一個步驟,目的在於找出資料中有效的、嶄新的、潛在 有用的易於了解之樣式的一個不繁瑣的過程。 3. 由資料庫、資料倉儲或其他資訊的儲存庫中,利用已儲存之大量資料找到知識 的過程,稱為資料探勘。 4. 資料探勘是指尋找隱藏在資料中的訊息,如趨勢(trend)、類型(pattern)及相關性 (relationship)的過程,也就是從資料中來發掘資訊或知識。 5. 資料探勘,即為從資料庫中發現知識,因為近來大量商業化的資料湧入,故而 需要此種技術以使得資料自儲存單元中分析、萃取,甚而能提供視覺化的決策 支援。. 二、 資料探勘之功能 資料探勘分為六種功能(Berry & Linoff, 1997;廖述賢,溫志皓,2012),分類 (Classification)、推估(Estimation)、預測(Prediction)、集群(Clustering)、關聯(Association Rule)與順序(Squential),前三種功能屬監督式學習的資料探勘,後三者即為非監督式 學習的資料探勘。監督式學習的意思指,在資料分析前,已經事先設定欲探索的的 變數,並針對這些變數進行分析的工作;相對地,處理非監督式學習的資料探勘問 題時,並沒有預設任何欲探索的變數,企圖找出所有變數中是否存在著某些潛伏的 關係。這些資料探勘的應用程式和技術的共同目標包含偵測、解釋和預測料的質化 或量化的樣式,為了達成這些目標,資料探勘使用了多種機械學習(machine learning)、 人工智慧(Artificial Intelligence)、統計(Statistic)、和結構性查詢語言(Structure Query Language,SQL)處理的技術(廖述賢、溫志皓,2009) 。 六種功能敘述如下(廖述賢、溫志皓,2012): (一) 分類(Classification):分類是將每一個群集資料之特徵清楚定義,並透過訓練組 的資料建立出模型,再利用此模型將未歸類的原始資料加以分類,而分類的結 11.
(14) 果是不連續的。分類是資料探勘中最為普遍使用的一種功能,其所較常使用的 方法為決策樹、記憶基礎推理與連結分析。 (二) 推估(Estimation):與分類的功能相似,將所得之原始資料,依分析對象的屬性 分門別類加以定義,找尋共同性質並建立類組的過程,而推估的結果是連續的。 推估根據既有的連續性數值之相關屬性資料,求得某一屬性未知的值。最常使 用的方法為相關分析、迴歸分析與類神經網路。 (三) 預測(Prediction):預測指的是利用一個或多種獨立變數找出某個標準或因變數的 值。與前述兩功能相近,只不過預測是推估未來的的數值與趨勢。概念是將目 前的新的數值輸入到此模型中,其運算結果即是未來狀態的預測。最常使用的 方法為迴歸分析、類神經網路、案例庫推理與時間序列分析法。 (四) 集群(Clustering):也稱作同質分組或群集,將一群異質的群體區隔為同質性較高 的群體或子群。集群分析是在檢驗某種相互依存的關係,主要是顧客間特性的 相似或差異關係,透過將顧客特性進一步分割成若干類別而達到市場區隔的目 的(謝邦昌,2005),使用的方法為 K-means、Two steps 與 Agglomeration。 (五) 關聯(Association Rule):關聯分組的功能是在發掘哪些事物總是會同時發生,從 所有物件來決定哪些相關物件應該放在一起,而最典型的案例即為購物籃分析, 也稱此種分析功能為購物籃分析,企業可藉此做市場區隔與目標市場的規劃和 應用(廖述賢,2007)。最常使用的方法為 GRI 與 Apriori。 (六) 順序(Squential):根據既有的連續性之相關屬性資料,以獲得某一屬性未知的值, 這項技術會辨識過去的樣式,如分析客戶過去多次的購物行為(廖述賢,2007), 而順序所探勘的項目是以時間做區隔(曾憲雄等,2005)。例如,考慮購置房產的 消費者,一開始可能先入手小套房,經一段時間於房市情況佳或貸款利率更優 惠時便轉為投資坪數較大或帶有車位之房型,即所謂以小屋換大屋,再經過幾 年轉為購入自用宅而非以投資角度購置房產。最常使用的方法為時間序列與時 序分析。 由於本研究以分類技術的討論為主,因此以下將詳述分類技術當中最常被使用 的決策樹分析的原理與技術。. 12.
(15) 第二節. 決策樹分析. 一、 決策樹的建構 (一) 決策樹介紹 決策樹在資料探勘的研究領域中具有分類與預測功能的技術,藉由分析給定的 原始資料,建立適當的分類規則,並根據此規則對未知結果的資料作預測。決策樹 的主要功能在於能夠將輸入變數依據演算法規則對資料進行分類,根據分析目的, 事先決定目標變數及輸入變數,經過演算法計算後,分類結果以樹枝狀的層級架構 呈現,於經過修剪後的決策樹可以做為資料探索或預測,並且將分類的規則以簡單 明瞭的方式呈現,讓使用者能輕易了解所分類的規則。決策樹的優點在於它清楚地 展現目標變數與各個變數之層級關係,也很容易解釋分類結果的意義。 進行決策樹的資料分析時,通常會將資料集分成兩個部分:訓練資料組(training Set)與測試資料組(testing Set)。訓練資料組是為建構決策樹模型所需之樣本;而測試 資料組則是為檢測此一訓練資料組所建構的決策樹模型之準確度所需的測試樣本。 不論訓練資料組或測試資料組皆需投入輸入變數與目標變數。 若一個決策樹模式僅在訓練資料有很低的錯誤率,但在測試資料組上卻有很高 的錯誤率,則表示該模型過度配適(overfitting),造成已建立的模型無法推估於其它 資料,因此在建立決策樹訓練模型之後,應根據估計測試資料的分類表現,適當地 修剪決策樹,增加其分類及預測的正確性,以避免過度配適。 決策樹是一個以樹狀圖為基礎的方法,其頂端的節點稱為根節點(root node),最 下方的節點則稱為葉節點(leaf node),每個葉節點皆有一個級別標記(class label),亦 可稱為目標屬性(target attribute)。當給定的原始資料從根節點進入決策樹後,可應用 各種不同的決策樹演算法來決定每筆資料該進入下一層的哪一個子節點(child node), 此過程不斷地重複,直到所有的資料到達葉節點。此外,從根節點到每一個葉節點 都有一條獨特的路徑(path),每一條路徑皆表示一個分類資料的規則,所以將未分類 的資料透過這些路徑進行類別預測,可得到未知資料的分類結果。決策樹是機器學 習的分類方法之一,它的可讀性與良好的預測能力,以及它所產生的各種風險規則 與良好的分類結果,有助於企業或組織更好地理解分類成果的特性,並能準確地結 合實務應用。. 13.
(16) 根節點. 子節點. 葉節點. 圖 2-1:決策樹. 1. 根節點(root node):原始資料母體。 2. 子節點(child node):根據最佳變數產生分叉。 3. 葉節點(leaf node):不斷的重複決策過程,直到資料無法分割即終止。. 決策樹因演算法的不同,亦有不同的分析方法,Han and Kamber(2001)指出目前 決 策 樹 的演 算法大致 有 CHAID、CART 、 C5.0 與 QUEST 四種 演算法; 其中 CHAID(Chi-square Automatic Interaction Detection)是由 Kass 在 1980 提出,分類和迴 歸樹(Classification and Regression Tree,CART)是由 Breiman、Friedman、Olshen 及 Stone 在 1984 提出,而 QUEST(Quick、Unbiased、Efficient Statistic Tree)則是由 Loh&Shi 在 1997 提出。 C5.0 演算法是 Quinlan 在 1986 年所提出的 ID3 演算法所發展而來,已經廣泛應 用在推論系統和概念學習系統,C5.0 經由 ID3 以及 C4.5 的不斷改良測試之後,已是 最具有效率以及準確性的演算法(Quinlan,2003)。 其中決策樹演算法對連續性的屬性預測已經有相當大的改善,以 CART 而言, 不需事先將資料轉換成類別型態,目標變數為類別型態,形成類別樹,若目標變數 為連續型態,則可形成迴歸樹;同樣地,Quinlan 學者改良後的決策樹 C4.5、C5.0 演算法已可以處理連續型和類別型的資料型態,依照使用者的需求設定生成決策樹 或規則集(rule sets),且 C5.0 在處理遺漏值的資料和很多欄位的資料時已是相當穩健 的。. 14.
(17) (二)分枝規則與修剪規則 決策樹的分枝規則決定樹的大小,包含樹的寬度及樹的深度。常見的分枝規則 有:Gini 係數(Gini Index)、卡方統計量(Chi-square Statistic)、資訊增益(Information Gain)、資訊增益比(Information Gain Ratio)等。 決策樹的修剪規則分為事前修剪(pre-pruning)與事後修剪(post-pruning)。事前修 剪用於決策樹在一開始的生長過程中,於事先設定停止決策樹生長的門檻值,一般 設定門檻的方式,是當分割的評估值未達到此門檻值時,就會停止決策樹的生長。 這樣的方式較有效率,但可能會有過度修剪的缺點,導致樣本數太少的葉節點。 事後修剪則是在樹完全長成後才做修剪,此種方法是引入測試樣本來驗證決策 樹模型對於新輸入的變數之分類與預測之結果。雖然是在樹長成之後才進行修剪, 效率較差,但對於解決決策樹的過度配適具有相當正面的效益,可避免產生稀少樣 本數的葉節點,增強決策樹對於雜訊的忍受程度。方法包括最小成本複雜修剪 (minimal cost-complexity pruning, Breiman et al., 1984),該做法同時考慮分類錯誤率以 及決策樹的規模大小,先以排列組合的方式列出數種修剪後的決策樹,再計算這些 樹的分類錯誤率與決策樹複雜度(即節點個數),並找出具有最小誤差的決策樹(簡禎 富、許嘉裕,2014)。 (三)模型評估 評估一個決策樹分類模型的好壞,可從兩個面向去評估分類與預測之表現:(1) 以測試組資料的結果來客觀評估較佳的決策樹模型,例如分類錯誤率。(2)由於分類 規則的萃取隨著問題而不同,會因環境而造成規則解釋的差異,因此在客觀評估後, 通常須由專家依據背景選出最適合的決策樹模型(簡禎富、許嘉裕,2014)。 針對分類的評估指標,主要採用混淆矩陣(confusion matrix)評估模型的正確程度。 假設類別為兩種情況,例如買與不買,分別表示為 positive 與 negative,如表 2-1 所 示。 表 2-1:混淆矩陣 預測類別. positive. Negative. positive. TP(true positive). FN(false negative). negative. FP(false positive). TN(true negative). 實際類別. 15.
(18) 當預測類別為 positive 與實際類別為 positive,為 TP(true positive)。當預測類別 為 positive 與實際類別為 negative,為 FP(false positive)。當預測類別為 negative 與實 際類別為 positive,為 FN(false negative)。當預測類別為 negative 與實際類別為 negative, 為 TN(true negative)。依據上述分類結果,可計算出一般常用的評估方式,如下: 正確率(accuracy): 𝑇𝑇𝑇𝑇 + 𝑇𝑇𝑇𝑇 𝑇𝑇𝑇𝑇 + 𝑇𝑇𝑇𝑇 + 𝐹𝐹𝐹𝐹 + 𝐹𝐹𝑁𝑁. 分類錯誤率(misclassification error rate): 1 − Accuracy =. 𝐹𝐹𝐹𝐹 + 𝐹𝐹𝐹𝐹 𝑇𝑇𝑇𝑇 + 𝑇𝑇𝑇𝑇 + 𝐹𝐹𝐹𝐹 + 𝐹𝐹𝐹𝐹. 敏感度(sensitivity) /回想率(recall):. 準確度(specificity):. 精準率(precision):. 𝑇𝑇𝑇𝑇 𝑇𝑇𝑇𝑇 + 𝐹𝐹𝐹𝐹. 𝑇𝑇𝑇𝑇 𝑇𝑇𝑇𝑇 + 𝐹𝐹𝐹𝐹 𝑇𝑇𝑇𝑇 𝑇𝑇𝑇𝑇 + 𝐹𝐹𝐹𝐹. 其中回想率(recall)與敏感度(specificity)的計算方式相同,此乃為因應各領域中所 需之應用而有不同的名詞呈現。. 16.
(19) 二、 決策樹演算法 (一)決策樹演算法之比較 表 2-2 依據 Han and Kamber(2001)所提及的四種決策樹演算法,再加上 C5.0 演 算法之前身一併討論與比較。 表 2-2:決策樹演算法比較。 演算法. CHAID. CART. ID3. C4.5. C5.0. QUEST. 作者. Kass(1980). Briemen(1984). Quinlan(1986). Quinlan(1993). Quinlan(1998). Loh&Shih (1997). 功能. 分類. 分類. 分類. 分類. 分類. 分類. 變數型態. 類別. 連續或類別. 類別. 連續或類別. 連續或類別. 連續或類別. 節點 分支數目. 大於 2. 連續/類別:2. 連續/類別:2. 分枝準則. 𝑥𝑥 2 -test. Gini Index. Information Gain. 連續:2 類別:大於 2 Information Gain Ratio 基於錯誤的 修剪. 修剪規則. 事前修剪. 成本複雜性 修剪. 連續:2 類別:大於 2 Information Gain Ratio 基於錯誤的 修剪. 分類機率. 不可設定. 可設定. 不可設定. 遺漏值. 遺漏值分支. 𝑥𝑥 2 -test F-test 測試樣本 或交互驗證 可設定. 內插法或 代理變數 資料來源參考:簡禎富、許嘉裕(2014),資料挖礦與大數據分析表 4.9,及相關 內插法. 機率加權. 書籍資料綜合整理。. (二)名詞解釋 將相關名詞條列整理如下: 1. 訓練資料組(training set):用以建立模型之樣本。 2. 測試資料組(testing set):用以評估訓練資料所建立的模型之準確度所需的測試 樣本,探索是否過度複雜或其通用性。 3. 驗證資料組(validation set):用以衡量模型的好壞。 4. 交互驗證(cross-validation):將資料分成 k 個子樣本,輪流將 k-1 個子樣本作為 訓練樣本,剩下一個子樣本當作測試樣本,重複進行 k 次建立模型的工作之 後,找出準確度最高的分類模型,也稱作 k 疊交互驗證法 (k-fold cross validation),適合用在樣本空間不多的情況。 5. 成本複雜性修剪:即最小成本複雜修剪(minimal cost-complexity pruning). 17.
(20) 三、 決策樹 C5.0、分類與迴歸樹(CART) 至目前,在相關研究中多數研究採用 C5.0 演算法或 CART 演算法,故下段文章 將以該兩種決策樹演算法為主要之介紹。 (一)決策樹 C5.0 1. 決策樹 C5.0 之演變歷程 ID3 演算法是由 Quinlan 於 1986 年所提出的演算法,由於該演算法不能處理連 續型屬性的問題且不適合處理大型的資料集,於是在 1993 年便提出 C4.5 演算法。 此兩種演算法最大的差別在於 ID3 演算法僅能處理類別型態的變數,而 C4.5 演算法 則能處理變數為類別型或連續型的屬性。ID3 演算法所使用的資訊增益(information gain)會因某個屬性的數值較多,而誤認該屬性對資料有較大解釋力,因此在 C4.5 演 算法中改用了資訊增益比(information gain ratio)來改善這個問題,選取有最大資訊增 益率(information gain ratio)的分割變數作為準則,避免 ID3 演算法過度學習(overfitting) 的問題。 資訊增益比(information gain ratio)是修正 ID3 演算法的分枝準則,資訊增益比主 要是將資訊增益正規化的方法,利用分割資訊(split information)來修正過多子樹的問 題,透過資訊增益比(information gain ratio)計算純淨度變化量作為分枝準則。分割準 則的目的是用來檢視使用某屬性作為分枝節點時,父節點與子節點總和的純淨度變 化量,能使純淨度提升越多的屬性就是有效的分割屬性。 此外,C4.5 演算法提供修剪決策樹的功能。C4.5 修剪的方法是以基於錯誤的修 剪方式作為判斷,當決策樹建置完成後進行剪修(pruning),修剪之方法是從決策樹的 葉節點向上測試每個子樹的節點預估錯誤率,並比較子樹節點與葉節點之間的預估 錯誤率,若子節點錯誤預估率較低,則子節點取代葉節點,並修剪掉原來的葉節點, 若子節點錯誤預估率較高,則保留原來的葉節點。. 2. 決策樹 C5.0 演算法 目前學術界與實務界最常使用的則屬 C5.0 演算法,它使用標準連續性的校正來 調整現有的修剪錯誤,並採用 Boosting 方式來提高模型的準確率,且佔用系統資源 與記憶體較少,計算速度上又較 C4.5 來得快(Upadhayay, 2012),已應用在推論系統 和概念學習系統,是最具有效率以及準確性的演算法(Quinlan,2003;廖述賢、溫志 皓,2009)。 C5.0 的核心演算法仍是以 C4.5 為主,同樣採用貪婪演算法。其演算法是先將每 一筆資料皆視為同一群,運用亂度(熵,entropy)的概念,計算各屬性之資訊增益,以 18.
(21) 挑選出最佳的屬性對資料進行分類。 C5.0 優點在於(廖述賢、溫志皓,2009): (1) 面對資料遺漏和輸入欄位很多的問題時非常穩健 (2) 通常不需要很長的訓練次數進行估計 (3) 比其他類型的模型易於理解,模型推出的規則有非常直觀的解釋 (4) 提供強大的增強技術提高分類的精度。. 3. 分枝準則 資訊衡量(information measurement)是根據不同訊息的概似值或機率,以衡量 不 同條件下的資訊量(Quinlan, 1983)。資訊增益則依據資訊理論(information theory)中之 熵(entropy)的計算為基礎,常用以衡量資料離散程度或亂度,利用資料對應類別之分 佈來當作資訊的純粹程度指標(purity),並以資訊量計算法來計算出某個屬性分割前 後之差異量(gaining)。以具有兩種類別的資料集來說,其資訊量數值的分佈將會介於 0 與 1 之間,資訊量越接近 1 則表示資訊之凌亂度越高(impure),此情況出現在兩類 別分佈比率恰好為 1 比 1 時;而資訊量越低則表示資訊凌亂度越低(pure),此情況 會出現在資料集中僅含有其中之一的類別時。 (1) 計算期望資訊𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼(S):針對目標變數所對應的類別總數計算期望資訊。 𝑛𝑛. 𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼(𝑆𝑆) = − � 𝑝𝑝𝑖𝑖 log 2 (𝑝𝑝𝑖𝑖 ) 𝑖𝑖=1. 其中 S 是資料或樣本 s 的集合,n 為資料集合 s 中具有 n 個不同類別 C𝑖𝑖 (i=1,2,…,n), 𝑠𝑠. s𝑖𝑖 是每個C𝑖𝑖 的類別數,其中𝑝𝑝𝑖𝑖 是任一實例可能屬於 C𝑖𝑖 之機率,即 𝑠𝑠𝑖𝑖 。. (2) 計算分割後期望資訊 E(𝐴𝐴):將 A 屬性做為區分子集合的期望資訊,重複此. 步驟至所有屬性之資訊量計算完畢。假設sij 表示C𝑖𝑖 類別的子集合Sj 集合的實 例,其熵(entropy)值為: 𝑛𝑛. E(𝐴𝐴) = � 𝑗𝑗=1. 𝑆𝑆1𝑗𝑗 + 𝑆𝑆2𝑗𝑗 + ⋯ +𝑆𝑆𝑛𝑛𝑛𝑛 𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼�𝑆𝑆1𝑗𝑗 + 𝑆𝑆2𝑗𝑗 + ⋯ +𝑆𝑆𝑛𝑛𝑛𝑛 � 𝑠𝑠. 其中 A 表示屬性(Attribute),且假設有 v 個不同的值{𝑎𝑎1 , 𝑎𝑎2 , … , 𝑎𝑎𝑣𝑣 },則 A 屬性. 可將 S 區分為 v 個子集合{𝑠𝑠1 , 𝑠𝑠2 , … , 𝑠𝑠𝑣𝑣 },其中 Sj 就表示 S 集合中屬於 A 屬性 aj 值的實例所形成的集合,當 A 屬性被選為測試屬性時,便會將包含 S 集合的 19.
(22) 𝑆𝑆1𝑗𝑗 +𝑆𝑆2𝑗𝑗 +⋯+𝑆𝑆𝑛𝑛𝑛𝑛. 節點區分成其對應的子集合。其中. 𝑠𝑠. 是指第 j 個子集合的加權值,. 也是該子集合內的實例數除以 S 集合的實例數。當 entropy 值越小,表示子集合 的純度越高。 (3) 所區分的子集合 Sj 之期望資訊為:. 𝑛𝑛. 𝐼𝐼(𝑆𝑆1𝑗𝑗 + 𝑆𝑆2𝑗𝑗 + ⋯ +𝑆𝑆𝑛𝑛𝑛𝑛 ) = − � 𝑝𝑝𝑖𝑖𝑖𝑖 log 2 (𝑝𝑝𝑖𝑖𝑖𝑖 ). 𝑃𝑃𝑖𝑖𝑖𝑖 =. 𝑠𝑠𝑖𝑖𝑖𝑖. �𝑆𝑆𝑗𝑗 �. 𝑖𝑖=1. 表示𝑆𝑆𝑗𝑗 集合中的樣本屬於𝐶𝐶𝑖𝑖 類別的機率。. (4) 資訊增益 Gain(A):利用屬性 A 對資料集合進行分割的增益。 𝐺𝐺𝑎𝑎𝑖𝑖𝐼𝐼(𝐴𝐴) = 𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼(𝑆𝑆) − 𝑆𝑆(𝐴𝐴). 最後選擇分割屬性的規則是以找出能獲得最大資訊增益之屬性作為其分枝的節 點,即該屬性對總資訊量之降低最有效,Gain值愈大,表示用來分類的資料會 愈佳。. (二)分類與迴歸樹(Classification and Regression Tree, CART) 1. 分類與迴歸樹介紹 由於分類與迴歸樹(CART)可用在各種形式的資料上而越來越受歡迎,且為一無 母數過程,無須事先建立模型,是相當簡便的方法。分類和迴歸樹指的是一個樹狀 結構,由 Breiman 在 1984 年提出,為一個二元式決策樹,樹的內部結點(internal node) 表示測試屬性,樹的分支(branch)表示測試後的結果,而樹的葉結點(leaf node)表示決 策類別及類別分布情形。針對目標變數作分析,若目標變數為類別變數,稱之為分 類樹(Classifacation Tree);反之為連續變數者,則稱之為迴歸樹(Regression Tree)。 CART 是使用二元(binary)分割的方法,所以僅只在每個節點上出現兩個分支, 而修剪決策樹的方式則採事後修剪的方式,根據成本複雜性修剪做為指標,期望以 最少階層的樹來得到最有效的分類。CART 生成估計模型一般不須花費很長的訓練時 間,且 CART 輸出欄位可以是數值型的資料,也可以是類別型的資料,是個十分便 利於使用者的分析模型。 CART 決策樹方法已經成功發展在許多分類應用上,包含癌症的存活及信用評等, 可自動檢驗找出最佳模型,根據測試集檢驗的結果,將樹修剪成最佳的樹狀結構。 最複雜的樹通常不會是最好的樹,因此決策樹學習法在建立決策之後將轉換成簡單 規則,以降低判斷資料類別的複雜度。透過規則建立,於新資料待分類時,可藉由 20.
(23) 此分類規則快速且具相當準確率來進行資料分類。 CART 演算法之特性整理如下(廖述賢、溫志皓,2009): (1) 為一無母樹過程,無須知道資料分配型態。 (2) 利用逐步的分法來決定分割規則,考慮所有參數之可能分割情形,不需要先選 擇分割的參數。 (3) 可以處裡複雜、多變數的資料結構。 (4) 無需事先將資料轉換成類別型資料。 (5) 資料中的離群值(outlier)並不會影響演算法的運算。. 2. 分枝準則 CART 以 Gini 係數作為決定分割變數的準則,在每個分枝節點進行資料分隔, 並建立一個二元式的決策樹,以決定最佳分割變數(Breiman et al., 1984)。Gini 係數由 義大利統計學家 Corrado Gini 於二十世紀初所發明。Gini 係數在資料中尋找最大的組 別,並且努力使它和其它組別分離。舉例來說,當有 A、B、C 和 D 四個組別,分別 佔資料的 40、30、20 和 10 個百分比,Gini 規則將會立刻企圖將 A 組別分在一個節 點,其他三組分在另一個節點,接著再將 B 組別和其它組分離成兩個節點,依此類 推。如果 Gini 規則是成功的,最後的樹將會包含四個單純的子節點。上述的單純決 策樹僅能在少數的情形下才能獲得,然而在大多數的實際應用上是很難將一組別和 其它組別完全的分離,儘管如此,Gini 還是盡可能達到這個理想。 而 Gini 指標指的是 Gini 係數之百分比率的呈現方式,Gini 係數的值介於 0 與 1 之間。傳統上利用 Gini 係數來呈現所有人口中之收入或是健康指數的一致性(例如當 所有人之收入及健康指數皆大於 0 時:Gini 係數等於 0,代表所有人口之收入或健 康指數皆相同; Gini 係數等於 1 代表皆不同)。 CART 的基本演算法是利用貪婪演算法(greedy algorithm),在面臨下一步的決策 時,會著重眼前最有利的選擇,而不考慮對未來不良的影響。針對 CART 分割所需 最小雜質改變量模型採用 Gini 係數;Gini 是 IBM Intelligent Miner 所使用的分類法(廖 述賢、溫志皓,2009),嘗試找出哪一個屬性能降低最多節點的分散度,也就是純度 增加最多或決策樹愈不複雜的意思。. 21.
(24) (1) 定義 Gini Index: 𝑛𝑛. Gini(A) = 1 − � 𝑃𝑃𝑗𝑗2 𝑗𝑗=1. 其中 A 代表資料集合,n 表示 A 集合中之不同的類別,𝑃𝑃𝑗𝑗 代表 A 之所有對應之 類別中類別 j 之出現機率。即當 A 對應之各類別數量分配越不均勻,G𝑖𝑖𝑛𝑛𝑖𝑖(A)越 小。 (2) 將 A 依分割點切成 A1、A2,其 Gini Index 定義為: 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 (A) =. 𝑁𝑁1 𝑁𝑁2 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺(𝐴𝐴1) + 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺(𝐴𝐴2) 𝑁𝑁 𝑁𝑁. 其中 A 的分割點不同,以及屬性的不同皆會產生不同的 Gini Index,尋找𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺(𝐴𝐴) 最小者作為新節點。 當 Gini 值越大,表示資料中樣本的類別分布越平均;若 Gini 值越小,則代表分 布越不平均(曾憲雄,2005;高克志,2006)。. 22.
(25) 第三節. 羅吉斯迴歸. 一、 羅吉斯迴歸的基本原理 羅吉斯迴歸是一套基於迴歸分析所發展用以預測類別依變項的統計技術。羅吉 斯迴歸所考量的主要是每一個觀察值在一組自變項的影響下,在依變項上產生特定 結果的機率值。羅吉斯迴歸特別適用於當依變項與某個自變項並無線性關係之時。 由於依變項須為類別變數,因此羅吉斯迴歸先把依變項數值轉換成機率值,再利用 取對數值的方式轉為線性關係,進行自變項與依變項的迴歸分析(邱皓政,2008)。 羅吉斯迴歸的要件是依變項須為類別變數,類別變數的各水準的次數轉換成機 率 P(Y),求出發生與不發生機率的勝敗率(odds): 𝑃𝑃(𝑌𝑌) 1 − 𝑃𝑃(𝑌𝑌). odds =. odds 值為介於 0 至無限大的機率比值,而以 1 為中間轉折點 odds=1 的自然對數 值為 0(ln1=0),代表依變項的兩種水準的次數相同。當 odds 值由 1 趨近於+∞時,自 然對數值則由 0 趨近+∞;當 odds 值小於 1 而趨近於 0 時,自然對數值則由 0 趨近−∞。 若將邏輯對數轉換值(例如是否擔任主管)作為依變項,以性別作為自變項,此時可以 建立一個最簡單的羅吉斯迴歸方程式: logit(odds) = 𝑙𝑙𝑙𝑙(. 𝑃𝑃 ) = 𝐵𝐵0 + 𝐵𝐵1 𝑋𝑋 1 − 𝑃𝑃. 上式即為一個迴歸方程式,迴歸係數𝐵𝐵1表示機率對數值(logit(P))隨著 X 變項變. 化的變動期望值。當𝐵𝐵1為正值,表示當 X 增加,依變項的勝率增加,當𝐵𝐵1為負值時, 表示當 X 增加,依變項的勝率對數值減少。𝐵𝐵0 與𝐵𝐵1 稱為羅吉斯迴歸係數(Logistic. Regression Coefficient),𝐵𝐵1值以 EXP(B)表示,反應每一單位自變項的變化,在依變. 項的 odds 的期望變動量。若研究具有多個自變項欲進行羅吉斯迴歸時,自變項對於 依變項的解釋須先進行線性整合(Z),此時可稱為多元羅吉斯迴歸。 基於不同的目的,研究者可採行不同自變項選擇程序以得到不同的結果,在應 用 SPSS 等統計軟體時,可以利用同時法、逐步法、階層法等不同的程序來進行迴歸 的分析(邱皓政,2008)。以 SPSS 軟體操作說明: (1) 同時分析法/強制輸入(Enter):將所有自變項同時納入模式中,對依變項進行影響 力的估計。 (2) 向前逐步法(Forward):依統計準則選擇具有最大預測力且統計水準達顯著的自變 數,再依序納入方程式中,直到所有達顯著水準的自變項均被納入模式中。 (3) 向後逐步法(Backward):與向前逐步法相反,所有的自變項先以同時分析法的方 23.
(26) 式納入方程式的運算中,然後逐步的將未統計顯著水準的自變項,以最弱、次 弱的順序自方程式中排除,直到所有未達顯著水準的自變項均被淘汰完畢為 止。 (4) 逐步分析法(Stepwise):綜合向前與向後逐步法,模型分析先依向前逐步法,逐步 納入最具預測效力的自變項,但每納入一個自變項後,即利用向後逐步法檢驗 方程式中的現有自變項,若有未達顯著的自變項便將淘汰,直到所有保留在方 程式中的自變項皆達到顯著水準為止。 (5) 階層分析法(Hierarchical):因自變項可能具有特定的先後關係,需依照研究者的 設計,以特定的順序來進行分析。依方程式中的自變數之類型區分「區組」(block), 區分後的第一個區組,以強制輸入法或逐步分析法進行分析,計算迴歸係數, 然後再次進行第二個區組的分析,依序完成對於依變項的迴歸分析。. 二、 模型檢定指標 (一)模型適配檢定 1. 適配度檢驗 羅吉斯迴歸可以利用模型適配度檢驗(goodness-of-fit test)與模型比較的方式,來 了解迴歸模型的適切性。用以衡量模型與觀察數據的契合程度為-2LL 值:當-2LL 越 小,代表模型越好;當-2LL 越大,表示模型越不同於完美的模型。(邱皓政,2008) 在一個羅吉斯迴歸模型中,僅包含常數項的模型稱為虛無模型,可以求出一個 -2𝐿𝐿𝐿𝐿0 值,此時的模式適配情形最差,-2𝐿𝐿𝐿𝐿0 非常大。若在模型中加入自變項後,也就. 是在迴歸方程式中加入𝐵𝐵1 𝑋𝑋項,可以得到另一個-2𝐿𝐿𝐿𝐿1 值,因為新模型增加了一個參. 數,稱為削減模型(r 教育程度(年)ed model)(因為少了一個自由度),此時可以將兩個 模型的-2𝐿𝐿𝐿𝐿值相減服從卡方分配,此時可利用卡方檢定進行模型改善的顯著性考驗。 𝑥𝑥 2 = −2𝐿𝐿𝐿𝐿1 − (−2𝐿𝐿𝐿𝐿0 ). 如果此一卡方值達到顯著,表示削減模型具有顯著改善作用,也就是新模型較 虛無模型能夠反應觀察變數,也表示迴歸模型較虛無模型為佳,迴歸模型成立。 2. 概似比指標 學界一般對於在類別資料模型中發展出的統計值,稱之為 Pseudo 𝑅𝑅 2 (可譯為類. 似判定係數),常見的指標為 McFadden(1973)所提出的概似比指標(likelihood ratio index)。概似比指標與一般迴歸模型判定係數的概念相當接近,任何採用 MLE 估算 法的統計模型皆可應用於了解常數項以外的其他解釋變數的強弱,其計算方式如下: 𝑙𝑙𝑙𝑙𝐿𝐿�𝛽𝛽� 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 𝑅𝑅 2 = 1 − 𝑙𝑙𝑙𝑙𝐿𝐿�0 24.
(27) 其中 ln 𝐿𝐿�𝛽𝛽� 是依所設定模型估算結果的完整對數概似函數,ln𝐿𝐿�0 則是等佔有率. (equal share)模型,也就是假設模型中所有β係數均為零時的對數概似函數。由於 ln𝐿𝐿�0 會比 ln 𝐿𝐿�𝛽𝛽� 來得大,因此根據此所計算出的概似比指標會介於 0 與 1 之間。但是概似. 比指標與線性模型的判定係數有相同的問題,亦即當新變數加入後數值會隨著增加, 因此 Ben-Akiva 與 Lerman(1985)建議如同調整判定係數的方式一樣,以係數參數的 數目 K 對概似比指標進行一些調整。透過下列的調整公式,只有新增的變數參數讓 ln 𝐿𝐿�𝛽𝛽� 增加超過 1,概似比指標才會繼續增加。(王鼎銘,2012) 𝑙𝑙𝑙𝑙𝐿𝐿�𝛽𝛽� − 𝐾𝐾 adjusted LRI = 1 − 𝑙𝑙𝑙𝑙𝐿𝐿�0. 無論是調整前或後的概似比指標,當指標越接近 1 時,表示解釋力越高;反觀. 若越接近 0 時,則表示解釋力越差。依據 McFadden(1973)所述,當指標達到 0.2 至 0.4 之間已算是有不錯的解釋能力,模型具參考價值。 3. 成功預測率 成功預測率(overall percent correct)是另一種可以判斷類別資料模型適合度的指 標,又稱之為 count 𝑅𝑅 2 (可譯為計數判定係數)。簡言之,為計算觀察值跟統計預測值. 一致的比例,是一種可以觀察模型成功預測樣本發生事件的指標。運用最大機率法 則(maximum probability rule)將每個樣本的數值代入迴歸模型中,如果機率發生大於 或等於 0.5,表示模型預期該事件發生,反之,小於 0.5 則事件不會發生。(王鼎銘,. 2012) 與決策樹之模型評估的混淆矩陣有著相同評估方式,如下表所示,以𝑛𝑛11 與𝑛𝑛22 代. 表模型成功預期的樣本數,𝑛𝑛21 與𝑛𝑛12 則為模型錯誤預期的樣本數,因此成功預測率的 公式為表 2-3。. 表 2-3:二分類別依變數模型預測結果表。 實際結果(𝑦𝑦) 1 0 總數. 1. 預測結果(𝑦𝑦�). 𝑛𝑛11. 總數. 0. 𝑛𝑛12. 𝑛𝑛21. 𝑛𝑛1+. 𝑛𝑛22. 𝑛𝑛𝑛𝑛+1. 𝑛𝑛2+. 𝑛𝑛𝑛𝑛+2. N. 資料來源:王鼎銘,2012。社會及行為科學研究法(三) pp.85-130 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑅𝑅 2 =. 𝑛𝑛11 + 𝑛𝑛22 1 = � 𝑛𝑛𝑗𝑗𝑗𝑗 𝑛𝑛11 + 𝑛𝑛12 + 𝑛𝑛21 + 𝑛𝑛22 𝑁𝑁 𝑗𝑗. 25.
(28) (二)模型係數檢定 1. t 檢定 因 MLE 的參數值具有漸進常態分配之特性,隨者樣本數增加,MLE 的統計分 配會趨近於常態分配,也因此使用 MLE 的類別資料模型係數所採的檢定方式,類似 線性迴歸中的 t 檢定,可稱做準 t 檢定(quasi t test)或漸進 t 檢定(asymptotic t test)方法。 當要檢定係數𝛽𝛽̂𝑠𝑠 為 0 的無效假設時,統計檢定量為如下:(王鼎銘,2012) 𝛽𝛽̂𝑠𝑠 − 0 t= 𝑆𝑆𝑆𝑆(𝛽𝛽̂𝑠𝑠 ) 2. Z 檢定. 利用 Wald test(Z statistic)來檢驗自變數的解釋力之顯著性,性質類似於 t 檢定, 在做單一係數檢定時,Wald 統計檢測量就是 t 檢定的平方,分佈為卡方分配。當檢 視自變數能否顯著預測依變數,先看顯著性是否達顯著,若達顯著,再比較各個顯 著的自變項 Wald 值,Wald 值越大,表示此自變數對依變數的影響顯著,為最佳的 預測變數(邱皓政,2008)。以此觀念可做為權重屬性設定參考依據,Wald 值計算公 式如下: Wald = (. 𝛽𝛽1 2 ) 𝑆𝑆. 𝐸𝐸.. β1 代表輸出迴歸係數,S. E. 代表標準誤。. 26.
(29) 第四節. 決策樹與羅吉斯迴歸之相關文獻應用. 國內外關於決策樹與羅吉斯迴歸的應用皆有一定之文獻探討,因此將這兩種方 法之相關文獻加以整理與比較。 以近期的論文(Braun et al., 2015)研究指出決策樹 C5.0 其實是有能力做出預測, 但可能是因為過度訓練而導致分類預測能力較差。以及決策樹特點即是容易解釋, 在 He 等學者(2006)的預測跨膜束/片段的研究中表示,因 SVM 模型的解釋力較差, 故兩種模式結合後獲得與單一訓練 SVM 模型相似的準確率,也較單一 SVM 模型來 得容易理解。 因為決策樹良好的分類功能,因此在陳詩旻(2010)與姚昌辰(2014)的論文中皆採 決策樹模型作為特徵選取、屬性篩選之方法,且成功提升後續其他分類器之準確率, 以及分類和預測;Meng Wang(2012)的高光譜分類方法研究中也使用決策樹 C5.0 降 低維度來提高分類正確率與效率;而蔡建成(2007)的論文則採取統計方法中的因素萃 取針對決策樹模型演算前的屬性篩選,但效果不佳,研究表示當自變數較少的情況 下不適合再進行屬性篩選之行為。 決策樹分析法在進行分類變數的過程中,最重要的、相關性最高的變數會優先 篩選出來,因此也是一種能排序出優先順位的一種分類器。莊仁翔(2010)於研究中提 出混合 C5.0RST 分析模組(C5.0 決策樹和 RST 粗略集合論)並運用於分析台灣國小四 年級學生的閱讀素養,提供使用者了解學習影響因素,C5.0 決策樹主要進行資料前 處理部分,藉此產生重要屬性挑選與屬性權重排序的結果,而 RST 粗略集合論方法 則是利用之前處理過的資料建置規則庫以供了解並做決策。實驗結果顯示該研究提 出的 C5.0RST 分析模組可以達到良好的分析結果,並且與其他屬性挑選方法比較後, 例如判別分析(LDA)、ID3 決策樹(ID3)與 C4.5 決策樹(C4.5),都顯示該研究所提出的 C5.0RST 分析模組能提供較好的分析結果與縮短分析的時間。而余依良等學者(2012) 使用羅吉斯迴歸模型找出針對傷害就醫的 8 個主要相關因子後,再利用 CART 選出 5 個主要相關因子並列出其重要性排序。此法與本研究相似,該研究其實已進行變數 篩選之行為,亦即由羅吉斯迴歸法找出重要的危險因子,但欲了解這些因子是否還 有其重要的排序性,此時便借助決策樹之分析,將危險因子做先後的排序。但與本 研究不同之處在於,本研究使用決策樹 C5.0 並著重於決策樹分析法本身之分類和預 測,使用決策樹進行變數排序僅是採用決策樹模型中之一個理念,因此本研究回歸 到決策樹本身的最主要精神,發揮模型的分類功能。 在評估模型的準確率上,Ma(2012)與 Meng(2013)的決策樹準確率最好,顯示資 料探勘的結果較佳,尤其決策樹是依據貪婪演算法進行演算,所有的變數將被視作 為可用的變數,準確率通常來的較好;而羅吉斯迴歸屬於統計方法,並非追求最大 27.
(30) 之準確性,而是在於建構一套可以解釋現象之模型,在選擇變數上為更加嚴謹,所 以解釋力(Wald 值)高的變數就不那麼多了,故比起其他資料探勘的模型,在每次研 究中的分類準確率中也並非為最好的。Tian Jian 等學者(2007)於農田研究中,依據集 群方法選出適當的學習樣本,加強 C5.0 之演算法,結果研究的準確率達 94.92%,也 符合實證之需求;曾仁人(2013)也以探勘模型中之最高準確率的方法做為研究網路消 費行為之分析模型。但 Chang and Chen(2009)的決策樹準確率低於類神經網路;Resul Das(2009)的決策樹準確率也低於迴歸模型與神經網路;Chao(2014)的研究顯示支援 向量機、羅吉斯迴歸與決策樹的準確率分析都在 90%以上,但決策樹還是以些微差 距為墊底。探討其原因,可能因決策樹模型會有過度訓練加上變數多半重複利用的 情況下,對於後三篇之研究可以再加以思考決策樹分析時的相關屬性。再以本研究 所欲探討的主題來看,欲行決策樹分析之前,先加以一種方法篩選出較優良的變數, 使模型在分析過程時刪除不必要變數,提高分析效能,降低多餘及冗長的規則。 其中也有研究將各種不同的資料探勘分類器或其他分析法進行整合以發展更優 良模型,例如 Jungho, Im. et al(2005)在變遷偵測模型中,結合 NCI 與決策樹 C5.0 以 生成更好的結果;鄭茹筠(2013)於研究中利用投票的方式整合了五種分類器的分類結 果形成混和模型,實驗結果顯示該論文採用的混和模型的預測表現皆優於這五項分 類器。而且資料探勘技術本於窮極所有方法皆會將每個變數發揮至最大效用,以張 嘉鑠(2013)的研究說明,該研究利用資料探勘技術之間的互補性,透過研究實證發展 出準確度與可用性均佳的各類主題式分析模型與規則,進而逐步建立行銷專屬顧客 知識庫,創造最大的收益並達到行銷活動投資報酬率最佳化。 綜合整理以上文獻,決策樹分法本身是比較容易入門的一種資料探勘的方法, 因為分類的過程是容易被理解的,但對於分類過程在資料中是否具有直接的相關性 則少有研究探討。且也發現在多數研究中決策樹方法多半在探討分類的準確率數值, 而在其他的研究上會較偏向為一種輔佐性的分析方法之一。意即,即便研究者了解 決策樹分法是一個很好的分類工具,卻也僅只將他定位於在分類的準確率數值,或 是單純將它使用在「分類」的過程中,而鮮少針對決策樹方法在執行研究中,探討 決策樹如何運用變數,及如何使模型更加提升分析效能之此種議題上,所以本研究 將以探討決策樹的分類過程及能否提升模型後續的分類效能為此研究之主題。 上述相關文獻請參見表 2-4 與表 2-5,為國內外決策樹相關文獻應用整理。. 28.
(31) 表 2-4:決策樹相關文獻應用 名稱. 問題. 方法. 特性應用 Transmembrane segments prediction and understanding using support vector machine and decision tree(He et al., 2006) Landslide Susceptibility Mapping with Data Mining Methods—a Case Study from Maily-Say,Kyrgyzstan (Braun et al., 2015). 使用 SVM 與決策樹模型預測跨 膜束/片段. 支援向量機(SVM)、決策樹 C5.0. 探索土石流災害空間與資料探勘 之方法. 人造神經網路(Artificial Neural Network)、貝式網路(Bayesian Network)、支援向量機(SVM)、 決策樹 CHAID、羅吉斯迴歸、 決策樹 C5.0. 特徵選取、降低維度應用 運用資料探勘技術進行選股決策 (蔡建成,2007). 股票投資績效之分類預測準確度. 羅吉斯迴歸、決策樹 PolyAnalysty 5.0. 應用資料探勘技術於人工生殖醫 療診斷之研究(陳詩旻,2010). 人工生殖醫療診斷之研究. 決策樹、類神經網路. 以最小平均平方學習法增強貝氏 分類器之研究(姚昌辰,2014). 提升資料集之分類與預測. 決策樹 C4.5、最小平均平方學習 法、貝氏分類器. A Novel Hyperspectral Classification Method Based on C5.0 Decision Tree of Multiple Combined Classifiers (Wang, 2012 ). 將決策樹結合多重分類器於新的 高光譜分類方法上. 決策樹 C5.0、 Minimum Distance Maximum Likelihood、支援向量機(SVM). 排序應用 結合決策樹與粗略集合論於分析 學習行為、學習動機與閱讀素養 之關係-以 PIRLS2006 為例 (莊仁翔,2010) 比較決策樹演算法與羅輯迴歸模 式評估事故傷害就醫之相關因子 (余依良,楊南屏,詹前隆,2012). 影響台灣學生閱讀素養的主要因 素與提供促進學生閱讀素養的建 議途徑. C5.0 決策樹、RST 粗略集合論. 評估事故傷害就醫之主要因素. 羅吉斯迴歸、決策樹 CART. 其他應用 A change detection model based on neighborhood correlation image analysis and decision tree classification(Im et al., 2005). 結合 NCI 與決策樹於變遷偵測模 型之研究. 決策樹 C5.0、鄰近相關效應圖型 分析法(Neighborhood Correlation Image analysis, NCI). 運用資料探勘技術探討顧客價值 與消費行為之研究─以零售業連 鎖專賣店為例(張嘉鑠,2013). 應用於擬定顧客經營策略與資料 庫行銷活動的規劃. 集群分析、決策樹 C5.0、類神經 網路、羅吉斯迴歸. 訊息影響力預測:使用 Facebook 資料為例 (鄭茹筠,2013). 預測訊息在經過一段給定時間後 其影響力之程度. 資料採礦在網路消費行為預測模 型之應用 (曾仁人,2013). 研究網路消費行為. 類神經網路、決策樹 C5.0、羅吉 斯迴歸、貝式分類、支援向量機 羅吉斯迴歸、決策樹 C5.0、決策 樹 CART、決策樹 Quest、 決策樹 CHAID. 29.
相關文件
Define instead the imaginary.. potential, magnetic field, lattice…) Dirac-BdG Hamiltonian:. with small, and matrix
The study explore the relation between ownership structure, board characteristics and financial distress by Logistic regression analysis.. Overall, this paper
For the data sets used in this thesis we find that F-score performs well when the number of features is large, and for small data the two methods using the gradient of the
Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in
由於資料探勘 Apriori 演算法具有探勘資訊關聯性之特性,因此文具申請資 訊分析系統將所有文具申請之歷史資訊載入系統,利用
The purpose of this research is to explore the important and satisfaction analysis of experiential marketing in traditional bakery industry by using Importance-Performance and
And further, we employed Discriminant Analysis and Logistic Regression analysis to develop pre-warning model for the oral cancer patients’ medical prognosis.. Finally,
本研究藉由分類和迴歸樹(Classification and Regression Tree, C&RT)進 行變數間之類別合併以及決定連續型變數之切割點。C&RT 的全名是「分類 和迴歸樹」