資料探勘演算法

第七節資料探勘 (D ATA M INING )

三、資料探勘演算法

(一) 分類法

分類法(Classification)是針對已知的資料及其類別(Class)、屬性(Attributes)、

規則(Rule)來建立資料的分類模型(Classification Model)，分類法是一種監督式學習法(Supervised Learning)，事先指定準備觀察的資料類別，需知道分類的標準，

且也需知道要訓練、測試的樣本所屬類別。而另一個群集分析則是非監督式學習法。

分類基本程序分別為建立模型、評估模型和使用模型(曾憲雄、蔡秀滿、蘇東興、

曾秋蓉、王慶堯，2005；丁一賢、陳牧言，2006)。

 建立模型：利用現有的資料將資料的分類屬性規則找出。

 評估模型：資料會被分成兩組：訓練樣本和測試樣本。第一階段只利用訓練樣本來建立模型，而將測試樣本留給第二階段來評估分類模型的準確性。評估模型的優劣標準有預測的準確度、速度和延展性、健全性、延展性以及可解釋性。

 使用模型：使用模型有兩種形式，一是根據建立出來的模型找出資料分類的原因，二是從已建立的模型來預測新進資料所屬的類型。

如下圖 2-12 分類法技術表示：

1. 決策樹

決策樹是屬於資料探勘技術中的分類方法之一(吳充平，2005)，決策樹 (Decision Tree)又稱為分類樹(Classification Tree)，決策樹是最為廣泛的歸納推理演算法之一，處理類別(離散)型或連續型變數的分類預測問題，可以用樹狀結構和 If-Then(如果-然後)的規則表示模型，可讀性較高。藉由分類已知的是歷來建立樹狀模型結構，並從中歸納出事例裡的規律，產生決策樹(Decision Tree)。

決策樹模型透過不斷地劃分資料，使依賴變數的差別最大，最終目的是將資料分類到不同的組織或不同的分枝，在依賴變數的值上建立最強的歸類，決策樹的每一條路徑代表一個分類規則，與其他分類模型相比，決策樹的最大優勢在於模型圖形化，讓使用者容易瞭解，模型解釋也非常簡單而容易。

在丁一賢、陳牧言(2006)說明，決策樹在資料探勘(Data Mining)領域應用非常廣泛，尤其在分類問題上是很有效的方法。除具備圖形化分析結果易於瞭解的優點外，而決策樹具有以下優缺點：

(1) 決策樹模型可以用圖形或規則表示，而且規則內容較容易解釋和理解。

(2) 可以處理連續型或類別型的變數。以最大資訊增益選擇分割變數，模型顯示變數的相對重要性，但有時在處理時間序列的資料型態時，必須做離散化的資料的預先處理。

(3) 決策樹在面對龐大的資料集也可以處理得很好，因為樹的大小和資料庫的資料多寡無關，計算量小且方便適用。

(4) 面對有許多變數入模型時，建構決策樹模型依然可以建構成功，但當資料的類別太多的時候，錯誤率相對也快速提升，且處理連續型的字串資料型態較弱。

2. C5.0 演算法

決策樹的演算法如 C5.0、C4.5、ID3、CHAID、CART，而 Quinlan 於 1998 提出的 C5.0 演算法，此 C5.0 演算法是 C4.5 演算法的修訂版，運用軟體處理資料上比 C4.5 計算還要快和佔用資源較少，且處理了在 ID3 無法連續屬性的問題，

C5.0 演算法主要改進是採用提升(Boosting)方式提高模型的準確率，又稱為 Boosting Trees (Quinlan，2003)。除此之外，C5.0 演算法允許設定錯誤分類的成本，依據不同的分類錯誤設定不同成本，所以 C5.0 演算法可以不選擇錯誤率最小的模型，而改選錯誤成本最小的模型。(邱秋婷，2007、林政穎，2008)

C5.0 演算法處理資料屬性為離散型資料(類別)，樹的型態是非二元樹，在 C5.0 演算法修剪樹的規則是以預估錯誤率(Predicted Error Rate)修剪樹枝。此演算法按序列建立多重模型，第一個模型以一般的方式建立，隨後建立第二座模型，聚焦於第一個模型錯誤分類的紀錄，第三座模型聚焦於第二座模型的錯誤，

以此方式類推模型規則，提高模型精密的準確度。而 C5.0 的優點在於，面對資料遺漏和輸入欄位很多的問題時非常穩健，且通常不需要很長的訓練次數進行估計，比其他類的模型易於理解，模型推出的規則有非常直觀的解釋，來提供強大的增強技術提高分類的精度(Quinlan,1986 & 2003；邱秋婷，2007；林政穎，

2008)。

決策樹的C5.0演算法是個由上而下的樹，採用各個擊破的方式來建立決策樹。

最後選擇分支屬性的準則是以找出能獲得最大資訊獲利之屬性做為其分支節點。

其學習方法是利用資訊理論

(1) 利用訓練資料建立決策樹

(Information Theory)，以歸納學習的方法建構決策樹。

其建立決策樹包括下列三種步驟：

(2) 決策樹的修剪(Prune) (3) 從決策樹中產生學習規則

於Quinlan (2003)中說明，C5.0 演算法運算分割規則為增益比(Gain Ratio)，

規則為測試前的資訊量減測試後的資訊量，資訊獲利

資料獲利

而C4.5 演算法是先建構一棵完整的決策樹，再針對每一個內部節點依使用者定義的預估錯誤率（Predicted Error Rate）來修剪決策樹。資訊增益愈大，表示經過變數分割後的不純度愈小，降低不確定性。ID3 演算法就是依序尋找能得到最大資訊增益的變數，並以此作為分隔變數。 ID3 利用

在ID3 開始以測試後資訊量最小的屬性為優先選取，也就是選擇獲利最大的屬性，變成反向差的選擇愈小的愈好獲利愈高。而C5.0 與C4.5 不同之處在於決策樹C5.0 可以處理幾種資料型態(Data Types)，包括了日期(Date)、時間 (Times)、時間戳記(Timestamps)、序列性的離散型資料(Ordered Discrete Attributes) 等等，除了處理部份缺少欄位值(Missing Value)的問題，C5.0 還可以將部份屬性標記為不適合，使得進行資料分析時能保有資料之完整性(蔡佳玲，2007)。

資訊量增益比例(Information Gain Ratio)來選取分割變數，容易產生過度配適(Over Fitting)的問題，C4.5 演算法採用增益比(Gain Ratio)來加以改進方法，選取有最大增益比(Gain Ratio)的分割變數作為準則，避免ID3 演算法中過度配適

而解決

(Over Fitting)的問題。

過度配適(Over Fitting)有兩項，一種為事前修剪(Pre-Pruning)，常運用在門檻值加以衡量，例如增益比(Gain Ratio)或是卡方檢定(Chi‐Square Test)，

另一種則為事後修剪(Post-Pruning)，亦即允許決策樹過度配適的合理存在，當完成決策樹的建立之後，再來進行修剪決策樹的程序。

專業名詞之定義：

 資訊獲利法(Information Gain)

由 Ross Quinlan 於 1979 年首先提出，以資訊理論(Information Theorem)為基礎，它傾向選出值很多種，每一種值的例子都不多的那種屬性，這是一種偏見(Bias)。且所選出來的屬性和類別不相關，如果測試集合裡有雜訊的話，

還有可能會使產生出來的決策樹看起來正常，但實際上卻不正確的情形出現。

 增益比法(Gain Ratio)

增益比法是一種以亂度 (Entropy) 為基礎的機率計算方式，與資訊獲利 (Information Gain)不同的是，還考慮了關聯資料表正規化(Normalization)，

將大大降低某個具有多個可能的特質對於分類的影響。它也有問題存在，式子的分母可能為零，如果當中的資訊獲利(Information Gain)不大，有時可能就會使增益比(Gain Ratio)變很大，使我們去錯誤選用這屬性。

 資訊量增益比例(Information Gain Ratio)

根節點的亂度減去子節點的亂度而獲得的資訊量，且當一個決策樹分支過多，

每一個節點的亂度(Entropy)很低，卻不算是一個好的決策樹，只因為它的代表性不夠。

 過度配適(Over Fitting)

過度配適是指模型過度訓練，導致模型記住的不是訓練集的一般性，反而是訓練集的局部特性。模型過度配適，將導致模型預測能力不準確，一旦將訓練後的模型運用到新資料，將導致錯誤預測。因此，完整的決策樹構造過程，

除了決策樹的建構外，尚且應該包含樹剪枝（Tree Pruning），解決和避免模型過度配適(Over Fitting)的問題。(Han and Kamber，2001)

表 2-4 決策樹演算法之比較使用 (Gain ratio)

離散型(類別)

非二元樹

預估錯誤率

(Predicted Error Rate)

C4.5 (Quinlan，

1993)

增益比 (Gain ratio)

離散型(類別)

非二元樹

預估錯誤率

(Predicted Error Rate)

ID3

(Quinlan，

1979)

亂度(Entropy) 增益比(Gain ratio)

離散型(類別)

非二元樹

預估錯誤率

(Predicted Error Rate)

CART (Breimen，

1984)

增益比 (Gain ratio)

離散型(類別) 與連續型 (數值)

二元樹

預估錯誤率

(Predicted Error Rate)

CHAID

(Kass，1980)

卡方檢定 (Chi‐Square Test)

離散型(類別)

非二元樹

不用修剪

運用資料探勘技術，以決策樹(Decision Tree)和關聯規則 (Association Rule)來探討國人自覺健康之關係。

資料探勘運用分析有分類、回歸、時間序列、分群、關聯規則、序列相關等分析。

(續下頁)

第叁章研究方法

在文檔中以決策樹探討國民吸菸喝酒嚼檳榔行為 (頁 42-52)

第七節 資料探勘 (D ATA M INING )

三、 資料探勘演算法

第叁章 研究方法

第七節資料探勘 (D ATA M INING )

三、資料探勘演算法

第叁章研究方法