常用的資料探勘方法

第二章文獻探討

4. 常用的資料探勘方法

本研究將使用決策樹 CART 和 CHAID 來建立分類與預測模型，

再透過 Apriori 關聯性分析找出項目間之隱含關係。各類模型在下列作簡單介紹。

A. 卡方自動互動偵測樹 (CHAID Tree)

CHAID Tree 是利用統計分析方法來解釋資料，CHAID Tree 的前身為自動互動檢視法 (Automatic Interaction Detection, 簡稱 AID)，

最早是由 Morgan & Sonquist 於 1960 年代初期發展出來的方法，利用逐次搜尋的方式，繪出樹狀圖來找出最能解釋目標變數變化的預測變數。而 CHAID Tree 是由 Kass 於 1980 年所提出的決策樹演算法，

分析方法採用 Bonferroni 的調整卡方值作為分割樣本的依據，主要適用於建立非二元的樹的應用上，其特徵是透過卡方檢測進行多向分支，同時會依據卡方檢定運算，來決定決策樹是否繼續生長，以避免決策樹過度分割，降低 Over-Fitting 發生的可能。另外，對於資料處理的類型上，CHAID 只能處理類別型的目標變項，主要透過卡方檢定找出最佳的分支點，但要處理連續屬性前必頇先進行離散化處理，若是資料為連續型的目標變項時，則利用 F 檢定找出最佳的分支點。

CHAID Tree 的運作模式主要如下，將輸入的訓練組資料進行分支，並依據運算的結果分成幾個子節點，接著利用卡方檢定來檢查這些節點最大的類別差異，如能夠產生類別最大的顯著差異預測變數，則成為節點的分隔變數。依照此模式持續建樹，直到分類的結果無法達到顯著差異為止。

本研究採用的 Exhaustive CHAID Tree 的演算法，是 CHAID Tree 的改進演算法，由 Biggs, De Ville & Suen 於 1991 年提出。CHAID Tree 在分箱過程中，如果發現無需再合併就停止合併，但 Exhaustive CHAID 將繼續合併目標變項 (依據統計量觀測值大小)，最終形成兩

個超級群組，在組的合併上較 CHAID Tree 演算法更徹底，利於預測

 Exhaustive CHAID 對所有分割進行更徹底的檢查，但計算時間比較長。

B. 分類與迴歸樹 CART (Classification And Regression Tree)

CART 是由 Breiman, Friedman, Olshen & Stone 於 1984 年所提出，

是一種二元的分割法，主要產出為二元樹，並利用吉尼索引值 (Gini index)作為分割的依據，找出最佳分類節點。每次分割都將類別資料分為二個子節點，再重複由每一個子節點中找尋下一個分割的依據，

經由不斷將類別資料分成二個子節點的方式來建樹，直到無法分割為止。Breiman (1984)認為 CART 優點在於：

1. 它是一個非參數的分類守則，而且不需要事先的假設規則，

CART 也是一種監督式學習模型 (Supervised Learning)之資料探勘演算法，所謂監督式學習是指透過訓練過程，讓資料學習哪個值

p_j為屬於類別 j 的樣本在 D 中出現的相對頻率

在 CART 分類樹演算法中有 Gini ( 預設 ) 、 Symgini 、 Class Probability、Twoing 以及 Ordered Twoing 等五種方法。本研究採用預設 Gini 方法進行探勘分類。

當決策樹太過於複雜而導致過度遷就 (Over-Fitting)發生時，則必頇對樹進行適當的刪減，以提升決策樹的準確性。過度的產生主要是因為原始訓練資料不完整或是含有雜訊等因素，也有可能因為屬性太多或是資料的偏差而造成過度。樹狀的修剪方式主要有事前修剪 (Pre-Pruning)與事後修剪 (Post-Pruning)兩種，事前修剪運用統計門檻值加以衡量，評估是否該繼續分割某內部節點或是應該立刻停止，同時也避免樹的過度成長以避免樹長得太深。事後修剪則是在決策樹建構完成後，若存在有過度分割的情形時，則對樹狀進行適當的修剪。對於 CART 在樹的修剪方法上，是依據整體節點的誤差率 (Entire error rate)來作為修剪樹的根據，以達到最有效的分類。

常見的決策樹演算法有 ID3、C4.5/C5.0、CHAID、CART 等幾種方法，每一種演算法都有不一樣的歸納(分割)方法，如表 2-3 所示。

歸納方法會依變項的種類，分成下列幾項:

1. 類別型態變項

 吉尼索引值 (Gini Index)

 熵 (Entropy)

 資訊量增益比例 (Information Gain Ratio)

 卡方分析 (Chi-square Test) 2. 連續型態變項

 變異簡化 (Reduction in Variance)

 F 檢定 (F test)

表 2-3 決策樹演算法比較

演算法作者資料屬性分割規則修剪規則

ID3 Quinlan (1986) 類別型態熵 (Entropy)、資訊獲利 (Gain Ratio)

事後修剪 (Postpruning)、

誤差率 (Error Rate)

C4.5/C5.0 Quinlan (1993,

1998) 類別型態資訊獲利 (Gain Ratio)

事後修剪 (Postpruning)、

誤差率 (Error Rate) Error Rate)

CHAID Kass (1980) 類別型態卡方分配

(Chi-Square Test) 事前修剪 (Postpruning)

C. Apriori 關聯分析:

關聯規則探勘是由 Agrawal & Sirkant 在 1994 年提出。所謂的關聯規則就是從大量的資料集合中，探勘資料之間的隱藏知識。最有名的研究就是購物籃分析 (Market Basket Analysis )，該研究藉由分析顧客的購買行為，找出顧客購買相關商品之間彼此的關聯性。

Apriori 演算法主要是從資料中，找到彼此有關聯規則候選項目 (Items)的集合，並且計算每一個候選項目出現的機率，再依所設定的支持度 (Support)來衡量此候選項目是否為關聯規則。Apriori 演算法是利用向下封閉性與反單調性的性質，來產生關聯規則的演算法。根據支持度的值，找出頻繁的項目集。另外還有幾種挖掘關聯規則的演算法，主要的差別在於候選項目集的產生方式以及支持度的計算方式包括了抽樣演算法、FP-tree 演算法、分割演算法 (Tan, 2007)。

而在關聯規則中通常利用三個衡量值來指出關聯規則的強度，

響目標變項即是護理人員的績效、教育訓練與績效之間是否有相關性以及建立護理人員的績效預測。

在文檔中中國醫藥大學機構典藏 China Medical University Repository, Taiwan:Item 310903500/41405 (頁 24-32)

第二章 文獻探討

4. 常用的資料探勘方法

第二章文獻探討