第二章 文獻探討
4. 常用的資料探勘方法
本研究將使用決策樹 CART 和 CHAID 來建立分類與預測模型,
再透過 Apriori 關聯性分析找出項目間之隱含關係。各類模型在下列 作簡單介紹。
A. 卡方自動互動偵測樹 (CHAID Tree)
CHAID Tree 是利用統計分析方法來解釋資料,CHAID Tree 的 前身為自動互動檢視法 (Automatic Interaction Detection, 簡稱 AID),
最早是由 Morgan & Sonquist 於 1960 年代初期發展出來的方法,利 用逐次搜尋的方式,繪出樹狀圖來找出最能解釋目標變數變化的預 測變數。而 CHAID Tree 是由 Kass 於 1980 年所提出的決策樹演算法,
分析方法採用 Bonferroni 的調整卡方值作為分割樣本的依據,主要 適用於建立非二元的樹的應用上,其特徵是透過卡方檢測進行多向 分支,同時會依據卡方檢定運算,來決定決策樹是否繼續生長,以 避免決策樹過度分割,降低 Over-Fitting 發生的可能。另外,對於資 料處理的類型上,CHAID 只能處理類別型的目標變項,主要透過卡 方檢定找出最佳的分支點,但要處理連續屬性前必頇先進行離散化 處理,若是資料為連續型的目標變項時,則利用 F 檢定找出最佳的 分支點。
CHAID Tree 的運作模式主要如下,將輸入的訓練組資料進行分 支,並依據運算的結果分成幾個子節點,接著利用卡方檢定來檢查 這些節點最大的類別差異,如能夠產生類別最大的顯著差異預測變 數,則成為節點的分隔變數。依照此模式持續建樹,直到分類的結 果無法達到顯著差異為止。
本研究採用的 Exhaustive CHAID Tree 的演算法,是 CHAID Tree 的改進演算法,由 Biggs, De Ville & Suen 於 1991 年提出。CHAID Tree 在 分 箱 過 程 中 , 如 果 發 現 無 需 再 合 併 就 停 止 合 併 , 但 Exhaustive CHAID 將繼續合併目標變項 (依據統計量觀測值大小),最終形成兩
個超級群組,在組的合併上較 CHAID Tree 演算法更徹底,利於預測
Exhaustive CHAID 對所有分割進行 更徹底的檢查,但計算時間比較長。
B. 分類與迴歸樹 CART (Classification And Regression Tree)
CART 是由 Breiman, Friedman, Olshen & Stone 於 1984 年所提出,
是一種二元的分割法,主要產出為二元樹,並利用吉尼索引值 (Gini index)作為分割的依據,找出最佳分類節點。每次分割都將類別資料 分為二個子節點,再重複由每一個子節點中找尋下一個分割的依據,
經由不斷將類別資料分成二個子節點的方式來建樹,直到無法分割 為止。Breiman (1984)認為 CART 優點在於:
1. 它是一個非參數的分類守則,而且不需要事先的假設規則,
CART 也是一種監督式學習模型 (Supervised Learning)之資料探 勘演算法,所謂監督式學習是指透過訓練過程,讓資料學習哪個值
pj為屬於類別 j 的樣本在 D 中出現的相對頻率
在 CART 分 類 樹 演 算 法 中 有 Gini ( 預 設 ) 、 Symgini 、 Class Probability、Twoing 以及 Ordered Twoing 等五種方法。本研究採用 預設 Gini 方法進行探勘分類。
當決策樹太過於複雜而導致過度遷就 (Over-Fitting)發生時,則 必頇對樹進行適當的刪減,以提升決策樹的準確性。過度的產生主 要是因為原始訓練資料不完整或是含有雜訊等因素,也有可能因為 屬性太多或是資料的偏差而造成過度。樹狀的修剪方式主要有事前 修剪 (Pre-Pruning)與事後修剪 (Post-Pruning)兩種,事前修剪運用統 計門檻值加以衡量,評估是否該繼續分割某內部節點或是應該立刻 停止,同時也避免樹的過度成長以避免樹長得太深。事後修剪則是 在決策樹建構完成後,若存在有過度分割的情形時,則對樹狀進行 適當的修剪。對於 CART 在樹的修剪方法上,是依據整體節點的誤 差率 (Entire error rate)來作為修剪樹的根據,以達到最有效的分類。
常見的決策樹演算法有 ID3、C4.5/C5.0、CHAID、CART 等幾 種方法,每一種演算法都有不一樣的歸納(分割)方法,如表 2-3 所示。
歸納方法會依變項的種類,分成下列幾項:
1. 類別型態變項
吉尼索引值 (Gini Index)
熵 (Entropy)
資訊量增益比例 (Information Gain Ratio)
卡方分析 (Chi-square Test) 2. 連續型態變項
變異簡化 (Reduction in Variance)
F 檢定 (F test)
表 2-3 決策樹演算法比較
演算法 作者 資料屬性 分割規則 修剪規則
ID3 Quinlan (1986) 類別型態 熵 (Entropy)、資訊 獲利 (Gain Ratio)
事後修剪 (Postpruning)、
誤差率 (Error Rate)
C4.5/C5.0 Quinlan (1993,
1998) 類別型態 資訊獲利 (Gain Ratio)
事後修剪 (Postpruning)、
誤差率 (Error Rate) Error Rate)
CHAID Kass (1980) 類別型態 卡方分配
(Chi-Square Test) 事前修剪 (Postpruning)
C. Apriori 關聯分析:
關聯規則探勘是由 Agrawal & Sirkant 在 1994 年提出。所謂的關 聯規則就是從大量的資料集合中,探勘資料之間的隱藏知識。最有 名的研究就是購物籃分析 (Market Basket Analysis ),該研究藉由分 析顧客的購買行為,找出顧客購買相關商品之間彼此的關聯性。
Apriori 演算法主要是從資料中,找到彼此有關聯規則候選項目 (Items)的集合,並且計算每一個候選項目出現的機率,再依所設定 的支持度 (Support)來衡量此候選項目是否為關聯規則。Apriori 演 算法是利用向下封閉性與反單調性的性質,來產生關聯規則的演算 法。根據支持度的值,找出頻繁的項目集。另外還有幾種挖掘關聯 規則的演算法,主要的差別在於候選項目集的產生方式以及支持度 的計算方式包括了抽樣演算法、FP-tree 演算法、分割演算法 (Tan, 2007)。
而在關聯規則中通常利用三個衡量值來指出關聯規則的強度,
響目標變項即是護理人員的績效、教育訓練與績效之間是否有相關 性以及建立護理人員的績效預測。