分析工具介紹

決策樹(Decision tree)在資料採礦的領域內，被認為是一藉由已知資料建立的樹狀結構。與其他資料採礦工具不同之處在於演算的基礎，決策樹以嫡啓發式方法(Entropy heuristic)作為歸納方法，依此規則對新進資料進行分類，而架構出具先後順序之樹狀流程圖。為決策樹分析圖，共由根部節點(Root node)、中間節點(Non-leaf node)、分支 (Branches)以及葉節點(Leaf node)四大部分所組成。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖 3-1 決策樹分析圖

決策樹包含四大演算法：CHAID、C&RT Tree、C5.0與QUEST。以下為個別演算法的介紹。

(一) CHAID (Chi-square Automatic Interaction Detection)

CHAID 是哈根(Hartigan)在 1975 年率先提出，稱為卡方自動互動偵測法。

CHAID 演算利用卡方檢定來篩選具有統計顯著性的輸入變數，將其作為分割的變數。作法是將訓練組資料分隔成兩個或兩個以上子節點，這些子節點被選擇的規則是輸出變數遇上某個特定數值的機率，因應個別節點而有所不同。第一步在輸出數上無顯著統計差異的所有預測變數都將被合併。第二步，三個或三個以上預測變數群組以二分法被重新分隔。這些分隔之中如有任何一個產生了統計上顯著差異的結果，即會被保留，而若保留的輸出變數上存在最大的類別差異，就對這項結果使用卡方分析，分析中顯示能夠產生最大差異分類的預測變數，即為被選擇的當前節點之分隔變數。在 CHAID 演算法中，決策樹會持續分支至再也沒有任何區隔能在分類上達到統計顯著性差異為止，這也是 CHAID 演算法和 C&RT 和 C5.0 最大的差異處，後兩者是先透過過度配適，再以修枝來完成決策樹。

‧

(二) C&RT Tree (Classification and Regression Tree)

C&RT Tree 最早是由 Breiman 於 1984 年提出，曾在 1996 年由 Ripley 做過修改。被名為分類迴歸樹，CART 演算法，原因是所採用的決策樹類型需視變數性質而定，若反應變數為類別型，採用分類樹。若反應變數為連續型，則採迴歸樹。C&RT 演算法是以遞迴模式在每個節點建立二位元分之決策樹，採用吉尼系數(Gini Index)來進行評判，從根部節點至葉節點，重複檢驗同一屬性直到結點達到極度純性或結點內僅剩一值，此時決策樹即停止成長，而判斷純度的準則為吉尼系數越小，表明該節點越纯，則該預測變量就是當前屬性的最優分割點。然而由於數據中易有雜訊干擾，許多分枝反映的是訓練數據中的異常，缺乏一般性而無法對新資料做最佳的分類預測，在此 C&RT Tree 採取後剪枝(Postpruning)方法，

以 CART 系統的成本-復雜度最小(Minimal cost-complexity pruning)原則進行，剪去不可靠的分枝，以提高決策樹的分類預測能力。

(三) C5.0

C5.0 是 1979 年由 Quinlan 以基於改進 ID3 和 C4.5 演算法所提出。C5.0 利用 Boosting 方法，可說是 C4.5 應用於巨大數據集上的分類演算法。C5.0 依序建立多重模型，採用 Boosting 方式提高模型準確率，以找出能帶來最大信息增益 (Information gain)的輸入變數為第一個模型建立，再接著利用此變數將資料進行最佳分割，產生第二個模型，不斷重複此分割準則直到無法再找出分割點為止，

決策樹即停止成長。最後再針對無顯著貢獻的資料所形成的子樹加以剪枝。

(四) QUEST (Quick Unbiased Efficient Statistic Tree)

QUEST 由 Loh 與 Shih 於 1997 年提出，為以二元分類法建立決策樹。將分支變數選擇和分割點選擇以不同的策略進行處理，選擇 p-value 最小且小於顯著

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

水準的輸入變數為該節點最佳分支變數，如目標變數為連續型變數，則使用 ANOVA-F 作檢定，而如目標變數為類別型變數，則改以卡方檢定作檢定，此方法降低了大型 C&RT 分析所需的處理時間，因此普遍認為 QUEST 為一快速、

有效且不偏的統計決策樹。

二、類神經網路

類神經網路(Neural network)為一平行計算系統，以大量且相連的人工神經元來模仿生物的學習及計算能力。人腦的神經系統由神經網路所構成，各神經元彼此連結、互相傳遞電荷，以達到溝通、學習及記憶的功能，類神經即為使電腦也能夠具備類似於人類大腦的智慧，應用於辨識、決策、控制、預測。而人類往往由接收外界刺激時，神經細胞將刺激傳送至大腦，大腦接著辨識後對身體下達反應指令，經過多次或重複的類似運作，人類便能正確判斷與記憶相關事務，類神經網路的演算法基於相同的概念，包含學習(Learning)與回想(Recalling)，在學習過程中透過學習演算法，從輸入變數中反覆計算學習，以調整網路連結的加權值，而在回想過程中則接受外來輸入數值，依回想演算法，同樣做反覆運算的動作後，經由輸出級神經元輸出結果，類神經網路會重複以上過程直到取得最佳結果。類神經傳遞網路含輸入層、隱藏層與輸出層，如下圖 3-2 所示，圖 3-3 則為類神經元的運算模型:

圖 3-2 類神經傳遞網路圖

‧

X：神經元的輸入(Input)。

W：神經節加權值(Weights)。

S：加法單元(Summation)，為每一神經元的輸入乘上神經節加權值再做加總。

net：神經元的網路輸出，可表示為 net =  

F(‧)：活化函數(Activation Function)，通常為一非線性函數。代表神經元在某特定輸入情況下才觸發動作。

Y：輸出結果(Output)。

三、邏輯斯迴歸

邏輯斯迴歸(Logistic regression)與一般線性迴歸雷同，不同點是後者為依變數與自變數皆為連續型變數，而邏輯斯迴歸則是探討二元反應變數與解釋變數間關係的統計方法，即依變數為”是與否”、”會與不會”、”同意與不同意”等等的離散型變數，此能處理依變數有兩個類別的名目變項，用以預測事件發生的勝算比 (Odds Ratio)，解決了一般線性迴歸模式所不能處理依變項是兩個類別的名目變項之缺點。邏輯斯迴歸的優點是易於建立一精簡、配適良好的分析結果，且其不需要假設分配類型，邏輯斯迴歸並不需要具符合常態分配的假設，解釋變數是以指數的變動方式來影響反應變數。以下即為邏輯斯迴歸定義與演算：

令反應變數為 ，服從伯努力分配的隨機變數，i = 1, ...,n

並 =1：是； = 0：否，同時設，為一組解釋

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

變數所組成的向量， 即代表第 p 個解釋變數的第 i 個觀測值。

令表示當結果為”是”( =1)時的機率，則描述此機率的運算式稱之為邏輯斯迴歸模型，其定義如下

，運算後可得到結果如下

，

在文檔中運用資料採礦於手機品牌力對台灣消費者購買意願之研究 - 政大學術集成 (頁 27-32)

‧ 國

立 政 治 大 學

‧

‧

‧ 國

立 政 治 大 學

‧

‧

‧ 國

立 政 治 大 學

‧

立政治大學

立政治大學

立政治大學