• 沒有找到結果。

決策樹(Decision tree)在資料採礦的領域內,被認為是一藉由已知資料建立的 樹狀結構。與其他資料採礦工具不同之處在於演算的基礎,決策樹以嫡啓發式方 法(Entropy heuristic)作為歸納方法,依此規則對新進資料進行分類,而架構出具 先後順序之樹狀流程圖。 為決策樹分析圖,共由根部節點(Root node)、中間節點(Non-leaf node)、分支 (Branches)以及葉節點(Leaf node)四大部分所組成。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

21

圖 3-1 決策樹分析圖

決策樹包含四大演算法:CHAID、C&RT Tree、C5.0與QUEST。以下為個 別演算法的介紹。

(一) CHAID (Chi-square Automatic Interaction Detection)

CHAID 是哈根(Hartigan)在 1975 年率先提出,稱為卡方自動互動偵測法。

CHAID 演算利用卡方檢定來篩選具有統計顯著性的輸入變數,將其作為分割的 變數。作法是將訓練組資料分隔成兩個或兩個以上子節點,這些子節點被選擇的 規則是輸出變數遇上某個特定數值的機率,因應個別節點而有所不同。第一步在 輸出數上無顯著統計差異的所有預測變數都將被合併。第二步,三個或三個以上 預測變數群組以二分法被重新分隔。這些分隔之中如有任何一個產生了統計上顯 著差異的結果,即會被保留,而若保留的輸出變數上存在最大的類別差異,就對 這項結果使用卡方分析,分析中顯示能夠產生最大差異分類的預測變數,即為被 選擇的當前節點之分隔變數。在 CHAID 演算法中,決策樹會持續分支至再也沒 有任何區隔能在分類上達到統計顯著性差異為止,這也是 CHAID 演算法和 C&RT 和 C5.0 最大的差異處,後兩者是先透過過度配適,再以修枝來完成決策 樹。

(二) C&RT Tree (Classification and Regression Tree)

C&RT Tree 最早是由 Breiman 於 1984 年提出,曾在 1996 年由 Ripley 做過 修改。被名為分類迴歸樹,CART 演算法,原因是所採用的決策樹類型需視變數 性質而定,若反應變數為類別型,採用分類樹。若反應變數為連續型,則採迴歸 樹。C&RT 演算法是以遞迴模式在每個節點建立二位元分之決策樹,採用吉尼系 數(Gini Index)來進行評判,從根部節點至葉節點,重複檢驗同一屬性直到結點達 到極度純性或結點內僅剩一值,此時決策樹即停止成長,而判斷純度的準則為吉 尼系數越小,表明該節點越纯,則該預測變量就是當前屬性的最優分割點。然而 由於數據中易有雜訊干擾,許多分枝反映的是訓練數據中的異常,缺乏一般性而 無法對新資料做最佳的分類預測,在此 C&RT Tree 採取後剪枝(Postpruning)方法,

以 CART 系統的成本-復雜度最小(Minimal cost-complexity pruning)原則進行,剪 去不可靠的分枝,以提高決策樹的分類預測能力。

(三) C5.0

C5.0 是 1979 年由 Quinlan 以基於改進 ID3 和 C4.5 演算法所提出。C5.0 利用 Boosting 方法,可說是 C4.5 應用於巨大數據集上的分類演算法。C5.0 依序建立 多重模型,採用 Boosting 方式提高模型準確率,以找出能帶來最大信息增益 (Information gain)的輸入變數為第一個模型建立,再接著利用此變數將資料進行 最佳分割,產生第二個模型,不斷重複此分割準則直到無法再找出分割點為止,

決策樹即停止成長。最後再針對無顯著貢獻的資料所形成的子樹加以剪枝。

(四) QUEST (Quick Unbiased Efficient Statistic Tree)

QUEST 由 Loh 與 Shih 於 1997 年提出,為以二元分類法建立決策樹。將分 支變數選擇和分割點選擇以不同的策略進行處理,選擇 p-value 最小且小於顯著

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

23

水準的輸入變數為該節點最佳分支變數,如目標變數為連續型變數,則使用 ANOVA-F 作檢定,而如目標變數為類別型變數,則改以卡方檢定作檢定,此方 法降低了大型 C&RT 分析所需的處理時間,因此普遍認為 QUEST 為一快速、

有效且不偏的統計決策樹。

二、 類神經網路

類神經網路(Neural network)為一平行計算系統,以大量且相連的人工神經 元來模仿生物的學習及計算能力。人腦的神經系統由神經網路所構成,各神經元 彼此連結、互相傳遞電荷,以達到溝通、學習及記憶的功能,類神經即為使電腦 也能夠具備類似於人類大腦的智慧,應用於辨識、決策、控制、預測。而人類往 往由接收外界刺激時,神經細胞將刺激傳送至大腦,大腦接著辨識後對身體下達 反應指令,經過多次或重複的類似運作,人類便能正確判斷與記憶相關事務,類 神經網路的演算法基於相同的概念,包含學習(Learning)與回想(Recalling),在學 習過程中透過學習演算法,從輸入變數中反覆計算學習,以調整網路連結的加權 值,而在回想過程中則接受外來輸入數值,依回想演算法,同樣做反覆運算的動 作後,經由輸出級神經元輸出結果,類神經網路會重複以上過程直到取得最佳結 果。類神經傳遞網路含輸入層、隱藏層與輸出層,如下圖 3-2 所示,圖 3-3 則為 類神經元的運算模型:

圖 3-2 類神經傳遞網路圖

X:神經元的輸入(Input)。

W:神經節加權值(Weights)。

S:加法單元(Summation),為每一神經元的輸入乘上神經節加權值再做加總。

net:神經元的網路輸出,可表示為 net =

F(‧):活化函數(Activation Function),通常為一非線性函數。代表神經元在某特 定輸入情況下才觸發動作。

Y:輸出結果(Output)。

三、 邏輯斯迴歸

邏輯斯迴歸(Logistic regression)與一般線性迴歸雷同,不同點是後者為依變數 與自變數皆為連續型變數,而邏輯斯迴歸則是探討二元反應變數與解釋變數間關 係的統計方法,即依變數為”是與否”、”會與不會”、”同意與不同意”等等的離散 型變數,此能處理依變數有兩個類別的名目變項,用以預測事件發生的勝算比 (Odds Ratio),解決了一般線性迴歸模式所不能處理依變項是兩個類別的名目變 項之缺點。邏輯斯迴歸的優點是易於建立一精簡、配適良好的分析結果,且其不 需要假設分配類型,邏輯斯迴歸並不需要具符合常態分配的假設,解釋變數是以 指數的變動方式來影響反應變數。以下即為邏輯斯迴歸定義與演算:

令反應變數為 ,服從伯努力分配的隨機變數,i = 1, ...,n

並 =1:是; = 0:否,同時設 , 為一組解釋

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

25

變數所組成的向量, 即代表第 p 個解釋變數的第 i 個觀測值。

令 表示當結果為”是”( =1)時的機率,則描述此機率的運算式稱之為邏輯斯 迴歸模型,其定義如下

, 運算後可得到 結果如下

相關文件