第三章 研究方法論
3.2 資料探勘部份—決策樹演算法
本研究主要是以現有肇事資料,驗證現有易肇事八字結構之可信度,特 殊八字結構與肇事間之關聯性,以及使用資料探勘之決策樹演算法在現有肇 事資料的八字與其他屬性資料中,挖掘出肇事準則。一般而言,常用的決策 樹演算法有 CHAID、ID3、C4.5 及 CART,分別敘述如下。
3.2.1 CHAID (Chi-square Automatic Interaction Detection)
Kass(1980)[34]提出運用 CHAID 演算法針對分類性資料進行決策樹的建 構。CHAID 運用卡方檢定選擇能使資料產生統計上顯著差異的分類屬性來分 割資料。CHAID 主要適用於建立類別屬性(Categorical Attribute)的決策樹,
對於連續數值型屬性(Continuous Attribute)則須將連續資料分成若干個類別 取代原始資料。
利用 CHAID 演算法建立決策樹時,首先需找出各分類屬性對資料的最佳
區隔,然後選擇 P 值最小的分類屬性進行資料分類。每一群組的資料,再依 序重複前述步驟,直到滿足決策樹停止成長條件為止,假設資料共有 M 個分 類目標,而分類屬性 A 有 N 個屬性值,CHAID 演算法的步驟詳述如下:
(1) 對每一個分類屬性均做交叉表檢定,就分類屬性 A 做 N 個屬性值與 M 個分類目標的 N*M 交叉表檢定。
(2) 在對 N 個屬性做 C2N的排列組合,分別做 2*M 交叉表檢定並計算卡 方值及 P 值,若 P 值大於事先定義的顯著水準,則將兩個屬性值 合併,重複做排列組合及交叉表檢定,直到 P 值均小於顯著水準 或分類屬性經合併後,僅剩下兩個組合。
(3) 從合併後的分類屬性中,選擇 P 值最小者,依該分類屬性在步驟 2 的合併結果對資料進行分割。
(4) 分割後的資料分別重複以上步驟,直到節點中包含的資料數小於事 先定義的數值或 P 值大於顯著水準為止,決策樹就不再繼續成長。
3.2.2 CART (Classification and Regression Tree)
CART 決策樹演算法(Decision Tree Algorithm),運用二分法的方式,將資 料在每一個節點皆分為兩個集合,直到無法再進行分割或分類為止。CART 利 用 Gini Index 作為每一屬性分散度(Diversity)的衡量標準。分散度越高代表 每個節點均包含平均分配多個 類別的資料,而分散度越低意謂資料儘可能依 其類別來分割,以提高節點的純度。在理想的情況下,運用 Gini Index 產生的 決策樹葉節點均只包含單一類別。然而在現實生活中,很難利用屬性值的分 割,將單一類別抽離出來形成上述理想的決策樹。因此 CART 選擇能降低最
Ginisplit(A)=
Error Rate)進行事後修剪的工作。整體錯誤率是所有葉節點錯誤率的總合。倘若節點中包含兩個以上的類別,以所佔比例最大的類別作為分類標籤,其
3.2.3 ID3 (Interactive Dichotomiser 3) 、C4.5
ID3 的主要核心在於其以遞迴的方式將訓練資料作切割。在每一次產生節
(1) 初始(Initial):依據屬性選擇計算方法,對訓練資料作運算,建構出 一個大型的規則樹。
(2) 對初始階段產生出的樹枝部分,依據具有較小的正確性分類作修剪 的動作。
(3) 修剪好的樹產生令人易懂的規則。
3.3 小結
本研究以上述八字各種基本關係以及資料探勘之決策樹演算法為基礎,
設計數種實驗並分析八字與交通事故之間是否有容易發生車禍之特殊八字結 構。資料來源及實驗設計於第四章介紹,而結果之數據將於第五章分析。