資料探勘

第二章文獻回顧

2.2 資料探勘

2.2.1 資料探勘定義

依據 Fayyad 的定義，資料探勘(Data Mining)是指從資料中萃取有效的、

新穎的、具潛在效益的資訊之過程。其主要含義如下列所述（Fayyad, 1996）

[30、31]

（1）資料是客觀存在的事實。

（2）模式是用來描述資料的一部份子集。

（3）資料探勘程序包含許多步驟，它牽涉到資料前置處理、模式搜尋、

知識評估及萃取。

（4）找出的模式能在新的資料中獲得驗證。

（5）找出的模式至少對於系統來說是新穎的。

（6）找出的模式對於決策有潛在的助益。

（7）資料探勘的目標在將資料中隱含的知識轉變為人類易於了解的模式，並幫助使用者做相關的決策。

2.2.2 資料探勘之功能

Berry and Linoff 將資料探勘歸納為以下五種功能（Berry, 1997）[28]：

（1）分類(Classification)：

分類是資料探勘作業中最普遍的一種，是按照分析對象的屬性分門別類加以定義，再將其指派至一現有類別中，建立類組(Class)。使用的技

術有決策樹 (Decision Tree) 、記憶基礎理解(Memory-Based Reasoning, MBR)、連結分析(Link Analysis)等方法。

（2）推估(Estimation)

推估是善於處理連續性的數值，根據既有連續數值之相關屬性資料，以獲致某一屬性未知之值。其使用的技術有統計方法上之相關分析 (Correlation Analysis) 、迴歸分析 (Regression Analysis) 及類神經網路 (Artificial Neural Networks)等方法。

（3）預測(Prediction)

預測是去推估未來的數值以及趨勢。根據屬性之過去觀察值來推估其屬性未來值。使用之技術計有迴歸分析(Regression Analysis)、時間數列分析(Time Series)、決策樹(Decision Tree)、記憶基礎理解(Memory-Based Reasoning, MBR) 及類神經網路(Artificial NeuralNetworks)等方法。

（4）關聯分組(Affinity Grouping)

關聯分組的功能是去發覺那些事物總是同時發生，以決定那些相關事物應該放在一起。其使用之技術為購物籃分析法(Market Basket Analysis, MBA)。

（5）集群(Clustering)

集群將一群異質的群體區隔為同質性較高的群組(Clusters)。集群相當於行銷術語中的區隔化(Segmentation)，但在集群作業中，並不需要事先定義好該如何分類，資料是靠自己的相近性來群聚在一起的。其使用之技術計有 K-Means 法。

本研究主要是針對分類與預測部份進行研究，經分析後發現決策樹演算法較適合本研究所需，因此採此方法為分析工具。

2.2.3 資料探勘於交通領域之應用

Kuhnert et al. (2000)[33]主要研究車輛碰撞造成嚴重損傷之嚴重性因素，

針對非參數模式分類與迴歸樹(Classification and Regression Trees,CART)、

MARS(Multivariate Adaptive Regression Splines)和羅吉斯特迴歸模式之三種研究方法分析。利用問卷方式向病人蒐集於澳洲布里斯班 1997-1998 年之汽車運具意外事故樣本。問卷針對幾年的駕駛經驗、駕駛安全預防、駕駛者侵略行為(Driver Aggression)、顫動尋找行為(Thrill Seeking Behaviour)和一些基本社經資料。再經由住院六個月後之後續問卷進行分析，此問卷則是包含駕駛經験，駕駛者意見和行為，樣本資料則為 2,000 位超過 17 歲之受害者。羅吉斯特迴歸在分析時以 663 個訓練樣本及 55 個測試樣本，CART 和 MARS 有 689 個訓練樣本和 59 個測試樣本分析。結果發現羅吉斯特迴歸總正確率小於 CART 和 MARS，以 MARS 而言，可以得到變數之間的交互項；CART，可以提供主要變數分割的訊息，而羅吉斯特迴歸將變數分割的訊息分析，此研究再將此三個模式做結合，同時進行分析時，則可以有更好的預測能力。

Karlaftis et al. (2002)[ 33]探討道路幾何設計與交通肇事發生之關係，透過非參數統計方法 (Non-Parametric Statistical Methodology) －階層樹狀迴歸 (Hierarchical Tree-Based Regression, HTBR)來分析與預測交通肇事的發生。資料來源為印第安那州 1991-1995 年郊區道路之交通事故，道路資料則包括交通量資料、鋪面、車道寬、號誌控制情形等。研究結果發現，年每日平均交通量(AADT)為一個重要之變數，因此樹狀結構中以 AADT 判斷法則為樹之根部，而且出現的節點次數最多，所以 AADT 判斷交通事故的發生為必要條件，

次要的預測變數為車道寬度、煞車係數等。由於 HTBR 分析方式能快速找到

肇事因素，對於交通工程師在設計道路上更有幫助；此外，在交通安全管理上也可以對已知的路段特性預測其發生肇事之次數，採取相關之因應措施。

陳文杰(2004)[16]探討高速公路交通意外與發生原因之重要關係，透過分類與迴歸樹 (Classification and Regression Trees) 與負二項迴歸 (Negative Binomial Regression)進行分析，發現客車交通量大於 4,677 輛之路段，有較高的機率發生 2 次事故，在 2,096 至 4,677 輛之路段則發生 1 次事故之機率較高，

小於 2,096 輛之路段則不會發生事故之機率較高，此結果負二項迴歸模式並無法分析出。預測率方面，決策樹的準確度有 58%而負二項迴歸模式有 53%，

兩者差異不大，證實資料探勘方法為可行之分析工具。

王秀雯(2004)[ 5]針對 2001 年間台北市發生交通事故的受傷者為觀測者進行分析。嘗試利用資料探勘技術為主與統計分析模式的方法為輔以進行分析，以資料探勘技術中分類與迴歸樹及多元羅吉斯特模式分析造成交通事故嚴重程度之因素，最後，比較兩種模式對於影響事故嚴重程度之變數及預測分類準確度。結果顯示整體預測能力以決策樹優於多元羅吉斯特模式，而事故嚴重程度之變數，多元羅吉斯特與決策樹大致相同。顯示資料探勘可以適用於運輸安全領域。

楊仁維(2006)[ 25]探討肇事路口主要肇因之判定，資料為台中市於民國 88-89 及 92-93 年之路口事故資料。篩選出變數後，利用分類與迴歸樹產生較佳之肇事路口主要肇因規則判定，結果顯示以 Gini 決策樹之 47 條規則判斷較佳，然各規則於相異之行向組合中採用之準則皆不同，而整體準則之順序為道路寬度、行向流量、機車比、左/右轉車輛比、路口總交通量、快慢車分隔形式、速限或警告標誌與時制週期等。並以道路寬度為例驗證五權西路與環中路，發現應用 Gini 決策樹於交通領域上有相當之合理性。

在文檔中應用子平學於交通事故分析及預測之研究 (頁 38-42)

第二章 文獻回顧

2.2 資料探勘

2.2.1 資料探勘定義

2.2.2 資料探勘之功能

2.2.3 資料探勘於交通領域之應用

第二章文獻回顧