資料探勘方法應用

第二章文獻回顧與評析

2.3 資料探勘方法應用

拜資訊科技發展，蒐集與維護大量資料之成本大幅降低，越來越多領域藉由資料探勘方法自資料當中擷取有用的知識；所謂資料係指對於特定事件的客觀陳述，僅能呈現該事件的原貌，無法從中窺知對該事件的判斷、分析或預測；透過資料庫知識發掘程序(Knowledge Discovery in Databases, KDD)，資料得以經由文字化(contextualized)、分類(categorized)、計算(calculated)、更正(corrected)、濃縮 (condensed)而轉化為具有明確特性的資訊，再經由比較(comparison)、推論 (consequences)、關聯(connections)、會談(conversation)等方法，結合決策者之目的、經驗而將資訊轉化為具有獨特見解的知識【Davenport et al., 1998】、【Geurts et al., 2005】。

資料來源：【Geurts et al., 2005】

圖 6、KDD 流程示意圖

KDD(流程如圖 6)係指由資料中擷取有用知識的程序，相關分析須先對其應用之目標及其專業領域有所認知，選擇欲納入分析的資料類型，進行前處理以排除錯誤或不一致的資料，分析階段將資料轉化為具有特定趨勢的資訊，再透過研究者目的與專業將資訊轉化為可應用於特定領域的知識【Geurts et al., 2005】。廣義的資料探勘程序即為KDD 之流程，亦即透過資料的擷取、轉換、清理、格式化、

分析以及後續資料解讀、定義與決策等程序，將資料轉化為知識的過程，狹義的資料探勘專指KDD 流程當中，透過機器學習、人工智慧等方式進行資料分析之流程，重點在於透過方法論挖掘資料相關特性【Peacock, 1998】、【廖郁雅，民 91】。

資料探勘方法為近年來常被應用的資料分析工具，相較於傳統的分析方法，

資料探勘得以更有效的找出資料隱含之意義，Berry & Linof 評論兩者的差異，認為分析報告只能提供後見之明(hindsight) ，統計分析則可提供分析者先機 (foresight)，唯有資料探勘可以提供識見(insight) 【周家慶，民 92】；資料探勘方法為統計分析之延伸應用，由機器學習、統計分析、模式構建、資料庫技術所構成，

透過上述程序探索變數之間隱藏的關係，並自其中擷取有用的資訊，此一類型分析方法僅以資料為出發點探討變數之間的相關性，方法本身無法判斷變數實際的因果關係【Bayam et al., 2005】。

資料探勘方法主要特色為可以處理高維度且大量資料，資料本身亦不需要進行任何的統計假設，然而此一特性也使得資料探勘方法無法進行檢定。一般較常被應用之資料探勘方法可分為下列五類【Bayam et al., 2005】：

分類(classification)：將資料歸類至已設定之組別，使用之方法包含決策樹、link analysis、memory-based reasoning 等；

推估(estimation)：根據連續性資料推估其預測值，使用之方法包含類神經網路、迴歸模式；

預測(prediction)：透過歷史資料的學習以預測未知屬性，預測與推估之差異在於推估程序的分析產出為一預估值，預測程序之產出為某種行為或特性的陳述，決策樹、類神經網路等方法皆可用來進行預測；

關聯分組(Affinity Grouping)：瞭解變數間關係的強度與方向，使用之方法包含關聯分析等；

群落(clustering)：將具異質性的樣本劃分至具有同質性之群落，使用之方法包含K-mean、Kohonen networks 等。

2.3.2 資料探勘之應用

Pande & Abdel-Aty(2006)透過即時車流資料蒐集與資料探勘方法建立事故風險即時偵測模式，藉由車流特性變化偵測相關事故之風險，並透過可變標識系統等途徑提醒駕駛人。作者蒐集1999 至 2003 年佛羅里達州際高速公路因變換車道引起之事故資訊，以及該事故發生地點上下游偵測器前20 分鐘車流資訊進行分析，同時為進行事故發生與未發生的車流特性分類，該研究以同樣程序另外針對未發生事故的時間點進行抽樣。分析主要可以分為兩階段，第一階段將相關車流變數透過決策樹加以分類，瞭解可能造成事故之車流特性，第二階段將決策樹分析所歸納之變數納入類神經網路建構預測模式；研究結果發現若上游平均車速高於下游則駕駛人會有較多變換車道的動作，進而造成較多事故的發生，尤其當兩相鄰車道間的平均佔有率差異較小時，駕駛人應更注意變換車道的動作。

Clarke 等人採用不同資料探勘方法針對英國 Nottinghamshire 路口右轉穿越車流事故資料進行一系列研究；首先作者採用基因演算法建立事故規則，研究發現許多較不為人知的規則，例如老年男性右轉穿越車流事故常發生在每年的最後三個月，上述規則通常不見得一定具有合理之邏輯，後續研究需針對此類規則做深入探討以釐清事故之因果關係【Clarke et al., 1998a】；基因演算法可同時處理線性與非線性、質化與量化資料，預測準確度極高，但該方法預測結果存在不確定性，

同樣資料、程序可能會得到兩種不同的預測，同時基因演算法有時會出現難以解釋的結果，因此作者於後續研究提出以決策樹分析瞭解事故發生肇因特性，探討不同事故嚴重度、駕駛人族群、行車操作行為對右轉穿越車流事故之差異【Clarke et al., 1998b】；最後階段作者應用序列分析(sequence analysis)進行研究，探討事故在發生前各項影響肇事因素的發生先後順序，研究結果顯示事故影響因素不超過連續兩個事件，若探討之因素超過兩個以上可能會造成分析的過度配適【Clarke et al., 1999】。

Chang & Chen(2005)以台灣中山高速公路 2001 至 2002 年事故資料為例探討事故次數與流量、降雨、道路幾何等因素之關係，考量高速公路各路段環境變數的差異，作者以里程與資料年份為依據將全線分為1484 個區段，研究方法採用分類迴歸樹(Classification and Regression Tree, CART)、負二項迴歸分析進行，並探討兩者於事故次數預測能力之差異；研究顯示在高流量、高降雨、坡度較大之路段會發生較多事故，高流量會造成車輛間衝突點增加，降雨會使能見度降低以及增加操控難度，坡度改變會使車速產生立即性的顯著變化；此外，本研究認為兩方法建構之模式正確率十分相近，無法判斷孰優孰劣。

Geurts(2005)應用關聯法則進行易肇事路段與非易肇事路段之研究，探討兩類型路段事故特性強物項(frequent item sets)之異同；由於關聯法則輸入變數必須為離散型，部分連續型變數需透過該領域之專業知識加以離散化，若無相關專業知識則採取平均組距方式加以分組，此外研究設定之最低support 值為 5%，規則最多包含4 個物項；最低 support 值的設定出自於研究主觀認定，然而透過試誤過程發現，若該值設定較低會產生過多規則，若較高則僅有少數無用之規則被發現，研究者應用此法須注意support 值參數之設定。

肇事鑑定需要交通管理、道路工程、法律各領域專家透過其專業知識加以判斷，然而不同領域所持意見不盡相同，資料有時也未能呈現事故原貌；以事故鑑定的角度而言，道路交通事故肇事原因專家系統除了減少爭議外，尚能提高鑑定效率並節省時間，范俊海等人(民 95)以交叉路口兩車肇事原因判別模式之研究為主題，透過文獻整理歸納潛在車輛事故肇事原因判定變數，運用多變量分析等統計方法提出以車種、超速、道路類別等12 種變數所構建之判別模式，並透過神經網路對模式加以驗證。

劉霈等人(民 94 年)以台中市 62 個路口 636 組行向組合為例進行路口交通事故次數預測模式之構建，研究方法採用類神經網路與分類迴歸樹進行比較；作者發現類神經網路隱藏層節點數為20 個時，其判中率與誤差表現最佳，分類迴歸樹建立之決策樹以行向交通量為最重要之變數，道路總寬度居次。

在文檔中交叉路口雙車事故分析 (頁 30-33)

第二章 文獻回顧與評析

2.3 資料探勘方法應用

第二章文獻回顧與評析