第二章 文獻回顧與評析
2.3 資料探勘方法應用
拜資訊科技發展,蒐集與維護大量資料之成本大幅降低,越來越多領域藉由 資料探勘方法自資料當中擷取有用的知識;所謂資料係指對於特定事件的客觀陳 述,僅能呈現該事件的原貌,無法從中窺知對該事件的判斷、分析或預測;透過 資料庫知識發掘程序(Knowledge Discovery in Databases, KDD),資料得以經由文 字化(contextualized)、分類(categorized)、計算(calculated)、更正(corrected)、濃縮 (condensed)而轉化為具有明確特性的資訊,再經由比較(comparison)、推論 (consequences)、關聯(connections)、會談(conversation)等方法,結合決策者之目 的、經驗而將資訊轉化為具有獨特見解的知識【Davenport et al., 1998】、【Geurts et al., 2005】。
資料來源:【Geurts et al., 2005】
圖 6、KDD 流程示意圖
KDD(流程如圖 6)係指由資料中擷取有用知識的程序,相關分析須先對其應 用之目標及其專業領域有所認知,選擇欲納入分析的資料類型,進行前處理以排 除錯誤或不一致的資料,分析階段將資料轉化為具有特定趨勢的資訊,再透過研 究者目的與專業將資訊轉化為可應用於特定領域的知識【Geurts et al., 2005】。廣義的 資料探勘程序即為KDD 之流程,亦即透過資料的擷取、轉換、清理、格式化、
分析以及後續資料解讀、定義與決策等程序,將資料轉化為知識的過程,狹義的 資料探勘專指KDD 流程當中,透過機器學習、人工智慧等方式進行資料分析之 流程,重點在於透過方法論挖掘資料相關特性【Peacock, 1998】、【廖郁雅,民 91】。
資料探勘方法為近年來常被應用的資料分析工具,相較於傳統的分析方法,
資料探勘得以更有效的找出資料隱含之意義,Berry & Linof 評論兩者的差異,認 為 分 析 報 告 只 能 提 供 後 見 之 明(hindsight) , 統 計 分 析 則 可 提 供 分 析 者 先 機 (foresight),唯有資料探勘可以提供識見(insight) 【周家慶,民 92】;資料探勘方法為 統計分析之延伸應用,由機器學習、統計分析、模式構建、資料庫技術所構成,
透過上述程序探索變數之間隱藏的關係,並自其中擷取有用的資訊,此一類型分 析方法僅以資料為出發點探討變數之間的相關性,方法本身無法判斷變數實際的 因果關係【Bayam et al., 2005】。
資料探勘方法主要特色為可以處理高維度且大量資料,資料本身亦不需要進 行任何的統計假設,然而此一特性也使得資料探勘方法無法進行檢定。一般較常 被應用之資料探勘方法可分為下列五類【Bayam et al., 2005】:
分類(classification):將資料歸類至已設定之組別,使用之方法包含決策 樹、link analysis、memory-based reasoning 等;
推估(estimation):根據連續性資料推估其預測值,使用之方法包含類神 經網路、迴歸模式;
預測(prediction):透過歷史資料的學習以預測未知屬性,預測與推估之 差異在於推估程序的分析產出為一預估值,預測程序之產出為某種行為 或特性的陳述,決策樹、類神經網路等方法皆可用來進行預測;
關聯分組(Affinity Grouping):瞭解變數間關係的強度與方向,使用之方 法包含關聯分析等;
群落(clustering):將具異質性的樣本劃分至具有同質性之群落,使用之 方法包含K-mean、Kohonen networks 等。
2.3.2 資料探勘之應用
Pande & Abdel-Aty(2006)透過即時車流資料蒐集與資料探勘方法建立事故 風險即時偵測模式,藉由車流特性變化偵測相關事故之風險,並透過可變標識系 統等途徑提醒駕駛人。作者蒐集1999 至 2003 年佛羅里達州際高速公路因變換車 道引起之事故資訊,以及該事故發生地點上下游偵測器前20 分鐘車流資訊進行 分析,同時為進行事故發生與未發生的車流特性分類,該研究以同樣程序另外針 對未發生事故的時間點進行抽樣。分析主要可以分為兩階段,第一階段將相關車 流變數透過決策樹加以分類,瞭解可能造成事故之車流特性,第二階段將決策樹 分析所歸納之變數納入類神經網路建構預測模式;研究結果發現若上游平均車速 高於下游則駕駛人會有較多變換車道的動作,進而造成較多事故的發生,尤其當 兩相鄰車道間的平均佔有率差異較小時,駕駛人應更注意變換車道的動作。
Clarke 等人採用不同資料探勘方法針對英國 Nottinghamshire 路口右轉穿越 車流事故資料進行一系列研究;首先作者採用基因演算法建立事故規則,研究發 現許多較不為人知的規則,例如老年男性右轉穿越車流事故常發生在每年的最後 三個月,上述規則通常不見得一定具有合理之邏輯,後續研究需針對此類規則做 深入探討以釐清事故之因果關係【Clarke et al., 1998a】;基因演算法可同時處理線性與 非線性、質化與量化資料,預測準確度極高,但該方法預測結果存在不確定性,
同樣資料、程序可能會得到兩種不同的預測,同時基因演算法有時會出現難以解 釋的結果,因此作者於後續研究提出以決策樹分析瞭解事故發生肇因特性,探討 不同事故嚴重度、駕駛人族群、行車操作行為對右轉穿越車流事故之差異【Clarke et al., 1998b】;最後階段作者應用序列分析(sequence analysis)進行研究,探討事故在 發生前各項影響肇事因素的發生先後順序,研究結果顯示事故影響因素不超過連 續兩個事件,若探討之因素超過兩個以上可能會造成分析的過度配適【Clarke et al., 1999】。
Chang & Chen(2005)以台灣中山高速公路 2001 至 2002 年事故資料為例探討 事故次數與流量、降雨、道路幾何等因素之關係,考量高速公路各路段環境變數 的差異,作者以里程與資料年份為依據將全線分為1484 個區段,研究方法採用 分類迴歸樹(Classification and Regression Tree, CART)、負二項迴歸分析進行,並 探討兩者於事故次數預測能力之差異;研究顯示在高流量、高降雨、坡度較大之 路段會發生較多事故,高流量會造成車輛間衝突點增加,降雨會使能見度降低以 及增加操控難度,坡度改變會使車速產生立即性的顯著變化;此外,本研究認為 兩方法建構之模式正確率十分相近,無法判斷孰優孰劣。
Geurts(2005)應用關聯法則進行易肇事路段與非易肇事路段之研究,探討兩 類型路段事故特性強物項(frequent item sets)之異同;由於關聯法則輸入變數必須 為離散型,部分連續型變數需透過該領域之專業知識加以離散化,若無相關專業 知識則採取平均組距方式加以分組,此外研究設定之最低support 值為 5%,規則 最多包含4 個物項;最低 support 值的設定出自於研究主觀認定,然而透過試誤 過程發現,若該值設定較低會產生過多規則,若較高則僅有少數無用之規則被發 現,研究者應用此法須注意support 值參數之設定。
肇事鑑定需要交通管理、道路工程、法律各領域專家透過其專業知識加以判 斷,然而不同領域所持意見不盡相同,資料有時也未能呈現事故原貌;以事故鑑 定的角度而言,道路交通事故肇事原因專家系統除了減少爭議外,尚能提高鑑定 效率並節省時間,范俊海等人(民 95)以交叉路口兩車肇事原因判別模式之研究為 主題,透過文獻整理歸納潛在車輛事故肇事原因判定變數,運用多變量分析等統 計方法提出以車種、超速、道路類別等12 種變數所構建之判別模式,並透過神 經網路對模式加以驗證。
劉霈等人(民 94 年)以台中市 62 個路口 636 組行向組合為例進行路口交通事 故次數預測模式之構建,研究方法採用類神經網路與分類迴歸樹進行比較;作者 發現類神經網路隱藏層節點數為20 個時,其判中率與誤差表現最佳,分類迴歸 樹建立之決策樹以行向交通量為最重要之變數,道路總寬度居次。