資料探勘於交通事故之應用－以大客車為例

(1)

國立臺灣大學工學院土木工程學系碩士論文

Department of Civil Engineering College of Engineering

National Taiwan University Master Thesis

資料探勘於交通事故之應用－以大客車為例 Data Mining in Traffic Accident－A Case Study for Bus

王宜慶 Wang, I-Ching

指導教授: 許添本博士

Major Professor: Hsu, Tien-Pen, Ph.D.

中華民國 98 年 6 月

June, 2009

(2)

(3)

I

誌謝

當我寫下誌謝時，即是Happy Time！代表著碩士生涯將告一段落，也是另一個人生的開始。在求學過程中，經歷了許多喜怒哀樂，也因為這樣讓我一點一滴的成長，雖然無法一一細數在學生時代中幫助及支持我的師長朋友們，但透過此篇誌謝，向各位說聲「謝謝」！

首先感謝我的指導教授許添本老師，在這兩年的碩士生涯中，讓我了解什麼是作研究的態度及思考邏輯，透過老師紮實的訓練及細心的指導，使學生都謹記在心！另外，感謝口試委員葉名山老師及蕭再安老師，給予寶貴的指正與建議，

使論文內容更加完善。在求學期間，感謝交通組全體師長，特別是曹壽民老師、

龍天立老師、周義華老師及張學孔老師，除了課業上的指導外，也分享許多重要人生經驗與觀念。此外，我也要感謝廖久緯老師、張慧老師、黃文隆老師，從國中、五專到研究所前的階段，有你們從中的指導、幫助、支持及鼓勵且亦師亦友的關係，使我的行為及思想也有所成長，也讓我從國中的毛頭小子轉變為即將出社會的新鮮人，只能說你們對我來說都是缺一不可，特此感謝！

碩士生涯中，要特別同門師兄姐：感謝育瑞學長在口試前指導我論文上的缺失，提出您的看法，使我論文更加完備；感謝將瓴學長，當我有問題時，向您請教都會很有耐心且鉅細靡遺的說出您的看法，使我了解作研究裡的該有的細節；

感謝佳紋學姐和晉瑜學姐，帶我進入作研究的領域，從機動力的計劃團隊裡，讓我知道如何作研究，也不厭其煩的糾正常犯錯的我，使我不斷的成長。另外要感謝的宏仁學長和上民學長，幫我針灸治療及貼豆，使我的身體在研究的摧殘下，

依舊可以恢復該有的精氣神，另外宏仁學長在 112 無人時，會和我分享他的人生經驗談，使我有不同角度的思考，我都會銘記在心。最後，要特別感謝的學長就是駿哥，不管在課業上、生活上及做人處事的道理，都讓我在這兩年內成長了許多，我們一起打壘球、打撞球、打屁…等，有了你這個老經驗，讓我在碩士生涯裡一點也不無聊，從我心底對你有太多的感激及尊敬，只能說有你的，你真的夠屌！

我想說來台大，應該無法在打大交盃了，但有了交通組壘球隊友們：駿哥、

阿維、kamin、AD、小民、kona、阿香、阿儒、阿坤、中庭、老頭、崇宇，使我可以繼續打大交盃，雖然我們被其他學校覺得是弱雞，但我們在大交盃、北交盃、

台大盃時，打了一場又一場的好球，雖然在關鍵的晉級賽都會輸掉，但我只能說我們太專注於研究，要不然我們的成績絕對不只這樣而已。另外，蘇龜、乙庭、

浩華、阿怡、堯堯、怡樺、格格等同學及依葶、子揚、君凱等學弟妹，感謝96 及 97 級的各位，在台大的日子裡，都有和大家共同的回憶，謝謝你們。

(4)

II

台大土木系棒的立偉、映忻、三木、肇安、浩瑋、NONO、宜民、子軒、奕元、

逸民、校園、祐康、小胖子、暴犯、阿國、以文、文傑及可愛的經理大龜等，使我在作研究的煩悶之餘，還有一個地方讓我發洩及嘴炮的地方。在台大，打過新生盃、台大盃、乙組賽，雖然沒有冠軍獎盃，但你們給我的回憶絕對比冠軍盃還要可貴；另外，在研究生涯煩悶無處可去時，就是淡江棒球隊給我最後的依靠，

謝老師、大雄、小奕廷、小胖、錫瑋、阿松、正浩等棒球隊的各位，一起革命奮鬥多少大大小小的戰役，從大專盃預賽到決賽、春秋季聯賽等，淡江棒球隊在我學生生涯裡給我的回憶最多也最寶貴，尤其是謝老師，在私底下你就是我的兄長，

照顧我就跟對待親弟弟一樣，你的照顧我點滴在心啦！另外，還有致理ob 的學長學弟們，一起打球的時光也有六、七年了，學長們對小弟的照顧，我也是感激在心頭；再來就是洪姐姐、老大、茜雯、思凱、德川等使我碩士生涯有宣洩的對象，

也謝謝你們！

最重要也是最感謝的是我的家人，外公、外婆、爸爸、媽媽及弟弟，謝謝你們長久來的支持、陪伴我成長、陪我走過人生的每個階段，希望我沒有讓你們失望，而我會更加努力成為你們一輩子的驕傲。最後，一個成功的男人，背後一定有一位偉大的女性支持，而這位女性就是我的摯愛 Ailsa，妳總是默默的陪在我身旁，在研究煩悶時，能夠靜靜的在聽我宣洩，在我快樂時能夠分享我的喜悅，妳陪著我喜也陪著我憂，能完成這篇論文，妳絕對是個幕後的推手，對妳的感謝就像我對你的愛一樣。

感謝完這麼多人，而學生生涯也告一段落了，就跟一場棒球比賽，終究是有結局，但這場比賽的結束並不代表最後一場比賽，未來的日子裡，還有很多更艱難、更崎嶇的比賽等著我去突破。研究所的兩年，真的讓我學會了許多事情，對於來到這裡，才讓我看到另一個更大的世界，更顯現我自己的渺小，所以我不會因為這樣而就此感到滿足，未來我會更努力的充實自我。

王宜慶謹致 2009 年 7 月於土木管 402

(5)

III

摘要

臺灣地區道路交通工程不斷改進，運具方面的結構也有也改，然而運輸問題卻日益嚴重。根據警政署的統計資料，每年交通事故不斷的攀昇，平均約2800 人死於交通事故，而大客車在每萬輛死肇肇事率都遠高於其他車種，所以一旦發生事故，其所造成的傷亡往往遠多於其他車種。

大客車事故頻傳的因素不外乎就是超速、酒醉駕車、違規駕駛、剎車失靈等，

因此本研究嘗試資料探勘於交通事故之分析，探討大客車事故發生的主要因素。

利用群集分析找出同質性最高的肇事集合，以此結果為基礎分析，並用卡方檢定驗證群集的正確性；然後套入判別分析中，作出其判別函數及預測其分類正確率，

並找出影響大客車的肇事變數。

本研究採用警政署自民國 92 年至 96 年共六年全國大客車交通事故資料，資料總件數為15514 件。研究結果為 92 至 96 年的訓練樣本和測試樣本的分類正確率都達90%以上，代表其判別率佳；影響六年的肇事變數為肇事原因、發生月份、

道路類別、速限、分向設施為主要因素，其中，又以肇事原因佔的比例最高。在肇事原因中，主要發生的原因為變換車道或方向不當、未保持行車安全距踓、酒醉後駕駛失控、違反號誌管制或指揮、違反特定標誌(線)標制、其他駕駛人因素、

非駕駛人因素，並針對此研究結果提出改善策略。

關鍵字：交通安全、肇事分析、資料探勘、群集分析、判別分析、因子分析

(6)

IV

Abstract

According to the statistic data from National Police Agency, traffic accidents increase year over year. Averagely, 2,800 people die in traffic accidents. Moreover, in every thousand cars that cause deadly car accidents, bus is the main trouble maker. Thus, once a car accident happens, bus accidents usually lead to more deaths than other car accidents.

Bus accidents usually include speeding, drunk driving, driving against traffic regulations, and brake failing…etc. Therefore, in this thesis, I try to do traffic accidents analysis by using data mining, and figure out the main causes of bus accidents. In addition, I use cluster analysis to find out the most homogeneous class which causes bus accidents. As a result, I use chi-square test to verify the validity of the cluster and apply it to discriminant analysis which can determine the discriminant function and predict the accuracy of classification, so that the variable which causes bus accidents will come out.

In this research, the bus accidents data from 2003 to 2007 are included; the total number of the data is 15514, which can be found in National Police Agency. The result of this research includes the Training Samples and the Test Samples from 2003 to 2007, which’s accuracy of classification are all over ninety percent. Therefore, the identification is quite excellent. The major variables which cause bus accidents from 2003 to 2007 are accident causes, which months, what kind of road, speed limit, and curb systems. Among these factors, accident causes are the most. And results for this strategy to improve.

Keyword：Traffic Safety；Accident Analysis；Data Mining；Cluster Analysis；

Discriminant Analysis；Factor Analysis

(7)

V

目錄

誌謝 ... I 摘要 ... III Abstract ... IV

第一章緒論 ... 1

1.1 研究背景與動機 ... 1

1.2 研究目的 ... 3

1.3 研究範圍 ... 3

1.4 研究內容與流程 ... 3

第二章文獻回顧 ... 7

2.1 資料探勘相關文獻 ... 7

2.1.1 資料探勘的定義 ... 7

2.1.2 資料探勘的步驟與資料庫知識發現 ... 9

2.1.3 資料探勘的功能與技術 ... 10

2.1.4 資料探勘的應用 ... 13

2.2 交通事故相關文獻 ... 16

2.2.1 交通事故定義及分類 ... 16

2.2.2 肇事分析之應用 ... 19

2.2.3 國內道路遊覽車肇事案件分析 ... 21

2.3 綜合評析 ... 25

第三章研究方法 ... 29

3.1 群集分析 ... 29

3.2 判別分析 ... 39

3.3 因子分析 ... 43

3.4 小結 ... 48

第四章肇事資料前置處理 ... 49

4.1 分析流程 ... 49

4.2 肇事資料蒐集 ... 50

4.3 肇事資料前置處理 ... 51

4.4 肇事資料轉換 ... 52

4.5 肇事變數 ... 54

第五章資料分析 ... 57

(8)

VI

5.1 群集方法與分析流程 ... 57

5.2 群集數目選擇 ... 58

5.3 群集結果 ... 61

5.4 群集驗證 ... 69

5.5 判別模式架構與分析流程 ... 76

5.6 判別函數的構建 ... 77

5.7 判別分析結果 ... 78

5.8 判別模式綜合分析 ... 93

第六章案例分析 ... 103

6.1 臺灣地區 ... 103

6.2 臺北市 ... 108

6.3 南投縣 ... 114

6.4 案例比較 ... 119

第七章結論與建議 ... 121

7.1 結論 ... 121

7.2 建議 ... 122

參考文獻 ... 125

(9)

VII

圖目錄

圖1-1 研究流程圖 ... 5

圖2-1 資料庫知識發現的流程與步驟 ... 9

圖3-1 群集分析之決策流程 ... 32

圖3-2 群集間距離圖 ... 35

圖3-3 xi的共通性

h

_i²

= + l

_i²₁

L + l

_iq² ... 46

圖4-1 分析流程 ... 50

圖5-1 群集方法分析流程 ... 57

圖5-2 92 年肇事資料群集變化 ... 58

圖5-8 92-97 年肇事資料群集變化 ... 60

圖5-9 判別模式分析流程 ... 77

圖5-10 92 年各群集肇事之變數所佔比例 ... 94

圖5-11 92 年各群集肇事之變數權重值 ... 94

圖5-14 94 各群集肇事之變數所佔比例 ... 96

圖5-22 92-97 年各群集肇事之變數所佔比例 ... 100

圖5-23 92-97 年各群集肇事之變數權重值 ... 100

圖6-1 臺灣地區因素陡坡圖 ... 104

圖6-2 臺北市因素陡坡圖 ... 109

圖6-3 南投縣因素陡坡圖 ... 115

(10)

VIII

表目錄

表1-1 道路交通事故統計 ... 1

表1-2 各車種道路交通事故發生情況 ... 2

表2-1 資料探勘的功能與技術 ... 12

表2-2 肇事因素索引 ... 18

表2-3 資料探勘應用彚整 ... 25

表2-4 肇事分析之應用彚整 ... 26

表2-5 國內道路遊覽車肇事案件分析彚整 ... 26

表4-1 肇事變數 ... 54

表5-1 92 年最後群集中心點 ... 62

表5-2 93 年最後群集中心點 ... 63

表5-3 94 年最後群集中心點 ... 64

表5-4 95 年最後群集中心點 ... 65

表5-5 96 年最後群集中心點 ... 66

表5-6 97 年最後群集中心點 ... 67

表5-7 92-97 年度最後群集中心點 ... 68

表5-8 92 年卡方檢定結果 ... 69

表5-9 93 年卡方檢定結果 ... 70

表5-10 94 年卡方檢定結果 ... 71

表5-11 95 年卡方檢定結果 ... 72

表5-12 96 年卡方檢定結果 ... 73

表5-13 97 年卡方檢定結果 ... 74

表5-14 92-97 年度卡方檢定結果 ... 75

表5-15 卡方檢定驗證結果 ... 76

表5-16 92 年肇事資料函數檢定結果 ... 78

表5-17 92 年費雪線性判別函數係數 ... 79

表5-18 92 年訓練樣本分類結果 ... 79

表5-19 92 年測試樣本分類結果 ... 80

(11)

IX

表5-40 92-97 年肇事資料函數檢定結果 ... 90

表5-41 92-97 年費雪線性判別函數係數 ... 91

表5-42 92-97 年訓練樣本分類結果 ... 92

表5-43 92-97 年測試樣本分類結果 ... 92

表5-44 判別模式彙整 ... 93

表5-45 費雪函數加權值比重 ... 101

表5-46 肇事原因加權值之比重 ... 102

表6-1 臺灣地區解說總變異量表 ... 103

表6-2 臺灣地區各因子下分群數之判別正確率 ... 104

表6-3 臺灣地區 3 因子轉軸後因子負荷矩陣 ... 105

表6-4 臺灣地區 3 因子分 6 群之構面 ... 106

表6-5 臺灣地區死亡人數之迴歸模式 ... 106

表6-6 臺灣地區受傷人數之迴歸模式 ... 107

表6-7 臺北市解說總變異量表 ... 108

表6-8 臺北市在各因子下分群數之判別正確率 ... 109

表6-9 臺北市 7 因子轉軸後因子負荷矩陣 ... 110

表6-10 臺北市 7 因子分 7 群之構面 ... 111

表6-11 臺北市死亡人數之迴歸模式 ... 112

表6-12 臺北市受傷人數之迴歸模式 ... 113

表6-13 南投縣解說總變異量表 ... 114

表6-14 南投縣在各因子下分群數之判別正確率 ... 115

表6-15 南投縣 3 因子轉軸後因子負荷矩陣 ... 116

表6-16 南投縣 3 因子分 5 群之構面 ... 117

表6-17 南投縣死亡人數之迴歸模式 ... 117

表6-18 南投縣受傷人數之迴歸模式 ... 118

表6-19 案例分析之彙整 ... 119

(12)

1

第一章緒論

1.1 研究背景與動機

臺灣地區的道路交通工程不斷改進，運具方面的結構都有極大的改善，隨著汽車科技的進步，車輛速度、結構、性能等都不斷提昇，然而運輸問題如人為疏失、車體結構、道路設計、法令規範等日益嚴重卻無法徹底解決。根據內政部警政署的統計資料，如表1-1 所示，截至民國 97 年底，每年的交通事故的件數不斷的攀昇，每年平均約2800 人左右死於交通事故，這些數字尚未包括登入於資料庫中及當事人自行和解或就醫之事故紀錄，交通事故已對於民眾的生命財產造成莫大的威脅。交通事故不僅造成個人及家庭的嚴重傷害，也對社會有限醫療資源損失及社會成本增加，是以道路交通不只有思考行的效率問題，更應該把交通安全視為第一，因此如何改善運輸安全以降低交通事故為目前當務之急。

表1-1 道路交通事故統計

總計 A1 類 A2 類年別件數死亡受傷件數死亡受傷件數受傷

90 64264 3344 80612 3142 3344 1490 61122 79122 91 86259 2861 109594 2725 2861 1284 83534 108310 92 120223 2718 156303 2572 2718 1262 117651 155041 93 137221 2634 179108 2502 2634 1248 134719 177860 94 155814 2894 203087 2767 2894 1383 153047 201704 95 160897 3140 211176 2999 3140 1301 157898 209875 96 163971 2573 216927 2463 2573 1006 161508 215920 97 166288 2224 220346 2150 2224 983 164138 219363 註：A1 類係指造成人員當場或 24 小時內死亡交通事故

A2 類係指造成人員受傷之交通事故

資料來源：【1】

在大客車旅次增加的情形下，國人使用長程及短程的大客車為接駁工具都大幅提昇，使得大客車在市區、山區及城際間的交通運輸上扮演著格外重要的角色；

運輸工具不僅提供快速便捷的服務，更應具備安全舒適的乘坐空間。根據內政部

(13)

2

警政署統計資料，以民國97 年為例如表 1-2 所示，大客車不管是在每萬輛肇事率或每萬輛死亡率都比其他車種來的高，不難發現大客車一旦發生事故，其所造成的傷亡往往遠多於其他車種。近年來所發生的大客車事件傷亡都非常慘重，如梅嶺、九份、仰德大道等，所以大客車安全也應是被大家所重視的一項課題。

表1-2 各車種道路交通事故發生情況

每萬輛死亡肇事率

營業大客車 2.76

小客車自用 0.10

營業 0.21

大貨車自用 0.99

營業 1.13

小貨車自用 0.19

營業 0.78

機車重型 0.07

輕型 0.04

臺灣大客車車輛安全發展的歷程，其實伴隨著相當多且不幸的事故，而大客車事故頻傳的因素不外乎就是人、車、路、環境四個層面，近年所發生的大客車重大事故中，從交通部或內政部警政署的車禍肇事鑑定結果，絕大多數都是歸因於人為因素。其原因如下：

1. 人：超速、酒醉駕車、違規駕駛、開車時使用行動電話...等 2. 車：車齡老舊、改造車體、使用再生胎、剎車失靈…等 3. 路：道路幅度窄小、山區路段彎度過大…等

4. 環境：天候、光線、視距、路面狀態…等

上述人、車、路、環境四個層面中有些因素或許不是造成事故最主要的因素，但卻可能是增加事故危險因素之一，所以本研究期望透過大客車的交通事故案件並用資料探勘作進一步分析。

本研究對已經發生交通事故的肇事原因了解並從交通事故資料加以分析外，

希望事先了解潛在的危險因子對肇事影響且針對危險因子加以改善，進而有效降

(14)

3

低肇事次數及嚴重程度，因此，對於交通事故，事前的預防更勝於事後的補救。

1.2 研究目的

有鑑於大客車的交通事故一旦發生便容易造成重大的傷亡，交通事故發生由不同時間、環境、區域下所構成，因此發生的交通事故其嚴重性皆有所不同，其背後的影響因子絕非一語可斷定。本研究主要目的有以下幾點：

1. 藉由肇事分析期望找出大客車肇事主要問題，並作比較分析之間的差異。

2. 利用地區特性，找出二個不同的地區，做案例的比較分析。

3. 歸納出影響大客車肇事之原因，並提出改善策略與建議，使大客車的安全性提高。

1.3 研究範圍

本研究以全國大客車交通事故為研究對象，探討各年度探討影響肇事原因的實際及潛在因子，故資料蒐集時間為民國92 年至民國 97 年共 6 年的全國大客車肇事資料。

1.4 研究內容與流程

依據研究動機與目的，本研究之研究流程如圖 1-1 所示，內容主要分為七部分，為緒論、文獻回顧、研究方法、肇事資料前置處理、群集分析、判別分析、

結論與建議，其大致內容如下：

第一章緒論

主要說明研究動機、目的、範圍、內容與流程。

第二章文獻回顧

針對研究主題回顧文獻中資料探勘之定義、步驟、功能、技術及應用領域。

其次，透過交通事故相關文章及遊覽車肇事案件分析，隱含的潛在因子，

(15)

4

冀望透過資料探勘之方法，從資料中探尋出不明顯且隱藏的在用資訊與知識，並希望這些資訊與知識可以幫助釐清隱藏於肇事背後的危險因子與肇事原因之相關性。

第三章研究方法

使用群集分析法及判別分析法，包括模式基本概念、假設、推導及模式應用。

第四章肇事資料前置處理

蒐集有關全國大客車交通事故之資料，並作資料的前置處理之過程。

第五章資料分析

以群集分析法，將各年度進行最佳的分數，並依照分群的結果，利用統計交叉分析的卡方檢定，在分群中的變數是否顯著，將顯著之變數套入判別分析；從分群結果之分類定義，運用判別分析，建構各年度大客車的判別預測模式及分類正確率，再從判別模式中找出影響大客車之重要變數。針對此結果提出改善策略。

第六章案例分析

加入因素分析，試比較臺灣地區與臺北市、南投縣之地區特性，並作事故嚴重程度迴歸預測模式看其死亡及受傷之因子是否一致及顯著。

第七章結論與建議

針對研究結果提出結論與建議。

(16)

5

圖1-1 研究流程圖

(17)

6

(18)

7

第二章文獻回顧

本章節先介紹資料探勘之定義、步驟、功能與技術，並回顧資料探勘之相關應用，再來了解交通事故之定義並回顧其肇事之分析及應用，最後再了解國內道路的遊覽車肇事案件。

2.1 資料探勘相關文獻

由於資訊科技的發達，且隨著時間的累積，各領域及企業組織在資訊系統中資料儲存量也隨之增加，而資料探勘又是近年來資料庫應用領域中相當熱門的議題。資料探勘一般是指在資料庫中，利用各種演算法，將過去所累積的資料去進行分析、歸納及整合等工作，以萃取出有用的資訊，找出有意義且使用者有興趣的特徵，在進行決策時提供之參考依據。以下為資料探勘之相關文獻：

2.1.1 資料探勘的定義

資料探勘由英文Data Mining 翻譯而得，對於 Data Mining，各學者有不同的見解，如資料採礦、資料挖掘、資料考古學等。資料探勘是指找尋隱藏在資料中的訊息的過程，從資料中發掘資訊或知識，如趨勢(Trend)、特徵(Pattern)、相關性 (Relationship)的過程，也就是從資料中發掘資訊或知識，目前已被許多研究人員視為結合資料庫系統、統計、人工智慧及機器學習技術的重要領域，許多業界人士也認為此一領域是一項增加偘企業潛能的重要指標。以下由各學者對資料探勘所提出之定義：

1. Frawley（1991）【2】：從資料庫中發掘出非顯然的、先前未知的及潛在的可能有用資訊之過程。

2. Grupe & Owrang（1995）【3】：從已經存在的資料庫中挖掘出新的及專家仍發現的新事實。

(19)

8

3. Fayyad（1996）【4】【5】：定義知識發掘是從大量資料中選取合適的資料，進行資料處理、轉換等工作，再進行資料探勘與結果評估的一系列過程，也就是說資料探勘只是知識發掘過程當中的一個步驟。

4. Berry & Linoff（2000）【6】：定義資料探勘為使用自動或半自動的方法，對大量資料作分析，找出有意義的關係或法則。

5. Han & Kamber（2001）【7】：從儲存在資料庫的大量資料、資料倉儲或其他資訊儲存體中去挖掘有趣的知識過程。

6. Roiger & Geatz（2003）【8】：從整個資料庫裡的資料，利用一種或多種電腦技術來自動分析或擷取知識的過程，其目的是在資料中發現趨勢與特徵。

7. 曾憲雄等人（2005）【9】：資料探勘可解釋資料庫之知識發掘(Knowledge Discovery in Database, KDD)，也就是從一個大型資料庫裡頭所儲存的大量資料當中去萃取出一些有趣的知識，所謂的知識指的就是一些規則。

8. 尹相志（2007）【10】：資料探勘是利用統計及機器學習的演算法，啟發性地從大量資料中找尋隱藏具有商業價值的知識與規律，以作為自動化商業策略之應用。

綜合多位學者的定義，皆認為資料探勘在龐大的資料中找出有效益的特徵、型態、

趨勢及規則性，同時資料探勘可視為資料庫知識發現過程中的一個重要的步驟。

資料探勘和統計容易使人搞混，但其實兩者之間還是有差異，尹相志（2007）【10】

強調二個重點：

¾ 資料探勘是啟發性而非演繹性：傳統統計檢定中，常會有所謂的統計假設，

如常態分配或是變數之間是獨立等；資料探勘雖然有許多使用的技巧及方法是源自於統計，但它揚棄了許多統計上的假設，而是啟發性的透過演算法主動搜尋有意義的規則，讓資料說話。

¾ 資料探勘具有商業化以及行動意涵：在傳統統計或是市場調查，也揭露許多有意義規則與資訊，但是只作為角色參考，無法自動化的聯結至商業流程中。

(20)

9

2.1.2 資料探勘的步驟與資料庫知識發現

依據Fayyad（1996）【11】的定義得知，資料探勘僅為知識發現流程之其中一個步驟也是屬於最重要的一環，整個過程包括對應領域的認知、具備相關的專業知識，確認分析目標的資料來源，接著進行資料淨化、資料整合、資料選擇、資料轉換、資料探勘、特徵評估、知識呈現，如圖2-1 所示。

圖2-1 資料庫知識發現的流程與步驟

資料庫之知識發現的流程通常包含以下步驟，分別敘述如下：

1. 定義及分析問題

正確的定義問題，才能知道在整個資料探勘過程中所需的資料知識、運用的技術及結果該如何呈現，以解決原先設定的問題。

2. 資料的選取及前置處理

在確定需要的資料時，必須謹慎思索可能與進行的知識發掘任何有關資料，並瞭解需要的資料數量，以及所需的資料來源。而資料的準備，除了透過各種來源取得所需資料，主要還必須對於這些資料進行前置處理。由於各種來源取得的資料，其中可能包含許多錯誤、不需要或是不一致的資料，而資料處理主要則對於這些原始資料進行減量、清理、選擇及轉換。

3. 知識發現的相關設定

主要目的在選擇資料庫知識發現的分析方法，也就是資料探勘的技術，

並進行相關的參數及變數的設定。

4. 進行資料探勘

(21)

10

在準備相關的資料及選定資料探勘的技術後，此步驟主要的工作就是實際的進行資料探勘，把其中所隱藏的知識萃取出來。而進行資料探勘的步驟也是整個資料庫知識發現的核心步驟。

5. 樣式的評估

資料探勘萃取出的知識不見得每一個都是需要的，因此，需要再經過一個樣式評估的步驟，去評估資料探勘所挖掘出來的知識是不是真的有用，因為挖掘工具可能會挖掘出很多東西，有些是有意義的，有些是沒有意義的。

6. 知識的呈現

此步驟就是在資料探勘的步驟進行之後所獲得的知識，透過評估知識的品質去蕪存菁，再經由可靠且妥善的方式來組織，並呈現發掘所得到的知識。

2.1.3 資料探勘的功能與技術

依據尹相志（2007）【10】、謝邦昌（2007）【12】及本研究的綜合整理資料探勘的功能與技術。一般而言，資料探勘的主要功能有以下幾項，茲將這些功能之意義及演算法分別敘述如下：

1. 分類(Classification)

分類是指檢視新物件的特性，然後將其指定到預先定義好的類別中，利用一連串的輸入變數來預測類別變數，即描述物件屬性與類別之關係，然後再根據這些分類模型對其他未經分類或新資料進行預測。分類還可以透過分類結果的純度來提供分類機率，這些分類機率可以作為名單排序或是篩選的重要根據。例如將信用卡申請者的風險屬性區分別高度申請者、中度申請者及低度風險申請者。分類常使用的演算法包括決策樹(C4.5、CART、CHAID、

Gini、ID3 等)、貝氏分類法、記基礎推論法及類神經網路。

2. 推估(Estimation)

推估是善於處理連續性的數值，憑著輸入資料，可用來推估未知的連續

(22)

11

性變數。例如按照信用卡申請之教育程度及行為來推估信用卡消費量。推估常使用的演算法包括統計上的相關分析、迴歸(線性迴歸及羅吉特迴歸)分析及類神經網路。

3. 預測(Prediction)

預測是推估連續變數，即推未來的數值及趨勢，以歷史資料可用來建立模型以檢視近來觀測值的資料。例如顧客過去之刷卡消費量預測未來之刷卡消費量。預測常用的演算法包括決策樹、迴歸分析、時間序列、類神經網路。

4. 關聯規則(Association Rule)

關聯規則就是於歷史資料中，找出哪些事件或物件總是伴隨著發生，亦稱作「購物籃分析(Marker Basket Analysis, MBA)」。通常運用於商業交易的作法為蒐集一組交易資料，每一交易包括若干交易項目，關聯分析的目的是由這些交易的資料中，找出交易項目的關聯規則。關聯規則常用的演算法包括 Apriori 演算法及 FP-Growth 演算法。

5. 群集分析(Clustering Analysis)

群集分析又稱為資料切割，是一種多變量統計分析的技術，係指將所有物件或資料分成若干群集的過程，也就是根據物件間的相似性或不相似性。

將所有物件分成若干個群集，使得每個群集內的物件具有高度的相似性，而不同群集間具有高度不相似性。群集分析的目的是要把群集與群集間的差異找出來，同時也要將群集中物件的相似性找出來。群集分析與分類的差別在於，群集分析是屬於非監督型學習方式，使用者只須供學習的學習資料組，

系統必須自行發掘物件間的相似性和其他特性(如最佳群集數)，以便建立模式和群集描述，作為分類資料自動歸類的依據。群集分析常用的演算法包括 K-Means 法、K-Medoids 法及 CLARANS 法。

6. 序列規則(Sequential Pattern)

序列規則的重點是考慮時間的因素，利用此方法分析不同時間點上各事

(23)

12

件的關聯性，也就是在一長期時間區段內，事件發生的順序。其最大功能是協助我們找出生命週期序列規則與週期性規則兩種：順序性規則乃考慮事件發生之時間先後關係；週期性規則考慮時間區段的變化，分析時間區段內所發生的事情，是否其他相同時間區段內也會發生。雖然這兩種方法不同，但對使用者而言，隨著時間的多樣變化，找出有用的規則已日形重要。序列規則常用的算法包括Aprior 演算法、決策樹、時間序列及類神經網路。

7. 視覺與描述

資料探勘過程中的一項重要附加價值，就是視覺與描述。在進行資料探勘的前置作業時，透過資料視覺化，能夠將資料特性呈現在資料探勘者前面，

並透過良好的資料視覺化程序，可以發現許多演算法無法判別的規則型態去加以描述。

Berry & Linoff（2000）【6】將各項技術適用之功能任務做整理，如表 2-1 所示。現今資料探勘的方法一直都在被改進及改良，以符合探勘領域的變化，進而可以被使用於各領域之中。

表2-1 資料探勘的功能與技術

技術分類推估預測關聯分組群集化視覺與描述

決策樹 ☉ ☉ ☉ ☉

傳統統計 ☉ ☉ ☉ ☉ ☉ ☉

群集分析 ☉

連結分析 ☉ ☉ ☉ ☉

購物籃分析 ☉ ☉ ☉ ☉

類神經網路 ☉ ☉ ☉ ☉

基因演算法 ☉ ☉

記憶基礎理解 ☉ ☉ ☉ ☉

(24)

13

2.1.4 資料探勘的應用

Raymond 及 Jiawei（1994）【13】主要利用是空間資料探勘的自動化找到有趣的關係及特徵，使用的演算法為群集法；此研究先使用基本的PAM 及 CLARA 的群集法，再基於隨機搜尋，制定一個新的群集法，為CLARANS，並透過 CLARANS 法分析下，實驗空間(SD)及非空間(NSD)的資料探勘。PAM 法是找出 k 個群集並在每個群組找出一個物件，而不同特徵的資料會被分類，PAM 法主要是處理小型資料庫；CLARA 法是根據資料找出樣本範圍並應用 PAM 法找出中心點，而樣本範圍是具有隨機性，CLARA 法主要處理大型資料庫；經過分析及實驗的比較下，

CLARANS 法比 PAM 法及 CLARA 法更有效率且可以分類出更好的群組。此研究的資料庫是利用溫哥華2500 個高級住宅區的資料，而資料種類為房屋類型(大樓、

獨棟、公寓)、價格及房屋大小去分類出此資料的分佈範圍。房屋類型為大樓時，

價格為150 萬至 350 萬，大小為 6000 至 10000 平方呎；房屋類型為獨棟時，價格為80 萬至 150 萬，大小為 3000 至 7000 平方呎；房屋類型為公寓時，價格為 30 萬至80 萬，大小為 1000 至 2500 平方呎。CLARANS 群集法去分析空間(SD)下的資料時，分類為三個群組，從三個群組中找到房屋類型分佈的範圍；在分析非空間(NSD)下的資料時，分成 12 種組合，三種不同的房屋類型下各有 4 種不同的價格及房屋大小下找到分佈的範圍。

Kao 及 Chiu（2001）【14】此研究是結合了分類與迴歸樹(CART)與類神經網路的技術，以確定信用評分模型的預測能力，其中CART 是使用了 Gini index 來衡量、

傳統類神經網路及 CART 結合類神經網路三者做比較其預測正確率。資料是臺灣的銀行，蒐集時間為1995 年至 2000 年，樣本數約為 3000 人，資料變數包括就業狀況、個人資料、年齡、房屋及職業類型等，但為了保護個人資料的機密，此研究改變了屬性的名稱和數值，僅用象徵性的資料；資料庫中有二個混合的連續變數及七個類別變數。此研究的資料為隨機性且用了二個不同的集合，分別人訓練

(25)

14

集(樣本)約有 1980 個觀測值及測試集(樣本)約有 1020 個觀測值，而訓練集是使用信用評分模型去估計參數，測試集是為了測試模型的能力。基於決策樹 CART 的選擇結果，使用了六個變數(性別、職業、薪資、婚姻狀況、教育程度、信用額度)，

分別為二個連續變數及四個類別變數，訓練集與測試集之估計模型觀測值的正確分類為88.43%及 88.22%是信用良好之顧客、58.27%及 56.27%是信用不良之顧客；

結合CART 和類神經網路中，三個層級(輸入層、隱藏層、輸出層)，輸入層有七個節點包含了六個輸入值(此值是根據 CART 的結果)，訓練集與測試集之估計模型觀測值正確分類為 90.38%及 90.22%是信用良好之顧客、62.57%及 61.15%是信用不良之顧客。最後，比較 CART、傳統類神經網路、結合 CART 與類神經網路的預測正確率結果為72.24%、67.25%、75.69%；而類神經網路的輸出值提供給 CART 在所有的情況下，比傳統的類神經網路及CART 模型好。

Wang 等人（2007）【15】使用決策樹的 ID3 演算法，資料取得是由第三方物流公司客戶的某一個月期間資訊系統的資料庫，樣本裡包含19 個項目，分為二類顧客類型(會員及正常顧客)及四種屬性(運費、付款、重量及運送時間)。ID3 演算法分類出，會員有8 個項目，正常顧客有 11 個項目，然後再把顧客類型分別放入四種屬性去算出information gain，最後付款的 information gain 最大，因此用付款作為決策樹的樹根建立決策樹，再利用IF-THEN 找出規則；但是 ID3 演算法仍有不足之處，所以此研究使用information gain ratio 改善。利用決策樹的 ID3 演算法，

可以算出information gain 去分析客戶資料並發現客戶特性，並留住高價值的客戶及開發潛在客戶，以提供第三方物流公司提供高品質的服務。

Eduardo 等人（2002）【16】應用墨西哥的道路交通事故資料庫，道路交通事故的資料是從1995 年至 1999 年，其中共有 35 種不同的特性，包含時間、日期、

道路名稱、天氣條件、發生事故的公里處等，另外還記錄著因事故發生的時間、

損害道路、車輛數等主要特性而導致道路封閉及嚴重的事故中傷亡人數。1995 年時的資料包含33 個特性，1996 年上半年的資料包含 22 個特性，1996 下半年後至

(26)

15

1999 年的資料包含 17 個特性，其中 16 個特性是每年都有的；此資料庫記錄著 4380 個事故及相關之6041 輛車。使用的技術及工具為 Bayesian network 分析各特性間的依賴性、使用關聯規則之Apriori 演算法找出變數之間的關係、使用 Java 之 C4.8 之J48 及 CN2 法做分類。先做簡單的分類為沒有嚴重受傷、嚴重受傷、死亡、嚴重受傷和死亡。使用Apriori 演算法，如果在沒有天氣條件影響下及交通事故類型為一般撞擊時，就不會有嚴重的傷害；如果在沒有天氣條件影響下及交通事故類型為翻車或人被撞時，就是嚴重的車禍；如果有天氣條件的影響下發生的交通事故，大部分都為嚴重的傷害。使用CN2 演算法，如果車禍是正常撞擊及天候條件是下雨或起霧時，則主要有嚴重的受傷；如果是連續撞擊或車轉向及沒有天候條件影響時，則沒有嚴重的受傷；如果是翻車、車輛轉向或人被撞及沒有天候條件影響時，則會有死亡；如果翻車、車輛轉向、人被撞或雙向車道及有天候條件影響時，則會有嚴重受傷和死亡。Bayesian network 法結果顯示和日期有關的資料及在斜坡、車道在嚴重事故中發現有高度依賴性。最後，三種不同的演算法發現一些主要的結果，死亡和沒使用安全帶有關、天氣狀況及道路上下坡之特性是直接影響嚴重事故的因素、特定的道路會常有事故發生、大多的事故發生在下午或凌晨、車輛高速行駛會有很大的機率發生死亡事故、酒後駕車會發生嚴重的事故。

Marukatat（2007）【17】從框架(framework)內選擇並提出分類、挑選及篩選，

根據規則結果作關聯分析，利用 Apriori 演算法找出高的支持度(support)及信心水準(confidence)。資料蒐集是從泰國當地的 Nakorn Pathom 省的交通事故，時間為 2003 年 1 月 1 日至 2006 年 3 月 31 日，總共有 1007 筆記錄。資料庫中有 20 個二元(binary)變數包括車子類型、事故種類及人為損失等，3 個名義(nominal)變數包括時間、地點及道路特性。使用框架選擇包含語義(semantic)規則分類及排列分析二部分，語義規則分類有abundant、strongly abundant 及 weakly abundant rule 三種類型，而abundant 及 strongly abundant rule 在此研究是篩選的作用，然後在用 weakly abundant rule 找出侯選規則，而排列分析可能會多次使用不同的參數產生的規則，

(27)

16

再confidence 與 life 從中選出重要的做比較。此研究的關聯規則執行了八次，產生了3042 個關聯規則，然後篩選掉重覆或排列規則，結果包含 105 個 candidate rule 及294 個 weakly abundant rule。candidate rule 產生四種規則，一、中午十二點到晚上六點、地方道路、交叉路口Æ沒有讓右轉車輛，二、中午十二點到晚上六點，

直線道、死亡Æ卡車，三、凌晨十二點到早上六點、卡車Æ死亡，四、曲線道、

腳踏車Æ地方道路；weakly abundant rule 產生二個規則，一、上坡、行人Æ沒有機車、死亡，二、卡車Æ公路、沒有汽車、沒有超速。

吳冠宏等人（2006）【18】將利用資料探勘技術中的Two-Step 法、自組織映射圖 (Self-Organizing Maps)與K平均值演算法(K-Means Method)來分析大量的肇事資料以進行分群工作，幫助我們從其中找出有用的資訊提供建議或決策，以減少車禍的發生。把這三種演算法都分成二群去分析平均快車道數目、速限、道路類別及平均損失金額四個變數，其分群結果發現K-Means演算法在肇事變數中具有比較好的分群能力，能有效的區分出不同的群集。

2.2 交通事故相關文獻

本節了解交通事故的定義及分類，交通事故發生由人、車、路、環境四個層面影響，再由過去相關的肇事文獻了解由什麼肇事原因對交通事故影響最深。

2.2.1 交通事故定義及分類

根據道路交通事故處理辦法第二條：道路交通事故，指因汽車或動力機械在道路上行駛，致有人傷亡或車輛財物損壞之事故。其中對交通事故定義的內容說明如下【19】：

1. 肇事的主體須有「汽車」或「動力機械」。

2. 肇事地點須發生在「道路」上，而「道路」的定義係依道路交通管理處罰條例第三條第一項第一款之規定：「道路係指公路、街道、巷弄、廣場、騎樓、

(28)

17

走廊或其他供公眾通行之地方」。

3. 汽車或動力機械須有「行駛」的狀態。

4. 因肇事而致使「有人傷亡(體傷)或車輛則物損壞(財損)」。

5. 須出於「過失或無過失的行為」。

交通部運輸研究所與內政部警政署於民國八十五年十一月合編之「道路交通事故調查表」中，將一般事故傷亡統計依事故受傷及死亡人數統計，可分為三類：

A1：造成人員當場或 24 小時內死亡之車輛交通事故案件。

A2：造成人員受傷之車輛交通事故案件。

A3：無人傷亡，但造成財物損失的交通事故案件。

依照「道路交通事故調查表」中，囊括了事故發生之人、事、物各項肇因，

並區分出人、車、路及環境等四大因素，分述如下：

¾ 人：性別、受傷程度、保護裝置、當事者行動狀態、駕駛者資格情形、駕駛者執照種類、飲酒情形、肇事逃逸、職業、旅次目的、年齡。

¾ 車：車輛用途、車種、車輛牌照號碼、車輛撞擊部位。

¾ 路：道路類別、速限、道路型態、路面狀況、車道劃分設施(分道及分向設施)。

¾ 環境：時間、天候、光線、事故位置、路面狀況、道路障礙、號誌。

目前警察處理事故所記錄之肇事影響因素，係依據交通部運輸研究所民國 92 年「易肇事地點改善作業技術參考手冊」【20】及「易肇事地點改善作業手冊之教育訓練計劃」【21】，分為「車輛駕駛人因素」及「非車輛駕駛人因素」兩大類，

其中，第1 至 43 項為車輛駕駛人因素，第 44 至 64 項為非車輛駕駛人因素，共計有64 項肇事因素，茲彙整如表 2-2 所示。

(29)

18

表2-2 肇事因素索引

車輛駕駛因素

(一) 駕駛人

01 違規超車、02 爭(搶)道行駛、03 它行及方向不定、04 逆向行駛、05 未靠右行駛、06 未依規定讓車、07 變換車道或方向不當、

08 左轉彎未依規定、09 右轉彎未依規定、10 迴轉未依規定、11 橫越道路不慎、12 倒車未依規定、13 超速失控、14 未依規定減速、15 搶越行人穿越道、16 未保持行車安全距離、17 未保持行車安全間隔、18 停車操作時，未注意其他車(人)安全、19 起步未注意其他車(人)安全、20 吸食違禁物後駕駛失控、21 酒醉(後) 駕駛失控、22 疲勞(患病)駕駛失控、23 未注意車前狀態、24 搶(闖) 越平交道、25 違反號誌管制或指揮、26 違反特定標誌(線)禁制 (二)

燈光

27 未依規定使用燈光、

28 暗處停車無燈光及標識 (三)

裝載

29 裝載貨物不穩妥、30 載貨超重而失控、31 超載人員而失控、

32 貨物超長、超寬、超高而肇事、33 裝卸貨不當、34 裝載未盡安全措施、35 未待乘客安全上下開車、36 其他裝載不當肇事 (四)

其他

37 違規停車或暫停不當而肇事、38 拋錨未採取安全措施、39 開啟車門不當而肇事、40 使用手持行動電話失控、41 其他引起事故之違規或不當行為、42 不明原因肇事

(五)

無 43 尚未發現肇事因素

非車輛駕駛因素

(六) 機件

44 煞車失靈、45 方向操縱系統故障、46 燈光系統故障、47 車輪脫落或輪胎爆裂、48 其他引起事故之故障

(七) 行人 (或乘客)

49 未依規定行走行人穿越道、地下道或天橋而穿越道路、50 未依標誌、標線、號誌或手勢指揮穿越道路、51 穿越道路未注意左右來車、52 在道路上嬉戲或奔走不定、53 未待車輛停酐而上下車、54 上下車輛未注意安全、55 頭手伸出車外而肇事、56 乘坐不當而跌落、57 在路上工作未設適當標識、58 當其他引起事故之疏失

(八) 交通管制

(設施)

59 路況危險無無全(警告)設施、60 交通管制設施失靈或損毀、

61 交通指揮不當、62 平交道看守疏失或未放柵欄、63 其他交通管制不當

(九)

無 64 尚未發現肇事因素

資料來源：【20】【21】

(30)

19

2.2.2 肇事分析之應用

Al-Ghamdi（2003）【22】主要分析在沙烏地阿拉伯首都利雅德在交岔路口發生交通事故傷害，瞭解在交岔路口或是在非交岔路口對於交通事故的問題，所以能提出預防事故發生，改善交通問題以作為對策。因此資料中總共有1774位意外事故，時間是1997-1998年，就事故發生的因素有事故型態，碰撞型態，原因和時間，駕駛者有速度和其它重要的行為因素，道路因素有交岔路口及非交岔路口分析。碰撞固定物因子於研究中對於嚴重事故與僅財產損失事故類型z檢定皆不顯著，但相對於事故地點方面的卡方分析中，發現交叉路口與非交叉路口下之事故比率皆頗為明顯，故此路旁固定物之潛藏因子當納入利雅德有關當局於道路幾何設計時需加以再度審慎考量。最後顯示50%嚴重事故都涉及行人這一部份且路段之死亡率24.89％明顯地高於路口死亡率8.16％；其中，最主要是發生在非十字路口上。不適當的駕駛行為是要為這多數交通事故負責任，像是超速、無讓路、闖紅燈比其它所有事故因素的機率都高於一半以上。

Amoros等學者（2003）【23】為探討各地區交通安全標準訂定時所需考量的因素以避免交通意外的發生，以法國東南方阿爾卑斯地區8個郡的交通路網與肇事資料為研究對象，其考量的因素為道路等級包括國道、高速公路、郡道、一般道路等，且將道路特性分成郊區與市區兩種，以及事故發生時間與社經變數。社經變數包含各地區人口平均年齡、肇事者駕照持有時間等，觀測期間為1986~1993 年。肇事率依不同種類道路有不同的曝光率計算方式，國道、快速公路的曝光率是駕駛哩程數，郡道、一般道路則為駕駛的行駛公里數，以油耗量來估計；在嚴重程度方面，分成死亡與受傷事件，為瞭解各地區之間肇事率與嚴重程度的差異，

在肇事率以相關風險來比較，是以一地區的肇事率為基準，與其他地區肇事率之比率；在嚴重程度以損益比來比較，研究方法是以負二項迴歸與羅吉斯迴歸來分析。其結果顯示，在肇事率比較中，郡道與一般道路下，以Rhone區為基準，Drome

(31)

20

區的風險會高於Rhone區2.29倍，而7個地區在國道與高速公路風險都低於Rhone 區；嚴重程度比較發現，同樣在高速公路上，7個地區的嚴重程度都高於Rhone區，

而在郡道卻是低於此區。考量社經變數的結果顯示，新手的肇事率較一般駕駛高出0.43倍，但持學習駕照者卻少0.58倍，各地區考量社經變數與未考量時並無顯著差異；在嚴重程度中，新手死亡機率較低，反而持學習駕照者死亡率較高。所以各地區會因為道路種類的不同而肇事率與嚴重程度也有所差異，因此各地區交通安全指標的制定，需由不同的道路等級來區分較適合。社經資料卻在各地區並無差異，表示社經資料是所有共同的特性，所以在管理上各地區應該相同。

Lee 等學者（2002）【24】為降低澳洲年輕駕駛人的肇事率，探討年經駕駛發生事故的潛在因素，由於年輕駕駛肇事率逐年增高，所以更需瞭解肇事發生的原因，才能加以宣導與管理。本研究以 1174 持有駕照滿 12 個月的年輕駕駛為研究對象，透過問卷調查方式，測得駕駛特性、習慣、肇事紀錄等。研究方法以卜瓦松迴歸、負二項迴歸與Zero-Inflated Poisson Model(ZIP)來分析，透過概似比檢定結果發現負二項迴歸與 ZIP 均比卜瓦松迴歸更適合，而負二項迴歸與 ZIP 透過 Pearson goodness-of-fit 檢定結果相同，而變數在模式結果發現自我駕駛技術因素並不顯著影響事故發生，駕駛性別並與喜愛冒險之特性無關，而持有學習駕照者會具有冒險特性，拿到駕照後的一年內有較高的事故發生機率，若先由學習駕照而駕駛至獲得駕照者，其發生事故機率比過去沒有學習駕照者來的高。

楊思瑜（2003）【25】探討桃竹苗地區小型車事故嚴重程度預測，以因子分析及群集分析將人、車、路進行分群；以多元羅吉特模式建構各群集事故嚴重程度的預測模式來探討事故嚴重程度，分析影響各集群嚴重程度的主成分與影響程度；結果可概分為「外在環境構面」（道路等級、當地速限）、「個人背景構面」

（教育程度、年紀、駕駛資格）、「時間環境構面」（季節、天色、例假日）、

「碰撞型態構面」（碰撞方向、本車動作、他車動作）等，而各事故嚴重程度模式中，年紀愈長愈嚴重、教育程度愈低愈嚴重、駕駛資格完整愈嚴重、碰撞方向

(32)

21

愈偏向前方愈嚴重。

邱裕鈞等人（2004）【26】在肇事案例關聯性方面，以SAS統計軟體的階層式群集分析方法，將所有案例分為40個群落，分群數的決定採用判定係數作為依據，

通常判定係數愈大，表示分群的結果愈好。在第107群時所求出之判定係數為最大，但觀察107群到41群間，均發生某幾群僅有一個樣本數之狀況，直到降至40群時，每群均包含兩個以上案例方停止。因此以40群為分群組數，將538筆案例加以分群，重要變數包括車種、超速、飲酒、道路類別、道路型態、行向、車損部位、

筆錄速率、是否預見、駕駛死亡、路權。再依分群結果，以判別分析找出判別函數，其加權值為判別函數係數，以便鑑定案例之分群索引使用。如發生兩車碰撞事故，將其變數資料分別代入40群所屬之判別函數，加以計算40個判別值，判別值最高者，即代表新的案例屬於該群組。

2.2.3 國內道路遊覽車肇事案件分析

近年來，一旦大客車或遊覽車發生交通事故後，都會造成慘重的傷亡，後果也會不堪設想，因此本研究蒐集從民國九十年後國內發生的遊覽車肇事案件，其整理分析如下：

一、清境遊覽車車禍

民國91 年 10 月 6 日早上 10 時，一載搭載 41 人遊覽車行經南投縣仁愛鄉清境農場附近，因煞車失靈又適逢人車擁擠路段，駕駛將車輛擦撞山壁減速，但山路曲折，因而翻覆，導致1 死 43 傷。

肇車遊覽車為使用車身、車體與安全結構未經核可之車輛，也因牌照早被註銷，卻另掛他車車牌上路。調查發現，肇事車夤未依規定定期檢驗，且逾期6 個月，早在 86 年 9 月 1 日被高雄市監理處註銷牌照，但事發時所掛車牌竟是另一輛30 人座的車型巴士車牌。

二、縣102 線九份路段遊覽車車禍

(33)

22

民國93 年 10 月 18 日下午 2 時 40 分，一輛搭載 38 名來自香港觀光客的遊覽車，在臺北縣瑞芳鎮九份風景區汽車路與濱二路口，發生翻覆路側的重大意外，造成5 死 32 輕重傷的交通事故。

此次事故發生在九份派出所附近的一個連續轉彎下坡處，肇事原因經鑑定為酒後駕車，事故發生時天雨路滑，山區濃霧大，遊覽車煞車不及，在九份派出所附近整輛車翻覆，墜落約8 公尺深的濱二路。

三、縣124 線苗栗遊覽車墜陡坡

民國94 年 5 月 2 日下午 5 時 17 分，一輛遊覽車行經苗栗縣獅潭鄉 124 縣道一處大彎時，失控衝毀路旁水泥護欄，翻落約50 公尺深的邊坡，結果造成4 死 25 傷。肇事原因是彎度將近 180 度且超過 40 度的陡峭路段且疑路況不熟所致。事後，交通部清查出事遊覽車車藉資料時，發現該遊覽車1990 年 3 月出廠，車齡逾 15 年。

四、台21 線 92 豐丘路段遊覽車車禍

民國95 年 10 月 2 日晚間 7 時 50 分，一輛搭載大陸觀光團的遊覽車，在南投縣東埔鄉往水里鄉的台 21 線 92K 路段發生失控墜落下邊坡，導致 6 死 15 傷的嚴重車禍。

研判肇事遊覽車從阿里山下山，行駛到豐丘明隧道附近數十公里的長下坡路段，未用低速檔控制速度，加上煞車氣墊爆破，煞車失靈，肇事前已無法換檔，雖然駕駛曾採取撞山壁緩衝措施，但仍然沒有避免遊覽車失控翻落葡萄園。此次發生意外的遊覽車駕駛，並不具備駕駛遊覽車的資格，而且行車記錄器顯示，該車在速限50 公里的路段上，曾以高達 104 公里的時速行駛。

五、縣188 線梅嶺遊覽車車禍

民國95 年 12 月 3 日下午 4 時 40 分，一輛遊覽車搭載 46 人於臺南縣楠西鄉鄉道南188 線梅嶺路段失控翻車，墜入 30 公尺深的溪谷，造成 22 人死亡、24 人輕重傷。本事故車輛 1988 年出廠，車齡 18 年，事故肇因在於下坡

(34)

23

路段的車速過快，疑似煞車失靈，在左彎路段直接衝出邊坡護欄，肇事鑑定時一度懷疑車輛使用再生胎，惟經公路總局調查，證實該車所有輪胎皆非再生胎。因為此次車禍是近年來死傷最慘重的交通事故，所以事故發生後，主管機關實施以下措施：

¾ 研擬並實施國道客運及遊覽車禁止使用再生胎。

¾ 修法將胎紋深度納入遊覽車定期檢驗項目之一。

¾ 事故發生後 3 個月完成修法，強制大客車裝置安全帶。

¾ 車齡 12 年以上之大客車限經營固定路線交通車，不得經營遊覽車，同時需在車身明顯部位標示出廠時間。

六、台18 線阿里山公路 64K 車輛向前滑動

民國96 年 1 月 14 日，一輛遊覽車在台 18 線阿里山公路 64 公里處發生一起遊覽車事故。事故原因是車輛故障暫停在路旁修理時，車輛突然往前滑動，車內部份乘客受到驚嚇，緊急跳下車，結果造成九人受到輕重傷。

七、陽明山仰德大道大客車車禍

民國96 年 6 月 24 日下午 6 點 40 分左右，一輛有 36 人之遊覽車從陽明山仰德大道下山，行經永公路口時失控翻覆墜落 100 公尺下邊坡之山谷，造成8 人死亡、25 人輕重傷之事故。事故發生前，遊覽車下山時車速過快、煞車失靈，與前方小客車追撞，失控翻落山谷，以臺北市交通局初研判煞車失靈的原因很可能跟駕駛人習慣有關。

八、台7 甲線武陵農場遊覽車車禍

民國96 年 10 月 31 日下午 6 點 40 分，一輛載滿 43 人的遊覽車在往武陵農場方向的台7 甲線 49K+400 附近，翻覆掉落到約 3 公尺的下邊坡，造成 28 名乘客輕重傷。本事故車輛2004 年出廠，車齡 3 年，肇事原因疑似遊覽車失控打滑，撞及山壁後車輛衝出路外，有幸下邊坡高程落差不大。

九、台14 線埔霧公路遊覽車與拖板車對撞

(35)

24

民國97 年 5 月 17 日上午 10 時 25 分，一輛遊覽車行經南投縣埔里鎮台 14 線埔霧公路 62.3 公里處與拖板車對撞，結果造成 1 死 23 傷。肇車原因從事故現場初步發現，拖板車有明顯的煞車輪胎痕，且煞車痕未越過對向道，

而遊覽車則無煞車痕，所以疑似為不當超車。

十、臺北市仰德大道二段遊覽車與小客車擦撞

民國97 年 10 月 11 日下午 2 時，一輛小客車行經臺北市仰德大道二段下坡路段，因車速過快，閃避不及與對向車道上的遊覽車擦撞，小客車 5 人輕重傷，遊覽車上40 多名乘客無人傷亡。

本事故責任仍調查釐清中，初步勘查事故遊覽車在上山途中，下坡方向的自小客車疑似車速過快且跨越分向限制線，對向擦撞遊覽車，小客車車頭全毀，兩事故車輛均未翻覆或駛離路面。

十一、國道3 號北上 66.5K 遊覽車車禍

民國97 年 11 月 9 日上午 8 時，一輛遊覽車行經國道 3 號北上 66.5 公里處龍潭交標道附近，肇事原因疑似天雨路滑、視線不佳、駕駛未保持安全距離，以致先擦撞前方貨車後，失控衝出護欄，翻落約10 公尺深的產業道路，結果造成3 死 39 傷。

十二、中山高南下22K 遊覽車車禍

民國97 年 11 月 26 日中午 12 時 18 分，一輛遊覽車行經中山高南下 22 公里處，撞上一部正在施工中且隸屬國道高速公路局北區工程處的工程車，車上僅21 名乘客受到輕傷，車禍原因仍調查釐清中。

十三、台18 線阿里山公路 67.3K 遊覽車與轎車對撞

民國98 年 1 月 30 日，一輛搭載中國旅遊團 20 人的遊覽車在台 18 線阿里山公路67.3 公里處發生一起遊覽車與小客車對撞車禍，結果造成 7 人受傷(遊覽車 2 人、小客車 5 人)。肇事原因為小客車下坡時，越過雙黃線、

偏入對向車道，撞擊上山的遊覽車。

(36)

25

2.3 綜合評析

經由前兩節討論資料探勘及交通事故之相關文獻，彙整其資料探勘的應用，

如表2-3 所示；肇事分析之應用，如表 2-4 所示；國內道路遊覽車肇事案件分析如表2-5 所示。

表2-3 資料探勘應用彚整

作者(年份) 研究領域研究對象研究方法研究結果 Raymond

& Jiawei (1994)

資訊管理資訊工程

溫哥華高

級住宅區群集分析

在群集方法分析下，不管是空間或非空間的實驗下，皆能找到各類型變數的分佈範圍。

Kao &

Chiu (2001)

金融業臺灣地區之銀行

CART、

類神經網路

在三種模型預測正確率結果比較下，結合CART 與類神經網路比 CART 及傳統類神經模型好。

Wang et al.

(2007) 運輸物流

第三方物流公司之

客戶

ID3 演算法

利用 ID3 演算法發現客戶特性，留住高價值客戶並開發潛在客戶，以提供高品質之服務。

Eduardo et

al. (2002) 交通事故

墨西哥的道路交通事故資料庫

Bayesian network、

Apriori 演算法、C4.8 及

CN2 法

先做簡單的分類並從交通事故的變數裡，找出發生交通事故的因素，然後判斷哪些因素主要影響傷亡人數。

Rangsipan

(2007) 交通事故

泰國 Nakorn Pathom 省的交通事故資料

Apriori 演算法

找出各變數之間的關聯性及規則，提供泰國當地政府參考來改善

吳冠宏等

人（2006）交通事故

臺灣地區之肇事變

數

Two-Step 法、自組織映

射圖與 K-Means

其分群結果發現 K-Means 演算法在肇事變數中具有比較好的分群能力，能有效的區分出不同的群集

資料來源：本研究整理

(37)

26

表2-4 肇事分析之應用彚整

作者(年份) 研究對象研究方法研究結果

Al-Ghamdi (2003)

路口位置

成對樣本比較與卡方獨立性檢定

叉路口與非交叉路口下之事故比率皆為顯著

Amoros et al.

(2003) 各級道路

負二項迴歸與羅吉特迴歸

道路等級與肇事次數有關

Lee et al.

(2002)

年輕駕駛肇事次數

卜瓦松迴歸、負二項迴歸與ZIP

剛拿到駕照一年內有較高的肇事次數

楊思瑜 (2003)

桃竹苗地區小型車

因子分析、群集分析、多元羅吉特

年紀長、教育程度低、駕駛資格完整、碰撞方向偏向前方時最嚴重

邱裕鈞等人

（2004）

臺灣地區的肇事案件

群集分析與判別分析

根據最佳分群套入判別模式，並以新資料再帶入判別函數，其值最高者屬於其群組

資料來源：本研究整理表2-5 國內道路遊覽車肇事案件分析彚整

時間事件傷亡情況肇事型態肇事原因肇事地點 91.10.06 清境遊覽

車車禍 1 死 43 傷翻覆煞車失靈長下坡

93.10.18 九份路段遊

覽車車禍 5 死 32 傷

翻覆墜落8 公尺深之

下邊坡

酒後駕車連續彎路下坡處

94.05.02 苗栗遊覽

車墜陡坡 4 死 25 傷

翻覆墜落 50 公尺深

之下邊坡

駕駛路況不熟、陡彎路段

長下坡急彎處

95.10.02 豐丘路段遊

覽車車禍 6 死 15 傷衝出路外、翻覆

車速過快、煞

車失靈、違規長下坡

(38)

27

行駛禁行路段 95.12.03

梅嶺遊覽

車車禍 22 死 24 傷

之下邊坡

車速過快、

煞車失靈

長下坡急彎處

96.01.14

阿里山公路 64K 車輛向

前滑動

9 傷人為疏失車輛滑動長下坡

96.06.24

陽明山仰德大道大客車

車禍

8 死 25 傷

之下邊坡

車速過快、

煞車失靈長下坡

96.10.31 武陵農場遊

覽車車禍 28 傷

翻覆墜落3 公尺深之

下邊坡

車速過快、

失控長下坡

97.05.17

埔霧公路遊覽車與拖板

車對撞

1 死 23 傷對向擦撞不當超車連續彎路

97.10.11

仰德大道二段遊覽車與小客車擦撞

小客車

5 傷對向擦撞

小客車違反分向限制標線禁制

長下坡

97.11.09

國道3 號北上遊覽車車

禍

3 死 39 傷

翻落約10 公尺深的產業道路

天雨路滑、視線不佳、未保持安全距離

直線道

97.11.26

中山高南下遊覽車與工程車擦撞

21 傷正向擦撞尚調查

釐清中直線道

98.01.30

阿里山公路 67.3K 遊覽車

與轎車對撞

7 人受傷 (遊覽車 2 人、小客車

5 人)

對向擦撞

小客車違反分向限制標線禁制

小客車下坡遊覽車上坡

資料來源：本研究整理

運用資料探勘技術對於交通事故之研究或許還不夠成熟及完備，但資料探勘為新的方法且結合多個領域之技術，其技術包含統計學、機器學習、人工智慧及資料庫技術等，或許可以在交通領域上得到意想不到的結果。利用資料庫的技術，

使資料的龐大及複雜性，可以加以整理，並利用統計、機器學習及人工智慧中的表2-5 國內道路遊覽車肇事案件分析彚整(續)

(39)

28

演算法去分析，從龐大的資料中萃取出不明顯、隱藏的有用資訊與知識。正因為資料探勘本身並非單一技術或方法，其分析內容牽涉的層面也相當廣泛，所以為了達到有效率的探勘過程與有價值的結果，掌握研究的問題本質，對原始的資料進行前置處理，選擇正確的演算法才能獲得預期之結果。

從過去文獻中，資料探勘應用的領域有資訊、金融業、運輸物流，也有研究交通事故方面。但其實應用領域最廣泛的是在商業行為上，如銀行業、保險業、

零售業等，但近年來也逐漸應用到醫療業、製造業、生化業等，其運輸安全的領域雖然少見，但也有研究嘗試分析交通事故在運輸安全領域上；從肇事分析之應用大多以統計方法做為評估，如負二項迴歸、羅吉特迴歸、卜瓦松迴歸等，依照分析路段或路口等來考慮所用之統計方法，也有用群集方法再套入多元羅吉特去分析，找出哪些肇事因素對傷亡嚴重程度影響最大。

近年來，一旦大客車或遊覽車發生交通事故後，都造成嚴重的傷亡，後果都不堪想。經由彚整的結果，都是發生於山區道路中，其肇事型態大致為翻覆及墜落至下坡邊、正面及對向擦撞；肇事原因為煞車失靈、酒後駕車、車速過快、不當超車、違反分向限制標線禁制、天雨路滑、視線不佳等因素，主要都是人為因素；肇事地點主要都在長下坡、連續彎路長下坡等。

發生在95 年 12 月 3 日的梅嶺車禍及 96 年 6 月 24 日的陽明山仰德大道車禍，

分別死傷人數為22 死 24 傷及 8 死 25 傷，都為近年來嚴重的車禍。尤其在梅嶺車禍發生後，才受到政府相關單位的重視，因為發生事故的車輛不但車齡老舊且又使用再生胎，有鑑於此，才立即修法，並實施措施來防治車輛所造成交通事故的因素。但又發生陽明山車禍，或許有車輛、道路及環境因素的成份，但主要還是人為因素的成份居高，因此本研究希望透過資料探勘的方法，分析哪些肇事因子與人、車、路、環境等層面之間嚴重程度之相關性。

資料探勘於交通事故之應用－以大客車為例

國立臺灣大學工學院土木工程學系 碩士論文

Department of Civil Engineering College of Engineering

National Taiwan University Master Thesis

資料探勘於交通事故之應用－以大客車為例 Data Mining in Traffic Accident－A Case Study for Bus

王宜慶 Wang, I-Ching

指導教授: 許添本 博士

Major Professor: Hsu, Tien-Pen, Ph.D.

中華民國 98 年 6 月

June, 2009

誌謝

摘要

Abstract

Keyword：Traffic Safety；Accident Analysis；Data Mining；Cluster Analysis；

Discriminant Analysis；Factor Analysis

目錄

第一章 緒論 ... 1

第二章 文獻回顧 ... 7

第三章 研究方法 ... 29

第四章 肇事資料前置處理 ... 49

第五章 資料分析 ... 57

第六章 案例分析 ... 103

第七章 結論與建議 ... 121

參考文獻 ... 125

圖目錄

h

= + l

L + l

表目錄

第一章 緒論

第二章 文獻回顧

2.1.1 資料探勘的定義

2.1.2 資料探勘的步驟與資料庫知識發現

2.1.3 資料探勘的功能與技術

2.1.4 資料探勘的應用

2.2.1 交通事故定義及分類

2.2.2 肇事分析之應用

2.2.3 國內道路遊覽車肇事案件分析

國立臺灣大學工學院土木工程學系碩士論文

指導教授: 許添本博士

第一章緒論 ... 1

第二章文獻回顧 ... 7

第三章研究方法 ... 29

第四章肇事資料前置處理 ... 49

第五章資料分析 ... 57

第六章案例分析 ... 103

第七章結論與建議 ... 121

第一章緒論

第二章文獻回顧