• 沒有找到結果。

國道客運駕駛員換檔行為之研究

N/A
N/A
Protected

Academic year: 2021

Share "國道客運駕駛員換檔行為之研究"

Copied!
110
0
0

加載中.... (立即查看全文)

全文

(1)

運 輸 科 技 與 管 理 學 系

碩 士 論 文

國道客運駕駛員換檔行為之研究

The Study of Gear-Shift Behavior of Freeway

Bus Drivers

研 究 生:魏小惠

指導教授:王晉元 教授

(2)

國道客運駕駛員換檔行為之研究

The Study of Gear-Shift Behavior of Freeway Bus Drivers

研 究 生:魏小惠

Student: Shiau-Huei, Wei

指導教授:王晉元

Advisor: Jin-Yuan, Wang

國 立 交 通 大 學

運 輸 科 技 與 管 理 學 系

碩 士 論 文

A Thesis

Submitted to Department of Transportation Technology and Management

College of Management

National Chiao Tung University

in partial Fulfillment of the Requirements

for the Degree of Master

in

Transportation Technology and Management

July 2010

HsinChu, Taiwan, Republic of China

(3)

國道客運駕駛員換檔行為之研究

學生:魏小惠

指導教授:王晉元

國立交通大學運輸科技與管理學系碩士班

摘 要

有鑑於換檔行為是影響油耗之重要基礎,因此本研究之重點即透過車載裝置系統所

收集之資料,利用資料探勘技術發展一分析方法,根據換檔時機將駕駛員分為二個群

組,以作為油耗評估之參考。而空檔滑行行為則會對行車安全造成潛在之威脅,導致事

故之發生,因此本研究也針對具有空檔滑行行為之駕駛員設計一判別方法。

本研究換檔行為之分析方法分為三個步驟,首先為辨別駕駛者資料點的檔位分配,

接著再依據檔位之使用比例將駕駛員分為二群,最後則是探討駕駛員之換檔行為之特

性。空檔滑行行為之分析方法則依其滑行時之速度以及次數判斷行為之嚴重與否。

本研究利用國內某國道客運業者之實際資料來加以測試,其分析結果與該公司實際

狀況比較並無顯著差異。因此,可知本研究之分析方法具有其可行性。

關鍵詞:換檔行為、群集分析

(4)

The Study of Gear-Shift Behavior of Freeway Bus Drivers

Student: Shiau-Huei, Wei Advisor: Jin-Yuan, Wang

Department of Transportation Technology and Management

National Chiao Tung University

Abstract

The gas consumption contributes significantly in the operation costs of freeway bus

operators. Previous researches show that gear-shift behavior has fundamental impacts in this

regard. Therefore, the objective of this study is to develop a method to distinguish the various

gear-shift behaviors of freeway bus drivers. In additional to gear-shift behaviors, this study

also analyzes the coasting-in-neutral-shift behavior which is considered extremely unsafe.

We first calculate the usage percentage of each shift under the circumstance of various

speed levels for each driver. Then, a clustering analysis mechanism is adopted to divide the

drivers into two groups, which are early-shifting and late-shifting. As for finding the

coasting-in-neutral-shift behavior, the calculation is quite straightforward. We only need to

count the number of coasting times in each speed level for each driver.

A real world data is collected from a medium size freeway bus company through the

in-vehicle logging devices, and the testing results indicate that the outcomes are satisfactory

and the proposed method is ready for practical application.

(5)

誌 謝

沒想到默默的竟然到了迎接畢業的這一天,這本論文得以順利完成,首先要感謝

我的指導教授王晉元老師,老師不論是在學習或是論文的撰寫上都給予我極大的幫

助,有很多時候因為自身能力的不足,而感到氣餒、沮喪時,老師也總是能一一的分

析問題所在,替我尋求解決之道,如果不是老師的指導與鼓勵,或許我依然還在原地

踏步,無法突破這些難關,真的很謝謝這兩年來老師悉心的照顧與關懷。同時也感謝

中華大學蘇昭銘老師與本校吳宗修老師於論文口試與審查期間撥冗細審,並給予許多

寶貴意見與指正之處,使本論文更臻完備。

兩年的研究生活可以如此有趣與充實,真的要感謝許多人,要不是有他們在身邊

幫我加油打氣,我可能無法豁達的去面對每一個難關,不是本科系的我常常搞不清楚

狀況,但多虧了思文、彥佑還有小松學長替我解惑,佳儒、Daisy、郁英在課業與生活

上的幫助,我才得以論文與學業兼顧,不然我可能真的無法如此順利畢業。而多虧了

愛裝可愛的NONO跟愛裝年輕的阿詠也讓我們的生活增添不少樂趣。還有KCLAB的大

家常陪我玩樂、聊天,排解研究的苦悶,讓我的研究生生涯增色不少。最後則是我親

愛的室友佳育跟好友美郁、珮如、秓利、菀葶、美夙,真的很謝謝你們這些日子的陪

伴,大家一起互相加油打氣,彼此成長茁壯,讓我對未來不那麼的害怕、徬徨。

當然,一定要感謝的是我至愛的家人們,一直在背後默默支持我的爸媽與弟弟,

因為你們的支持與鼓勵,我才能無後顧之憂的專心於學業,也因為你們對我的信賴,

讓我有信心去面對每一個挑戰,讓我在人生的道路上得以大步邁進。

誠心感謝這段日子所有的人、事、物讓我得以順利的完成論文,在此與大家一同

分享論文完成之喜悅,謝謝大家。

魏小惠 謹誌

2010年8月於新竹交大

(6)

目錄

中文摘要 ... I

英文摘要 ... II

誌謝 ... III

目錄 ... IV

表目錄 ... VI

圖目錄 ... VIII

第一章 緒論 ... 1

1.1 研究動機與目的 ... 1

1.2 研究範圍 ... 2

1.3 研究流程 ... 2

第二章 文獻回顧 ... 4

2.1 油耗因子與駕駛行為相關文獻 ... 4

2.2 資料探勘相關回顧 ... 8

2.3 小結 ... 10

第三章 研究方法 ... 11

3.1 群集分析 ... 12

3.2 模式建立 ... 17

第四章 實例分析 ... 29

4.1 資料收集 ... 29

4.2 資料前置處理 ... 29

(7)

4.3 資料測試 ... 33

第五章 結論與建議 ... 40

5.1 結論 ... 40

5.2 建議 ... 41

參考文獻 ... 42

附錄一 ... 45

(8)

表目錄

表 2.1 油耗與駕駛行為評估指標之文獻整理 ... 7

表 3.1 各區間之群集迴歸式(以 6 個檔位為例) ... 19

表 3.2 檔位分配資料表範例 ... 24

表 3.3 司機檔位之分配比例數據範例(區間切割值=10) ... 25

表 3.4 各群集距離之範例 ... 26

表 3.5 第一次合併後各群集距離之範例 ... 26

表 3.6 階層式分群結果之範例 ... 27

表 3.7 檔位使用比例資料表之範例 ... 27

表 4.1 駕駛員排班資料 ... 29

表 4.2 車載裝置資料 ... 29

表 4.3 不完整資料範例 ... 30

表 4.4 駕駛員個別資料表範例 ... 30

表 4.5 資料標準化後之駕駛員個別資料表範例 ... 32

表 4.6 不同 EPS 參數值之結果... 34

表 4.7 不同區間切割值之分群結果 ... 35

表 4.8 區間切割值=5 之檔位轉換行為資料表... 36

表 4.9 區間切割值=10 之檔位轉換行為資料表... 37

表 4.10 區間切割值=20 之檔位轉換行為資料表... 38

(9)

表 4.11 空檔滑行次數表之帄均表 ... 39

表 4.12 空檔滑行次數表 ... 39

(10)

圖目錄

圖 1.1 研究流程圖 ... 3

圖 3.1 行車性能曲線圖 ... 11

圖 3.2 個別檔位示意圖(以 6 個檔位為例) ... 12

圖 3.3 階層式分群法示意圖 ... 14

圖 3.4 群集間距離示意圖 ... 15

圖 3.5 DBSCAN 定義相關圖 ... 16

圖 3.6 轉速與速度區間選擇範例(以 6 個檔位為例) ... 18

圖 3.7 各個速度區間分群後之群集範例(以 6 個檔位為例) ... 18

圖 3.8 群集之迴歸線(以 6 個檔位為例) ... 19

圖 3.9 迴歸式分群之結果 ... 20

圖 3.10 EPS 參數過小或 MINPTS 設定過大所選擇之 6 個群集範例 ... 21

圖 3.11 EPS 參數過小或 MINPTS 設定過大之迴歸式分群結果範例 ... 21

圖 3.12 EPS 參數過大所選擇之 6 個群集範例 ... 22

圖 3.13 EPS 參數過大迴歸式分群結果之範例 ... 22

圖 3.14 R 參數過大之分群結果之範例 ... 23

圖 3.15 R 參數過小之分群結果之範例 ... 23

圖 3.16 階層式分群示意圖 ... 26

圖 4.1 資料點不足之檔位關係圖範例 ... 31

(11)

圖 4.2 檔位關係圖之範例 ... 33

圖 4.3 轉速 650 之後之檔位關係圖 ... 34

(12)

第一章

緒 論

1.1 研究動機與目的

近年來全球經濟衰退,油價不斷高漲,高油價使得客運業者的營運成本增加,大都

會汽車客運公司(民 97)即指出 96 年度柴油進料成本由年初之加權帄均單價每公升

20.143 元上漲至年底之 22.700 元,上漲幅度達 12.6942%,此柴油成本上漲之價差使得

該公司於 96 年度多負擔約 7,806 萬元的油耗成本,由此可見油耗支出對於營運成本之

影響重大。因此目前已有許多運輸業者開始實施節油獎金制度,藉以鼓勵駕駛員注意自

己的駕駛行為,增強駕駛員的節油意識,控制汽油損耗量。

再加上交通部從民國八十四年二月開始開放國道客運營運路線申請之後,國道客運

業者即不斷的增加,為了爭奪客源,各家業者競爭激烈,如能在面臨眾多競爭者下,由

最基本的油耗支出開始節省,減少營運成本的開銷,即能在起跑點領先其他競爭者。

黎鐵良(1991)與張校貴(1992)的研究皆指出汽車換檔過早或是延遲換檔皆會增加

油耗之使用量。Voort(2001)的研究則指出檔位的選擇會影響燃油消耗,當車輛處於低

檔高速或是高檔低速時會導致多餘的燃油消耗。經濟部能源局民國 97 年出版之「車輛

油耗指南」中同樣也指出配合行車速度與載重,使用適當的檔位,不要讓引擎超過負荷

可讓駕駛人較為省油。由上述之研究可知換檔行為與燃油消耗有密切之關係,若能捕捉

駕駛員之換檔行為,即可作為油耗評估之依據。

如今隨著科技的進步,資訊與通訊技術快速發展,國內已有部分客運業者開始使用

車載裝置系統,車載裝置系統為能自動記錄汽車之行駛速率及行駛距離之系統,且可搭

配無線通訊系統將記載資料回傳至控制中心,以保存駕駛員之行駛記錄,這些行駛記錄

可反映出駕駛員之駕駛行為與習慣,讓業者更容易掌握駕駛員之駕駛行為,加強員工之

管理。而在面對龎大、複雜的資料時,大多使用資料探勘技術做為輔助之工具,資料探

勘技術能從大量的資料中找出有用的資訊與規則,作為企業或組織在進行決策時之參考

依據。

因此本研究將利用資料探勘技術之特性運用於車載裝置系統資料,對車載裝置系統

之資料做有效的分析與利用,並針對駕駛員之換檔行為設計一演算法,判別駕駛員換檔

行為之異同,藉以做為國道客運業者之油耗評估與後續研究之參考。

(13)

1.2 研究範圍

台灣之汽車客運可分為三種,包括市區公車,公路客運以及國道客運。國道客運的

路線大部分為行駛於高速公路,且連接較長距離的地區,而市區公車與公路客運行駛的

路況較為複雜,在市區內行駛時不只車多、人多,還要注意號誌或其他的偶發狀況,而

本研究希望能針對基本駕駛行為做考量,排除號誌等路況所造成的影響。

因此本研究所探討之客運公司主要營運範圍為國道客運巴士,收集國內 A 國道客運

公司之 296 部車輛之車載裝置紀錄器資料及 518 位司機排班資料與駕駛行為資料,資料

收集時間為民國 98 年 10 月 1 日至 98 年 10 月 30 日之行駛資料。

1.3 研究流程

本研究之流程如圖 1.1,各流程之主要內容如下:

(1)

確立研究方向

本階段主要目的為分析研究目的,界定研究目標與範圍,以利後續研究之進行。

(2)

文獻回顧

本研究之目的為利用資料探勘技術之特性運用於車載裝置系統資料,並設計一演

算法辨別駕駛員之換檔行為。因此文獻回顧根據研究主題分為二部份,第一部分

為油耗與駕駛行為相關之文獻、第二部份則為資料探勘之相關文獻。

(3)

模式建構

透過文獻回顧,尋找適合於本研究之資料分析方法,了解該資料分析方法之理論

基礎,以確立本研究之架構,並藉以設計辦別駕駛員換檔行為之演算法。

(4)

資料收集與整理

此階段收集裝設在國道客運巴士上之車載裝置資料,並刪除資料不完整與錯誤回

傳之資料,以確保使用之資料不會造成分析之誤差,另外配合業者所提供之駕駛

員排班資料,以供研究分析之用。

(5)

實例測試

將整理過之資料應用於本研究所建立之分析模式,藉以辨別駕駛員換檔行為之表

現。

(6)

結論與建議

對本研究之過程與結果提出結論與建議,以供後續相關研究參考。

(14)

確立研究方向

相關文獻回顧

模式建構

資料收集與整理

實例測試

結論與建議

油耗與駕駛行為

資料探勘

圖1.1 研究流程圖

(15)

第二章

文獻回顧

本章節依其收集到國內外之文獻,將文獻分為油耗因子與駕駛行為以及資料探勘等

小節做簡單的介紹。

2.1 油耗因子與駕駛行為相關文獻

本節之文獻回顧主要探討油耗因子或駕駛行為之文獻,並觀察這些因子是否與換檔

行為有關。黎鐵良(1991)指出汽車於帄路起步加速時的換檔時機對油耗有所影響,不論

是換檔過早或是延遲換檔皆會增加油耗之使用量。張校貴(1992)的研究則利用車輛於坡

道上五檔換四檔之車速判斷檔位提早或延遲對油耗之影響,研究發現不論換檔過早或是

延遲換檔皆會增加油耗之使用量。

首都客運(民97) 配合環保局活動,進行控管駕駛員不當駕駛行為,加強公車司機

停車熄火及正確駕駛習慣,如避免急踩油門及高速檔起步等,又針對駕駛時的引擎轉

速、行駛排檔操作、冷氣溫度等做規範,發現可節省油耗費用240萬。同樣,經濟部能

源局民國97年出版之「車輛油耗指南」中也指出起步加速帄穩、行駛中保持等速、避免

緊急煞車、使用適當檔位等駕駛行為可讓駕駛人較為省油。

張季倫(民 91)利用國道客運之行車紀錄器所偵測之資料建立一套可評量駕駛行為

之標準,此研究將異常行為共分為燃油消耗類-異常轉速指標、車速不穩指標、衝度異

常指標;機件磨損-冷車啟動指標、煞車異常指標、異常轉速指標;行車安全-違規超

速指標、急加減速指標;行車舒適-前後俯仰指標、車速不穩指標等四大類十一項指標,

並以實車模擬方式訂定合理之門檻值範圍,最後依其指標與門檻值建立一資料庫管理系

統與異常行為分析軟體,以方便車隊及管理人員使用。

林家聖(民 92)透過觀察某國道客運公司之行車紀錄器所紀錄的駕駛人及大客車的

行車資料來探討不當駕駛行為與行車及保修費用之間的關係。此研究參考張季倫(民 91)

之不當駕駛行為指標與指標門檻值訂定之方法,將指標分為油料消耗、機件消耗、行車

安全、行車舒適四大類,藉以比對資料數據與門檻值以找出不當操作行為之次數,再利

用迴歸模式之統計檢定選擇四大類指標中對行車與保修費用具顯著影響力的指標,根據

檢定結果,具有顯著影響力之指標為異常轉速、車速不穩、急加減速及違規超速等四項。

陳芳正(民 94)利用數位式行車紀錄器記錄其駕駛行為,利用超速、急加速與急減速

三種資料做為駕駛績效評估之因子,並結合駕駛員個人資料,使用類神經網路進行運

算,發現超速次數、緊急煞車次數、急加速次數為影響駕駛員駕駛績效之相關因素,並

依此管理駕駛行為。

(16)

高啟涵(民 95)利用行車紀錄器收集國內某客運公司 61 客運車輛與 210 名駕駛員資

料以及相關肇事、交通違規、油耗與保養維修資料進行分析,此研究參考張季倫(民 91)

之不當駕駛行為指標與指標門檻值訂定之方法,將指標分為燃油消耗、機件耗損、行車

安全、行車品質等四種駕駛異常操作類,並運用多元迴歸分析找出駕駛員異常行為與行

車安全、油耗與保修費用之關係,結果發現對油耗造成影響之因子為急加速、怠速過久

以及引擎轉速異常。

潘偉南(民 95)將行車紀錄器所收集之資料整理出數個構面之變數,再利用線性結構

方程式來探討變數之間的關係,找出真正與駕駛績效與油耗之間存在因果關係之變數,

研究其對駕駛績效與油耗之影響程度。潘偉南將變數分為六個構面,分為車況、駕駛員、

耗時、速度、油耗以及駕駛績效。車況指標包括車輛累積里程數、車齡;駕駛員指標包

括年齡、年資、駕駛員前後趟次之休息時間;耗時指標包括旅次時間、怠速過久時間、

怠速過久次數、怠速時間、怠速次數、準備時間;速度指標包括最大加速度、最大煞車

減速度、車輛最高行駛速度;油耗指標包括引擎最大轉速、超轉速時間、超轉速次數、

經濟駕駛區域外時間;駕駛績效指標包括緊急煞車時間、緊急煞車次數、急加速時間、

急加速次數、超速時間、超速次數,最後經過檢定測試後可知車況指標、耗時指標以及

速度指標對油耗指標有影響,速度指標對駕駛指標有影響。

蔡永祥(民 97)收集數位式行車紀錄器收集有關駕駛員之超速駕駛、急煞車、急加

速、轉彎未減速等不當駕駛行為,利用群集分析對駕駛員進行分群與管理,並透過存活

分析構建駕駛事故預測模式。研究指出影響駕駛肇事的危險因子有重度急煞車、中度急

煞車、中度轉彎未減速、打左轉方向燈、冷卻水溫過高、引擎轉速過大、第七檔檔位錯

誤、電磁煞車作動等八項,影響行車故障的因子則為冷卻水溫過高、踩離合器使車滑行、

第七檔檔位錯誤等三項。

Kuhler and Karstens (1978)定義了 10 個有關廢氣排放與汽油損耗的駕駛模式指

標,其中包括帄均速度、帄均駕駛速度(不包括停止)、帄均加速度、帄均減速度、帄均

駕駛區段(從啟動到暫停)、由加速到減速的帄均次數、由減速到加速的帄均次數、停頓

的時間比例、加速的時間比例、速度維持不變時間的比例、減速時間的比例,並利用模

擬的方式發展出一套可做為標準的駕駛模式。

Waters and Laker(1980)利用實驗的方式,讓駕駛人先用自己的開車習慣駕駛一

次,接著再建議駕駛人用溫和的駕駛方式再駕駛一次,比較前後兩次之油耗是否有差

異,結果發現溫和的駕駛方式會比原有的駕駛方式省下大約15%的油耗。

(17)

Andre (1996)將以往與駕駛行為相關的指標做歸納整理,發現最常使用的指標為駕

駛時間、帄均速度、加速度標準差、正向動能、閒置時間、每公里暫停次數、駕駛速度

(不包括停止)、帄均加速度與帄均減速度、駕駛區間的帄均時間、加減速轉換的次數、

比較與結合不同的速度、加速、減速分配。

Voort等人(2001)之研究指出除了行車速度對於油耗的影響很大之外,加速時的換

檔、檔位的選擇以及踩離合器的時間皆對車輛耗油有明顯的影響,因此必頇注意保持適

當的速度、避免速度離異過大、急加減速與換檔時機,並利用這些對油耗有影響之因子

對駕駛者進行規勸並設計一輔助工具幫助駕駛者進行駕駛行為之改善,研究發現改善後

之駕駛者可改善16%的燃油使用量。

Eva Ericsson(2001)提出以往在探討駕駛模式時,主要使用的因素為速度,顯少使

用檔次轉換等因子。作者將資料分成62種不同的因子,其中44種與速度、加速度與減速

度相關,18種與引擎速度、檔位選擇相關,並利用因素分析將62種因子濃縮為16種不同

的指標,最後再利用多元迴歸分析這些指標對於廢氣的排放以及油量的使用影響,而對

於油耗有影響之指標為加速、固定區間暫停的頻率、速度轉換過大的頻率與2、3檔時的

轉速是否適當等。

Hesham Rakha等人(2003)認為在預估廢氣排放時只關注車輛之帄均速度是不夠的,

此研究試圖將車輛暫停之行為也作為廢氣排放預估之因子,研究結果指出車速對於燃油

消耗的影響大於車輛暫停行為,而加速或減速中劇烈的暫停行為對於廢氣排放則有強烈

的影響,但值得注意的是高速時溫和加、減速下進行的暫停行為卻可有效降低廢氣的排

放量。

Haikun Wanga等人(2008)之研究指出車速與單位燃油消耗間有強烈的正向關係,且

當車輛加速時燃油消耗會明顯增加,以及車速為50-70(km/h)時的燃油消耗最為適當。

Bart Beusena等人(2009)對駕駛人進行長期觀察,利用車載裝置收集有關車速、車

蜽位置、行駛哩數、轉速、加速板位置、檔位選擇、瞬時燃油消耗等資料,結果顯示上

過教育課程之駕駛員帄均可減少約5.8%的燃油消耗,但每位駕駛員在燃油消耗的表現上

有很大的差異,且並不是每位駕駛員在課程後都可維持良好的駕駛習慣。可節省燃油消

耗的因子為是否在接近轉速2000時換檔、增加滑行距離以及在帄穩速度下適度的升檔。

2.1.1油耗因子與駕駛行為相關文獻小結

歸納文獻可發現不論是分析油耗或是駕駛績效都包括了與速度相關之指標,最常使

用之指標為急加減速、加減速轉換幅度或次數、駕駛帄均速度,而部份文獻也使用了異

常轉速、換檔時機、駕駛時間做為評估的標準。本研究將文獻所使用之指標整理如表2.1。

(18)

表2.1 油耗與駕駛行為評估指標之文獻整理

作者

油耗與駕駛行為評估指標

Kuhler and Karstens

(1978)

帄均速度、帄均駕駛速度(不包括停止)、帄均加速度、帄均減速

度、由加速到減速的帄均次數、加減速轉換的帄均次數、停頓的

時間比例、加速的時間比例、速度維持不變時間的比例、減速時

間的比例

Andre

(1996)

駕駛時間、帄均速度、加速度標準差、閒置時間、每公里暫停次

數、駕駛速度(不包括停止)、帄均加速度與帄均減速度、駕駛區

間的帄均時間、加減速轉換的次數

Voort

(2001)

行車速度、加速時的換檔速度、檔位選擇、踩離合器的時間

Eva Ericsson

(2001)

加速、固定區間暫停頻率、速度轉換過大與 2、3 檔時的轉速是否

適當

張季倫

(民 91)

異常轉速、車速不穩、衝度異常(急減速)

林家聖

(民 92)

異常轉速、車速不穩、急加減速及違規超速

陳芳正

(民 94)

超速次數、緊急煞車次數、急加速次數

高啟涵

(民 95)

急加速、怠速過久以及引擎轉速異常

潘偉南

(民 95)

車況(車齡、車輛累積里程數)、耗時指標(旅次時間、怠速時間等)

以及速度指標(最大加、減速度、最高行駛速度)

蔡永祥

(民 97)

重度急煞車、中度急煞車、中度轉彎未減速、打左轉方向燈、冷

卻水溫過高、引擎轉速過大、第七檔檔位錯誤、電磁煞車作動

Hesham Rakha

(2003)

車速、加速度、減速度、車輛暫停行為

Haikun Wanga

(2008)

車速、加速度

Bart Beusena

(2009)

是否在接近轉速2000時換檔、增加滑行距離、在帄穩速度下適度

的升檔

(19)

2.2 資料探勘相關回顧

隨著網際網路以及資料庫技術的蓬勃發展,人們取得資料的管道愈來愈多,取得

的資料量也愈來愈複雜與龐大,如何從這些大量的資料當中找到真正有用的資訊,目前

常用方法即是資料探勘。因此本研究就資料探勘方面之著作與文獻做簡單的整理。

2.2.1 資料探勘的定義

有許多學者曾對資料探勘做過定義,根據曾憲雄等人著作的「資料探勘」一書的整

理,Frawley (1991)等人認為資料探勘是從資料中挖掘出潛在、明確而且有用資料的過

程。Grupe 與 Owrang (1995) 則認為資料探勘是指從已經存在的資料庫當中挖掘出專家

仍未知的新事實。Fayyad 等人則定義知識發掘(knowledge discovery) 為從大量資料中

選取合適的資料進行資料處理、轉換等工作,再進行資料探勘與結果評估的一系列過

程,也意指資料探勘只是知識發掘過程中的一個步驟。Berry 與 Linoff (1997) 定義資

料探勘為做用自動或半自動的方法,對大量的資料做分析,找出有意義的關係或法則。

2.2.2 資料探勘的功能與技術

根據高啟涵(民 95)與黃湄清(民 94)之文獻整理與曾憲雄所著之「資料探勘」一書,

將資料探勘的功能整理為主要四種:

(1)

分類分析

分類分析是從已知類別的物件集合中,依據其屬性建立一個分類模型來描述物件屬

性與類別之關係,然後再根據這個分類模型對其他未經分類或是新的資料進行預測。換

言之,分類分析可用於已經分好類的歷史資料來研究它們的特徵,再根據這些特徵產生

一些準則,藉以推估預測新資料歸屬於哪些類別。

分類分析常被用來推估客戶是否會呆帳,或是哪些特徵的病人會罹患癌症等。分類

分析中常用的演算法,包括決策樹、貝氏分類法以及類神經網路等。

(2)

群集分析

群集分析是指將所有的物件或資料分成若干個群集之辦法,主要目的在於找到大

量資料中物件之間的相似性,根據物件間的相似程度,將所有的物件分成若干個群集,

使得每個群集內的物件具有高度的相似性,而不同群集間具有高度的不相似性。群集分

析與分類分析的差別在於,群集分析的資料不需先定義好類別,因此你並不曉得結果會

分成多少群且必頇額外解讀分群之後各分群的意義。群集分析常用的演算法分成分割式

分群法與非分割性分群法。

分割式分群法包括 K-帄均法(K-Means Method) 、K-物件法(K-Medoids Method)

等。非分割式分群法包括階層式分群(Hierarchical Method)、密度分群法

(20)

(3)

關聯分析

關聯分析主要是找出物件之間的關係,判斷哪些物件會同時出現。關聯分析通常會

試圖根據物件的屬性找出多條規則,比如說在超市中哪些物品會被同時購買、facebook

的好友推薦與 Google 的相關關鍵字功能或是癌症病人的病症會伴隨哪些併發症等都是

常見的例子。

關聯分析常用的演算法為 Apriori(Agrawal, R., Srikent, R.,1994)與多層次關

聯法則探勘(Multilevel Association Rule Mining)。

(4)

序列分析

序列分析主要用於分析一些與序列相關的資料,通常與時間相關,在這些包含次序

的資料中進行關聯分析,找出事件發生的先後順序或是順序的關聯性,例如從一堆的交

易記錄或是客戶瀏覽網頁的順序中,找出顧客經常循序出現的行為。比如說某客戶買了

一台洗衣機,那麼接下來會購買烘衣機的機率為 78%,或是客戶已瀏覽了 A 與 B 網頁,

接下來有極大的可能會瀏覽 C 網頁。

序列分析常用的演算法為 AprioriAll(Agrawal, R., Srikent, R.,1995)與一般化

的循序樣式探勘(Generalized Sequential Pattern Mining)。

2.2.3 資料探勘在駕駛行為之相關應用

林家聖(民 92)利用異常轉速、車速不穩、急加減速及違規超速等不當駕駛行為資料

將駕駛人做群集分群,首先作者使用華德法(Wards Method)挑選出最適合的分群數,再

用此分群數做為 k-帄均法(k-means)之分群數設定,將其分為優、尚佳、普通、稍差、

差等五等第,並將分群之普通群之指標帄均值視為指標門檻值,用來界定駕駛人行車行

為之優劣,作為獎懲之參考。最後,依研究之樣本之不當操作次數與指標係數值可推估

客運公司一年於行車與保修費用的額外支出為 1,843 萬元,如能對分群較差的駕駛群組

進行教育訓練,減少不當操作次數,一年大約可節省 118 萬元。

王詩涵(民95)透過客運公司所裝載之數位式行車紀錄器所記錄之駕駛行為資料,並

結合駕駛人人事資料、人格特質以及獎懲與客訴資料來衡量駕駛行為,利用變異數分析

檢定不同年齡、教育程度及不同駕駛經驗之駕駛人在駕駛行為、人格特質與駕駛表現上

是否具有顯著差異,接著再將各變數利用華德法與k-帄均法(k-means)做群集分析,之

後再比較各個群組之差異性。最後則是利用多元羅吉斯迴歸評量各個變數間影響程度,

以三種不同的分析方式評估駕駛行為。

楊淑娟(民95)透過收集客運公司所裝載之數位式行車紀錄器所記錄之駕駛員異常

駕駛行為資料,使用群集分析的k-帄均法(k-means)替駕駛員分群,再進一步配合異常

駕駛紀錄,鑑別出各群組觀察體的行為特性,並挑選出五集群數為最適群數,針對此集

群數再進一步做統計分析,分析各群組與異常駕駛行為因子之相關程度。

(21)

高啟涵(民95)將與行車安全、油耗與保養維修費用相關之因子做為駕駛行為監控之

指標,指標包括急減速、急加速、超速、電磁煞車操作異常、怠速過久以及引擎轉速異

常等六項,並運用群集分析之k-帄均法(k-means)將駕駛員分為三群,分別依其特性命

名為一般、稍差以及極差群集,並構建出一判別模式,以便日後能依其駕駛員判別模式

直接由駕駛員之異常操作次數判斷駕駛員之駕駛行為,作為管理者獎懲與管理的參考。

此研究推估該客運如利用教育訓練或是相關管理方式提昇駕駛員素質水準之效益,一個

月可以減少13次肇事、2次交通違規,以及節省74萬元之額外油耗與保養維修費用,總

計一年可節省90萬左右的開銷。

蔡永祥(民 97)收集數位式行車紀錄器收集有關駕駛員不當駕駛行為,利用集群分析

對駕駛員進行分群與管理,集群分析結果將駕駛員分成優、尚佳、普通、待加強、差、

極差六個等級,並各別探討其群集特性。

2.3 小結

相關文獻回顧中雖然只有部份文獻提到檔位轉換時機對於油耗以及不當駕駛行為

具有影響,而其他研究則較常使用速度與轉速做為探討之因子,但因為速度與轉速皆與

檔位相關,因此本研究除了檔位之外,將速度、轉速也納入研究探討之範圍。

有關駕駛行為之文獻,國外文獻通常只關注於影響之因素與行為,但較少考慮人之

差異,而國內文獻大部分的研究多以實驗的方式訂定門檻值,接著再依駕駛員之違規次

數將駕駛員加以分類,但若駕駛員之駕駛行為皆位於門檻值之內,則無法比較出駕駛員

之差異,且每種指標都必頇設計不同的實驗藉以制定門檻值,這些實驗是否能反應真實

狀況,門檻值是否能鑑定好壞,仍有值得商榷之處。

從資料探勘應用於駕駛行為之相關文獻可發現駕駛員分群之方法主要為群集分析

法,群集分析主要目的在於從大量資料中找到物件之間的相似性,並根據物件間的相似

程度,將所有的物件分成若干個群集,利用此方法能達到區隔駕駛行為相似與相異之駕

駛員之目的。

綜合以上幾點,本研究將捨棄傳統用門檻值的方式,以避免門檻值訂定之步驟及可

能之誤差,改以數值分析探討車速、轉速與換檔時機三者之關係,並以群集分析法將駕

駛員與以區隔,判別駕駛員群集換檔行為之差異。

(22)

第三章

研究方法

從黃靖雄「汽車原理」(民 97)之行車性能曲線圖(圖 3.1)中發現可從車速與轉速之

關係觀察到檔位的變化,因此檔位之轉換行為,也可利用速度與轉速而知。圖 3.1 可看

出轉速與速度會因檔位不同,而有不同的對應關係,圖中 a、b、c、d 四條斜線代表不

同檔位下行車速度與引擊轉速之關係。

圖3.1 行車性能曲線圖

資料來源:黃靖雄(民92)

本研究將利用車速與轉速之檔位對應關係,觀察駕駛員在不同車速下之檔位選擇行

為,並以此作為分析駕駛員之駕駛行為是否異同之依據,藉以判別不同換檔行為之族群。

圖3.2為將司機之駕駛資料中的速度與轉速之關係繪製成圖表,期能得到之結果,

圖中可看見如果使用之車輛為六個檔位,所繪製出來之圖表應也呈現六個檔位,但如果

收集之資料未包含檔位資料,則必頇額外使用其他的步驟得到檔位之資料。

檔位分析方法很重要,若有錯誤將無法正確得知駕駛員的檔位選擇行為與檔位轉換

時機,接續的評估也會有所誤差,對結果也會有重大的影響,因此如何正確評估檔位的

方析方法扮演著關鍵的角色。

(23)

圖3.2 個別檔位示意圖(以6個檔位為例)

本章參照曾憲雄「資料探勘」(民97)一書中對於資料探勘模式之功能分類,選擇群

集分析做為分析之方法,群集分析可將資料中相似的資料分屬於同一群,而不同群的資

料點則為較不相似之資料點,依據此特性不只可做為駕駛員區隔之方法,更可區分出不

同檔位之資料點。

因此本章節於3.1節先就資料探勘之群集分析方法做相關的介紹,3.2節再決定應採

用哪些分析方法較為適當。

3.1 群集分析

群集分析主要的目的為將資料集合中的資料點加以分群成數個群體,使得每個群集

內的物件具有高度的相似性,而不同群集間具有高度的不相似性。因此群集分析最重要

的部分即為相似度的計算與測量,相似度依據不同的資料類型、應用範圍、資料的集合

離散程度等將有不同的測量方法,因此根據這些考量選擇適合的分群方法將對群集分析

的結果有決定性的影響。群集分析的技術主要可分為分割式分群法、階層式分群法及密

度導向分群法。

(1) 分割式分群法(Partition-Based Clustering)

分割式分群法為將資料歸屬到數個互不交集的群集,讓每一群集中的資料點與

該群集之群集中心的相似程度高於其他群集中心。此方法通常需要事先定義資料集合

將分割成多少個群集,以期達到簡化計算的目的。

K-帄均法(K-means Method)因為其概念與作法上較為簡單,是分割式分群法中

最常被使用的方法,其演算法執行步驟如下:

(24)

a. 決定群集個數K,並從資料點中隨機選擇K個資料點作為群集中心。

b. 利用相似度計算公式,將各個資料點分別歸屬到距離最近之群集中心,最

後形成K個群體。

c. 將各群體中所包含之資料點,重新計算各群集之帄均值,代表群集之中心

點。

d. 檢查步驟c所得到之各群集中心是否皆與之前所計算之群集中心相同,如果

相同即代表各群集資料點已固定,各個資料點皆已分配至最近之群集中

心,則代表分群結果已穩定,可將分群結果輸出。反之,回到步驟b繼續執

行,將資料點分給新的群集中心,不斷重覆步驟b、c,直到群集中心不再

變動為止。

衡量資料記錄間的相似度將決定資料記錄所歸屬的群集,並影響整個分群的結

果,相似度的計算與測量,以尤拉距離(Euclidean distance)與曼哈頓距離

(Manhattan distance)最為常用。

假設有

x ,

i

x 兩筆記錄,此兩筆記錄各有k個屬性:

j i

x 之k個屬性為

x

i1

,

x

i2

,...,

x

ik j

x 之k個屬性為

x

j1

,

x

j2

,...,

x

jk

尤拉距離(Euclidean distance):

2 / 1 1 2

)

,

(

K d jd id j i

x

x

x

x

d

曼哈頓距離(Manhattan distance):

K d jd id j i

x

x

x

x

d

1

)

,

(

(2) 階層式分群法(Hierarchical Clustering)

階層式分群法中透過將彼此相似度高的較小群集合併成較大的群集,此種方式稱

之為聚合法(agglomerative approach,AGNES),反之,也可以將較大的群集進行分離

的動作,稱之為分裂法(divisive approach,DIANA)。

階層式分群的結果會是一個樹狀結構,所產生之樹狀結構可以彈性的依據不同需

求,對資料集合產生不同的群集數量,依此結構可看出每個群集間彼此的關係,而在

相同層次的群集間彼此是互相沒有交集的。聚合法之演算步驟為:

a. 將資料集合中的每個資料點當作各別之群集。

b. 利用群集相似度計算公式,將最相似的兩個群集加以合併,形成一新的群

集,如果同時有兩群最相似的群集,即同時合併。

c. 重覆執行步驟b,直到所有的資料點都歸屬至同一群集。

(25)

聚合結束之後最後會形成一株二元樹,如圖3.3,一開始各個資料點皆為單獨

的一個群集,從圖中可看到最先合併的為A、B群集與C、D群集,接下來為C、D群集

與E群集合併,依此類推最後合併為一整個群集。使用者可依其使用需求決定所需

之分群數,如只需分成兩群,依最後合併之順序會分成A、B、C、D、E與F兩群集,

如需分成三群,則會分成A、B與C、D、E與F等三個群集。

圖3.3 階層式分群法示意圖

而在步驟b當中所提到之群集相似度公式,與分割式分群法有些不同,階層式

分群法之相似度距離之測量方式,分為下列幾種,根據其方式不同,其分群結果也

可能會有所不同:

a. 單一連結法(Single Link):計算各群間包含之資料點之最短距離,並挑選

最近之兩群集合併。如圖3.4(a)

b. 完整連結法(Complete Link):計算各群間包含之資料點之最遠距離,並挑

選最近之兩群集合併。如圖3.4(b)

c. 帄均連結法(Average Link):計算各群間包含之資料點之帄均距離,即各

資料點距離加總之帄均,並挑選最近之兩群集合併。如圖3.4(c)

(26)

圖3.4 群集間距離示意圖

(3) 密度導向分群法(Density-Based Clustering)

大部分的分群法都是基於資料點間或群集間的距離關係來分群,因其相似度公式

之限制,分群的結果都是以類圓形的方式分群,但有些資料的分布如果繪成圖形可能

會呈現不規則形狀,有些資料點彼此很緊密,而有些資料點很疏離,因此密度分群法

即利用此特性,將資料集合中較為密集的資料視為一個群集,而密度低的資料視為雜

訊。運用密度分群法可用來對任意形狀之群集進行分群。其中最具代表性的方法,稱

為高密度關連區域分群法(Density Based Spatial Clustering of Applications with

Noise,DBSCAN)。

為了評估資料點周圍密集程度,DBSCAN(Martin Ester, Hans-Peter Kriegel,

Jörg Sander, Xiaowei Xu,1996)利用Eps與Minpts二個參數來代表資料點周遭的鄰近

(27)

範圍與資料密集度。Eps代表資料點周圍的半徑範圍,Minpts是用來評估Eps半徑範圍

內之資料點是否夠密集,其相關定義如下所述:

a. 在距離一個資料點半徑長度Eps以內的鄰近區域,稱為該資料點的鄰近區

域。

b. 若某資料點的鄰近區域中包含了大於Minpts的資料點,該資料點稱之為核

心物件。如圖3.5(a)。

c. 假如資料點p的位置是在某核心物件q的鄰近區域內,則資料點p可以被稱為

「可由q直接可達(directly density-reachable)」的物件。但必頇注意的

是,由於p不一定為核心物件,所以相對的,q不一定可以由p直接可達。如

圖3.5(b)。

d. 假如資料點p可由q

1

直接可達、而q

1

又可由q

2

直接可達,依此類推,q

i-1

可由

q

i

直接可達,則資料點p可以被稱為「可由q

i

可達(density-reachable)」之

物件。同樣的,由於資料點p不一定是核心物件,所以q

i

不一定可以由p可達。

如圖3.5(c)。

e. 假如資料點p和q都可由資料點o可達,則p和q可以被稱為「連接

(density-connceted)」之兩物件。如圖3.5(d)。

圖3.5 DBSCAN定義相關圖

Eps

q

q

p

q

1

p

q

2

o

p

q

(a) Minps=4

(b) p可由q直接可達

(c) p可由q

2

可達

(d) p與q連接

(28)

DBSCAN在運作上會先一一檢查資料集合中的每個資料點,判斷哪些資料點為核心物

件,並將每一個找到的核心物件其鄰近的所有資料點併入,成為以核心物件為中心的群

集。接著,再將這些核心物件視為合併依據,往外尋找是否有可合併的核心群集,直到

再也沒有合併的群集為止。DBSCAN的演算步驟如下:

a. 挑選群集的每一個資料點,計算此資料點半徑為Eps的範圍內之資料點是否

超過Minpts。如果超過,此資料點為核心物件,將可直接可達之資料點併

入此群集,直到找出所有核心物件及其群集。

b. 選擇任一核心物件,往外尋找可由此核心物件可達之資料點,假如發現會

擴張到某個已有所屬群集之核心物件,則該群集將被合併,否則重新回到

步驟b,選擇其他未被合併或未被處理過之核心物件繼續執行。

c. 當所有核心物件都處理過即結束。

3.2 模式建立

本研究之分析方法為藉由駕駛員之檔位選擇行為區隔駕駛員之異同,並判別駕駛員

之換檔行為。為達到此目的,本研究將分析模式分為三個階段,分別為檔位分群模式、

駕駛員分群模式以及換檔行為評估模式。

首先資料中若未包含檔位資訊,則需將資料點依其轉速與速度關係分配至應屬之檔

位,才能做後續駕駛員之檔位選擇行為分析,因此檔位分群模式主要是辨別駕駛者之行

車記錄資料點的檔位分配。

接著駕駛員分群模式則依據資料點之檔位分配數據做駕駛員分群,根據先前所述,

不同的檔位選擇會對應不同之車速與轉速,因此根據此特性計算各個駕駛員在各檔位的

速度使用分配比例,並以此數據區隔具有不同換檔習慣之駕駛員。

最後,換檔行為評估模式則是探討駕駛員分群後之群集特性,換檔行為之特性分為

延遲換檔與提前換檔兩種,此模式依據駕駛員各速度區間下檔位之使用比例,先找出駕

駛員之慣用檔位,並將此檔位作為判斷群集之換檔行為為延遲或提前之標準。

3.2.1 檔位分群模式

此模式為辨別駕駛者之行車記錄資料點的檔位分配,檔位分群之資料如圖3.2為類

斜線之圖形,而大部分的分割式分群法或是階層式分群法,均是基於資料點間或群集間

的距離來分群,只能找出類圓形和群集大小相似的群集,對於任意形狀的分群效果就不

太好。而密度導向分群法可以依資料點的緊密程度分群,不必局限於類圓形的圖形來分

群,圖3.2中各檔位的形狀為類斜線且資料點密集度很高,因此本研究認為密度分群法

為較適合為檔位分群之辦法,資料點間之距離以尤拉距離做為計算公式。其演算法如下:

(29)

a. 選擇適當之Eps與Minpts參數進行DBSCAN分群。

b. 假設駕駛員駕駛之車種有N個檔位,先選擇某一區間之轉速做為分群之範

圍,將速度切割為N個不同的速度區間,對資料做DBSCAN分群,並選擇各速

度區間中個數最多之群集。如圖3.6,先利用紅色方框包圍住之轉速區間做

為分群之範圍,並將速度區間分為藍色方框所包圍的6個區間,對此6個區

間做DBSCAN分群,因每個速度區間分群後之群集個數不一,選擇群集集合

中個數最多之群集,如圖3.7紅色圓框部分。

圖3.6 轉速與速度區間選擇範例(以6個檔位為例)

圖3.7 各個速度區間分群後之群集範例(以6個檔位為例)

(30)

c. 將步驟b所得到之N個分群做迴歸分析,並將此N個迴歸式視為重新分群之依

據(如表3.1)。

表3.1 各區間之群集迴歸式(以6個檔位為例)

檔位

迴歸式

1

Y

1

=-3.482+0.019X

1

2

Y

2

=0.038+0.038X

2

3

Y

3

=0.307+0.025X

3

4

Y

4

=1.805+0.063X

4

5

Y

5

=2.661+0.07X

5

6

Y

6

=6.091+0.086X

6

(X為轉速,Y為速度)

d. 所得之N個迴歸式皆為直線(如圖3.8),並不足以代表檔位上所有之資料

點,因此本研究另設定一參數R,限制此迴歸式之影響範圍,將迴歸式周遭

的資料點也包含在內,使每個資料點分配至最近且距離小於R之迴歸式。舉

例來說,假設R為5,現有一資料點之轉速與速度為800與60,將轉速代入表

3.1之6個檔位迴歸式得Y

1

=11.718,Y

2

=30.438,Y

3

=20.307,Y

4

=52.205,

Y

5

=58.661,Y

6

=74.891,其中與實際速度(60)最相近之迴歸式為Y

5

,且此資料

點與迴歸式之距離(60-58.661=1.339)小於5,即可將此資料點分配至檔位

5,以此類推,將所有資料點分配後可得結果如圖3.9。

(31)

圖3.9 迴歸式分群之結果

3.2.1.1 檔位分析之參數選擇

DBSCAN利用Eps與Minpts二個參數來代表核心物件的鄰近範圍與成為核心物件之資

料數門檻值,此兩者參數皆會影響分群的效果,因此如何設定Eps與Minpts參數是DBSCAN

最大的難題,通常的解決辦法是測試不同的參數組合重複執行多次,以求找出適當可接

受的分群結果。

正常狀況下,代表檔位的六條迴歸式並不會有交錯的情況,但當參數不適當時,則

可能使得分群所輸出之檔位迴歸式無法代表其檔位,而與其他迴歸式產生交錯的現象,

一旦迴歸式產生交錯,資料點的檔位歸屬則會產生錯誤的分配。

Minpts 參數主要代表是否能成為核心物件之資料數門檻值,如設定太大,能成為核

心物件的資料點就會較少,產生的分群也會較少,雖然求得之分群的資料點會較密集,

但可能造成所選擇的最大群集範圍過小(如圖 3.10 的紅色圓框所示),使得所求得之迴

歸式無法正確代表其檔位,造成迴歸式交錯的現象。圖 3.11 為將圖 3.10 所選擇之分群

做迴歸分析之結果,從圖 3.11 中可看出 1 檔與 2 檔的檔位迴歸式交錯使得位於交錯位

置的資料點無法正確分配至 1 檔或是 2 檔,甚至會產生原是 1 檔的資料分配至 2 檔,2

檔的資料分配至 1 檔的結果。

當 Eps 參數設定值太小時,可直接可達(directly density-reachable)之資料點也

會變少,使得能成為核心物件之資料點也會變少,此時會與 Minpts 參數設定太大一樣,

可能造成資料分群過於密集,而使得所選擇的最大群集範圍過小(圖 3.10),導致所選擇

之迴歸式無法正確代表其檔位,造成迴歸式交錯的現象(圖 3.11)。

(32)

圖3.10 Eps參數過小或Minpts設定過大所選擇之6個群集範例

圖3.11 Eps參數過小或Minpts設定過大之迴歸式分群結果範例

而 Eps 參數設定值太大,使得每個資料點可直接可達(directly

density-reachable)、可達(density-reachable)以及連接(density-connceted)的範圍

變大,可能使不同檔位的資料點歸屬於同一群,而造成分群的誤差,如圖 3.12 中有些

位於 6 檔之資料點被分到 5 檔。分群一旦有誤差,所產生的迴歸式也就無法正確代表其

檔位,圖 3.13 為將圖 3.12 所選擇之分群做迴歸分析之結果,從圖 3.13 中可看出 5 檔

與 6 檔的檔位迴歸式交錯,使得部分 6 檔之資料點分到 5 檔。

(33)

圖3.12 Eps參數過大所選擇之6個群集範例

圖3.13 Eps參數過大迴歸式分群結果之範例

為了避免參數過大或是過小而造成分群檔位無法清楚切割,本研究建議使用一系列

不同的參數值代入後,觀察分群所輸出之檔位迴歸式是否相互交錯做為是否正確分群之

判斷依據,只要其中任兩條迴歸式交錯即代表分群過程中所選擇之群集不足以代表其檔

位,因此只要出現任兩條迴歸式交錯即判定分群失敗,失敗的比例愈低代表分群的結果

愈好,藉以代入不同的參數,選擇失敗比例最小之參數,做為較適當之 Eps 參數值。

(34)

最後參數

R 的設定大小將會影響納入各別檔位的資料點個數,設定值太大,當低檔

位的資料較為密集時,可能會將過多的檔位轉換資料點也納入群集,如圖 3.14 中 1、2

檔就因參數設定過大使得兩檔中間所有轉換時之資料點皆被分到 1 檔或 2 檔,此結果可

能使後續分析時資料干擾值太多而導致結果不正確。反之,設定值較小時則較不會納入

過多非位於檔位上之資料點,但還是應避免參數值過小造成包含於影響範圍中之資料數

不夠(如圖 3.15),因此本研究同樣代入不同之參數值藉以避免選擇過大之參數值。

圖3.14 R參數過大之分群結果之範例

圖3.15 R參數過小之分群結果之範例

(35)

3.2.2 駕駛員分群模式

檔位分群之後依據駕駛員在各檔位於速度區間的分配情況做分群,以判別駕駛員之

行為之差異。吳明隆「SPSS統計應用實務」(民89)中提到當觀察值的個數在200個以上,

以採用K-帄均法較為適宜,反之,則可使用階層式分析法,因本研究之觀察個數最多不

超過200,因此選擇階層式分群法做為分群的方法。駕駛員分群方法如下:

(1) 計算駕駛員之檔位分配比例。表3.2代表某位駕駛員在各速度區間與檔位下的

檔位分配比例,第一欄代表速度區間,第二欄為檔位,第三欄為檔位比例,檔

位比例為速度區間的檔位次數佔同檔位總次數的比例,比如說檔位為1時,速

度區間為0-10的檔位比例為48/(48+83)=0.37,代表駕駛員在1檔時,有0.4左

右的比例使用速度區間0-10,0.6左右使用10-20的速度區間。依此類推,即可

得到此駕駛員在行駛時的檔位與速度的分配情形,可看出1檔時較常使用10-20

的速度區間,2檔時速度區間為10-20與20-30的使用比例差不多,3檔時較常使

用的區間為30-40,以此類推。

表3.2 檔位分配資料表範例

速度區間

(km/h)

檔位

檔位比例

次數

0-10

1

0.37

48

10-20

1

0.63

83

10-20

2

0.48

113

20-30

2

0.51

119

30-40

2

0.01

1

10-20

3

0.01

5

20-30

3

0.4

143

30-40

3

0.54

195

40-50

3

0.05

18

20-30

4

0.01

2

30-40

4

0.22

99

40-50

4

0.52

237

60-70

4

0.01

4

(2) 利用步驟1可求得各個駕駛員之檔位分配數據(表3.3),由表中可發現駕駛員在

各速度區間下的檔位使用比例並不相同,本研究期望能將駕駛員分為延遲換檔

與提前換檔兩種,因此利用階層式分群法根據使用比例之差異將駕駛員分為二

群,藉以區別不同習慣之駕駛員,並將相似之駕駛員分為同一群。

(36)

表3.3 司機檔位之分配比例數據範例(區間切割值=10)

速度

區間

(km/h)

駕駛員代碼

檔位

A

B

C

D

E

F

G

H

0-10

1

0.74

0.42

0.37

0.65

0.61

0.48

0.46

0.46

10-20

1

0.26

0.58

0.63

0.35

0.39

0.52

0.54

0.54

0-10

2

0.02

0.00

0.00

0.02

0.02

0.00

0.02

0.01

10-20

2

0.80

0.76

0.42

0.54

0.65

0.63

0.58

0.55

20-30

2

0.17

0.24

0.58

0.44

0.33

0.37

0.40

0.44

10-20

3

0.07

0.04

0.01

0.02

0.02

0.03

0.02

0.04

20-30

3

0.50

0.56

0.27

0.36

0.43

0.32

0.43

0.43

30-40

3

0.43

0.40

0.61

0.59

0.53

0.64

0.54

0.50

40-50

3

0.00

0.00

0.11

0.03

0.02

0.02

0.01

0.03

20-30

4

0.01

0.02

0.02

0.01

0.02

0.01

0.02

0.01

30-40

4

0.42

0.35

0.12

0.17

0.24

0.16

0.24

0.25

40-50

4

0.47

0.53

0.53

0.57

0.51

0.48

0.54

0.51

50-60

4

0.09

0.10

0.32

0.25

0.22

0.34

0.19

0.22

60-70

4

0.00

0.00

0.02

0.00

0.01

0.00

0.01

0.00

70-80

4

0.01

0.01

0.00

0.00

0.00

0.00

0.01

0.01

30-40

5

0.13

0.05

0.03

0.03

0.03

0.02

0.03

0.05

40-50

5

0.53

0.31

0.12

0.17

0.14

0.17

0.20

0.14

50-60

5

0.30

0.41

0.25

0.24

0.22

0.27

0.39

0.27

60-70

5

0.03

0.22

0.54

0.55

0.50

0.52

0.35

0.48

70-80

5

0.01

0.00

0.06

0.01

0.11

0.03

0.02

0.04

80-90

5

0.00

0.00

0.00

0.00

0.00

0.00

0.00

0.01

60-70

6

0.16

0.06

0.17

0.02

0.24

0.20

0.14

0.15

70-80

6

0.00

0.00

0.00

0.00

0.01

0.00

0.00

0.00

80-90

6

0.01

0.01

0.01

0.00

0.01

0.00

0.01

0.01

90-100

6

0.14

0.10

0.07

0.09

0.07

0.09

0.08

0.07

100-110

6

0.29

0.23

0.27

0.31

0.23

0.26

0.27

0.22

110-120

6

0.40

0.59

0.48

0.57

0.45

0.44

0.50

0.55

群集相似度公式使用帄均連結法,利用尤拉距離計算群集間資料點之帄均距

離,挑選最近之兩群集合併,各群集之距離如表3.4。

(37)

表3.4 各群集距離之範例

駕駛員代碼

A

B

C

D

E

F

G

H

A

0 0.341 1.283 0.739 0.562 0.801 0.559 0.719

B

0.341 0 0.660 0.488 0.344 0.404 0.156 0.267

C

1.283 0.660 0 0.244 0.307 0.135 0.212 0.131

D

0.739 0.488 0.244 0 0.108 0.127 0.171 0.122

E

0.562 0.344 0.307 0.108 0 0.095 0.130 0.086

F

0.801 0.404 0.135 0.127 0.095 0 0.108 0.074

G

0.559 0.156 0.212 0.171 0.130 0.108 0 0.043

H

0.719 0.267 0.131 0.122 0.086 0.074 0.043 0

群集中距離最近之兩群集為G、H,合併G、H之後重新計算合併後群集與其他群

集之距離,重新得到各群集之距離如表3.5。而表3.5中距離最近之群集為F與G,H兩

群集,因此再將F、G、H合併為一群,以此類推,最後可得到一二元樹如圖3.16。

表3.5 第一次合併後各群集距離之範例

駕駛員代碼

A

B

C

D

E

F

G,H

A

0

0.341 1.283 0.739 0.562 0.801 0.639

B

0.341

0

0.660 0.488 0.344 0.404 0.211

C

1.283 0.660

0

0.244 0.307 0.135 0.171

D

0.739 0.488 0.244

0

0.108 0.127 0.147

E

0.562 0.344 0.307 0.108

0

0.095 0.108

F

0.801 0.404 0.135 0.127 0.095

0

0.091

G,H

0.639 0.211 0.171 0.147 0.108 0.091

0

圖3.16 階層式分群示意圖

(38)

本研究根據使用需求將駕駛員分為二群,由圖3.16最後合併的步驟可知分群之結

果如表3.6:

表3.6 階層式分群結果之範例

群集 1

A、B

群集 2

C、D、E、F、G、H

3.2.3 換檔行為評估模式

分群後必頇評估分群的結果,分析其群集特性,判斷那些群集具有延遲或提前換檔

行為之駕駛員。其評估步驟如下:

(1) 計算各群集之間的駕駛員在各速度區間內檔位的使用比例與帄均值。如表

3.7代表A、B、C、D、E、F、G、H,八位駕駛員在速度區間10-20下1、2、3

檔的使用比例,檔位4、5、6在此速度區間之使用比例皆為0,所以不予表示。

表3.7 檔位使用比例資料表之範例

速度區間

(km/h)

檔位

A

B

群集 1

帄均值

C

D

E

F

G

H

群集 2

帄均值

總帄

均值

10-20

1 0.309 0.274 0.291 0.146 0.138 0.156 0.142 0.146 0.195 0.154 0.188

10-20

2 0.548 0.630 0.589 0.731 0.694 0.722 0.708 0.731 0.607 0.699 0.671

10-20

3 0.144 0.096 0.120 0.123 0.169 0.122 0.149 0.123 0.198 0.147 0.140

(2) 找出群集內之駕駛員在速度區間之慣用檔位(總帄均值最大之檔位),觀察每

個速度區間之慣用檔位是否相同,若慣用檔位不同,則直接認定在此速度區

間下慣用檔位較低之群集具有傾向延遲換檔之行為,反之,慣用檔位較高之

群集較具有提前換檔之傾向。

(3) 若慣用檔位相同,則將此檔位作為觀察檔位轉換之依據,利用統計檢定檢查

兩群集慣用檔位之前後兩檔使用比例帄均值是否有顯著差異,若慣用檔位之

前一檔位具有顯著差異,則檢查哪個群集在慣用檔位前一檔位之使用比例大

於同檔位之總帄均值,認為此群集具有延遲換檔之傾向,反之,若慣用檔位

之後一檔位具有顯著差異,則檢查哪個群集在慣用檔位後一檔位之使用比例

大於同檔位之總帄均值,認定此群集具有提前換檔之傾向,若慣用檔位之前

後兩檔皆無顯著差異,則代表兩群集在此速度區間之檔位使用無太大差別。

如表3.7,在速度10-20區間下慣用檔位為2檔,利用統計檢定兩群集於檔位1

與檔位3之使用比例是否有顯著差異,若兩群集在1檔具有顯著差異,則檢查

哪個群集在1檔的使用比例比總帄均值高,根據表3.7可知群集1使用1檔的比

例較總帄均值高,因此在速度10-20區間下群集1相較於群集2有延遲換檔之

(39)

行為,同樣的,若兩群集在3檔具有顯著差異,則檢查那個群集在3檔的使用

比例比總帄均值高,從表3.7中可知群集2使用3檔的比例較總帄均高,因此

具有傾向提前換檔之行為,若兩群集在1、3檔之使用比例不具有顯著差異,

則代表兩群集在此速度區間之檔位使用情況無太大差別。

(4) 觀察各群集在各速度區間內之行為是否一致。在表3.7中如確定10-20的速度

區間群集1具有延遲換檔傾向,接下來檢查其他速度區間結果是否皆一致,

若區間之間有不一致之結果,則無法下判斷,若結果都一致,則可判定群集

1相較於群集2較具有延遲換檔之傾向。

(40)

第四章

實例分析

本研究利用前章節所建立之分析模式探討各個駕駛員之檔位分配情形,再利用此分

配做駕駛員分群之依據,並分析各群集之駕駛員在換檔行為之表現上是否有顯著差異。

4.1 資料收集

本研究收集國內某客運公司之 296 部客運車輛之數位式行車紀錄器資料所記錄之駕

駛行為資料、司機排班資料及車輛相關資料,資料收集時間為民國 98 年 10 月 1 日至 98

年 10 月 30 日之行駛資料,並使用 Microsoft SQL Server 2005 作資料儲存之資料庫。

所收集之資料如下:

1. 駕駛員排班資料:駕駛員排班資料包括路線代碼、排班日期、出發時間、車號、駕

駛員代碼、駕駛員姓名、抵達時間等,駕駛員資料表之格式如下表所示。

表4.1 駕駛員排班資料

路線代碼 排班日期 出發時間 車號 駕駛員代碼 抵達時間

L0018 2009/10/6 19:10

630

09705101

23:20

L0019 2009/10/6 01:00

649

09703054

02:10

L0019 2009/10/6 05:00

648

09704032

06:00

L0003 2009/10/6 20:45

877

09704033

01:25

2. 車載裝置資料:車載裝置資料是由GPS裝置每90秒發送一筆記錄回傳至系統,資料包

括回傳時間、車號、駕駛員代碼、經緯度、每小時速度、每分鐘轉速、車型等資料。

表4.2 車載裝置資料

回傳時間

車號 駕駛員代碼 緯度

經度 速度 轉速

車型

2009/10/8 下午

10:07:12

246

09311051 90263 437378 38 968 SCANIA

2009/10/8 下午

11:40:01

377

09709013 88834 435245 99 1875

FUSO

4.2 資料前置處理

通常在資料收集步驟所收集到的資料都是無法直接使用,大部份的時候所取得的原

始資料是非常雜亂且不完整或是需要經過整理才有辦法分析,因此資料的前置整理是非

常重要的一個步驟,若是資料整理的品質不佳,將會大大影響後續分析的效果。

(41)

4.2.1 資料刪除

研究客運之資料之後,發現有些駕駛記錄的速度與轉速欄位為-1或是速度為負值之

資料,由於駕駛資料的完整度受到了GPS系統或是天氣的影響,有時會有斷訊、收訊不

佳、GPS當機的狀況,當未接收到訊號時,此筆記錄的速度與轉速即為-1,因此並不是

所有的資料皆可使用,因此在資料使用前必頇先將這些不完整的資料去除。要刪除之範

例如下表

表4.3 不完整資料範例

回傳時間

車號 駕駛員代碼 緯度

經度

速度 轉速

車型

2009/10/8 下午

10:39:26

608

09709008 90207 437194

-1

-1

SCANIA

2009/10/8 下午

10:39:39

608

09709008 90207 437194

-1

-1

SCANIA

2009/10/12 下午

05:59:37

696

09409019 87128 434341 -68 1388 SCANIA

4.2.2 行車記錄資料篩選

本研究主要目的為運用資料探勘技術於駕駛行為資料,藉以辨別駕駛員之換檔行

為,因此為了排除車型不同所可能造成的影響,本研究只針對車型為SCANIA之資料做探

討,資料範圍縮小為100部車輛及185位駕駛員。另外為了資料處理方便,將原始的駕駛

行為資料依駕駛員代碼分別建立個別資料表。

表4.4 駕駛員個別資料表範例

回傳時間

車號 駕駛員代碼 速度 轉速

車型

2009/10/7 下午

03:50:40

677

09503024 20 531 SCANIA

2009/10/7 下午

03:43:37

677

09503024 42 1086 SCANIA

2009/10/7 下午

03:48:32

677

09503024 34 839 SCANIA

2009/10/7 下午

03:46:38

677

09503024 38 1000 SCANIA

2009/10/7 下午

03:04:13

677

09503024 48 1202 SCANIA

2009/10/7 下午

03:04:13

677

09503024 48 1214 SCANIA

2009/10/7 下午

03:04:20

677

09503024 44 1136 SCANIA

數據

表 4.11  空檔滑行次數表之帄均表 .......................................................................................
圖 4.2 檔位關係圖之範例 ......................................................................................................

參考文獻

相關文件

Therefore, this study intends to combine the discussion method with the interactive response system of Zuvio IRS for flipped teaching in the course "Introduction to

Therefore, a new method, which is based on data mining technique, is proposed to classify driving behavior in multiclass user traffic flow.. In this study, driving behaviors

Therefore, the purpose of this study is to perform a numerical analysis on the thermal effect of shape-stabilized PCM plates as inner linings on the indoor air temperature

Hence this study uses a systematic method to develop safety evaluation indices and their weights to evaluate the walking environment of way to school for

To understand the Internet addiction behaviors, this study inquires the personal and family related factors, online experience related factors, interpersonal interactions

This study combined the concepts of service science, orienteering problem, geographic information systems and genetic algorithms to design the feeder bus route.. In

The objective of this research is to conduct the theoretical and experimental studies on how to use the Empirical Mode Decomposition method to process the response of a single

In this study, Technology Acceptance Model (TAM 2) is employed to explore the relationships among the constructs of the model and website usage behaviors to investigate