資料處理

第四章資料分類與駕駛員分群判別

4.1 資料處理

如 3.1 節所提，車輛於道路駕駛途中，主要可區分為行駛、怠速以及換檔等三種情形。綜合以上三種情況，本研究利用所蒐集得來的行車紀錄器資料，提出以下方法將車速與轉速資料進行分類，共可分成行駛檔位點、換檔點以及怠速點三類。

Step 1. 先行計算出每一班次行車紀錄器所紀錄之每秒車速與轉速資料之比值( R )

以及相鄰兩秒之比值差絕對值(

R

diff

)。

Step 2. 車輛若是處於換檔的狀態，此時的 R

diff

將有劇烈變化。因此，若相鄰資料點之

R

diff

值超過所設門檻值，則可將此資料點視為換檔點。

Step 3. 資料點不為換檔點時，判定資料點為行駛檔位點或是怠速點。

Step 4. 若資料點不為換檔點亦非怠速點，則可判定為行駛檔位點，紀錄於行駛檔

位點集合。

如下表 2 資料範例所示，先行計算出 R 值與

R

diff

值後，再以

R

diff

值進行資料點是否為換檔點之判別。如下表 2 所示，當

R

diff

值變大時，如第 2 筆以及第 3 筆資料點，可視為換檔點。

R

diff

值之門檻訂定如下，自所選取車輛之行車紀錄器資料中各隨機選擇一個班次，將此班次的行車記錄器資料進行

R

diff

計算，假設所得之統計結果如下表 3。由表 3 可看出，約有 90%以上的

R

diff

值落在 0 至 0.04 間，且大於 0.04 之 R_diff 資料點急 遽減少，與車輛行駛過程中換檔時間的比例低、換檔時 R_diff 變大之機械原理吻合，因此可以

R

diff

值 0.04 作為換擋點判斷之門檻。

如下圖 4 所示，車輛呈現靜止狀態期間，車速應為零，但是車輛仍有可能因為司機腳踩煞車力道不足等因素而使車輛小幅滑動，造成輪軸轉速不為零的情況。因此統計夾雜於靜止資料點中，車速非零之資料點之車速最大值，視為怠速資料之門檻值。以上將原始資料點分類為換檔點、怠速點以及行駛檔位點之流程整理如下圖 5。

表 2 行車紀錄器連續資料範例

資料編號轉速車速

R R

diff

1 29 0 0 0.033 2 27 3 0.111 0.111 3 32 7 0.219 0.108 4 49 11 0.224 0.005 5 64 14 0.219 0.005 6 78 18 0.231 0.012

表 3 各車單一班次

R

diff

值累積統計表

0 - 0.02 0–0.04 0-0.06 0 - 0.08 0–0.10 A 0.786 0.915 0.947 0.976 1.000 B 0.806 0.922 0.951 0.981 1.000 C 0.798 0.919 0.949 0.980 1.000 D 0.816 0.930 0.964 0.988 1.000 E 0.847 0.944 0.967 0.987 1.000

0 5 10 15 20 25 30 35

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29

轉速車速

圖 4 行車紀錄器連續怠速資料範例

車號範圍

t時間資料點之車速/

轉速值(R)

計算t時間與t-1時間之車速/轉速比值差距絕對值(R_diff)

t 時間資料點為檔位點或是怠速點

t 時間資料點為行駛檔位點並記錄於行駛

檔位點集合

t 時間資料點為換檔點，記錄於換檔點集

合

檢查t 時間資料點是否為怠速點?

是

超過門檻未超過門檻

t 時間資料點為怠速點並記錄於怠速點集合

否

圖 5 資料點分類流程圖

4.2 駕駛員行車型態駕駛員行車型態駕駛員行車型態定義與群集分析方法駕駛員行車型態定義與群集分析方法定義與群集分析方法定義與群集分析方法

根據統計學之大數法則以及中央極限定理：「假設某一母體分配之母體平均數(

µ

) 與母體變異數(

σ

²)均存在，由其中抽取樣本數為 n (n ≧30)之一組隨機樣本，令其樣本 平均數為 X ，則樣本平均數 X 將會近似母體平均數

µ

，且 X 的分配會近似常態分配，

即 X ~30

≥

n N(

µ

n σ

)」

因此若要衡量駕駛員之駕駛行為優劣，可由行車紀錄器資料庫中找出此駕駛員所負責之至少 30 趟班次進行指標計算，所得之各項指標平均值即可視為該駕駛員之行車型態 (driving pattern)。

群集分析主要的目的是將資料集合中的資料點加以分群成數個群集(cluster)，使得每個群集中的資料點間相似程度高於與其他群集中資料點的相似程度，藉由分析的結果推論出有用、隱含、令人感興趣的特性與現象[19]。因此定義駕駛員之行車型態後，本研究將進行同一路線之所有駕駛員分群，以辨識此路線之駕駛員之駕駛行為孰優孰劣。

在群集分析的方法中，可分為分割式分群法(如 k-means)以及非分割式分群法(如階 層式分群法之聚合法以及分裂法)。

(1) 分割式分群法：將群集資料點歸屬到數個互不交集的群集中，使每一群集資料點與該群集之群集中心之相似程度高於與其他群集中心之相似程度。

(2) 非分割式分群法：將彼此相似度高的較小群集合併成較大的群集，或者將較大的群集進行合併的動作。

根據曾憲雄[19]，在低維度以及資料點數量較少的情況下，兩種類型的分群法皆可以在短時間內得到分群結果。但是，隨著資料點的增加，分群法的效能將會開始出現差異。考量企業管理所注重之效率與成本，因此本研究採用分群法中成本與效率表現較佳 之 k-means 分群法進行駕駛員分群的工作。

4.3 k-means 分群法以及資料正規化分群法以及資料正規化分群法以及資料正規化分群法以及資料正規化

k-means 分群法為分割式分群法中最為熟知，且發展最久的一種方法，且在處理上

所需時間與空間之成本低廉，因此廣為採用。其執行步驟如下：

輸入：包含 n 個資料點之資料集合，以及群集數量 k 輸出：k 個不相交集的群集

步驟 1：自資料點中隨機挑選 k 個當作起始 k 群的群集中心

步驟 2：利用相似度計算公式，將資料點分別歸類至距其最近的群集中心所屬群集，

步驟 3：利用距離總偏移值公式，重新計算各群集之群集中心點平均加速度為 2 km/hour，其表示方式亦可為 2000 m/hour，然而，經過式(10)計算之後，

該維度之距離瞬間擴大，極容易造成分群結果錯誤。

表 4 資料點分群範例

平均轉速差一檔使用比例二檔使用比例三檔使用比例四檔使用比例

C1 4.900 0.250 0.250 0.250 0.250

C2 5.700 0.250 0.250 0.250 0.250

C3 6.500 0.250 0.250 0.250 0.250

A 5.500 0.100 0.200 0.300 0.400

C4 4.100 0.150 0.190 0.280 0.380

C5 4.900 0.150 0.190 0.280 0.380

C6 5.700 0.150 0.190 0.280 0.380

平均值 5.329 0.186 0.217 0.270 0.327

標準差 0.770 0.063 0.031 0.020 0.073

表 5 資料點 Z 分數標準化分群範例

平均轉速差一檔使用比例二檔使用比例三檔使用比例四檔使用比例群集

C1 -1.596 1.026 1.062 -1.000 -1.064 1 C2 -0.557 1.026 1.062 -1.000 -1.064 1 C3 0.483 1.026 1.062 -1.000 -1.064 1 A 0.223 -1.368 -0.554 1.500 1.005 2 C4 -0.557 -0.570 -0.877 0.500 0.729 2 C5 0.483 -0.570 -0.877 0.500 0.729 2 C6 1.522 -0.570 -0.877 0.500 0.729 2

4.4 分群結果顯著性分析分群結果顯著性分析分群結果顯著性分析分群結果顯著性分析

將資料點進行標準化且分群之後，為了解分群結果是否良好，描述集群之間的差異程度，需對分群結果進行顯著性分析。

根據吳姿瑤[22]，使用 k-means 分群法求得兩群集，且兩群集皆服從常態分配時，

可以使用獨立樣本 t 檢定、Mann-Whitney U 檢定等檢定方法檢視兩集群之平均數是否有顯著差異。使用 t 檢定之先決條件為當兩集群皆服從常態分配，若是兩集群不服從常態分配則是使用 Mann-Whitney U 檢定。

分群結果之資料點為各駕駛員之行車型態。如 4.2 節所述，行車型態為該駕駛員負責班次所得之各項指標平均值，根據大數法則以及中央極限定理，行車型態之分配為常態分配，符合獨立樣本 t 檢定資料點須符合常態分配的前提。因此，本研究將各駕駛之行車型態進行分群之後，選擇以獨立樣本 t 檢定進行分群結果顯著性分析，顯著水準為 0.05。

將表 5 之分群範例進行獨立樣本 t 檢定後得到如下表 6 之結果。由表 6 可以得知，

集群 1 與集群 2 兩者除平均轉速差指標並無顯著差異外，各檔位之使用比例皆有顯著差異，即集群 1 之一檔使用比例與二檔使用比例明顯高於集群 2，三檔使用比例以及四檔使用比例明顯低於集群 2。

表 6 資料點 Z 分數標準化分群範例

平均數相等的 t 檢定(顯著水準 = 0.05)

t 值顯著性(雙尾) 結果

平均轉速差 -1.364 .231 平均數無顯著差異

一檔使用比例 7.606 .001 平均數有顯著差異

二檔使用比例 19.449 .000 平均數有顯著差異

三檔使用比例 -5.916 .002 平均數有顯著差異

四檔使用比例 -22.807 .000 平均數有顯著差異

4.5 小結小結小結小結

本章旨在介紹如何將蒐集得到之行車紀錄器資料點進行分類，進而進行指標運算得到特定路線之駕駛員行車型態加以分群。

資料點可分為三類，換檔點、怠速點以及行駛檔位點。換檔點的分類主要依據為車 速與轉速資料之比值(R)以及相鄰兩秒之比值差絕對值(R_diff)，怠速點的分類則是以夾 雜於車輛靜止狀態時的資料點中，車速非零之資料點之車速最大值。

在本研究中，將欲分群之所有駕駛員之駕駛行為模式各項指標值求得後，考量分群 法所需成本以及效率，採用 k-means 分群法進行分群。然而，為了消弭單位間不同所造 成的差距影響結果，本研究進一步將各項行車型態進行正規化，則可得到各項指標值之 Z 分數，接著再進行分群法，則可得到更為精確的分群結果。

為了解分群結果是否良好，描述集群之間的差異程度，需對分群結果進行顯著性分析。行車型態之分配為常態分配，符合獨立樣本 t 檢定資料點須符合常態分配的前提。

因此，本研究將各駕駛之行車型態進行分群之後，選擇以獨立樣本 t 檢定進行分群結果顯著性分析，找出集群間有顯著差異的指標。

上述之資料處理流程如下圖 6 所示：

特定路線所有駕駛員於非尖峰時段行駛班次之

記錄器資料行車記錄器資料

選取每位駕駛員至少30 趟班次進行指標運算

將每位駕駛員所得之駕駛行為模式樣本取平均值，求得每位駕駛員之

駕駛行為模式

將各駕駛員之駕駛行為模式進行Z-分數標準化

以k-means分群法進行駕駛員分群

集群顯著性差異分析

圖 6 資料處理流程圖

第五章第五章第五章

第五章實例分析實例分析實例分析實例分析

本章的主要目的為透過行車記錄器實際資料的蒐集，驗證本研究所提出之方法是否可依據駕駛行為優劣，有效將客運駕駛進行分群。5.1 小節主要介紹本研究所蒐集之資料及其格式，並且對於駕駛員駕駛班次取樣之條件加以說明，以及第四章所提之相關參數設定。5.2 小節及 5.3 小節則是根據前述章節進行實際路線資料分析，將駕駛員依駕駛行為進行分群，並對分群結果進行顯著性分析，找出集群間顯著差異的部份，作為未來駕駛行為改善之重點。

5.1 資料蒐集資料蒐集資料蒐集資料蒐集

本研究蒐集之資料包括 2009 年 6、7 月份某客運營運車輛行車紀錄器之原始資料、

某客運車輛基本資料以及 2009 年 6、7 月份車輛排班表等。

表 7 為行車紀錄器格式範例，行車紀錄器所紀錄之資料內容包括車號(carid)、車輛位置之經緯度(lng、lat)、資料回傳時間(GpsTime)、車輛每秒之引擎轉速記錄值與輪軸轉動記錄值(Rpm)、行駛路線編號(routeno)、去回程(goBack)、路線起點(xFrom)以及路線終點(xTo)等。

表 7 之 Rpm 欄位中，以第一列為例，第一個數字 192 為客運公司系統所需之序號，

第二個數字 18017 為車輛輪軸轉動的累計距離，之後每兩個數字為一組，分別代表該列 GpsTime 與下一列 GpsTime 之間每一秒之引擎轉速記錄值(92)與輪軸轉動記錄值(63)。

速度之定義為物體於每秒內所移動之位移，而車輛之位移與輪軸轉動數成正比，因此可將車輛每秒的輪軸轉動記錄值(63)視為「車速資料」，引擎轉速記錄值(92)則視為「轉速資料」。goBack 則是代表車輛去回程，「0」代表去程，「1」代表回程。該路線預設之去程為東南站往台中站。

表 7 行車紀錄器資料格式範例

carid Lng Lat GpsTime Rpm routeno goBack xFrom xTo

211-FM 120.813 24.262 2009/6/2 上午 06:10:20 192:18017,92,63,91,62,86,59; 6505 0 東南台中 211-FM 120.812 24.262 2009/6/2 上午 06:10:35 192:18046,30,0,30,0,29,0; 6505 0 東南台中

表 8 為車輛基本資料格式範例，由此資料可找出本研究所欲選用相同車型之車輛編

在文檔中以數位式行車記錄器資料分析公路客運駕駛行為之研究 (頁 23-0)

第四章 資料分類與駕駛員分群判別

4.1 資料處理

Step 1. 先行計算出每一班次行車紀錄器所紀錄之每秒車速與轉速資料之比值( R )

R

diff

Step 2. 車輛若是處於換檔的狀態，此時的 R

diff

R

diff

Step 3. 資料點不為換檔點時，判定資料點為行駛檔位點或是怠速點。

Step 4. 若資料點不為換檔點亦非怠速點，則可判定為行駛檔位點，紀錄於行駛檔

R

diff

R

diff

R

diff

R

diff

R

diff

R

diff

R

diff

R R

diff

R

diff

4.2 駕駛員行車型態 駕駛員行車型態 駕駛員行車型態定義與群集分析方法 駕駛員行車型態 定義與群集分析方法 定義與群集分析方法 定義與群集分析方法

µ

σ

µ

µ

n σ

4.3 k-means 分群法以及資料正規化 分群法以及資料正規化 分群法以及資料正規化 分群法以及資料正規化

k-means 分群法為分割式分群法中最為熟知，且發展最久的一種方法，且在處理上

4.4 分群結果顯著性分析 分群結果顯著性分析 分群結果顯著性分析 分群結果顯著性分析

4.5 小結 小結 小結 小結

第五章 第五章 第五章

第五章 實例分析 實例分析 實例分析 實例分析

5.1 資料蒐集 資料蒐集 資料蒐集 資料蒐集

第四章資料分類與駕駛員分群判別

4.2 駕駛員行車型態駕駛員行車型態駕駛員行車型態定義與群集分析方法駕駛員行車型態定義與群集分析方法定義與群集分析方法定義與群集分析方法

4.3 k-means 分群法以及資料正規化分群法以及資料正規化分群法以及資料正規化分群法以及資料正規化

4.4 分群結果顯著性分析分群結果顯著性分析分群結果顯著性分析分群結果顯著性分析

4.5 小結小結小結小結

第五章第五章第五章

第五章實例分析實例分析實例分析實例分析

5.1 資料蒐集資料蒐集資料蒐集資料蒐集