模式建立

第三章研究方法

3.2 模式建立

本研究之分析方法為藉由駕駛員之檔位選擇行為區隔駕駛員之異同，並判別駕駛員之換檔行為。為達到此目的，本研究將分析模式分為三個階段，分別為檔位分群模式、

駕駛員分群模式以及換檔行為評估模式。

首先資料中若未包含檔位資訊，則需將資料點依其轉速與速度關係分配至應屬之檔位，才能做後續駕駛員之檔位選擇行為分析，因此檔位分群模式主要是辨別駕駛者之行車記錄資料點的檔位分配。

接著駕駛員分群模式則依據資料點之檔位分配數據做駕駛員分群，根據先前所述，

不同的檔位選擇會對應不同之車速與轉速，因此根據此特性計算各個駕駛員在各檔位的速度使用分配比例，並以此數據區隔具有不同換檔習慣之駕駛員。

最後，換檔行為評估模式則是探討駕駛員分群後之群集特性，換檔行為之特性分為延遲換檔與提前換檔兩種，此模式依據駕駛員各速度區間下檔位之使用比例，先找出駕駛員之慣用檔位，並將此檔位作為判斷群集之換檔行為為延遲或提前之標準。

3.2.1 檔位分群模式

此模式為辨別駕駛者之行車記錄資料點的檔位分配，檔位分群之資料如圖3.2為類斜線之圖形，而大部分的分割式分群法或是階層式分群法，均是基於資料點間或群集間的距離來分群，只能找出類圓形和群集大小相似的群集，對於任意形狀的分群效果就不太好。而密度導向分群法可以依資料點的緊密程度分群，不必局限於類圓形的圖形來分群，圖3.2中各檔位的形狀為類斜線且資料點密集度很高，因此本研究認為密度分群法為較適合為檔位分群之辦法，資料點間之距離以尤拉距離做為計算公式。其演算法如下：

a. 選擇適當之Eps與Minpts參數進行DBSCAN分群。

b. 假設駕駛員駕駛之車種有N個檔位，先選擇某一區間之轉速做為分群之範圍，將速度切割為N個不同的速度區間，對資料做DBSCAN分群，並選擇各速度區間中個數最多之群集。如圖3.6，先利用紅色方框包圍住之轉速區間做為分群之範圍，並將速度區間分為藍色方框所包圍的6個區間，對此6個區間做DBSCAN分群，因每個速度區間分群後之群集個數不一，選擇群集集合中個數最多之群集，如圖3.7紅色圓框部分。

圖3.6 轉速與速度區間選擇範例(以6個檔位為例)

圖3.7 各個速度區間分群後之群集範例(以6個檔位為例)

c. 將步驟b所得到之N個分群做迴歸分析，並將此N個迴歸式視為重新分群之依據(如表3.1)。

表3.1 各區間之群集迴歸式(以6個檔位為例)

檔位迴歸式

1 Y¹=-3.482+0.019X¹ 2 Y2=0.038+0.038X2

3 Y3=0.307+0.025X3

4 Y⁴=1.805+0.063X⁴ 5 Y⁵=2.661+0.07X5

6 Y6=6.091+0.086X6

(X為轉速，Y為速度)

d. 所得之N個迴歸式皆為直線(如圖3.8)，並不足以代表檔位上所有之資料點，因此本研究另設定一參數R，限制此迴歸式之影響範圍，將迴歸式周遭的資料點也包含在內，使每個資料點分配至最近且距離小於R之迴歸式。舉例來說，假設R為5，現有一資料點之轉速與速度為800與60，將轉速代入表 3.1之6個檔位迴歸式得Y¹=11.718，Y2=30.438，Y3=20.307，Y4=52.205，

Y5=58.661，Y6=74.891，其中與實際速度(60)最相近之迴歸式為Y5，且此資料點與迴歸式之距離(60-58.661=1.339)小於5，即可將此資料點分配至檔位 5，以此類推，將所有資料點分配後可得結果如圖3.9。

圖3.8 群集之迴歸線(以6個檔位為例)

圖3.9 迴歸式分群之結果

3.2.1.1 檔位分析之參數選擇

DBSCAN利用Eps與Minpts二個參數來代表核心物件的鄰近範圍與成為核心物件之資料數門檻值，此兩者參數皆會影響分群的效果，因此如何設定Eps與Minpts參數是DBSCAN 最大的難題，通常的解決辦法是測試不同的參數組合重複執行多次，以求找出適當可接受的分群結果。

正常狀況下，代表檔位的六條迴歸式並不會有交錯的情況，但當參數不適當時，則可能使得分群所輸出之檔位迴歸式無法代表其檔位，而與其他迴歸式產生交錯的現象，

一旦迴歸式產生交錯，資料點的檔位歸屬則會產生錯誤的分配。

Minpts 參數主要代表是否能成為核心物件之資料數門檻值，如設定太大，能成為核心物件的資料點就會較少，產生的分群也會較少，雖然求得之分群的資料點會較密集，

但可能造成所選擇的最大群集範圍過小(如圖 3.10 的紅色圓框所示)，使得所求得之迴歸式無法正確代表其檔位，造成迴歸式交錯的現象。圖 3.11 為將圖 3.10 所選擇之分群做迴歸分析之結果，從圖 3.11 中可看出 1 檔與 2 檔的檔位迴歸式交錯使得位於交錯位置的資料點無法正確分配至 1 檔或是 2 檔，甚至會產生原是 1 檔的資料分配至 2 檔，2 檔的資料分配至 1 檔的結果。

當 Eps 參數設定值太小時，可直接可達(directly density-reachable)之資料點也會變少，使得能成為核心物件之資料點也會變少，此時會與 Minpts 參數設定太大一樣，

可能造成資料分群過於密集，而使得所選擇的最大群集範圍過小(圖 3.10)，導致所選擇之迴歸式無法正確代表其檔位，造成迴歸式交錯的現象(圖 3.11)。

圖3.10 Eps參數過小或Minpts設定過大所選擇之6個群集範例

圖3.11 Eps參數過小或Minpts設定過大之迴歸式分群結果範例

而 Eps 參數設定值太大，使得每個資料點可直接可達(directly

density-reachable)、可達(density-reachable)以及連接(density-connceted)的範圍變大，可能使不同檔位的資料點歸屬於同一群，而造成分群的誤差，如圖 3.12 中有些位於 6 檔之資料點被分到 5 檔。分群一旦有誤差，所產生的迴歸式也就無法正確代表其檔位，圖 3.13 為將圖 3.12 所選擇之分群做迴歸分析之結果，從圖 3.13 中可看出 5 檔與 6 檔的檔位迴歸式交錯，使得部分 6 檔之資料點分到 5 檔。

圖3.12 Eps參數過大所選擇之6個群集範例

圖3.13 Eps參數過大迴歸式分群結果之範例

為了避免參數過大或是過小而造成分群檔位無法清楚切割，本研究建議使用一系列不同的參數值代入後，觀察分群所輸出之檔位迴歸式是否相互交錯做為是否正確分群之判斷依據，只要其中任兩條迴歸式交錯即代表分群過程中所選擇之群集不足以代表其檔位，因此只要出現任兩條迴歸式交錯即判定分群失敗，失敗的比例愈低代表分群的結果愈好，藉以代入不同的參數，選擇失敗比例最小之參數，做為較適當之 Eps 參數值。

最後參數R 的設定大小將會影響納入各別檔位的資料點個數，設定值太大，當低檔位的資料較為密集時，可能會將過多的檔位轉換資料點也納入群集，如圖 3.14 中 1、2 檔就因參數設定過大使得兩檔中間所有轉換時之資料點皆被分到 1 檔或 2 檔，此結果可能使後續分析時資料干擾值太多而導致結果不正確。反之，設定值較小時則較不會納入過多非位於檔位上之資料點，但還是應避免參數值過小造成包含於影響範圍中之資料數不夠(如圖 3.15)，因此本研究同樣代入不同之參數值藉以避免選擇過大之參數值。

圖3.14 R參數過大之分群結果之範例

圖3.15 R參數過小之分群結果之範例

3.2.2 駕駛員分群模式

檔位分群之後依據駕駛員在各檔位於速度區間的分配情況做分群，以判別駕駛員之行為之差異。吳明隆「SPSS統計應用實務」(民89)中提到當觀察值的個數在200個以上，

以採用K-帄均法較為適宜，反之，則可使用階層式分析法，因本研究之觀察個數最多不超過200，因此選擇階層式分群法做為分群的方法。駕駛員分群方法如下：

(1) 計算駕駛員之檔位分配比例。表3.2代表某位駕駛員在各速度區間與檔位下的檔位分配比例，第一欄代表速度區間，第二欄為檔位，第三欄為檔位比例，檔位比例為速度區間的檔位次數佔同檔位總次數的比例，比如說檔位為1時，速度區間為0-10的檔位比例為48/(48+83)=0.37，代表駕駛員在1檔時，有0.4左右的比例使用速度區間0-10，0.6左右使用10-20的速度區間。依此類推，即可得到此駕駛員在行駛時的檔位與速度的分配情形，可看出1檔時較常使用10-20 的速度區間，2檔時速度區間為10-20與20-30的使用比例差不多，3檔時較常使用的區間為30-40，以此類推。

表3.2 檔位分配資料表範例速度區間

(km/h) 檔位檔位比例次數 0-10 1 0.37 48 10-20 1 0.63 83 10-20 2 0.48 113 20-30 2 0.51 119 30-40 2 0.01 1 10-20 3 0.01 5 20-30 3 0.4 143 30-40 3 0.54 195 40-50 3 0.05 18 20-30 4 0.01 2 30-40 4 0.22 99 40-50 4 0.52 237 60-70 4 0.01 4

(2) 利用步驟1可求得各個駕駛員之檔位分配數據(表3.3)，由表中可發現駕駛員在各速度區間下的檔位使用比例並不相同，本研究期望能將駕駛員分為延遲換檔與提前換檔兩種，因此利用階層式分群法根據使用比例之差異將駕駛員分為二群，藉以區別不同習慣之駕駛員，並將相似之駕駛員分為同一群。

表3.3 司機檔位之分配比例數據範例(區間切割值=10) 速度

區間 (km/h)

駕駛員代碼

檔位 A B C D E F G H

0-10 1 0.74 0.42 0.37 0.65 0.61 0.48 0.46 0.46 10-20 1 0.26 0.58 0.63 0.35 0.39 0.52 0.54 0.54 0-10 2 0.02 0.00 0.00 0.02 0.02 0.00 0.02 0.01 10-20 2 0.80 0.76 0.42 0.54 0.65 0.63 0.58 0.55 20-30 2 0.17 0.24 0.58 0.44 0.33 0.37 0.40 0.44 10-20 3 0.07 0.04 0.01 0.02 0.02 0.03 0.02 0.04 20-30 3 0.50 0.56 0.27 0.36 0.43 0.32 0.43 0.43 30-40 3 0.43 0.40 0.61 0.59 0.53 0.64 0.54 0.50 40-50 3 0.00 0.00 0.11 0.03 0.02 0.02 0.01 0.03 20-30 4 0.01 0.02 0.02 0.01 0.02 0.01 0.02 0.01 30-40 4 0.42 0.35 0.12 0.17 0.24 0.16 0.24 0.25 40-50 4 0.47 0.53 0.53 0.57 0.51 0.48 0.54 0.51 50-60 4 0.09 0.10 0.32 0.25 0.22 0.34 0.19 0.22 60-70 4 0.00 0.00 0.02 0.00 0.01 0.00 0.01 0.00 70-80 4 0.01 0.01 0.00 0.00 0.00 0.00 0.01 0.01 30-40 5 0.13 0.05 0.03 0.03 0.03 0.02 0.03 0.05 40-50 5 0.53 0.31 0.12 0.17 0.14 0.17 0.20 0.14 50-60 5 0.30 0.41 0.25 0.24 0.22 0.27 0.39 0.27 60-70 5 0.03 0.22 0.54 0.55 0.50 0.52 0.35 0.48 70-80 5 0.01 0.00 0.06 0.01 0.11 0.03 0.02 0.04 80-90 5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 60-70 6 0.16 0.06 0.17 0.02 0.24 0.20 0.14 0.15 70-80 6 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.00 80-90 6 0.01 0.01 0.01 0.00 0.01 0.00 0.01 0.01 90-100 6 0.14 0.10 0.07 0.09 0.07 0.09 0.08 0.07 100-110 6 0.29 0.23 0.27 0.31 0.23 0.26 0.27 0.22 110-120 6 0.40 0.59 0.48 0.57 0.45 0.44 0.50 0.55

群集相似度公式使用帄均連結法，利用尤拉距離計算群集間資料點之帄均距離，挑選最近之兩群集合併，各群集之距離如表3.4。

表3.4 各群集距離之範例

駕駛員代碼 A B C D E F G H A 0 0.341 1.283 0.739 0.562 0.801 0.559 0.719 B 0.341 0 0.660 0.488 0.344 0.404 0.156 0.267 C 1.283 0.660 0 0.244 0.307 0.135 0.212 0.131 D 0.739 0.488 0.244 0 0.108 0.127 0.171 0.122 E 0.562 0.344 0.307 0.108 0 0.095 0.130 0.086 F 0.801 0.404 0.135 0.127 0.095 0 0.108 0.074 G 0.559 0.156 0.212 0.171 0.130 0.108 0 0.043 H 0.719 0.267 0.131 0.122 0.086 0.074 0.043 0

群集中距離最近之兩群集為G、H，合併G、H之後重新計算合併後群集與其他群集之距離，重新得到各群集之距離如表3.5。而表3.5中距離最近之群集為F與G,H兩群集，因此再將F、G、H合併為一群，以此類推，最後可得到一二元樹如圖3.16。

表3.5 第一次合併後各群集距離之範例

駕駛員代碼 A B C D E F G,H A 0 0.341 1.283 0.739 0.562 0.801 0.639 B 0.341 0 0.660 0.488 0.344 0.404 0.211 C 1.283 0.660 0 0.244 0.307 0.135 0.171 D 0.739 0.488 0.244 0 0.108 0.127 0.147 E 0.562 0.344 0.307 0.108 0 0.095 0.108 F 0.801 0.404 0.135 0.127 0.095 0 0.091 G,H 0.639 0.211 0.171 0.147 0.108 0.091 0

圖3.16 階層式分群示意圖

本研究根據使用需求將駕駛員分為二群，由圖3.16最後合併的步驟可知分群之結果如表3.6：

表3.6 階層式分群結果之範例

群集 1 A、B

群集 2 C、D、E、F、G、H

3.2.3 換檔行為評估模式

分群後必頇評估分群的結果，分析其群集特性，判斷那些群集具有延遲或提前換檔行為之駕駛員。其評估步驟如下：

(1) 計算各群集之間的駕駛員在各速度區間內檔位的使用比例與帄均值。如表 3.7代表A、B、C、D、E、F、G、H，八位駕駛員在速度區間10-20下1、2、3 檔的使用比例，檔位4、5、6在此速度區間之使用比例皆為0，所以不予表示。

表3.7 檔位使用比例資料表之範例

在文檔中國道客運駕駛員換檔行為之研究 (頁 28-40)

第三章 研究方法

3.2 模式建立

第三章研究方法