• 沒有找到結果。

資料前置處理

第四章 實例分析

4.2 資料前置處理

通常在資料收集步驟所收集到的資料都是無法直接使用,大部份的時候所取得的原 始資料是非常雜亂且不完整或是需要經過整理才有辦法分析,因此資料的前置整理是非 常重要的一個步驟,若是資料整理的品質不佳,將會大大影響後續分析的效果。

4.2.1 資料刪除

研究客運之資料之後,發現有些駕駛記錄的速度與轉速欄位為-1或是速度為負值之 資料,由於駕駛資料的完整度受到了GPS系統或是天氣的影響,有時會有斷訊、收訊不 佳、GPS當機的狀況,當未接收到訊號時,此筆記錄的速度與轉速即為-1,因此並不是 所有的資料皆可使用,因此在資料使用前必頇先將這些不完整的資料去除。要刪除之範 例如下表

表4.3 不完整資料範例

回傳時間 車號 駕駛員代碼 緯度 經度 速度 轉速 車型 2009/10/8 下午

10:39:26 608 09709008 90207 437194 -1 -1 SCANIA 2009/10/8 下午

10:39:39 608 09709008 90207 437194 -1 -1 SCANIA 2009/10/12 下午

05:59:37 696 09409019 87128 434341 -68 1388 SCANIA

4.2.2 行車記錄資料篩選

本研究主要目的為運用資料探勘技術於駕駛行為資料,藉以辨別駕駛員之換檔行 為,因此為了排除車型不同所可能造成的影響,本研究只針對車型為SCANIA之資料做探 討,資料範圍縮小為100部車輛及185位駕駛員。另外為了資料處理方便,將原始的駕駛 行為資料依駕駛員代碼分別建立個別資料表。

表4.4 駕駛員個別資料表範例

回傳時間 車號 駕駛員代碼 速度 轉速 車型 2009/10/7 下午

03:50:40 677 09503024 20 531 SCANIA 2009/10/7 下午

03:43:37 677 09503024 42 1086 SCANIA 2009/10/7 下午

03:48:32 677 09503024 34 839 SCANIA 2009/10/7 下午

03:46:38 677 09503024 38 1000 SCANIA 2009/10/7 下午

03:04:13 677 09503024 48 1202 SCANIA 2009/10/7 下午

03:04:13 677 09503024 48 1214 SCANIA 2009/10/7 下午

03:04:20 677 09503024 44 1136 SCANIA

4.2.3 駕駛員資料篩選

本研究所使用之檔位分群模式主要是利用資料點間的疏密程度作為分群之依據,因 此當資料點過少時會因為資料點不夠緊密而無法確切的分別出個別檔位。因此本研究觀 察所收集之資料,發現車載裝置資料少於 15000 筆時,所繪出之檔位關係圖之檔位較不 明顯(如圖 4.1),因此本研究將車載裝置資料少於 15000 筆之駕駛員不予考慮。

圖4.1資料點不足之檔位關係圖範例

另外部分駕駛員之車載裝置資料之速度與轉速資料全數為 0 之駕駛員也不予列入考 慮。因此資料點不足之駕駛員為 83 人,而速度與轉速資料皆為 0 之駕駛員總共為 6 人,

最後本研究所探討之駕駛員為 96 人。

4.2.4 資料標準化

資料標準化的主要目的是將不同標準之下所記錄之資料轉換到同一個標準,以便提 高分析時的準確度。本研究所運用之資料為轉速與速度做為分群之因子,為了避免在分 析時因其數據之單位不同而造成某一因子對分群的影響甚距,進而誤導分群之結果,因 此在進行資料分群前,先將轉速與速度因子標準化,以去除單位不同所帶來的影響,轉 速與速度標準化後之資料如表 4.5。標準化公式為統計上常用之 z 值,公式如下:

XZ 其中

X 為需要被標準化的原始分數 σ為母體的標準差

μ為母體的帄均值

表4.5 資料標準化後之駕駛員個別資料表範例 回傳時間 車號 駕駛員代碼 速度 速度

標準值 轉速 轉速

標準值 車型 2009/10/2 上午

12:26:04 677 09503024 0 -1.58859 524 -1.24904 SCANIA 2009/10/2 上午

12:27:34 677 09503024 0 -1.58859 543 -1.20962 SCANIA 2009/10/2 上午

12:29:04 677 09503024 0 -1.58859 555 -1.18472 SCANIA 2009/10/2 上午

12:30:34 677 09503024 0 -1.58859 540 -1.21585 SCANIA 2009/10/2 上午

12:44:04 677 09503024 0 -1.58859 621 -1.04778 SCANIA 2009/10/2 上午

12:45:34 677 09503024 0 -1.58859 533 -1.23037 SCANIA 2009/10/2 上午

12:47:04 677 09503024 0 -1.58859 535 -1.22622 SCANIA 2009/10/2 上午

12:48:34 677 09503024 0 -1.58859 555 -1.18472 SCANIA 2009/10/2 上午

12:50:04 677 9503024 0 -1.58859 531 -1.23452 SCANIA 2009/10/2 上午

12:51:34 677 9503024 0 -1.58859 568 -1.15775 SCANIA 2009/10/2 上午

12:53:04 677 9503024 2 -1.53895 575 -1.14323 SCANIA 2009/10/2 上午

12:54:34 677 9503024 0 -1.58859 562 -1.1702 SCANIA 2009/10/2 上午

12:56:04 677 9503024 0 -1.58859 531 -1.23452 SCANIA 2009/10/2 上午

12:57:34 677 9503024 0 -1.58859 555 -1.18472 SCANIA 2009/10/2 上午

12:59:04 677 9503024 0 -1.58859 555 -1.18472 SCANIA 2009/10/2 上午

01:00:34 677 9503024 0 -1.58859 531 -1.23452 SCANIA 2009/10/2 上午

01:02:04 677 9503024 0 -1.58859 531 -1.23452 SCANIA

相關文件