• 沒有找到結果。

異常資料處理模組

第三章 旅行時間預測模式建構

3.1 異常資料處理模組

第三章 旅行時間預測模式建構

本章將對於旅行時間預測模式各模組所採用的演算法進行說明,3.1 節說明 處理漏失資料與離群資料的異常資料處理模組演算法,3.2 節為根據 VD 與 ETC 資料特性所建立的資料融合模組演算法,3.3 節則分別以傅立葉轉換技術與卡曼 濾波法建構旅行時間預測模式,並說明長短期門檻值建立方式以建構複合式旅行 時間預測模式。

3.1 異常資料處理模組

本研究將異常資料分成兩種類型,分別為漏失資料(missing data)與離群資料 (outlier data)。漏失資料指的是車輛偵測器沒有回傳值,造成漏失資料產生的可能 原因有兩種:高速公路監控系統的電力或通訊短暫性故障,或者是偵測器本身損 壞或維修,前者的話漏失資料可能於任意偵測器的任意時間出現,而若是後者漏 失資料則會於特定偵測器長時間的出現;而離群資料指的是回傳的資料異常過大 或異常過小,造成離群資料的原因為偵測器本身具有量測雜訊或誤差。

下圖為 2014/01/03 國道南下全線的 VD 五分鐘速度分布情形,可以看出許多 VD 全天或部分時階沒有回傳值,交通資料的漏失比例約為 25%,因此在如此高 的資料漏失比例下若沒有事先進行異常資料處理,將會造成旅行時間預測模式的 績效降低以及使程式無法繼續運行。

圖3-1 2014/01/03國道南下全線VD速度分布圖

32

z 分數(z-score)為衡量特定資料點於整筆資料中的相對位置量數,其定義為 當有一筆母體資料

X1,X2,,XN

或樣本資料

X1,X2,,Xn

,其中第

i

個資料點

33

倍標準差的位置。z-score 可以做為簡便的離群值偵測方法,判斷方式為 z-score 小於-3 或 z-score 大於 3 的資料點可以視為離群值,而本研究將以 z-score 篩選出 離群值並以合理值取代。

3.1.3 異常資料處理流程

綜合上述,本研究將採用線性插補以及統計學中的 z 分數作為資料處理模組 的核心演算法,分別處理異常資料中的漏失資料與離群資料,以下針對旅行時間 預測模式中會使用到的速度與流量資料進行異常資料處理流程說明,其中由於偵 測器所回傳之流量不具有離群資料問題,因此僅以線性插補法彌補缺漏值。

移除漏失值

計算平均值μ 與標準差σ

計算離群值界線

將速度做離群值處理

速度漏失值處理 流量漏失值處理

圖3-3 異常資料處理流程

由於國道兩相鄰交流道之間的距離較短,車輛行駛於兩交流道所需花費的旅 行時間通常不超過五分鐘,車輛於兩相鄰交流道間被不同佈設位置的車輛偵測器 所偵測到的交通參數(速度、流量等)通常會被記錄在同一個更新週期(五分鐘)中,

因此根據上述考量可以將路段區間中所有車輛偵測器相同時階的速度值視為一 個資料處理群體,而異常資料處理流程說明如下:

步驟一:將此資料群體中所有的漏失值(數據為 0 或-1)移除 步驟二:計算剩餘資料的平均值

與標準差

34

步驟三:以「平均值正負三個標準差(

 

3

 

)」作為離群值的判斷標準,不 在此界線範圍內的資料點皆視為離群值。

步驟四:將高於限制上界(平均值加三倍標準差,

 

3

 

)的離群值以限制上 界取代;低於限制下界(平均值減三倍標準差,

 

3

 

)之離群值以 限制下界取代。

步驟五:將步驟一的速度漏失值和流量漏失值以線性插補法補回