第四章 系統建置
4.3 歷史資料處理模組
4.3.1 異常交通資料處理
為了使歷史資料之結構趨於完整,需將異常交通資料去除,並以合理值插補、
取代。而異常資料處理程序係於每日零點隨歷史資料模組執行,於分類上屬於離 線插補法。
由 VD 取得之速率資料約有 18%的資料為異常資料,包括了離群值及漏失值;
產生離群值的主因為偵測器故障,而造成漏失值的主因則多為通訊傳輸中斷;對 於整日 VD 速率異常資料處理邏輯如下:
51
圖 4-2 異常交通資料處理流程圖
設定日期、
路段起迄點
檢驗第 t 時階
移除此時階中 所有「-1」值
計算平均值μ 與標準差σ
平均值<=0
是
以前一時階 的值取代本 時階之值
檢查本時階 各數值Value
Value>=μ+3σ 是 Value =μ+3σ
否
Value<=μ-3σ 是 Value =μ-3σ
對本時階缺漏值 進行線性插補
否
t = 288
否
t = t + 1
End
是
檢查下一數值 設變數 t = 1
52
i. 指定日期、路段起迄點(以各匝道為端點),取得路段內所佈設 VD 之全 日速率資料。資料為五分鐘結算,故定義每五分鐘為一個時階,00:00 為 時階 1,則一日有 288 個時階(23:55 為時階 288),此步驟取得資料為 288*(路段內 VD 組數)個值。
ii. 插補程序針對同一時階資料,配合空間位置(各 VD 設置里程數)插補。
因路段起迄點為匝道,國道一號之匝道密集,各路段之旅行時間通常不 超過五分鐘,意即小於一個時階,故在插補程序中不考慮車輛行駛路段 時跨越時階之情形。
iii. 將該時階中所有漏失值忽略(數值為 0 或-1)。
iv. 計算剩餘數據之平均值與標準差,並將這些樣本視為常態分布,以「三 標準差」做為判斷離群值之準則。意即平均值正負三標準差(
3
) 之外的值即為離群值。v. 將數值過大之離群值(Value >μ + 3σ),以μ + 3σ取代。
vi. 將數值過小之離群值(Value <μ 3σ),以μ 3σ取代。
vii. 將步驟 i 中忽略之漏失值,以線性插補法補值。
viii. 繼續下一時階,回到步驟 iii,直至整日 288 時階完成。
圖 4-3 為整日 VD 速率資料處理實例,為 2011 年 12 月 1 日於后里收費站(里 程數 162)至員林收費站(里程數 218),於異常資料處理程序執行前後之對照圖。
圖中 X 軸為 VD 位置里程數,單位為公里;Y 軸為時階,一日共有 288 個時階,
單位為五分鐘;Z 軸為 VD 速率,單位為公里/小時。
圖 4-3(a)為原始資料,其中包含許多漏失資料,其值為-1,故資料三維曲面 貌似鐘乳石狀,有許多下探負值之點;圖 4-2(b)則為程序處理過後之資料三維曲 面,相對處理前之資料明顯平滑且無下探底部之負值。
53
圖 4-3(a)(b) VD 異常資料處理例
ETC 平均旅行時間資料之異常資料主要為漏失值。因 ETC 資料為五分鐘結 算,但個別收費站並非每個五分鐘期間皆有車輛扣款資料;在沒有車輛通過的時 間段即無資料,視為漏失值。對於漏失值之處理邏輯,因 ETC 收費站空間距離 遙遠,前站與後站之資料對於本站資料之參考意義不明顯,故使用同站資料於時 間維度的線性插補法。
54
圖 4-3 為 2011 年 12 月 1 日早上八點至九點,汐止收費站(里程數 9)至泰 山收費站(里程數 35)結算之平均旅行速度,原始值與線性插補值如圖所示。
圖 4-4 ETC 異常資料處理例