• 沒有找到結果。

第二章 文獻回顧

2.2 漏失資料插補

資料漏失的普遍認知為:在現實中實際存在的資料,因資料蒐集或測量過程 中發生內部或外部失誤,造成後端蒐集結果具有漏失現象,即稱為資料漏失。

例如車輛偵測器感應通過其上之車輛,測量各項數值,並定期傳送資料回交 通控制中心,將資料寫入中心資料庫紀錄。但若因通訊中斷無法傳輸資料,或是 偵測器故障無法正常蒐集資料,皆會導致中心資料庫裡沒有寫入該筆資料,造成 資料漏失。

J.W.C van Lint 等人於 2003 年,根據荷蘭高速公路控制中心蒐集之資料歸納 出三種造成資料漏失的狀況:通訊或電力中斷(incidental failures)、偵測器故障

(structural failures)以及偵測器偵測誤差(intrinsic failures)。

現今關於車輛偵測器的漏失資料插補研究大致可區分為兩類:離線插補

(Offline interpolation)以及線上插補(Online interpolation)。以下將依據此兩類 型整理相關文獻並回顧之。

2.2.1 離線插補

離線插補為系統觸發其結算期(通常為每日結算),對當日資料存在遺漏值 之時階進行補值,使得資料庫於結算完畢後能完整呈現出當日時階資料序列。目 前已被發表關於漏失資料插補的研究中,大多數使用離線插補,現今離線插補技 術趨勢為兩階段資料處理:第一階段為資料分群,根據資料型別、特性或是其他 映射方式進行分類,找出相關性最大之群組;第二階段為資料插補,依據分群後 之資料特徵,採用各式演算法進行漏失值推估。

Gold et al.(2000)第一階段選用期望最大值演算法(Expectation Maximization Algorithm, EM ) 做 為 車 輛 偵 測 器 之 分 群 技 術 ; 第 二 階 段 採 用 多 項 式 迴 歸

(Polynomial Regression)與核迴歸(Kernel Regression)針對偵測器 5 分鐘與

13

15 分鐘車流量與佔有率進行插補。實驗結果顯示,預先使用期望最大值演算法 之資料分群處理,對插補績效具有顯著的效果。

Chen et al. ( 2001 ) 於 兩 階 段 處 理 中 , 第 一 階 段 以 自 組 織 映 射 圖

(Self-Organising Map, SOM)將資料(車流量、速率、占有率)進行分群;第二 階段 採用自我迴歸移 動 平均法 (Autoregressive Integrated Moving Average, ARIMA)與兩種類神經網路-多層感知器(Multi-Layer Perception, MLP)和輻狀 基底函數類神經網路(Radial Basis Function Network, RBFN)進行插補。實證結 果顯示,SOM/ARIMA 插補績效明顯優於 SOM/MLP 與 SOM/RBFN。

Smith et al.(2004)於資料分群上採用道路服務水準進行分類,並建立出歷 史平均資料庫,同時將相鄰車道與上下游偵測器資料賦予不同資料權重值;第二 階 段 採 用 漏 失 資 料 發 生 的 前 後 一 筆 資 料 之 平 均 值 , 以 啟 發 解 法 ( Heuristic Techniques)、期望最大值演算法和資料擴增(Data Augmentation, DA)三種方法 進行分析,其中資料擴增法的插補績效優於其他兩者。

Huang and Lee(2004)以灰關聯最鄰近法(Grey-based Nearest)作為分群技 術;第二階段再以 k 最鄰近(k nearest neighbors, k-NN)法、多值插補法(Multiple Imputation)與均值替代法(Mean Substitution)進行資料補償。實證結果發現,

k-NN 法優於其他兩者,同時指出良好的分群技術可提升插補績效。

Li et al. (2009) 於第一階段處理採用主成分分析法(Probabilistic Principal Component Analysis, PPCA),對市區幹道之 50 個偵測器之歷史資料進行分析,

擷取關聯性最高之歷史資料;第二階段則選用最大概似法(Maximum Likelihood Estimation , MLE)對漏失值進行插補,分別與最鄰近歷史資料(nearest historical)和平均值與迴歸分析法進行比較。結果發現,以經由主成分分析法之 分群處理可大幅提高資料準確程度。

邱孟佑與汪進財(2010)藉由資料採集技術與統計迴歸分析建構一套高速公 路旅行時間的預測模式。此模式蒐集之資料包括線圈偵測器(VD)與電子收費

14

系統(ETC)之歷史資料。首先對線圈偵測器之歷史資料進行插補,插補程序以 集群分析方法對每個線圈偵測器之歷史資料作交通狀態分類處理,再根據某偵測 器所代表之次路段結合整體路段 ETC 之旅行時間來建立整體迴歸關係,並依照 不同遺漏時窗多寡來選用不同插補方法,如歷史均值法、移動平均法(MA)、分 類迴歸樹(CART)。接著,以 ETC 車輛通行於收費站間之通行資料所計算出之 旅行時間,作為旅行時間預測模式之校估依據。模式結果顯示其有相當良好之預 測能力。

林鈺翔(2010)探討使用偵測器關聯之時間、空間資料插補漏失值,欲尋求 最佳漏失資料插補組合。此研究第一階段使用 K-means 將偵測器資料分群,再以 回饋式類神經網路針對流量、速率及佔有率進行漏失值插補績效實證分析。

許程詠(2011)使用灰預測理論不需符合統計分配的優點發展漏失值插補方 法。此研究比較灰預測法 GM(1,1)和最小循環式殘差修正法(Minimum Recursive Residual GM(1,1), MRRGM(1,1))在不同資料遺失比例和不同遺漏情境下的插補 結果。實驗結果顯示當遺失比例高和插補次數多時,插補法 MGGRM(1,1)之插補 績效可優於 GM(1,1)法。

2.2.2 線上插補

Peeta 及 Anastassopoulos(2002)導入頻率分析技術的傅立葉轉換,偵測並 修正連線式交通控制系統中的錯誤資料,其利用歷史資料以及漏失資料發生當時 稍早的當日資料,發展具強健性(Robust)的插補方法,供即時交通控制系統能 逐分地預測交通參數,包含流量、速率及佔有率,並在交通參數發生錯漏時即時 進行補償;但根據 Huang(1998)等人的研究指出,Peeta 和 Anastassopoulos 等 人研究成果是將一連串的訊號經由傅立葉轉換所得之頻域資料,並無法展現訊號 頻率或能量隨時間變化的關係,故應用於非線性系統的訊號分析時,難以察覺短 暫且突然的頻率改變對系統所發生的影響。況且,動態系統所需之短期交通量資

15

料的時間序列常具有非線性或是混沌的特性,故傅立葉轉換在處理即時交通控制 系統突然且短暫發生少數漏失資料時,可能難以即時察覺並加以補救。此外,

Peeta and Anastassopoulos 的研究並未進一步廣泛地探討不同漏失比例或長時間 接連發生漏失資料之插補問題。

J.W.C van Lint 等人(2005),使用 state-space neural network(SSNN)進行 資料插補來預測短期旅行時間,使用 FOSIM 模擬與實際車流資料來進行資料漏 失下之插補績效評估,FOSIM 模擬路段長度 8.5km,切分為 12 區段,偵測器收 集之數據有速度、流量,每分鐘結算此區段偵測器之數據,類神經網路初始化變 數為 228 個,在資料漏失比率為 40%下,使用類神經網路結合移動平均法(Moving Average),其 RMSEP 為 9%,在實際車流應用上,在荷蘭 A13 公路上的 Rotterdam Airport 至 Rijswijk,全長 13 公里,每 500 公尺設置感應線圈量測速度、流量。

張堂賢、黃宏仁(2008)利用歷史平均資料、傅立葉轉換平均資料、α-β-γ 濾波器結合歷史平均資料、α-β-γ 濾波器結合傅立葉轉換平均資料等四種方法進 行資料漏失插補,在漏失資料比例為 20%以下,使用 α-β-γ 濾波器結合歷史平均 資料、α-β-γ 濾波器結合傅立葉轉換平均資料進行插補,明顯提升插補績效,同 時使用α-β-γ 濾波器具有考量歷史資料及漏失資料發生時稍早的資料走勢,且能 進行線上即時插補之優點。

16

17