k-NN 預測交通資訊相關文獻

第二章文獻回顧

2.2 k-NN 預測交通資訊相關文獻

最近鄰分群法(Nearest Neighbor classification)是一個廣為使用的一套分群方法，在已知分群的數量下，將類似的樣本分類至同一分群中。

k 最近鄰法(k-Nearest Neighbor Method，k-NN Method)並非為一套分群

方法，而是一種利用比較歷史資料與即時資料，找出擁有相同特性的資料的方法。最初是由 Benedetti(1977)[24]、Stone(1977)[25]及 Tukey(1977)[26]

這些學者提出了近鄰法(nearest neighbor method)的概念發展而來。這些學者利用一元位置估計(Univariate Location Estimators)，建立了無母數迴歸式的模型，進而引申出最近鄰法的概念，可以利用輸入的資訊找尋出與資料庫中最相似的資料。Altman(1992)[27]將以上的研究進行整理，將一元位置估 計引申至多元位置估計(Multivariate Location Estimators)並且提出了 k-NN 法，該方法將歷史資料區分群，再將輸入資料與之前的歷史資料相比對，

比對出該資料與那一個分群較為類似，即可用歷史資料推估資料。

而 Gary 等人(1991)[28]利用迴歸模型的概念，延伸出無母數迴歸的模型以預測資訊。首先利用一階自迴歸模型(first-order autoregressive system)整理出如何在利用單變數建立模型

x ' ( t )  b  x ( t )  e ( t )

，並利用該公式以推估資料。

其中 b 代表自迴歸之相關係數，而 e(t)代表獨立、常態分佈且平均為零 之隨機變數。在利用最小均方差(minimum mean-squared error, MMSE)的方 法求出自變數與應變數間最接近的解以預測資料，發現當 e(t)=平均數=0 時，

可以得到最小均方差的模型

x ˆ ' ( t )  b  x ( t )

可以利用自變數而得到最佳的預測。

然而在多變數下，由於

e (t )

的平均值受多變數的影響而不再為零，因此將由最小均方差的方法為找出與實際值最接近的歷史資料做為預測值，公式如下：Minimize Q = x^′ t − x t ² = x^′ t − x t . (x^′ t − x t )′

因此 k-NN 的方法均詴著找出最小的平方差做為預測結果。

Smith、Demetsky(1997)[29]對 k-NN 法進行績效評估，分析比較以下四 種交通流量的預測方法：歷史平均法，時間序列法、類神經網路法與 k-NN 法。評估的方法為利用歷史的流量資料預測未來的流量再和實際值做比對，

判斷那一個方法的績效較差，結果發現當歷史資料大時，k-NN 法所預測的 誤差結果比其他三種方法所得到的結果誤差來得小，因此利用 k-NN 針對流 量進行預測是可行的，比較誤差率的結果為迴歸 9.57%，時間序列為 9.03%，

類神為經 8.93 而 k-NN 為 7.54%。因此 k-NN 法有較佳的預測能力。Smith、

Williams 以及 Oswald(2002)[30]將權重(Weight)的想法加入 k-NN 的模型，考 慮目前的流量可能會與先前的交通流量有關係，但是隨著時間距離的增加，

其影響的程度愈小，所以利用權重的方法進行修正，將不同時間所造成的影響納入考慮。

Clark(2003)[31]除了流量外，詴著利用 k-NN 法詴著針對其他可蒐集到 的交通資訊進行預測，如速度和佔有率。接著進行一一分析和交叉分析，

結果發現當同時利用流量、佔有率和速率這三項變數進行分析時，所得到的預測值相對於個別比對而言，誤差有下降的現象，所以愈多變數進行討論可以得到更精確的結論。接著 Rice、Zwet(2004)[10]希望可以預測出旅行時間，利用流量、佔有率推估該路段之速率，並由該速率資訊得到旅行時 間資料庫。因此可以由估計得之旅行時間應用 k-NN 法以推估下一時段旅行 時間。

Robinson、Polak(2005)[32]提出了四點建立 k-NN 模型時應該先設定的 條件。

1.決定模式中的特徵向量。

2.利用加權法減少 k-NN 模式的誤差。

3.設定距離量度(distance metric)。

4.決定判斷類似樣本的數量。

Chang 等人(2006)[33]提出 k-NN 法需要加入門檻以提升預測績效，加入 的門檻為以下兩種類型。

1. 交通資訊門檻

設定交通資訊的上下界門檻，當交通擁擠或流量很少下，所對應的交通情形相差不大，因此當交通資訊超過上下界時，即以上下界資訊為當時之資訊。

2. 比對時間門檻

當道路開始擁塞或擁塞逐漸解除期間，可能會對應著相同的交通資訊，

然而其代表的意義並不相同，因此這兩種期間所對應的旅行時間也不會相同。故為了避免進行比對時，將這兩種情形都同時考慮，因此加入了時間的門檻，避免在比對時發現早上的交通資訊與某一歷史傍晚的交通資訊相類似而提高預測的誤差。

在文檔中高速公路旅行時間預測-以k-NN法及分群方法探討 (頁 21-24)

第二章 文獻回顧

2.2 k-NN 預測交通資訊相關文獻

x ' ( t )  b  x ( t )  e ( t )

x ˆ ' ( t )  b  x ( t )

e (t )

第二章文獻回顧