k-NN 參數設定

第四章旅行時間預測模式介紹

4.2 k-NN 參數設定

由 2.2 節文獻回顧中，學者 Robinson 和 Polak(2005)將 k-NN 方法進行實 作提出如果要建立一個準確的 k-NN 模式，首先要先決定以下這四個要素：

1、決定模式中的特徵向量。2、決定判斷分群的樣本數量。3、利用加權法 減少 k-NN 模式的誤差。4、設定距離量度(distance metric)。因此以下將針 對這四點進行一步說明。

1. 決定模式中的特徵向量。

k-NN 的目標是在找尋最接近即時資訊的歷史資訊，本計畫利用偵測器 即時可收集到的資訊(流量、速率)做為特徵向量，由這些特徵進行比對，找出與即時資訊相類似的歷史資訊。

2. 利用加權法減少 k-NN 模式的誤差。

由於本計畫將同時比對流量與速率資訊的差異，由於這兩個變數的單位不一致，所以需要再設定權重以減少因單位差異而造成的誤差。本研究希望在尖鋒時刻下仍具有相當的準確率，因此以尖鋒時刻通過各偵測器之平均流量與平均速率做為權重設定的判斷方式。

由於速率和流量單位的差異，而且平均流量較平均速率較大，因此流量的變化也隨之較大，因此若未設定權重，可能速率變化沒有流量的變化來的大，而忽略了交通異常的發生，並且也可能在類似交通樣本的判定上發生誤差，因此需要設定權重值。而根據 Clark(2003)所提出權重的設定方法，

將利用尖鋒時刻的平均速率及流量進行標準化。假設在尖鋒時段下平均五分鐘流量約為每五分鐘 500 輛汽車，而平均速率約為每小時 70 公里。權重的設定為平均流量乘上 1/500 而平均速率為乘上 1/70，將標準化後的歷史資訊與即時資訊進行比對，以找出較類似於即時資訊之歷史資訊。

舉例來說：若即時速度及流量為 80、200，而有兩筆歷史資訊，分別為 90、200 及 80、250。則差異值分別為(90-80)/70=1/7，(250-200)/500=1/10，

則第二筆歷史資訊較接近。

3. 設定距離量度(distance metric)。

將即時資訊與各分群資訊的差異加總，即可得到樣本與各分群的特徵差異距離，而距離量度為判斷即時資料與那一組特徵資料相類似的一種判斷指標，當距離量度小於某一個門檻值，則判斷該即時資訊與某一組歷史資料類似。然而距離量度的判斷目前並沒有一個很好的準則來對各種資料進行距離量度的判斷，在面對不一樣的環境條件，分析人員必頇自行建立一套準則來做處理，因此隨著不同的特徵分群，將會採用不同的距離量度以判斷即時資料與那一個歷史資料類似。

本研究將挑選最佳的類似樣本數做為旅行時間預測的門檻，因此本研究將以該樣本數做為距離量度的門檻。

4. 決定判斷類似樣本的數量。

本計畫將比對每半個小時下每五分鐘通過各偵測器的流量變化和平均速度變化，再與歷史資料進行比對，比對出該半小時的交通狀況較近似於 那些歷史資料，再從這些歷史資料中挑選最接近的 k 筆資料進行旅行時間 預測。

根據 Fukunag[34]於 1973 年時提出 k-NN 於資料分群下，每一群最佳的

由上圖發現，在後龍到樹林間旅行時間大部分有 21 種的出現的可能 (21 分~42 分)

檢定的假設在 95%信賴水準下結果如下所示：

因此旅行時間的分佈拒絕常態分佈(H0)的假設。

由於 Robinson 和 Polak[31](2005)比較不同的類似樣本數進行比較，挑選在平均絕對誤差率(MAPE)及均方根誤差(RMSE)均最小的最佳的樣本數，

在文檔中高速公路旅行時間預測-以k-NN法及分群方法探討 (頁 41-45)

第四章 旅行時間預測模式介紹

4.2 k-NN 參數設定

第四章旅行時間預測模式介紹