資料分類之修正 - 最佳權重法應用於交通資料融合

雖然上述之資料融合模式在計算熵值前，先將原料資料平移，降低了車速資料分佈位置的影響，然而在某些情況時，此種分類方式對於熵及權重的計算，

還是容易造成偏誤。

由於交通資料為一連續性的分佈，當資料位於分類邊界附近的時候，若將此筆資料明確的分於某一類，則有失偏頗，且交通資料能收集到的樣本數通常不多，因此每一筆交通資料對於機率函數的敏感度很大[14]，因此當車速資料集中，且有部分資料位於分類邊界附近的時候，即使兩組資料的變異程度相差不遠，還是有可能獲得相差很大的權重，如圖3.3、表 3.6 所示。在此偏誤範例中，

兩偵測器資料的標準差分別為 3.07 與 2.88，由於標準差的差異不大，理論上兩者融合的權重應該不會相去甚遠，但是兩者的資料皆集中於分類B，而且在樣本數不多的情況下，雖然兩者各分類的資料數相差甚少，卻對熵值影響很大，因此計算出來的權重分別為0.225、0.775，如此變異程度相差不大的兩組資料，其中一組的權重卻近八成，實為一不合理之現象。

圖3.3 分類偏誤示意圖1

表3.6 分類偏誤範例1

資料來源 Sensor 1 Sensor 2

標準差 3.07 2.88

次數機率次數機率

A B C

1 26

0.033 0.867 0.100

0 28

0.000 0.933 0.067 熵 0.675 0.363

權重 0.225 0.775

或者當某一組資料的車速皆屬於同一個集合(其中一個集合的機率函數為 1) 時，則權重的計算則會變成無意義(熵值為 0)，如圖 3.3、表 3.7 所示，在此偏誤範中，Sensor 2 的資料完全落於 B 級中，所以 Sensor 2 的不確定性為 0，權重為無意義，如此便無法做資料融合的處理。

圖3.4 分類偏誤示意圖2

表3.7 分類偏誤範例2

資料來源 Sensor 1 Sensor 2

標準差 5.18 1.81

次數機率次數機率

A B C

4 23

0.133 0.767 0.100

0 30

0.000 1.000 0.000 熵 1.014 0.000

權重 --- ---

另外，當資料的變異程度過大時，由於B 類的分組區間較小，平移後 A、C 分類的資料筆數會大於B 類，此時由於 A、C 類的機率函數提高，容易使得熵下降，會造成變異程度大，但權重卻較高的情況，如圖 3.5、表 3.8 所示。在此偏誤範中，Sensor 2 的標準差為 15.12，較 Sensor 1 的 9.41 高，但由於 Sensor 2 的資料變異程度過大，使得 A、C 分類的機率函數提高，最後融合的權重反而較 Sensor 1 大。

圖3.5 分類偏誤示意圖3

表3.8 分類偏誤範例3

資料來源 Sensor 1 Sensor 2

標準差 9.41 15.12

次數機率次數機率

A B C

10 9 11

0.333 0.300 0.367

11 5 14

0.367 0.167 0.467 熵 1.580 1.475

權重 0.466 0.534

由於依文獻中之分類方法會有造成偏誤的可能，因此本研究提出距離權重法來改善上述資料分類所造成的偏誤情況。明確分類法是以0 或 1 的方式來做資料次數的計算，而距離權重法是利用每一筆車速與相鄰兩類組中點的距離來計算權重，以小數的方式來統計次數。首先，假設有筆車速資料，第i筆資料的車速為，分配到第類的權重為，各分類的組中點為

Vi j N_ij m_j，對於第筆資料來

說，若小於第1 類的組中點，則此筆資料在第1 類的次數為 1；若大於第類的組中點 ，則此筆資料在第 n 類的次數為 1；若恰等於某一類的組中點，

則此筆資料在該類的次數為1；若在某兩類的組中點之間，則依此車速與這兩類的組中點的距離倒數

i V_i

Vi m₁ V_i

n m_n V_i

Vi 1

D⁻j 、D_j⁻₊¹₁，來計算此筆資料分配至這兩類的權重，如下列步驟所示。

令起始值N_ij =0

以上述之方法，將表 3.6、3.7、3.8 三例經修正後，如表 3.10、3.11、3.12 所示。由表3.10 可知，兩組標準差為 3.07 與 2.88 的資料，以明確分類法計算出

正後，其權重為0.559 與 0.441，不致於造成偏誤。

表3.11 修正分類偏誤範例2

四、模擬測試

本研究在上一個章節已對資料融合模式的基本架構做介紹，期望以距離權重法來改善最佳權重法的分類機率計算方式，降低上述偏誤的影響，為了了解修正後的結果是否有明顯的改善，因此本研究以電腦模擬的方式，假設可能產生偏誤的情況，分別計算出距離權重法以及明確分類法的結果，加以比較，希望能評估模式改善的效果。本章在 4.1 節說明模擬資料的產生方式，4.2 節對測試情境的設計做一個簡單的描述，4.3 節將模擬測試的結果作分析。

在文檔中最佳權重法應用於交通資料融合 (頁 29-36)