5.1 AARI 應用於市區道路行駛品質等級分類
5.1.3 混淆矩陣與 ROC 空間簡介
混淆矩陣(Confusion Matrix)又稱為列聯表[24],是對有監督學習分類算法進 行準確率評估之工具,通常由輸入物件與預期輸出物件組成。表 5.3 即為混淆矩陣 常見之形式,通常以二元分類作為評估之分類器,正確分級(True Class)代表該 分類器中之各樣本原本該有的真確分級,分別由正確(Pass)數量與錯誤(Fail)
數量所組合而成;假設分級(Hypothesized Class)則為分類器中所預測而得之分級,
經由模式分類完成後亦可得到分類後之正確與錯誤分別之個數,當原本真確值與 預測值在正確(Pass)的預測都相同時,則稱之為真陽性(True Positives, TP);反 之當真確值與預測值所預測均為錯誤(Fail)時,則稱之為真陰性(True Negatives, TN),上述兩項即為分類器能夠正確地預測到正確(Pass)與錯誤(Fail)之數目。
當真確值應為正確(Pass),但預測值卻判斷為錯誤(Fail)時,則稱之為偽陰性誤
差(False Negatives, FN);反之當真確值為錯誤(Fail)但預測值判定為正確(Pass)
時,則為偽陽性誤差(False Positives, FP)。
本研究於前述之道路行駛品質等級分類應用於混淆矩陣即可將 IRI 視為真確 值 True Class,而以簡易型平坦儀所量測之 AARI 則為預測值 Hypothesized Class。
當 IRI 判定為該路段為通過時,AARI 之量測若也被分在通過,則稱之為 TP;反之 當 IRI 判定為該路段為不通過且 AARI 之量測也被分在不通過,則稱之為 TN。若 IRI 判斷為通過但 AARI 被分類為不通過,則稱之為 FN 誤差;若 IRI 判斷為不通 過但 AARI 被分類為通過,則稱之為 FP 誤差。
表5.3 混淆矩陣應用於 AARI 與 IRI 之分類示意圖 Confusion Matrix True Class (IRI)
Hypothesized Class (AARI)
PASS FAIL PASS True Positives False Positives FAIL False Negatives True Negatives ROC(receiver operating characteristic)空間為一種座標圖示之分析工具,通常 用來判斷多個分類模型間最佳級與次佳之模型,或是亦可在同一二元分類模型中,
利用正確(Pass)與錯誤(Fail)間之通過門檻值以敏感度分析找出一個最適用之 分類門檻界線值(discrimination threshold)。ROC 空間,如圖 5.1 所示,通常以縱 軸為正確判斷率(True Positive Rate, TPR)與橫軸為錯誤判斷率(False Positive Rate, FPR)來描述,詳細算法如下公式(5-1)、(5-2)所示[18、48]。
𝑇𝑇𝑇𝑇
圖5.1 多分類模型情況下各組於 ROC 空間之示意圖
上圖 ROC 空間之五個點即為五類之分類模型,分別有 V、W、X、Y、與 Z 類,
每一個類別於分類模型下都會得到一組 TPR 與 FPR,當點位離左上角越接近時,
則代表預測準確率越高,如 V 分類模型;反之當點位靠近右下角時,則顯示預測 能力越不精準,如 Z 分類模型。圖中之對角線即為一參考線,用以檢驗分類模型 是否具有鑑別性,當分類結果之 TPR 與 FPR 落在圖中之右下方時,則代表該分類 模型沒有良好之分類成效。
5.2 200 車道公里之市區道路實測與道路行駛品質等級分類
本研究於前述已建立 AARI 之計算方式及影響因素探討與克服,為了解簡易 型平坦儀於不同道路環境下之適用性與其所計算出之 AARI 指標與 IRI 之對應關 係穩定性,本研究於台灣本島中之北、中、南與東部共六個主要都會區進行總長約 為 200 車道公里之市區道路平坦度檢測,檢測過程中以台大工程廂型車搭載慣性 式剖面儀與簡易型平坦儀(置放於車前平台)同步量測 200 車道公里路網中之路 面 IRI 與 AARI 值,行駛速度控制約為 35 至 55kph 間。本節除了探討 200 車道公 里中所量測之 AARI 與 IRI 整體相關性及其對應關係,亦會納入前述 5.1.3 節所介 紹之道路行駛品質等級分類、混淆矩陣與 ROC 空間進行分類成效之判斷。
5.2.1 200 車道公里市區道路實測
圖5.2 200 車道公里 AARI 與 IRI 之分布圖 AARI = 1.0097*IRI
R² = 0.8393
IRI (m/km)
0%
Accumulated percentage (%)
IRI (m/km) 2008 2018
5.2.2 200 車道公里市區道路應用於 AARI 之行駛品質等級分類
92.02% 99.24% 100.00%
0%
Accumulated percentage
Frequency
Positive, FP)與偽陰性誤差(False Negative, FN),可利用此兩項誤差搭配正確之預 測數量(包含 Ture Positive, TP 及 Ture Negative, TN)計算各等級類別中之 TPR 與 FPR,並繪製於 ROC 空間中,如下圖 5.6 之實心標記所示。
99.01% 100.00%
0%
Accumulated percentage
Frequency
Riding Comfortable Level of IRI
表5.5 200 車道公里之 AARI 與 IRI 行駛品質等級分類結果 (3) 次序型邏輯斯迴歸(Ordinal Logistic Regression)應用於道路行駛品質等級分類
由於本研究所使用之路面行駛品質分類為將連續性之應變數 AARI 資料轉換
True Positive Rate
False Positive Rate
A B C D E
勝算比(Odds Ration)。常見之比率勝算模型即為邏輯斯迴歸(Logistic Regression), 適用於二元分類;由於本研究所使用之路面行駛品質屬於多分類且具有順序之分,
因此可用次序型邏輯斯迴歸來建立分類模型(Ordinal Logistic Regression)。
次序型邏輯斯迴歸之主要概念為當假設應變數 Y 有 Z 個具有次序性的類別,
為保留應變數 Y 之次序性,以累積機率之方式建構次序型邏輯斯迴歸模型。累積 至第 z 組之機率即如下公式(5-4)所示。接著將累積機率P(Y ≤ z|x)之勝算比取 對數後即可得到 Z-1 個對數累積勝算(log cumulative odds)如下式(5-5)。
P(Y ≤ z|x) = 𝜋𝜋1(𝑥𝑥) + ⋯ + 𝜋𝜋𝑧𝑧(𝑥𝑥), 𝑧𝑧 = 1, 2, … 𝑍𝑍 (5-4)
log (1−P(Y≤z|x)P(Y≤z|x) ) = log �𝑓𝑓𝑓𝑓1(𝑥𝑥)+⋯+𝑓𝑓𝑧𝑧(𝑥𝑥)
𝑧𝑧+1(𝑥𝑥)+⋯+𝑓𝑓𝑧𝑧(𝑥𝑥)� , 𝑧𝑧 = 1, 2, … , 𝑍𝑍 − 1 (5-5)
上式(5-5)在每個對數累積勝算中皆使用到 Z 個次序性類別資訊,其意義即 為由第 1 組累積至第 z 組為一類別,接著由第 z+1 組至第 Z 組為另一類別,因此 可以將 Z-1 個對數累積勝算統整為單一精簡模型,如下公式(5-6)所示。同時亦 可稱為比率勝算模型,每個對數累積勝算都有各別之截距𝛼𝛼𝑧𝑧,但具相同的迴歸係數 β,因此可由最大概似估計法求得出𝛼𝛼𝑧𝑧與β,即可透過下式將 Y 在各等級間之累 積機率算出,如下公式(5-7)所式
log (1−P(Y≤z|x)P(Y≤z|x) ) = 𝛼𝛼𝑧𝑧+𝛽𝛽𝑥𝑥 , 𝑧𝑧 = 1, 2, … , 𝑍𝑍 − 1 (5-6)
P(Y ≤ z|x) =1+exp exp ((−𝛼𝛼−𝛼𝛼𝑗𝑗+𝛽𝛽𝑥𝑥)
𝑗𝑗+𝛽𝛽𝑥𝑥) (5-7)
本研究將 200 車道公里之 AARI 與 IRI 應用於次序型邏輯斯迴歸,所得結果如 下表 5.6 所式其中包含了固定之迴歸係數β,以及五分類共計四個不同的截距𝛼𝛼𝑧𝑧, 即可將下表改寫為下公式(5-8)至式(5-10)所示。經由下述公式即可將每一單位 路段之 AARI 值換算為於各等級中之機率,且該機率總和為 1,並於各路段中選取 等級機率值最高之類別作為該路段之路面行駛品質等級。經由下公式(5-8)至(5-10)即可推算 200 車道公里中各路段之 AARI 於各等級之機率值,並進而從該路段 最高之機率值判斷為該路段為此類等級。分類結果如下表 5.7 與下圖 5.7 之空心標
記所示(實心標記為前述圖 5.6 之分類結果),經比較表 5.5 可看出以次序型邏輯 斯迴歸進行 AARI 與 IRI 之路面行駛品質分類可以得到較小之誤差值,但在偽陰性 FN 誤差中此法卻有較高之誤差,且此類之誤差值為本研究進行分類時最需要避免 的,就整體而言,此分類方法與前述 AARI 直接對應至 IRI 之等級範圍之分類方法 成效並無明顯不同。
表5.6 200 車道公里應用於次序型邏輯迴歸之結果
Value Std. Error t value p value 𝛽𝛽 4.241388 0.161142 26.32074 1.11E-152 A|B 5.713348 0.326457 17.50105 1.41E-68 B|C 15.47789 0.581052 26.63769 2.49E-156 C|D 21.6203 0.805159 26.85222 7.9E-159 D|E 29.35585 1.16144 25.2754 6E-141
𝑃𝑃(𝐴𝐴) =1+exp (−5.713348+4.241388𝐴𝐴𝐴𝐴𝑅𝑅𝐼𝐼)1 (5-8)
𝑃𝑃(𝐴𝐴 𝑎𝑎𝑎𝑎 𝐵𝐵) = 1+exp (−15.47789+4.241388𝐴𝐴𝐴𝐴𝑅𝑅𝐼𝐼)1 (5-9)
𝑃𝑃(𝐴𝐴 𝑎𝑎𝑎𝑎 𝐵𝐵 𝑎𝑎𝑎𝑎 𝐶𝐶) = 1+exp (−21.6203+4.241388𝐴𝐴𝐴𝐴𝑅𝑅𝐼𝐼)1 (5-10)
𝑃𝑃(𝐴𝐴 𝑎𝑎𝑎𝑎 𝐵𝐵 𝑎𝑎𝑎𝑎 𝐶𝐶 𝑎𝑎𝑎𝑎 𝐷𝐷) =1+exp (−29.35585+4.241388𝐴𝐴𝐴𝐴𝑅𝑅𝐼𝐼)1 (5-11)
表5.7 以 Ordinal Logistic Regression 進行 200 車道公里等級分類之混淆矩陣 IRI
A B C D E Total FP error A 13 7 0 0 0 20 7 B 40 1217 137 1 0 1395 178
圖5.7 以 Ordinal Logistic Regression 進行 200 車道公里分類之 ROC 空間
(discrimination threshold),以得到不同之分類結果,其意義即為不同之機率門檻 界線值均可得到各自之 TPR 與 FPR,並可利用敏感度分析找出主觀認為最為適當 之門檻界線值、TPR 及 FPR 值,並將其作為分類模型之決策門檻值。但此法僅適 用於二元分類(Binary Classification),於多分類之情況下並不適用。因此本研究後
A'
True Positive Rate
False Positive Rate
A B C D E A' B' C' D' E'
續將探討如何簡化上述道路行駛品質等級之五分類,透過適當之方式將道路之平 坦度等級改為二元分類,其意義即為訂定道路之養護門檻值,將受測路段僅區分為 通過(Pass)之可接受路段與不通過(Fail)之待養護路段。
表5.8 以 Ordinal Logistic Regression 進行 AARI 分類之機率值(八單位路段)
Section IRI AARI Probability of OLR in Different Class
IRI_Level AARI_Level P(A) P(B) P(C) P(D) P(E)
1 2.1 2.6 0.01 0.98 0.01 0.00 0.00 B B 2 4.4 5.1 0.00 0.00 0.55 0.45 0.00 C C 3 7.0 6.9 0.00 0.00 0.00 0.52 0.48 E D 4 2.6 3.5 0.00 0.65 0.34 0.00 0.00 B B 5 5.3 5.0 0.00 0.00 0.63 0.36 0.00 D C 6 2.8 3.8 0.00 0.37 0.63 0.00 0.00 B C 7 1.4 1.3 0.59 0.41 0.00 0.00 0.00 A A 8 7.7 7.2 0.00 0.00 0.00 0.27 0.73 E E