一般而言,前一節三種模型所建立的租買區別函數,雖然能說明依變數與解釋變數 間的邊際影響效果,除此外我們還欲進一步實證三種模型的預測能力,我們將採用五個 常見的指標來評價三者的表現,即命中率(hit rate)、 ROC 曲線分析(receiver operating characteristic curve)、平均絕對誤差(mean absolute error)與平均絕對值誤差率(mean absolute percentage error),二元預測準確性關聯性量數四指標(gamma、somers' d、tau-a 與c)。
其定義分別說明如下:
一、命中率
命中率(hit rate)即樣本被正確分類比率。我們可以藉由驗前(prior)已知的租買選擇 變數特性資料為依據,建立一個可分別租買的分類規則函數或區別規則,然後再利用已 知的規則對任一家計部門租買選擇行為做驗證的判別,來預測每個家計部門租買行為是
39
否被正確分類的事後機率。
二、ROC 曲線分析
ROC(receiver operating characteristic curve)是由X軸錯誤率(1-明確度)與Y軸命中 率(敏感度)所形成的曲線圖形,用來驗證模型的好壞,它能將購屋與租屋兩個群體作完 美切割(cutting)。我們將購屋與租屋分成兩個群體,X軸表示為誤將購屋(租屋)歸類為租 屋(購屋)的數量占購屋(租屋)總數的比例稱為錯誤率(false alarm rate, FAR),Y軸表示為 正確將租屋(購屋)歸類為租屋(購屋)占租屋(購屋)總數的比例稱為命中率(hit rate, HR),
由家計部門樣本形成的座標(X=錯誤率, Y=命中率),可繪製如圖3的ROC曲線。ROC曲 線越大越好,即表示對購屋與租屋越能完美切割。10
圖3:租買ROC曲線
ROC曲線在判別時,會以對角線為一個參考點,若租買估計模型的ROC曲線落在對 角線上,表示模型對租買的分類沒有鑑別力,若是ROC曲線愈往圖形的左上方移動表示 模型對租買的敏感度愈高,錯誤率愈低,亦即此模型的鑑別力較佳。除了看曲線圖形之 外,我們也可利用曲線下的面積(area under curve, AUC)來判斷ROC曲線的鑑別能力,
AUC數值範圍從0到1(0<AUC1),當AUC<0.5時表示分類沒有鑑別力,當AUC=0.5表
10錯誤率(false alarm rate, FAR)SPSS 統計分析軟體稱「1-明確度(specificity)」,命中率(hit rate, HR)SPSS 統計分析軟體稱敏感度(sensitivity)。(洪義雄、杜建衡,2009)
ROC 曲線 HR
命 中 率
︵ 敏 感 度
︶
FAR 錯誤率(1-明確度)
40
示該鑑別力不會比猜測準確,當AUC>0.5且AUC面積範圍愈大時表示鑑別力愈好,
AUC=1,表示該100%正確之分類鑑別力,模型在預測的正確性亦會達100%。
三、平均絕對誤差
平均絕對誤差
(mean absolute error, MAE)
,MAE衡量每一預測值與實際值差距,取絕對值後並加總,再以樣本數平均,最終以百分比的方式表示。數值越大代表模型預
41
五、二元預測準確性關聯性量數四指標
當實際觀察樣本的結果變項為二元變項,例如,實際值為0 代表選擇租屋,1 代表
選擇購屋,而預測模型所估計出之各樣本的預測值,是以機率值形式來表示時,在數理 統計上有四個量數指標Gamma(godman-kruskal gamma)、Somers' D、Tau-a (kendall's tau- a)與 C(concordance index),可作為預測的機率值與實際值之間關聯程度的衡量。關聯程 度愈強,表示預測的準確性愈高。若0 與 1 實際值總樣本數為 N(即 m+n),可藉由實際 值為0 的樣本數 m 與為 1 的樣本數 n,由 0 與 1 各取一樣本交互配對的所有可能組合的 總配對數數量t(m×n 對)中,先計算模型其之和諧配對數的數量 Nc(number of concordant pairs)、不和諧配對數的數量 Nd(number of disconcordant pairs)與既不是和諧也不是不和 諧的「結」配對數Tie(number of tie pairs)的數量。其定義分別為:
(一)和諧配對數的數量 Nc:
42
四種指標主要是作為不同模型預測機率與實際值的關聯程度的比較,即量數數值愈 大時,表示模型預測的準確性愈佳。Gamma值會介於+1與-1間,等於1,代表完全是和 諧配對數的數量Nc(number of concordant pairs),與預測值與真實值有完全的關聯性,模 型 可 完 全 預 測 ; 反 之 , 等 於-1 , 代 表 完 全 是 不 和 諧 配 對 數 的 數 量 Nd(number of disconcordant pairs),與預測值與真實值無完全的關聯性,模型完全無預測能力。Somers' D 與Tau-a也代表關聯性強度,其量數值愈大,模型預測的準確度亦愈高,兩者均是介於0 和1之間的值,但是,對於任何給定的模型, Tau-a的值會比Gamma、Somers' D或C的值 小得多,因為Tau-a是以所有樣本可能組合的總配對數數量0.5×N×(N-1)作為分母,由於 分母的值極大,使Tau-a值一般較小的緣故。C(concordance index)方面,C為介於0.5與1 的量數值,0.5代表為完全無關,1代表完全關聯,同樣,其量數值愈大,模型預測的準 確度亦愈高。值得一提的是,C量實際上會近似等於 ROC曲線分析中曲線下的區域面積 AUC (Agresti,2002)。
第四節 實證結果與預測績效之比較