支撐向量迴歸模型

第五章實證分析

第二節支撐向量迴歸模型

本研究以支撐向量迴歸(support vector regression，SVR)建立住宅價格預測模型。SVR 為支撐向量機一種迴歸預測方法，因 SVR 係以迴歸方式為之，於預測模型建立之初須先選取資料之自變數及依變數。設定方式為將個別資料變數設為自變數，而住宅價格設為依變數，以自變數預測依變數之形式進行住宅價格之預測。為提升模型處理效率，故將資料進行正規化處理，即將資料數值轉換介於 0 至 1 之間。為尋求迴歸最佳解，透過參數訓練尋求最佳參數後，建立迴歸預測模型並將最佳參數輸入後進行住宅價格預測。由於實際資料及預測結果存在預測誤差，故以評估指標衡量容許誤差範圍内所達到的預測正確率。SVR 預測模型之流程如圖 5-1。

圖 5-1 SVR 模型流程圖 一、變數篩選

本研究主要目的在於預測台北市住宅價格，利用台灣大學林智仁教授所開發之 LIBSVM 工具程式，將 LIBSVM 之程式碼安裝於 Matlab R2006a 做為統計分析軟體，建立 SVR 預測模型，將 5261 筆住宅屬性及鄰里特徵之變數輸入模型預測住宅價格。為篩選影響住宅價格之變數，以封套式(wrapper)方法進行變數篩選。此方法主要將正確率較高的變數選入，但須耗費大量的處理時間(Kohavi et al.，1997)。如選入之變數，正確率有所提升，即選入該變數，如選入之變數正確率未提升或未變

動，則不選入該變數。首先，將變數逐一計算，選出正確率最高之變數，其次，再加入其它之變數，選入第二高之變數，依此類推選出其它變數。變數篩選結果如表 5-2，除行政區國中數及行政區市立圖書館數選入後正確率未提升外，行政區金融機構數、屋齡、行政區診所數、總樓高、距最近捷運站距離、行政區小學數、行政區警局數、行政區高中數、房間數、土地持份面積、停車位、行政區醫院數、衛浴數、行政區大學數、行政區公園數、面積、所在樓層、房間數、行政區傳統市場數選入後正確率有所提升，表示選入之變數對於預測正確率有提升之功效。

圖 5-2 特徵篩選結果圖

由表 5-2 及圖 5-2 所示，預測之正確率隨特徵之選入而提升，代表所選入之變數對住宅價格具有實際之影響性。為了解模型是否有足夠之預測能力，將資料分 3/4 為訓練資料，1/4 為測試資料，實證結果顯示測試資料正確率及訓練資料正確略之差異亦不大，表示資料有經過充足的訓練，且有能力預測資料。而預測模型於 20%容忍誤差下，正確率為 66.76%，即以住宅屬性及鄰里屬性做為變數預測住宅價格之正確率為 66.76%。

表 5-2 特徵篩選結果表

特徵篩選次序被選入之特徵訓練資料正確率測試資料正確率

1 行政區金融機構數 50.63% 50.26%

2 屋齡 52.78% 50.49%

3 行政區診所數 55.54% 54.75%

4 總樓高 56.41% 55.81%

5 距最近捷運站距離 57.62% 57.64%

6 行政區小學數 58.38% 58.93%

7 行政區警局數 59.42% 59.54%

8 行政區高中數 60.12% 60.00%

9 房間數 61.07% 60.76%

10 土地持份面積 61.60% 61.29%

11 停車位 62.21% 61.59%

12 行政區醫院數 62.97% 62.58%

13 衛浴數 63.15% 62.88%

14 行政區大學數 63.58% 64.03%

15 行政區公園數 63.71% 64.48%

16 面積 64.34% 64.79%

17 所在樓層 64.69% 65.70%

18 房間數 64.95% 66.31%

19 行政區傳統市場數 65.28% 66.76%

二、支撐向量迴歸預測結果

本研究以 Matlab 建立 SVR 預測模型，利用自變數預測依變數之型態進行住宅價格預測，以求得 SVR 之預測數據。圖 5-3 為 SVR 之住宅價格預測結果圖，藍色實線為實際交易價格，紅色實線為 SVR 預測值，而預測值普遍分布於 20 至 80 萬之間，僅部分較高或較低之數據未被 SVR 預測到。而本研究之資料數據分部亦集中於 20 至 80 萬之間，顯見 SVR 對於數據較多之資料較容易預測之，但較不易預測到少數偏離值之資料。

0 20 40 60 80 100 120 140

資料數單

價 ( 萬

)

實際值 SVR預測值

圖 5-3 SVR 預測結果圖

以 Matlab 實證分析結果顯示，SVR 訓練之最佳參數C值為 16、最佳放射型核心 γ 值為 0.125，表示預測模型在此兩參數情況下可達到最佳的預測結果。為成本參數，表示誤差之影響程度，

γ 為寬度函數，表示資料數據於高維度特徵空間中之分布，在參數選取之過程中藉由交叉驗證(cross validation)尋求最佳之參數組合，以便得到最佳之預測結果。

三、支撐向量迴歸與普通最小平方法之比較

另外為比較預測正確率，本研究將 SVR 與普通最小平方法 (ordinary least square，OLS)進行比較。正確率表示容忍預測誤差值於該誤差範圍內之樣本數佔整體樣本之比率，SVR 於容忍預測誤差 20%情況下，正確率為 65.44%；於容忍預測誤差 15% 情況下，正確率為 54.13% ；於容忍預測誤差 10% 情況下，正確率為 40.85%；於容忍預測誤差 5%情況下，正確率為 23.24%。OLS 於容忍預測誤差 20%

情況下，正確率為 55.38%；於容忍預測誤差 15%情況下，正確率為 43.22%；於容忍預測誤差 10%情況下，正確率為 29.78%；於容忍預測誤差 5%情況下，正確率為 15.32%。SVR 及 OLS 之預測結果如表 5-3。

表 5-3 預測正確率比較表

SVR OLS

容忍預測誤差正確率正確率

FE 20% 65.44% 55.38%

FE 15% 54.13% 43.22%

FE 10% 40.85% 29.78%

FE 5% 23.24% 15.32%

為進一步比較 SVR 及 OLS 整體之預測能力，本研究採用 MAPE、MAE 及 MSE 三種指標作為評估模型預測績效及預測誤差之依據，旨在衡量實際價格及預測價格之間的誤差程度，其計算值越小越好，表示整體之預測績效越佳。於評估預測方法的標準中，MAPE 為最常使用之指標，其主要在於計算預測誤差之百分比，而 MAE 為計算預測誤差之加總平均值，MSE 為計算預測誤差平方和之平均值。表 5-4 為 SVR 及 OLS 總體預測績效，表中顯示 SVR 之 MAPE、MAE 及 MSE 之值皆小於 OLS，表示 SVR 之預測績效優於 OLS，可見 SVR 之預測預測誤差較小，且預測之數據亦較 OLS 貼近實際值。本研究之結果與 Vilius and Antanas (2011)之研究相符。

表 5-4 整體預測績效比較表

評估指標 SVR OLS

MAPE 18.41% 23.14%

MAE 6.95 8.39 MSE 98.98 125.86

第六章結論與建議

在文檔中運用支撐向量機預測台北市住宅價格 (頁 38-45)

第五章 實證分析

第二節 支撐向量迴歸模型

第六章 結論與建議

第五章實證分析

第二節支撐向量迴歸模型

第六章結論與建議