第五章 實證分析
第二節 支撐向量迴歸模型
本研究以支撐向量迴歸(support vector regression,SVR)建立住宅價格預測模 型。SVR 為支撐向量機一種迴歸預測方法,因 SVR 係以迴歸方式為之,於預測模 型建立之初須先選取資料之自變數及依變數。設定方式為將個別資料變數設為自變 數,而住宅價格設為依變數,以自變數預測依變數之形式進行住宅價格之預測。為 提升模型處理效率,故將資料進行正規化處理,即將資料數值轉換介於 0 至 1 之 間。為尋求迴歸最佳解,透過參數訓練尋求最佳參數後,建立迴歸預測模型並將最 佳參數輸入後進行住宅價格預測。由於實際資料及預測結果存在預測誤差,故以評 估指標衡量容許誤差範圍内所達到的預測正確率。SVR 預測模型之流程如圖 5-1。
圖 5-1 SVR 模型流程圖 一、變數篩選
本研究主要目的在於預測台北市住宅價格,利用台灣大學林智仁教授所開發之 LIBSVM 工具程式,將 LIBSVM 之程式碼安裝於 Matlab R2006a 做為統計分析軟 體,建立 SVR 預測模型,將 5261 筆住宅屬性及鄰里特徵之變數輸入模型預測住宅 價格。為篩選影響住宅價格之變數,以封套式(wrapper)方法進行變數篩選。此方法 主要將正確率較高的變數選入,但須耗費大量的處理時間(Kohavi et al.,1997)。如 選入之變數,正確率有所提升,即選入該變數,如選入之變數正確率未提升或未變
動,則不選入該變數。首先,將變數逐一計算,選出正確率最高之變數,其次,再 加入其它之變數,選入第二高之變數,依此類推選出其它變數。變數篩選結果如表 5-2,除行政區國中數及行政區市立圖書館數選入後正確率未提升外,行政區金融機 構數、屋齡、行政區診所數、總樓高、距最近捷運站距離、行政區小學數、行政區 警局數、行政區高中數、房間數、土地持份面積、停車位、行政區醫院數、衛浴 數、行政區大學數、行政區公園數、面積、所在樓層、房間數、行政區傳統市場數 選入後正確率有所提升,表示選入之變數對於預測正確率有提升之功效。
圖 5-2 特徵篩選結果圖
由表 5-2 及圖 5-2 所示,預測之正確率隨特徵之選入而提升,代表所選入之變 數對住宅價格具有實際之影響性。為了解模型是否有足夠之預測能力,將資料分 3/4 為訓練資料,1/4 為測試資料,實證結果顯示測試資料正確率及訓練資料正確略之差 異亦不大,表示資料有經過充足的訓練,且有能力預測資料。而預測模型於 20%容 忍誤差下,正確率為 66.76%,即以住宅屬性及鄰里屬性做為變數預測住宅價格之正 確率為 66.76%。
表 5-2 特徵篩選結果表
特徵篩選次序 被選入之特徵 訓練資料正確率 測試資料正確率
1 行政區金融機構數 50.63% 50.26%
2 屋齡 52.78% 50.49%
3 行政區診所數 55.54% 54.75%
4 總樓高 56.41% 55.81%
5 距最近捷運站距離 57.62% 57.64%
6 行政區小學數 58.38% 58.93%
7 行政區警局數 59.42% 59.54%
8 行政區高中數 60.12% 60.00%
9 房間數 61.07% 60.76%
10 土地持份面積 61.60% 61.29%
11 停車位 62.21% 61.59%
12 行政區醫院數 62.97% 62.58%
13 衛浴數 63.15% 62.88%
14 行政區大學數 63.58% 64.03%
15 行政區公園數 63.71% 64.48%
16 面積 64.34% 64.79%
17 所在樓層 64.69% 65.70%
18 房間數 64.95% 66.31%
19 行政區傳統市場數 65.28% 66.76%
二、支撐向量迴歸預測結果
本研究以 Matlab 建立 SVR 預測模型,利用自變數預測依變數之型態進行住宅 價格預測,以求得 SVR 之預測數據。圖 5-3 為 SVR 之住宅價格預測結果圖,藍色 實線為實際交易價格,紅色實線為 SVR 預測值,而預測值普遍分布於 20 至 80 萬之 間,僅部分較高或較低之數據未被 SVR 預測到。而本研究之資料數據分部亦集中於 20 至 80 萬之間,顯見 SVR 對於數據較多之資料較容易預測之,但較不易預測到少 數偏離值之資料。
0 20 40 60 80 100 120 140
資料數 單
價 ( 萬
)
實際值 SVR預測值
圖 5-3 SVR 預測結果圖
以 Matlab 實證分析結果顯示,SVR 訓練之最佳參數C值為 16、最佳放射型核心 γ 值為 0.125,表示預測模型在此兩參數情況下可達到最佳的預測結果。 為成本參 數,表示誤差之影響程度,
C
γ 為寬度函數,表示資料數據於高維度特徵空間中之分 布,在參數選取之過程中藉由交叉驗證(cross validation)尋求最佳之參數組合,以便 得到最佳之預測結果。
三、支撐向量迴歸與普通最小平方法之比較
另 外 為 比 較 預 測 正 確 率 , 本 研 究 將 SVR 與 普 通 最 小 平 方 法 (ordinary least square,OLS)進行比較。正確率表示容忍預測誤差值於該誤差範圍內之樣本數佔整 體樣本之比率,SVR 於容忍預測誤差 20%情況下,正確率為 65.44%;於容忍預測誤 差 15% 情 況 下 , 正 確 率 為 54.13% ; 於 容 忍 預 測 誤 差 10% 情 況 下 , 正 確 率 為 40.85%;於容忍預測誤差 5%情況下,正確率為 23.24%。OLS 於容忍預測誤差 20%
情況下,正確率為 55.38%;於容忍預測誤差 15%情況下,正確率為 43.22%;於容 忍預測誤差 10%情況下,正確率為 29.78%;於容忍預測誤差 5%情況下,正確率為 15.32%。SVR 及 OLS 之預測結果如表 5-3。
表 5-3 預測正確率比較表
SVR OLS
容忍預測誤差 正確率 正確率
FE 20% 65.44% 55.38%
FE 15% 54.13% 43.22%
FE 10% 40.85% 29.78%
FE 5% 23.24% 15.32%
為進一步比較 SVR 及 OLS 整體之預測能力,本研究採用 MAPE、MAE 及 MSE 三種指標作為評估模型預測績效及預測誤差之依據,旨在衡量實際價格及預測 價格之間的誤差程度,其計算值越小越好,表示整體之預測績效越佳。於評估預測 方法的標準中,MAPE 為最常使用之指標,其主要在於計算預測誤差之百分比,而 MAE 為計算預測誤差之加總平均值,MSE 為計算預測誤差平方和之平均值。表 5-4 為 SVR 及 OLS 總體預測績效,表中顯示 SVR 之 MAPE、MAE 及 MSE 之值皆小於 OLS,表示 SVR 之預測績效優於 OLS,可見 SVR 之預測預測誤差較小,且預測之 數據亦較 OLS 貼近實際值。本研究之結果與 Vilius and Antanas (2011)之研究相符。
表 5-4 整體預測績效比較表
評估指標 SVR OLS
MAPE 18.41% 23.14%
MAE 6.95 8.39 MSE 98.98 125.86