第二章 資料取得與處理
第二節 各項選用資料的處理程序
二、 平均年所得(萬):
資料來源:https://reurl.cc/0OAkel (政府資料開放平台) 三、
人口成長率:
資料來源: https://reurl.cc/bRQeov (內政部統計月報) 四、
青年比:
年比=青年人口數/總人口數*100,藉此得出 106 年各鄉鎮市區的青年比。
資料來源: https://reurl.cc/OqZQav (內政部戶政司全球資訊網) 五、
餘屋數:
資料來源: https://reurl.cc/n0axbl (內政部不動產資訊平台) 六、
臨最近產業園區距離(公里):
聚現象,故須在 GoogleMap 進行逐一排查,而其他採用地區的產業園區也 經過多重確認,本資料所採用的產業園區除了該區域縣市的產業園區外,圖 2 台灣工業區土地管理系統呈現圖
步驟二: 在 Google Map 進行鄉鎮市區和產業園區的標定
該步驟主要採用的工具是 Google Map 中的「我的地圖」,該項工具可 用於創建自訂的地圖,在此我們將利用這項工具對採用的鄉鎮市區和先前 選取好的產業園區做標定,首先是採用的鄉鎮市區的標定(圖 3)說明:該項 目的座標為直接在 Google Map 搜尋取得,也就是直接使用各鄉鎮市區原先 在 Google 標定上的位置,此舉是為減少人為因素的干擾;另外是選用的的 產業園區的標定(圖 4)說明,多數的產業園區可直接在 Google Map 搜尋取 標的座標,但也有絕大部分的產業園區在地圖上是無標定座標,故必須依 照該產業園區的資訊在 Google Map 上進行手動標示,為保持客觀,手動標 示的產業園區座標是依照產業園區的目測中心點進行標示。完成各鄉鎮市 區和產業園區的標定後,會得到(圖 5)。
圖 3 鄉鎮市區標的示意圖
圖 4 產業園區標的示意圖
圖 5 完成標定後的自訂地圖示意圖
標定各鄉鎮市區及產業園區操作說明:首先在「我的地圖」中左上方有 搜尋欄和一排工作列(圖 6),若標的物在搜尋中有出現,則直接點選「新 增至地圖」(圖 7);若在搜尋中沒有找到該標的物,則進行手動標示,此 時就須使用工具列中新增標記的工具(圖 8),利用此工具點取要標註的地 方,點取後會出現(圖 9),最後編輯該標的的資訊即完成該標的物的標 的。在不同類別的標定圖示使用上,我們的設定為:採用的鄉鎮市區使用 (圖 10)圖示;採用的產業園區則使用(圖 11)圖示,此做法將有利於我們後 續的流程。
圖 6 工具列
圖 7 直接新增標的示意圖
圖 8 新增標記的工具
圖 9 手動新增標的示意圖
圖 10 此符號表示鄉鎮市區
圖 11 此符號表示產業園區
步驟三: 進行各鄉鎮市區與其最靠近之產業園區的距離測量
在完成步驟二後,我們將取得含有採用的各鄉鎮市區及產業園區的自 訂地圖,接著按著資料表的鄉鎮市區順序在自訂地圖中進行逐一的測量及 填寫到資料表,基於距離是以點對點的方式取得,故即使是位於該鄉鎮市 區的產業園區仍會存在距離,關於測量的細節將於下段篇幅進行說明。
關於測量的過程將以台中市西屯區為例,首先我們先目測西屯區,觀 看與其最近的產業園區有哪些,緊接著使用工具列(圖 6)中的測量距離和 區域的工具(圖 12)進行比較,這部分需先點擊西屯區的位置,接著拖曳到 要測量的產業園區,以西屯區來說,有三個目測較為接近的產業園區,分 別為中部科學園區台中園區(圖 13)、台中工業區(圖 14)及台中精密機械科 技園區(圖 15),經該工具測量,此三個產業園區與西屯區的距離依序為 4.41km、4.29km 及 4.90km,故可得知西屯區與最靠近之產業園區距離為 4.29km。
圖 12 測量距離和區域的工具
圖 13 西屯區與中部科學園區台中園區的距離示意圖
圖 14 西屯區與台中工業區的距離示意圖
圖 15 西屯區與台中精密機械科技園區的距離示意圖
第三章 資料的敘述統計
由上表(3)可發現,台北市房價遠超於其他各縣市的房價,其中,我們發現 新竹縣在全國「遷入/遷出比」位居全國之冠,由於高科技產業的發展,隨著人 口正向發展優勢條件,新竹縣的房價也有驚人的表現,因此,高所得的地區會 帶動高房價的發展;若以大都會區來看,新北、桃園、新竹市、台北仍有大量 餘屋待去化,整體而言,若餘屋供給量大,需特別留意,預期房價可能難有大 漲空間;截至 106 年底,我國六都的人口占全國總人口數高達 7 成,在人口成 長率方面,桃園市明顯的大幅增加,因為台北市房價的推力、桃園市社福的拉 力及高鐵的帶動,使得許多台北人寧可每天來回通勤一小時上班,選擇在房價 相對便宜的桃園市買房,此外,桃園市政府為了幫助年輕家庭以及鼓勵生育,
提出生育補助及新社福路線,因此,桃園市為六都最年輕的城市,然而台北人 多外流到新竹、桃園市及基隆等鄰近縣市,呈現負人口成長率的現象。
圖 16 矩陣散佈圖
圖 17 相關性矩陣圖
第四章 迴歸分析
Fan and Li (2001)說明了由好懲罰函數所得到之參數估計量要具備三種 性質:
不偏性(unbiasednes):當真實參數大時,其參數估計量會接近不偏,以 避免無謂偏誤。
稀少性(sparsity):参數估計量是一種 thresholding 準則,也就是說,當參 數估計量夠小時,其將被自動估為 0,以降低模型之複雜性。
連續性(continuity):參數估計量是具有連續性,以避免模型預測之不 穩定性。
因此,Fan and Li (2001) 說明了一個透過懲罰函數所得到之參數估計量 要同時具備上述性質,其本身函數應該是在 0 點是奇異點(singualar),使得不 重要參數之參數估計量可以被估為0、函數必須滿足一些條件下,使得參 數估計量具有連續性、及在參數大時,函數本身是一常數,使得參數大時之
參數估計量會具有不偏性。
MinMaxAccuracy用來評估模型準確度的一個準則,計算方法如下:
MinMaxAccuracy = 𝑀𝑒𝑎𝑛(min(actuals,predicteds)
max(actuals,predicteds))
其輸出結果介於[0,1]之間,當輸出值越接近 1 則可以表示此模型的預 測能力越佳(即越大越好)。
Mean absolute percentage error (MAPE)用來評估模型準確度的一個準則,計算方法如下:
MAPE = Mean ( |predicteds−actuals
actuals | )
第三節 分析
一、
原始模型(full model)
𝑌 = 𝑋𝛽 + 𝜀 ,
𝑌 = [𝑦1, … , 𝑦𝑛]𝑇為反映變數代表房價,
𝑋 = [1, 𝑋1, 𝑋2, 𝑋3, 𝑋4, 𝑋5]𝑛×6 ,為解釋變數,其中 X1=年所得,X2=成長 率,X3=青年比,X4=餘屋數,X5=產區距離
𝛽 = [𝛽0, 𝛽1, 𝛽2, 𝛽3, 𝛽4, 𝛽5]1×6𝑇 為估計參數 𝜀 = [𝜀1, … , 𝜀𝑛]𝑇為隨機誤差項
n 為樣本數 二、
資料轉換
於前面的文獻回顧中提到對房價資料取對數,有助於提升整體的研究效果
圖 19 原始房價與對數房價標準化的機率密度圖
圖 20 原始房價與對數房價的經驗 CDF 與標準常態分佈的 CDF 之間的相似性圖
由上圖可以看出對房價資料取對數後其 PDF(圖 19)與 CDF(圖 20)的分 配會更接近常態分佈,這將有效提升我們後續分析模型的顯著性。
後續分析使用模型
𝑙𝑛(𝑌) = 𝑋𝛽 + 𝜀 ,
三、
離群值
為了避免後續的分析受到極端值的影響,必須將資料中的異常點移除,
以利於後續分析的準確性。
圖 21 極端值檢測(Cook’s distance & Residual vs Leverage)
透過調整後模型殘差去檢測離群值,由上圖(21)可看出第 34、86、111 筆資料(分別為:高雄市桃源區、新竹縣竹北市、臺中市和平區)為影響點,
將此三筆資料從樣本中移除,於後續分析之剩餘樣本數為 170 筆。
四、
模型比較與選取
我們總共有年所得、人口成長率、青年比、餘屋數、產區距離等五個變 數,考慮使用不同變數的組合下共有 31 個不同的 model(null model 暫不 列入考慮)。
接著透過交叉驗證的 leave-one-out cross validation 計算各個不同 model 的 MAPE 和 MinMaxAccuracy 的平均之後再去做比較,目標是於在不 同的準則下找出同一個最佳模型。
表 4 在 MAPE 準則下的模型排序(由小到大)
經由交叉驗證後的結果在 MAPE 跟 MinMaxAccuracy 這兩個準則下前 幾名的排序是一樣的,但是由其輸出值可以看出之間的差距並不大,為了 進一步確認最佳模型,用 AIC/BIC 水準去做雙重驗證。
表 6 加入 null model 並以 BIC 為排序準則檢視其 AIC 與 BIC
排名 年所得 (萬)
人口成長率 (%)
青年比
(%) 餘屋數 產業距離
(公里) AIC BIC
1 ✓ ✓ ✓ 110.7205 126.3995
2 ✓ ✓ 115.1004 127.6436
3 ✓ ✓ ✓ 114.9385 130.6175
4 ✓ ✓ ✓ ✓ 111.9467 130.7615 5 ✓ ✓ ✓ ✓ 112.0887 130.9035
… … … …
31 ✓ 286.4253 292.6969 8(full) ✓ ✓ ✓ ✓ ✓ 112.411 134.3615 null 286.9677 296.3751
藉由 BIC 的二次驗證,我們可以確認由"MAPE"和"MinMaxAccuracy "準 則所挑選排名第一的模型為最佳模型,其後續迴歸模型為:log(房價)~年所 得+青年比+產區距離。
第四節 殘差檢定
殘差分析在迴歸分析中是非常重要的一環,其可以用來找出模型中的影響 點並檢定我們所選取的線性模型是否合適。
圖 22 殘差檢定
圖(22)為以上選出最佳模型的殘差檢定圖,Residuals vs Fitted(左上)可 以看出我們的殘差與反映變數之間無線性關係,故可判定殘差分布為隨機;
Normal Q-Q(右上)可以看出殘差的分布是符合常態分佈;Scale-Location(左 下)可以看出變異數是平緩的趨近於一個定值,說明殘差變異符合一致性;
Residuals vs Leverage(右下)在離群值的部分於前段已經預先剔除了,看起來 沒有明顯的極端值,故無需再做調整。
第五節 懲罰迴歸
在線性迴歸模型(linear regression)裡,已有很多變數選取方法被建立,
像是 best subset(AIC、BIC)選取法和 stepwise 選取法。雖然在實際應用上,
它們是有用且方便,但它們的理論性質較難獲得,且往往缺乏穩定性。
因此,我們透過懲罰函數(penalty function)來執行變數選取。此方法之 優點在於挑選變數時是自動且同時的估計參數。也就是說,它不像上述方法,
是在挑選玩變數後,再去進行參數估計的部分,而是參數估計和變數選取同時 進行,即刪除變數是藉由將參數估計為 0。這樣的懲罰函數椅背高度討論,較 為人知的懲罰函數有Lasso in Tibshirani (1996)、SCAD in Fan and Li (2001)、Elastic Net in Zou and Hastie (2005) 和 Adaptive Lasso in Zou (2006) 都已建立於線性迴歸模型,且皆成功延伸。
圖 23 懲罰函數
藉由懲罰函數(SCAD)的變數選取也可以發現,其最終所留下的變數為:年 所得(棕線)、青年比(綠線)、產區距離(紫線),與迴歸分析之結果相符。
第六節 預測曲線
圖 24 實際值&估計值交叉圖
選出線性回歸模型的主要目的就是為了要用來預測,實際值與預測值所交 叉繪製出的圖,其迴歸線如果呈 45 度的話,則可表示我們的預測結果是好的,
圖(24)可以看出我們選取的最佳模型預測結果是不錯的。
第七節 總結
經由模型比較交叉驗證的結果,可以得出以下迴歸模型:
𝑙𝑛(𝑌) = 𝛽̂
0+ 𝛽̂
1𝑋
1+ 𝛽̂
3𝑋
3+ 𝛽̂
5𝑋
5,
表 7 參數估計表
Intercept(𝜷̂𝟎) 年所得(𝜷̂𝟏) 青年比(𝜷̂𝟑) 產業距離(𝜷̂𝟓) Estimate -0.873 0.0207 0.0278 -0.0194
在預測房價中,估計模型所選出的變數為平均年所得、青年比、臨最近產 業園區距離,調整後模型解釋能力為 0.65,從參數估計可以觀察出年所得、青 年比和房價呈現正向關係,產區距離和房價呈現負向關係,這與我們直觀的認 知是相符的(如較高的所得與就業機會會有較高的房價),說明估計的方向正 確。
第五章 羅吉斯迴歸
transformation),也就是事件發生 (Y=1) 的勝算 (odds of event) 取自 然對數。(JianKai Wang。2018)