• 沒有找到結果。

應用大數據於杭州市房地產價格模型之建立 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "應用大數據於杭州市房地產價格模型之建立 - 政大學術集成"

Copied!
82
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學商學院 統計學系研究所 碩士學位論文. 應用大數據於杭州市房地產價格模型之建立. Price Model of Hangzhou. 學 ‧. ‧ 國. 政 治 大 The Application立 of Big Data Analytics on Real Estate. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授:鄭宇庭 博士 郭訓志 博士 研究生:郁嘉綾 撰. 中華民國 一百零七 年 四 月.

(2) 謝誌 時光荏苒,到了提筆致謝的時候,兩年的碩士生涯逐漸步入尾聲,回憶兩年 的期間經歷繁重的課業、忙碌的實習與比賽、無數次的田野調查、腸枯思竭的論 文研究,使生活豐富又充實,雖然有疲困倦怠的時候,學習不斷沉澱、放下、找 回當時的初心,引導我們回到正軌並踏實的向前走。課業、研究做為研究生的本 分,也讓個性急躁的我學會靜下心來探索、架構,以做學問的態度與方法一步步 完成論文。 首先,我要感謝指導教授鄭宇庭博士、郭訓志博士,在開始尋找論文題目時,. 政 治 大 心的檢視與建議,指正可能的問題所在、適時給予鼓勵與協助,讓我可以更好地 立. 給我自由發揮的空間並引導我思考題目的可行性,在每一次論文指導時間給予細. ‧ 國. 學. 抓住寫論文的步調,能夠在學期間完成論文架構與撰寫。同時,承蒙口試委員謝 邦昌博士、鄧家駒博士,在口試前細心閱讀我的論文,口試時給予寶貴意見,使. ‧. 本研究更趨於完善,特此感謝。. sit. y. Nat. 亦感謝求學時間一同努力的鄭宇庭老師團隊的學長姐、同學們的指教與協助,. al. er. io. 讓我面對問題能夠迎刃而解、互相扶持,在我需要幫助的時候適時伸出援手、給. v. n. 予關心與提醒,除了學業,更是培養指正了我步入社會前的態度與能力。. Ch. engchi. i n U. 最後要感謝我的家人的支持與陪伴,爸爸不時陪伴、提醒我要抓緊時間完成 論文,規劃下一步的學習與方向,媽媽在我疲倦的時候以幽默的笑話與豐盛的佳 餚融化我的心,弟弟在我無法趕回家的時候總是給予我支持、協助,以及我的男 朋友給予我鼓勵與陪伴,成為我前進的動力。真心感謝一路教導我、幫助我、關 心我、磨練我的人,讓我可以磨練個性、培養能力面對更高的挑戰。. 郁嘉綾. 謹誌於. 國立政治大學統計研究所 中華民國一零七年四月.

(3) 摘要 互聯網的發展與近年來數據平台受到公私部門重視,資訊的取得與流通變得 便捷,中國房地產文化目前有別於台灣,尚無實價登錄機制且地域面積廣大,傳 統估價模型可能無法直接應用,面對房地產背後眾多的影響因素,本研究將預測 建模目標放在泡沫化尚不嚴重且較具有潛力的中國新一線城市杭州市,自新浪二 手房網爬取杭州市房地產數據,並自國家統計局取得各地區行政支出數據,作為 實證分析資料。結合自動程序爬蟲抓取數據、統計分析與機器學習方法,期望對. 政 治 大 在分群結果之後建構模型採用之技術為 C5.0、三層 CHAID、五層 CHAID 立. 中國房地產建立一混合非監督式與監督式學習之模型。. 與 Neural Network,挑選出最適合的模型為使用混合模型後的 C5.0 決策樹方法,. ‧ 國. 學. 達到降低變數維度亦提升或達到相當的預測準確率的雙贏目標,模型中行政地區、. ‧. 面積、總樓層為最頻出現的重要變數。. y. Nat. 另外透過集群分析於行政支出的應用,發現 2016 年度杭州市投入的行政支. er. io. sit. 出集中於余杭區、蕭山區、濱江區,成為賣屋及購屋者的第二項決策標準。. al. n. v i n 【關鍵字】 房地產估價、大數據、神經網絡、混合模型 Ch engchi U. I.

(4) Abstract In recent years, with the growth of the Internet and the importance of data platform on public sector and private sector. Getting and sharing information are made easily. The culture of real estate in China is different from Taiwan. For instance, there is no actual house price registration system. Furthermore, traditional estimate model may not be directly applicable to China which has the vast geographical area of the mainland. There are many factors to influence house price model. This study focus on Hangzhou city. Because the burst of real estate bubbles is not serious as first-tier. 政 治 大. cities and it is one of new first-tier cities in China. The research data were crawler. 立. from Sina second-hand housing website and National Bureau of Statistics. By using. ‧ 國. 學. auto web crawler skill, statistical analysis, and machine learning method to build a real estate model in China, which was combining unsupervised learning method with. ‧. supervised learning method.. y. Nat. io. sit. After clustering Hangzhou second-hand housing data, this study used C5.0, three. n. al. er. layers Chi-Square Automatic Interaction Detector(CHAID), five layers CHAID, and. i n U. v. Neural Network(NN). The study goal are both reducing dimension and getting better. Ch. engchi. forecast accuracy. Choosing clustering- C5.0 model as appropriate house price model to achieve win-win situation after comparing final result. Administrative region, area, and total floor are the top three high frequency influential factors. Applying Clustering Analysis to administrative expenses data in Hangzhou, the study found that the government resource focus on Yuhang, Xiaoshan, and Binjiang. It can be the second decision-making criterion for house sellers and house buyers.. 【Keywords】Appraisal of real estate, Big data, Neural Network, Mixed model II.

(5) 目錄 摘要................................................................................................................................ I Abstract ........................................................................................................................ II 目錄.............................................................................................................................. III 表目錄........................................................................................................................... V 圖目錄..........................................................................................................................VI 第一章 緒論................................................................................................................ 1 第一節. 研究背景與動機........................................................................................ 1. 第二節. 研究目的.................................................................................................... 3. 第三節. 研究流程.................................................................................................... 3. 立. 政 治 大. ‧ 國. 學. 第二章 文獻探討........................................................................................................ 5 房地產價格之相關文獻............................................................................ 5. 第二節. 房地產特徵估價方法.............................................................................. 10. 第三節. 混合模型.................................................................................................. 12. ‧. 第一節. sit. y. Nat. io. er. 第三章 研究設計與方法 ......................................................................................... 14 第一節. 資料來源.................................................................................................. 14. 第二節. 研究架構.................................................................................................. 14. 第三節. 操作性變數.............................................................................................. 15. 第四節. 研究方法.................................................................................................. 18. n. al. Ch. engchi. i n U. v. 第四章 實證分析...................................................................................................... 24 第一節. 數據預處理.............................................................................................. 24. 第二節. 探索性分析.............................................................................................. 27. 第三節. 集群分析.................................................................................................. 36. 第四節. 平均數檢定.............................................................................................. 40. 第五節. 預測模型.................................................................................................. 42. 第六節. 未來房屋趨勢分析.................................................................................. 47 III.

(6) 第五章 結論與建議 ................................................................................................. 52 第一節 研究結論 .................................................................................................... 52 第二節 研究建議 .................................................................................................... 54 參考文獻...................................................................................................................... 55 中文文獻 .................................................................................................................. 55 英文文獻 .................................................................................................................. 57 附錄.............................................................................................................................. 59 一、整體 C5.0 模型樹枝圖 .................................................................................... 59 二、蛋黃區 C5.0 模型樹枝圖 ................................................................................ 66. 治 政 四、蛋殼區 C5.0 樹枝圖 ........................................................................................ 73 大 立 三、蛋白區 C5.0 樹枝圖 ........................................................................................ 70. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. IV. i n U. v.

(7) 表目錄 表 1-1 中國 GDP 年度核算結果表 ............................................................................. 2 表 2-1 經濟面四種市場結構分類表 ........................................................................... 6 表 3-1 杭州市房源變量說明表 ................................................................................. 15 表 3-2 杭州市各行政區公共預算支出項目表 ......................................................... 17 表 4-1 房屋變數預處理方式表 ................................................................................. 25 表 4-2 房屋變量說明表 ............................................................................................. 26 表 4-3 杭州市各區域房地產房源數量、百分比表 ................................................. 28. 政 治 大 表 4-5 杭州市在各地區房源朝向上之平均單價(萬元/平米)表 ............................. 32 立 表 4-4 杭州市各區域房地產平均總價、單價、面積表 ......................................... 29. ‧ 國. 學. 表 4-6 杭州市在各地區裝修程度上之平均單價(萬元/平米)表 ............................. 33 表 4-7 杭州市在各地區產權類型上之平均單價(萬元/平米)表 ............................. 34. ‧. 表 4-8 杭州市在各地區房屋類型上之平均單價(萬元/平米)表 ............................. 35. sit. y. Nat. 表 4-9 杭州市各行政區房源平均資訊表 ................................................................. 36. al. er. io. 表 4-10 杭州市房源分群結果表 ............................................................................... 38. v. n. 表 4-11 房源三大地區別之房屋單價變異數分析表 ............................................... 40. Ch. engchi. i n U. 表 4-12 房源三大地區別之房屋單價的多重比較檢定表 ....................................... 41 表 4-13 杭州市分群狀況表 ....................................................................................... 42 表 4-14 C5.0 模型正確率比較表................................................................................ 45 表 4-15 三層 CHAID 模型正確率比較表................................................................. 46 表 4-16 五層 CHAID 模型正確率比較表................................................................. 46 表 4-17 Neural Network 模型正確率比較表 ............................................................. 47 表 4-18 杭州市公共支出分群平均金額表 ............................................................... 50. V.

(8) 圖目錄 圖 1-1 研究流程圖 ....................................................................................................... 4 圖 2-1 混合集群分析與決策樹方法流程圖 ............................................................. 13 圖 3-1 Neural Network 結構圖 ................................................................................... 22 圖 4-1 杭州市按房源區域之房屋數量比例統計圖 ................................................. 27 圖 4-2 杭州市十三區平均交易單價圖 ..................................................................... 29 圖 4-3 杭州市十三區平均交易總價圖 ..................................................................... 30 圖 4-4 杭州市十三區平均交易面積圖 ..................................................................... 30. 政 治 大 圖 4-6 杭州市行政區域圖立 ......................................................................................... 39 圖 4-5 杭州市房源分群結果圖 ................................................................................. 37. ‧ 國. 學. 圖 4-7 杭州市行政區域房源數據分群結果圖 ......................................................... 39 圖 4-8 整體數據分割圖 ............................................................................................. 43. ‧. 圖 4-9 蛋黃區數據分析圖 ......................................................................................... 43. sit. y. Nat. 圖 4-10 蛋白區數據分析圖 ....................................................................................... 44. al. er. io. 圖 4-11 蛋殼區數據分析圖 ....................................................................................... 44. v. n. 圖 4-12 杭州市公共支出分群結果圖 ....................................................................... 48. Ch. engchi. VI. i n U.

(9) 第一章 緒論 本章於第一節中,描述中國房產業的現況與杭州房地產的相關背景。第二節 為了能夠了解杭州房產業發展情勢與給予購屋民眾較好的購房建議等研究動機, 擬定研究目的。於第三節將研究流程加以闡述。. 第一節 研究背景與動機 互聯網的發展引領世界資訊的流通,訊息與數據量不容小覷,資料規模龐大 且種類多樣,較難以人工方式一一判讀,需要有系統化的方式擷取資料,使用非. 政 治 大 業與調研公司開始重視數據的保存與展示,各國家政府亦開始推動政府公開資訊 立. 結構化的數據庫儲存,並透過清理、建模程序,找出數據當隱含的價值。民間企. ‧ 國. 學. 平台,中國統計局以「統計工作是國民經濟和社會發展的重要基礎性工作。決策 科學化必須建立在準確的統計資料和定性、定量分析的基礎之上。在開放平台中. ‧. 提供更多更好的優質統計服務。用不斷透明的制度方法,透明的資料流程,接受. sit. y. Nat. 社會監督,廣泛汲取內外部智慧和力量,共同推動統計的改革和發展。」奮力推. al. er. io. 進統計能力、資料品質和政府統計公信力。. v. n. 在探索眾多領域中,房地產業在中國經濟體系中佔有重要的地位,自 2008. Ch. engchi. i n U. 年開始中國市場先後降息五次,貸款利率由 7.47%下調至 5.31%,尤其五年期以 上個人住房公積金貸款利率由 5.22%下調至 3.87%,更調整最低首付款比例,房 地產市場活絡到大肆傳出泡沫化的疑慮,在貨幣政策寬鬆的背景之下,產地產成 為民眾保值的選擇。中國銀行業理財市場半年報(2016)報導中,2016 年中國實體 經濟的理財資金餘額 16.03 萬億元,其中投向房地產占了 13.06%,高達 2.08 萬 億的理財資金餘額進入房地產業。國家統計局發布 2015 至 2017 年 GDP 核算數 據如下表 1-1,隨著 GDP 的提升,房地產業 GDP 絕對額度亦提升,使近三年房 地產業佔 GDP 總額比例逐年提升。. 1.

(10) 表 1-1 中國 GDP 年度核算結果表 年度. GDP 總額(億元). 房地產業 GDP 額(億元). 房地產佔比(%). 2015. 676,708. 41,308. 6.10. 2016. 744,127. 48,133. 6.47. 2017. 827,122. 53,851. 6.51. 房地產除了能夠反映國家、地區經濟活動的狀態,亦攸關人民是否得以安居, 是整個國家社會和諧的條件之一。房地產市場的發展與平衡有賴於不動產估價, 不動產相關資訊較不流通的情況下,價格受到建商、仲介業者所掌控,一般民眾. 政 治 大 一個統一且能夠多方考量的估價制度,而估價人員也可能依照經驗而有不同的評 立 較難具備背景知識自行估價,過去多仰賴專業房屋鑑價師或估價公司進行,尚無. 價標準,以致買賣雙方資訊不對等、預期價格的落差與不平衡,除了民眾之外,. ‧ 國. 學. 更加精確的估價房地產對於金融業貸款業務亦有影響,種種因素為房地產交易多. ‧. 了幾道障礙。台灣內政部於 2012 年 8 月推動不動產實價登錄制度,不管是自售. y. Nat. 或委託仲介業買賣房屋或預售屋,必須在完成所有權移轉登記 30 天內申報登錄,. 的房屋銷售實價公開資訊可以提供民眾做參考。. al. er. io. sit. 否則將受到處罰,為房價資訊揭露,使市場趨於透明化,不過中國目前尚無公開. n. v i n Ch 許易民(2011)歸納近來中國房地產價格暴增因素,包含貨幣供給增加、房地 engchi U. 產市場活絡推動民眾信心、國企投機行為與地方政府賣地財政,造成中國高房價. 與泡沫化的嚴重問題,北京、上海、廣州、深圳等一線城市房價更是居高不下, 本研究將預測目標放在泡沫化尚不嚴重且較具有潛力的中國新一線城市杭州市, 期望站在購屋民眾角度出發。將透過自動程序爬蟲與資料採礦技術,以機器學習、 數據挖掘的流程,探討城市當中各地區行政區域房源特性,了解房地產特性與單 價的關聯,結合非監督式學習與監督式學習方法建立混合模型,萃取其中價值。. 2.

(11) 第二節 研究目的 本文研究重點在於探討中國各行政區域特性對於房源市場的區隔性,面對尚 無實價申報平台的中國,期望建立一套混合優化模型於中國城市各行政區域房源 數據,透過前人理論的延伸、文獻的支持與實證分析下,結合自動程序爬蟲抓取 數據與統計分析、機器學習方法,達到以下幾點目標: (一)藉相關文獻探討與整理,釐清影響中國房源價格的重要因素。 (二)以杭州市房源數據為例,依照地區房源特性分群後建立預測模型,達到降低 變量維度並能提高準確率的雙贏目標。. 政 治 大. (三)透過重要因素,包含房屋特性與政府相關公開資料給予地方區隔,提供購屋 者在決策前參考。. 立. ‧ 國. 學. 透過以上幾點目標,達到了解杭州房產業發展情勢與給予購屋民眾較好的購 房建議等研究動機。. ‧. 第三節 研究流程. y. Nat. sit. 本文共分為五章,第一章為本文緒論,其中第一節為研究背景與動機、第二. n. al. er. io. 節為研究目的、第三節為研究流程。第二章為相關文獻探討,其中第一節探討房. i n U. v. 地產特性與影響房地產價格之相關文獻,第二節為房地產特徵估價方法說明與近. Ch. engchi. 年來國內外的相關應用,第三節為二階段模型的說明與國內外相關應用。第三章 為研究設計與方法,其中第一節為研究架構,說明本研究實證流程,第二節為資 料來源介紹、第三節為研究方法的介紹。第四章為實證分析,包含第一節將數據 爬取與預處理的動作,第二節透過探索性分析了解數據特性,第三節透過集群分 析將房源依照特徵分組,區分出住宅房源的蛋黃區、蛋白區與蛋殼區域,第四節 對以上三區作房源單價的平均數檢定,探討之間的顯著關係,第五節透過分群結 果進行第二階段的預測模型並評估最佳模型,第六節透過文獻結果使用各地區行 政支出進行分群,對未來房價可能變化作預測與建議。第五章將為本研究之結論 3.

(12) 與建議,以下流程圖 1-1 表示。. 研究背景與動機. 擬定研究目的. 立. 政 治 大 探討相關論文. ‧. ‧ 國. 學 數據蒐集與預處理. n. er. io. sit. y. Nat. al. Ch. 研究方法. engchi. 實證分析. 結論與建議 圖 1-1 研究流程圖 4. i n U. v.

(13) 第二章 文獻探討 本章分為三節,第一節探討房地產價格相關文獻,包含房地產特性介紹並探 討影響房價因素、影響房屋屬性,以期對房地產特性、房地產市場及影響不動產 價格因素有更進一步的了解,第二節回顧了解房地產估價方法與相關應用的文獻, 對於後續建模分析有初步的了解與規劃,第三節參考二階段方法成效與方法,建 立本研究實證與預測模型基礎。. 第一節 房地產價格之相關文獻. 政 治 大 際影響房地產價格因素有許多面向,涵蓋社會建設、經濟狀況、民眾預期心理、 立 儘管目前房仲網頁、實價登錄平台將房屋能掌握的資訊公開於網頁上,但實. 環境品質、政府政策等等因素,往往消費者僅能從現有的資訊、實地的勘查以期. ‧ 國. 學. 能夠評估房地產的價格。本節將探討過往學者研究成果,對房地產及其估價相關. ‧. 文章作整理,以對房地場市場架構有更進一步的了解。. sit. y. Nat. 一、房地產的特性. al. n. 之一,張金鶚(2003)列舉以下幾點房地產特性:. Ch. engchi. er. io. 房地產與一般商品特性不同,高額的價值對多數民眾而言是一生重要的決定. i n U. v. (一)不可移動性:不動產是定著於土地上的資產,所在的區位是重要因素,投資 者將關心不動產的區域性特徵,包含至學區距離、致商業區距離等等。 (二)異質性:區位條件、建築型式、鄰里環境等各個因素都可能不相同,因此房 地產商品沒有辦法像其他商品般生產完全相同的房地產,這便產生房地產市 場價格不容易統一的結果。 (三)昂貴性:房地產是許多人一生中所購買或投資最貴重的商品,動則百萬千萬, 因此購買或投資時應該非常慎重的考慮、比較。 (四)長久性:房地產不易損壞,生命週期很長,一般房屋建築物的耐用年限有五、 六十年,土地則幾乎無限。 5.

(14) (五)不可分割性:投資房地產不僅投資該房地產本身,也同時購買了其周圍環境、 公共設施、鄰居關係等。 (六)具投資與消費雙重性:房地產不像黃金、股票只有投資性,房地產同時也可 以居住或使用。 (七)市場供給需求調整緩慢:由於土地取得,施工期限等限制因素,使得房地產 的供給有 2~3 年的時間落差,房地產市場短期供給缺乏彈性,但長期還是有 彈性。而需求則是隨人口成長而成長,速度亦緩。 (八)公共介入性強:房地產市場受到都市發展、公共建設、都市計劃法規、稅賦. 政 治 大 從經濟學的角度來看房地產,謝振亮等(2017)闡述經濟學當中依照市場結構 立. 等財金政策的影響,對公共政策及計畫具相當的敏感度。. 學. 等四類,這四種市場結構特徵如表 2-1 所示。. 表 2-1 經濟面四種市場結構分類表. 完全競爭. 完全獨占. 獨占性競爭. 廠商數目. 很多. 唯一. 頗多. 產品品質. 同質. 市場訊息. 完全流通. 進出難易. 自由進出. 寡占. 少數(2-20 家). er. io. 獨特,無類似. n. al. sit. y. Nat. 項目. ‧. ‧ 國. 的不同將市場區分為完全競爭市場、完全獨佔市場、獨占性競爭市場、寡佔市場. i n U. 異質但類似. Ch 替代品 engchi. v. 同質或異質. 缺乏. 流通但不完全. 不流通. 很困難. 自由進出. 不容易 同質:水泥業、. 餐飲業、 農產品. 電力公司、. 鋼鐵業、玻璃業. 實例. 美髮業、 市場接近. 自來水公司. 異質:汽車業、 零售業 金融業、電信業. 資料來源:陳振亮、謝振環(2017) 房地產市場中,產品沒有標準規格且特質差異大、真實交易資訊較不流通, 6.

(15) 產品異質性明顯存在,所以歸類為獨占性競爭市場,具備廠商數目頗多、產品異 質但類似、市場訊息部分流通但不完全等特徵,不過其中進出市場自由可能要看 房源是否能快速變現而定。. 二、房價影響因素相關文獻 Oates (1969)應用二階段最小平方估計法研究影響美國房地產價格因素,透 過政府的政策,包含稅率、支出,房屋自身特性、距離,以及家庭本身收入情況 等變數來探討和房價之間的關係,研究發現各地區房地產價格與地方政府支出水 準呈現正向影響,與財產稅的稅率有負向影響。. 政 治 大 因素、個別因素等三大類型,以下詳加舉例說明: 立. 林英彥(2006)較全面的紀錄國內不動產價格影響因素,包含一般因素、區域. ‧ 國. 素、行政因素、社會因素、經濟因素等共同因素。. 學. (一)一般因素:為對於房地產狀態及其價格水準有全面影響的因素,涵蓋自然因. ‧. 1. 自然因素:地形、地質、氣候、汙染。. y. sit. al. er. io. 地使用計畫。. Nat. 2. 行政因素:政治局勢、不動產交易安全制度、國民住房政策、土地政策、土. v. n. 3. 社會因素:人口素質、人口密度、生活習慣、人口構成、都市化程度、都市 計畫、風土民情。. Ch. engchi. i n U. 4. 經濟因素:國民所得、消費水準、物價變動、財政收支、金融狀況、經濟景 氣、國民儲蓄、利率水準。 (二)區域因素:為影響鄰近地區不動產價格水準因素,小則鄰近社區而大則延伸 整座城市與國家,涵蓋交通設施、生活機能、公共設施、社區環境、天災危 害等面向。 1. 交通設施:周遭具備大眾交通工具、道路系統完善。 2. 生活機能:鄰近學校近便程度、鄰近市場近便程度、鄰近商業區近便程度、 街景配置。 7.

(16) 3. 公共設施:停車空間、土地使用狀況、鄰近公園廣場近便程度。 4. 天災危害:地段處於災害危險區域(例如:土石流、地震帶)、開發限制區、 飛航管制區的噪音振動影響。 (三)個別因素:為不動產受本身房屋條件影響,可分為土地因素和建物因素,土 地則細分為實質條件、法令限制與地方市場習慣,而建物則分成住宅本身與 住宅周圍環境。 1. 土地因素 (1) 實質條件:區位、鄰接道路、地形、地勢、高度、土地面積。. 政 治 大. (2) 法令限制:建蔽率、容積率、基地最小寬度、基地最小深度、建築物高 度、鄰棟間隔等。. 立. (3) 地方市場習慣:路角或路衝之增值或減值、土地使用習慣、土地交易習. ‧ 國. 學. 慣等。. ‧. 2. 建物因素. y. Nat. (1) 住宅本身:建築物及設備、維護、型式、屋齡、樓層數、總層數、房間. er. io. sit. 數、採光通風與景觀。. (2) 住宅周圍環境:土地利用、非居住土地的利用、不當公設及衛生、不當. al. n. v i n 社區設施、交通系統造成之危害、自然因素造成之危害。 Ch engchi U. 三、房屋特性對房價影響相關文獻. 過去許多研究探討不同房地產周圍環境所造成的影響,漸漸完整房地產市場 的研究,林建亨(2008)以鄰近南部科學園區周圍房源做區域因素分析,將商業區 與住宅區房地產交易數據分別建構房地產特徵價格模型與土地特徵價格模型,研 究結果發現房屋特徵價格模型最適合使用直線型函數,而文章當中提及影響房屋 總價最顯著的特徵為房屋面積,這個為非常直觀且面積對總價可能有共線性的影 響,研究可以修改做房屋每坪單價的研究,在土地特徵價格模型最是用雙邊對數 型函數,影響土地單價最顯著的特徵為臨街關係。房屋對南科距離具反向影響, 8.

(17) 距離南科越近則價格越高,南科對於鄰近房屋的效益大於風險。不僅南部科技園 區,紀侑廷(2014)所研究的新竹科學園區亦有此現象,使用特徵價格理論實證 2010 年至 2012 年竹科周遭房價影響因素,以傳統迴歸線性模式及半對數線性模 式建構新竹市、竹北市的房價特徵模型,實證結果顯示,以半對數線性模式所建 構之住宅房價特徵模型對新竹市、竹北市的房價皆具有高度解釋能力,兩者的判 別係數分別為 0.782 及 0.888。影響新竹市住宅房價的主要特徵為:使用樓層、 住宅類型、車位型態、區位、距竹科距離。而影響竹北市住宅房價的主因亦同於 新竹市外,尚有廳數、衛數。無論新竹市或竹北市,距離竹科愈近住宅房價愈高,. 政 治 大 而鄭偉安(2016)以高雄市不動產時價登入資訊為例,探討都市當中公園綠地 立. 竹科的設置顯著帶動周邊房價的效果。. 對於房價的影響,至實價登陸取得房屋基本結構資訊,包含總面積、屋齡、總樓. ‧ 國. 學. 層、樓高、房間數、廳數、衛浴數,相關環境變數包含與火車站距離、與市政府. y. Nat. 離與距離市政府距離對房價有顯著的影響性。. ‧. 距離、與公園綠地距離以及公園綠地面積大小,研究結果顯示房屋與公園綠地距. er. io. sit. 在房地產本質特性上,陳既翕(2013)說明南部地區房屋以透天厝為主,過去 較少研究探討透天住宅,南部地區住宅估計模型尚未完全建立,此研究有別於一. al. n. v i n 般房屋基本屬性與特徵,以透天厝相關屬性資料作為特徵價格模型變量,研究範 Ch engchi U. 圍為台南市永康區 2010 年至 2012 年已售新屋,研究中探討公寓大廈與透天住宅 房屋屬性影響房價的差異,發現建坪、基地面寬、臨路寬度、區位生活圈等特徵 變數對於透天住宅成交總價的影響是顯著而正向的。 尚有研究對於城市當中行政區做區隔分析,蔡育政(2009)研究台中市房地產 價格因素,期望對於一般房地產消費者建立購屋前的參考指標,研究範圍為 2000 年至 2008 年台中市北屯區、西屯區、南屯區、中區與東區五個行政區房地產交 易數據,發現屋齡在各行政區對房價皆有負面影響,路寬與移轉房屋面積對房價 有顯著正向影響,房屋用途類別在不同行政區有不同的定位,產生不同的影響, 9.

(18) 也因為研究時間橫跨九年,發現 2003 年 SARS 疫情期間房價顯著較低,於 2007 至 2008 年復甦。. 第二節 房地產特徵估價方法 過去中國房地產估價常用成本法、市場比較法、收益法、路線價法等方法進 行估價,林祖嘉、馬毓駿(2007)提出這些傳統估價方法較適用於不動產交易較不 頻繁與房地產之間差異性大的西方國家,隨著電腦運算的普及,國際上於業界與 政府機關已廣泛使用大量估價方法,即透過房源交易數據、調查資料建立一個估 計參數模型,再對母體的參數進行估計與推估其他不動產價值,其運用電腦運算. 政 治 大. 能迅速、用較低的成本並降低人為疏失地來進行不動產估價。. 立. 一、特徵估價法. ‧ 國. 學. 林祖嘉、馬毓駿(2007)說明大量估計法的實證研究於 Rosen(1974)提出特徵方 程式估計法(Hedonic equation method)後即被大量應用,普遍使用房地產價格與特. ‧. 徵變數以迴歸模型作為特徵方程式的估計模型,其方法簡單且易於解釋為廣泛使. y. Nat. sit. 用的房地產估價工具,形成一套完整體系理論,說明產品由特徵所組成,其價格. n. al. er. io. 也由特徵所決定,即為特徵價格理論,又稱為 Hedonic 模型法和效用估價法,由. i n U. v. 於特徵的數量和組合方式不同,使得房地產的價格差異性,若能將房地產價格影. Ch. engchi. 響因素分解,了解各項因素所隱含的價格,以純粹反映價格的變化。 房地產實證研究中,特徵價格模型應用上最重要的就是特徵變數的取得與選 取,影響因素眾多,若要完整蒐集到資料有諸多實務上的限制,一般小型研究較 難實行。以特徵方程式為基礎概念出發,Zhang et al.(2015)提到目前許多學者改 良大量估計模型作為不動產的估價方法與輔助工具,於下一部份將探討相關延伸 研究與回顧。. 二、國內外特徵估價法之應用 Jim & Chen(2006)比較過去中國房地產相關分析文獻,大多關注於供給與需 10.

(19) 求的關係之上,研究中提出 semi-log 特徵價格模型較線性模型更加有結構的剖析 住宅專用區房地產價格,探討環境因素對於廣州市房價的影響,使用五個與房屋 結構相關變量,包含樓層面積、樓層高度、房間數量、衛浴數量、房屋朝向,兩 個與住宅周圍表現的變數,包含是否有綠色空間、是否有交通噪音,兩個描述環 境舒適度的變數,包含是否周圍有種植植物、是否周圍有河流、湖泊等水體,與 一個跟房屋距離有關的變數,與市中心主要商場、政府機關的歐式距離,研究結 果顯示鄰近綠地和水體的房源,提高了 7.1%與 13.2%的房價,暴露於交通噪音 環境中不影響住戶支付意願,最終將模型判定係數由線性模型的 0.923 改進至. 政 治 大 在探討不同房屋屬性特性上,Kong et al.(2007)以地理資訊系統與地標數據改 立. semi-log 模型的 0.973。. 善特徵價格模型,探討山東省濟南市城市當中綠地對於房屋價格的影響,研究結. ‧ 國. 學. 果證實鄰近的城市綠地對房價有顯著而正向的影響,顯示住戶願意負擔生活環境. ‧. 舒適綠化的成本,透過研究量化環境設施對於住房隱含成本的影響,對於城市規. y. Nat. 劃決策者提出不容忽視城市綠地的建議。林祖嘉、馬毓駿(2007)使用建物特性與. er. io. sit. 總體因素來預測建物價格,包含陰間因素、人口流動因素、地區性與全國性指標, 以其掌握因素變化時對建物價格的影響,雖未能掌握時間因素的影響,就模型評. al. n. v i n 估結果發現只要房源數據夠大C ,結果就能與預期相近,相較於其他房地產估價法, hengchi U 大量估價法具備易於建立、低維護成本的優勢且不會喪失太多準確度。. 在模型的改良之上,陳樹衡等(2007)使用決策樹中的 Cubist 迴歸樹實踐特徵 價格理論,採用房屋本身屬性,諸如面積、地坪、公告現值、路寬、屋齡、樓層 等定量變數,以及房屋種類、建材、是否含車位等為定性變數,一共 25 個特徵 變數與此些變數平方項、交乘項建立模型。Cubist 迴歸樹模型相對於其他無母數 模型的表現來得佳,配適能力高且易於解釋。Peterson & Flanagan(2009)改良原始 特徵價格模型,提出類神經網絡特徵價格模型對房地產估價,類神經網路特徵價 格模型與原始特徵模型比較之下顯著生成較小的誤差,且其不依賴迴歸矩陣,因 11.

(20) 此能夠更好的處理放進來的虛擬變數。 應用公開資訊方面,杜雪君等(2009)探討中國房地產稅、地方公共支出對於 房價的影響,整體來說中國房產稅對房價有抑制、負向的影響,而地方公共支出 對房價有促進、正向的影響,兩者同時對房地產價格的淨影響為正,若兩者能夠 更好的配套組合能更有效的掌握房地產市場脈動,而以各區域的房地產稅所產生 的影響存在顯著差異,在地方公共支出所產生的影響也存在顯著區域差異,東部 顯著大於中、西部。 近年來劉叢欣(2011)以房價收入比過高、房價租金比偏高、月度償付率過高. 政 治 大 地方政府使土地升值增加財政收入以及過分強調房產業經濟地位等,提出應該改 立. 等現象提出中國房價偏高與泡沫化的現象,其原因歸咎於政府房控策略的不徹底、. 革收入分配結構、將產業重心放在新技術製造、新能源產業等來取代房產業。. ‧ 國. 學. 而盧世勳、劉雨芬(2012)描述都市化及所得快速增加的背景下而造成的結構. ‧. 性房價高漲因素、寬鬆貨幣政策引發投資盛行情況,讓中國房產市場有泡沫化的. y. Nat. 疑慮,並以房價所得比、房價租金比及空屋率等三項指標研判主要一線、二線城. er. io. sit. 市有泡沫化情況,尤其在北京、上海、深圳等主要城市顯嚴重,而中國政府透過 多次調高存放款基準利率、存款準備金率等方式冷卻房市,使漲幅縮小,避免步. n. al. Ch. 入日本 1980 年代後半期房市泡沫破滅之後塵。. engchi. i n U. v. Zhang et al.(2015)以深圳不動產為案例,在大量估價模型基礎上,建立空間 誤差大量估價模型,此模型較一般以迴歸為基礎的大量估價模型,使用模糊數學、 計量經濟學與地理資訊系統為基礎,擁有更均勻的殘差分布,並克服了原本空間 訊息應用不足的缺點,且在預測準確度上也有較好的表現。. 第三節 混合模型 Liang et.al.(2009)提出一個簡單而有效的非參數式選擇權價格預測方法,有 別於傳統的選擇權定價模式,該方法結合了類神經網路和支援向量迴歸,能專注 於非線性曲線的近似工作,證明混合模型有助於降低預測誤差。 而 Lee & 12.

(21) Chen(2005)利用混合模型對某家銀行的房貸資料庫進行信用評分,先以多元適應 性雲形迴歸找出重要的變數作為類神經網路的輸入節點,結果發現混合方法的預 測準確率高於使用單一方法。 張又仁(2014)使用 k-means 方法混合決策樹,期望將相同喜好餐廳的人群建 立預測模型,透過 k-means 分群首先可以解決計算量過大的問題並能計算使用者 與餐廳之間的距離,將評價資料、距離資料與分群結果進行彙整後再透過決策樹 建立預測模型,研究發現距離為重要考量因素,加入此因素可以提高預測準確度。 Pandey & Singh(2016)結合決策樹與集群分析法,提出改善準確度的資料採礦方. 政 治 大 料進行分析,將原本單一方法的預測準確度從 22%提升至混合方法的 65%, 立. 法並命名為 Clustered Data of Decision Tree(CDDT),將 2006 年至 2012 年犯罪資. CDDT 方法之概念圖如圖 2-1 所示,首先先將資料匯入使用集群演算法將相似的. ‧ 國. 學. 資料進行 k 群分群,初步探索資料的形樣,試著找出隱藏的形樣,接著再用決策. ‧. 樹演算法進行分類,與單一方法的結果比較後,使數據預測準確率得到改善。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2-1 混合集群分析與決策樹方法流程圖 資料來源:Pandey & Singh(2016) 而本文則是採用集群分析結果分別結合決策樹的 C5.0、CHAID 演算法與 Neural Network,以探討這三種組合的混合模式是否也會優於單方法,並比較出 何者為最佳的預測模型。 13.

(22) 第三章 研究設計與方法 第一節 資料來源 本研究透過 Python 自動爬蟲程序,爬取新浪二手房網站房屋出售數據,欄 位包含房屋所在區域、小區名稱、房屋總價、單價、房屋類型、樓層、房屋面積、 產權類型、房屋朝向、裝修程度、建築年份等,最後總計蒐集 129,996 筆資料。 另外一部分政府公開資料取自於 2017 杭州統計年鑑之中各區域公共預算支出資 料,取得杭州十三區域,一般公共服務、國防、公共安全、教育、教育費、教育. 政 治 大 畫、節能環保、排汙費支出、城鄉社區、農林水、交通運輸、資源探勘信息、商 立 費附加支出、科學技術、文化體育與傳媒、社會保障和就業、醫療衛生與生育計. 業服務業、金融支出、援助其他地區、國體海洋氣象、住房保障、糧油物資儲備、. ‧ 國. 學. 債務付息、其他等 23 項公共預算支出。. ‧. 第二節 研究架構. sit. y. Nat. 本研究自研究動機、目的出發,蒐集杭州市 2017 年 7、8 月期間之房源買賣. al. er. io. 資訊與價格數據,首先對數據進行清洗預處理,去除店面、商鋪等非住宅房源,. v. n. 接著進行探索性分析,初步了解杭州房源特性,再以集群分析將房源依照平均單. Ch. engchi. i n U. 價、屋齡、樓層等屬性進行分組,將特性相近的行政區分為一群,區分出杭州房 源的蛋黃區、蛋白區與蛋殼區,透過平均數檢定確認三群的顯著差異與大小,接 著將分群結果建立下一階段的預測模型,透過決策樹、類神經網路等方法以期達 到降低變數維度與提高正確率的雙贏局面,最後本研究更依據文獻研究結果建議 蒐集 2016 年度杭州市統計年鑑各行政區行政支出經費數據,依照 20 多種標準化 行政支出對行政區進行劃分,得到目前政策著重區域、次要區域、中度區域、輕 度區域與非重點區域,將前後結果給予購屋者的雙重建議。. 14.

(23) 第三節 操作性變數 自新浪二手房網爬取杭州市房源之各項操作型變數定義如下表 3-1: 表 3-1 杭州市房源變量說明表 變數名稱. 意義解釋 杭州市共有西湖、江幹、余杭、蕭山、濱江、拱墅、. 地區 下城、上城、富陽、淳安、桐廬、臨安、建德等 13 區 面積. 房源總面積,單位是平方米. 總價. 房源總價,單位是萬元人民幣. 單價. 房源每平方米價格,單位是萬元人民幣. 政 治 大. 房屋大門朝向 立. 房屋朝向. ‧ 國. 學. 毛坯、簡裝、中裝、精裝、豪裝、暫無等 6 類,於表格. 裝修程度. 下方作定義說明. ‧. 公房、房改房、商品房、集體房、經濟適用房、其他、. 產權類型. y. sit. io. 公寓、商住樓、排屋、普通住宅、經濟適用房等 5 類,. n. al. 於表格下方作定義說明. 房屋規劃. Ch. engchi. er. Nat 房屋類型. 暫無等 7 類,於表格下方作定義說明. i n U. v. 包含房屋幾室幾廳幾衛,共有 185 類. 屋齡. 範圍由 0 至 117. 室數. 範圍由 0 至 10. 廳數. 範圍由 0 至 10. 衛數. 範圍由 0 至 10. 房樓層. 範圍由 1 至 94. 總樓層. 範圍由 1 至 99. 15.

(24) 變數名詞定義: 1. 裝修程度: (1) 毛坯房主要是指建築室內不做任何裝修,牆面、地面、頂面沒做任何面 層,室內無門扇、只有門框,衛浴間內也沒有任何設備,只有給水、排 水的接口。 (2) 簡裝房主要是指居室內內部做了一些簡單的裝修,比如整個室內只有衛 浴間的地面、牆面、頂面做了簡單的面層,室內設有內門,衛浴間內設 置有中檔的位於設備;廚房內設置了可操作的料理台、水龍頭、洗滌盆. 政 治 大 (3) 中裝就是中檔裝修,介於簡裝修和精裝修之間的一種比普通裝修高點的 立 等;室內設置了可供使用的簡單的燈具。. 中檔裝修,包括簡單的櫥櫃,還有淋浴、電視沙發等,費用也是介於簡. ‧ 國. 學. 裝和精裝之間。. ‧. (4) 精裝房主要是指對房子進行了精裝修,比如室內採用木材製作了儲藏櫃、. y. Nat. 地面做了精心的處理、頂面做了舒適的吊頂,並設置了精美的燈具等,. 慮,精裝修之後的房子就可以直接入住了。. al. er. io. sit. 總之是指整個居室在空間設計、施工工藝、軟裝等方面經過了全面的考. n. v i n (5) 豪裝是針對以上的精裝修所說的,主要意思是裝修的質量和材料都是要 Ch engchi U 上等品的,耗費資金較多,屬於高檔奢侈的裝修效果。. 2. 產權類型: (1) 公房為過去國家/單位分的房子,產權屬於政府或者單位。 (2) 房改房一般地段優越,且擁有較為成熟和完善的配套設施,成為二手市 場上廣受熱捧的產品。 (3) 商品房就是開發商正規拿地蓋出來的房子。 (4) 集體房為單位集資蓋的房子,在過去有一些開發商也混在裡面。. 16.

(25) (5) 經濟適用房、廉租房是我國的保障性住房,前者是賣,後者是租,都是 符合一定的條件才可以申請,用來解決高企的房價和漲不上去的工資之 間的矛盾。 3. 房屋類型: (1) 公寓以商用水電費計價,土地使用年限為 50 年。 (2) 商住樓大樓為商、住兩用,商住樓一般底層(或數層)為商場,其餘為 住宅的綜合性大樓。 (3) 普通住宅按民用計價,土地使用年限為 70 年。. 政 治 大 堵牆。經濟適用房以微利價向中低收入家庭出售。 立. (4) 排屋為多幢相連的雙層或多層房屋組成,排屋之內相鄰的房屋共用同一. 而自杭州市政府開放資料取得 2017 年杭州市統計年鑑中,本研究應用各行. ‧ 國. 學. 政區 2016 年度按功能分類之公共預算支出金額(萬元人民幣),如表 3-2 所示:. ‧. 表 3-2 杭州市各行政區公共預算支出項目表. 預算支出名稱. 一般公共. 交通運輸. sit. 資源探勘信息. n. al. er. io. 國防. y. Nat. 預算支出名稱. 公共安全. Ch. 教育. engchi. iv n U 工商業服務業 金融支出. 科學技術. 援助其他地區. 文化體育與傳媒. 國土海洋氣象. 社會保險和就業. 住房保障事務. 醫療衛生與計畫生育. 糧油物資儲備. 節能環保. 債務付息事務. 城鄉社區事務. 其他. 農林水事務 17.

(26) 第四節 研究方法 本研究以探索性分析為基礎,初步了解數據的情況與可能的異常來進行預處 理,正式研究方法進一步透過資料採礦方法,挖掘巨量數據當中隱含的資訊,應 用領域涵蓋客戶、商品、精算、衛生醫療、預測等等,其結果得以延伸做為決策 之用,能夠為企業與個人帶來優勢,本研究主要應用集群分析、決策樹與類神經 網路進行分析,於以下小段將逐一進行介紹與應用探討。. 一、集群分析 (一)集群分析概述. 政 治 大. 集群分析是資料採礦實務中經常使用的方法之一,其將觀察值或變數透過距. 立. 離與相似程度,將距離相近、屬性近似的分成同一群組,使同一群當中數據有高. ‧ 國. 學. 度的同質性,研究中可透過集群分析初步了解資料的大類型,對資料或觀察值做 初步的特徵探討與命名,過去研究中多應用在顧客的客群劃分、商品屬性劃分、. ‧. 區域特徵劃分等等之上。集群分析對於組別和屬性無事先的了解,甚至不會確定. y. Nat. sit. 到底應該產生多少群,這正是集群分析和其他資料採礦方法的區別,無預先設定. n. al. er. io. 的輸出結果與目標欄位,因此集群分析又被稱為無監督學習模型,沒有外在的標. i n U. v. 準可以評估這個方法的效能,集群分析的價值存在於能從資料中區分、探索到有. Ch. engchi. 趣的分組與對各組的描述。本研究使用的集群方法為 k-means 集群方法,以下為 四個步驟: (1)必須先確定集群的群數; (2)計算每個觀測值到各群重心的距離,將每個觀察值分到距離重心最近的一群, 以此調整分群; (3)重新計算每一群的權重; (4)重複(2)~(3)動作直到沒有觀測值可以做調整為止。 (二)集群分析結果與應用 18.

(27) 集群分析使分析者可以更快釐清數據全貌,沈瑋婷(2014)將香港地區四大國 際性拍賣之法國紅酒拍賣交易紀錄,以集群分析方法探討紅酒拍賣價格特性、成 交單位與成交績效的分群關係,文章中將近三年來的拍賣資料分成三個集群,分 別為成交績效高但交易價格低、成交績效低但成交價格高與成交績效與價格皆低 等三群,接著探討每一群當中紅酒的品牌、產地、等級與年份,得知各項紅酒市 場潛力與投資展望。 在人口應用方面,陳京群(2017)以台北市各里之人口特性做為分群依據,涵 蓋人口密度、性別比、老化指數、可支配所得、有偶率與教育程度等變數,將全. 政 治 大 行更進一步的探討,以瞭解台北市各區里人口特性與不動產交易特性的關聯性。 立 台北市 443 個里分成老舊社區、中產階級與雙薪家庭等三群,接著對於此三群進. ‧ 國. 學. 二、決策樹分析 (一)決策樹概述. ‧. 本研究所使用的 Clementine 環境當中,決策樹演算法包含 C&R Tree、CHAID、. y. sit. al. er. io. (1) C&R Tree. Nat. C5.0 與 QUEST(謝邦昌等,2017)。. v. n. 稱為分類迴歸樹,即 CART 樹狀結構演算法,此方法使用遞迴分割將訓練紀. Ch. engchi. i n U. 錄分割為具有相似輸出欄位值的節點,其透過檢查輸入欄位找到最佳分割,分割 可定義兩個子組,其中每個子組隨後又被分割為兩個子組,依此類推直到觸發其 中的停止條件為止,所有的分割都是以二元為原則。而 C&R Tree 模型建立條件 需要一個或多個輸入變數和一個預測變數,可以是連續型或類別型欄位。C&R Tree 的優點在於可以處理具遺漏值或大量變數的資料,其穩健的性質使訓練時間 不會過長,其模型結構也易於解釋。 (2) CHAID 為 Chi-squared Automatic Interaction Detection(卡方自動交互作用偵測)的縮 寫,是一種透過使用卡方統計量識別最佳分割,來建構決策樹狀結構的分類方法。 19.

(28) CHAID 首先檢查每個預測變數和結果之間的交叉表格,接著使用卡方獨立性檢 定來檢定顯著性。如果以上多個關係具有顯著的統計意義,則 CHAID 將選擇最 顯著的預測變數。如果預測變數具有兩個以上的類別,將會對這些類別進行比較, 然後將結果中未顯示出差異的類別合併在一起。此操作透過將顯示的顯著性差異 最低的類別對相繼合併在一起來實現。當所有剩餘類別在指定的檢定水準尚存在 差異時,此類別合併過程將終止。 (3) C5.0 C5.0 演算法的工作原理是根據提供最大資訊獲利(Information Gain)的欄位. 政 治 大 最後將重新檢查最底層的分割結果,並刪除或修剪對模型沒有顯著貢獻的分割依 立. 來分割樣本,接著繼續由不同的欄位往下分割,會重覆到無法繼續分子樣本為止,. 據。樹的每個終端節點可描述訓練資料的特性子集,而訓練資料中的每個觀測值. ‧ 國. 學. 都完全屬於樹狀結構中的某個終端節點,也就是每一個觀測值僅有一個預測結. ‧. 果。. y. Nat. 實現 C5.0 的條件是訓練模型需要一個或多個輸入變數(自變數)以及一個輸. 其模型的規則使模型解釋起來更簡明易懂。. n. al. (4) QUEST. Ch. engchi. er. io. sit. 出變數(欲預測變數),C5.0 模型十分穩健,適用具遺漏資料、大量輸入變數情況,. i n U. v. QUEST 又稱快速、不偏且有效的統計樹狀結構,是 Loh & Shin(1997)建構 的二元迴歸樹方法,此方法可以減少包含很多變數或觀測值的大型 C&R Tree 所 需處理的時間,其使用統計檢定確定是否使用預測變數,若目標變數是連續型變 數,則使用 ANOVA 鑑定,若目標變數是類別型變數則使用卡方檢定,其分支的 準則是透過選擇 p-value 最小且小於α之變數作為最佳分支變數。 (二)決策樹研究結果與應用 決策樹起源於 1966 年左右,其清楚簡易的架構,現今仍受學者的愛戴,曾 仁人(2014)透過羅吉斯迴歸、決策樹方法,以行政院國家科學委員會傳播調查資 20.

(29) 料庫數據,建構網路消費者個人特質與購買習性預測模型,研究結果比較之後得 到最佳的 QUEST 決策樹模型預測準確度最高,且發現現實人際互動較差之消費 者,網購習慣佳,沒有小孩且平均月入 6 萬至 10 萬元的消費者,網購消費力強, 給予相關電子購物平台應針對潛在客戶進行相對應的廣告宣傳。 而 呂 宜 倫 (2016) 應 用 決 策 樹 當 中 的 分 類 與 迴 歸 樹 (Classification and Regression Tree) 與 卡 方 自 動 交 互 偵 測 法 (Chi-Squared Automatic Interaction Detection)對高性能混凝土之抗壓強度數據進行預測,建立模型並使用預測誤差 指標來評估模型,研究結果顯示,分類與迴歸樹模型對高性能混凝土之抗壓強度. 政 治 大 三、神經網絡(Neural Network) 立 的預測較為準確。. ‧ 國. 學. (一)神經網絡概述. McCulloch & Pitts(1943)提出第一個人工神經元模型,其主要靈感是來自模. ‧. 仿生物神經元的運作模式,是一種模擬人腦神經組織和功能的網路系統,其具有. sit. y. Nat. 有效處理非線性關係資料的特性和強大的學習傳遞能力,不需要預先對資料型態. al. er. io. 進行假設驗證,即使輸入變數夾雜不正常的條件下,亦不會影響到其整體運作,. v. n. 因此其分類效果通常會優於資料要符合基本假定的統計模型,且可處理大量的資. Ch. engchi. 料,非常適合運用在模仿人類決策的分析上。. i n U. 藉由電腦快速運算的功能,神經網路便是透過模仿人類神經網路,促使電腦 具有推論結果的效用,但必須經過學習的過程才能夠擁有推論能力,要先告訴它 什麼樣的情況會得到什麼樣的結果,建構出輸入與輸出關係的模型。有了這樣的 系統模型便可進一步用於推估、預測、決策、診斷,提供越多正確、差異性大的 範例,就能夠獲得越正確的預測,甚至於沒有學過的範例,它也能告訴你可能的 結果。因此類神經網路也可以視為一種特殊形式的統計技術。 謝邦昌等(2017)在 Clementine 環境下實作 Neural Network,簡稱為 NN,其 基本單位是仿人類神經元,許多神經元組織再一起形成層次,如圖 3-1 所示: 21.

(30) 圖 3-1 Neural Network 結構圖. 政 治 大 輸入資料被展示在第一層 立 ,資料值由每一個神經元傳給下一層次的每一個神. 資料來源:謝邦昌等(2017). ‧ 國. 學. 經元。這些資料值在傳送中被加權不斷修改,最初的加權是隨機給予的,但經過 訓練與學習後,已知的輸出結果會被重複引入到網路,把所得的結果與已知結果. ‧. 進行比較,並返回到網路,逐漸地改變加權,隨著訓練的進行,網路在重複已經. y. sit. al. er. io. 出層輸出。. Nat. 結果時變得更加精確,待訓練完成,網路可被運用於結果未知的案例,最後由輸. v. n. 預測模型的解釋變數與預測變數之間多了一層隱藏層來建立資訊間的關係,. Ch. engchi. i n U. 在隱藏層裡將組合的輸入變數經過轉換,產生對應的輸出值。假設輸出值與預期 值相同,連結到此輸出單元的強度則不變,但若是該輸出 1 卻輸出 0,便會加強 此單元的連結強度,反之,則降低該單元的連結強度,透過調整連結強度來學習。 類神經網路的預測準確,在於模型不斷地訓練(Training),讓類神經網路能夠透過 反覆的學習來修正模型權重,直到能將每個輸入值皆正確分類到對應的輸出值為 止。 (二)神經網絡研究結果與應用 從環境面來看神經網路之應用,林逸塵(2002)探討高雄市區之空氣汙染物對 懸浮微粒濃度及能見度之影響,以類神經網路預測懸浮微粒濃度與能見度,透過 22.

(31) 季節將資料分組,發現夏季預測結果較冬季為佳,而在懸浮為例的預測結果較佳, 能見度部分尚待改善,研究也建議使用神經網路時應蒐集充足的變量與觀測值, 以利模型訓練。 而隨著數據量的增加,蔡育展(2017)透過 GPU 建立類神經網路運算系統, 改進過去使用 CPU 運算需要耗費大量時間的缺點,使用 104 年台北市不動產交 易住宅資料對 GPU 神經網路進行訓練,實證運作速度有明顯的提升,於分析前 對於價格進行分組有助於提升預測能力,改善過去房地產大量數據運算時間過長 與資訊不完全流通造成價格受專業人士掌握的情況。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 23. i n U. v.

(32) 第四章 實證分析 本章於第一節檢查並清洗自新浪房屋網自動爬取的資料;第二節針對杭州房 屋刊售之區域、小區名稱、房屋總價、單價、房屋類型、樓層、房屋面積、產權 類型、房屋朝向、裝修程度、建築年份等資料,進行探索性分析,鎖定住宅用房 屋並初步了解數據特徵;於第三節中透過集群分析,以房源特徵探討杭州市房源 的區隔性,將針對分群結果提供購房建議,定義出杭州市的蛋黃區、蛋白區、蛋 殼區;於第四節中對蛋黃區、蛋白區、蛋殼區三區域做房源價格的平均數檢定, 了解各地區差異的顯著性與正負向關係;於第五節透過比較決策樹與類神經網絡. 政 治 大. 方法找到最佳模型,建立房源價格的預測模型;於第六節使用 2016 年度杭州市. 立. 統計年鑑各行政區支出數據,將其進行標準化與分群動作,以其了解政府政策方. ‧ 國. 學. 向,結合第四節分群出蛋黃區、蛋白區與蛋殼區結果對購房者提供更全面的建 議。. ‧. 第一節 數據預處理. y. Nat. er. io. sit. 經由 Python 蒐集回來的網站數據格式不一,為確保數據的正確性與可分析 性,本研究在正式開始數據分析之前,將數據做檢查、清洗的動作,避免對後續. al. n. v i n 分析將造成影響,對原始 129,996 4-1 的預處理: C h筆數據進行下列表 engchi U. 24.

(33) 表 4-1 房屋變數預處理方式表 變數名稱. 問題. 處理方式 將其轉換成房源樓層、. 樓層. 樓層表達形式無統一 總樓層等兩個變量 此變量裡面說明房源幾室幾 將其拆成室、廳、衛. 房屋規劃 廳幾衛,造成 200 多種組合. 三個變量. 總價變量為萬元單位,此變量 將單價轉換為單價 單價(元/平米) 為元,單位未統一 地區 建築年份. (萬元/平米). 政 治 刪除 原本範圍由 1900 至 2017 用大 2017 扣除,得到屋齡 立 浙江省其他地區房源混入. ‧ 國. 學. 本研究排除店面、辦公、土地型態之建物,以一般住宅為主要研究對象,經 過以上的預處理統整出表 4-2,數據尚餘 118,643 筆,將房源變量做以下詳細說. ‧. io. sit. y. Nat. n. al. er. 明如表 4-2。. Ch. engchi. 25. i n U. v.

(34) 表 4-2 房屋變量說明表 變數名稱. 變數類型. 解釋 杭州市共有西湖、江幹、余杭、蕭山、濱江、. 地區. 類別型. 拱墅、下城、上城、富陽、淳安、桐廬、 臨安、建德等 13 區. 面積(平米). 連續型. 房源總面積. 總價(萬元人民幣). 連續型. 房源總價. 單價(萬元人民幣). 連續型. 每平方米價格. 房屋朝向. 類別型. 北、西、西北、西南、東、東北、東西、 治 政 大. 等 6 類,於表格下方作定義說明 公房、房改房、商品房、集體房、 類別型. 經濟適用房、其他、暫無等 7 類. sit. y. Nat. 公寓、商住樓、排屋、普通住宅、. n. er. 類別型. io. 房屋類型. 毛坯、簡裝、中裝、精裝、豪裝、暫無 類別型. ‧. 產權類型. 東南、南、南北、暫無等 11 類. 學. 裝修程度. ‧ 國. 立. 經濟適用房等 5 類,於表格下方作定義說明. 離散型. 範圍由 0 至 117. 室數. 離散型. 範圍由 0 至 10. 廳數. 離散型. 範圍由 0 至 10. 衛數. 離散型. 範圍由 0 至 10. 房樓層. 離散型. 範圍由 1 至 94. 總樓層. 離散型. 範圍由 1 至 99. 房屋規劃 屋齡. al. v i n 類別型 C h 包含房屋幾室幾廳幾衛,共有 185 類 engchi U. 26.

(35) 第二節 探索性分析 一、房源區域之分析 (一)房源數量分析 本研究將杭州房源資料,依照地區做出房源數量長條圖如圖 4-1。. 立. 政 治 大. ‧. ‧ 國. 學. 圖 4-1 杭州市按房源區域之房屋數量比例統計圖. y. Nat. sit. 由圖 4-1,房源最充沛的是西湖區,此區域佔比接近杭州市房源的五分之一,. n. al. er. io. 其次為江幹區、余杭區、蕭山區、濱江區,直到拱墅區都有一萬個以上的房源,. i n U. v. 此六個區域佔了杭州八成的房源,下城區、上城區房源區於五千至九千之間,而. Ch. engchi. 房源最少的為富陽區、淳安區、桐廬區、臨安區、建德區,此五區房源數量僅杭 州地區的百分之五,將各地區房源數量百分比統整於表 4-3。. 27.

(36) 表 4-3 杭州市各區域房地產房源數量、百分比表 區域. 數量. 數量百分比(%). 西湖. 23,359. 19.69. 江幹. 21,671. 18.27. 余杭. 14,674. 12.37. 蕭山. 13,999. 11.80. 濱江. 13,561. 11.43. 拱墅. 12,525. 10.56. 下城. 8,495. 立. 上城. 806. 1.43 0.93 0.68. 410. io. sit. y. 0.35. 374. n. al. 0.32. er. 建德. 1,103. Nat. 臨安. 5.03. ‧. 桐廬. ‧ 國. 淳安. 1,700. 7.16. 學. 富陽. 政 治 大 5,966. Ch. (二)房源單價、總價與面積分析. engchi. i n U. v. 除了地區的因素,價格、面積亦是影響房源價格的重要因素,整理杭州各區 域房源總價、單價與面積數據,如表 4-4。另依照此三項數值由高到低進行排序 繪製長條圖如圖 4-2、圖 4-3、圖 4-4。. 28.

(37) 表 4-4 杭州市各區域房地產平均總價、單價、面積表 區域. 平均單價(萬元/平米). 平均面積(m2 ). 平均總價(萬元). 上城. 4.25. 106.76. 495.83. 西湖. 3.60. 95.72. 347.01. 濱江. 3.34. 100.49. 344.2. 下城. 3.26. 82.51. 283.59. 拱墅. 3.07. 80.36. 278.37. 江幹. 2.54. 106.03. 285.19. 蕭山. 2.21. 余杭. 1.71. 淳安. 1.42. 72.01. 1.30. 109.69. 1.29. 78.29. 0.72. 101.49. 0.72. 142.36. io. 151.81 111.61. y. n. al. sit. ‧ 國. 104.57. 46.78. er. 桐廬. Nat. 建德. 189.79. ‧. 富陽. 257.08. 學. 臨安. 立. 118.28 政 治 大 106.79. Ch. engchi. i n U. v. 圖 4-2 杭州市十三區平均交易單價圖. 29. 112.83.

(38) 根據圖 4-2 所示,房源平均單價最高的地區為上城區,每平米達到 4.25 萬元 人民幣,其次為西湖區、濱江區、下城區、拱墅區等地區每平米有超過 3 萬元, 平均單價最低的位於桐廬區與建德區,每平米不到 1 萬元人民幣。而杭州市整體 的房源平均單價為 28,427 元,有 5 個地區房源平均單價在此水準之上。. 學 圖 4-3 杭州市十三區平均交易總價圖. ‧. ‧ 國. 立. 政 治 大. 根據圖 4-3 所示,房源平均總價最高的地區為上城區,平均總價達到 495.83. y. Nat. sit. 萬元人民幣,其次為西湖區、濱江區等地區有超過 300 萬元,平均總價最低的位. n. al. er. io. 於建德區,僅 46.78 萬元。而杭州市整體的房源平均總價為 292.2 萬元人民幣, 有 3 個地區房源平均總價在此水準之上。. Ch. engchi. i n U. v. 圖 4-4 杭州市十三區平均交易面積圖 30.

(39) 根據圖 4-4 所示,房源平均面積最高的地區為桐廬區,平均面積達到 142.36 平米,其次為蕭山區、臨安區、余杭區、上城區、江幹區、建德區、富陽區、濱 江區等地區有超過 100 平米,平均面積最低的位於淳安區,平均僅 72.01 平米。 而杭州市整體的房源平均面積為 100.08 平米,有 8 個地區房源平均面積在此水 準之上。. 二、房屋條件分析 (一)房源朝向分析 計算各行政區在不同房源朝向下的平均單價(萬元/平米)表 4-5 如下,而暫無. 政 治 大 數方向差距較大,由以下表可知下城區在西北向有最高單價 4 萬元,上城區則是 立 則是房屋數據未標註房屋朝向,各區域的單價在不同朝向下有一定的區間,僅少. ‧ 國. 學. 在西南區有最高單價 6.06 萬元,江幹區在暫無定義區有最高單價 4.57 萬元,西 湖區在西南向有最高單價 4.16 萬元,余杭區在東向有最高單價 1.91 萬元,建德. ‧. 市在南北向有最高單價 0.87 萬元,拱墅區在東北向有最高房價 4.05 萬元,桐廬. sit. y. Nat. 縣在南向有最高房價 0.93 萬元,淳安縣在南向有最高房價 1.46 萬元,富陽區在. al. er. io. 西北區有最高單價 1.75 萬元,蕭山區在北向有最高單價 2.27 萬元,濱江區在暫. v. n. 無定義區有最高單價 4.89 萬元,臨安區在南向有最高單價 1.76 萬元。. Ch. engchi. 31. i n U.

(40) 表 4-5 杭州市在各地區房源朝向上之平均單價(萬元/平米)表 地區. 北. 西. 西北 西南. 東. 東北 東西 東南. 南. 南北. 暫無. 下城 2.66. 2.78. 4.00. 3.57. 2.88. 3.32. 3.50. 3.44. 3.32. 3.23. 無. 上城 2.98. 3.54. 3.13. 6.06. 3.93. 3.64. 3.98. 4.65. 4.04. 4.35. 4.57. 江幹 2.45. 2.55. 2.80. 2.52. 2.53. 2.41. 3.16. 2.85. 2.58. 2.48. 3.58. 西湖 2.90. 2.58. 4.00. 4.16. 2.75. 4.05. 3.83. 2.77. 3.67. 3.64. 3.56. 余杭 1.67. 1.56. 1.45. 1.43. 1.91. 1.38. 1.60. 1.68. 1.67. 1.74. 1.57. 建德 0.46. 無. 無. 0.42. 0.43. 無. 0.41. 0.59. 0.50. 0.87. 無. 拱墅 2.59. 3.00. 2.20. 3.03. 3.14. 無. 0.93. 0.69. 無. 桐廬. 無. 2.92 4.05 治 2.74 2.64 政 大 無 無 0.70 1.09 0.62 0.68 立. 無. 3.50. 無. 無. 無. 無. 1.34. 1.36. 1.46. 1.42. 無. 富陽 1.10. 1.49. 1.75. 1.37. 1.53. 1.16. 1.37. 1.26. 1.28. 1.32. 無. 蕭山 2.27. 1.95. 1.88. 2.22. 1.93. 2.01. 2.02. 2.20. 2.19. 3.06. 濱江 2.56. ‧. 2.24. 2.53. 2.62. 2.65. 2.79. 2.67. 3.27. 2.77. 3.31. 3.48. 4.89. 臨安. 1.23. 無. 0.75. 0.79. 無. 1.47. 1.15. 1.14. 無. n (二)裝修程度分析. 1.76. er. io. al. sit. y. Nat. 無. ‧ 國. 無. 學. 淳安 1.34. Ch. engchi. i n U. v. 計算各行政區在不同裝修程度下的平均單價(萬元/平米)表 4-6 如下,而暫無 則是房屋數據未標註裝修程度,各區域的單價在不同裝修程度下有一定的區間, 且多數區域房屋在豪裝房上的單價最為高昂,少數區域在毛坯房與簡裝房有最高 房價,由下表可知下城區在毛坯房有最高單價 3.54 萬元,上城區則是在豪裝上 有最高單價 5.54 萬元,江幹區在豪裝上有最高單價 3.23 萬元,西湖區在簡裝上 有最高單價 3.86 萬元,余杭區在豪裝上有最高單價 1.88 萬元,建德市在毛坯房 上有最高單價 0.83 萬元,拱墅區在豪裝上有最高房價 3.39 萬元,桐廬縣在豪裝 上有最高房價 1.3 萬元,淳安縣在豪裝上有最高房價 1.69 萬元,富陽區在豪裝上 32.

(41) 有最高單價 1.39 萬元,蕭山區在豪裝上有最高單價 2.36 萬元,濱江區在簡裝上 有最高單價 3.74 萬元,臨安區在豪裝上有最高單價 2.74 萬元。 表 4-6 杭州市在各地區裝修程度上之平均單價(萬元/平米)表 中裝. 毛坯. 精裝. 豪裝. 暫無. 簡裝. 下城. 3.33. 3.54. 3.15. 3.53. 2.86. 3.23. 上城. 3.94. 4.23. 4.36. 5.54. 4.00. 3.91. 江幹. 2.68. 2.20. 2.44. 3.23. 2.51. 2.55. 西湖. 3.74. 2.89. 3.60. 3.16. 3.47. 3.86. 余杭. 1.81. 1.70. 1.59. 1.60. 建德. 0.41. 0.83 立. 0.41. 0.43. 拱墅. 3.06. 3.32. 3.02. 3.39. 2.62. 2.97. 桐廬. 0.75. 0.71. 0.80. 1.30. 0.60. 0.64. 淳安. 1.39. 1.46. 1.38. 1.69. 1.51. 富陽. ‧. 1.51. 1.20. 1.23. 1.37. 1.39. 1.17. 1.25. 蕭山. 2.29. 2.12. 2.24. 2.36. 濱江. 3.49. 3.22. 3.40. 臨安. 2.15. 政1.69 治 1.88 大 0.48 0.41. sit. io. n. a3.22 l 0.77C h. er. Nat. y. 學. ‧ 國. 區域. v ni. U e n2.09g c h i 2.74. 1.84. 2.26. 3.58. 3.74. 0.89. 2.01. (三)產權類型分析 計算各行政區在不同產權類型下的平均單價(萬元/平米)表 4-7 如下,而暫無 則是房屋數據未標註產權類型,大部分區域的單價在不同產權類型下有一定的區 間,由下表可知下城區在公房有最高單價 4.81 萬元,上城區亦是在公房上有最 高單價 5.20 萬元,江幹區在其他類型有最高單價 2.67 萬元,西湖區在經濟適用 房上有最高單價 5.47 萬元,余杭區在公房上有最高單價 2.06 萬元,建德市在商 品房上有最高單價 0.81 萬元,拱墅區在暫無定義房上有最高房價 3.29 萬元,桐 33.

(42) 廬縣在其他類型上有最高房價 0.98 萬元,淳安縣在其他類型上有最高房價 1.43 萬元,富陽區在暫無定義房上有最高單價 1.47 萬元,蕭山區在暫無定義房上有 最高單價 2.36 萬元,濱江區在商品房上有最高單價 3.41 萬元,臨安區在商品房 上有最高單價 1.3 萬元。 表 4-7 杭州市在各地區產權類型上之平均單價(萬元/平米)表 地區. 公房. 其他. 房改房. 商品房. 下城. 4.81. 3.59. 1.98. 3.22. 2.20. 2.51. 2.65. 上城. 5.20. 4.22. 2.82. 4.27. 無. 3.89. 4.27. 江幹. 無. 2.67. 1.85. 2.21. 西湖. 4.72. 3.30. 1.78 2.58 1.57 治 政 大3.18 2.54 3.59. 5.47. 4.08. 余杭. 2.06. 1.63. 1.61. 1.73. 1.20. 1.40. 1.71. 建德. 無. 0.52. 無. 0.81. 無. 0.20. 0.43. 拱墅. 2.28. 2.76. 2.29. 3.15. 2.65. 2.11. 3.29. 桐廬. 無. 0.98. 0.78. 0.68. 無. 無. 0.80. 淳安. 無. 1.43. 無. 1.42. 無. 0.97. 1.42. 富陽. 無. 1.16. 1.25. 無. 0.77. 1.47. 蕭山. 無. 1.96. v ni. 2.26. 2.36. 濱江. 無. 3.00. 2.60. 3.41. 1.25. 3.35. 3.20. 臨安. 無. 1.29. 無. 1.30. 無. 1.23. 1.28. 學. 暫無. Nat. n. er. io. al. 1.39. sit. y. ‧. ‧ 國. 立. 集體房 經濟適用. C h1.91 1.91 e n g c2.25 hi U. (四)房屋類型分析 計算各行政區在不同房屋類型下的平均單價(萬元/平米)表 4-8 如下,大部分 區域的單價在不同房屋類型下有一定的區間,由下表可知下城區在經濟適用房有 最高單價 3.62 萬元,上城區在排屋上有最高單價 7.13 萬元,江幹區在商住樓有 最高單價 2.96 萬元,西湖區在普通住宅上有最高單價 3.65 萬元,余杭區在排屋 34.

(43) 上有最高單價 2.1 萬元,建德市在普通住宅上有最高單價 0.72 萬元,拱墅區在普 通住宅上有最高房價 3.11 萬元,桐廬縣在排屋上有最高房價 1.14 萬元,淳安縣 在商住樓上有最高房價 2.38 萬元,富陽區在排屋上有最高單價 1.91 萬元,蕭山 區在排屋上有最高單價 2.77 萬元,濱江區在排屋上有最高單價 4.28 萬元,臨安 區在排屋上有最高單價 2.5 萬元。. 地區. 公寓. 商住樓. 排屋. 普通住宅. 經濟適用. 下城. 2.50. 2.58. 無. 3.27. 3.62. 上城. 5.31. 4.28. 4.24. 無. 江幹. 2.04. 2.58. 1.41. 西湖. 2.14. 2.66. 3.20. 3.65. 2.52. 1.46. 1.86. 2.10. 1.72. 1.17. 0.45. 無. 無. 0.72. 0.69. 2.54. 2.91. 無. 3.11. 1.53. 1.09. 1.03. 1.14. sit. 表 4-8 杭州市在各地區房屋類型上之平均單價(萬元/平米)表. 2.38. 2.06. ‧ 國. 1.37. 富陽. 1.32. 蕭山. 1.86. 2.20. 濱江. 2.46. 臨安. 0.61. y. 淳安. n. al. 0.71. er. io. 桐廬. Nat. 拱墅. ‧. 建德. 學. 余杭. 立. 政 治7.13 大 2.96 1.37. 無. 1.41. 無. 1.29. 1.50. 2.77. 2.24. 1.70. 3.71. 4.28. 3.40. 1.98. 無. 2.50. 1.29. 無. C1.50 h e n g c h1.91i U. 35. v ni.

(44) 第三節 集群分析 本研究於第二節了解數據的情況,於本節透過房源數據將杭州各行政區透過 分群,劃分出民眾居住用房屋的蛋黃區、蛋白區與蛋殼區。首先透過杭州地區居 住用房源數據,計算各行政區域的平均單價、平均面積、平均屋齡、平均總樓層 與平均房樓層,結果如下表 4-9 所示。 表 4-9 杭州市各行政區房源平均資訊表 城市. 平均面積. 平均單價. 平均屋齡. 下城. 82.505. 3.255. 18. 上城. 106.761. 4.254. 江幹. 106.033. 西湖. 政 治15 大. 11. 6. 12. 7. 7. 21. 11. 95.723. 3.601. 13. 12. 學. 7. 106.79. 1.710. 5. 17. 9. 101.486. 0.724. 2. 9. 5. 拱墅. 80.362. 3.075. 12. 14. y. 8. 桐廬. 142.364. 0.721. 2. sit. 7. 淳安. 72.005. 1.421. 2. 富陽. 78.294. 蕭山. 118.284. 2.212. 濱江. 100.486. 臨安. 109.687. n. al. 14. er. 建德. io. ‧. ‧ 國. 2.544. Nat. 余杭. 立. 平均總樓層 平均房樓層. i n U. v. 23. 12. 15. 8. 5. 23. 12. 3.338. 7. 22. 12. 1.299. 2. 12. 6. Ch. e n g c h3i. 1.295. 接著將數據放入 Clementine 資料探勘軟體當中,對於非監督式的集群方法, 將資料當中的地區排除,為了不讓數值大小造成分群影響,將數據進行標準化至 0 與 1 之間,接著將標準化後的數據放入 k-means 節點當中建立模型,預計分成 三個集群,得到以下集群分析結果,如圖 4-5。由分群結果可知 5 個變數中有 4 個皆為重要,重要性皆高於 0.95,僅平均面積為不重要。 36.

(45) 圖 4-5 杭州市房源分群結果圖. 學. ‧ 國. 立. 政 治 大. 本研究討論分群結果並將各群命名如下表 4-10,第一群的城市包含下城、上. ‧. 城、西湖、拱墅,此群為平均單價最高且屋齡亦最高的地區,而面積為最小,本. y. Nat. sit. 研究將其命名為杭州居住用房屋蛋黃區域,亦即有營養價值最高意義的核心地區。. n. al. er. io. 第二群的城市為江幹、余杭、蕭山、淳安、濱江,此群在平均單價第二高,且屋. i n U. v. 齡第二且偏低,而面積為三群中第二大,本研究將其命名為杭州居住用房屋蛋白. Ch. engchi. 區域。第三群的城市為桐廬、富陽、臨安、建德,此群平均單價為最低,平均屋 齡最低,平均面積是最大的,本研究將其命名為杭州居住用房屋蛋殼區域。. 37.

(46) 表 4-10 杭州市房源分群結果表 分群. 第一群. 第二群. 第三群. 名稱. 蛋黃區. 蛋白區. 蛋殼區. 下城、上城、. 江幹、余杭、. 桐廬、富陽、. 西湖、拱墅. 蕭山、淳安、濱江. 臨安、建德. 平均單價. 0.8. 0.441. 0.082. 平均面積. 0.275. 0.408. 0.511. 平均屋齡. 0.781. 0.2. 0.016. 平均總樓層. 0.232. 平均房樓層. 0.286. 地區. 立. 0.871 政 治 大 0.886. 0.25 0.214. ‧ 國. 學. 由下杭州市行政區圖 4-6 能夠更清楚區域之間的關係,第一群蛋黃區在圖上 的 1、2、4、5 區域,而第二群蛋白區包含 3、6、蕭山區、余杭區繞著蛋黃區,. ‧. 另外包含較特別的是較遠離蛋黃區的淳安縣,由地理情勢與城市發展來探討,淳. sit. y. Nat. 安縣地理面積大、湖泊眾多,有著名的千島湖風景區,亦是電影拍攝的絕佳地點,. io. al. er. 此處房價情況可能不同於一般市鎮。第三群蛋殼區包含臨安區、富陽區、桐廬縣、. n. 建德市與蛋黃區、蛋白區都有接觸,位於杭州的中間位置。. Ch. engchi. 38. i n U. v.

(47) 立. 政 治 大. 圖 4-6 杭州市行政區域圖. ‧ 國. 學. 本研究將杭州市各行政區分群結果將蛋黃區、蛋白區與蛋殼區以顏色區分為. n. al. er. io. sit. y. Nat. 據所區分。. ‧. 下圖 4-7,這樣的情況可能和原始印象有些許不同,此為本研究透過真實房源數. Ch. engchi. i n U. v. 圖 4-7 杭州市行政區域房源數據分群結果圖 39.

參考文獻

相關文件

(1) 該企業成立於第二次世界大戰前,最早名稱為 Steyr-Daimler-Puch,總部及工廠設於上奧地利邦 Steyr 市,戰後成為奧國最大國產車企業,之後數度 易主及改名,於

IMS 成立於 1985 年,總部原設於維也納第 2 區,因公司規 模擴大,於 2019 年在該公司下奧地利邦 Brunn am Gebirge 廠區新建辦公大樓,並於

許多大經濟體如中、美、日等國均採用生產者價格作計算,因此,由參考期 2014

夏俊雄 教授 國立臺灣大學數學系 王偉仲 召集人. 國立臺灣大學數學系

國立政治大學應用數學系 林景隆 教授 國立成功大學數學系 許元春召集人.

林景隆 教授 國立成功大學數學系 楊肅煜 召集人.

Optim. Humes, The symmetric eigenvalue complementarity problem, Math. Rohn, An algorithm for solving the absolute value equation, Eletron. Seeger and Torki, On eigenvalues induced by

以 2011 年經濟部統計處針對各製造業所做的調查,糕餅業所屬 的其他烘焙麵食品之生產值占食品製造業中 3.68%,在 33 項品向中排