資料處理與變數篩選 - 研究設計 - 廣告行銷文字對不動產價格之影響

第三章研究設計

第二節資料處理與變數篩選

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節資料處理與變數篩選

一、資料處理

研究結果的好壞及準確性，除了模型配適度的問題外，研究資料的合適性亦為不可遺漏的考慮因素。尤其是尚未經過任何處理的一手資料，為了避免「垃圾進，垃圾出」 (Garbage in, Garbage out)，在審視資料後依據不同情況（資料內容）決定資料清理過程實屬必要。本研究資料蒐集某房屋仲介公司刊登於網站上之待售物件訊息，就資料處理以及變數篩選過程進行詳述。

房屋仲介公司網站上之資料主要可以大致歸類為幾個部分，基本資料、物件詳情、代表物件特色的行銷文字等，如表3-2-1 及圖 3-2-1、圖 3-2-2、圖 3-2-3，

相關之處理過程將於下一部分之變數處理過程說明。

表3-2-1 房屋仲介公司物件資料表基本資料

建坪主建物類型管理費大樓朝向地坪陽台樓層格局落地窗朝向主+陽屋頂突出物邊間/暗房加蓋格局車位地下室屋齡警衛管理大門朝向

物件詳情

建物結構外牆建材每層戶數謄本用途使用分區

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

資料來源：信義房屋網站

圖3-2-1 房屋仲介公司網站資料案例一

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

資料來源：永慶房屋網站

圖3-2-2 房屋仲介公司網站資料案例二

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

資料來源：有巢氏房屋網站

圖3-2-3 房屋仲介公司網站資料案例三

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

經初步資料審視，某房屋仲介公司網站之一手資料，條項分明、簡單明確，

且由於內容統一由房屋仲介公司撰寫刊登，故較無以往研究所使用的實價登錄資料缺漏問題⁹，於此並不需要對資料內容進行更正補充。不過，為了使研究資料對本研究更具合適性，將透過以下兩大步驟進行進一步的樣本篩選。

(一) 研究樣本篩選

1. 用途

本研究之研究對象設定為臺北市住宅使用之標的，整理蒐集一手資料中「謄本用途」欄位，保留住家用、集合住宅、多戶住宅、國民住宅等住宅使用，刪除其他使用例如商業用、工業用、一般事務所、店鋪、農舍等。

2. 建物類型

選取住宅使用的標的後，再經由資料中「類型」欄位，篩選出公寓、

電梯大樓。經檢視，發現電梯大樓其實包含住宅大樓以及華廈，為了使研究更精準，將依照現行政府對於建物類型之定義，使用總樓層區別電梯大樓中之華廈（10 層含以下有電梯）與住宅大樓（11 層含以上有電梯）；除此之外，由於車位價格之計價方式異於建物，若是將含有車位之標的納入樣本進行迴歸分析，將導致價格模型的扭曲，故本研究將排除單獨車位買賣以及含有車位之標的。

3. 使用分區

由於住宅使用的建物並非全然落於本研究之研究範圍—商業區、住宅區，故再利用資料中「使用分區」欄位將住商混合區（同時有住宅區及商業區）、工商混合區、保護區、娛樂區、風景區、農業區等其他分區刪除。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4. 其他

依照上述將本研究之研究對象「臺北市住宅區或商業區且住宅使用之公寓、套房、華廈、住宅大樓」篩選出來後，亦針對連續樓層以及屋齡進行處理。由於使用效益上，連續樓層相較於單樓層不只使用面積更廣，在規劃用途時亦因更具彈性而有價值加乘效果，故於價格上並非純粹的一加一等於二的關係，而可能造成模型對價格預期的偏誤，故刪除之；屋齡部分，由於其為影響價格之重要因素又預售屋的價格往往較高，故將刪除無屋齡以及預售屋者。

(二) 異常點處理—DIFFITS

與常態分佈之資料離異者即屬異常點，而模型配適度好壞除了模型設計妥適與否外，資料本身的質量也是核心影響因素，意即資料整體常態分配的程度，

直接影響了模型結果的呈現，而對於離群值的診斷，一般是以DIFFITS 值的計算為準則（林秋瑾，1996；張晏瑞，2017），異常點臨界值之計算公式如式(4)，

凡落於該範圍以外者均視為異常點而予以刪除。

|𝐷𝐼𝐹𝐹𝐼𝑇𝑆_𝑖| > 2√^𝑝

𝑛 ……(4)

其中，p 為實證模型中之變數個數；n 為實證模型中之樣本數；𝑖表示第𝑖筆樣本之DIFFITS 值。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

二、變數篩選

(一) 應變數—LN 待售不動產單價

本研究擬探討行銷文字對不動產價格之影響而建立特徵價格模型，其中應變數部分為不動產價格單價；又依據過往研究顯示，半對數模型對於實證結果有較好之效果，故此處將對單價取自然對數。

(二) 自變數

由某房屋仲介公司網站取得之待售物件訊息，參照過往特徵價格法研究中最常使用的變數，提取出本研究之實證變數，並依照本研究特徵價格模型結構，將變數分為連續變數、虛擬變數。就不動產估價而言，影響不動產價格之因素由影響範圍廣至狹為一般、區域、個別因素，對建物最直接之特徵描述屬個別因素，

因此本研究使用特徵價格法下採用之變數將以個別因素為主，區域因素為輔。一般因素影響之範圍通常為全臺灣，而本研究主要是利用樣本間之特徵差異分析其對不動產價格之影響，加上研究方法的不同，故而一般因素變數在此先不予考量。

連續變數取建物移轉面積、屋齡、移轉樓層、與公共設施之距離，而虛擬變數取行政分區、建物類型、使用分區、行銷文字。以三大影響價格之因素區分，

行政分區、使用分區較偏向區域因素，而建物類型、建物移轉面積、屋齡、移轉樓層、公共設施之距離等則屬於個別因素。另外，行銷文字變數同時包含區域及個別因素，例如機能、學區、離塵不離城屬於區域因素，其他如邊間通風、格局等則屬於個別因素。

對於上述變數之處理，建物面積、屋齡與不動產價格為非線性關係，故將其以取自然對數的方式作調整；除此之外，與公共設施距離則是將網站上提供待售物件google map 位置之座標，利用地理資訊系統（Geographic Information System, GIS）與政府資料開放平台上蒐集之各個公共設施座標點，進行點對點的距離計

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

最後，以篩選出來的詞為依據，利用Excel 篩選的功能將原資料的物件特色進行二次分析。由於斷詞系統無法偵測出斷詞間的關聯性及相似程度，透過人工識讀進行二次整理，將相關的詞進行整理合併，例如「管理」、「飯店式」、「物業」、

「警衛」合併成「管理」；「邊間」、「通風」、「開窗」合併成「邊間通風」；「鋼骨」、

「制震」、「耐震」、「結構」合併成「制震」；「素質」、「鄰居」、「住戶」、合併成

「鄰居素質」；「戶數」、「隱私」、「隱密」合併成「戶數」；「美景」、「景觀」合併成「公園景觀」等，最後整理出本研究的重點廣告行銷文字變數共 21 個，如表 3-2-4。

表3-2-4 廣告行銷文字變數表

採光邊間通風機能格局

公園管理戶數靜巷

屋況學區高樓層視野

棟距制震挑高公園景觀

泳池鄰居素質山景離塵不離城

捷運

不過為了避免篩選出來的廣告行銷文字變數與已存在之變數重疊而產生共線問題，經比較後，將「公園」及「捷運」兩廣告行銷文字變數刪除。另外，廣告行銷文字變數中的「學區」與距離變數中的「國小」、「國中」、「高中」、「大專院校」等，兩者代表之意義不同，學區除了有距離學校近之意味外，還有「好」

學校的意思，是故，在此並不將學區與學校視為相同而進行篩除。最後選擇 19 個廣告行銷文字變數進入實證模型。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

三、敘述統計

經過上述步驟篩選以及去除 DEFFITS 值後，本實證樣本數為 2,071 筆，為了初步分析資料樣態，針對連續變數以及虛擬變數進行敘述統計，如表 3-2-6、

表3-2-7。

觀察表3-2-6，價格部分，平均單價為 76.28 萬元、最大值為 194.93 萬元、

最小值為27.53 萬元、標準差為 25.24 萬元，可見雖同樣位於臺北市，各區之發展亦有明顯之不同，位於市中心的蛋黃區以及邊陲的蛋白區，在價格上之落差於此可見一斑；建物面積部分，平均面積有44.96 坪、最小值為 6.06 坪、最大值為 236.04 坪，標準差為 30.49 坪，可見臺北市之住宅單位量體雖有大有小，甚至最大有到200 多坪，但依平均面積可推測仍是以中小坪數的住宅型態為主，符合臺北市地狹人稠狀況下發展出的中小坪數現況；屋齡部分，平均屋齡為25.1 年，探究其建物類型組成，公寓、華廈、住宅大樓各約莫占整個資料的 1/3，而平均屋齡分別為41、23、12 年。

與公共設施之距離部分（實證結果是以反距作為探討此變數之方式，不過並不影響敘述統計上仍以直距或路距之方式進行解釋，且直距或路距亦較好理解），就平均距離而言，公車站之平均距離 0.17 公里，與其屬於鄰里型公共設施的事實相符。而捷運之平均距離亦只有0.93 公里，符合臺北市捷運網络發達的現況。

屬教育相關的國小、國中、高中之平均距離均介於1 公里~1.5 公里間，可見推廣義務教育下之臺北市學校的密集程度，甚至非義務教育的大專院校，其平均距離亦僅比高中多200 公尺左右，由此可見身為臺灣首都的臺北市對於教育資源的重視程度。最後，屬於區域型公共設施的臺鐵站、大型百貨公司等，其平均距離相較於前述的鄰里型設施明顯增加1 公里以上，符合區域型公共設施之服務範圍較廣故設置點較不需同鄰里型設施密集。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

觀察表 3-2-7，就本研究主要變數—行銷文字變數而言，詞頻最高的物件特色為「採光」，占總樣本數的48.58%，近一半的物件擁有此項特色，是否房屋仲介認為採光將是吸引買方的極大賣點又或者採光主觀的定義使得眾多物件均具備此項特色？往後的邊間通風、機能、格局、管理、戶數（單純）等亦均佔有 20%~40%的占比；而是否位於靜巷、屋況佳、學區、高樓層等，亦分別占總樣本的19.36%、17.29%、16.47%、12.41%；其餘的如視野、棟距、制震、挑高、公園景觀、泳池、鄰居素質、山景、離塵不離城等特色則為1%~10%間不等。這些特色橫跨了屬內部特徵的建物本身到外部特性的區位環境，但主要還是以建物本

在文檔中廣告行銷文字對不動產價格之影響 - 政大學術集成 (頁 39-0)

資料處理與變數篩選

第三章 研究設計

第二節 資料處理與變數篩選

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 資料處理與變數篩選

一、 資料處理

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

二、 變數篩選

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

三、 敘述統計

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究設計

第二節資料處理與變數篩選

立政治大學

第二節資料處理與變數篩選

一、資料處理

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

二、變數篩選

立政治大學

立政治大學

三、敘述統計

立政治大學