異常點之判定方法 - 住宅市場中的黑羊 - 新推個案房價指數分析—產品趨勢、異常點與結構轉變

第四章住宅市場中的黑羊

第二節異常點之判定方法

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節異常點之判定方法

以 OLS 方式校估迴歸模型，最受挑戰之處在於對樣本中的異常點完全沒有抵抗力，一旦異常點推案混入有限筆數的樣本中，將使隱含價格反映的不是多數樣本的現象。為了滿足殘差最小化的條件，迴歸參數估計值必須傾向異常點，背棄大部分資料的趨勢。於是早期文獻發展出異常點判斷公式，包括 RSTUDENT、HAT DIAG.H.、COV RATIO、DFFITS、DFBEATAS、

COOK’S 等方式，林秋瑾(1996)應用上述方法探討穩健性住宅租金，實證結果顯示以 DFFITS 方式衡量異常點，模型將有最佳的結果。然而近期由於電腦運算能力的提升，文獻上發展出現代穩健迴歸分析方法，而提出不同的看法。Rousseeuw and Leroy (2003)指出當多個異常點存在於資料中時，

DFFITS 技術不能辨認出多個異常點，該文批評 Belsley et al.(1980)提出的異常點辨認方法，無法刪除這些異常點，甚至可能刪除錯誤而導致參數估計值有錯誤收斂值。

在穩健迴歸的迴歸參數估計上，文獻上提到衡量估計值穩健性的名詞：

容離值（Breakdown Point, BDP）。當容離值愈高表示迴歸參數估計量可容忍異常點的比例愈大，故該估計量即可較不受異常點的影響，亦即該迴歸參數估計量較穩健。容離值最高可允許為 50%，當該參數估計方式之容離值為 50%時，代表異常點對於參數估計的影響很小，使得估計值具有穩健性。Zaman(1996)指出，OLS 的「容離值（Breakdown Value）」為 0%，亦即樣本集合中，若有一筆資料被任意取代後，研究者據以校估參數所得到的誤差值，有可能為無限大或無限小，使得迴歸參數不能反映出多數樣本趨勢。

為了緩和 OLS 容離值為 0%的問題，文獻上發展出二類方法解決異常點對迴歸參數的影響，一類為迴歸診斷分析(Regression Diagnostics)，另一類即為穩健迴歸(Robust Regression)。本文使用的 DFFITS 為迴歸診斷中的一種方式，LTS 則屬於穩健迴歸的處理方式，使用此二技術的目標均為使迴歸參數反映出多數樣本趨勢，只是進行的程序不同：DFFITS 為刪除異常點後，再以 OLS 校估參數使其反映無異常點的樣本趨勢；LTS 則尋求配適多數樣本趨勢的迴歸參數，而其他非屬多數樣本者，若殘差值大過門檻值則將賦予權重 0，視為異常點。以下首先說明 OLS 的定義，其次說明 DFFITS 和 LTS 在方法上如何緩和 OLS 的缺失。

‧

OLS(Ordinary Least Squares)為最常用的迴歸參數估計方式，其基本概念為找到一組迴歸參數使殘差最小化。定義殘差如式(18)：

Belsley et al.(1980)提出的 DFFITS 法，可辨認出第個樣本對於預測值 yˆ 的影響力。 i (Rousseeuw & Leroy, 2003)。統計學者認為 DFFITS 技術每次僅刪除一個樣本，可能造成的問題是有些樣本從個別來看並非異常點，但聯合起來卻是

‧

稱為淹沒效應(Swamping Effect)。

因此，使用 DFFITS 技術的目標雖為找出具有影響力的樣本點，予以清除後，再以「無異常點」的樣本進行 OLS 分析，然而，因為統計學家以實證資料分析顯示，該技術不具備穩健性，可能無法辨認出有效的異常點，

於是發展出另一種處理方式：穩健迴歸技術。

三、最小消去平方法(Least Trimmed Squares, LTS)

Rousseeuw(1984)提出 LTS 方法，處理最小平方法對於異常點過於敏感的問題。LTS 定義最小化殘差項的平方和，如式(22)。 Rousseeue and Leroy(2003)指出，求出穩健迴歸係數之後，可據以計算標準化殘差，當該觀察值標準化殘差超過±2.5，該觀察值可被認定為異常點，數，較有效率且穩健(Rousseeuw, 1984；Anderson, 2008；Finger and Hediger, 2008)，文獻上將此作法稱為「再加權最小平方法(RLS, Re-weighted Least Squares)」。因此，在 RLS 分析技術中，LTS 為第一步，利用 LTS 模擬計算

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

而得的粗糙異常點，再估計樣本標準差

ˆ

，接著計算各樣本的標準化殘差值，然後訂定門檻值決定異常點；第二步則為以 OLS 技術校估無異常點樣本的迴歸參數。

本文後續實證模型所指的 DFFITS 模型為使用 DFFITS 技術刪除樣本之後，再以 OLS 技術計算而得的迴歸模型；RLS 模型則為以 LTS 計算粗糙異常點之後，再依異常點的殘差值是否大於門檻值決定模型異常點，以無異常點樣本運用 OLS 技術校估的迴歸模型。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節實證結果及分析

本章的資料來源與實證模型設定，與前一章分析時採用的資料及特徵價格模型設定相同，以下說明採用不同異常點刪除模型之模型表現、異常點特性及房價指數表現。

一、模型表現

分別應用 OLS、RLS 和 DFFITS 校估台北市和新北市民國 93Q1~民國 104Q2，50 季特徵價格模型，並檢視不同校估方法的模型表現(如表 11、

表 13 和表 14)：台北市 50 個特徵價格模型中，RLS 模型有 49 季 F 值和 R²值優於 OLS 模型，DFFITS 模型則有 45 季 F 值和 44 季 R²值優於 OLS 模型。新北市 50 個特徵價格模型中，RLS 模型的 F 值和 R²值有 50 季表現優於 OLS 模型，DFFITS 模型的 F 值有 49 季、R²值有 50 季，表現優於 OLS 模型。從模型表現結果顯示，台北市和新北市的特徵價格模型，使用 DFFITS 和 LTS 的異常點刪除技術後的迴歸模型，模型表現較 OLS 更好。

進一步比較 RLS 和 DFFITS 的模型表現，發現 LTS 所辨認出的異常點樣本數較少，且 RLS 應用表現大致優於 DFFITS 模型。在台北市的 50 個特徵價格模型中，二者表現約略相當(如表 12 和表 15)：50 季特徵價格模型中，26 季 RLS 的 F 值優於 DFFITS，31 季 R²值優於 DFFITS，在異常點個數方面，LTS 辨認出 175 個，DFFITS 辨認出 301 個。然而，在新北市的 50 季特徵價格模型中，RLS 的模型表現多優於 DFFITS：F 值有 39 季 RLS 優於 DFFITS，R²值有 40 季優於 DFFITS，在異常點個數方面，LTS 辨認出 379 個，DFFITS 辨認出 496 個。

台北市僅 LTS 辨認的異常點有 53 案、新北市則有 136 案，此為遮蔽效應下，DFFITS 未能捕捉的異常點；台北市僅 DFFITS 辨認的異常點有 179 案、新北市則有 253 案，為淹沒效應下 DFFITS 誤認為異常點的正常樣本(如表 12 和表 15)。文獻上提及若異常點超過一個，則因為遮蔽效應，

可能使異常點無法正確辨認，而正常樣本卻因為直線偏向異常點，使得正常點被視為異常點，稱為淹沒效應(王彤和何大衛，2002；Ben-Gal, 2010；

Zaman et al., 2001；Anderson, 2008)。因此，異常點群聚造成遮蔽效應，影響 DFFITS 無法捕捉到的異常點個數，而異常點偏離正常樣本的程度，決定直線( 值)偏向異常點的幅度，影響 DFFITS 捕捉淹沒效應下的異常點個數。因此，遮蔽效應和淹沒效應的樣本個數，無一定比例關係，受到樣本中異常點群聚程度、偏離程度與正常樣本的群聚程度有關。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

台北市 DFFITS 的異常點共有 301 個，其中有 122 個與 LTS 辨認出來的異常點相同，約佔 41%；新北市 DFFITS 的異常點共有 496 個，其中有 243 個與 LTS 辨認出來的異常點相同，約佔 49%。雖然台北市和新北市異常點中，二種異常點刪除方法共同辨認比例相差不多，但是新北市 RLS 模型表現優於 DFFITS 模型的季度多於台北市，顯示 LTS 捕捉到 DFFITS 未能辨認的異常點，其影響迴歸參數的偏離程度在新北市高於台北市；推測可能與新北市的產品異質性較高有關。楊宗憲(2003)認為，高成熟度的都市其產品定位規劃彈性較小，由於台北市和新北市的都市成熟度不同，新北市各新推住宅個案的產品定位差異性較大，而台北市的差異性較小。

表11 台北市和新北市 DFFITS 和 RLS 模型表現比較表(共 50 季)

台北市新北市 F 值

RLS 高於 OLS 49 季 50 季 DFFITS 高於 OLS 45 季 49 季 RLS 高於 DFFITS 26 季 39 季

R²

RLS 高於 OLS 49 季 50 季 DFFITS 高於 OLS 44 季 50 季 RLS 高於 DFFITS 31 季 40 季異常點

個數

LTS 175 379

DFFITS 301 496

表12 台北市和新北市 DFFITS 和 RLS 模型的異常點異同

台北市新北市

LTS 和 DFFITS 皆辨認 122 243 僅 LTS 辨認 53 136 僅 DFFITS 辨認 179 253

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

二、異常點特性

新推住宅個案為產品異質性高的住宅市場，本文以 LTS 所辨認出來的異常點分析住宅新推案市場的產品特色。我們首先觀察異常點的分布情形，

依據異常點座落之行政區，以及單價是否高於該季區域行情將異常點分類，

觀察異常點的推案區位和區域行情之關係。其次，針對異常點推案區位和區域行情有較明顯關聯的行政區，進一步觀察住宅新推案之異常點特色，

比較每個異常點與平均單價、平均住宅屬性的差異。最後，透過異常點分析提出台北市和新北市新推住宅個案市場的產品特色與趨勢。

在台北市部分，LTS 判斷出來的 175 案異常點中，從推案單價觀察發現中正區、士林區和內湖區的異常點多是低於區域行情；中山區和大安區的異常點則多是高於區域行情(如表 16)。中正區低於行情的異常點特色為推案區位座落於中正區汀洲路二段以南、廈門街一帶。該地為台北市發展較早的地區，為新店溪匯入淡水河的沖積平原，地勢較低窪常為溪水洪氾。

民國 38 年，隨國民政府來台的難民居住此處，此地逐漸成為公教人員居住之地，然而隨著眷村與國宅的沒落，現成為外來移民進入台北市生活居住之處。由於開發甚早，雖然生活機能方便，汀洲路上飲食店林立、生活機能方便，但是建物窳陋，居住品質不佳，多老舊公寓。廈門街有諸多二手舊貨商，整體發展較為老舊雜亂，且鄰近中正橋，較無景觀且尖峰時間的車流量及噪音影響生活品質，影響房價。

士林區低於行情的異常點多來自於推案區位座落社子地區一帶。社子地區及其北部土地相連的社子島原為共同發展的沙洲島，為淡水河和基隆河沖積出來的沙洲。然而該區地勢低窪，颱風時節水患嚴重，民國 59 年社子島在大台北防洪計畫中被列為滯洪區因此建物受到禁限建規定，居民陸續搬遷移出，而社子地區未受禁限建規定，但因位處台北市邊緣，地勢低窪有淹水之慮，房價偏低，雖屬於士林區，在發展上較為獨立。

內湖區低於行情的異常點有三個特色：其一為產品屬於工業住宅者，

推案區位座落於環東大道以南與基隆河之間的工業區。其二為小環境較差

在文檔中新推個案房價指數分析—產品趨勢、異常點與結構轉變 - 政大學術集成 (頁 63-0)

異常點之判定方法

第四章 住宅市場中的黑羊

第二節 異常點之判定方法

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 異常點之判定方法

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

ˆ

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節 實證結果及分析

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章住宅市場中的黑羊

第二節異常點之判定方法

立政治大學

第二節異常點之判定方法

立政治大學

立政治大學

第三節實證結果及分析

立政治大學

立政治大學