• 沒有找到結果。

第四章  住宅市場中的黑羊

第二節  異常點之判定方法

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二節 異常點之判定方法

以 OLS 方式校估迴歸模型,最受挑戰之處在於對樣本中的異常點完全 沒有抵抗力,一旦異常點推案混入有限筆數的樣本中,將使隱含價格反映 的不是多數樣本的現象。為了滿足殘差最小化的條件,迴歸參數估計值必 須傾向異常點,背棄大部分資料的趨勢。於是早期文獻發展出異常點判斷 公式,包括 RSTUDENT、HAT DIAG.H.、COV RATIO、DFFITS、DFBEATAS、

COOK’S 等方式,林秋瑾(1996)應用上述方法探討穩健性住宅租金,實證 結果顯示以 DFFITS 方式衡量異常點,模型將有最佳的結果。然而近期由 於電腦運算能力的提升,文獻上發展出現代穩健迴歸分析方法,而提出不 同的看法。Rousseeuw and Leroy (2003)指出當多個異常點存在於資料中時,

DFFITS 技術不能辨認出多個異常點,該文批評 Belsley et al.(1980)提出的 異常點辨認方法,無法刪除這些異常點,甚至可能刪除錯誤而導致參數估 計值有錯誤收斂值。

在穩健迴歸的迴歸參數估計上,文獻上提到衡量估計值穩健性的名詞:

容離值(Breakdown Point, BDP)。當容離值愈高表示迴歸參數估計量可容 忍異常點的比例愈大,故該估計量即可較不受異常點的影響,亦即該迴歸 參數估計量較穩健。容離值最高可允許為 50%,當該參數估計方式之容離 值為 50%時,代表異常點對於參數估計的影響很小,使得估計值具有穩健 性。Zaman(1996)指出,OLS 的「容離值(Breakdown Value)」為 0%,亦 即樣本集合中,若有一筆資料被任意取代後,研究者據以校估參數所得到 的誤差值,有可能為無限大或無限小,使得迴歸參數不能反映出多數樣本 趨勢。

為了緩和 OLS 容離值為 0%的問題,文獻上發展出二類方法解決異常 點對迴歸參數的影響,一類為迴歸診斷分析(Regression Diagnostics),另一 類即為穩健迴歸(Robust Regression)。本文使用的 DFFITS 為迴歸診斷中的 一種方式,LTS 則屬於穩健迴歸的處理方式,使用此二技術的目標均為使 迴歸參數反映出多數樣本趨勢,只是進行的程序不同:DFFITS 為刪除異 常點後,再以 OLS 校估參數使其反映無異常點的樣本趨勢;LTS 則尋求配 適多數樣本趨勢的迴歸參數,而其他非屬多數樣本者,若殘差值大過門檻 值則將賦予權重 0,視為異常點。以下首先說明 OLS 的定義,其次說明 DFFITS 和 LTS 在方法上如何緩和 OLS 的缺失。

OLS(Ordinary Least Squares)為最常用的迴歸參數估計方式,其基本概 念為找到一組迴歸參數使殘差最小化。定義殘差如式(18):

Belsley et al.(1980)提出的 DFFITS 法,可辨認出第 個樣本對於預測值 yˆ 的影響力。 i (Rousseeuw & Leroy, 2003)。統計學者認為 DFFITS 技術每次僅刪除一個樣 本,可能造成的問題是有些樣本從個別來看並非異常點,但聯合起來卻是

稱為淹沒效應(Swamping Effect)。

因此,使用 DFFITS 技術的目標雖為找出具有影響力的樣本點,予以 清除後,再以「無異常點」的樣本進行 OLS 分析,然而,因為統計學家以 實證資料分析顯示,該技術不具備穩健性,可能無法辨認出有效的異常點,

於是發展出另一種處理方式:穩健迴歸技術。

三、 最小消去平方法(Least Trimmed Squares, LTS)

Rousseeuw(1984)提出 LTS 方法,處理最小平方法對於異常點過於敏感 的問題。LTS 定義最小化殘差項的平方和,如式(22)。 Rousseeue and Leroy(2003)指出,求出穩健迴歸係數之後,可據以計算標準 化殘差,當該觀察值標準化殘差超過±2.5,該觀察值可被認定為異常點, 數,較有效率且穩健(Rousseeuw, 1984;Anderson, 2008;Finger and Hediger, 2008),文獻上將此作法稱為「再加權最小平方法(RLS, Re-weighted Least Squares)」。因此,在 RLS 分析技術中,LTS 為第一步,利用 LTS 模擬計算

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

而得的粗糙異常點,再估計樣本標準差

ˆ

,接著計算各樣本的標準化殘差 值,然後訂定門檻值決定異常點;第二步則為以 OLS 技術校估無異常點樣 本的迴歸參數。

本文後續實證模型所指的 DFFITS 模型為使用 DFFITS 技術刪除樣本 之後,再以 OLS 技術計算而得的迴歸模型;RLS 模型則為以 LTS 計算粗 糙異常點之後,再依異常點的殘差值是否大於門檻值決定模型異常點,以 無異常點樣本運用 OLS 技術校估的迴歸模型。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第三節 實證結果及分析

本章的資料來源與實證模型設定,與前一章分析時採用的資料及特徵 價格模型設定相同,以下說明採用不同異常點刪除模型之模型表現、異常 點特性及房價指數表現。

一、 模型表現

分別應用 OLS、RLS 和 DFFITS 校估台北市和新北市民國 93Q1~民國 104Q2,50 季特徵價格模型,並檢視不同校估方法的模型表現(如表 11、

表 13 和表 14):台北市 50 個特徵價格模型中,RLS 模型有 49 季 F 值和 R2值優於 OLS 模型,DFFITS 模型則有 45 季 F 值和 44 季 R2值優於 OLS 模型。新北市 50 個特徵價格模型中,RLS 模型的 F 值和 R2值有 50 季表 現優於 OLS 模型,DFFITS 模型的 F 值有 49 季、R2值有 50 季,表現優於 OLS 模型。從模型表現結果顯示,台北市和新北市的特徵價格模型,使用 DFFITS 和 LTS 的異常點刪除技術後的迴歸模型,模型表現較 OLS 更好。

進一步比較 RLS 和 DFFITS 的模型表現,發現 LTS 所辨認出的異常點 樣本數較少,且 RLS 應用表現大致優於 DFFITS 模型。在台北市的 50 個 特徵價格模型中,二者表現約略相當(如表 12 和表 15):50 季特徵價格模 型中,26 季 RLS 的 F 值優於 DFFITS,31 季 R2值優於 DFFITS,在異常點 個數方面,LTS 辨認出 175 個,DFFITS 辨認出 301 個。然而,在新北市 的 50 季特徵價格模型中,RLS 的模型表現多優於 DFFITS:F 值有 39 季 RLS 優於 DFFITS,R2值有 40 季優於 DFFITS,在異常點個數方面,LTS 辨認出 379 個,DFFITS 辨認出 496 個。

台北市僅 LTS 辨認的異常點有 53 案、新北市則有 136 案,此為遮蔽 效應下,DFFITS 未能捕捉的異常點;台北市僅 DFFITS 辨認的異常點有 179 案、新北市則有 253 案,為淹沒效應下 DFFITS 誤認為異常點的正常 樣本(如表 12 和表 15)。文獻上提及若異常點超過一個,則因為遮蔽效應,

可能使異常點無法正確辨認,而正常樣本卻因為直線偏向異常點,使得正 常點被視為異常點,稱為淹沒效應(王彤和何大衛,2002;Ben-Gal, 2010;

Zaman et al., 2001;Anderson, 2008)。因此,異常點群聚造成遮蔽效應,影 響 DFFITS 無法捕捉到的異常點個數,而異常點偏離正常樣本的程度,決 定直線( 值)偏向異常點的幅度,影響 DFFITS 捕捉淹沒效應下的異常點個 數。因此,遮蔽效應和淹沒效應的樣本個數,無一定比例關係,受到樣本 中異常點群聚程度、偏離程度與正常樣本的群聚程度有關。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

台北市 DFFITS 的異常點共有 301 個,其中有 122 個與 LTS 辨認出來 的異常點相同,約佔 41%;新北市 DFFITS 的異常點共有 496 個,其中有 243 個與 LTS 辨認出來的異常點相同,約佔 49%。雖然台北市和新北市異 常點中,二種異常點刪除方法共同辨認比例相差不多,但是新北市 RLS 模 型表現優於 DFFITS 模型的季度多於台北市,顯示 LTS 捕捉到 DFFITS 未 能辨認的異常點,其影響迴歸參數的偏離程度在新北市高於台北市;推測 可能與新北市的產品異質性較高有關。楊宗憲(2003)認為,高成熟度的都 市其產品定位規劃彈性較小,由於台北市和新北市的都市成熟度不同,新 北市各新推住宅個案的產品定位差異性較大,而台北市的差異性較小。

表11 台北市和新北市 DFFITS 和 RLS 模型表現比較表(共 50 季)

台北市 新北市 F 值

RLS 高於 OLS 49 季 50 季 DFFITS 高於 OLS 45 季 49 季 RLS 高於 DFFITS 26 季 39 季

R2

RLS 高於 OLS 49 季 50 季 DFFITS 高於 OLS 44 季 50 季 RLS 高於 DFFITS 31 季 40 季 異常點

個數

LTS 175 379

DFFITS 301 496

 

表12 台北市和新北市 DFFITS 和 RLS 模型的異常點異同

台北市 新北市

LTS 和 DFFITS 皆辨認 122 243 僅 LTS 辨認 53 136 僅 DFFITS 辨認 179 253

 

   

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

二、 異常點特性

新推住宅個案為產品異質性高的住宅市場,本文以 LTS 所辨認出來的 異常點分析住宅新推案市場的產品特色。我們首先觀察異常點的分布情形,

依據異常點座落之行政區,以及單價是否高於該季區域行情將異常點分類,

觀察異常點的推案區位和區域行情之關係。其次,針對異常點推案區位和 區域行情有較明顯關聯的行政區,進一步觀察住宅新推案之異常點特色,

比較每個異常點與平均單價、平均住宅屬性的差異。最後,透過異常點分 析提出台北市和新北市新推住宅個案市場的產品特色與趨勢。

在台北市部分,LTS 判斷出來的 175 案異常點中,從推案單價觀察發 現中正區、士林區和內湖區的異常點多是低於區域行情;中山區和大安區 的異常點則多是高於區域行情(如表 16)。中正區低於行情的異常點特色為 推案區位座落於中正區汀洲路二段以南、廈門街一帶。該地為台北市發展 較早的地區,為新店溪匯入淡水河的沖積平原,地勢較低窪常為溪水洪氾。

民國 38 年,隨國民政府來台的難民居住此處,此地逐漸成為公教人員居住 之地,然而隨著眷村與國宅的沒落,現成為外來移民進入台北市生活居住 之處。由於開發甚早,雖然生活機能方便,汀洲路上飲食店林立、生活機 能方便,但是建物窳陋,居住品質不佳,多老舊公寓。廈門街有諸多二手 舊貨商,整體發展較為老舊雜亂,且鄰近中正橋,較無景觀且尖峰時間的 車流量及噪音影響生活品質,影響房價。

士林區低於行情的異常點多來自於推案區位座落社子地區一帶。社子 地區及其北部土地相連的社子島原為共同發展的沙洲島,為淡水河和基隆 河沖積出來的沙洲。然而該區地勢低窪,颱風時節水患嚴重,民國 59 年社 子島在大台北防洪計畫中被列為滯洪區因此建物受到禁限建規定,居民陸 續搬遷移出,而社子地區未受禁限建規定,但因位處台北市邊緣,地勢低 窪有淹水之慮,房價偏低,雖屬於士林區,在發展上較為獨立。

內湖區低於行情的異常點有三個特色:其一為產品屬於工業住宅者,

推案區位座落於環東大道以南與基隆河之間的工業區。其二為小環境較差

推案區位座落於環東大道以南與基隆河之間的工業區。其二為小環境較差