異常點檢測方法

第二章文獻回顧與整理

第二節異常點檢測方法

國

立政治大學

‧

Na tiona

l Ch engchi University

第二節異常點檢測方法

近年來，統計學家陸續發展出多種異常點的檢測方法，可以分為以圖形或數據分析等判斷(薄喬萍，2008)。Aguinis et al. (2013)透過文獻分析法，

整理了39 種異常點的檢測方法，並依檢測方法的特性區分為單構造技術(以觀察值的相對位置判斷)、多重構造技術(以觀察值的殘差或距離判斷)及影響技術(以觀察值對模型估計值的影響程度判斷)等三大類。

林秋瑾(1996)透過統計軟體 SAS 系統內建的 6 種異常點檢測方法如表 2-2，探討建立特徵價格模型檢測異常點的重要性，並比較各種檢測方法對整體模型解釋能力的影響，實證結果指出DFFITS 具有較佳的檢測效果。本研究將這6 種檢測方法整理說明如下：

一、 HAT DIAG. H.

Hoaglin ＆ Welsch (1978)提出以 HAT DIAG. H.公式檢測，其定義公式如下：

ℎ = ( )

ℎ 是檢測第 i 筆觀察值自變數與所有觀察值自變數平均數的距離，因此，ℎ 越大表示第 i 筆觀察值離所有觀察值平均數越遠。Hoaglin ＆ Welsch (1978)建議若ℎ > (p 表示自變數個數；n 表示樣本數)，就代表第 i 筆資料為異常點。

二、 RSTUDENT

Belsley et al. (1980)提出以 RSTUDENT 公式檢測，其定義公式如下：

∗ =

( ) 1 − ℎ

= − 表示”有”第 i 筆觀察值時，第 i 筆資料的殘差；表示第 i 筆觀察值的實際值；表示”有”第 i 筆觀察值時，第 i 筆資料的預測值； ^{( )} 表示”沒有”第 i 筆觀察值時的標準差估計值。Belsley et al. (1980)建議若

| ^∗| > 2，就代表第 i 筆資料為異常點。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

三、 DFFITS

Belsley et al. (1980)提出以 DFFITS 公式檢測，其定義公式如下：

= − ^{( )}

( ) ℎ

( )表示”沒有”第 i 筆觀察值時，第 i 筆資料的預測值。Belsley et al.

(1980)建議若| | > 2 ，就代表第i 筆資料為異常點。

四、 COVRATIO

Belsley et al. (1980)提出以 COVRATIO 公式檢測，其定義公式如下：

=( ^{( )}) ( ^{( )} ^{( )}) ( )

( )表示移除第i 筆觀察值後的自變數矩陣。Belsley et al. (1980)建議若

| − 1| > 3 ，就代表第 i 筆資料為異常點。

五、 DFBETAS

Belsley et al. (1980)提出以 DFBETAS 公式檢測，其定義公式如下：

= − ^{( )}

( ) ( ′ )

表示”有”第 i 筆觀察值時的”個別”迴歸係數估計值； ^{( )} 表示”沒有”

第 i 筆觀察值時的”個別”迴歸係數估計值。Belsley et al. (1980)建議若

| | >

√ ，就代表第i 筆資料為異常點。

六、 COOK’S

Cook (1977)提出以 COOK’S 公式檢測，其定義公式如下：

= ( − ^{( )})′ ′ ( − ^{( )})

表示”有”第 i 筆觀察值時的”全部”迴歸係數估計值； ^{( )}表示”沒有”第 i 筆觀察值時的”全部”迴歸係數估計值；表示”有”第 i 筆觀察值時的標準差估計值。Cook (1977)建議若 > 1，就代表第 i 筆資料為異常點。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

表2-2 異常點檢測方法整理表

謝雨生、鄭宜仲(1998)指出使用不同方法來檢測迴歸分析資料中的異常點，通常不會得到完全一致的檢測結果，因為這些檢測方法各有特色，分別是以不同的角度判斷異常點。HAT DIAG. H.是檢測某一個觀察值與平均觀察值的自變數偏離情形；RSTUDENT 是檢測某一個觀察值對於模型殘差的影響；DFFITS 是檢測某一個觀察值對於模型預測值的影響；COVRATIO 是檢測某一個觀察值對於模型迴歸係數估計變異數的影響；DFBETAS 是檢測某一個觀察值對於模型迴歸係數的影響；COOK’S 是檢測某一個觀察值對於迴歸係數線性組合的影響。

Belsley et al. (1980)指出根據這些觀察值影響力的檢測，可以排序出各觀察值對模型的影響力。由於各檢測方法對異常點的認定並不相同，進而產生不同的模型估計結果，因此，檢測方法的適用時機，應根據研究的主要目標、樣本組成結構的變化或模型的解釋能力等而定。

作者檢測方法定義公式判斷標準

Hoaglin ＆ Welsch (1978) HAT DIAG. H. ℎ = ( ) ℎ >2

Belsley et al. (1980) RSTUDENT ^∗=

( ) 1 − ℎ | ^∗| > 2

Belsley et al. (1980) DFFITS = − ^{( )}

( ) ℎ | | > 2

Belsley et al. (1980) COVRATIO =( ^{( )}) ( ^{( )} ^{( )})

( ) | − 1| > 3p

Belsley et al. (1980) DFBETAS = − ^{( )}

( ) ( ′ ) | | > 2

√

Cook (1977) COOK’S =( − ^{( )})′ ′ ( − ^{( )})

> 1

資料來源：林秋瑾(1996)

‧

資料來源：Aguinis et al. (2013) Aguinis et al. (2013)並建議在進行迴歸分析時，可以應用圖 2-2 的流程來處理有影響力的異常點。由於模型擬合異常點與其他觀察值有明顯偏離，

故建議第一步先應用多種構造技術(以觀察值的殘差或距離判斷)檢測明顯偏離的觀察值，並確定其不是錯誤或有趣的異常點，該觀察值就可能是模型擬合異常點，第二步再檢查它們是否對模型的解釋能力有影響。其次，建議以DFFITS、COOK'S 及 DFBETAS 等方法檢測每一筆觀察值對模型參數

在文檔中異常住宅價格檢測與處理之研究－以個別估價觀點分析 - 政大學術集成 (頁 21-24)

第二章 文獻回顧與整理

第二節 異常點檢測方法

國

立 政 治 大 學

‧

第二節 異常點檢測方法

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

第二章文獻回顧與整理

第二節異常點檢測方法

立政治大學

第二節異常點檢測方法

立政治大學

立政治大學