第二章 文獻回顧與整理
第二節 異常點檢測方法
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第二節 異常點檢測方法
近年來,統計學家陸續發展出多種異常點的檢測方法,可以分為以圖 形或數據分析等判斷(薄喬萍,2008)。Aguinis et al. (2013)透過文獻分析法,
整理了39 種異常點的檢測方法,並依檢測方法的特性區分為單構造技術(以 觀察值的相對位置判斷)、多重構造技術(以觀察值的殘差或距離判斷)及影 響技術(以觀察值對模型估計值的影響程度判斷)等三大類。
林秋瑾(1996)透過統計軟體 SAS 系統內建的 6 種異常點檢測方法如表 2-2,探討建立特徵價格模型檢測異常點的重要性,並比較各種檢測方法對 整體模型解釋能力的影響,實證結果指出DFFITS 具有較佳的檢測效果。本 研究將這6 種檢測方法整理說明如下:
一、 HAT DIAG. H.
Hoaglin & Welsch (1978)提出以 HAT DIAG. H.公式檢測,其定義公式 如下:
ℎ = ( )
ℎ 是檢測第 i 筆觀察值自變數與所有觀察值自變數平均數的距離,因 此,ℎ 越大表示第 i 筆觀察值離所有觀察值平均數越遠。Hoaglin & Welsch (1978)建議若ℎ > (p 表示自變數個數;n 表示樣本數),就代表第 i 筆資 料為異常點。
二、 RSTUDENT
Belsley et al. (1980)提出以 RSTUDENT 公式檢測,其定義公式如下:
∗ =
( ) 1 − ℎ
= − 表示”有”第 i 筆觀察值時,第 i 筆資料的殘差; 表示第 i 筆觀察值的實際值; 表示”有”第 i 筆觀察值時,第 i 筆資料的預測值; ( ) 表示”沒有”第 i 筆觀察值時的標準差估計值。Belsley et al. (1980)建議若
| ∗| > 2,就代表第 i 筆資料為異常點。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
三、 DFFITS
Belsley et al. (1980)提出以 DFFITS 公式檢測,其定義公式如下:
= − ( )
( ) ℎ
( )表示”沒有”第 i 筆觀察值時,第 i 筆資料的預測值。Belsley et al.
(1980)建議若| | > 2 ,就代表第i 筆資料為異常點。
四、 COVRATIO
Belsley et al. (1980)提出以 COVRATIO 公式檢測,其定義公式如下:
=( ( )) ( ( ) ( )) ( )
( )表示移除第i 筆觀察值後的自變數矩陣。Belsley et al. (1980)建議若
| − 1| > 3 ,就代表第 i 筆資料為異常點。
五、 DFBETAS
Belsley et al. (1980)提出以 DFBETAS 公式檢測,其定義公式如下:
= − ( )
( ) ( ′ )
表示”有”第 i 筆觀察值時的”個別”迴歸係數估計值; ( ) 表示”沒有”
第 i 筆觀察值時的”個別”迴歸係數估計值。Belsley et al. (1980)建議若
| | >
√ ,就代表第i 筆資料為異常點。
六、 COOK’S
Cook (1977)提出以 COOK’S 公式檢測,其定義公式如下:
= ( − ( ))′ ′ ( − ( ))
表示”有”第 i 筆觀察值時的”全部”迴歸係數估計值; ( )表示”沒有”第 i 筆觀察值時的”全部”迴歸係數估計值; 表示”有”第 i 筆觀察值時的標準 差估計值。Cook (1977)建議若 > 1,就代表第 i 筆資料為異常點。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
表2-2 異常點檢測方法整理表
謝雨生、鄭宜仲(1998)指出使用不同方法來檢測迴歸分析資料中的異常 點,通常不會得到完全一致的檢測結果,因為這些檢測方法各有特色,分別 是以不同的角度判斷異常點。HAT DIAG. H.是檢測某一個觀察值與平均觀 察值的自變數偏離情形;RSTUDENT 是檢測某一個觀察值對於模型殘差的 影響;DFFITS 是檢測某一個觀察值對於模型預測值的影響;COVRATIO 是 檢測某一個觀察值對於模型迴歸係數估計變異數的影響;DFBETAS 是檢測 某一個觀察值對於模型迴歸係數的影響;COOK’S 是檢測某一個觀察值對 於迴歸係數線性組合的影響。
Belsley et al. (1980)指出根據這些觀察值影響力的檢測,可以排序出各 觀察值對模型的影響力。由於各檢測方法對異常點的認定並不相同,進而 產生不同的模型估計結果,因此,檢測方法的適用時機,應根據研究的主要 目標、樣本組成結構的變化或模型的解釋能力等而定。
作者 檢測方法 定義公式 判斷標準
Hoaglin & Welsch (1978) HAT DIAG. H. ℎ = ( ) ℎ >2
Belsley et al. (1980) RSTUDENT ∗=
( ) 1 − ℎ | ∗| > 2
Belsley et al. (1980) DFFITS = − ( )
( ) ℎ | | > 2
Belsley et al. (1980) COVRATIO =( ( )) ( ( ) ( ))
( ) | − 1| > 3p
Belsley et al. (1980) DFBETAS = − ( )
( ) ( ′ ) | | > 2
√
Cook (1977) COOK’S =( − ( ))′ ′ ( − ( ))
> 1
資料來源:林秋瑾(1996)
‧
資料來源:Aguinis et al. (2013) Aguinis et al. (2013)並建議在進行迴歸分析時,可以應用圖 2-2 的流程 來處理有影響力的異常點。由於模型擬合異常點與其他觀察值有明顯偏離,
故建議第一步先應用多種構造技術(以觀察值的殘差或距離判斷)檢測明顯 偏離的觀察值,並確定其不是錯誤或有趣的異常點,該觀察值就可能是模 型擬合異常點,第二步再檢查它們是否對模型的解釋能力有影響。其次,建 議以DFFITS、COOK'S 及 DFBETAS 等方法檢測每一筆觀察值對模型參數