• 沒有找到結果。

第二章 文獻回顧與整理

第二節 異常點檢測方法

立 政 治 大 學

Na tiona

l Ch engchi University

第二節 異常點檢測方法

近年來,統計學家陸續發展出多種異常點的檢測方法,可以分為以圖 形或數據分析等判斷(薄喬萍,2008)。Aguinis et al. (2013)透過文獻分析法,

整理了39 種異常點的檢測方法,並依檢測方法的特性區分為單構造技術(以 觀察值的相對位置判斷)、多重構造技術(以觀察值的殘差或距離判斷)及影 響技術(以觀察值對模型估計值的影響程度判斷)等三大類。

林秋瑾(1996)透過統計軟體 SAS 系統內建的 6 種異常點檢測方法如表 2-2,探討建立特徵價格模型檢測異常點的重要性,並比較各種檢測方法對 整體模型解釋能力的影響,實證結果指出DFFITS 具有較佳的檢測效果。本 研究將這6 種檢測方法整理說明如下:

一、 HAT DIAG. H.

Hoaglin & Welsch (1978)提出以 HAT DIAG. H.公式檢測,其定義公式 如下:

ℎ = ( )

ℎ 是檢測第 i 筆觀察值自變數與所有觀察值自變數平均數的距離,因 此,ℎ 越大表示第 i 筆觀察值離所有觀察值平均數越遠。Hoaglin & Welsch (1978)建議若ℎ > (p 表示自變數個數;n 表示樣本數),就代表第 i 筆資 料為異常點。

二、 RSTUDENT

Belsley et al. (1980)提出以 RSTUDENT 公式檢測,其定義公式如下:

=

( ) 1 − ℎ

= − 表示”有”第 i 筆觀察值時,第 i 筆資料的殘差; 表示第 i 筆觀察值的實際值; 表示”有”第 i 筆觀察值時,第 i 筆資料的預測值; ( ) 表示”沒有”第 i 筆觀察值時的標準差估計值。Belsley et al. (1980)建議若

| | > 2,就代表第 i 筆資料為異常點。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

三、 DFFITS

Belsley et al. (1980)提出以 DFFITS 公式檢測,其定義公式如下:

= − ( )

( )

( )表示”沒有”第 i 筆觀察值時,第 i 筆資料的預測值。Belsley et al.

(1980)建議若| | > 2 ,就代表第i 筆資料為異常點。

四、 COVRATIO

Belsley et al. (1980)提出以 COVRATIO 公式檢測,其定義公式如下:

=( ( )) ( ( ) ( )) ( )

( )表示移除第i 筆觀察值後的自變數矩陣。Belsley et al. (1980)建議若

| − 1| > 3 ,就代表第 i 筆資料為異常點。

五、 DFBETAS

Belsley et al. (1980)提出以 DFBETAS 公式檢測,其定義公式如下:

= − ( )

( ) ( ′ )

表示”有”第 i 筆觀察值時的”個別”迴歸係數估計值; ( ) 表示”沒有”

第 i 筆觀察值時的”個別”迴歸係數估計值。Belsley et al. (1980)建議若

| | >

,就代表第i 筆資料為異常點。

六、 COOK’S

Cook (1977)提出以 COOK’S 公式檢測,其定義公式如下:

= ( − ( ))′ ′ ( − ( ))

表示”有”第 i 筆觀察值時的”全部”迴歸係數估計值; ( )表示”沒有”第 i 筆觀察值時的”全部”迴歸係數估計值; 表示”有”第 i 筆觀察值時的標準 差估計值。Cook (1977)建議若 > 1,就代表第 i 筆資料為異常點。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

表2-2 異常點檢測方法整理表

謝雨生、鄭宜仲(1998)指出使用不同方法來檢測迴歸分析資料中的異常 點,通常不會得到完全一致的檢測結果,因為這些檢測方法各有特色,分別 是以不同的角度判斷異常點。HAT DIAG. H.是檢測某一個觀察值與平均觀 察值的自變數偏離情形;RSTUDENT 是檢測某一個觀察值對於模型殘差的 影響;DFFITS 是檢測某一個觀察值對於模型預測值的影響;COVRATIO 是 檢測某一個觀察值對於模型迴歸係數估計變異數的影響;DFBETAS 是檢測 某一個觀察值對於模型迴歸係數的影響;COOK’S 是檢測某一個觀察值對 於迴歸係數線性組合的影響。

Belsley et al. (1980)指出根據這些觀察值影響力的檢測,可以排序出各 觀察值對模型的影響力。由於各檢測方法對異常點的認定並不相同,進而 產生不同的模型估計結果,因此,檢測方法的適用時機,應根據研究的主要 目標、樣本組成結構的變化或模型的解釋能力等而定。

作者 檢測方法 定義公式 判斷標準

Hoaglin & Welsch (1978) HAT DIAG. H. ℎ = ( ) ℎ >2

Belsley et al. (1980) RSTUDENT =

( ) 1 − ℎ | | > 2

Belsley et al. (1980) DFFITS = ( )

( ) | | > 2

Belsley et al. (1980) COVRATIO =( ( )) ( ( ) ( ))

( ) | − 1| > 3p

Belsley et al. (1980) DFBETAS = ( )

( ) ( ′ ) | | > 2

Cook (1977) COOK’S =( − ( ))′ ′ ( − ( ))

> 1

資料來源:林秋瑾(1996)

資料來源:Aguinis et al. (2013) Aguinis et al. (2013)並建議在進行迴歸分析時,可以應用圖 2-2 的流程 來處理有影響力的異常點。由於模型擬合異常點與其他觀察值有明顯偏離,

故建議第一步先應用多種構造技術(以觀察值的殘差或距離判斷)檢測明顯 偏離的觀察值,並確定其不是錯誤或有趣的異常點,該觀察值就可能是模 型擬合異常點,第二步再檢查它們是否對模型的解釋能力有影響。其次,建 議以DFFITS、COOK'S 及 DFBETAS 等方法檢測每一筆觀察值對模型參數