• 沒有找到結果。

檢查影響點與異常點

第二章 診斷模式

第三節 檢查影響點與異常點

一、 異常點偵測

偵測異常點的方法有 Residual、Studentized Residual(STUDENT)以及 Studentized Deleted Residual(RSTUDENT)這三種方法。表十二中的 0 與 1,是 由 Excel 的 IF 函數判斷出來的結果,其中 1 代表滿足異常點的條件;反之,0 代表一定不會是異常點。

(一)

Residual

判斷準則為

ˆ ˆ

| e | 3 MSE 36.58459

i >

σ σ

= =

若 ,表示可能為異常點,其中 。

從表十二發現,用 Residual 的偵測方法,得知觀察值 36 可能為異常 點。

(二)

Studentized Residual(STUDENT)

判斷準則為

,表示可能為異常點。

若|r

i

|>3

從表十二發現,用 STUDENT 的偵測方法,再次得到觀察值 36 可能為異 常點。

(三)

Studentized Deleted Residual(RSTUDENT)

判斷準則為

,表示可能為異常點。

若|t

i

|>3

從表十二發現,用 RSTUDENT 的偵測方法,又再次得到觀察值 36 可能為 異常點。

19 逢甲大學學生報告 ePaper(2008 年) 36 114.5349 1 3.384 1 3.7858 1 37 31.8215 0 0.885 0 0.8836 0

偵測影響點的方法有 DFFITS、The hat matrix elements hii

Cook s '

distance statistic D

i、DFBETAS、COVRATIO 這五種方法。

表十三中的 0 與 1,是由 Excel 的 IF 函數判斷出來的結果,其中 1 代表滿足影 響點的條件;反之,0 代表一定不會是影響點。

20 逢甲大學學生報告 ePaper(2008 年)

(二) The hat matrix elements h ii

判斷準則為:

21 逢甲大學學生報告 ePaper(2008 年)

從表十三得知,用 COVRATIO 的偵測方法,得到觀察值 2、12、28、

31、36、39、46、48 這些點可能為影響點。

表十三

p=5

n=58 Intercept x1 x4 x7 x14

2 0.5276 0 0.0428 0 0.051 0 0.3397 1 -0.2603 0 -0.0504 0 -0.1137 0 -0.0925 0 0.6532 1

Obs DFFITS Hat Diag

H >2p/n Cook's D >1

DFBETAS

Cov

Ratio

22 逢甲大學學生報告 ePaper(2008 年)

三、 異常點與影響點綜合結果

綜合上述異常點及影響點的偵測方法,得到表十四,得知觀察值 36(也就是

“紐奧良",位於路易斯安那州)為異常點兼影響點,我們回至原始資料檢查,

發現紐奧良的死力,為所有城市中最大的,但觀察我們所考慮到的所有預測變數 (X1-X14),未發現有與其它城市特別不同之處,因此,我們認為也許是一些較特 殊的因素,我們沒有納入考量,像是紐奧良位於沿海一帶,就曾經因為發生海嘯,

而導致重大傷亡與損失的事故。

此外,由表十四得知移除第一個觀察值 36 後,其判定係數R 及修正後判定

2

係數R 皆大幅下降,也就是說各變數對死力的解釋能力反而降低,因此我們回

a 2

到應變數對自變數的散佈圖作觀察,其中圖一裡的第一行的第二個圖是死力對一 月份平均溫度的散佈圖,一般來說一月份平均溫度愈高,死力應該會愈低,所以 我們假設它們之間有一個負相關存在,且從此圖中可看出左下方與右上方的兩個 點會影響到它們負相關的關係,回到原始資料得知這兩個點分別為觀察值 33 和 觀察值 36,再加上由表十四得知觀察值 33 在 DFBETAS 的偵測方法中,偵測為可 能的影響點,所以我們決定同時將這兩個觀察值移除再做一次判定係數R 及修

2

正後判定係數R 的檢查。從表十四得知同時移除觀察值 33 和觀察值 36 後,其

a 2

判定係數R 及修正後判定係數

2

R 皆比未移除任何觀察值前提高,因此,我們決

a 2

定將這兩個觀察值同時移除,然後再做一次檢測。

在同時移除觀察值 33 和觀察值 36 後,由表十四得知無觀察值為異常點,而 觀察值 31(也就是“邁阿密",位於佛羅里達州)為影響點,我們再次回至原始 資料檢查,在所有考慮到的預測變數(X1-X14)及應變數(Y)中,它的一月份平均溫 度為華氏 67 度,除了居 58 個城市之冠外,相較於其它城市,它有偏高的趨勢,

因此,我們認為也許是這個因素使得整個模型改變。但由表十四得知移除觀察值 31 後,其判定係數R 及修正後判定係數

2

R 皆比未移除觀察值 31 前降低,也就

a 2

23 逢甲大學學生報告 ePaper(2008 年)

24 逢甲大學學生報告 ePaper(2008 年)

Variable Label DF Parameter Estimate

Standard

Error t Value Pr > | t | Variance Inflation Intercept Intercept 1 899.8715 23.98839 37.51 <.0001 0.0000 x1 一月份平均溫度 1 -2.34495 0.50663 -4.63 <.0001 1.2746 x4 每年度降雨量 1 1.35348 0.39863 3.4 0.0013 1.1457 x7 非白種人比例 1 4.0768 0.58675 6.95 <.0001 1.4243 x14 二氧化硫潛在污染 1 0.34096 0.07077 4.82 <.0001 1.1313

Parameter Estimates

相關文件