前言
本章主要是針對模型進行殘差診斷,包含對(1) 預測變數的殘差圖、(2) 配適值的殘差
圖、(3)殘差之常態機率圖。利用VIF診斷預測變數間是否有存在多元共線性存在。若由殘差
圖型發現殘差非固定數或非常態性時,我們可能考慮變數變換等矯正方法。接著使用標準化
後的殘差值來判斷觀測值y 是否存在離群值,和計算帽子矩陣槓桿值判斷觀測值x是否存有
離群值。辨認出離群點後,緊接著探討這些離群值是否具影響力。使用Cook’s D 判斷其對所
有配適值之影響、而DFFITSi為判斷其對單一配適值之影響與DFBETASji為用於判斷其對迴歸 係數之影響。COVRATIOi >1時,表示觀察值i 可以改善估計精確度;COVRATIOi < 時,表示1 觀察值i 降低估計精確度,COVRATIOi > +1 3 /p n or COVRATIOi <1- 3 /p n 則第 i 筆觀察值可 能為影響點。最後,因我們知道最小平方法容易受影響點影響,嚴重時可能會扭曲其餘觀測 值之配適情形。也可能會導致遺漏重要的變數或選用不正確的函數形式。所以我們可能會比 較其與刪去影響點之後配模的差別。
第一節
根據第二章結果所選擇之最佳模型2.3.2 進行模型之診斷,包含殘差圖形診斷、判斷離群
值與影響點等分析。從Figure 3.1.1 模型 2.3.2 之殘差圖(a)發現殘差變異數不一致且略呈曲 線,殘差圖(b)(c)(d)殘差點的散佈亦無在 0 上下均勻散佈,且均呈現有離群值存在的現象。而 由Figure 3.1.2 殘差機率圖發現明顯觀察出離群值且為輕尾分佈(Light – tailed errors)。接下來 我們利用數值方法判斷是否有離群值與影響點存在。
Figure 3.1.1: Residual Plot for Model 2.3.2
Figure 3.1.2: Normal probability plot of residuals for Model 2.3.2
離群值分析(n = 44, p = 4)
5. 對回歸係數( ˆβ’s)之影響
DFBETASji其涵義本身指出納入一個觀察值將導致估計的回歸係數會增大或減少,此絕對 量顯示相對於此回歸係數之估計的標準誤其差異量大小,大的DFBETASji值直接表示第i 筆觀 察質對第 j 個回歸係數具有較大的衝擊,因此作為辨認影響點的依據,其判別式為:
, 2 /
DFBETASj i > n,
其臨界值為0.3015,由Table 3.1.2 結果顯示第 26 筆資料對所有回歸係數而言有明顯的效果;
而個別對於β 而言第 8、26 這兩筆符合判斷標準,對於ˆ0 βˆ1而言第26、42 這兩筆符合判斷標 準,對於βˆ2而言第8、26 這兩筆符合判斷標準,對於βˆ3而言第26、42 這兩筆符合判斷標準。
其中βˆ0最大影響力都出現在第8 筆資料,而βˆ1、βˆ2、βˆ3最大影響力都出現在第26 筆資料。
6. 對精確度之影響
主要顯示出去除某一筆觀測值後與全體之變異數之比例,COVRATIOi >1時,表示加入第 i 筆觀察值可以改善估計精確度;COVRATIOi < 時,表示加入第i 筆觀察值降低估計精確度,1 一般來說其臨界值難以估計,因此我們參考Belsley, kuh, and welsch [1980]所提供的結果,其 判別式如下:
1 3 1 3
p COVRATIO n
p n
⎧> +
⎪⎪⎨
⎪< −
⎪⎩
其臨界值應大於1.2727或小於0.7273,由Table 3.1.2 結果顯示第 1、2、30、33 這四筆觀察值
可以改善估計精確度,而第8、26、44 這三筆觀察值則會降低估計的精確度。
綜合以上判斷標準可以確定第 26 筆觀察值為影響點,而第 8 筆觀察值則需要我們多加 注意其可能為影響點。
Table 3.1.1: Residual analysis
Obs y ˆy ei Ri Ti hii PRESS COOK’s D Obs y ˆy ei Ri Ti hii PRESS COOK’s D
1 30.34 30.8536 -0.5136 -0.1979 -0.1955 0.4312 -0.9029 0.0074 23 27.56 24.7816 2.7784 0.8218 0.8184 0.0344 2.8776 0.0060 2 18.20 17.8411 0.3589 0.1136 0.1122 0.1571 0.4258 0.0006 24 23.75 26.1799 -2.4299 -0.7314 -0.7271 0.0677 -2.6064 0.0097 3 25.82 23.6362 2.1838 0.6478 0.6431 0.0402 2.2752 0.0044 25 23.32 22.8956 0.4244 0.1258 0.1243 0.0390 0.4416 0.0002 4 18.24 18.6200 -0.3800 -0.1155 -0.1141 0.0854 -0.4155 0.0003 26 42.40 31.7802 10.6198 3.4785 4.1127 0.2127 13.4886 0.8172 5 28.60 26.5026 2.0974 0.6205 0.6157 0.0349 2.1733 0.0035 27 28.64 32.8628 -4.2228 -1.3018 -1.3136 0.1112 -4.7512 0.0530 6 31.10 30.0739 1.0261 0.3077 0.3042 0.0604 1.0921 0.0015 28 21.16 19.0503 2.1097 0.6343 0.6295 0.0655 2.2575 0.0071 7 33.60 30.3133 3.2867 0.9909 0.9907 0.0708 3.5369 0.0187 29 29.14 30.9308 -1.7908 -0.5387 -0.5339 0.0667 -1.9187 0.0052 8 40.46 32.7924 7.6676 2.3532 2.5033 0.1032 8.5495 0.1592 30 19.96 20.6877 -0.7277 -0.2392 -0.2364 0.2181 -0.9307 0.0040 9 28.27 26.6118 1.6582 0.4993 0.4945 0.0683 1.7797 0.0046 31 26.38 27.2042 -0.8242 -0.2432 -0.2403 0.0298 -0.8496 0.0005 10 20.10 18.7369 1.3631 0.4114 0.4071 0.0725 1.4697 0.0033 32 23.44 21.4418 1.9982 0.6069 0.6020 0.0843 2.1822 0.0085 11 27.91 28.2507 -0.3407 -0.1009 -0.0996 0.0367 -0.3537 0.0001 33 23.78 22.4684 1.3116 0.4423 0.4378 0.2573 1.7659 0.0169 12 26.18 25.2264 0.9536 0.2806 0.2773 0.0240 0.9771 0.0005 34 29.18 28.9058 0.2742 0.0817 0.0807 0.0488 0.2883 0.0001 13 22.12 23.8330 -1.7130 -0.5110 -0.5062 0.0506 -1.8043 0.0035 35 18.06 19.9955 -1.9355 -0.5850 -0.5801 0.0753 -2.0932 0.0070 14 21.84 21.1973 0.6427 0.1937 0.1914 0.0701 0.6912 0.0007 36 20.94 21.8973 -0.9573 -0.2914 -0.2881 0.0883 -1.0501 0.0021 15 23.44 19.5425 3.8975 1.1863 1.1925 0.0882 4.2743 0.0340 37 20.08 19.7834 0.2966 0.0898 0.0886 0.0777 0.3216 0.0002 16 21.58 27.6821 -6.1021 -1.8824 -1.9469 0.1123 -6.8741 0.1121 38 22.57 23.3259 -0.7559 -0.2285 -0.2258 0.0753 -0.8175 0.0011 17 28.92 28.0906 0.8294 0.2465 0.2436 0.0440 0.8676 0.0007 39 14.00 17.7021 -3.7021 -1.1460 -1.1506 0.1185 -4.1996 0.0441 18 25.91 30.8345 -4.9245 -1.4980 -1.5225 0.0872 -5.3948 0.0536 40 25.89 27.7734 -1.8834 -0.5578 -0.5529 0.0368 -1.9554 0.0030 19 26.92 27.9475 -1.0275 -0.3038 -0.3003 0.0335 -1.0631 0.0008 41 21.17 25.0642 -3.8942 -1.1462 -1.1508 0.0249 -3.9935 0.0084 20 24.96 29.3310 -4.3710 -1.3075 -1.3196 0.0560 -4.6304 0.0254 42 21.25 26.2580 -5.0080 -1.5324 -1.5596 0.0978 -5.5510 0.0637 21 22.06 23.2564 -1.1964 -0.3758 -0.3717 0.1438 -1.3973 0.0059 43 22.86 25.4286 -2.5686 -0.8024 -0.7988 0.1344 -2.9674 0.0250
Table 3.1.2:Diagnostics for Leverage and Influence
DFBETASji DFBETASji
Obs ei Ti hii COVRATIOi DFFITSi β0 β1 β2 β3 Obs ei Ti hii COVRATIOi DFFITSi β0 β1 β2 β3
1 -0.5136 -0.1955 0.4312 1.9380 -0.1703 0.0942 0.1151 -0.0924 -0.1285 23 2.7784 0.8184 0.0344 1.0706 0.1546 0.0427 -0.0323 0.0664 -0.0643 2 0.3589 0.1122 0.1571 1.3111 0.0484 0.0399 -0.0117 0.0079 -0.0377 24 -2.4299 -0.7271 0.0677 1.1247 -0.1960 0.0716 0.0605 -0.0018 -0.1580 3 2.1838 0.6431 0.0402 1.1052 0.1315 0.0276 -0.0860 0.0583 0.0109 25 0.4244 0.1243 0.0390 1.1497 0.0250 0.0070 -0.0010 -0.0115 0.0088 4 -0.3800 -0.1140 0.0854 1.2083 -0.0348 -0.0308 0.0091 0.0010 0.0208 26 10.6198 4.1127 0.2127 0.3327 2.1375 -0.4290 1.9376 -0.7622 -0.5485 5 2.0974 0.6157 0.0349 1.1031 0.1171 0.0020 0.0070 0.0459 -0.0424 27 -4.2228 -1.3136 0.1112 1.0471 -0.4647 0.2528 -0.2638 -0.0634 0.0188 6 1.0261 0.3042 0.0604 1.1666 0.0771 -0.0495 0.0242 0.0025 0.0358 28 2.1097 0.6295 0.0655 1.1372 0.1666 0.1203 -0.0600 -0.0476 -0.0048 7 3.2867 0.9907 0.0708 1.0781 0.2734 -0.1859 -0.0478 0.1385 0.1323 29 -1.7908 -0.5339 0.0666 1.1516 -0.1427 0.0820 -0.0395 -0.0513 -0.0101 8 7.6676 2.5033 0.1032 0.6799 0.8490 -0.52090.1769 0.4225 0.0136 30 -0.7277 -0.2364 0.2181 1.4071 -0.1248 -0.0026 0.0276 0.0570 -0.0930 9 1.6582 0.4945 0.0683 1.1584 0.1339 0.0142 -0.0076 0.0771 -0.0775 31 -0.8242 -0.2403 0.0298 1.1339 -0.0421 0.0124 0.0008 -0.0140 -0.0058 10 1.3631 0.4071 0.0725 1.1730 0.1138 0.0885 -0.0078 -0.0611 -0.0137 32 1.9982 0.6020 0.0843 1.1646 0.1827 0.0747 -0.1419 0.0992 -0.0292 11 -0.3407 -0.0996 0.0367 1.1476 -0.0195 0.0073 -0.0031 -0.0064 -0.0007 33 1.3116 0.4378 0.2573 1.4609 0.2577 0.0706 0.2007 -0.2361 -0.0152 12 0.9536 0.2773 0.0240 1.1249 0.0435 0.0029 -0.0076 0.0098 0.0012 34 0.2742 0.0807 0.0488 1.1625 0.0183 -0.0057 0.0053 0.0063 -0.0036 13 -1.7130 -0.5062 0.0506 1.1354 -0.1169 -0.0261 -0.0557 0.0852 -0.0194 35 -1.9355 -0.5801 0.0753 1.1563 -0.1656 -0.1345 0.0401 -0.0162 0.1103 14 0.6427 0.1914 0.0701 1.1856 0.0526 0.0154 -0.0366 0.0052 0.0196 36 -0.9573 -0.2880 0.0883 1.2035 -0.0897 -0.0186 -0.0114 0.0628 -0.0428 15 3.8975 1.1925 0.0882 1.0516 0.3708 0.2637 -0.2055 0.1127 -0.1726 37 0.2966 0.0886 0.0777 1.1989 0.0257 0.0186 -0.0136 0.0068 -0.0117 16 -6.1021 -1.9469 0.1123 0.8602 -0.6925 -0.0305 0.0445 -0.4496 0.4169 38 -0.7559 -0.2257 0.0753 1.1904 -0.0644 -0.0105 0.0520 -0.0415 -0.0025 17 0.8294 0.2436 0.0440 1.1505 0.0523 -0.0236 0.0185 -0.0092 0.0238 39 -3.7021 -1.1506 0.1185 1.0984 -0.4218 -0.3444 -0.1199 0.3009 0.1487 18 -4.9245 -1.5225 0.0872 0.9623 -0.4706 0.1933 -0.0435 -0.2872 0.0964 40 -1.8834 -0.5529 0.0368 1.1135 -0.1081 0.0486 -0.0197 0.0006 -0.0491 19 -1.0275 -0.3003 0.0335 1.1344 -0.0559 0.0224 -0.0104 -0.0101 -0.0114 41 -3.8942 -1.1508 0.0248 0.9929 -0.1837 -0.0194 0.0431 -0.0515 0.0030 20 -4.3710 -1.3196 0.0560 0.9843 -0.3215 0.1151 -0.1950 0.0149 0.0188 42 -5.0080 -1.5596 0.0978 0.9629 -0.5135 -0.1259-0.37410.1388 0.3266 21 -1.1964 -0.3717 0.1438 1.2742 -0.1523 0.0103 -0.0080 0.0898 -0.1098 43 -2.5686 -0.7988 0.1344 1.1980 -0.3147 0.0156 -0.1967 0.2548 -0.1135
第二節
因我們知道最小平方法容易受影響點影響,嚴重時可能會扭曲其餘觀測值之配適情形。
也可能會導致遺漏重要的變數或選用不正確的函數形式。故我們將由第一節離群值分析所得
到的第8 筆觀察值和第 26 筆觀察值兩個影響點刪去,比較在刪去影響點後之差異,且我們亦
可觀察在少了此兩筆影響點下,模型之配適情形。
Figure 3.2.1: Scatterplot matrix for three regressor variables
在刪去第26 筆及第 8 筆觀察值後,令模型為:
y* =β0 +β1x1* +β2x*2 +β3x3*+ε (3.2.1) Figure 3.2.1 為刪去兩個影響點後所有變數的多重散佈圖,比較轉換前 Figure 2.3.3 多重
散佈圖我們可以明顯的發現y 成鐘形散佈,以模型 3.2.1 作模型參數估計及殘差分析,結果* 從Table 3.2.1 可以看到此參數估計式為:
yˆ* =2.0274+0.5962x1* +0.5567x*2 +3.1969x3* (3.2.2) 並發現在α =0.05下常數項和解釋變數膀胱癌(x )的參數檢定卻不顯著,而由 Table 3.2.21* 可看出R = 68.10%,2 Radj2 = 65.58%顯示在刪去兩個影響點後模型解釋能力較模型 2.3.2 提高。
Figure 3.2.2 為模型 3.2.2 之殘差圖其散佈情況有較均勻,且由 Figure 3.2.3 殘差常態機率圖發 現符合常態假設。接下來我們利用數值方法判斷是否有離群值與影響點存在。
Figure 3.2.2: Residual Plot for Model 3.2.2
Figure 3.2.3: Normal probability plot of residuals for Model 3.2.2
Table 3.2.1: Parameter Estimates
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 2.0274 2.5405 0.80 0.4298
Table 3.2.2: Analysis of Variance Source DF Sum of Dependent Mean 24.1276 Adj R-Sq 0.6558
Coeff Var 10.4837
3. 對 µy 之影響 *
為考慮第 i 筆觀察值對所有配適值之影響,為一比較综合影響之量數,其意涵在於檢測第 i 筆是否為影響全體配適值結果之影響點,其判別式為:
Cook’s D> 1F0.5,p,n− p ≈ 由 Table 3.2.3 結果顯示沒有任何一筆 Cook’s D 值大於 1。
4. 對 µy 之影響 i*
計算由全體配適值減去捨棄第 i 筆所估計配適值之差除以全體之標準差估計值,其涵義為 加入第i 筆觀察值導致配適值增減多少倍的標準差估計值,其判別式為:
i 2 p
DFFITS > n
由 Table 3.2.4 結果顯示在臨界值 2 p n = 0.6172 下符合的觀察值有第 1、15、31、42 等 四筆可能為影響點。
5. 對回歸係數( ˆβ’s)之影響
DFBETASji其涵義本身指出納入一個觀察值將導致估計的回歸係數會增大或減少,此絕對 量顯示相對於此回歸係數之估計的標準誤其差異量大小,大的DFBETASji值直接表示第i 筆觀 察質對第 j 個回歸係數具有較大的衝擊,因此作為辨認影響點的依據,其判別式為:
, 2 /
DFBETASj i > n,
其臨界值為 0.3086,由 Table 3.2.4 結果顯示第 1 筆資料對所有回歸係數而言有明顯的效 果;而個別對於β 而言第 1、7、37、42 這四筆符合判斷標準,對於ˆ0 βˆ1而言第1、31 這二筆 符合判斷標準,對於βˆ2而言第1、15、31、37 這四筆符合判斷標準,對於β 而言第 1、15 這ˆ3 五筆符合判斷標準。其中β 最大影響力出現在第 1 筆資料,ˆ0 βˆ1最大影響力出現在第31 筆資 料,βˆ2最大影響力出現在第31 筆資料,β 最大影響力出現在第 1 筆資料。 ˆ3
6. 對精確度之影響
主要顯示出去除某一筆觀測值後與全體之變異數之比例,COVRATIOi >1時,表示加入第 i 筆觀察值可以改善估計精確度;COVRATIOi < 時,表示加入第i 筆觀察值降低估計精確度,1 一般來說其臨界值難以估計,因此我們參考Belsley, kuh, and welsch [1980]所提供的結果,其 判別式如下:
1 3 1 3
p COVRATIO n
p n
⎧> +
⎪⎪⎨
⎪< −
⎪⎩
其臨界值應大於 1.2857 或小於 0.7143,由 Table 3.2.4 結果顯示第 1、2、28 這三筆觀察
值可以改善估計精確度,而第42 筆觀察值則會降低估計的精確度。
綜合以上判斷標準,雖然由 Figure 3.2.4 Influence Index Plot 第 42 筆觀察值其標準化殘差 高過於3 但未超過其臨界值t0.0005,37 =3.7551 故在此不視為影響點。所以在刪去先前兩個影響 點(第 8、26 筆)後,已無其他明顯的影響點存在。
Figure 3.2.4: Influence Index Plot for Model 3.2.2
Table 3.2.3: Residual analysis
Obs y ˆy ei Ri Ti hii PRESS COOK’s D Obs y ˆy ei Ri Ti hii PRESS COOK’s D 1 30.34 32.3072 -1.9672 -1.0582 -1.0600 0.4599 -3.6423 0.2384 22 27.56 24.2668 3.2932 1.3259 1.3397 0.0359 3.4158 0.0164 2 18.20 18.3305 -0.1305 -0.0562 -0.0555 0.1582 -0.1550 0.0002 23 23.75 26.2026 -2.4526 -1.0046 -1.0047 0.0684 -2.6327 0.0185 3 25.82 23.9393 1.8807 0.7594 0.7551 0.0415 1.9622 0.0063 24 23.32 22.8764 0.4436 0.1789 0.1766 0.0391 0.4616 0.0003 4 18.24 19.1632 -0.9232 -0.3819 -0.3776 0.0867 -1.0109 0.0035 25 28.64 30.0123 -1.3723 -0.5872 -0.5821 0.1465 -1.6078 0.0148 5 28.60 25.4757 3.1243 1.2605 1.2706 0.0397 3.2536 0.0164 26 21.16 19.9342 1.2258 0.5022 0.4972 0.0689 1.3165 0.0047 6 31.10 28.4921 2.6079 1.0699 1.0720 0.0714 2.8084 0.0220 27 29.14 29.0252 0.1148 0.0474 0.0468 0.0829 0.1251 0.0001 7 33.60 29.2848 4.3152 1.7761 1.8302 0.0774 4.6774 0.0662 28 19.96 22.0699 -2.1099 -0.9484 -0.9471 0.2264 -2.7274 0.0658 8 28.27 25.5114 2.7586 1.1335 1.1378 0.0742 2.9797 0.0258 29 26.38 26.3085 0.0715 0.0288 0.0284 0.0337 0.0740 0.0000 9 20.10 19.2875 0.8125 0.3339 0.3300 0.0745 0.8779 0.0022 30 23.44 22.4337 1.0063 0.4172 0.4126 0.0907 1.1066 0.0043 10 27.91 26.9820 0.9280 0.3752 0.3709 0.0440 0.9707 0.0016 31 23.78 20.4754 3.3046 1.5475 1.5775 0.2872 4.6364 0.2413 11 26.18 24.7493 1.4307 0.5729 0.5677 0.0252 1.4677 0.0021 32 29.18 27.2633 1.9167 0.7819 0.7778 0.0607 2.0405 0.0099 12 22.12 23.0553 -0.9353 -0.3802 -0.3759 0.0542 -0.9889 0.0021 33 18.06 20.2324 -2.1724 -0.8933 -0.8908 0.0756 -2.3500 0.0163 13 21.84 22.3436 -0.5036 -0.2072 -0.2045 0.0766 -0.5453 0.0009 34 20.94 21.9944 -1.0544 -0.4368 -0.4321 0.0892 -1.1576 0.0047 14 23.44 20.4004 3.0396 1.2610 1.2711 0.0918 3.3469 0.0402 35 20.08 20.5467 -0.4667 -0.1924 -0.1900 0.0806 -0.5076 0.0008 15 21.58 26.3196 -4.7396 -1.9993 -2.0856 0.1217 -5.3961 0.1384 36 22.57 24.0860 -1.5160 -0.6251 -0.6200 0.0807 -1.6490 0.0086 16 28.92 26.8336 2.0864 0.8466 0.8434 0.0508 2.1981 0.0096 37 14.00 17.7195 -3.7195 -1.5694 -1.6013 0.1221 -4.2366 0.0856 17 25.91 28.9851 -3.0751 -1.2839 -1.2953 0.1034 -3.4297 0.0475 38 25.89 26.7343 -0.8443 -0.3409 -0.3369 0.0416 -0.8809 0.0013 18 26.92 26.7789 0.1411 0.0569 0.0562 0.0396 0.1469 0.0000 39 21.17 24.6459 -3.4759 -1.3923 -1.4103 0.0259 -3.5682 0.0129 19 24.96 27.3114 -2.3514 -0.9659 -0.9650 0.0738 -2.5387 0.0186 40 21.25 24.0119 -2.7619 -1.1648 -1.1704 0.1212 -3.1429 0.0468 20 22.06 23.4668 -1.4068 -0.6013 -0.5962 0.1444 -1.6443 0.0153 41 22.86 24.0079 -1.1479 -0.4912 -0.4863 0.1464 -1.3449 0.0104 21 16.08 18.1942 -2.1142 -0.8905 -0.8881 0.1191 -2.4000 0.0268 42 28.04 21.3010 6.7390 2.7310 3.0059 0.0483 7.0809 0.0946
Table 3.2.4: Diagnostics for Leverage and Influence
DFBETASji DFBETASji
Obs ei Ti hii COVRATIOi DFFITSi β0 β1 β2 β3 Obs ei Ti hii COVRATIOi DFFITSi β0 β1 β2 β3
1 -1.9672 -1.0600 0.4599 1.8276 -0.9781 0.5013 0.6670 -0.5525 -0.7387 22 3.2932 1.3397 0.0359 0.9548 0.2585 0.0556 -0.0334 0.1089 -0.1076 2 -0.1305 -0.0555 0.1581 1.3211 -0.0240 -0.0196 0.0060 -0.0039 0.0183 23 -2.4526 -1.0047 0.0684 1.0724 -0.2723 0.0988 0.0807 -0.0087 -0.2187 3 1.8807 0.7551 0.0415 1.0919 0.1572 0.0322 -0.1014 0.0730 0.0162 24 0.4436 0.1766 0.0391 1.1539 0.0356 0.0097 -0.0010 -0.0162 0.0123 4 -0.9232 -0.3776 0.0867 1.1996 -0.1163 -0.1024 0.0324 0.0029 0.0668 25 -1.3723 -0.5821 0.1465 1.2569 -0.2412 0.1364 -0.1541 -0.0224 0.0211 5 3.1243 1.2706 0.0397 0.9766 0.2584 -0.0164 0.0448 0.0922 -0.0951 26 1.2258 0.4972 0.0689 1.1635 0.1353 0.0992 -0.0541 -0.0358 -0.0007 6 2.6079 1.0720 0.0714 1.0601 0.2972 -0.1964 0.1210 0.0056 0.1140 27 0.1148 0.0468 0.0829 1.2129 0.0141 -0.0084 0.0054 0.0043 0.0003 7 4.3152 1.8302 0.0774 0.8527 0.5302 -0.3713-0.0435 0.2627 0.2356 28 -2.1099 -0.9471 0.2264 1.3068 -0.5124 -0.0318 0.1380 0.2201 -0.3815 8 2.7586 1.1378 0.0742 1.0473 0.3222 0.0106 0.0132 0.1756 -0.1844 29 0.0715 0.0284 0.0337 1.1512 0.0053 -0.0018 0.0005 0.0016 0.0005 9 0.8125 0.3300 0.0745 1.1881 0.0936 0.0733 -0.0091 -0.0497 -0.0103 30 1.0063 0.4126 0.0907 1.2012 0.1303 0.0538 -0.1026 0.0723 -0.0154 10 0.9280 0.3709 0.0440 1.1466 0.0796 -0.0337 0.0218 0.0232 -0.0005 31 3.3046 1.5775 0.2872 1.2031 1.0014 0.2230 0.7993 -0.9053 -0.0979 11 1.4307 0.5677 0.0252 1.1024 0.0913 0.0011 -0.0083 0.0205 0.0012 32 1.9167 0.7778 0.0607 1.1101 0.1977 -0.0735 0.0789 0.0571 -0.0431 12 -0.9353 -0.3759 0.0542 1.1585 -0.0900 -0.0160 -0.0473 0.0654 -0.0113 33 -2.1724 -0.8908 0.0756 1.1056 -0.2547 -0.2038 0.0611 -0.0250 0.1663 13 -0.5036 -0.2045 0.0766 1.1994 -0.0589 -0.0188 0.0427 -0.0075 -0.0230 34 -1.0544 -0.4321 0.0892 1.1972 -0.1352 -0.0292 -0.0165 0.0944 -0.0631 14 3.0396 1.2711 0.0918 1.0325 0.4042 0.2866 -0.2326 0.1274 -0.1724 35 -0.4667 -0.1900 0.0806 1.2054 -0.0562 -0.0405 0.0309 -0.0154 0.0234 15 -4.7396 -2.0856 0.1217 0.8121 -0.7762 0.0187 -0.0226-0.4787 0.4608 36 -1.5160 -0.6200 0.0807 1.1612 -0.1837 -0.0314 0.1480 -0.1209 -0.0130 16 2.0864 0.8434 0.0508 1.0862 0.1952 -0.0950 0.0861 -0.0346 0.0742 37 -3.7195 -1.6013 0.1221 0.9693 -0.5971 -0.4780-0.1677 0.4313 0.2130 17 -3.0751 -1.2953 0.1034 1.0392 -0.4398 0.2018 -0.0913 -0.2425 0.0964 38 -0.8443 -0.3369 0.0416 1.1467 -0.0702 0.0342 -0.0196 0.0008 -0.0274 18 0.1411 0.0562 0.0396 1.1580 0.0114 -0.0051 0.0034 0.0018 0.0017 39 -3.4759 -1.4103 0.0259 0.9263 -0.2298 -0.0123 0.0358 -0.0646 0.0062 19 -2.3514 -0.9650 0.0738 1.0875 -0.2723 0.1102 -0.1837 0.0187 0.0287 40 -2.7619 -1.1704 0.1212 1.0947 -0.4347 -0.0591 -0.3383 0.1232 0.2700 20 -1.4068 -0.5962 0.1444 1.2516 -0.2449 0.0127 -0.0104 0.1427 -0.1745 41 -1.1479 -0.4862 0.1464 1.2706 -0.2014 0.0165 -0.1335 0.1613 -0.0613
第三節
而我們知道影響點(第 8、26 筆)之形成原因,並非資料輸入錯誤,而是起因於哥倫比亞 特區(第 8 筆)與內華達州(第 26 筆)均為光觀旅遊勝地,且哥倫比亞特區為首都故每天上班會
湧入大批的通勤工作者,造成此兩州菸的銷售量較高。於是我們在本節選擇利用Box-Cox 轉
換,希望藉於轉換y 可以矯正模型 2.3.2 誤差具非常態性及誤差為不等之變異數之情況。最佳 的轉換λ 值是選取使SSE最小的λ 值或使lnL(β,σ2,λ)之值最大。
Figure 3.3.1: The plot of max(lnL(β,σ2,λ))
使用Box-Cox 對 y 做轉換 ( ) , 0 ln , 0. y y
y
λ λ λ
λ
⎧ ≠
= ⎨⎩ = 從-2 到 2 之間任意選取λ ,使模型為:
y( )λ =β0+β1 1x +β2 2x +β3 3x +ε (3.3.1) 由 Figure 3.3.2 可知,經由 Box-Cox 轉換使 max(lnL(β,σ2,λ))之λ 值為 -0.22。我們可以 從Figure 3.3.3 散佈圖矩陣看出y(−0.22)呈現鐘型分布,接著以模型 3.3.1 作模型參數估計及殘 差分析,結果從Table 3.3.1 可以清楚發現在α =0.05下參數均顯著,故此參數估計式為:
yˆ(−0.22) =0.6134-0.0070x1-0.0025x2 -0.0143x3 (3.3.2) 在 Figure 3.3.3 模型 3.3.2 之殘差圖,發現殘差變異數不一致的情形有改善與 Figure 3.3.4 轉換後殘差之常態性亦有改善。而由Table 3.3.2 可看出R2= 68.43%,Radj2 = 66.06%相對提高,
但因為應變數不同無法使用判定係數做彼此模型間優劣之比較,因為轉換前後應變數之總變 異是不相同,故以參數顯著性及變數間解釋意義作為選擇依據。解釋變數為百分比之單位;
而應變數為數量的資料,所以轉換後模型相對於轉換前更為適合。接下來我們對轉換後的模 型做殘差檢定判斷是否有離群值。
Figure 3.3.4: Normal probability plot of residuals for Model 3.3.2
Table 3.3.1: Parameter Estimates
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 0.6134 0.0134 45.63 <.0001
x1 1 -0.0070 0.0030 -2.36 0.0232 x2 1 -0.0025 0.0007 -3.72 0.0006 x3 1 -0.0143 0.0043 -3.30 0.0020
Table 3.3.2: Analysis of Variance Source DF Sum of
Squares
Mean
Square F Value P-value
Model 3 0.0165 0.0055 28.9 <.0001
Error 40 0.0076 0.0002
Total 43 0.0240
Root MSE 0.0138 R-Square 0.6843 Dependent Mean 0.496 Adj R-Sq 0.6606
Coeff Var 2.7770
離群值分析(n=44,p=4)
5. 對回歸係數( ˆβ’s)之影響 一般來說其臨界值難以估計,因此我們參考Belsley, kuh, and welsch [1980]所提供的結果,其 判別式如下:
綜合以上判斷標準並由Figure 3.3.5 Influence Index Plot 第 26 筆觀察值明顯的不同於其他資 料,故第26 筆觀察值需要我們多加注意其在對 y 做轉換後仍可能為影響點。
Figure 3.3.5: Influence Index Plot for Model 3.3.2
Table 3.3.3: Residual analysis
Obs y* ˆy* ei Ri Ti hii PRESS COOK’s D Obs y* ˆy* ei Ri Ti hii PRESS COOK’s D 1 0.4720 0.4635 0.0086 0.8239 0.8206 0.4312 0.0150 0.1287 23 0.4821 0.4968 -0.0147 -1.0873 -1.0898 0.0344 -0.0152 0.0105 2 0.5282 0.5283 -0.0001 -0.0067 -0.0067 0.1571 -0.0001 0.0000 24 0.4981 0.4885 0.0097 0.7273 0.7230 0.0677 0.0104 0.0096 3 0.4891 0.5005 -0.0114 -0.8477 -0.8447 0.0402 -0.0119 0.0075 25 0.5002 0.5043 -0.0041 -0.3066 -0.3031 0.0390 -0.0043 0.0010 4 0.5279 0.5241 0.0038 0.2906 0.2872 0.0854 0.0042 0.0020 26 0.4385 0.4699 -0.0314 -2.5680 -2.7747 0.2127 -0.0399 0.4454 5 0.4782 0.4896 -0.0114 -0.8437 -0.8406 0.0349 -0.0118 0.0064 27 0.4780 0.4628 0.0153 1.1755 1.1813 0.1112 0.0172 0.0432 6 0.4695 0.4733 -0.0038 -0.2859 -0.2826 0.0604 -0.0041 0.0013 28 0.5110 0.5210 -0.0100 -0.7527 -0.7485 0.0655 -0.0107 0.0099 7 0.4615 0.4712 -0.0097 -0.7291 -0.7247 0.0708 -0.0104 0.0101 29 0.4762 0.4701 0.0061 0.4578 0.4533 0.0667 0.0065 0.0037 8 0.4431 0.4621 -0.0190 -1.4571 -1.4786 0.1032 -0.0212 0.0611 30 0.5176 0.5114 0.0062 0.5101 0.5053 0.2181 0.0079 0.0181 9 0.4794 0.4895 -0.0101 -0.7589 -0.7548 0.0683 -0.0108 0.0106 31 0.4868 0.4858 0.0009 0.0698 0.0689 0.0298 0.0010 0.0000 10 0.5168 0.5231 -0.0063 -0.4743 -0.4696 0.0725 -0.0068 0.0044 32 0.4996 0.5098 -0.0102 -0.7765 -0.7726 0.0843 -0.0112 0.0139 11 0.4808 0.4816 -0.0008 -0.0626 -0.0619 0.0367 -0.0009 0.0000 33 0.4980 0.5098 -0.0118 -0.9930 -0.9928 0.2573 -0.0159 0.0854 12 0.4876 0.4944 -0.0068 -0.5019 -0.4971 0.0240 -0.0070 0.0016 34 0.4761 0.4793 -0.0033 -0.2424 -0.2395 0.0488 -0.0034 0.0008 13 0.5060 0.5013 0.0047 0.3528 0.3489 0.0506 0.0050 0.0017 35 0.5291 0.5182 0.0109 0.8195 0.8161 0.0753 0.0117 0.0137 14 0.5074 0.5102 -0.0028 -0.2106 -0.2081 0.0701 -0.0030 0.0008 36 0.5121 0.5085 0.0036 0.2766 0.2734 0.0883 0.0040 0.0019 15 0.4996 0.5192 -0.0196 -1.4899 -1.5138 0.0882 -0.0215 0.0537 37 0.5169 0.5182 -0.0013 -0.0975 -0.0963 0.0777 -0.0014 0.0002 16 0.5088 0.4851 0.0236 1.8214 1.8780 0.1123 0.0266 0.1049 38 0.5038 0.5012 0.0025 0.1905 0.1882 0.0753 0.0027 0.0007 17 0.4770 0.4820 -0.0050 -0.3723 -0.3683 0.0440 -0.0052 0.0016 39 0.5596 0.5290 0.0305 2.3609 2.5128 0.1185 0.0346 0.1873 18 0.4887 0.4708 0.0179 1.3628 1.3781 0.0872 0.0196 0.0444 40 0.4888 0.4832 0.0056 0.4135 0.4092 0.0368 0.0058 0.0016 19 0.4846 0.4828 0.0018 0.1362 0.1345 0.0335 0.0019 0.0002 41 0.5109 0.4951 0.0158 1.1626 1.1679 0.0249 0.0162 0.0086 20 0.4927 0.4779 0.0149 1.1105 1.1138 0.0560 0.0157 0.0183 42 0.5105 0.4932 0.0173 1.3246 1.3376 0.0978 0.0192 0.0476 21 0.5063 0.5016 0.0048 0.3728 0.3688 0.1438 0.0056 0.0058 43 0.5024 0.4946 0.0078 0.6083 0.6034 0.1344 0.0090 0.0144 22 0.5428 0.5281 0.0146 1.1322 1.1363 0.1184 0.0166 0.0430 44 0.4803 0.5136 -0.0333 -2.4778 -2.6591 0.0469 -0.0350 0.0755
Table 3.3.4: Diagnostics for Leverage and Influence
DFBETASji DFBETASji
Obs ei Ti hii COVRATIOi DFFITSi β0 β1 β2 β3 Obs ei Ti hii COVRATIOi DFFITSi β0 β1 β2 β3
1 0.0086 0.8206 0.4312 1.8168 0.7145 -0.3953 -0.4832 0.3876 0.5392 23 -0.0147 -1.0898 0.0344 1.0165 -0.2058 -0.0568 0.0430 -0.0884 0.0856 2 -0.0001 -0.0067 0.1571 1.3128 -0.0029 -0.0024 0.0007 -0.0005 0.0022 24 0.0097 0.7230 0.0677 1.1254 0.1949 -0.0712 -0.0602 0.0018 0.1571 3 -0.0114 -0.8447 0.0402 1.0722 -0.1728 -0.0362 0.1130 -0.0766 -0.0143 25 -0.0041 -0.3031 0.0390 1.1407 -0.0611 -0.0170 0.0025 0.0280 -0.0216 4 0.0038 0.2872 0.0854 1.1997 0.0878 0.0775 -0.0230 -0.0024 -0.0523 26 -0.0314 -2.7747 0.2127 0.6837 -1.4421 0.2894 -1.3073 0.5143 0.3701 5 -0.0114 -0.8406 0.0349 1.0672 -0.1599 -0.0028 -0.0096 -0.0627 0.0579 27 0.0153 1.1813 0.1112 1.0817 0.4179 -0.2274 0.2372 0.0570 -0.0169 6 -0.0038 -0.2825 0.0604 1.1681 -0.0716 0.0460 -0.0225 -0.0023 -0.0332 28 -0.0100 -0.7485 0.0655 1.1184 -0.1981 -0.1431 0.0713 0.0566 0.0057 7 -0.0097 -0.7247 0.0708 1.1288 -0.2000 0.1360 0.0350 -0.1013 -0.0968 29 0.0061 0.4533 0.0666 1.1609 0.1211 -0.0696 0.0336 0.0435 0.0086 8 -0.0190 -1.4786 0.1032 0.9920 -0.5014 0.3077 -0.1045 -0.2496 -0.0080 30 0.0062 0.5053 0.2181 1.3787 0.2669 0.0056 -0.0591 -0.1219 0.1989 9 -0.0101 -0.7548 0.0683 1.1208 -0.2044 -0.0217 0.0115 -0.1177 0.1183 31 0.0009 0.0689 0.0298 1.1400 0.0121 -0.0036 -0.0002 0.0040 0.0017 10 -0.0063 -0.4696 0.0725 1.1664 -0.1313 -0.1020 0.0090 0.0705 0.0158 32 -0.0102 -0.7726 0.0843 1.1373 -0.2345 -0.0958 0.1821 -0.1273 0.0375 11 -0.0008 -0.0619 0.0367 1.1483 -0.0121 0.0045 -0.0019 -0.0040 -0.0004 33 -0.0118 -0.9928 0.2573 1.3483 -0.5843 -0.1602 -0.4551 0.5355 0.0344 12 -0.0068 -0.4971 0.0240 1.1055 -0.0780 -0.0052 0.0137 -0.0176 -0.0022 34 -0.0033 -0.2395 0.0488 1.1565 -0.0542 0.0170 -0.0158 -0.0186 0.0107 13 0.0047 0.3489 0.0506 1.1511 0.0806 0.0180 0.0384 -0.0587 0.0134 35 0.0109 0.8161 0.0753 1.1183 0.2329 0.1893 -0.0564 0.0229 -0.1551 14 -0.0028 -0.2081 0.0701 1.1848 -0.0571 -0.0167 0.0398 -0.0056 -0.0213 36 0.0036 0.2734 0.0883 1.2045 0.0851 0.0177 0.0108 -0.0596 0.0407 15 -0.0196 -1.5138 0.0882 0.9658 -0.4707 -0.3347 0.2609 -0.1430 0.2191 37 -0.0013 -0.0963 0.0777 1.1987 -0.0279 -0.0202 0.0148 -0.0073 0.0127 16 0.0236 1.8780 0.1123 0.8817 0.6680 0.0294 -0.0429 0.4337 -0.4022 38 0.0025 0.1882 0.0753 1.1923 0.0537 0.0088 -0.0434 0.0346 0.0021 17 -0.0050 -0.3683 0.0440 1.1415 -0.0790 0.0357 -0.0279 0.0140 -0.0360 39 0.0305 2.5128 0.1185 0.6887 0.9211 0.7521 0.2618 -0.6572 -0.3247 18 0.0179 1.3781 0.0872 1.0023 0.4259 -0.1750 0.0394 0.2599 -0.0873 40 0.0056 0.4092 0.0368 1.1293 0.0800 -0.0360 0.0146 -0.0004 0.0363 19 0.0018 0.1345 0.0335 1.1428 0.0250 -0.0101 0.0046 0.0045 0.0051 41 0.0158 1.1679 0.0248 0.9890 0.1864 0.0197 -0.0437 0.0523 -0.0030 20 0.0149 1.1138 0.0560 1.0342 0.2714 -0.0972 0.1646 -0.0126 -0.0158 42 0.0173 1.3376 0.0978 1.0251 0.4404 0.1079 0.3209 -0.1191 -0.2801 21 0.0048 0.3688 0.1438 1.2745 0.1511 -0.0102 0.0080 -0.0891 0.1089 43 0.0078 0.6034 0.1344 1.2317 0.2378 -0.0118 0.1486 -0.1925 0.0857 22 0.0146 1.1363 0.1183 1.1018 0.4163 0.3775 -0.0376 -0.0369-0.3091 44 -0.0333 -2.6591 0.0469 0.5962 -0.5897 -0.3527 0.2111 0.1431 -0.0465
Figure 3.3.6: The plot of max(lnL(β,σ2,λ)) for Figure 3.3.7: The plot of max(lnL(β,σ2,λ)) for three regressor Response
Figure 3.3.8: Scatterplot matrix for three regressor variables
從 Figure 3.1.1 殘差圖變異數不一致,我們知道除了考慮對反應變數做轉換,亦可考慮反 應變數與解釋變數均做轉換。我們先對解釋變數做轉換,使模型為:
y= b0+ b1 1x-0.13+ b2 2x1.5+ b3 3x0.49+ e (3.3.3) 並再對y 做轉換,使用 Box-Cox 對 y 做轉換 ( ) , 0
ln , 0. y y
y
λ λ λ
λ
⎧ ≠
= ⎨⎩ = 從-2 到 2 之間任意選取λ , 使模型為:
ˆy( )l = b + b x-0.13+ b x1.5+ b x0.49+ e (3.3.4)
由,Figure 3.3.6 為解釋變數轉換次方圖形之呈現,Figure 3.3.7 可知,經由 Box-Cox 轉換
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 0.3207 0.1205 2.66 0.0112
Table 3.3.6: Analysis of Variance Source DF Sum of
第四節
由於 Figuare 3.1.1 殘差圖變異數不一致且略呈曲線狀,我們除了可以考慮變數轉換做矯
正。我們知道當殘差有曲線時,亦有可能是模型中需加入平方項。故此節我們考慮在模型 2.3.2
中放入平方項,我們藉由檢定模型中是否須放平方項與逐步迴歸分析幫我們選取出適合加入 的平方項之解釋變數配適模型。
因為由 Table 3.4.1 檢定結果可以發現 Linear 顯著(P-Value < 0.0001 < α = 0.05),則表示 解釋變數與反應變數間有線性關係;且Quadratic 顯著(P-Value = 0.0156 < α = 0.05),所以模 型考慮加入二次項的解釋變數;然而Crossproduct 不顯著(P-Value = 0.4610 > α = 0.05),則 此模型不考慮加入交互作用項的解釋變數。而後利用逐步回歸與所有回歸式的比較選取法來
因為由 Table 3.4.1 檢定結果可以發現 Linear 顯著(P-Value < 0.0001 < α = 0.05),則表示 解釋變數與反應變數間有線性關係;且Quadratic 顯著(P-Value = 0.0156 < α = 0.05),所以模 型考慮加入二次項的解釋變數;然而Crossproduct 不顯著(P-Value = 0.4610 > α = 0.05),則 此模型不考慮加入交互作用項的解釋變數。而後利用逐步回歸與所有回歸式的比較選取法來