前言
本章考慮在模型中加入了虛擬變數,探討虛擬變數的組別之間的差異對模型是否有影 響。而分別加入模型中考慮的3 個虛擬變數分別為:x4 = 表菸頭量>平均數 23.77,1 x4 = 表0 菸頭量<平均數 23.77;依地區(AREA)劃分設x5 = 為北西部、1 x5 = 中西部、2 x5 = 南部與3
5 4
x = 西部;依地區(WEST)劃分x6 = 設南部與西部1 x6 = 為北西部與中西部。 0
第一節
我們先利用簡單的散佈圖來觀察不同的組別之間是否由圖型可明顯看出差異。由Figure
5.1.1 可看出,若依菸頭量>平均數 23.77 與<平均數 23.77 可將資料明顯的分成兩群。
Figure 5.1.2 是依地區(AREA): 1 為北西部 2.中西部 3.南部 4.西部,利用散佈圖標示出來,
但我們很難由圖型判斷出菸頭數是否受地區的不同有所影響。
Figure 5.1.2 Scatter Plot to Separate the Dummy Variable x 5
Figure 5.1.3 依地區劃分設南部與西部為 1 而北西部與中西部為 0 利用散佈圖分別標示出。
Figure 5.1.4 與 Figure 5.1.5 是取菸頭量>平均數 23.77 的資料,在分別看是否受地區影響。由 圖形我們並沒有看出明顯的差異。
Figure 5.1.4 Scatter Plot to Separate the Dummy Variable x 5
Figure 5.1.6 與 Figure 5.1.7 是取菸頭量<平均數 23.77 的資料,看是否受地區影響。Figure 5.1.7
是依地區劃分設南部與西部為 1 而北西部與中西部為 0,發現北西部與中西部菸頭數的點散
佈似乎都高於南部與西部。
Figure 5.1.6 Scatter Plot to Separate the Dummy Variable x 5
第二節
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 -1.1916 3.3579 -0.355 0.7246
x1 1 2.0544 0.7441 2.761 0.0087 x2 1 0.5179 0.1653 3.134 0.0032 x 3 1 2.6701 1.0853 2.460 0.0183
Table 5.2.2 Analysis of Variance Source DF Sum of
兩條不同的配適線。Figure 5.2.2 為此模型之殘差常態圖,如同前面所分析之結果,可明顯看
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 5.1954 3.6941 1.406 0.1675
x1 1 1.2842 0.7214 1.780 0.0828
x2 1 0.3371 0.1613 2.089 0.0433
x 3 1 2.0459 1.0072 2.031 0.0491 (x4 = ) 1 1 4.1683 1.3582 3.069 0.0039
Table 5.2.4 Analysis of Variance Source DF Sum of
Figure 5.2.1 Response function for Model 5.2.2
Figure 5.2.2 Normal probability plot of residuals for Model 5.2.2
模型5.2.5 為反應變數菸頭數( y )與解釋變數膀胱癌(x )、肺癌(1 x )、腎癌(2 x )與地區之虛3
Table 5.2.6 Analysis of Variance Source DF Sum of
Squares
Mean
Square F Value P-value Model 6 905.71 150.9517 12.99 <.0001
Error 37 429.93 11.62
Total 43 1335.64
Root MSE 3.409 R-Square 0.6781
Adj R-Sq 0.6259
Table 5.2.5 Parameter Estimates
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 -4.0850 4.2571 -0.960 0.3435
x1 1 2.3206 0.8521 2.723 0.0098
x2 1 0.4990 0.1884 2.649 0.0118
x 3 1 3.0847 1.1555 2.670 0.0112 (x5 = ) 2 1 0.0650 1.6672 0.039 0.9691 (x5 = ) 3 1 1.2163 1.8299 0.665 0.5104 (x5 = ) 4 1 2.8150 1.8160 1.550 0.1296
Figure 5.2.3 Response function for Model 5.2.5
模型 5.2.10 為反應變數菸頭數(y )與解釋變數膀胱癌(x )、肺癌(1 x )、腎癌(2 x )與地區之3 虛擬變數(x )配適模型。。由 Table 5.2.7 可知參數估計除了虛擬變數(6 x )此變數較不顯著外,6 其他均為顯著,解釋變數均具解釋能力。Table 5.2.8 可看出模型檢定顯著,而整體解釋變數 的解釋能力,可由RAdj2 =63.51%知解釋了總變異的 63.51%。依地區(WEST)劃分 1 為南部與 西部 0 為北西部與中西部此兩區,由 Figure 5.2.5 可看出此兩區之配適線其截距不同。如同 Figure 5.2.6,Figure 5.2.7 此模型之殘差常態圖,為輕尾分佈(Light – tailed errors)。
$ 4.1796 2.5464 1 0.4239 2 3.2855 3 1.9923 4
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 -4.1796 3.7423 -1.117 0.2709
x1 1 2.5464 0.7856 3.241 0.0024
x2 1 0.4239 0.1712 2.476 0.0177
x 3 1 3.2855 1.1242 2.922 0.0058 (x6 = ) 1 1 1.9923 1.1946 1.668 0.1034
Table 5.2.8 Analysis of Variance Source DF Sum of
Figure 5.2.5 Response function for Model 5.2.10
第三節
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 2.0274 2.5405 0.798 0.4298
Table 5.3.2 Analysis of Variance Source DF Sum of
模型5.3.2 為反應變數菸頭數(y )與解釋變數膀胱癌(* x )、肺癌(1* x )與腎癌(2* x )與菸頭數之*3
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 9.5770 2.2240 4.306 0.0001
Table 5.3.4 Analysis of Variance Source DF Sum of
Squares
Mean
Square F Value P-value
Model 4 638.942 159.7355 47.94 <.0001 Error 37 123.292 3.332
Total 41 762.234
Root MSE 1.825 R-Square 0.8382
Adj R-Sq 0.8208
Figure 5.3.1 Response function for Model 5.3.2
Figure 5.3.2 Normal probability plot of residuals for Model 5.3.2
模型5.3.5 為反應變數菸頭數(y )與解釋變數膀胱癌(* x )、肺癌(1* x )與腎癌(2* x )與地區之虛*3 擬變數(x )配適模型。由 Table 5.3.5 可知參數估計膀胱癌(5* x )與虛擬變數(1* x )不顯著外,其他*5 均為顯著,解釋變數均具解釋能力。Table 5.3.6 可看出模型檢定顯著,而整體解釋變數的解 釋能力,可由RAdj2 =65.92%知解釋了總變異的65.52%。由 Figure 5.3.3 可看出依地區(AREA):
1 為北西部 2.中西部 3.南部 4.西部此四區之配適線呈現其截距上不同,並無之前未刪影響點 時,北西部與中西部兩條線幾乎重合的現象。Figure 5.3.4 為此模型之殘差常態圖,可看出有 離群值的存在。
µ ¶* µ * ¶ * µ * µ *
0 1 1 2 2 3 3 5 5
y =β +β x +β x +β x +β x (5.3.5) 當x5* = 時 1
µ
* * * *
0 5 1 1 2 2 3 3
( ) ( )
E y = β +β +βx +β x +β x
(5.3.6)
當x5*= 時 2
Table 5.3.6 Analysis of Variance Source DF Sum of
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 5.5435 3.5668 1.554 0.1291
Figure 5.3.3 Response function for Model 5.3.5
模型 5.3.10 為反應變數菸頭數(y )與解釋變數膀胱癌(* x )、肺癌(1* x )與腎癌(2* x )與地區之*3
Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 2.8497 3.1198 0.913 0.3669
Table 5.3.8 Analysis of Variance Source DF Sum of
Squares
Mean
Square F Value P-value
Model 4 520.508 130.127 19.92 <.0001
Error 37 241.726 6.533
Total 41 762.234
Root MSE 2.556 R-Square 0.6829
Adj R-Sq 0.6486
Figure 5.3.5 Response function for Model 5.3.10
Figure 5.3.6 Normal probability plot of residuals for Model 5.3.10
第四節
由前面我們已知第8 點觀察值為哥倫比亞特區(District of Columbia)與第 26 點觀察值為內 華(Nevada)為影響點。起因於哥倫比亞特區與內華達均為光觀旅遊勝地,且哥倫比亞特區為 首都故每天上班會湧入大批的通勤工作者,造成此兩州菸的銷售量較高。而我們發現當刪去 此兩個影響點配適模型,解釋變數膀胱癌會變的不顯著。而地區之間的差異雖然檢定結果依 然不顯著,但由Figure 5.2.3 與 Figure 5.3.3 和 Figure 5.2.5 與 Figure 5.3.5 圖上分區的配適線,
可看出刪去影響點後地區的差異凸顯出來了。且比較Figure5.2.1 與 Figure5.3.1 可發現刪去影 響點後可明顯看出模型在截距上的差異,而比較Figure 5.2.3 與 Figure 5.3.3 可發現原本北西 部與中西部在影響點之影響下是幾乎重合的兩條線。比較Figure 5.2.5 與 Figure 5.3.5 依地區 (WEST)劃分 1 為南部與西部 0 為北西部與中西部此兩區,刪去影響點後截距差異明顯更小。
由 Table5.4.1 明顯的顯現出影響點對整個模型的影響不只殘差與參數檢定的部份,整個模型 的解釋能力與模型預測能力都受影響。不考慮哥倫比亞特區與內華達州,我們可以看見更一
作用項的部份。
Table 5.4.1 為此 8 個模型之RAdj2 、PRESS 統計量與Rpred2 模型
5.2.1
模型 5.2.2
模型 5.2.5
模型 5.2.10
模型 5.3.1
模型 5.3.2
模型 5.3.5
模型 5.3.10
2
RAdj 61.89% 68.51% 62.59% 63.51% 65.58% 82.08% 65.92% 64.86%
PRESS 612.3977 525.625 687.6004 635.5456 304.9741 169.2521 327.2979 318.6864
2
Rpred 54.15% 60.65% 48.82% 52.41% 59.99% 76.69% 57.06% 58.19%