• 沒有找到結果。

前言

本章考慮在模型中加入了虛擬變數,探討虛擬變數的組別之間的差異對模型是否有影 響。而分別加入模型中考慮的3 個虛擬變數分別為:x4 = 表菸頭量>平均數 23.77,1 x4 = 表0 菸頭量<平均數 23.77;依地區(AREA)劃分設x5 = 為北西部、1 x5 = 中西部、2 x5 = 南部與3

5 4

x = 西部;依地區(WEST)劃分x6 = 設南部與西部1 x6 = 為北西部與中西部。 0

第一節

我們先利用簡單的散佈圖來觀察不同的組別之間是否由圖型可明顯看出差異。由Figure

5.1.1 可看出,若依菸頭量>平均數 23.77 與<平均數 23.77 可將資料明顯的分成兩群。

Figure 5.1.2 是依地區(AREA): 1 為北西部 2.中西部 3.南部 4.西部,利用散佈圖標示出來,

但我們很難由圖型判斷出菸頭數是否受地區的不同有所影響。

Figure 5.1.2 Scatter Plot to Separate the Dummy Variable x 5

Figure 5.1.3 依地區劃分設南部與西部為 1 而北西部與中西部為 0 利用散佈圖分別標示出。

Figure 5.1.4 與 Figure 5.1.5 是取菸頭量>平均數 23.77 的資料,在分別看是否受地區影響。由 圖形我們並沒有看出明顯的差異。

Figure 5.1.4 Scatter Plot to Separate the Dummy Variable x 5

Figure 5.1.6 與 Figure 5.1.7 是取菸頭量<平均數 23.77 的資料,看是否受地區影響。Figure 5.1.7

是依地區劃分設南部與西部為 1 而北西部與中西部為 0,發現北西部與中西部菸頭數的點散

佈似乎都高於南部與西部。

Figure 5.1.6 Scatter Plot to Separate the Dummy Variable x 5

第二節

Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 -1.1916 3.3579 -0.355 0.7246

x1 1 2.0544 0.7441 2.761 0.0087 x2 1 0.5179 0.1653 3.134 0.0032 x 3 1 2.6701 1.0853 2.460 0.0183

Table 5.2.2 Analysis of Variance Source DF Sum of

兩條不同的配適線。Figure 5.2.2 為此模型之殘差常態圖,如同前面所分析之結果,可明顯看

Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 5.1954 3.6941 1.406 0.1675

x1 1 1.2842 0.7214 1.780 0.0828

x2 1 0.3371 0.1613 2.089 0.0433

x 3 1 2.0459 1.0072 2.031 0.0491 (x4 = ) 1 1 4.1683 1.3582 3.069 0.0039

Table 5.2.4 Analysis of Variance Source DF Sum of

Figure 5.2.1 Response function for Model 5.2.2

Figure 5.2.2 Normal probability plot of residuals for Model 5.2.2

模型5.2.5 為反應變數菸頭數( y )與解釋變數膀胱癌(x )、肺癌(1 x )、腎癌(2 x )與地區之虛3

Table 5.2.6 Analysis of Variance Source DF Sum of

Squares

Mean

Square F Value P-value Model 6 905.71 150.9517 12.99 <.0001

Error 37 429.93 11.62

Total 43 1335.64

Root MSE 3.409 R-Square 0.6781

Adj R-Sq 0.6259

Table 5.2.5 Parameter Estimates

Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 -4.0850 4.2571 -0.960 0.3435

x1 1 2.3206 0.8521 2.723 0.0098

x2 1 0.4990 0.1884 2.649 0.0118

x 3 1 3.0847 1.1555 2.670 0.0112 (x5 = ) 2 1 0.0650 1.6672 0.039 0.9691 (x5 = ) 3 1 1.2163 1.8299 0.665 0.5104 (x5 = ) 4 1 2.8150 1.8160 1.550 0.1296

Figure 5.2.3 Response function for Model 5.2.5

模型 5.2.10 為反應變數菸頭數(y )與解釋變數膀胱癌(x )、肺癌(1 x )、腎癌(2 x )與地區之3 虛擬變數(x )配適模型。。由 Table 5.2.7 可知參數估計除了虛擬變數(6 x )此變數較不顯著外,6 其他均為顯著,解釋變數均具解釋能力。Table 5.2.8 可看出模型檢定顯著,而整體解釋變數 的解釋能力,可由RAdj2 =63.51%知解釋了總變異的 63.51%。依地區(WEST)劃分 1 為南部與 西部 0 為北西部與中西部此兩區,由 Figure 5.2.5 可看出此兩區之配適線其截距不同。如同 Figure 5.2.6,Figure 5.2.7 此模型之殘差常態圖,為輕尾分佈(Light – tailed errors)。

$ 4.1796 2.5464 1 0.4239 2 3.2855 3 1.9923 4

Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 -4.1796 3.7423 -1.117 0.2709

x1 1 2.5464 0.7856 3.241 0.0024

x2 1 0.4239 0.1712 2.476 0.0177

x 3 1 3.2855 1.1242 2.922 0.0058 (x6 = ) 1 1 1.9923 1.1946 1.668 0.1034

Table 5.2.8 Analysis of Variance Source DF Sum of

Figure 5.2.5 Response function for Model 5.2.10

第三節

Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 2.0274 2.5405 0.798 0.4298

Table 5.3.2 Analysis of Variance Source DF Sum of

模型5.3.2 為反應變數菸頭數(y )與解釋變數膀胱癌(* x )、肺癌(1* x )與腎癌(2* x )與菸頭數之*3

Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 9.5770 2.2240 4.306 0.0001

Table 5.3.4 Analysis of Variance Source DF Sum of

Squares

Mean

Square F Value P-value

Model 4 638.942 159.7355 47.94 <.0001 Error 37 123.292 3.332

Total 41 762.234

Root MSE 1.825 R-Square 0.8382

Adj R-Sq 0.8208

Figure 5.3.1 Response function for Model 5.3.2

Figure 5.3.2 Normal probability plot of residuals for Model 5.3.2

模型5.3.5 為反應變數菸頭數(y )與解釋變數膀胱癌(* x )、肺癌(1* x )與腎癌(2* x )與地區之虛*3 擬變數(x )配適模型。由 Table 5.3.5 可知參數估計膀胱癌(5* x )與虛擬變數(1* x )不顯著外,其他*5 均為顯著,解釋變數均具解釋能力。Table 5.3.6 可看出模型檢定顯著,而整體解釋變數的解 釋能力,可由RAdj2 =65.92%知解釋了總變異的65.52%。由 Figure 5.3.3 可看出依地區(AREA):

1 為北西部 2.中西部 3.南部 4.西部此四區之配適線呈現其截距上不同,並無之前未刪影響點 時,北西部與中西部兩條線幾乎重合的現象。Figure 5.3.4 為此模型之殘差常態圖,可看出有 離群值的存在。

µ ¶* µ ** µ * µ *

0 1 1 2 2 3 3 5 5

y =β +β xxxx (5.3.5) 當x5* = 時 1

µ

* * * *

0 5 1 1 2 2 3 3

( ) ( )

E y = β +β +βxxx

(5.3.6)

x5*= 時 2

Table 5.3.6 Analysis of Variance Source DF Sum of

Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 5.5435 3.5668 1.554 0.1291

Figure 5.3.3 Response function for Model 5.3.5

模型 5.3.10 為反應變數菸頭數(y )與解釋變數膀胱癌(* x )、肺癌(1* x )與腎癌(2* x )與地區之*3

Variable DF Parameter Estimate Standard Error t Value P-value Intercept 1 2.8497 3.1198 0.913 0.3669

Table 5.3.8 Analysis of Variance Source DF Sum of

Squares

Mean

Square F Value P-value

Model 4 520.508 130.127 19.92 <.0001

Error 37 241.726 6.533

Total 41 762.234

Root MSE 2.556 R-Square 0.6829

Adj R-Sq 0.6486

Figure 5.3.5 Response function for Model 5.3.10

Figure 5.3.6 Normal probability plot of residuals for Model 5.3.10

第四節

由前面我們已知第8 點觀察值為哥倫比亞特區(District of Columbia)與第 26 點觀察值為內 華(Nevada)為影響點。起因於哥倫比亞特區與內華達均為光觀旅遊勝地,且哥倫比亞特區為 首都故每天上班會湧入大批的通勤工作者,造成此兩州菸的銷售量較高。而我們發現當刪去 此兩個影響點配適模型,解釋變數膀胱癌會變的不顯著。而地區之間的差異雖然檢定結果依 然不顯著,但由Figure 5.2.3 與 Figure 5.3.3 和 Figure 5.2.5 與 Figure 5.3.5 圖上分區的配適線,

可看出刪去影響點後地區的差異凸顯出來了。且比較Figure5.2.1 與 Figure5.3.1 可發現刪去影 響點後可明顯看出模型在截距上的差異,而比較Figure 5.2.3 與 Figure 5.3.3 可發現原本北西 部與中西部在影響點之影響下是幾乎重合的兩條線。比較Figure 5.2.5 與 Figure 5.3.5 依地區 (WEST)劃分 1 為南部與西部 0 為北西部與中西部此兩區,刪去影響點後截距差異明顯更小。

由 Table5.4.1 明顯的顯現出影響點對整個模型的影響不只殘差與參數檢定的部份,整個模型 的解釋能力與模型預測能力都受影響。不考慮哥倫比亞特區與內華達州,我們可以看見更一

作用項的部份。

Table 5.4.1 為此 8 個模型之RAdj2 、PRESS 統計量與Rpred2 模型

5.2.1

模型 5.2.2

模型 5.2.5

模型 5.2.10

模型 5.3.1

模型 5.3.2

模型 5.3.5

模型 5.3.10

2

RAdj 61.89% 68.51% 62.59% 63.51% 65.58% 82.08% 65.92% 64.86%

PRESS 612.3977 525.625 687.6004 635.5456 304.9741 169.2521 327.2979 318.6864

2

Rpred 54.15% 60.65% 48.82% 52.41% 59.99% 76.69% 57.06% 58.19%

相關文件