第一章
簡單線性回歸模式基本分析
模式(model):
( ) Y = f x
Y:依變數(dependent variable)、反應變數(response variable)
X :自變數(independent variable)、解釋變數(explanatory variable)
回歸(regression):
z 簡單線性回歸模式(simple regression model,或簡稱 SRM)
z 一般線性模式(general regression model),指簡單回歸和 複回歸模式(multiple regression model,MRM)
z 泛化線性模式(generalized linear model,簡稱 GLM),或 稱廣義線性模式
z 多變數回歸(multivariate regression model,簡稱 MVRM)
表 1.1 學生成績資料
學生 i
統計 yi
數學 x 1i
生物 x 2i
國文 x 3i
英文 x 4i
性別 x 5i
1 96 82 90 85 76 1 2 93 90 80 72 74 1 3 93 92 72 74 75 1 4 90 85 73 68 80 1 5 87 75 90 95 82 0 6 86 53 87 82 80 0 7 86 84 62 72 63 1 8 84 78 70 80 62 0 9 83 72 88 80 75 0 10 82 75 76 60 74 0 11 78 63 65 64 75 1 12 75 85 74 92 76 0 13 72 63 63 96 83 0 14 72 65 62 88 75 0 15 70 62 75 86 84 0 16 70 60 70 75 87 1 17 65 72 90 74 73 0 18 60 73 45 72 72 1 19 52 40 42 45 37 1 20 50 60 53 60 48 1 21 42 30 65 72 70 1 22 40 50 60 50 60 1 註:x5i =1代表男性,x5i = 代表女性 0
1.1 模式建立
若於某大學收集到 22 位統計系學生之 Y 與 X1成績(表 1.1 中之yi與x )1i ,重新設定此二隨機變數為 Y 與 X,22 位學 生之 與yi x 為 1i
,
(y xi, i) i=1, 2,...,n
i
n:樣本數
在 Y 與 X 為完全直線關係理想狀態下:
( )i
E Y = +α βX (1)
z α:截距(intercept)
當X = ,所對應的Y 值。0
z β : 直 線 斜 率 ( slope ), 稱 為 回 歸 係 數 ( regression coefficient)
當β = ,表示Y 之變異無法以 X 來解釋。0
在 Y 不能完全以(1)式表達情況下,簡單線性回歸模式成為:
i ( )i
Y = E Y + εi
Xi i
α β ε
= + +
εi:隨機誤差(random error)
1.2 模 式 參 數 估 計 - 最 大 概 似 估 計 法 ( MLE method)
令符號(a b, )分別代表(α β, )的估計值,a =αˆ ,b= βˆ, 隨機變數 的簡單回歸模式估計值Yi
ˆi
y = +a bxi
觀察值 與估計值 之間關係式為 yi yˆi
i ˆi
y = y +ei
i i
a bx e
= + +
殘差e (residual)i :觀察值 和直線估計值 間差值,視為是 隨機變誤差
yi yˆi εi的估計值。
在進行α和β 估計和檢定進程中,需要對εi的隨機效應作出 以下假設:
(0, 2)
iid
i N
ε ∼ σ
iid:independently and identically distributed
根 據 εi 的 假 設 , yi 為 來 自 其 隨 機 變 數 Yi 對 應 之 iid
( 2)
N α β σ+ xi, 之一個樣本點,記為
( , 2)
iid
i i
Y ∼ N α β σ+ x
在 這 樣 的 常 態 分 布 假 設 下 , 參 數 (α β σ, , 2 ) 的 概 似 函 數
(likelihood function)為:
( )
( ) (
2 2
1 2
1 2 2
1 1
, , exp
2 2
n
i i
i
L α β σ y α β
πσ σ
= ⎧ x ) ⎫
= ∏ ⎨− − − ⎬
⎩ ⎭
令δ σ= 2,取 log 轉換後:
( ) 2 1( ) ( )2
log log 2 exp
2
n
i i
i
L πδ δ y α β
⎧ − ⎫
⎧⎡− ⎤ x ⎫
= ⎨⎩ ⎨⎢⎩⎣ ⎥⎦∑ − − ⎭⎬⎬⎭
( )
2 log 2( )
2 log 1( )2 ( i i)2i
n π n δ ⎡ δ ⎤ y α x
− − −
= + +⎢⎣ ⎥⎦∑ − −β
對log L取偏微分,求( , ,α β δ σ= )之極大(略去二次微分驗 證極大過程),得:
log L
∂ ∂α = log L
∂ ∂β = log L
∂ ∂δ =
令 Q i(yi xi)2 i2
α β i
= ∑ − − =∑ ε
求解(α ,β ,δ )最大概似估計式(maximum likelihood estimator, MLE)的估計方程式(estimating equations)可化簡為:
( ˆ ˆ
2 i i
i
Q y α βx ) 0
α
∂ = − − − =
∂ ∑ (2)
(
ˆ ˆ)
2 i i i
i
Q x y α βx
β
∂ = − − − =
∂ ∑ 0 (3)
( )
1 ˆ i(
i ˆ ˆ i)
2 0n y α βx
− + δ ∑ − − = (4)
利用以下三項等式:
(i) i
ix = nx
∑ ,∑iyi = ny
(ii) ∑i(xi − x)2
( )2
2 i i
i i
x x
=∑ − ∑n
( i )2
i y − y
∑
( )2
2 i i
i i
y y
=∑ − ∑n
(iii) ∑i(xi − x)(yi − y)
( i i)( i )
i i
i
x yi
x y n
=∑ − ∑ ∑
可由(2)和(3)式分別算出(α,β )的估計值為:
( )( )
{ }
{
( )2}
ˆ i i i i
b = =β ∑ x − x y − y ∑i x − x a = = −αˆ y bx
估計回歸直線(estimated regression line)成為:
ˆi
y = +a bxi
( i
y b x x
= + − )
當xi = x時,yˆi = y。
把上式代入(4)式中,得εi的共同變異數估計值為
( )2
2 ˆ 1
ˆ i i
i y a bx
σ = =δ n∑ − − 1 2
iei
= n∑
由上述討論可歸納出簡單線性回歸估計過程所需之假 設:
(i) (ii) (iii) (iv) (v)
1.3 最大概似估計值性質
由 最 大 概 似 估 計 法 所 得 (α β σ, , 2 ) 估 計 值 的 無 偏 性
(unbiasedness)討論如下:
(1) b為 樣 本 點 yi 的 一 個 線 性 組 合 且 為β 的 無 偏 統 計 量
(linear unbiased estimator)。 b 可 改 換 成 的 綫 性 組 合:
yi
設定u = ∑i(xi − x)2 ,則
( )( )
( )2
i i
i
i i
x x y y b
x x
− −
= −
∑ ∑
( )( )
1
i i
i x x y y
= u∑ − −
= (∵∑i(xi − x) =0)
取ui =(xi − x) u
y
,
i i
b =∑iu
的期望值為:
b
( ) ( i i i)
E b = E ∑ u y
( )
i i
iu E y
=∑
i i
iu iu xi
α β
= ∑ + ∑
β
=
其中, i
iu =
∑
i i
iu x =
∑
=
=1 (2) a 是α的無偏統計量
( ) ( )
E a = E y −bx 1 ( )i
iE y x
n β
= ∑ −
1 1
( i)
i ix x
n α β n β
= ∑ + ∑ − α
=
(3) σˆ 是εi變異數σ (或 變異數)的偏誤統計量 Yi
( )ˆ2 1 ( i ˆi)2
E y
σ = n∑ − y
( )
{
2}
1
i i
E i y a bx
= n ∑ − −
=
=
( ) ( )
{
2 2 2}
1
i i
i i
E y y b x x
= n ∑ − − ∑ −
針對上式,設定符號
( i 2
SST =∑i y − y)
稱為總平方和(total sum of squares)
( )2
2 i i
SSR =b ∑ x − x
( ˆi 2
i y y
=∑ − )
稱為回歸平方和(regression sum of squares)
在這樣符號設定下,E( )σˆ 成為 ( )ˆ2 1{ ( ) (
E E SST E SSR
σ = n − )}
其中,
( ) 2 2 i( i )2
E SSR =σ +β ∑ x − x
( 1) 2 2
(
( )2)
( ) i
E SST = n− σ +β ∑i x −x 因此,
( )ˆ2 1{ ( ) ( )}
E E SST E SSR
σ = n −
( )
{ 2 2 2 2 2 2}
1 1 ( i ) ( i )
i i
n x x x
n σ β σ β
= − + ∑ − − − ∑ − x
( )
{ n 2 n}σ2
= − (有偏統計量)
要將誤差變異數的 MLEσˆ 調整為無偏(unbiased)
{ }
2 2
2 ˆ
/( ) ( )
S = n n− σ
1 2
2 ( i ˆi)
i
y y
= n −
− ∑
1
2(SSE
= n
− )
誤差平方和(error sum of squares):
ˆ 2
( i i)
i
SSE =∑ y − y
{( i ) (ˆi )}2
i
y y y y
= ∑ − − −
2 2
ˆ 2 ˆ
( i ) ( i ) ( i )( )
i i i
y y y y y y y y
= ∑ − +∑ − − ∑ − i −
2 2 ( i
i
SST SSR b x x
= + − ∑ − )2 2
SST SSR SSR
= + −
SST SSR
= −
1.4 模 式 參 數 估 計 - 最 小 平 方 估 計 法 ( LSE method)
最小平方誤差觀念是以二階段方式完成對( , ,α β σ2)的 估計過程。
第一階段:對εi的變異數σ2設定出一個會使其最小的目標。
第二階段:以( , )α β 估計值取代群體值推估εi的變異數σ2; 最後再討論( , )α βˆ ˆ 的統計性質。
目標函數 Q:
( )2
Q = ∑iεi2 = ∑i yi − −α βxi
對Q取( ,α β)的偏微分,求Q之極小。
所 得 之 估 計 式 稱 為 最 小 平 方 估 計 式 (least squares estimator,LSE)。
εi變異數σ 採用εi的樣本估計值ei = yi − −a bxi所估計出的變 異數
2 1 2
ˆ ( )
LS 1 ei e
σ = n −
− ∑
i
1 2
1 i i
n e
= − ∑ i 0 )
i
(e =∑e =
1 2
( ˆ ) 1 i i i
y y
= n −
− ∑
對 ( i ˆi 2取期望值可知
i
y −y
∑ )
2 2
ˆ 2
( i i) ( )
i
E⎧⎨ y − y ⎫⎬= n− σ
⎩∑ ⎭
故σˆLS2 修改為以S2來表示:
2 1 2
2 ( i ˆi)
i
S y
= n −
− ∑ y
則S2為σ2的無偏統計量。
1.5 最小平方估計值性質-高斯定理
由最小平方估計法所得回歸係數估計式是所有線性回 歸 直 線 之 回 歸 係 數 的 最 佳 線 性 無 偏 估 計 式 (best linear unbiased estimator,簡稱 BLUE)。
高斯定理的證明分述如下:
(1) 證明 LSE b 是樣本點yi的線性無偏統計量。
(2) 證明 LSE b 在β 的所有的線性無偏估計式中,為具有最 小變異數的估計式。定義β 的所有的線性估計式為
i i
i
∑v y
這種形式估計式若為無偏,則
( i i)
i
E ∑v y
i ( )i
i
v E y
=∑
i i i
i i
v v x
α β β
= ∑ + ∑ = 須滿足 i 0及
i
v =
∑ i i 1
i
v x =
∑ 二條件。
i i i
∑
( i i) 2 i
i i
V ∑v y =σ ∑v2 已知 ( ) ( i i) 2 i2
i i
V b =V ∑u y =σ ∑u 若 ( ) ( i i)成立,則須證明
i
V b ≤V ∑v y
2 2
i i
i i
u ≤ v
∑ ∑
設定vi = +ui ti以建立 和 間關係式,則 vi ui
2 i i
v =
∑
=
( )
i i i i i
i i
u t = u v −u
∑ ∑
=
=
1 1 0
( )( i i i )
i i
v x x v
= u ∑ − ∑ − =
故證得 LSE b 的變異數為所有β 線性無偏估計式中最小。
1.6 模式參數估計-估計方程式的直覺設定方 法
( , )α β 估計方程式:
ˆ 0 ( i ˆ i)
i
y − −α βx =
∑
ˆ 0
( ˆ )
i i i
i
x y − −α βx =
∑
由於yi − −α βˆ ˆxi即為 ,故上二式可以改表示為: ei
(5)
i 0
i
e =
∑
(6)
i i 0
i
x e =
∑
根據這樣的寫法,設定估計( , )α β 的估計方程式有二:
z 群體誤差εi總和為 0(依據假設E( )εi = 而來)。 0 z 群體誤差εi的獨立性(依據假設εi獨立性)。
(2)、(3)或(5)、(6)式因為是一種固定型式的方程式,故又稱 為定型方程式(normal equations)。
1.7 加權估計方程式
若考慮觀察值 的變異數不同(即,yi εi變異數不同),則 修改估計 ( , )α β 過程的一種做法是以統計學上加權想法進 行:
定權數wi =1 σi2,σi2代表不同εi的變異數,則估計方程 式可修改為
ˆ 0 ( ˆ
i i i i i
i i
w e = w y − −α β x )=
∑ ∑
ˆ 0 ( ˆ
i i i i i i i
i i
w x e = w x y − −α β x
∑ ∑ ) =
=
= 式子展開後,得
(7) ˆ 0
i i ˆ i i i
i i i
w y −α w −β w x
∑ ∑ ∑
(8)
2 0
ˆ ˆ
i i i i i i i
i i i
w x y −α w x −β w x
∑ ∑ ∑
由(7)式得
ˆ w
a = =α y −bxw
其中,依變數 Y 的樣本加權平均值 w ( i i) (
i i
y = ∑w y ∑wi) 自變數 X 的樣本加權平均值 w ( i i) (
i i
i) x = ∑w x ∑w
b 由下式計算得到:
取(8 ) ( i) (7 ) ( i ),得
i i
w w
× ∑ − × ∑
式 式 xi
2
( )(
ˆ
( )
i i w i w
i
i i w
i
w x x y y
b β w x x
− −
= = −
∑
∑
)
由 EE 方法直觀得到之加權估計方程式(weighted estimating equations)之結果相當於對 ML 或 LS 方法之Q函數作加權,
再對Q取( , )α β 之偏微分得到。
實際分析時,由於每一個體僅能看到一個觀察值 ,故隨機 變數 的變異數
yi
Yi σi2只能以yi2估計,即,取權數wi =1 yi2。
1.8 變異數分析(ANOVA)
透過變異數分析(analysis of variance,簡稱 ANOVA) 檢 定回歸直線的顯著性。
xi來解釋 的變異時,總平方和(SST) yi 未引入自變數
( i 2
SST =∑ y − y)
i
當自變數 x 引入後,誤差平方和(SSE) i
ˆ 2
( i i
i
SSE = ∑ y − y )
因自變數效應而來之回歸平方和(SSR) ˆ 2
( i
i
SSR =∑ y − y)
SST、SSR 和 SSE 三者間的等式關係:
( i )2 i
SST = ∑ y − y
{( i ) ( i ˆ }2
i
y y y y
= ∑ − + − )i SSR SSE
= +
1.9 回歸係數檢定統計量之建立-Cochran 定理
SSR 的平均MSR= SSR dfR/ 的期望值為
2 2
( ) ( i
i
E MSR =σ +β ∑ x − x)2
SSE 的平均MSE = SSE dfE/ 的期望值為 ( ) 2
E MSE =σ
其中,dfR =1是對應 SSR 的自由度,dfE = −n 2是對應 SSE 的自由度,在下節中會証明。
在H:0 β =0之下,E MSR( ) = E MSE( ) =σ2,故取統計量
* MSR
F = MSE
檢定H:0 β =0 (Y 與 X 線性關係存在) vs. H:1 β ≠ 0(Y 與 X 之間無線性關係存在)。
F 的分布可以透過下之定理,得知為 F 分布:
Cochran 定理:y y1, ,2 … 為 n 個由,yn N(μ σ, 2)隨機取出之 相互獨立樣本點,若
1 2 K
SST = SSR + SSR + + SSR
1 2 K
dfT = dfR + dfR + + dfR
則SSRk σ2, ,為 K 個相互獨立具自由度 之卡方分布的隨機變數。
1,2,...,
k = K dfRk
根據 Cochran 定理,SSR σ2和SSE σ2為二獨立且具自由度 1 和 n-2 的卡方隨機變數。因此
2 2
* MSR SSR SSE
F MSE dfR dfE
σ σ
⎛ ⎞ ⎛
= = ⎜ ⎟ ⎜
⎝ ⎠ ⎝
⎞⎟
⎠ 為具有自由度dfR =1和dfE = −n 2的 F 分布。
Cochran 定理的較統計化的敍述如下:
令Z 為 iid 之 N(0,1),i i=1,2,...,m,且
2
1 2
1 m
i K
i= Z = S + S + +S
∑ ,
其中, K ≤ , 之自由度為m Sk γk,k =1,2,...,K。 若且唯若
1 2 K
m= +γ γ + +γ ,
則S S1, 2,…,SK 為 K 個相互獨立具自由度γk之卡方分布 的隨機變數。
1.10 平方和期望值的計算
變異數分析檢定統計量建立的關鍵點:
(i)在H:0 β = 0之下,F*統計量是一個有效的檢定統計量。
(ii)在H:0 β =0之下,F*統計量的分布為 F 分布。
這需由 E(SSR)和 E(SSE)中的變異數成分結構來建立。
(1) E(SSR)的變異數成分:
2 2
( ) ( i )
i
E SSR =σ +β ∑ x − x 2
(2) E(SSE)的變異數成分:
( ) ( ) ( ) E SSE = E SST − E SSR
{(n 1)σ2 β2 i(xi )2}
= − + ∑ − x −
{
σ2 +β2∑i(xi − x)2}
(n 2)σ2
= −
對 SSR 和 SSE 分別除以 1 和 n-2,則 E(MSR)和 E(MSE)的σ2 部分不受樣本數影響。
1.11 變異數分析表(ANOVA table)
檢定回歸係數β =0之變異數分析(analysis of variance, ANOVA)列表(表 1.2)。
表 1.2 簡單線性回歸變異數分析表 變異來源
source of variance
自由度 df
平方和 SS
均方 MS
檢定 統計量
F*
均方 期望值
E(MS) 回歸(R)
regression dfR SSR MSR MSR MSE
2 2 2
( i )
i x x
σ +β ∑ − 誤差(E)
error dfE SSE MSE σ2 總計(T)
total dfT SST 註:1. dfR =1,dfE = −n 2,dfT = n−1
2. SSR =∑i(yˆi − y)2, ( i ˆi)2,
SSE =∑i y − y
( i )2
SST =∑i y − y
3. F* = MSR MSE ~ Fn1−2
1.12 例子
表 1.1 中收集 22 位學生之統計及數學成績,以統計成績 為依變數(yi),數學成績為自變數( )x ,1i
i。
二者之簡單線性回歸 估計式為: ˆyi = +a bx1
73 91.
y = , x1 = 68 59.
2 ,
125914
i yi =
∑ ∑ix12i =108841
1i i 115878,
ix y =
∑ n= 22
根據以上數據,可以算出以下變異數與共變異數:
2
1 1
( ) 5340 06.
X i i
SS = ∑ x − x =
( )2 5734 86.
Y i i
SS =∑ y − y =
1 1
( )( ) 4349 29.
XY i i i
SS = ∑ x − x y − y =
回歸係數 b = SSXY SSX = 0 815. 截距 a = −y bx1 =18 009.
簡單線性回歸估計式 yˆi =18 009. +0 815. x1i
變異數分析結果列於表 1.3,檢定結果顯著。
表 1.3 統計分數(Y)與數學分數(X1)之簡單回歸變異數分析 變異來源
SV
自由度 df
平方和 SS
均方 MS
檢定統計量 F*
P-值
回歸(R) 1 3543.99 3543.99 32.31 0.000 誤差(E) 20 2193.83 109.69
總計(T) 21 5737.82 註:F20 0 051, . = 4 35.