簡單線性回歸模式基本分析

(1)

第一章

簡單線性回歸模式基本分析

模式（model）：

( ) Y = f x

Y：依變數（dependent variable）、反應變數（response variable）

X ：自變數（independent variable）、解釋變數（explanatory variable）

回歸（regression）：

z 簡單線性回歸模式（simple regression model，或簡稱 SRM）

z 一般線性模式（general regression model），指簡單回歸和複回歸模式（multiple regression model，MRM）

z 泛化線性模式（generalized linear model，簡稱 GLM），或稱廣義線性模式

z 多變數回歸（multivariate regression model，簡稱 MVRM）

(2)

表 1.1 學生成績資料

學生 i

統計 yi

數學 x 1i

生物 x 2i

國文 x 3i

英文 x 4i

性別 x 5i

1 96 82 90 85 76 1 2 93 90 80 72 74 1 3 93 92 72 74 75 1 4 90 85 73 68 80 1 5 87 75 90 95 82 0 6 86 53 87 82 80 0 7 86 84 62 72 63 1 8 84 78 70 80 62 0 9 83 72 88 80 75 0 10 82 75 76 60 74 0 11 78 63 65 64 75 1 12 75 85 74 92 76 0 13 72 63 63 96 83 0 14 72 65 62 88 75 0 15 70 62 75 86 84 0 16 70 60 70 75 87 1 17 65 72 90 74 73 0 18 60 73 45 72 72 1 19 52 40 42 45 37 1 20 50 60 53 60 48 1 21 42 30 65 72 70 1 22 40 50 60 50 60 1 註：x_5i =1代表男性，x_5i = 代表女性 0

(3)

1.1 模式建立

若於某大學收集到 22 位統計系學生之 Y 與 X₁成績（表 1.1 中之y_i與x ）_1i ，重新設定此二隨機變數為 Y 與 X，22 位學生之與y_i x 為 _1i

，

(y xi^, i) i=1, 2,...,n

i

n：樣本數

在 Y 與 X 為完全直線關係理想狀態下：

( )_i

E Y = +α βX (1)

z α：截距（intercept）

當X = ，所對應的Y 值。0

z β ：直線斜率（ slope ），稱為回歸係數（ regression coefficient）

當β = ，表示Y 之變異無法以 X 來解釋。0

(4)

在 Y 不能完全以(1)式表達情況下，簡單線性回歸模式成為：

i ( )i

Y = E Y + ε_i

Xi _i

α β ε

= + +

εi：隨機誤差（random error）

(5)

1.2 模式參數估計－最大概似估計法（ MLE method）

令符號(a b, )分別代表(α β, )的估計值，a =αˆ ，b= βˆ，隨機變數的簡單回歸模式估計值Y_i

ˆ_i

y = +a bx_i

觀察值與估計值之間關係式為 y_i yˆ_i

i ˆi

y = y +e_i

i i

a bx e

= + +

殘差e （residual）_i ：觀察值和直線估計值間差值，視為是隨機變誤差

yi yˆ_i εi的估計值。

在進行α和β 估計和檢定進程中，需要對ε_i的隨機效應作出以下假設：

(^0, ²)

iid

i N

ε ∼ σ

iid：independently and identically distributed

(6)

根據 ε_i 的假設， y_i 為來自其隨機變數 Y_i 對應之 iid

( ²)

N α β σ+ x_i, 之一個樣本點，記為

( ^, ²)

iid

i i

Y ∼ N α β σ+ x

在這樣的常態分布假設下，參數 (α β σ, , ² ) 的概似函數

（likelihood function）為：

( )

( ) ⁽

2 2

1 2

1 2 2

1 1

, , exp

2 2

n

i i

i

L α β σ y α β

πσ σ

= ^⎧ ^x ) ^⎫

= ∏ ⎨− − − ⎬

⎩ ⎭

令δ σ= ²，取 log 轉換後：

( ) ² ¹( ) ( )²

log log 2 exp

2

n

i i

i

L πδ δ y α β

⎧ − ⎫

⎧⎡− ⎤ x ⎫

= ⎨⎩ ⎨⎢⎩⎣ ⎥⎦∑ − ⁻ ⎭^⎬⎬⎭

( )

₂ ^{log 2}

( )

₂ ^log ¹_{( )}₂ ⁽ ⁱ ⁱ⁾²

i

n π n δ ^⎡ δ ^⎤ y α x

− − −

= + +⎢⎣ ⎥⎦∑ − −^β

(7)

對log L取偏微分，求( , ,α β δ σ= )之極大（略去二次微分驗證極大過程），得：

log L

∂ ∂α = log L

∂ ∂β = log L

∂ ∂δ =

令 Q i(yi xi)² _i²

α β i

= ∑ − − =∑ ^ε

求解(α ,β ,δ )最大概似估計式（maximum likelihood estimator, MLE）的估計方程式（estimating equations）可化簡為：

( ^ˆ ^ˆ

2 _i _i

i

Q y α βx ) ⁰

α

∂ = − − − =

∂ ∑ ⁽²⁾

(

^ˆ ^ˆ

)

2 _i _i _i

i

Q x y α βx

β

∂ = − − − =

∂ ∑ ⁰⁽³⁾

( )

¹ ^ˆ ⁱ

⁽

ⁱ ^ˆ ^ˆ ⁱ

⁾

² ⁰

n y α βx

− + δ ∑ − − = ⁽⁴⁾

(8)

利用以下三項等式：

(i) _i

ix = nx

∑ ^，∑iyⁱ = ny

(ii) ∑i(xi − x)²

( )²

2 i i

i i

x x

=∑ − ∑n

( i )²

i y − y

∑

( )²

2 i i

i i

y y

=∑ − ∑n

(iii) ∑i(xi − x)(yi − y)

( i ⁱ)( i )

i i

i

x yi

x y n

=∑ − ∑ ∑

可由(2)和(3)式分別算出(α,β )的估計值為：

( )( )

{ }

{

⁽ ⁾²

}

ˆ i i i i

b = =β ∑ x − x y − y ∑i x − x a = = −αˆ y bx

(9)

估計回歸直線（estimated regression line）成為：

ˆ_i

y = +a bx_i

( i

y b x x

= + − )

當x_i = x時，yˆ_i = y。

把上式代入(4)式中，得ε_i的共同變異數估計值為

( )²

2 ˆ 1

ˆ _i _i

i y a bx

σ = =δ n∑ − − 1 2

iei

= n∑

由上述討論可歸納出簡單線性回歸估計過程所需之假設：

(i) (ii) (iii) (iv) (v)

(10)

1.3 最大概似估計值性質

由最大概似估計法所得 (α β σ, , ² ) 估計值的無偏性

（unbiasedness）討論如下：

(1) b為樣本點 y_i 的一個線性組合且為β 的無偏統計量

（linear unbiased estimator）。 b 可改換成的綫性組合：

yi

設定u = ∑i(xi − x)² ^，則

( )( )

( )²

i i

i

i i

x x y y b

x x

− −

= −

∑ ∑

( )( )

1

i i

i x x y y

= u∑ − −

= (^∵∑i(xi − x) =⁰⁾

取ui =(xi − x) u

y

，

i i

b =∑iu

(11)

的期望值為：

b

( ) ( i ⁱ ⁱ)

E b = E ∑ u y

( )

i i

iu E y

=∑

i i

iu iu x_i

α β

= ∑ + ∑

β

=

其中， _i

iu =

∑

i i

iu x =

∑

=

=1 (2) a 是α的無偏統計量

( ) ( )

E a = E y −bx 1 ( )_i

iE y x

n β

= ∑ −

1 1

( _i)

i ix x

n α β n β

= ∑ + ∑ − α

=

(12)

(3) σˆ 是ε_i變異數σ (或變異數)的偏誤統計量 Y_i

( )^ˆ² ¹ ⁽ ⁱ ^ˆⁱ⁾²

E y

σ = n∑ − ^y

( )

{

²

}

1

i i

E i y a bx

= n ∑ − −

=

( ) ( )

{

² ² ²

}

1

i i

E y y b x x

= n ∑ − − ∑ −

針對上式，設定符號

( i ²

SST =∑i y − y⁾

稱為總平方和(total sum of squares)

( )²

2 i i

SSR =b ∑ x − x

( ^ˆi ²

i y y

=∑ − ⁾

稱為回歸平方和(regression sum of squares)

(13)

在這樣符號設定下，^E( )^σ^ˆ ^成為 ( )^ˆ² ¹^{ ⁽ ⁾ ⁽

E E SST E SSR

σ = n − )}

其中，

( ) ² ² i( i )²

E SSR =σ +β ∑ x − x

( ¹) ² ²

(

( )²

)

( ) _i

E SST = n− σ +β ∑i x −x 因此，

( )^ˆ² ¹^{ ⁽ ⁾ ⁽ ⁾^}

E E SST E SSR

σ = n −

( )

{ ² ² ² ² ² ²}

1 1 ( _i ) ( _i )

i i

n x x x

n σ β σ β

= − + ∑ − − − ∑ − ^x

( )

{ ⁿ ² ⁿ}^σ²

= − （有偏統計量）

(14)

要將誤差變異數的 MLEσˆ 調整為無偏(unbiased)

{ }

2 2

2 ˆ

/( ) ( )

S = n n− σ

1 2

2 ( _i ˆ_i)

i

y y

= n −

− ∑

1

2(SSE

= n

− )

誤差平方和(error sum of squares)：

ˆ 2

( _i _i)

i

SSE =∑ y − y

{⁽ i ^{) (}^ˆi ⁾}²

i

y y y y

= ∑ − − −

2 2

ˆ 2 ˆ

( _i ) ( _i ) ( _i )( )

i i i

y y y y y y y y

= ∑ − +∑ − − ∑ − ⁱ −

2 2 ( _i

i

SST SSR b x x

= + − ∑ − )² 2

SST SSR SSR

= + −

SST SSR

= −

(15)

1.4 模式參數估計－最小平方估計法（ LSE method）

最小平方誤差觀念是以二階段方式完成對( , ,α β σ²)的估計過程。

第一階段：對ε_i的變異數σ²設定出一個會使其最小的目標。

第二階段：以( , )α β 估計值取代群體值推估ε_i的變異數σ²；最後再討論( , )α βˆ ^ˆ 的統計性質。

目標函數 Q：

( )²

Q = ∑iεⁱ2 = ∑i yⁱ − −α βxⁱ

對Q取( ,α β)的偏微分，求Q之極小。

所得之估計式稱為最小平方估計式 (least squares estimator，LSE)。

(16)

εi變異數σ 採用ε_i的樣本估計值e_i = y_i − −a bx_i所估計出的變異數

2 1 2

ˆ ( )

LS 1 ei e

σ = n −

− ∑

i

1 2

1 i ⁱ

n e

= − ∑ ⁱ ^{0 )}

i

(e =∑e =

1 2

( ˆ ) 1 i ⁱ ⁱ

y y

= n −

− ∑

對 ( _i ˆ_i ²取期望值可知

i

y −y

∑ ⁾

2 2

ˆ 2

( _i _i) ( )

i

E^⎧⎨ y − y ^⎫⎬= n− σ

⎩∑ ⎭

故σˆ_LS² 修改為以S²來表示：

2 1 2

2 ( _i ˆ_i)

i

S y

= n −

− ∑ ^y

則S²為σ²的無偏統計量。

(17)

1.5 最小平方估計值性質－高斯定理

由最小平方估計法所得回歸係數估計式是所有線性回 歸直線之回歸係數的最佳線性無偏估計式 (best linear unbiased estimator，簡稱 BLUE)。

高斯定理的證明分述如下：

(1) 證明 LSE b 是樣本點y_i的線性無偏統計量。

(2) 證明 LSE b 在β 的所有的線性無偏估計式中，為具有最小變異數的估計式。定義β 的所有的線性估計式為

i i

i

∑v y

這種形式估計式若為無偏，則

( _i _i)

i

E ∑v y

i ( )i

i

v E y

=∑

i i i

i i

v v x

α β β

= ∑ + ∑ = 須滿足 _i 0及

i

v =

∑ ⁱ ⁱ ¹

i

v x =

∑ ^二條件。

(18)

i i i

∑

( _i _i) 2 _i

i i

V ∑v y =σ ∑v² 已知 ( ) ( _i _i) ² _i²

i i

V b =V ∑u y =σ ∑u 若 ( ) ( _i _i)成立，則須證明

i

V b ≤V ∑v y

2 2

i i

u ≤ v

∑ ∑

設定v_i = +u_i t_i以建立和間關係式，則 v_i u_i

2 i i

v =

∑

=

( )

i i i i i

i i

u t = u v −u

∑ ∑

=

1 1 0

( )( _i _i _i )

i i

v x x v

= u ∑ − ∑ − ⁼

故證得 LSE b 的變異數為所有β 線性無偏估計式中最小。

(19)

1.6 模式參數估計－估計方程式的直覺設定方 法

( , )α β 估計方程式：

ˆ 0 ( _i ˆ _i)

i

y − −α βx =

∑

ˆ 0

( ˆ )

i i i

i

x y − −α βx =

∑

由於y_i − −α βˆ ^ˆx_i即為，故上二式可以改表示為： e_i

(5)

i 0

i

e =

∑

(6)

i i 0

i

x e =

∑

根據這樣的寫法，設定估計( , )α β 的估計方程式有二：

z 群體誤差ε_i總和為 0(依據假設E( )εi = 而來)。 ⁰ z 群體誤差ε_i的獨立性(依據假設ε_i獨立性)。

(2)、(3)或(5)、(6)式因為是一種固定型式的方程式，故又稱 為定型方程式(normal equations)。

(20)

1.7 加權估計方程式

若考慮觀察值的變異數不同(即，y_i ε_i變異數不同)，則修改估計 ( , )α β 過程的一種做法是以統計學上加權想法進行：

定權數w_i =1 σ_i²，σ_i²代表不同ε_i的變異數，則估計方程式可修改為

ˆ 0 ( ˆ

i i i i i

i i

w e = w y − −α β x )=

∑ ∑

ˆ 0 ( ˆ

i i i i i i i

i i

w x e = w x y − −α β x

∑ ∑ ⁾ ⁼

=

= 式子展開後，得

(7) ˆ 0

i i ˆ i i i

i i i

w y −α w −β w x

∑ ∑ ∑

(8)

2 0

ˆ ˆ

i i i i i i i

i i i

w x y −α w x −β w x

∑ ∑ ∑

由(7)式得

ˆ _w

a = =α y −bx_w

其中，依變數 Y 的樣本加權平均值 _w ( _i _i) (

i i

y = ∑w y ∑w_i) 自變數 X 的樣本加權平均值 _w ( _i _i) (

i i

i) x = ∑w x ∑w

(21)

b 由下式計算得到：

取(8 ) ( _i) (7 ) ( _i )，得

i i

w w

× ∑ − × ∑

式式 x_i

2

( )(

ˆ

( )

i i w i w

i

i i w

i

w x x y y

b β w x x

− −

= = −

∑

)

由 EE 方法直觀得到之加權估計方程式(weighted estimating equations)之結果相當於對 ML 或 LS 方法之Q函數作加權，

再對Q取( , )α β 之偏微分得到。

實際分析時，由於每一個體僅能看到一個觀察值，故隨機變數的變異數

yi

Yi σ_i²只能以y_i²估計，即，取權數w_i =1 y_i²。

(22)

1.8 變異數分析(ANOVA)

透過變異數分析(analysis of variance，簡稱 ANOVA) 檢定回歸直線的顯著性。

xi來解釋的變異時，總平方和(SST) y_i 未引入自變數

( _i 2

SST =∑ y − y⁾

i

當自變數 x 引入後，誤差平方和(SSE) i

ˆ 2

( _i _i

i

SSE = ∑ y − y ⁾

因自變數效應而來之回歸平方和(SSR) ˆ 2

( _i

i

SSR =∑ y − y⁾

SST、SSR 和 SSE 三者間的等式關係：

( _i )2 i

SST = ∑ y − y

{⁽ i ^{) (} i ^ˆ }²

i

y y y y

= ∑ − + − )_i SSR SSE

= +

(23)

1.9 回歸係數檢定統計量之建立－Cochran 定理

SSR 的平均MSR= SSR dfR/ 的期望值為

2 2

( ) ( _i

i

E MSR =σ +β ∑ x − x)²

SSE 的平均MSE = SSE dfE/ 的期望值為 ( ) 2

E MSE =σ

其中，dfR =1是對應 SSR 的自由度，dfE = −n 2是對應 SSE 的自由度，在下節中會証明。

在H：₀ β =0之下，E MSR( ) = E MSE( ) =σ²，故取統計量

* MSR

F = MSE

檢定H：₀ β =0 （Y 與 X 線性關係存在） vs. H：₁ β ≠ 0（Y 與 X 之間無線性關係存在）。

(24)

F 的分布可以透過下之定理，得知為 F 分布：

Cochran 定理：y y₁, ,₂ … 為 n 個由,y_n N(μ σ, ²)隨機取出之相互獨立樣本點，若

1 2 K

SST = SSR + SSR + + SSR

1 2 K

dfT = dfR + dfR + + dfR

則SSR_k σ²， ，為 K 個相互獨立具自由度 之卡方分布的隨機變數。

1,2,...,

k = K dfR_k

根據 Cochran 定理，SSR σ²和SSE σ²為二獨立且具自由度 1 和 n-2 的卡方隨機變數。因此

2 2

* MSR SSR SSE

F MSE dfR dfE

σ σ

⎛ ⎞ ⎛

= = ⎜ ⎟ ⎜

⎝ ⎠ ⎝

⎞⎟

⎠ 為具有自由度dfR =1和dfE = −n 2的 F 分布。

(25)

Cochran 定理的較統計化的敍述如下:

令Z 為 iid 之 N(0,1)，_i i=1,2,...,m，且

2

1 2

1 m

i K

i₌ Z = S + S + +S

∑ ^，

其中， K ≤ ，之自由度為m S_k γ_k，k =1,2,...,K。若且唯若

1 2 K

m= +γ γ + +γ ，

則S S₁, ₂,…,S_K 為 K 個相互獨立具自由度γ_k之卡方分布的隨機變數。

(26)

1.10 平方和期望值的計算

變異數分析檢定統計量建立的關鍵點：

(i)在H：₀ β = 0之下，F^*統計量是一個有效的檢定統計量。

(ii)在H：₀ β =0之下，F^*統計量的分布為 F 分布。

這需由 E(SSR)和 E(SSE)中的變異數成分結構來建立。

(1) E(SSR)的變異數成分：

2 2

( ) ( _i )

i

E SSR =σ +β ∑ x − x 2

(2) E(SSE)的變異數成分：

( ) ( ) ( ) E SSE = E SST − E SSR

{⁽n ¹⁾σ² β² i⁽xⁱ ⁾²}

= − + ∑ − x −

{

^σ² ⁺^β²^∑ⁱ⁽^xⁱ ⁻ ^x⁾²

}

(n 2)σ2

= −

對 SSR 和 SSE 分別除以 1 和 n-2，則 E(MSR)和 E(MSE)的σ² 部分不受樣本數影響。

(27)

1.11 變異數分析表（ANOVA table）

檢定回歸係數β =0之變異數分析（analysis of variance, ANOVA）列表（表 1.2）。

表 1.2 簡單線性回歸變異數分析表 變異來源

source of variance

自由度 df

平方和 SS

均方 MS

檢定統計量

F*

均方期望值

E(MS) 回歸(R)

regression dfR SSR MSR MSR MSE

2 2 2

( _i )

i x x

σ +β ∑ − 誤差(E)

error dfE SSE MSE σ² 總計(T)

total dfT SST 註：1. dfR =1，dfE = −n 2，dfT = n−1

2. SSR =∑i(y^ˆi − y)²^, ( i ^ˆi)²^,

SSE =∑i y − y

( i )²

SST =∑i y − y

3. ^F^* = ^{MSR MSE} ^~ ^F_n¹−₂

(28)

1.12 例子

表 1.1 中收集 22 位學生之統計及數學成績，以統計成績為依變數(y_i)，數學成績為自變數( )x ，_1i

i。

二者之簡單線性回歸 估計式為： ˆy_i = +a bx₁

73 91.

y = , x₁ = 68 59.

2 ,

125914

i yi =

∑ ∑ix¹²ⁱ =¹⁰⁸⁸⁴¹

1_i _i 115878,

ix y =

∑ ⁿ⁼ ²²

根據以上數據，可以算出以下變異數與共變異數：

2

1 1

( ) 5340 06.

X i i

SS = ∑ x − x =

( )2 5734 86.

Y i i

SS =∑ y − y =

1 1

( )( ) 4349 29.

XY i i i

SS = ∑ x − x y − y =

回歸係數 b = SS_XY SS_X = 0 815. 截距 a = −y bx₁ =18 009.

簡單線性回歸估計式 yˆ_i =18 009. +0 815. x₁_i

(29)

變異數分析結果列於表 1.3，檢定結果顯著。

表 1.3 統計分數（Y）與數學分數（X₁）之簡單回歸變異數分析變異來源

SV

自由度 df

平方和 SS

均方 MS

檢定統計量 F*

P-值

回歸(R) 1 3543.99 3543.99 32.31 0.000 誤差(E) 20 2193.83 109.69

總計(T) 21 5737.82 註：F_{20 0 05}¹_{, .} = 4 35.