• 沒有找到結果。

簡單線性回歸模式基本分析

N/A
N/A
Protected

Academic year: 2022

Share "簡單線性回歸模式基本分析"

Copied!
29
0
0

加載中.... (立即查看全文)

全文

(1)

第一章

簡單線性回歸模式基本分析

模式(model):

( ) Y = f x

Y:依變數(dependent variable)、反應變數(response variable)

X :自變數(independent variable)、解釋變數(explanatory variable)

回歸(regression):

z 簡單線性回歸模式(simple regression model,或簡稱 SRM)

z 一般線性模式(general regression model),指簡單回歸和 複回歸模式(multiple regression model,MRM)

z 泛化線性模式(generalized linear model,簡稱 GLM),或 稱廣義線性模式

z 多變數回歸(multivariate regression model,簡稱 MVRM)

(2)

表 1.1 學生成績資料

學生 i

統計 yi

數學 x 1i

生物 x 2i

國文 x 3i

英文 x 4i

性別 x 5i

1 96 82 90 85 76 1 2 93 90 80 72 74 1 3 93 92 72 74 75 1 4 90 85 73 68 80 1 5 87 75 90 95 82 0 6 86 53 87 82 80 0 7 86 84 62 72 63 1 8 84 78 70 80 62 0 9 83 72 88 80 75 0 10 82 75 76 60 74 0 11 78 63 65 64 75 1 12 75 85 74 92 76 0 13 72 63 63 96 83 0 14 72 65 62 88 75 0 15 70 62 75 86 84 0 16 70 60 70 75 87 1 17 65 72 90 74 73 0 18 60 73 45 72 72 1 19 52 40 42 45 37 1 20 50 60 53 60 48 1 21 42 30 65 72 70 1 22 40 50 60 50 60 1 註:x5i =1代表男性,x5i = 代表女性 0

(3)

1.1 模式建立

若於某大學收集到 22 位統計系學生之 Y 與 X1成績(表 1.1 中之yix )1i ,重新設定此二隨機變數為 Y 與 X22 位學 生之 與yi x 為 1i

(y xi, i) i=1, 2,...,n

i

n:樣本數

在 Y 與 X 為完全直線關係理想狀態下:

( )i

E Y = +α βX (1)

z α:截距(intercept)

X = ,所對應的Y 值。0

z β : 直 線 斜 率 ( slope ), 稱 為 回 歸 係 數 ( regression coefficient)

β = ,表示Y 之變異無法以 X 來解釋。0

(4)

在 Y 不能完全以(1)式表達情況下,簡單線性回歸模式成為:

i ( )i

Y = E Y + εi

Xi i

α β ε

= + +

εi:隨機誤差(random error)

(5)

1.2 模 式 參 數 估 計 - 最 大 概 似 估 計 法 ( MLE method)

令符號(a b, )分別代表(α β, )的估計值,a =αˆ b= βˆ 隨機變數 的簡單回歸模式估計值Yi

ˆi

y = +a bxi

觀察值 與估計值 之間關係式為 yi yˆi

i ˆi

y = y +ei

i i

a bx e

= + +

殘差e (residual)i :觀察值 和直線估計值 間差值,視為是 隨機變誤差

yi yˆi εi的估計值。

在進行αβ 估計和檢定進程中,需要對εi的隨機效應作出 以下假設:

(0, 2)

iid

i N

ε σ

iid:independently and identically distributed

(6)

根 據 εi 的 假 設 , yi 為 來 自 其 隨 機 變 數 Yi 對 應 之 iid

( 2)

N α β σ+ xi, 之一個樣本點,記為

( , 2)

iid

i i

Y N α β σ+ x

在 這 樣 的 常 態 分 布 假 設 下 , 參 數 (α β σ, , 2 ) 的 概 似 函 數

(likelihood function)為:

( )

( ) (

2 2

1 2

1 2 2

1 1

, , exp

2 2

n

i i

i

L α β σ y α β

πσ σ

= x )

= ∏ − −

δ σ= 2,取 log 轉換後:

( ) 2 1( ) ( )2

log log 2 exp

2

n

i i

i

L πδ δ y α β

x

= ⎨⎢ ⎬⎬

( )

2 log 2

( )

2 log 1( )2 ( i i)2

i

n π n δ δ y α x

= + + − −β

(7)

log L取偏微分,求( , ,α β δ σ= )之極大(略去二次微分驗 證極大過程),得:

log L

α = log L

β = log L

δ =

Q i(yi xi)2 i2

α β i

= − − = ε

求解(α ,β ,δ )最大概似估計式(maximum likelihood estimator, MLE)的估計方程式(estimating equations)可化簡為:

( ˆ ˆ

2 i i

i

Q y α βx ) 0

α

= − − − =

(2)

(

ˆ ˆ

)

2 i i i

i

Q x y α βx

β

= − − − =

0 (3)

( )

1 ˆ i

(

i ˆ ˆ i

)

2 0

n y α βx

− + δ − − = (4)

(8)

利用以下三項等式:

(i) i

ix = nx

iyi = ny

(ii) i(xi x)2

( )2

2 i i

i i

x x

= n

( i )2

i y y

( )2

2 i i

i i

y y

= n

(iii) i(xi x)(yi y)

( i i)( i )

i i

i

x yi

x y n

=

可由(2)和(3)式分別算出(α,β )的估計值為:

( )( )

{ }

{

( )2

}

ˆ i i i i

b = =β x x y y i x x a = = −αˆ y bx

(9)

估計回歸直線(estimated regression line)成為:

ˆi

y = +a bxi

( i

y b x x

= + )

xi = x時,yˆi = y

把上式代入(4)式中,得εi的共同變異數估計值為

( )2

2 ˆ 1

ˆ i i

i y a bx

σ = =δ n − − 1 2

iei

= n

由上述討論可歸納出簡單線性回歸估計過程所需之假 設:

(i) (ii) (iii) (iv) (v)

(10)

1.3 最大概似估計值性質

由 最 大 概 似 估 計 法 所 得 (α β σ, , 2 ) 估 計 值 的 無 偏 性

(unbiasedness)討論如下:

(1) b為 樣 本 點 yi 的 一 個 線 性 組 合 且 為β 的 無 偏 統 計 量

(linear unbiased estimator)。 b 可 改 換 成 的 綫 性 組 合:

yi

設定u = i(xi x)2 ,則

( )( )

( )2

i i

i

i i

x x y y b

x x

=

( )( )

1

i i

i x x y y

= u

= (i(xi x) =0)

ui =(xi x) u

y

i i

b =iu

(11)

的期望值為:

b

( ) ( i i i)

E b = E u y

( )

i i

iu E y

=

i i

iu iu xi

α β

= +

β

=

其中, i

iu =

i i

iu x =

=

=1 (2) a 是α的無偏統計量

( ) ( )

E a = E y bx 1 ( )i

iE y x

n β

=

1 1

( i)

i ix x

n α β n β

= + α

=

(12)

(3) σˆ εi變異數σ (或 變異數)的偏誤統計量 Yi

( )ˆ2 1 ( i ˆi)2

E y

σ = n y

( )

{

2

}

1

i i

E i y a bx

= n − −

=

=

( ) ( )

{

2 2 2

}

1

i i

i i

E y y b x x

= n

針對上式,設定符號

( i 2

SST =i y y)

稱為總平方和(total sum of squares)

( )2

2 i i

SSR =b x x

( ˆi 2

i y y

= )

稱為回歸平方和(regression sum of squares)

(13)

在這樣符號設定下,E( )σˆ 成為 ( )ˆ2 1{ ( ) (

E E SST E SSR

σ = n )}

其中,

( ) 2 2 i( i )2

E SSR =σ +β x x

( 1) 2 2

(

( )2

)

( ) i

E SST = n σ +β i x x 因此,

( )ˆ2 1{ ( ) ( )}

E E SST E SSR

σ = n

( )

{ 2 2 2 2 2 2}

1 1 ( i ) ( i )

i i

n x x x

n σ β σ β

= + x

( )

{ n 2 n}σ2

= (有偏統計量)

(14)

要將誤差變異數的 MLEσˆ 調整為無偏(unbiased)

{ }

2 2

2 ˆ

/( ) ( )

S = n n σ

1 2

2 ( i ˆi)

i

y y

= n

1

2(SSE

= n

)

誤差平方和(error sum of squares):

ˆ 2

( i i)

i

SSE = y y

{( i ) (ˆi )}2

i

y y y y

=

2 2

ˆ 2 ˆ

( i ) ( i ) ( i )( )

i i i

y y y y y y y y

= + i

2 2 ( i

i

SST SSR b x x

= + )2 2

SST SSR SSR

= +

SST SSR

=

(15)

1.4 模 式 參 數 估 計 - 最 小 平 方 估 計 法 ( LSE method)

最小平方誤差觀念是以二階段方式完成對( , ,α β σ2) 估計過程。

第一階段:對εi的變異數σ2設定出一個會使其最小的目標。

第二階段:以( , )α β 估計值取代群體值推估εi的變異數σ2 最後再討論( , )α βˆ ˆ 的統計性質。

目標函數 Q:

( )2

Q = iεi2 = i yi − −α βxi

Q( ,α β)的偏微分,求Q之極小。

所 得 之 估 計 式 稱 為 最 小 平 方 估 計 式 (least squares estimator,LSE)。

(16)

εi變異數σ 採用εi的樣本估計值ei = yi − −a bxi所估計出的變 異數

2 1 2

ˆ ( )

LS 1 ei e

σ = n

i

1 2

1 i i

n e

= i 0 )

i

(e =e =

1 2

( ˆ ) 1 i i i

y y

= n

( i ˆi 2取期望值可知

i

y y

)

2 2

ˆ 2

( i i) ( )

i

E y y = n σ

σˆLS2 修改為以S2來表示:

2 1 2

2 ( i ˆi)

i

S y

= n

y

S2σ2的無偏統計量。

(17)

1.5 最小平方估計值性質-高斯定理

由最小平方估計法所得回歸係數估計式是所有線性回 歸 直 線 之 回 歸 係 數 的 最 佳 線 性 無 偏 估 計 式 (best linear unbiased estimator,簡稱 BLUE)。

高斯定理的證明分述如下:

(1) 證明 LSE b 是樣本點yi的線性無偏統計量。

(2) 證明 LSE b 在β 的所有的線性無偏估計式中,為具有最 小變異數的估計式。定義β 的所有的線性估計式為

i i

i

v y

這種形式估計式若為無偏,則

( i i)

i

E v y

i ( )i

i

v E y

=

i i i

i i

v v x

α β β

= + = 須滿足 i 0

i

v =

i i 1

i

v x =

二條件。

(18)

i i i

( i i) 2 i

i i

V v y =σ v2 已知 ( ) ( i i) 2 i2

i i

V b =V u y =σ u ( ) ( i i)成立,則須證明

i

V b V v y

2 2

i i

i i

u v

設定vi = +ui ti以建立 和 間關係式,則 vi ui

2 i i

v =

=

( )

i i i i i

i i

u t = u v u

=

=

1 1 0

( )( i i i )

i i

v x x v

= u =

故證得 LSE b 的變異數為所有β 線性無偏估計式中最小。

(19)

1.6 模式參數估計-估計方程式的直覺設定方

( , )α β 估計方程式:

ˆ 0 ( i ˆ i)

i

y − −α βx =

ˆ 0

( ˆ )

i i i

i

x y − −α βx =

由於yi − −α βˆ ˆxi即為 ,故上二式可以改表示為: ei

(5)

i 0

i

e =

(6)

i i 0

i

x e =

根據這樣的寫法,設定估計( , )α β 的估計方程式有二:

z 群體誤差εi總和為 0(依據假設E( )εi = 而來)。 0 z 群體誤差εi的獨立性(依據假設εi獨立性)。

(2)、(3)或(5)、(6)式因為是一種固定型式的方程式,故又稱 為定型方程式(normal equations)。

(20)

1.7 加權估計方程式

若考慮觀察值 的變異數不同(即,yi εi變異數不同),則 修改估計 ( , )α β 過程的一種做法是以統計學上加權想法進 行:

定權數wi =1 σi2σi2代表不同εi的變異數,則估計方程 式可修改為

ˆ 0 ( ˆ

i i i i i

i i

w e = w y − −α β x )=

ˆ 0 ( ˆ

i i i i i i i

i i

w x e = w x y − −α β x

) =

=

= 式子展開後,得

(7) ˆ 0

i i ˆ i i i

i i i

w y α w β w x

(8)

2 0

ˆ ˆ

i i i i i i i

i i i

w x y α w x β w x

由(7)式得

ˆ w

a = =α y bxw

其中,依變數 Y 的樣本加權平均值 w ( i i) (

i i

y = w y wi) 自變數 X 的樣本加權平均值 w ( i i) (

i i

i) x = w x w

(21)

b 由下式計算得到:

取(8 ) ( i) (7 ) ( i ),得

i i

w w

× ×

xi

2

( )(

ˆ

( )

i i w i w

i

i i w

i

w x x y y

b β w x x

= =

)

由 EE 方法直觀得到之加權估計方程式(weighted estimating equations)之結果相當於對 ML 或 LS 方法之Q函數作加權,

再對Q取( , )α β 之偏微分得到。

實際分析時,由於每一個體僅能看到一個觀察值 ,故隨機 變數 的變異數

yi

Yi σi2只能以yi2估計,即,取權數wi =1 yi2

(22)

1.8 變異數分析(ANOVA)

透過變異數分析(analysis of variance,簡稱 ANOVA) 檢 定回歸直線的顯著性。

xi來解釋 的變異時,總平方和(SST) yi 未引入自變數

( i 2

SST = y y)

i

當自變數 x 引入後,誤差平方和(SSE) i

ˆ 2

( i i

i

SSE = y y )

因自變數效應而來之回歸平方和(SSR) ˆ 2

( i

i

SSR = y y)

SST、SSR 和 SSE 三者間的等式關係:

( i )2 i

SST = y y

{( i ) ( i ˆ }2

i

y y y y

= + − )i SSR SSE

= +

(23)

1.9 回歸係數檢定統計量之建立-Cochran 定理

SSR 的平均MSR= SSR dfR/ 的期望值為

2 2

( ) ( i

i

E MSR =σ +β x x)2

SSE 的平均MSE = SSE dfE/ 的期望值為 ( ) 2

E MSE =σ

其中,dfR =1是對應 SSR 的自由度,dfE = −n 2是對應 SSE 的自由度,在下節中會証明。

H0 β =0之下,E MSR( ) = E MSE( ) =σ2,故取統計量

* MSR

F = MSE

檢定H0 β =0 (Y 與 X 線性關係存在) vs. H1 β 0(Y 與 X 之間無線性關係存在)。

(24)

F 的分布可以透過下之定理,得知為 F 分布:

Cochran 定理:y y1, ,2 … 為 n 個由,yn N(μ σ, 2)隨機取出之 相互獨立樣本點,若

1 2 K

SST = SSR + SSR + + SSR

1 2 K

dfT = dfR + dfR + + dfR

SSRk σ2 ,為 K 個相互獨立具自由度 之卡方分布的隨機變數。

1,2,...,

k = K dfRk

根據 Cochran 定理,SSR σ2SSE σ2為二獨立且具自由度 1 和 n-2 的卡方隨機變數。因此

2 2

* MSR SSR SSE

F MSE dfR dfE

σ σ

⎞ ⎛

= = ⎜ ⎟ ⎜

⎠ ⎝

為具有自由度dfR =1dfE = −n 2的 F 分布。

(25)

Cochran 定理的較統計化的敍述如下:

Z 為 iid 之 N(0,1),i i=1,2,...,m,且

2

1 2

1 m

i K

i= Z = S + S + +S

其中, K ≤ , 之自由度為m Sk γkk =1,2,...,K 若且唯若

1 2 K

m= +γ γ + +γ

S S1, 2,,SK 為 K 個相互獨立具自由度γk之卡方分布 的隨機變數。

(26)

1.10 平方和期望值的計算

變異數分析檢定統計量建立的關鍵點:

(i)在H0 β = 0之下,F*統計量是一個有效的檢定統計量。

(ii)在H0 β =0之下,F*統計量的分布為 F 分布。

這需由 E(SSR)和 E(SSE)中的變異數成分結構來建立。

(1) E(SSR)的變異數成分:

2 2

( ) ( i )

i

E SSR =σ +β x x 2

(2) E(SSE)的變異數成分:

( ) ( ) ( ) E SSE = E SST E SSR

{(n 1)σ2 β2 i(xi )2}

= + − x

{

σ2 +β2i(xi x)2

}

(n 2)σ2

=

對 SSR 和 SSE 分別除以 1 和 n-2,則 E(MSR)和 E(MSE)的σ2 部分不受樣本數影響。

(27)

1.11 變異數分析表(ANOVA table)

檢定回歸係數β =0之變異數分析(analysis of variance, ANOVA)列表(表 1.2)

表 1.2 簡單線性回歸變異數分析表 變異來源

source of variance

自由度 df

平方和 SS

均方 MS

檢定 統計量

F*

均方 期望值

E(MS) 回歸(R)

regression dfR SSR MSR MSR MSE

2 2 2

( i )

i x x

σ +β 誤差(E)

error dfE SSE MSE σ2 總計(T)

total dfT SST 註:1. dfR =1dfE = −n 2dfT = n1

2. SSR =i(yˆi y)2, ( i ˆi)2,

SSE =i y y

( i )2

SST =i y y

3. F* = MSR MSE ~ Fn12

(28)

1.12 例子

表 1.1 中收集 22 位學生之統計及數學成績,以統計成績 為依變數(yi),數學成績為自變數( )x ,1i

i

二者之簡單線性回歸 估計式為: ˆyi = +a bx1

73 91.

y = , x1 = 68 59.

2 ,

125914

i yi =

ix12i =108841

1i i 115878,

ix y =

n= 22

根據以上數據,可以算出以下變異數與共變異數:

2

1 1

( ) 5340 06.

X i i

SS = x x =

( )2 5734 86.

Y i i

SS = y y =

1 1

( )( ) 4349 29.

XY i i i

SS = x x y y =

回歸係數 b = SSXY SSX = 0 815. 截距 a = −y bx1 =18 009.

簡單線性回歸估計式 yˆi =18 009. +0 815. x1i

(29)

變異數分析結果列於表 1.3,檢定結果顯著。

表 1.3 統計分數(Y)與數學分數(X1)之簡單回歸變異數分析 變異來源

SV

自由度 df

平方和 SS

均方 MS

檢定統計量 F*

P-值

回歸(R) 1 3543.99 3543.99 32.31 0.000 誤差(E) 20 2193.83 109.69

總計(T) 21 5737.82 註:F20 0 051, . = 4 35.

數據

表 1.1  學生成績資料  學生  i 統計 yi 數學 x  1i 生物 x  2i 國文 x  3i 英文 x  4i 性別 x  5i 1  96 82 90 85 76  1  2  93 90 80 72 74  1  3  93 92 72 74 75  1  4  90 85 73 68 80  1  5  87 75 90 95 82  0  6  86 53 87 82 80  0  7  86 84 62 72 63  1  8  84 78 70 80 62  0  9  83 72

參考文獻

相關文件

在 2004 年和 2005 年期間,喬根森利用手術植入的小無線電發射機跟蹤 28 條

[4] Hiroyuki, O., “Sound of Linear Guideway Type Recirculating Linear Ball Bearings” , Transactions of the ASME, Journal of Tribology, Vol. Part I: design and Construction” ,

线性拟合与二次拟合 数据拟合的线性模型 一次多项式拟合公式..

Step 4: : :模擬結果分析 : 模擬結果分析 模擬結果分析(脈寬為 模擬結果分析 脈寬為 脈寬為90%) 脈寬為.

香港學生大多數不肯勤勤懇懇地「唸書」,其實 這也是一種靈活的特性,要利用這一點發揮學生 課堂學習的積極性。.

4.1 多因子變異數分析 多因子變異數分析 多因子變異數分析 多因子變異數分析與線性迴歸 與線性迴歸 與線性迴歸 與線性迴歸 4.1.1 統計軟體 統計軟體 統計軟體 統計軟體 SPSS 簡介 簡介

在軟體的使用方面,使用 Simulink 來進行。Simulink 是一種分析與模擬動態

則巢式 Logit 模型可簡化為多項 Logit 模型。在分析時,巢式 Logit 模型及 多項 Logit 模型皆可以分析多方案指標之聯合選擇,唯巢式 Logit