• 沒有找到結果。

統計學: 十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )

N/A
N/A
Protected

Academic year: 2021

Share "統計學: 十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )"

Copied!
65
0
0

加載中.... (立即查看全文)

全文

(1)

十一、簡單相關與簡單直線回歸分析

(Simpl

e Correlations and Simple Linear Regres

sion )

劉仁沛教授 國立台灣大學農藝學研究所生物統 計組 國家衛生研究院生物統計與生物資 訊組 [email protected]

(2)

 例 1 :氮肥用量與水稻穀收量表 ( 公斤 ) 氮肥用量 x 0 0.5 1.0 1.5 2.0 2.5 稻穀收量 y 10 18 32 48 55 62  例 2 :成人年齡與血液中膽固醇的量 年齡 x 34 39 44 46 48 51 膽固醇 y(mg/m l) 141.4 180.5 178.4 212.0 203.2 224.1 年齡 x 53 6 61 65 66 67 膽固醇 y(mg/m l) 186.0 350.0 286.3 287.6 330.3 371.3  例 3 :年雨量與小麥產量 年雨量 ( 公厘 /2 0) 23.5 20.4 22.8 25.9 28.9 27.1 26.8 25.2 產量 ( 公斤 /10 20.4 23.0 33.5 35.8 44.6 41.2 45.4 39.0

(3)
(4)

年齡與膽固醇量的

Scatter Plot

(mg/ml )

(5)

年雨量與小麥產量的

Scatter Plot

( 公斤 /10 0)

(6)

探討兩個變數之間的關係

 問題: 兩個變數間是否存在直線關係? 將直線關係以方程式表示  資料型態 ( xi , yi )  假定 (Assumption) 1. 每對資料均為獨立 2. 常態 3. 相同變方 4. X 與 Y 的關係為直線

(7)

簡單關係數

(Simple correlation coefficient)

簡單直線回歸

(Simple Linear Regression)

模式建立之推論

(Models and Inference)

回歸模式直線性檢定

(Evaluation of Linearity)

(8)

Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ μχ μχ μχ μy μy μy y (a) ρ> 0 正相關 (b) ρ< 0 負相關 (c) ρ= 0 無相關 圖 11.8b 三種不同族群相關散播圖

(9)

象限

(χ-μχ) (y-μy) (χ-μχ) (y-μy)

+

+

+

-

+

-Ⅲ

-

-

+

(10)

-

正相關:落在第Ⅰ及Ⅲ象限的點數

> 落在第

Ⅱ及Ⅳ象限的點數

負相關:落在第Ⅰ及Ⅲ象限的點數

< 落在第

Ⅱ及Ⅳ象限的點數

無相關:落在第Ⅰ及Ⅲ象限的點數

= 落在第

Ⅱ及Ⅳ象限的點數

(11)

族群簡單相關係數:

(x

1

,y

1

) …(x

N

,y

N

)

N i X i Y i 1 N N 2 2 i X i Y i 1 i 1

(X -

)(Y -

)

(X -

)

(Y -

)

  

-1<ρ<1

(12)

樣品簡單相關係數

樣品資料:

(x

1

,y

1

), …, (x

n

,y

n

)

乘積和:

X 平方和:

Y 平方和:

1 1 1 1 2 2 2 1 1 1 2 2 2 1 1 1 ( )( ) ( )( ) ( ) ( ) ( ) ( ) n n i i n n i i xy i i i i i i n i n n i xx i i i i n i n n i yy i i i i x y S x x y y x y n x S x x x n y S y y y n                                  1 2 2 ( )( ) ( ) ( ) n i i xy i n n xx yy i i x x y y S r S S x x y y       

, r 之範圍: 1 ≦ r ≦-1

(13)

x y r = 1 x y r = -1 (a) 完全正相 關 (b) 完全負相 關

(14)

(a) 不完全正相關 (b) 不完全負相關 x y 0 < r < 1 x y -1 < r < 0

(15)

x y r = 0 x y r = 0 (a) 無相關 (b) 曲線關系

(16)

簡單相關係數顯著性檢定

H

0

ρ= 0 v.s. H

a

ρ≠ 0

顯著水準:

α

檢定統計值:

2 2 2 1 1 ( 2) r n T r r r n      

決策方法:

若|

T | >t

α/2

,

n-2

拒絕

H

0

(17)

例:雨量與小麥產量

n=8, Σxi=200.5, Σyi=296.5 2 2 2 2 2 2 2 (200.5) 23.5 25.2 8 51.8988 (296.5) 34.0 39.0 8 368.6188 (200.5)(296.5) (23.5)(34.0) (25.2)(39.0) 8 129.2688 51.8988 0.9346 (368.6188)(129.2688) 2 8 2 0.9346 1 1 0.934 xx yy xy xy xx yy S S S S r S S n T r r                            2 0.025,6 0 6.436 6 6.346 2.447 H T t     拒 拒

(18)

簡單直線回歸

(Simple Linear Regressio

n)

水稻穀產量 (y) 與氮肥用量 (x) 可以用直線關係描述 yi=β0+βxi, i=1, …,6(=n) y i:依變數 (Dependent variable) x i:獨立 ( 自 ) 變數 (Independent variable) β0:截距 (Intercept) x=0 時 y 的值 β :斜率 (Slope) x 變動一個單位 y 變動的量 但實際觀測值與直線 y=β+βx 有差距 原因:環境、實驗誤差、量測誤差及其他原因 yi=β0+βxi+εi, i=1, …,6(=n) εi:誤差 (Error) 或殘差 (Residual)

(19)

The Simple Linear Regression Model

(Here β

1

> 0)

x

y-intercept One-unit change in x

Slope = β1 Mean value of y when x equals x0 An observed value of y when x equals x0

y

β0

0

Error term

Straight line defined b y the equation

μy x01x

x0= A specific value of the independent variable x

(20)

假定

(Assumptions) :

獨立性

(Independent)

常態性

(Normality)

直線關係

(Linearity)

相同變方

(homogeneity of Variance)

無數條直線可描述

X 與 Y 的關係

選擇直線的方法:

最小平方法

(Least Squares Method)

(21)

y

i

x

i ˆ 9.68 22.11 y   x e1 e2 e3 e4 e6 e5 圖 11.4 回歸直線與殘差圖

(22)

最小平方法

  0 2 0 2 0 i=1 0 (Residual): = ( ) = F= ( ) i i i i n i i y x y x y x

      

殘差 觀測值與迴歸直線垂直距離 垂直距離平方 殘差平方 垂直距離平方和 殘差平方和 最小平方法 觀測值與迴歸直線垂直距離平方和為最小之斜率與截距 對 及 進行偏微分

(23)

0 i 0 0 i

F

= -2

(y

) 0

F

= -2

(y

)

0

i i i

x

x x

正常方程式 (Normal Equations)

0 2 0 i i i i i i

n

x

y

x

x

x y

 

 

(24)

2 0 0

(

)(

)

(

)

ˆ

ˆ

(

)

1

 

 

 

 

  

xy i i i xx i o i i i i i i

S

x

x y

y

b

x

x

S

b

y bx

y

b

bx

y

y

y

b bx

i

n

斜率估算值

截距估算值

推測直線回歸方程式

( Predicted Linear Regression Equations

)

殘差估算值

為當獨立之變數為 xi 時依 變數之最小平方推測平均值

ˆ

i

y

(25)

計算推測直線回歸方程式

所需統計值

2 2 2 2 2 2 2 2 12 52.8333 240.825 34 39 67 (12)(52.8333) 1337.6667 (34)(141.4) (39)(180.5) (67)(311.3) (12)(52.8333)(240.925) 7558.15 141.4 180.5 311.3 (12)(240.925) 52100.7825 755 xx xy yy xy xx n x y S S S S b S                           0 8.1500 5.65025 1337.6667 240.925 (5.65025)(52.8333) 57.5963 ˆ 57.5963 5.65025 b y x         xx xy yy

n x y S

S

S

例:成人年齡與血液膽固醇含量

(26)

假定

獨立性

常態性

直線關係

相關變方

– 殘差 εi為常態分布 – 族群平均值為 0 – 族群變方為 σ2

(27)

An Illustration of the Model Assumptions

y

32.5 45.9 X

The straight line defined by th e equation μy x 0+ β1x (the li ne of means) Population of y values when x=45.9 Population of y values when x=32.5

12.4=Observed value of y when x=32.5

The mean fuel consumption when x=32.5 The mean fuel consumption

when x=45.9

9.4=Observed value of y when x=45.9

(28)

σ

2

之估算

殘差估算值

殘差估算值平方

殘差

( 估算值 ) 平方和

估算殘差值時必須先計算

b

0

b

SSE 之自由度為 n-2

ˆ

i

y

i

y

ˆ

i

2 2

ˆ

i

(

y

i

y

ˆ

i

)

2 2 1 1 2 0 1 ˆ ( ˆ ) ( ) n n i i i i i n i x yy xy i SSE y y y b b S bS            

2 ˆ SSE / n 2 MSE      

(29)

斜率與截距變方之估計

2 2 2 0 2

ˆ

ˆ( )

1

(

)

(

)

1

(

)

xx xx xx

MSE

v b

S

S

x

v b

n

S

x

MSE

n

S

(30)

例 成人年齡與膽固醇

 2 2 2 2 2 0 52100.7825 (5.65025)(7558.15) 9395.3455 9395.3455 ˆ ( 2) 12 2 939.53455 ˆ 935.53455 ˆ( ) 1337.6667 0.6994 1 1 52.8333 ( ) 939.53455 12 1337.6667                         yy xy xx xx SSE S bS SSE MSE n v b S x v b n S

(31)

斜率

 H0: β=0 V.S. Ha: β≠0  顯著水準 α檢定統計值 (Test statistic) ˆ( ) xx b b T v b MSE S     決策方法 若| Tβ| >tα/2,n-2 拒絕 H0  β 之 (1-α) %信賴區間 2 2 2 2 ˆ( ) n n xx b t v b MSE b t S        , ,

(32)

截距

 H0: β0=0 V.S. Ha: β0≠0  顯著水準 α檢定統計值 (Test statistic) 0 0 0 2 0 ˆ( ) 1 xx b b T v b x MSE n S            決策方法 若|Tβ0|>tα/2,n-2 拒絕 H0  β0之(1-α) %信賴區間 0 2 0 2 2 0 2 ˆ( ) 1 n n b t v b x b t MSE n S          , ,

(33)

例:成人體重與膽固醇

 斜率 H0: β=0 V.S. Ha: β≠0 α = 0.05 5.65025 6.7419 ˆ( ) 0.6994 b T v b     | Tβ|= 6.7419 > t0.025,10= 2.228

拒絕 H0  β 之 95 %信賴區間

2 2 ˆ( ) 5.65025 2.228 0.6994 3.78527, 7.51973 n bt v b  ,

(34)

例:成人體重與膽固醇

 截距 H0: β0=0 V.S. Ha: β0≠0 α = 0.05 | Tβ0|= 1.2756 < t0.025,10= 2.228  β0 之 95 %信賴區間

0 2 2 ˆ( ) 57.5903 2.228 2038.9553 158.1987, 43.0061 n bt v b    , 0 0 0 57.5963 1.2756 ˆ( ) 2038.8553 b T v b      

(35)

回歸變方分析表

總變異 可由 x 解釋之變 異 不可由 x 解釋之變 異 獨立變數 X Y y 0 ˆ x y b  b

(36)

2 2 2 1 1 1

(y

) (

)

(

)

(

)

(

)

  

 

  

i i i i n n n i i i i i i i

y y

y

y y

y y

y y

y y

總變異=可由 x 所解釋變異 + 不可由 x 解釋變異 總平方和=回歸平方和 + 殘差平方和 SST=SSR+SSE Syy=bSxy+(Syy-bSxy) 自由度: n-1=1+(n-2)

(37)

迴歸變方平方和

變因 自由度 平方和 均方 F 值 迴歸 1 SSR =b×Sxy MSR =SSR/1 MSR/MSE 殘差 n-2 SSE =SST-SSR MSE =SSE/(N-2) 總計 n-1 SST

(38)

2 2 2

(

)

xy xy xx xx xx xx

bS

MSR

F

MSE

MSE

S

b

S

S

MSE

b S

MSE

b

MSE

S

t

(39)

例:成人年齡與膽固醇

 SST = Syy = 54001.7825  SSR = b × Sxy=(5.65025) ×(7558.15) =42705.4370  SSE = SST - SSR =51000.7825-42705.4370 =9395.3455 ANOVA 表 變因 自由度 平方和 均方 F 迴歸 1 42705.4370 42705.4370 45.4538 殘差 10 9395.3455 939.53455 總計 11 52100.7825

(40)

決定係數

(Coefficient of Determination)

R

2

= 決定係數

= 可由獨立變數解釋之變異 總變異

= SSR / SST

0 < R

2

< 1

當只有一個獨立變數時

R

2

= ( 相關係數 )

=n

2

(41)

例:成人體重與膽固醇

F = 420705.4370 / 939.53455

= 45.4530 , F

0.05,10

=4.9646 拒絕 H

0

F = 45.4530 = (6.7419)

2

=(T

β

)

2

R

2

= SSR / SST

=42705.4370 / 52100.7825

=0.8197

=(0.9054)

2

(42)

0 0 0 0 0 0 0 2 0 0 0 2 0 0 , 2 2

ˆ

(

)

1

ˆ

( )

(1- )%

(

)

1

ˆ

xx n

x

y

x

y

b

bx

x

x

V y

MSE

n

S

y

x

x

y

t

MSE

n

S

,

當獨立變數為 時 依變數分佈平均值為

其估計值為

其估算變方為

信賴區間

(43)

0 0 0 0 2 0 0 0 2 0 0 , 2 2

ˆ

(

)

1

ˆ

( )

1+

(1- )%

(

)

1

ˆ

1+

xx n xx

x

y

b

bx

x

x

V y

MSE

n

S

y

x

x

y

t

MSE

n

S

,

當獨立變數為 時 任一依變數觀測值

仍然為

但其估算變方為

信賴區間

(44)

例:成人年齡與膽固醇

年齡為

55 歲之膽固醇分佈平均值的估算值

55

ˆ

57.5963 (5.65025)(55)

253.16745

y

 

95 %信賴區間

  2 0 55 ,10 2 2 ( ) 1 ˆ ( ) 1 (55 52.8333) 253.16745 2.28 939.53455 12 13.376667 253.16745 20.125 xx x x y t MSE n S           

(45)

例:成人年齡與膽固醇

年齡為

55 歲之膽固醇的觀測值

55

ˆ

57.5963 (5.65025)(55)

253.16745

y

 

95 %信賴區間

  2 0 55 ,10 2 2 ( ) 1 ˆ (1 ) 1 (55 52.8333) 253.16745 2.28 939.53455 1 12 13.376667 253.16745 71.1960 181.97156,324.36345 xx x x y t MSE n S              

(46)

0

ˆy

(47)

直線性檢定

(Test for Linearity)

獨立變數 依 變 數 ( 複 ) 平均 重複數 1 2 1 2 4 11 21 1 12 22 2 1 2 1 2 1 2 k k k n n kn k k

x

x

x

y

y

y

y

y

y

y

y

y

y

y

y

n

n

n

  

獨立變數下的依變數必須有重複

(48)

直線性檢定

(Test for Linearily)

    i i n n 2 2 2

i=1 j=1 i=1 j=1 i=1

( ) ( ) = + ( ) ( ) ( ) + SSE=SSPE+SSLF 2 ( ) ( 2)                         





殘差 組內偏差 偏離直線迴歸 = 殘差平方和 純誤差平方和 欠合平方和 自由度 ij i ij i i i k k k ij i ij i i i i y y y y y y y y y y n y y n n k k PE Pure Error LF Lack of Fit

(49)

1 1 1 1 2 2 1 1 1 2 2 1 1 2 1 ( )( ) ( ) i i i i i n n k k i ij i ij i i i j j i k xx i i i n k xy i ij i j n k yy ij i j xy xx xy n ij i i j n n y y y y x n x y x y x n n x S n x n x y S x y n y SST S y n S b S b y bx SSR b S SSE SST SSR SSPE y y                                            

 

 

 

2 2 1 1 1 1 SSLF=SSE+SSPF i n n n k i ij i j i i y y n      

 

(50)

變方分析表

變因 自由度 平方和 均方 F 值 迴歸 1 SSR = b . Sxy MSR 殘差 n-2 SSE = Syy-b . Sxy MSE 欠合 k-2 SSLF = SSE - SSPE MSLF = SSLF / k-2 MSLF MSPE 純誤

差 n-k SSPE = MSPE= SSPE / n-k

總計 n-1 SST = Syy 2 2 1 1 1       n nik i ij i j i i y y n

(51)

直線性檢定

(Test for Linearity)

H

0

:符合直線假定

v.s.

H

a

:不符合直線假定

顯定水準:

α

決策方法:

F

LF

=MSLF / MSPE > F

α , k-2 , n-k

拒絕 H

0

(52)

例子:成人年齡與血壓

(mmHg)

年齡 20 30 40 50 60 70 血 壓 102 110 108 120 115 118 112 126 119 120 135 130 120 150 146 148 138 140 160 155 159 150 總和 yi 320 465 365 529 722 624 ni 3 4 3 3 5 4

(53)

例子:成人年齡與血壓

(mmHg)

年齡 血 壓 90 100 110 120 130 140 150 160 170 0 10 20 30 40 50 60 70 80

(54)

例子:成人年齡與血壓

(mmHg)

2 2 2 2 2 2 2

23

3 20

4 70 1080

320

624 3025

1080

3 20

4 70

23

6486.9565

(1080)(3025)

20 320

70 624

23

6356.5217

(3025)

102

120

150

23

6619.7391

xx xy yy

n

x

y

S

S

S

 

 

  

 

 

  

 

 

(55)

例子:成人年齡與血壓

(mmHg)

2 2 2 2 1 1 1 2 2 2 2

(6356.5217)

6228.7096

6486.9565

6619.7391 6228.7096 391.0295

320

624

102

150

(

3

4

)

314.0333

SSLF=SSE+SSPF=391.0295-314.0.3333=76.9962

i xy xx yy n n k i ij i j i i

S

SSR

S

SSE

S

SSR

y

SSPE

y

n

   



(56)

變方分析表

變因 自由度 平方和 均方 F 值 迴歸 (R) 1 6228.7096 6228.7096 殘差 (E) (23-3=21) 391.0295 18.6025 欠合 (L) 6-2=4 76.9962 19.2491 1.0420 純誤差 (P) 23-6=17 314.0333 18.4725 總計 (T) 23-1=22 6619.7391 FLF = 1.0240 < F0.05 , 4 , 17 = 2.9647 無法拒絕 H

(57)

變方分析表

變因 自由度 平方和 均方 F 值 迴歸 ( 年齡 ) 1 6228.7096 6228.7096 334.5082 殘差 21 391.0295 18.6025 總計 (T) 22 6619.7391 F = 6228.7096 / 18.6205 = 334.5082 > F0.05 , 1 , 21 = 4.32478 迴歸係數≠ 0

(58)

例子:成人年齡與血壓

(mmHg)

0 2 6356.5217 0.9799 6486.9565 131.52174 (0.9799)(46.9565) 85.5094 0.9799mmHg 6228.7096 R 6619.7391 0.9409 0.9409 0.97 xy xx S b S b y bx r              年齡上升一歲 血壓上升

(59)

假定之確認

(Checking the Model Assumption

s)

同質變方

(Homogeneity of Variance)

殘差圖

– 殘差 v.s. 獨立變數 – 殘差 v.s. 預測值 殘差 v.s. 時間

殘差圖不能有任何規則性

蒼蠅在開會員大會無任何規則性

(60)

殘差

v.s. 獨立變數

Residual Residuals from a horizontal band Residual

(b) Decreasing erroe variance

Residuals fannel in Residual

(a) Increasing erroe variance Residuals fan out

(61)

獨立性 殘差

v.s. 時間

0 1 2 3 4 5 6 7 8 9 10 Error term Time Error term Time 0 1 2 3 4 5 6 7 8 9 10

(62)

有規則性的殘差圖

(1 ) (2 ) (3 )

(63)

常態性

(Normality)

Normal Probability Plot of the Residuals

-2 -1 0 1 2 300 200 100 0 -100 -200 -300 Normal Score R es id ua l

殘差百分位值 v.s. 標準常態之變數百分位值

(64)

總結

 直線相關係數  簡單直線回歸 – 最小平方法斜率與截距估算值與檢定變方分析法預測平均值及信賴區間假定確認直線性同質變方獨立性常態性

(65)

習題

參考文獻

相關文件

張意欣 女 財政部 國庫署副組長 輔仁大學統計學系

並以中科園區核准進駐事業單位中已建廠完成且投入實際生產的廠 商作為資料蒐集的基礎。 「行政院國家科學委員會」科學園區協調小組 公布資料指出,統計至 96 年 6

主辦單位:建國科技大學工程學院 (教學卓越計畫子計畫

Impact of Early Mobilization on Glycemic Control and ICU- Acquired Weakness in Critically Ill Patients Who Are Mechanically Ventilated. Am J Phys

C7 國立台中護理專科學校護理科 台中市 主任 C8 中臺科技大學老人照顧系 台中市 助理教授 C9 中山醫學大學公共衛生學系 台中市 助理教授 C10

Repeated Measure ANOVA / Friedman test McNemar test / Cochran’s Q

為此,國立中正大學防制藥物濫用教育中心與台灣藥物濫用防治研究學會,在教育部學生事 務及特殊教育司之支持下,將於 2019 年 10 月

巴斯德研究院(法語:Institut Pasteur)總部位於巴黎,是法國的一個私立的非營利研究 中心,致力於生物學、微生物學、疾病和疫苗的相關研究,其創建者巴斯德於