十一、簡單相關與簡單直線回歸分析
(Simpl
e Correlations and Simple Linear Regres
sion )
劉仁沛教授 國立台灣大學農藝學研究所生物統 計組 國家衛生研究院生物統計與生物資 訊組 [email protected] 例 1 :氮肥用量與水稻穀收量表 ( 公斤 ) 氮肥用量 x 0 0.5 1.0 1.5 2.0 2.5 稻穀收量 y 10 18 32 48 55 62 例 2 :成人年齡與血液中膽固醇的量 年齡 x 34 39 44 46 48 51 膽固醇 y(mg/m l) 141.4 180.5 178.4 212.0 203.2 224.1 年齡 x 53 6 61 65 66 67 膽固醇 y(mg/m l) 186.0 350.0 286.3 287.6 330.3 371.3 例 3 :年雨量與小麥產量 年雨量 ( 公厘 /2 0) 23.5 20.4 22.8 25.9 28.9 27.1 26.8 25.2 產量 ( 公斤 /10 20.4 23.0 33.5 35.8 44.6 41.2 45.4 39.0
年齡與膽固醇量的
Scatter Plot
(mg/ml )
年雨量與小麥產量的
Scatter Plot
( 公斤 /10 0)
探討兩個變數之間的關係
問題: 兩個變數間是否存在直線關係? 將直線關係以方程式表示 資料型態 ( xi , yi ) 假定 (Assumption) 1. 每對資料均為獨立 2. 常態 3. 相同變方 4. X 與 Y 的關係為直線
簡單關係數
(Simple correlation coefficient)
簡單直線回歸
(Simple Linear Regression)
模式建立之推論
(Models and Inference)
回歸模式直線性檢定
(Evaluation of Linearity)
Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ μχ μχ μχ μy μy μy y (a) ρ> 0 正相關 (b) ρ< 0 負相關 (c) ρ= 0 無相關 圖 11.8b 三種不同族群相關散播圖
象限
(χ-μχ) (y-μy) (χ-μχ) (y-μy)Ⅰ
+
+
+
Ⅱ
-
+
-Ⅲ
-
-
+
-
正相關:落在第Ⅰ及Ⅲ象限的點數
> 落在第
Ⅱ及Ⅳ象限的點數
負相關:落在第Ⅰ及Ⅲ象限的點數
< 落在第
Ⅱ及Ⅳ象限的點數
無相關:落在第Ⅰ及Ⅲ象限的點數
= 落在第
Ⅱ及Ⅳ象限的點數
族群簡單相關係數:
(x
1,y
1) …(x
N,y
N)
N i X i Y i 1 N N 2 2 i X i Y i 1 i 1(X -
)(Y -
)
(X -
)
(Y -
)
,-1<ρ<1
樣品簡單相關係數
樣品資料:
(x
1,y
1), …, (x
n,y
n)
乘積和:
X 平方和:
Y 平方和:
1 1 1 1 2 2 2 1 1 1 2 2 2 1 1 1 ( )( ) ( )( ) ( ) ( ) ( ) ( ) n n i i n n i i xy i i i i i i n i n n i xx i i i i n i n n i yy i i i i x y S x x y y x y n x S x x x n y S y y y n 1 2 2 ( )( ) ( ) ( ) n i i xy i n n xx yy i i x x y y S r S S x x y y
, r 之範圍: 1 ≦ r ≦-1x y r = 1 x y r = -1 (a) 完全正相 關 (b) 完全負相 關
(a) 不完全正相關 (b) 不完全負相關 x y 0 < r < 1 x y -1 < r < 0
x y r = 0 x y r = 0 (a) 無相關 (b) 曲線關系
簡單相關係數顯著性檢定
H
0:
ρ= 0 v.s. H
a:
ρ≠ 0
顯著水準:
α
檢定統計值:
2 2 2 1 1 ( 2) r n T r r r n 決策方法:
若|
T | >t
α/2,
n-2拒絕
H
0例:雨量與小麥產量
n=8, Σxi=200.5, Σyi=296.5 2 2 2 2 2 2 2 (200.5) 23.5 25.2 8 51.8988 (296.5) 34.0 39.0 8 368.6188 (200.5)(296.5) (23.5)(34.0) (25.2)(39.0) 8 129.2688 51.8988 0.9346 (368.6188)(129.2688) 2 8 2 0.9346 1 1 0.934 xx yy xy xy xx yy S S S S r S S n T r r 2 0.025,6 0 6.436 6 6.346 2.447 H T t 拒 拒簡單直線回歸
(Simple Linear Regressio
n)
水稻穀產量 (y) 與氮肥用量 (x) 可以用直線關係描述 yi=β0+βxi, i=1, …,6(=n) y i:依變數 (Dependent variable) x i:獨立 ( 自 ) 變數 (Independent variable) β0:截距 (Intercept) x=0 時 y 的值 β :斜率 (Slope) x 變動一個單位 y 變動的量 但實際觀測值與直線 y=β+βx 有差距 原因:環境、實驗誤差、量測誤差及其他原因 yi=β0+βxi+εi, i=1, …,6(=n) εi:誤差 (Error) 或殘差 (Residual)The Simple Linear Regression Model
(Here β
1> 0)
x
y-intercept One-unit change in xSlope = β1 Mean value of y when x equals x0 An observed value of y when x equals x0
y
β00
Error termStraight line defined b y the equation
μy x∣ =β0+β1x
x0= A specific value of the independent variable x
假定
(Assumptions) :
獨立性
(Independent)
常態性
(Normality)
直線關係
(Linearity)
相同變方
(homogeneity of Variance)
無數條直線可描述
X 與 Y 的關係
選擇直線的方法:
最小平方法
(Least Squares Method)
y
ix
i ˆ 9.68 22.11 y x e1 e2 e3 e4 e6 e5 圖 11.4 回歸直線與殘差圖最小平方法
0 2 0 2 0 i=1 0 (Residual): = ( ) = F= ( ) i i i i n i i y x y x y x
殘差 觀測值與迴歸直線垂直距離 垂直距離平方 殘差平方 垂直距離平方和 殘差平方和 最小平方法 觀測值與迴歸直線垂直距離平方和為最小之斜率與截距 對 及 進行偏微分
0 i 0 0 iF
= -2
(y
) 0
F
= -2
(y
)
0
i i ix
x x
正常方程式 (Normal Equations)
0 2 0 i i i i i in
x
y
x
x
x y
2 0 0(
)(
)
(
)
ˆ
ˆ
(
)
1
xy i i i xx i o i i i i i iS
x
x y
y
b
x
x
S
b
y bx
y
b
bx
y
y
y
b bx
i
n
斜率估算值
截距估算值
推測直線回歸方程式
( Predicted Linear Regression Equations)
殘差估算值
為當獨立之變數為 xi 時依 變數之最小平方推測平均值ˆ
iy
計算推測直線回歸方程式
所需統計值
2 2 2 2 2 2 2 2 12 52.8333 240.825 34 39 67 (12)(52.8333) 1337.6667 (34)(141.4) (39)(180.5) (67)(311.3) (12)(52.8333)(240.925) 7558.15 141.4 180.5 311.3 (12)(240.925) 52100.7825 755 xx xy yy xy xx n x y S S S S b S 0 8.1500 5.65025 1337.6667 240.925 (5.65025)(52.8333) 57.5963 ˆ 57.5963 5.65025 b y x xx xy yyn x y S
S
S
例:成人年齡與血液膽固醇含量假定
獨立性
常態性
直線關係
相關變方
– 殘差 εi為常態分布 – 族群平均值為 0 – 族群變方為 σ2An Illustration of the Model Assumptions
y
32.5 45.9 X
The straight line defined by th e equation μy x ∣ =β0+ β1x (the li ne of means) Population of y values when x=45.9 Population of y values when x=32.5
12.4=Observed value of y when x=32.5
The mean fuel consumption when x=32.5 The mean fuel consumption
when x=45.9
9.4=Observed value of y when x=45.9
σ
2之估算
殘差估算值
殘差估算值平方
殘差
( 估算值 ) 平方和
估算殘差值時必須先計算
b
0和
b
SSE 之自由度為 n-2
ˆ
iy
iy
ˆ
i
2 2ˆ
i(
y
iy
ˆ
i)
2 2 1 1 2 0 1 ˆ ( ˆ ) ( ) n n i i i i i n i x yy xy i SSE y y y b b S bS
2 ˆ SSE / n 2 MSE 斜率與截距變方之估計
2 2 2 0 2ˆ
ˆ( )
1
(
)
(
)
1
(
)
xx xx xxMSE
v b
S
S
x
v b
n
S
x
MSE
n
S
例 成人年齡與膽固醇
2 2 2 2 2 0 52100.7825 (5.65025)(7558.15) 9395.3455 9395.3455 ˆ ( 2) 12 2 939.53455 ˆ 935.53455 ˆ( ) 1337.6667 0.6994 1 1 52.8333 ( ) 939.53455 12 1337.6667 yy xy xx xx SSE S bS SSE MSE n v b S x v b n S斜率
H0: β=0 V.S. Ha: β≠0 顯著水準 α 檢定統計值 (Test statistic) ˆ( ) xx b b T v b MSE S 決策方法 若| Tβ| >tα/2,n-2 拒絕 H0 β 之 (1-α) %信賴區間 2 2 2 2 ˆ( ) n n xx b t v b MSE b t S , ,截距
H0: β0=0 V.S. Ha: β0≠0 顯著水準 α 檢定統計值 (Test statistic) 0 0 0 2 0 ˆ( ) 1 xx b b T v b x MSE n S 決策方法 若|Tβ0|>tα/2,n-2 拒絕 H0 β0之(1-α) %信賴區間 0 2 0 2 2 0 2 ˆ( ) 1 n n b t v b x b t MSE n S , ,例:成人體重與膽固醇
斜率 H0: β=0 V.S. Ha: β≠0 α = 0.05 5.65025 6.7419 ˆ( ) 0.6994 b T v b | Tβ|= 6.7419 > t0.025,10= 2.228,
拒絕 H0 β 之 95 %信賴區間
2 2 ˆ( ) 5.65025 2.228 0.6994 3.78527, 7.51973 n b t v b ,例:成人體重與膽固醇
截距 H0: β0=0 V.S. Ha: β0≠0 α = 0.05 | Tβ0|= 1.2756 < t0.025,10= 2.228 β0 之 95 %信賴區間
0 2 2 ˆ( ) 57.5903 2.228 2038.9553 158.1987, 43.0061 n b t v b , 0 0 0 57.5963 1.2756 ˆ( ) 2038.8553 b T v b 回歸變方分析表
總變異 可由 x 解釋之變 異 不可由 x 解釋之變 異 獨立變數 X Y y 0 ˆ x y b b
2 2 2 1 1 1(y
) (
)
(
)
(
)
(
)
i i i i n n n i i i i i i iy y
y
y y
y y
y y
y y
總變異=可由 x 所解釋變異 + 不可由 x 解釋變異 總平方和=回歸平方和 + 殘差平方和 SST=SSR+SSE Syy=bSxy+(Syy-bSxy) 自由度: n-1=1+(n-2)迴歸變方平方和
變因 自由度 平方和 均方 F 值 迴歸 1 SSR =b×Sxy MSR =SSR/1 MSR/MSE 殘差 n-2 SSE =SST-SSR MSE =SSE/(N-2) 總計 n-1 SST2 2 2
(
)
xy xy xx xx xx xxbS
MSR
F
MSE
MSE
S
b
S
S
MSE
b S
MSE
b
MSE
S
t
例:成人年齡與膽固醇
SST = Syy = 54001.7825 SSR = b × Sxy=(5.65025) ×(7558.15) =42705.4370 SSE = SST - SSR =51000.7825-42705.4370 =9395.3455 ANOVA 表 變因 自由度 平方和 均方 F 迴歸 1 42705.4370 42705.4370 45.4538 殘差 10 9395.3455 939.53455 總計 11 52100.7825決定係數
(Coefficient of Determination)
R
2= 決定係數
= 可由獨立變數解釋之變異 總變異
= SSR / SST
0 < R
2< 1
當只有一個獨立變數時
R
2= ( 相關係數 )
2=n
2例:成人體重與膽固醇
F = 420705.4370 / 939.53455
= 45.4530 , F
0.05,10=4.9646 拒絕 H
0F = 45.4530 = (6.7419)
2=(T
β)
2R
2= SSR / SST
=42705.4370 / 52100.7825
=0.8197
=(0.9054)
20 0 0 0 0 0 0 2 0 0 0 2 0 0 , 2 2
ˆ
(
)
1
ˆ
( )
(1- )%
(
)
1
ˆ
xx nx
y
x
y
b
bx
x
x
V y
MSE
n
S
y
x
x
y
t
MSE
n
S
,
當獨立變數為 時 依變數分佈平均值為
其估計值為
其估算變方為
之
信賴區間
0 0 0 0 2 0 0 0 2 0 0 , 2 2
ˆ
(
)
1
ˆ
( )
1+
(1- )%
(
)
1
ˆ
1+
xx n xxx
y
b
bx
x
x
V y
MSE
n
S
y
x
x
y
t
MSE
n
S
,
當獨立變數為 時 任一依變數觀測值
仍然為
但其估算變方為
之
信賴區間
例:成人年齡與膽固醇
年齡為
55 歲之膽固醇分佈平均值的估算值
55ˆ
57.5963 (5.65025)(55)
253.16745
y
95 %信賴區間
2 0 55 ,10 2 2 ( ) 1 ˆ ( ) 1 (55 52.8333) 253.16745 2.28 939.53455 12 13.376667 253.16745 20.125 xx x x y t MSE n S 例:成人年齡與膽固醇
年齡為
55 歲之膽固醇的觀測值
55ˆ
57.5963 (5.65025)(55)
253.16745
y
95 %信賴區間
2 0 55 ,10 2 2 ( ) 1 ˆ (1 ) 1 (55 52.8333) 253.16745 2.28 939.53455 1 12 13.376667 253.16745 71.1960 181.97156,324.36345 xx x x y t MSE n S 0
ˆy
直線性檢定
(Test for Linearity)
獨立變數 依 變 數 ( 重 複 ) 平均 重複數 1 2 1 2 4 11 21 1 12 22 2 1 2 1 2 1 2 k k k n n kn k kx
x
x
y
y
y
y
y
y
y
y
y
y
y
y
n
n
n
獨立變數下的依變數必須有重複
直線性檢定
(Test for Linearily)
i i n n 2 2 2i=1 j=1 i=1 j=1 i=1
( ) ( ) = + ( ) ( ) ( ) + SSE=SSPE+SSLF 2 ( ) ( 2)
殘差 組內偏差 偏離直線迴歸 = 殘差平方和 純誤差平方和 欠合平方和 自由度 ij i ij i i i k k k ij i ij i i i i y y y y y y y y y y n y y n n k k PE Pure Error LF Lack of Fit1 1 1 1 2 2 1 1 1 2 2 1 1 2 1 ( )( ) ( ) i i i i i n n k k i ij i ij i i i j j i k xx i i i n k xy i ij i j n k yy ij i j xy xx xy n ij i i j n n y y y y x n x y x y x n n x S n x n x y S x y n y SST S y n S b S b y bx SSR b S SSE SST SSR SSPE y y
2 2 1 1 1 1 SSLF=SSE+SSPF i n n n k i ij i j i i y y n
變方分析表
變因 自由度 平方和 均方 F 值 迴歸 1 SSR = b . Sxy MSR 殘差 n-2 SSE = Syy-b . Sxy MSE 欠合 k-2 SSLF = SSE - SSPE MSLF = SSLF / k-2 MSLF MSPE 純誤差 n-k SSPE = MSPE= SSPE / n-k
總計 n-1 SST = Syy 2 2 1 1 1 n ni k i ij i j i i y y n
直線性檢定
(Test for Linearity)
H
0:符合直線假定
v.s.
H
a:不符合直線假定
顯定水準:
α
決策方法:
F
LF=MSLF / MSPE > F
α , k-2 , n-k拒絕 H
0例子:成人年齡與血壓
(mmHg)
年齡 20 30 40 50 60 70 血 壓 102 110 108 120 115 118 112 126 119 120 135 130 120 150 146 148 138 140 160 155 159 150 總和 yi 320 465 365 529 722 624 ni 3 4 3 3 5 4例子:成人年齡與血壓
(mmHg)
年齡 血 壓 90 100 110 120 130 140 150 160 170 0 10 20 30 40 50 60 70 80例子:成人年齡與血壓
(mmHg)
2 2 2 2 2 2 223
3 20
4 70 1080
320
624 3025
1080
3 20
4 70
23
6486.9565
(1080)(3025)
20 320
70 624
23
6356.5217
(3025)
102
120
150
23
6619.7391
xx xy yyn
x
y
S
S
S
例子:成人年齡與血壓
(mmHg)
2 2 2 2 1 1 1 2 2 2 2(6356.5217)
6228.7096
6486.9565
6619.7391 6228.7096 391.0295
320
624
102
150
(
3
4
)
314.0333
SSLF=SSE+SSPF=391.0295-314.0.3333=76.9962
i xy xx yy n n k i ij i j i iS
SSR
S
SSE
S
SSR
y
SSPE
y
n
變方分析表
變因 自由度 平方和 均方 F 值 迴歸 (R) 1 6228.7096 6228.7096 殘差 (E) (23-3=21) 391.0295 18.6025 欠合 (L) 6-2=4 76.9962 19.2491 1.0420 純誤差 (P) 23-6=17 314.0333 18.4725 總計 (T) 23-1=22 6619.7391 FLF = 1.0240 < F0.05 , 4 , 17 = 2.9647 無法拒絕 H變方分析表
變因 自由度 平方和 均方 F 值 迴歸 ( 年齡 ) 1 6228.7096 6228.7096 334.5082 殘差 21 391.0295 18.6025 總計 (T) 22 6619.7391 F = 6228.7096 / 18.6205 = 334.5082 > F0.05 , 1 , 21 = 4.32478 迴歸係數≠ 0例子:成人年齡與血壓
(mmHg)
0 2 6356.5217 0.9799 6486.9565 131.52174 (0.9799)(46.9565) 85.5094 0.9799mmHg 6228.7096 R 6619.7391 0.9409 0.9409 0.97 xy xx S b S b y bx r 年齡上升一歲 血壓上升
假定之確認
(Checking the Model Assumption
s)
同質變方
(Homogeneity of Variance)
殘差圖
– 殘差 v.s. 獨立變數 – 殘差 v.s. 預測值 殘差 v.s. 時間殘差圖不能有任何規則性
蒼蠅在開會員大會無任何規則性
殘差
v.s. 獨立變數
Residual Residuals from a horizontal band Residual
(b) Decreasing erroe variance
Residuals fannel in Residual
(a) Increasing erroe variance Residuals fan out
獨立性 殘差
v.s. 時間
0 1 2 3 4 5 6 7 8 9 10 Error term Time Error term Time 0 1 2 3 4 5 6 7 8 9 10有規則性的殘差圖
(1 ) (2 ) (3 )常態性
(Normality)
Normal Probability Plot of the Residuals
-2 -1 0 1 2 300 200 100 0 -100 -200 -300 Normal Score R es id ua l