154
右圖
1是將玉山觀測站提供的
2017年與
2018年每月氣溫畫成折線圖,從圖中似乎能
看出這兩年的每月氣溫有一些相關性,但不十
分明確。
本單元將介紹另一種展現兩變量關聯性的
圖形,並引進一個客觀的量化數據來衡量兩變
量的相關程度。
二維數據分析
9
▲
圖1
甲
散布圖
當我們蒐集了兩個變量
x與
y的
n筆數據`
x y1,
1j,
y
2, 2
x
` j,
g , `
xn,
ynj時,將
每一個序對`
x yi,
ij表示成
xy坐標平面上的點,這樣所得的圖形稱為散布圖。散
布圖最常用來展現兩個變量之間是否有關聯,以下面例題說明。
醫生統計六位病患的咳嗽週數
x(週)與肺結核自評分數y(分)如下表。
民眾 甲 乙 丙 丁 戊 己
x(週) 2 1 4 5 4 2
y(分) 3 3 5 6 2 5
繪出此數據的散布圖。
例題
1
9
二維數據分析
155
解
以
x為橫軸,y為縱軸,數據的散布圖如下圖。
從散布圖中可觀察出兩變量
x與
y之間的相關情形,說明如下:
▲
圖2
(a)正相關 (b)負相關
1 觀察圖2(a),散布圖中各點的分布有左下往右上的趨勢,即當
x增加時,y也
有增加的趨勢,這是兩變量
x與
y呈現正相關的觀念。
2 觀察圖2(b),散布圖中各點的分布有左上往右下的趨勢,即當
x增加時,y卻
有減少的趨勢,這是兩變量
x與
y呈現負相關的觀念。
3 當x與
y沒有以上趨勢時,兩變量
x與
y呈現零相關。此時散布圖中的各點可
能為上下左右對稱狀態,也可能完全落在平行
x軸或平行
y軸的直線上,如圖
3所示。
▲
圖3 零相關
156
右圖是20位高中生體重
x (公斤)與身高 y
( 公 分 ) 的 散 布 圖 。 判 斷 這 兩 變 量 是 正 相
關、負相關或零相關。
隨堂練習
乙
相關係數
由散布圖可以約略觀察出兩個變量之間的關係,但只透過散布圖,有時很難
判斷兩變量相關程度的高低。例如圖4的四個散布圖可以看出都有左下到右上的
趨勢,雖然容易判定(a)的相關程度最低,(d)的相關程度最高,但(b)與(c)就很
難分出高低了。
▲
圖4
(a) (b) (c) (d)
因此,我們需要一個較客觀的量化數據來衡量兩變量的相關程度,其中最常
用的數據就是相關係數,為了方便說明,我們先以5筆數據為例,但整個過程
仍適用於多筆數據的情形。已知兩變量
x與
y的5筆數據如下表。
x 1 4 5 7 13
y 6 18 42 45 54
可得
x,y的平均數與標準差分別為
6
x
n = , v = ,x 4
n =y 33,
v =y 18。
9
二維數據分析
157
1 首先,我們將數據標準化(也就是將原數據_
x y, i轉換成平均數為0,標準差
為1的新數據_
x yl, li),如下表所示。
x
x x x
v
n
=
-l
4
5
-2
1
-4
1
-4
1
4
7
y
y
y y
v
n
=
-l
2
3
-6
5
-2
1
3
2
6
7
如此一來,可以減少不同測量單位的數據對圖形的影響,也使數據的分布情
形更加明顯。在原始數據的散布圖(如圖5(a)
所示),x與
y的分布似乎成一
鉛直線,當數據標準化之後(如圖5(b)所示),較能清楚看出其分布情形。
▲
圖5
(a) (b) (c)
2 接著,在數據標準化後的散布圖上之各點分別作水平線與鉛直線和 xl 軸與 yl
軸形成矩形,如圖5 (c )
所示。此時,第一、三象限內各點的 x yil l 乘積皆為
i
正,恰等於各矩形面積;而第二、四象限內各點的 x yil l 乘積皆為負,恰與各
i
矩形面積互為相反數,如下表所示。
,
x yl l
_ i 4,
5
2
3
-
-e o
第三象限
,
2
1
6
5
-
-e o
第三象限
,
4
1
2
1
-e o
第二象限
,
4
1
3
2
e o
第一象限
,
4
7
6
7
e o
第一象限
x yl l乘積
8
15
12
5
8
1
-6
1
24
49
矩形面積
8
15
12
5
8
1
6
1
24
49
158
而這些 x yi il l 乘積的總和
8
15
12
5
6
1
24
49
8
15
12
5
6
1
24
49
8
1
8
1
+ - + + =e + + + o-e o
恰為
(第一、三象限的矩形面積和)
-(第二、四象限的矩形面積和)。
3 最後,為了消弭點的數目對 x yi il l 乘積的總和之影響,我們再將它除以數據個數
5,定義相關係數為
r
5
8
15
12
5
6
1
24
49
8
1
=
+ + +
-e o e o
。
由上例的觀察,我們歸納以下的事實:
1 當標準化後的點多半集中於第一、三象限時,
(第一、三象限的矩形面積和)2(第二、四象限的矩形面積和),
即 x yi il l 乘積的總和為正值,因此相關係數 r2 。0
2 當標準化後的點多半集中於第二、四象限時,
(第一、三象限的矩形面積和)1(第二、四象限的矩形面積和),
即 x yi il l 乘積的總和為負值,因此相關係數 r1 。0
一般而言,設兩變量 x 與 y 的 n 筆數據為`
x y1,
1j, `
x2,
y2j,g ,`
xn,
ynj,且
x
與
y的平均數分別為
x
n , n ,標準差分別為y v ,x v 。仿照以上的作法:y
1 首先,將數據`x yi,
ij標準化為
`x yl
i, l
ij,其中
x
x
x
i
i x
v
n
=
-l
,
y
y
y
i
i y
v
n
=
-l 。
2 接著,求各點 x yi il l 乘積的總和 x y1 1l l+
x y2 2l l+g+
x yn nl l 。
3 最後,將各點 x yi il l 乘積的總和除以數據個數
n,定義相關係數為
r
n
x y1 1 x y2 2 g
x yn n
= + + +
l l l l l l
;
再將
x
x
x
i
i x
v
n
=
-l ,
y
y
y
i
i y
v
n
=
-l 代入,可得
9
二維數據分析
159
y y
x x x
r
n
x y x y x y
x y x
y
y n x n y
1 1 2 2
g
v
n
v
n
v
n
v
n
v
n
v
n
=
-
-+
-+ +
-J
L
KK
KK
KK
J
L
KK
KK
KK
J
L
KK
KK
KK
f
N
f
f
P
OO
OO
OO
N
P
OO
OO
OO
N
P
OO
OO
OO
p
p
p
y
x
n
x1 x y1 y x2 x y2 y g xn x yn y
v v
n n n n n n
=
- -
+ - -
+ + -
-` ja k ` ja k ` ja k
。
將以上結論整理如下。
設兩變量
x與
y的
n筆數據為
1, 1
x y
` j, `
x2,
y2j,g , `
xn,
ynj,且
x與
y的平
均數分別為
x
n , n ,標準差分別為y v ,x v 。定義兩變量y x與
y的相關係
數為
x y
r
n
x y x y n x n y
1 1 2 2 g
v v
=
+ + +
x -
n y -
n x -
n y -
n x -
n y -
n
` ja k ` ja k ` ja k
。
相關係數的定義
以下我們導出相關係數的另一公式。令
Sxy=`
x1-
nxja
y1-
nyk+g+`
xn-
nxja
yn-
nyk,
Sxx=`
x1-
nxj2+g+`
xn-
nxj ,2
Syy 1 y n y
2 2
g
=a
y -
n k + +a
y -
n k ,
則標準差
v 與x v 可改寫為y
g
+ +
n n
S
1
x x n x
xx
1
2 2
v = c`
x -
n j `
x -
n j m = ,
g
+ +
y
n n
S
1
y n y
yy
1
2 2
v = da
y -
n k a
y -
n k n= 。
160
代入相關係數的定義,得
r
n
n
n
S
n
S
S
S S
S
x y
x y n x n y
xx yy
xy
xx yy
xy
1 1
: :
:
g
v v
=
+ +
= =
x -
n y -
n x -
n y -
n
` ja k ` ja k
。
將兩變量x與y的相關係數之計算公式整理如下。
設兩變量
x與
y的
n筆數據為`
x y1,
1j
, `
x2,
y2j
, g, `
xn,
ynj,其相關係數
r
S S
S
xx yy
xy
:
= 。
相關係數的計算公式
為了簡化及方便計算,可以搭配表格來計算兩變量的相關係數。
兩變量
x與
y的數據如下表。
x 1 2 3 4 5
y 4 5 3 1 2
1 繪出x與
y的散布圖。
2 求x與
y的相關係數。
解
1 兩變量x與
y的散布圖如下圖。
例題
2
9
二維數據分析
161
2 兩變量x與y的平均數分別為
5
1 2 3 4 5
3
x
n = + + + + = ,
5
4 5 3 1 2
3
y
n = + + + + = 。
依公式需要整理如下表。
x-
nx y-
ny `
x-
nxj2
y
2
y-
n
a k `
x-
nxja
y-
nyk
-2 1 4 1
-2
-1 2 1 4
-2
0 0 0 0 0
1
-2 1 4
-2
2
-1 4 1
-2
總和
Sxx=10
Syy= 10
Sxy=-8
代入相關係數的計算公式,得
.
r
S S
S
10
8
0 8
10 10
8
xx yy
xy
: #
= = - =- =- 。
兩變量
x與
y的數據如下表。
x 2 3 6 10 14
y 1 8 3 7 11
1 繪出x與
y的散布圖。
2 求x與
y的相關係數。
隨堂練習
我們來計算某種特別情形下的相關係數。
162
兩變量
x與
y的數據如下表。
x 2 4 6 8 10
y 1 2 3 4 5
1 繪出x與
y的散布圖。
2 求x與
y的相關係數。
解
1 兩變量x與
y的散布圖如下圖。
2 兩變量x與
y的平均數分別為
5
2 4 6 8 10
6
x
n = + + + + = ,
5
1 2 3 4 5
3
y
n = + + + + = 。
依公式需要整理如下表。
x-
nx y-
ny
x
2
x-
n
` j a
y-
nyk2 `
x-
nxja
y-
nyk
-4 -2 16 4 8
-2 -1 4 1 2
0 0 0 0 0
2 1 4 1 2
4 2 16 4 8
總和
Sxx=40
Syy=10
Sxy=20
代入相關係數的計算公式,得
r
S S
S
20
20
1
40 10
20
xx yy
xy
: #
= = = = 。
例題
3
164
上述相關係數性質的證明,請見附錄。當 r 愈接近1時,相關程度愈高;
當 r 愈接近0時,相關程度愈低。而且
1 當 r=1時,散布圖中各點恰落在一條斜率為正的直線上,稱為完全正相關。
2 當 r=-1時,散布圖中各點 恰落在一條斜率為負的直線上,稱為完全負相
關。
隨堂練習
將下列各散布圖的相關係數 r1,
r2,
r3,
r4由大到小排列。
相關係數已被廣泛地應用在各類研究報告中,如「吸菸量與罹肺癌率」、
「腰圍與心血管疾病發生率」均為正相關的例子,而「玩手機遊戲時數與學業成
績」、「水果產量與市場價格」則呈現負相關。另外,當兩變量的相關係數很高
時,我們經常會認為兩者之間存在「因果關係」,但是事實上卻未必如此。例如
在「咖啡因攝取量與心臟病罹患率」的研究中,即使得到很高的相關係數,也不
能作成「喝咖啡容易得心臟病」的推論,相關係數只顯現兩變量之間的線性關係
程度的高低。
丙
最小平方法與迴歸直線
當散布圖顯示出兩變數
x與
y之間有很強的直線相關時,可以在散布圖中畫
一條直線,如圖7(a)所示,此時,要怎麼求這條直線呢?最小平方法就是一種
找出這條直線之方法,並稱此直線為
y對
x的迴歸直線(或稱最佳直線)。
9
二維數據分析
165
▲
圖7
(a) (b)
最小平方法的作法是:
找出直線
L使得圖7
(b)中所有綠色的鉛垂線段長度的平方和最小。
我們舉以下的數據來說明。
x 0 1 -1
y 1 2 -3
設
y對
x的迴歸直線為 :
L y=
mx+
k,欲求係數
m 及
k,使得此三筆數據_
x y, i到
L的鉛垂線段長度的平方
和
Q有最小值。因為
Q=_^
m#0+
kh-1i2+_^
m+
kh-2i2+ -_^
m+
kh- -^ 3hi2
m m k
2 2 10 3 2 14
= - + +
m k
2
2
5
3
2
3
2
2
= e - o + + ,
所以當 m
2
5
= ,
k = 時,Q0 有最小值
2
3
。故
y對
x的迴歸直線為
y x
2
5
= 。
值得注意的是:上例兩變量
x與
y的平均數分別為
n = ,x 0
n = ,且其迴y 0
歸直線方程式 :
L y x
2
5
= 是一條通過點`
n n =x,
yj
_0 0, i的直線。
一般而言,給定兩變量
x與
y,設其平均數分別為n ,x n ,標準差分別為y
x
v , v ,且其相關係數為y r。仿照最小平方法(推導過程計算較為複雜,在此暫
不討論),就可以得到
x與
y的迴歸直線為
▲
圖8
166
y
y y r
x x
:
n
v
v
- = `
x-
n j ,
其中,利用
r與
v 的定義也可以將x
x
y
r :
v
v
改寫為
x
y
r
S
S
x n x
x y n x n y
xx
xy
1
2 2
1 1
:
g
g
v
v
=
+ +
+ +
=
x x
x y x y
n n
n n n n
-
-- - -
-`
`
a `
`
a
j
j
k j
j
k
。
最後,將迴歸直線的方程式整理如下。
設兩變量
x與
y的
n筆數據為`
x y1,
1j, `
x2,
y2j,
g ,`xn,
ynj,其相關係數為
r。變量y對
x的迴歸直線方程式為
x
y ny r:
y x
v
v
- = `
x-
n j 或 y
S
S
y
xx
xy
x
n
- = `
x-
n j 。
迴歸直線的方程式
由點斜式可知:變量
y對
x的迴歸直線方程式是一條通過點
`nx,nyj ,且其
斜率為
x
y
r
S
S
xx
xy
:
v
v
= 的直線。
當給定數據
x與
y時,可以搭配表格找出變量
y對
x的迴歸直線方程式。
老師注意到申請入學考生的筆試成績似乎與其口試成績有關,因此隨機
選了5位考生,其筆試與口試成績如下表。
考生 甲 乙 丙 丁 戊
筆試成績
x(分) 5 5 4 7 9
口試成績
y(分) 3 1 4 3 9
1 求x與
y的相關係數。
2 求y對
x的迴歸直線方程式。
例題
4
9
二維數據分析
167
解
兩變量x與y的平均數分別為
5
5 5 4 7 9
6
x
n = + + + + = ,
5
3 1 4 3 9
4
y
n = + + + + = 。
依公式需要整理如下表。
x-
nx y-
ny `
x-
nxj2
y
2
y-
n
a k `
x-
nxja
y-
nyk
-1 -1 1 1 1
-1 -3 1 9 3
-2 0 4 0 0
1
-1 1 1
-1
3 5 9 25 15
總和
S 16
xx=
Syy=36
Sxy= 18
1 代入相關係數的計算公式,得
.
r
S S
S
16 36
18
4
3
0 75
xx yy
xy
: #
= = = = 。
2 代入迴歸直線方程式 y
S
S
y
xx
xy
x
n
- = `
x-
n j ,得
y 4
x 6
16
18
- = ^ - h ,
即
y x
8
9
4
11
= - 。
168
把例題4的散布圖與迴歸直線
L畫出,如圖9所示。這條直線和你原先所預
期的是否符合呢?
▲
圖9
隨堂練習
考古學家發現四塊鳥類化石,其兩變量趾骨長度
x(吋)與肱骨長度y
(吋)的測量值如下表。
x 1 3 5 7
y 8 4 5 11
1 求x與
y的相關係數。
2 求y對
x的迴歸直線方程式。
統計學中經常以迴歸直線方程式為模型,當給定
x(或y)的值時,計算對
應的
y(或x)值,來作為預測與決策的依據。
飲料店調閱上個月某四天的當日最高氣溫
x( Cc
)與銷售金額
y(千元)
如下表。
最高氣溫
x 33 31 29 27
銷售金額
y 14 12 8 10
1 求y對
x的迴歸直線方程式。
2 利用迴歸直線預測:當最高氣溫為35cC時,銷售金額為多少元?
例題
5
9
二維數據分析
169
某機構研究六位成人的EQ(情緒商數)測驗
x與職場成就測驗
y的分數
如下表。
成人代號 甲 乙 丙 丁 戊 己
得分
x 5 6 8 9 9 11
y 5 8 8 12 13 14
1 求y對
x的迴歸直線方程式。
2 利用迴歸直線預測:當EQ測驗分數為10分時,預測職場成就測驗的
分數。
隨堂練習
解
1 兩變量x與
y的平均數分別為
4
33 31 29 27
30
x
n = + + + = ,
4
14 12 8 10
11
y
n = + + + = 。
依公式需要整理如下表。
x-
nx y-
ny `
x-
nxj2
x y
x-
n y-
n
` ja k
3 3 9 9
1 1 1 1
-1 -3 1 3
-3 -1 9 3
總和
Sxx=20
Sxy=16
代入
y對
x的迴歸直線 y
S
S
y
xx
xy
x
n
- = `
x-
n j ,得
y 11
x 30
20
16
- = ^ - h ,
即
y x
5
4
13
= - 。
2 將 x=35
代入 y x
5
4
13
= -
,得 y
5
4
35 13 15
#
= - = 。
故當最高氣溫為35cC時,預測的銷售金額為15(千元)。
170
由上述可知:迴歸直線方程式與兩變量的平均數、標準差及相關係數有密切
的關係。
已知變量
x的平均數
n = ,標準差x 6
v = ;變量x 3
y的平均數 9
y
n = ,標
準差
v = ,且y 5
x與
y的相關係數為-0 8. ,求
y對
x的迴歸直線方程式。
解
因為迴歸直線的斜率為
x
.
r 0 8
3
5
3
4
y
: #
v
v
= -^ h =- ,且必過點`
n nx,
yj=_6 9, i,
所以利用點斜式,得
y 9
x
3
4
6
- =- ^ - h ,
整理得迴歸直線方程式為 y x
3
4
17
=- + 。
例題
6
有 一 組 數 據`
x yi,
ij,
i=1 2 g, , ,
n , 其 中
x , y 的 平 均 數 分 別 為
n = 和x 3
2
y
n = ,且x,y的標準差分別為
v = 和x 5
v = 。已知點y 8 _6 4, i在
y對
x
的迴歸直線上,求
x與
y的相關係數。
隨堂練習
本單元為教學計算方便,只處理少數數據資料
x與
y的散布圖、相關係數與
y對
x的迴歸直線,作為熟悉理論的練習過程。當數據資料繁多時,可以使用計
算機或電腦軟體來輔助計算。最後,利用電腦軟體來看引言中所提及的數據。
9
二維數據分析
171
玉山觀測站提供的2017年每月氣溫
x( Cc
)與2018年每月氣溫
y( Cc
)
如下表。
月份 1 2 3 4 5 6 7 8 9 10 11 12
2017年氣溫
x 1.6 0.1 0.3 3.4 5.4 7.6 8.5 9.2 9.7 8.3 5
2.1
2018年氣溫
y 0.5 -0.3 1.4 4.8 8
8.3 7.6 7.2 7.1 4.8 4.4 5.1
利用電腦軟體Excel,求
1 這兩年氣溫的相關係數。(四捨五入到小數點以下第1位)
2 y對
x的迴歸直線方程式。
解
1 如下圖所示。
1
將題目中的月份、2017年氣溫與2018年氣溫分別輸入Excel的A
欄、B欄與C欄。
2
在欲顯示相關係數的儲存格輸入
=CORREL(B2:B13,C2:C13),
即計算儲存格B2:B13和C2:C13的相關係數。
故這兩年氣溫的相關係數為
0.8。
例題
7
175
兩組資料A與B的散布圖與相關係數如下圖所示。
下列哪一個選項最可能是資料C散布圖的相關係數?
1 -1 1. 2 -0 8. 3-0 4. 4
0.2 5
0.4。
七位同學的性向測驗
x與成就測驗
y的成績如下表。
性向測驗
x 5 3 7 4 8 12 10
成就測驗
y 3 2 6 4 4 7 9
1 繪出此數據的散布圖。
2 求x與
y的相關係數。
177
三、進階題
有20筆數據
`x yi,
ij,
i= 1 2, ,g,20,其平均數
n = ,x 6
n = ,變量y 5
x與
y
的相關係數
r=-0 9. ,且
y對
x的迴歸直線通過點_4 6, i。選出正確的選項:
1 迴歸直線通過點_6 5, i
2 迴歸直線的斜率為-0 5.
3 迴歸直線通過點_2 7, i
4 x的標準差小於
y的標準差。
段考數學考題共有20題,每題5分,總分100分。經統計:全校數學最高
分80分,且數學成績與英文成績的相關係數為
0.73。
已知老師將數學每題5分的配分更改為每題6分,藉以調高數學成績,求
1 調高後的數學成績與英文成績的相關係數。
2 調高後的數學成績與原數學成績的相關係數。