單元09-二維數據分析

全文

(1)

154

右圖1是將玉山觀測站提供的2017年與 2018年每月氣溫畫成折線圖,從圖中似乎能 看出這兩年的每月氣溫有一些相關性,但不十 分明確。 本單元將介紹另一種展現兩變量關聯性的 圖形,並引進一個客觀的量化數據來衡量兩變 量的相關程度。

二維數據分析

9

圖1

散布圖

當我們蒐集了兩個變量xyn筆數據`x y1, 1j, y 2, 2 x ` j,g , `xn,ynj時,將 每一個序對`x yi, ij表示成xy坐標平面上的點,這樣所得的圖形稱為散布圖。散 布圖最常用來展現兩個變量之間是否有關聯,以下面例題說明。 醫生統計六位病患的咳嗽週數x(週)與肺結核自評分數y(分)如下表。 民眾 甲 乙 丙 丁 戊 己 x(週) 2 1 4 5 4 2 y(分) 3 3 5 6 2 5 繪出此數據的散布圖。

例題

1

(2)

9

二維數據分析

155

解 以x為橫軸,y為縱軸,數據的散布圖如下圖。 從散布圖中可觀察出兩變量xy之間的相關情形,說明如下: ▲ 圖2 (a)正相關 (b)負相關 1 觀察圖2(a),散布圖中各點的分布有左下往右上的趨勢,即當x增加時,y也 有增加的趨勢,這是兩變量xy呈現正相關的觀念。 2 觀察圖2(b),散布圖中各點的分布有左上往右下的趨勢,即當x增加時,y卻 有減少的趨勢,這是兩變量xy呈現負相關的觀念。 3 當xy沒有以上趨勢時,兩變量xy呈現零相關。此時散布圖中的各點可 能為上下左右對稱狀態,也可能完全落在平行x軸或平行y軸的直線上,如圖 3所示。 ▲ 圖3 零相關

(3)

156

右圖是20位高中生體重 x (公斤)與身高 y ( 公 分 ) 的 散 布 圖 。 判 斷 這 兩 變 量 是 正 相 關、負相關或零相關。

隨堂練習

相關係數

由散布圖可以約略觀察出兩個變量之間的關係,但只透過散布圖,有時很難 判斷兩變量相關程度的高低。例如圖4的四個散布圖可以看出都有左下到右上的 趨勢,雖然容易判定(a)的相關程度最低,(d)的相關程度最高,但(b)與(c)就很 難分出高低了。 ▲ 圖4 (a) (b) (c) (d) 因此,我們需要一個較客觀的量化數據來衡量兩變量的相關程度,其中最常 用的數據就是相關係數,為了方便說明,我們先以5筆數據為例,但整個過程 仍適用於多筆數據的情形。已知兩變量xy的5筆數據如下表。 x 1 4 5 7 13 y 6 18 42 45 54 可得x,y的平均數與標準差分別為 6 x n = , v = ,x 4 n =y 33, v =y 18。

(4)

9

二維數據分析

157

1 首先,我們將數據標準化(也就是將原數據_x y, i轉換成平均數為0,標準差 為1的新數據_x yl, li),如下表所示。 x x x x v n = -l 4 5 -2 1 -4 1 -4 1 4 7 y y y y v n = -l 2 3 -6 5 -2 1 3 2 6 7 如此一來,可以減少不同測量單位的數據對圖形的影響,也使數據的分布情 形更加明顯。在原始數據的散布圖(如圖5(a)所示),xy的分布似乎成一 鉛直線,當數據標準化之後(如圖5(b)所示),較能清楚看出其分布情形。 ▲ 圖5 (a) (b) (c) 2 接著,在數據標準化後的散布圖上之各點分別作水平線與鉛直線和 xl 軸與 yl 軸形成矩形,如圖5 (c )所示。此時,第一、三象限內各點的 x yil l 乘積皆為i 正,恰等於各矩形面積;而第二、四象限內各點的 x yil l 乘積皆為負,恰與各i 矩形面積互為相反數,如下表所示。 , x yl l _ i 4, 5 2 3 - -e o 第三象限 , 2 1 6 5 - -e o 第三象限 , 4 1 2 1 -e o 第二象限 , 4 1 3 2 e o 第一象限 , 4 7 6 7 e o 第一象限 x yl l乘積 8 15 12 5 8 1 -6 1 24 49 矩形面積 8 15 12 5 8 1 6 1 24 49

(5)

158

而這些 x yi il l 乘積的總和 8 15 12 5 6 1 24 49 8 15 12 5 6 1 24 49 8 1 8 1 + - + + =e + + + o-e o 恰為 (第一、三象限的矩形面積和)-(第二、四象限的矩形面積和)。 3 最後,為了消弭點的數目對 x yi il l 乘積的總和之影響,我們再將它除以數據個數 5,定義相關係數為 r 5 8 15 12 5 6 1 24 49 8 1 = + + + -e o e o 。 由上例的觀察,我們歸納以下的事實: 1 當標準化後的點多半集中於第一、三象限時, (第一、三象限的矩形面積和)2(第二、四象限的矩形面積和), 即 x yi il l 乘積的總和為正值,因此相關係數 r2 。0 2 當標準化後的點多半集中於第二、四象限時, (第一、三象限的矩形面積和)1(第二、四象限的矩形面積和), 即 x yi il l 乘積的總和為負值,因此相關係數 r1 。0 一般而言,設兩變量 x 與 y 的 n 筆數據為`x y1, 1j, `x2,y2j,g ,`xn,ynj,且xy的平均數分別為 x n , n ,標準差分別為y v ,x v 。仿照以上的作法:y 1 首先,將數據`x yi, ij標準化為`x yli, lij,其中 x x x i i x v n = -l , y y y i i y v n = -l 。 2 接著,求各點 x yi il l 乘積的總和 x y1 1l l+x y2 2l l+g+x yn nl l 。 3 最後,將各點 x yi il l 乘積的總和除以數據個數n,定義相關係數為 r n x y1 1 x y2 2 g x yn n = + + + l l l l l l ; 再將 x x x i i x v n = -l , y y y i i y v n = -l 代入,可得

(6)

9

二維數據分析

159

y y x x x r n x y x y x y x y x y y n x n y 1 1 2 2 g v n v n v n v n v n v n = - -+ -+ + -J L KK KK KK J L KK KK KK J L KK KK KK

f

N

f

f

P OO OO OO N P OO OO OO N P OO OO OO

p

p

p

y x n x1 x y1 y x2 x y2 y g xn x yn y v v n n n n n n = - - + - - + + - -` ja k ` ja k ` ja k 。 將以上結論整理如下。 設兩變量xyn筆數據為 1, 1 x y ` j, `x2,y2j,g , `xn,ynj,且xy的平 均數分別為 x n , n ,標準差分別為y v ,x v 。定義兩變量y xy的相關係 數為 x y r n x y x y n x n y 1 1 2 2 g v v = + + + x -n y -n x -n y -n x -n y -n ` ja k ` ja k ` ja k 。 相關係數的定義 以下我們導出相關係數的另一公式。令 Sxy=`x1-nxjay1-nyk+g+`xn-nxjayn-nyk, Sxx=`x1-nxj2+g+`xn-nxj ,2 Syy 1 y n y 2 2 g =ay -n k + +ay -n k , 則標準差v 與x v 可改寫為y g + + n n S 1 x x n x xx 1 2 2 v = c`x -n j `x -n j m = , g + + y n n S 1 y n y yy 1 2 2 v = day -n k ay -n k n= 。

(7)

160

代入相關係數的定義,得 r n n n S n S S S S S x y x y n x n y xx yy xy xx yy xy 1 1 : : : g v v = + + = = x -n y -n x -n y -n ` ja k ` ja k 。 將兩變量x與y的相關係數之計算公式整理如下。 設兩變量xyn筆數據為`x y1, 1j, `x2,y2j, g, `xn,ynj,其相關係數 r S S S xx yy xy : = 。 相關係數的計算公式 為了簡化及方便計算,可以搭配表格來計算兩變量的相關係數。 兩變量xy的數據如下表。 x 1 2 3 4 5 y 4 5 3 1 2 1 繪出xy的散布圖。 2 求xy的相關係數。 解 1 兩變量xy的散布圖如下圖。

例題

2

(8)

9

二維數據分析

161

2 兩變量x與y的平均數分別為 5 1 2 3 4 5 3 x n = + + + + = , 5 4 5 3 1 2 3 y n = + + + + = 。 依公式需要整理如下表。 x-nx y-ny `x-nxj2 y 2 y-n a k `x-nxjay-nyk -2 1 4 1 -2 -1 2 1 4 -2 0 0 0 0 0 1 -2 1 4 -2 2 -1 4 1 -2 總和 Sxx=10 Syy= 10 Sxy=-8 代入相關係數的計算公式,得 . r S S S 10 8 0 8 10 10 8 xx yy xy : # = = - =- =- 。 兩變量xy的數據如下表。 x 2 3 6 10 14 y 1 8 3 7 11 1 繪出xy的散布圖。 2 求xy的相關係數。

隨堂練習

我們來計算某種特別情形下的相關係數。

(9)

162

兩變量xy的數據如下表。 x 2 4 6 8 10 y 1 2 3 4 5 1 繪出xy的散布圖。 2 求xy的相關係數。 解 1 兩變量xy的散布圖如下圖。 2 兩變量xy的平均數分別為 5 2 4 6 8 10 6 x n = + + + + = , 5 1 2 3 4 5 3 y n = + + + + = 。 依公式需要整理如下表。 x-nx y-ny x 2 x-n ` j ay-nyk2 `x-nxjay-nyk -4 -2 16 4 8 -2 -1 4 1 2 0 0 0 0 0 2 1 4 1 2 4 2 16 4 8 總和 Sxx=40 Syy=10 Sxy=20 代入相關係數的計算公式,得 r S S S 20 20 1 40 10 20 xx yy xy : # = = = = 。

例題

3

(10)

9

二維數據分析

163

隨堂練習

兩變量xy的數據如下表。 x 1 2 3 4 5 y 10 9 8 7 6 1 繪出 xy的散布圖。 2 求xy的相關係數。 接著,我們用相關係數來定義兩變量xy的相關情形: 1 當 r2 時,稱0 xy為正相關,如圖6(a)。 2 當 r1 時,稱0 xy為負相關,如圖6(b)。 3 當 r=0時,稱xy為零相關。 ▲ 圖6 (a)正相關 (b)負相關 而且,相關係數r不會無限制的變大,事實上,例題3求出的 r=1是一種極端的 情形。一般而言,相關係數r具有以下的性質。 兩變量xy的相關係數r滿足 r 1# #1 - 。 相關係數的性質

(11)

164

上述相關係數性質的證明,請見附錄。當 r 愈接近1時,相關程度愈高; 當 r 愈接近0時,相關程度愈低。而且 1 當 r=1時,散布圖中各點恰落在一條斜率為正的直線上,稱為完全正相關。 2 當 r=-1時,散布圖中各點 恰落在一條斜率為負的直線上,稱為完全負相 關。

隨堂練習

將下列各散布圖的相關係數 r1, r2, r3, r4由大到小排列。 相關係數已被廣泛地應用在各類研究報告中,如「吸菸量與罹肺癌率」、 「腰圍與心血管疾病發生率」均為正相關的例子,而「玩手機遊戲時數與學業成 績」、「水果產量與市場價格」則呈現負相關。另外,當兩變量的相關係數很高 時,我們經常會認為兩者之間存在「因果關係」,但是事實上卻未必如此。例如 在「咖啡因攝取量與心臟病罹患率」的研究中,即使得到很高的相關係數,也不 能作成「喝咖啡容易得心臟病」的推論,相關係數只顯現兩變量之間的線性關係 程度的高低。

最小平方法與迴歸直線

當散布圖顯示出兩變數xy之間有很強的直線相關時,可以在散布圖中畫 一條直線,如圖7(a)所示,此時,要怎麼求這條直線呢?最小平方法就是一種 找出這條直線之方法,並稱此直線為yx的迴歸直線(或稱最佳直線)。

(12)

9

二維數據分析

165

圖7 (a) (b) 最小平方法的作法是: 找出直線L使得圖7(b)中所有綠色的鉛垂線段長度的平方和最小。 我們舉以下的數據來說明。 x 0 1 -1 y 1 2 -3 設yx的迴歸直線為 :L y=mx+k,欲求係數 mk,使得此三筆數據_x y, i到L的鉛垂線段長度的平方 和Q有最小值。因為 Q=_^m#0+kh-1i2+_^m+kh-2i2+ -_^ m+kh- -^ 3hi2 m m k 2 2 10 3 2 14 = - + + m k 2 2 5 3 2 3 2 2 = e - o + + , 所以當 m 2 5 = ,k = 時,Q0 有最小值 2 3 。故yx的迴歸直線為 y x 2 5 = 。 值得注意的是:上例兩變量xy的平均數分別為n = ,x 0 n = ,且其迴y 0 歸直線方程式 :L y x 2 5 = 是一條通過點`n n =x, yj _0 0, i的直線。 一般而言,給定兩變量xy,設其平均數分別為n ,x n ,標準差分別為y x v , v ,且其相關係數為y r。仿照最小平方法(推導過程計算較為複雜,在此暫 不討論),就可以得到xy的迴歸直線為 ▲ 圖8

(13)

166

y y y r x x : n v v - = `x-n j , 其中,利用rv 的定義也可以將x x y r : v v 改寫為 x y r S S x n x x y n x n y xx xy 1 2 2 1 1 : g g v v = + + + + = x x x y x y n n n n n n - -- - - -` ` a ` ` a j j k j j k 。 最後,將迴歸直線的方程式整理如下。 設兩變量xyn筆數據為`x y1, 1j, `x2,y2j,g ,`xn,ynj,其相關係數為 r。變量yx的迴歸直線方程式為 x y ny r: y x v v - = `x-n j 或 y S S y xx xy x n - = `x-n j 。 迴歸直線的方程式 由點斜式可知:變量yx的迴歸直線方程式是一條通過點`nx,nyj ,且其 斜率為 x y r S S xx xy : v v = 的直線。 當給定數據xy時,可以搭配表格找出變量yx的迴歸直線方程式。 老師注意到申請入學考生的筆試成績似乎與其口試成績有關,因此隨機 選了5位考生,其筆試與口試成績如下表。 考生 甲 乙 丙 丁 戊 筆試成績x(分) 5 5 4 7 9 口試成績y(分) 3 1 4 3 9 1 求xy的相關係數。 2 求yx的迴歸直線方程式。

例題

4

(14)

9

二維數據分析

167

兩變量x與y的平均數分別為 5 5 5 4 7 9 6 x n = + + + + = , 5 3 1 4 3 9 4 y n = + + + + = 。 依公式需要整理如下表。 x-nx y-ny `x-nxj2 y 2 y-n a k `x-nxjay-nyk -1 -1 1 1 1 -1 -3 1 9 3 -2 0 4 0 0 1 -1 1 1 -1 3 5 9 25 15 總和 S 16 xx= Syy=36 Sxy= 18 1 代入相關係數的計算公式,得 . r S S S 16 36 18 4 3 0 75 xx yy xy : # = = = = 。 2 代入迴歸直線方程式 y S S y xx xy x n - = `x-n j ,得 y 4 x 6 16 18 - = ^ - h , 即 y x 8 9 4 11 = - 。

(15)

168

把例題4的散布圖與迴歸直線L畫出,如圖9所示。這條直線和你原先所預 期的是否符合呢? ▲ 圖9

隨堂練習

考古學家發現四塊鳥類化石,其兩變量趾骨長度 x(吋)與肱骨長度y (吋)的測量值如下表。 x 1 3 5 7 y 8 4 5 11 1 求xy的相關係數。 2 求yx的迴歸直線方程式。 統計學中經常以迴歸直線方程式為模型,當給定x(或y)的值時,計算對 應的y(或x)值,來作為預測與決策的依據。 飲料店調閱上個月某四天的當日最高氣溫x( C

c

)與銷售金額y(千元) 如下表。 最高氣溫x 33 31 29 27 銷售金額y 14 12 8 10 1 求yx的迴歸直線方程式。 2 利用迴歸直線預測:當最高氣溫為35cC時,銷售金額為多少元?

例題

5

(16)

9

二維數據分析

169

某機構研究六位成人的EQ(情緒商數)測驗x與職場成就測驗y的分數 如下表。 成人代號 甲 乙 丙 丁 戊 己 得分 x 5 6 8 9 9 11 y 5 8 8 12 13 14 1 求yx的迴歸直線方程式。 2 利用迴歸直線預測:當EQ測驗分數為10分時,預測職場成就測驗的 分數。

隨堂練習

1 兩變量xy的平均數分別為 4 33 31 29 27 30 x n = + + + = , 4 14 12 8 10 11 y n = + + + = 。 依公式需要整理如下表。 x-nx y-ny `x-nxj2 x y x-n y-n ` ja k 3 3 9 9 1 1 1 1 -1 -3 1 3 -3 -1 9 3 總和 Sxx=20 Sxy=16 代入yx的迴歸直線 y S S y xx xy x n - = `x-n j ,得 y 11 x 30 20 16 - = ^ - h , 即 y x 5 4 13 = - 。 2 將 x=35代入 y x 5 4 13 = - ,得 y 5 4 35 13 15 # = - = 。 故當最高氣溫為35cC時,預測的銷售金額為15(千元)。

(17)

170

由上述可知:迴歸直線方程式與兩變量的平均數、標準差及相關係數有密切 的關係。 已知變量x的平均數n = ,標準差x 6 v = ;變量x 3 y的平均數 9 y n = ,標 準差v = ,且y 5 xy的相關係數為-0 8. ,求yx的迴歸直線方程式。 解 因為迴歸直線的斜率為 x . r 0 8 3 5 3 4 y : # v v = -^ h =- ,且必過點`n nx, yj=_6 9, i, 所以利用點斜式,得 y 9 x 3 4 6 - =- ^ - h , 整理得迴歸直線方程式為 y x 3 4 17 =- + 。

例題

6

有 一 組 數 據`x yi, ij, i=1 2 g, , ,n , 其 中 x , y 的 平 均 數 分 別 為 n = 和x 3 2 y n = ,且x,y的標準差分別為v = 和x 5 v = 。已知點y 8 _6 4, i在yx 的迴歸直線上,求xy的相關係數。

隨堂練習

本單元為教學計算方便,只處理少數數據資料xy的散布圖、相關係數與 yx的迴歸直線,作為熟悉理論的練習過程。當數據資料繁多時,可以使用計 算機或電腦軟體來輔助計算。最後,利用電腦軟體來看引言中所提及的數據。

(18)

9

二維數據分析

171

玉山觀測站提供的2017年每月氣溫x( C

c

)與2018年每月氣溫y( C

c

) 如下表。 月份 1 2 3 4 5 6 7 8 9 10 11 12 2017年氣溫x 1.6 0.1 0.3 3.4 5.4 7.6 8.5 9.2 9.7 8.3 5 2.1 2018年氣溫y 0.5 -0.3 1.4 4.8 8 8.3 7.6 7.2 7.1 4.8 4.4 5.1 利用電腦軟體Excel,求 1 這兩年氣溫的相關係數。(四捨五入到小數點以下第1位) 2 yx的迴歸直線方程式。 解 1 如下圖所示。 1 將題目中的月份、2017年氣溫與2018年氣溫分別輸入Excel的A 欄、B欄與C欄。 2 在欲顯示相關係數的儲存格輸入 =CORREL(B2:B13,C2:C13), 即計算儲存格B2:B13和C2:C13的相關係數。 故這兩年氣溫的相關係數為0.8。

例題

7

(19)

172

2 我們可以透過製作散布圖來求yx的迴歸直線方程式,如下圖所示。 1 選取要製作散布圖的兩行欄位,左邊那一欄為橫軸(x),右邊那 一欄為縱軸(y)。 2 點擊[插入]標籤。 3 從[圖表]群組中,點擊 [散布圖]。 4 選擇第一個散布圖。

(20)

9

二維數據分析

173

5 在散布圖的點上,點擊滑鼠右鍵。 6 選取[加上趨勢線]。 7 此時螢幕右方會顯示[趨勢線格式]的窗格,分別選取[線性]、[圖表 上顯示公式]。 故由散布圖中可獲得yx的迴歸直線方程式為y=0 6917. x+1 3807. 。

(21)

9

174

一、觀念題

以下各小題對的打「○」,錯的打「×」。 1 散布圖上的點愈多,其相關程度愈高。 2 若xy的相關係數 r2 ,則0 yx的迴歸直線的斜率 m2 。0 3 若xy的標準差相等,則其相關係數與yx迴歸直線的斜率也相 等。 4 相關係數r滿足-1# #r 1。 5 若散布圖的所有點都在直線 y=2x-1上,則相關係數為1。

二、基礎題

有五筆數據資料如下表。 代號 A B C D E x 2 4 5 10 10 y 3 4 6 1 11 1 繪出此數據的散布圖。 2 試問去掉哪一筆數據後,剩下來四筆數據的相關係數最大?

(22)

175

兩組資料A與B的散布圖與相關係數如下圖所示。 下列哪一個選項最可能是資料C散布圖的相關係數? 1 -1 1. 2 -0 8. 3-0 4. 40.2 50.4。 七位同學的性向測驗x與成就測驗y的成績如下表。 性向測驗x 5 3 7 4 8 12 10 成就測驗y 3 2 6 4 4 7 9 1 繪出此數據的散布圖。 2 求xy的相關係數。

(23)

176

x 16 17 18 19 20 y 9 10 8 6 7 1 求xy的相關係數。 2 求yx的迴歸直線方程式。 3 利用迴歸直線預測:當上市的單價訂為17.5千元時,市場的需求量為多 少? 已知變量x的平均數為2,標準差為3;變量y的平均數為7,標準差為8, 且yx的迴歸直線方程式為 y=2x+k,求實數kxy的相關係數。

(24)

177

三、進階題

有20筆數據`x yi, iji= 1 2, ,g,20,其平均數n = ,x 6 n = ,變量y 5 xy 的相關係數r=-0 9. ,且yx的迴歸直線通過點_4 6, i。選出正確的選項: 1 迴歸直線通過點_6 5, i 2 迴歸直線的斜率為-0 5. 3 迴歸直線通過點_2 7, i 4 x的標準差小於y的標準差。 段考數學考題共有20題,每題5分,總分100分。經統計:全校數學最高 分80分,且數學成績與英文成績的相關係數為0.73。 已知老師將數學每題5分的配分更改為每題6分,藉以調高數學成績,求 1 調高後的數學成績與英文成績的相關係數。 2 調高後的數學成績與原數學成績的相關係數。

數據

Updating...

參考文獻

Updating...

相關主題 :