1 簡介 二維數據分析

全文

(1)

二維數據分析

卓永鴻 提供

1 簡介

某日在課堂上,數學老師勸大家少玩手機遊戲,玩得越多,就越影響課業表現。這時大 家在底下議論紛紛。

甲:「玩遊戲歸玩遊戲,跟讀書考試有什麼關係? 」

乙:「可是如果太沉迷於遊戲,多少還是會影響課業的吧? 」

丙:「那個XXX,還不是每天都玩,他成績就蠻好的啊!你很少玩還不是都考很爛! 」 此時在台上的老師,作為一個二十一世紀有學識、講求科學證據的優秀老師,他決 定給同學一個有說服力的說法,來讓同學相信玩太多遊戲真的會對課業有負面影響。

老師實際作了調查,訪問了 18 位同學,得到如下資料:

每週遊戲時間 8 2 10 9 12 5 11 5 14 數學成績 60 85 100 75 80 90 86 78 92 每週遊戲時間 12 3 7 7 11 13 3 4 8

數學成績 37 83 55 78 48 25 90 40 84

老師:「這樣看,可能還是不夠有感覺。接著我將這些資料畫出來吧! 」 於是老師將每一筆數據都畫到散佈圖上,得到下圖:

20 30 40 50 60 70 80 90 100

2 4 6 8 10 12 14

老師:「這樣一來,就稍微看得出下降趨勢了吧1!剛剛丙同學所犯的謬誤,是他只看兩 種極端例子,但我們必須從整體資料去看,才可以去描述一般趨勢。 」

1

x

, y 方向的單位長不一樣大,所以實際上的下滑趨勢會比這個圖大!

(2)

1 簡介

20 30 40 50 60 70 80 90 100

2 4 6 8 10 12 14

老師:「我們看上面這張圖,丙同學所說的,可能就是圈起來的這兩個資料。想想看,

我們真的可以只看這兩個極端案例,卻無視整體趨勢嗎? 」

丁 :「可是老師,雖然你現在把資料都點在圖上面,比起看表格有感覺多了,但我還 是覺得這上面好多點點,要我看趨勢實在有點吃力! 」

老師:「好,那麼我便用一條直線,來代表全體趨勢。 」

20 30 40 50 60 70 80 90 100

2 4 6 8 10 12 14

老師:「我現在這樣說,我可以用這條直線,來粗略地代表全體的趨勢。並不是說全體 資料會在這條直線上,而是用它來粗略地描述全體情況。 」

老師:「如果現在看這條直線,是不是更明顯可以感受到,手遊玩得越多,成績就越下 滑的趨勢呢? 」

戊 :「可是老師,我覺得我看起來的趨勢不像這樣耶。 」 說完,戊同學上台又畫了一條直線。

(3)

20 30 40 50 60 70 80 90 100

2 4 6 8 10 12 14

戊 :「我覺得應該是這樣呀!這條線比較像全體的趨勢! 」

老師:「這問題不錯!現在我們有了爭議,我們各自認為可代表全體的直線是不同條,

所以我們必須有一個公認的辦法,來由原始數據求出這條代表性的直線。 」 老師:「正好,我們接下來要上的主題,就是二維數據分析,我們就多介紹點這方面的

概念吧! 」

老師:「等我們學會如何求出這條代表全體的直線後,以後遇到任何新的統計資料,我 們都可以套用這個固定模式來求出直線。 」

老師:「求出直線以後,現在如果再問一位同學,得知他每週玩手遊 10 個小時,我們想 猜猜看他的成績,要怎麼猜呢? 」

20 30 40 50 60 70 80 90 100

2 4 6 8 10 12 14

老師:「因為這條直線已經用來代表全體,所以我們自然就會猜在直線上。當然我們很 可能會猜錯,但是雖不中,亦不遠矣,往直線上去猜,是最可能猜得準的了! 」 老師:「所以我們要如何求出這條代表全體的直線,就是要求出一條會讓我們盡可能猜

得準的直線!猜得準,我們才敢說這條直線可代表全體。因此,這條直線我們 稱之為 迴歸直線,又叫最適直線,因為它是與這筆資料最適配的直線。 」

(4)

1 簡介

老師:「不過也有一個問題,就是當求出迴歸直線以後,這條直線的代表性如何? 」

20 30 40 50 60 70 80 90 100

2 4 6 8 10 12 14

老師:「我們看這筆新的資料,它與剛剛的資料有相同的迴歸直線。可是很明顯,這筆 資料較為分散,所以如果我們要用來猜某同學的成績,就比較可能會猜得不準。

這也就是說,這條迴歸直線的代表性較弱! 」

老師:「二維數據分析,就是圍繞在這樣的課題。當我們針對手遊時間與數學成績作調 查,得到一筆資料,我們如何從中解讀手遊時間與數學成績之間的關係?其 大致趨勢為何?這個趨勢的代表性是強是弱? 」

老師:「這些概念不能仰賴直觀去看,否則每個人的感受都不太一樣。以下我們就來討 論如何用數學式子來表達! 」

(5)

2 相關係數

調查出一筆資料後,作出散佈圖,並畫出 x = μx, y = μy 兩條直線。以這兩條直線作為 新的 x 軸與 y 軸,將散佈圖分為第一到第四象限。

yy

xx

接著將每一個數據 (xi, yi),把它的 x 座標 xi,減掉 x 的平均 μx;同時 y 座標 yi 也減 掉 y 的平均 μy,然後兩者相乘,得到 (xi − μx)(yi− μy)。這樣子等於算出每個點拉到兩個 新座標軸的矩形「面積」,而這個「面積」是有正負號的,因為如果是在第二象限的點,

(xi− μx) 就會是負的、第四象限的點,(yi− μy) 是負的、第三象限的點,(xi− μx), (yi− μy) 都是負的,乘起來變正的。

yy

xx

我們把這每一個「面積」加起來,得到

n i=1

(xi− μx)(yi− μy) (1) 圖中顯然第一、三象限的點多,第二、四象限的點少,這表示大體來說,x 增加的話 y 也跟著增加,我們稱之為正相關。因為第一、三象限的點明顯較多,所以「面積」加

(6)

2 相關係數

起來後會是正的。反過來說,若大體而言,x 增加的話 y 會隨之減少,我們稱之為負相 關。則圖中第一、三象限的點少,第二、四象限的點多,所以「面積」加起來後會是負 的。

目前這個式子(1),可以幫助我們判斷正相關與負相關。但光是這樣還不夠好用,我 們希望可以再進一步判斷相關程度的高低,就是說數據比較集中在迴歸直線附近還是 較為分散,這就是相關係數 的概念。相關係數是正的,即為正相關;相關係數是負的,

則為負相關。相關係數的絕對值越大,就代表相關程度越高。但式子(1)顯然不能拿來 當作相關係數的定義,因為如果我計算一個班級學生座號與成績的相關係數,而隔壁班 正好也有一模一樣的成績分布,我現在兩班合併後再算一次相關係數,照理說相關程度 應該不變,但拿上面那個式子來算會變兩倍!因此現在將式子略作修改,變成

n

i=1(xi−μx)(yi−μy)

n

(2)

將算「面積」總和,改為算「面積」平均,如此便能消除資料數 n 的干擾。但這還是不 能拿來當作相關係數的定義,因為它會受到數據尺度的影響。舉例來說你調查氣溫(�) 與跑一百米秒數的關係,如果氣溫由攝氏改用華氏(�), 式子(2) 算出來的值就會不 一樣。可是資料根本還是同一組,只不過作了溫標轉換,相關係數算出來卻不一樣,這 也太荒謬了!

在一維數據分析中,我們便已學過一種消除數據尺度的手法,就是標準化!對於資 料 X,先將每一筆數據 xi 都減去 x 的平均,減完之後再除以 x 的標準差,如此操作則得 到標準化後的數據 Z:

z

i =

x

i− μx σx

標準化後的數據,其平均為 0、標準差為 1,如此則消弭了數據尺度這一因素。所以我

μx是 x 的平 均,σx 是 x 的 標 準 差,

千 萬 別 被 希 臘 字 母 弄 糊 塗了。

們現在將資料 X 與 Y 都先進行標準化,得到

x

i

−μ

x

σ

x

y

i

−μ

y

σ

y

,然後再代回 式子(2)

n i=1

(

x

i− μx σx

− 0) 

y

i− μy σy

− 0



n

標準化後的數據的平均為 0,所以減去平均那裡都變成減 0。再繼續化簡:

n i=1

(

x

i− μx σx

) 

y

i− μy σy



n

=

n i=1

(xi− μx)(yi− μy) σxσy

n

= 1 σxσy

n i=1

(xi− μx)(yi− μy)

n

=

n i=1

(xi− μx)(yi− μy)

xσy

這就是相關係數的定義了!還可以再套用標準差的定義,寫成

n i=1

(xi− μx)(yi− μy)

 n

√∑n

i=1(xi − μx)2

 n

√∑n

i=1(yi− μy)2

 n

=

n i=1

(xi− μx)(yi− μy)

√∑n

i=1

(xi− μx)2

√∑n

i=1

(yi− μy)2

(7)

1. 相關係數 r 滿足−1 ≤ r ≤ 1

2.當 r = 1 時,所有資料都在斜率為正 的迴歸直線上,稱為完全正相關

3. 當 r = −1 時,所有資料都在斜率為負 的迴歸直線上,稱為完全負相關

4.當 r 很接近 1,資料集中在斜率為正 的迴歸直線附近,稱為高度正相關

5. 當 r 很接近−1,資料集中在斜率為負 的迴歸直線附近,稱為高度負相關

6.當 r 正但很接近 0,迴歸直線斜率為正

,但資料很分散,稱為低度正相關

7. 當 r 負但很接近 0,迴歸直線斜率為負

,但資料很分散,稱為低度負相關

8.當 r = 0,迴歸直線斜率為 0,此時稱為零相關

9.若對於資料 X, Y 皆進行線性變換:X = aX + b, Y = cY + d,則新資料的相關係數

r(X

, Y) 與原資料的相關係數 r(X, Y) 之間的關係為

r(X

, Y)= 



r(X

, Y) , ac > 0

− r(X, Y) , ac < 0

線性變換以後相關係數的絕對值不變,只有在伸縮的 a, c 異號時才會多出負號。

性質 相關係數的性質

注意

(1) 關於相關係數 r 為什麼會介於−1 到 1 之間,一個看法是利用柯西不等式,寫 ((x1− μx)2+ · · · + (xn− μx)2) (

(y1− μy)2+ · · · + (yn− μy)2)

≥(

(x1− μx)(y1− μy)+ · · · + (xn− μx)(yn− μy))2

(8)

2 相關係數

即 





n i=1

(xi− μx)2









n i=1

(yi− μy)2



 ≥





n i=1

(xi− μx)(yi− μy)





2

移項後 





n i=1

(xi− μx)(yi− μy)





2





n i=1

(xi− μx)2









n i=1

(yi− μy)2





≤ 1

接著再開根號即得

−1 ≤

n i=1

(xi− μx)(yi− μy)

n

i=1

(xi − μx)2

n

i=1

(yi− μy)2

≤ 1

另一個看法比較抽象一點,是看成有兩個 n 維的向量

a

=(

x

1− μx, x2− μx, · · · , xn− μx)

b

=(

y

1− μy, y2− μy, · · · , yn− μy) 設 −⇀

a

,⇀−

b 夾角為

θ,利用向量的夾角公式

cosθ = ⇀−

a

·⇀−

b

−⇀

a

⇀−

b

就可以寫出

cosθ =

n i=1

(xi− μx)(yi− μy)

√∑n

i=1

(xi− μx)2

√∑n

i=1

(yi− μy)2 因此相關係數可以看成是 −⇀

a 與

⇀−

b 的夾角取餘弦值,所以就會介於

−1 到 1 之間。

cosθ = 1 表示兩向量同向,為完全正相關;cos θ = −1 表示兩向量反向,為完全負相 關;cos θ 越接近 0,就是兩向量越接近垂直,相關程度越低。

(2) 不可將零相關理解成兩資料完全沒有關聯,正確來說是「沒有線性相關」,即無法 找到斜率不為零的直線來表示它們的趨勢,但有可能可以找到曲線來代表它們的趨 勢。例如上面零相關的圖中有一個是數據都在一個圓上,這樣怎能說是 X, Y 完全 無關呢?另外一例是設 X = −1, 0, 1,Y = X2,即有三筆資料 (−1, 1), (0, 0), (1, 1),則

3

i=1(xi − μx)(yi− μy)= (−1) · 13 + 0 + 1 ·13 = 0,故 r = 0。然而從 Y = X2,已說明兩資 料是有曲線關係的。

(9)

(3) 關於線性變換後的相關係數,只要直接將 X = aX + b, Y = cY + d 代入相關係數的 公式,就會有

r(X

, Y)=

n i=1

(xi − μx)(yi − μy)

n

i=1

(xi − μx)2

n

i=1

(yi − μy)2

=

n i=1

[(axi+ b) − (aμx+ b)] [

(cyi+ d) − (cμx+ d)]

n

i=1

[(axi + b) − (aμx+ b)]2

n

i=1

[(cyi+ d) − (cμx+ d)]2

=

n i=1

[

a(x

i− μx)] [

c(y

i− μy)]

a

2

n i=1

(xi− μx)2

c

2

n i=1

(yi− μy)2

=

ac

|ac|

r(X

, Y)

若 a, c 同號則

|ac| ac

= 1;若 a, c 異號則

|ac| ac

= −1。

也可以簡單用想的,相關係數是先將兩資料標準化後再代回式子(2)。如果伸縮係數

a 是正的,則 X

= aX + b 的標準化數據與 X 的標準化數據是一樣的;如果伸縮係數

a 是負的,則 X

= aX + b 的標準化數據與 X 的標準化數據差負號。所以若 a, c 皆正,

則 X 與 Y 的標準化數據都與 X 和 Y 的標準化數據一樣,那麼再代回式子(2)當然 不會變;若 a, c 一正一負,標準化後其中一個差負號,再代回式子 (2)就多個負號;

若 a, c 皆負,標準化後兩個都差負號,再代回式子(2)就不變號。

例題 1

令 X 代表每個高中生平均每天研讀數學的時間(以小時計),則 W = 7(24 − X) 代 表每個高中生平均每週花在研讀數學以外的時間。令 Y 代表每個高中生數學學 科能力測驗的成績。設 X, Y 之相關係數 RXY,W, Y 之相關係數為 RWY,則 RXY 與 RWY 兩數之間的關係,下列選項何者為真?

(A)

R

WY = 7(24 − RXY) (B)

R

WY = 7RXY (C)

R

WY = −7RXY

(D)

R

WY = RXY (E)

R

WY = −RXY

90學測

W 為將 X 作線性變換,其伸縮係數

−7 是負的,故 RWY = −RXY



(10)

3 迴歸直線

3 迴歸直線

Y 對 X 的迴歸直線,是指在散佈圖中以直線粗略代表整體趨勢,並且當我們由 X 數

據去猜測 Y 數據時,是最可能猜得準的。所謂的最可能猜得準,換句話說,如果我們計 算估測值與實際值之間的誤差,我們希望大量、長期猜下來誤差是比較小的。

先作一條直線 y= mx + b,若由 x = xi 去估測 y 值,就把 x = xi 代到直線 y = mx + b 中,得到我們估測 y= mxi + b。而實際上的數據,則是 (xi, yi),如下圖所示。估測的誤 差,就是估測值 y= mxi+ b 與實際值 y = yi 之間的差,也就是圖中兩點的鉛直距離。

20 30 40 50 60 70 80 90 100

2 4 6 8 10 12 14

誤差 (xi, yi) (xi, mxi+ b)

這個距離就是 yi− (mxi+ b) ,如果我們能決定出

y

= mx + b 的係數 m 與 b,使得所 有的距離加起來要最小,我們可以相信這條直線符合我們需求。但是實際運算會超級麻 煩,我們居然要把一堆絕對值相加,還要求怎樣的 m, b 會使這個加總極小!為了運算上 簡便,我們將「所有誤差的絕對值總和」改成「所有誤差的平方和」。這是因為平方和比 起絕對值的和好處理多了,這跟標準差的定義也是取平方和是一樣的道理。所以我們現 在改這樣說,如果我們能決定出係數 m 與 b,使得所有的誤差平方(

y

i − (mxi+ b))2

加起 來要最小,這樣的 y= mx + b 就是迴歸直線。這個方法叫做 最小平方法,而這樣求出的 迴歸直線又可稱 最小平方直線。

20 30 40 50 60 70 80 90 100

2 4 6 8 10 12 14

(11)

先 將 Y 與 X 都先標準化 ,得到 Y 與 X,則 Y對 X的最小平方直線,經過一番很 複雜的運算後,可得到簡單的結果

y

= r · x

數據標準化後迴歸直線斜率恰為相關係數。接著再代 x =

x −μ σ

x

x , y =

y −μ σ

y

y , 得到

y

− μy σy

= r ·

x

− μx σx

再移項後就有

y

− μy = r · σy

σx

(x− μx) 這就是 Y 對 X 的迴歸直線公式。

注意

(1) 迴歸直線必過 (μx, μy)。這條直線既然能代表全體,當然也通過具代表性的平均數。

(2) 若是想改由 Y 來估測 X,就要改求 X 對 Y 的迴歸直線,這樣通常會是不同條直線,

因為這樣估測誤差就會變成水平距離而非鉛直距離。

(3) 套用相關係數與標準差的公式,寫成

y

− μy =

(xi− μx)(yi− μy)

√∑(xi − μx)2





(yi− μy)2

·





(yi− μy)2

 n

√∑(xi− μx)2

 n

· (x − μx)

⇒ y − μy =

(xi− μx)(yi− μy)

(xi− μx)2 · (x − μx)

這樣許多時候算起來更快。

(4) 物理的運動學中有個公式 v= v0+ at,末速等於初速加上加速度乘以時間。如果我們 做個實驗,固定了初速 v0與加速度 a,然後測量在不同的時間 t 時的速度 v。因為測 量數據難免有些許誤差,所以將數據描點出來後,不會那麼完美地成一直線。但如 果我們求迴歸直線,就會很接近 v = v0+ at。換句話說,想透過做實驗來驗證已知公 式或者猜測未知公式,在實驗難免有誤差的情況下,求迴歸直線是個重要手段。

(5) 為何叫「迴歸」直線?因為統計學家Galton發現,父母的身高越高,子代通常較父 母矮而較普通人高,是為「迴歸平庸」(Regression towards mediocrity)。後來為紀 念Galton,便沿用了迴歸直線(regression line)這一名稱。

(12)

3 迴歸直線

例題 2

設 (x1, y1) = (2, 3), (x2, y2) = (3, 1), (x3, y3) = (4, 2),D = (y1− a − bx1)2+ (y2− a −

bx

2)2+ (y3− a − bx3)2。試求出實數 a 與 b 使得 D 有最小值。

若直線 L 方程為 y= bx + a,則點 (xi, yi) 鉛直對應到 L 線上的點就是 (xi, bxi+ a)。所 以 D=

∑3 i=1

(yi− (bxi+ a))2的意義就是鉛直距離的平方和。這題問的就是最小平方法!

先求出 μx = 3, μy = 2,再利用公式

y

− μy =

(xi − μx)(yi − μy)

(xi− μx)2 · (x − μx) 就可得到

y

− 2 =(−1)(−1) + 0 + 0

(−1)2+ 0 + 12 · (x − 3)

⇒ y − 2 =1

2 · (x − 3)



例題 3

經濟學者分析某公司服務年資相近的員工之「年薪」與「就學年數」的資料,得 到這樣的結論:『員工就學年數每增加一年,其年薪平均增加85千元』。試 問上述結論可直接從下列哪些選項中的統計量得到?

(1)「年薪」之眾數與「就學年數」之眾數 (2)「年薪」之全距與「就學年數」之全距 (3)「年薪」之平均數與「就學年數」之平均數 (4)「年薪」與「就學年數」之相關係數

(5)「年薪」對「就學年數」之迴歸直線斜率

98數乙

只要你明白什麼叫迴歸直線,這題就是來送分的,一看就是(5),別的都不可能。



(13)

例題 4

某人進行一實驗來確定某運動之距離 d 與時間 t 的平方或立方成正比,所得數據 如下:

時間 t(秒) 距離 d(呎)

0.25 0.95 0.5 3.69 0.75 9.71 1 14.88 1.25 22.32 1.5 39.34 1.75 48.68 2 53.65 2.25 71.79

為探索該運動的距離與時間之關係,令 x = log2

t

, y = log2

d,即將上述的數據

(t, d) 分別取以 2 為底的對數變換,例如:(2, 53.65) 變換後成為 (1, 5.74)。已知變 換後的數據 (x1, y1), (x2, y2), · · · (x9, y9) 之散佈圖及最小平方法所求得變數 y 對變數

x 的最適合直線(或稱迴歸直線)為 y

= a + bx,如下圖所示

試問下列哪些選項是正確的?

(1)若 d = 14.88,則 3 < log2

d

< 4 (2)

x 與 y 的相關係數小於 0

.2 (3)由上圖可以觀察出 b> 2.5 (4)由上圖可以觀察出 a> 2

(5)由上圖可以確定此運動之距離與時間的立方約略成正比

97數甲

(14)

3 迴歸直線

(1) ⃝ 3 = log28< log214.88 < log216= 4 (2)  由圖看來為高度相關

(3)  由圖觀察斜率約為

4 2

= 2

(4) ⃝ a 為迴歸直線的 y 截距,大約為 4

(5)  (3),因斜率大約為 2,故運動距離約與時間平方成正比。



注意

此題便用物理實驗入題,並演示了公式並不一定要是線性的,如果有幾次方的正比

(或反比)關係,只要取個對數就變成線性關係了。這同時亦說明了對數的用處。

例題 5

已知以下各選項資料的迴歸直線(最適合直線)皆相同且皆為負相關,請選出相 關係數最小的選項。

(1)

x

2 3 5

y

1 13 1 (2)

x

2 3 5

y

3 10 2 (3)

x

2 3 5

y

5 7 3

(4)

x

2 3 5

y

9 1 5 (5)

x

2 3 5

y

7 4 4

102學測

觀察每個選項的 X 資料皆相同,每個選項的 Y 資料總和亦皆相同(所以平均也相 同)。而每個選項的迴歸直線 y− μy = r · σy

σx

(x− μx) 相同,若 σy 越小,r 便負得越多(相 乘是定值),也就是越小。所以要找相關係數最小,只須判斷哪個選項的 σy 最小。而顯 然(5)的 Y 的標準差是最小的(最集中),故選(5)



(15)

例題 6

統 計 某 一 公 司 在 過 去 10 年 中,每 年 廣 告 費 (X) 與 營 業 額 (Y) 的 資 料 為:

(x1, y1), (x2, y2), (x3, y3), · · · , (x10, y10)。計算得到平均數、標準差與相關係數如 下:μX = 20 萬元,μY = 1500 萬元,σX = 4 萬元,σY = 50 萬元,r = 0.8。若今年 要有 2000 萬元的營業額,則約需花 萬元的廣告費。

利用迴歸直線公式,寫出

y

− 1500 = 0.8 ·50

4 (x− 20) 再代 y= 2000,得到 x = 70。

像這樣寫,就錯啦!仔細看清題目,所求是利用營業額 (Y) 估測廣告費 (X),所以應 該寫 X 對 Y 的迴歸直線

x

− 20 = 0.8 · 4

50(y− 1500) 再代 y= 2000,得到 x = 52。

千萬要注意是誰對誰的迴歸直線



例題 7

設兩變數 X 與 Y 的 n 筆資料為 (x1, y1), (x2, y2), . . . , (xn, yn),且 Y = −X + 7,若變 數 X =

X −μ σ

x

x , Y =

Y −μ σ

y

y ,其中 μx, μy 分別為 X, Y 的算術平均數,σx, σy 分別為

X

, Y 的標準差,請選出下列正確選項:

(A)

r

XY = 1 (B)

r

XY > rXY

(C)

Y

對 X的迴歸直線為 y = −x

(D)

Y

對 X 的迴歸直線斜率 m等於 Y 對 X 的迴歸直線斜率 m

(E)若 μX = 0,則 Y 對 X 的迴歸直線與 Y 對 X 的迴歸直線是同一條直線。

Y

= −X + 7 的意思是兩資料完全符合這關係。換句話說,yi = −xi+ 7 對於 i = 1, · · · , n 皆成立。所以所有資料都完全在直線 y= −x + 7 上,而這條正是迴歸直線。

(16)

3 迴歸直線

(1)  所有資料完全在斜率為負的直線上,是為完全負相關,故 rXY = −1 (2)  標準化不改變相關係數

(3) ⃝ 標準化數據 Y對 X的迴歸直線為 y = rx (4) ⃝ 承(3),m= m = −1

(5)  我們前面已分析出這兩條迴歸直線,無論 μx 值為何都不改變。



例題 8

某校高三共有 300 位學生,數學科第一次段考、第二次段考成績分別以 X,Y 表 示,且每位學生的成績用 0 至 100 評分。若這兩次段考數學科成績的相關係數為 0.016,試問下列哪些選項是正確的?

(1)

X 與 Y 的相關情形可以用散佈圖表示

(2)這兩次段考的數學成績適合用直線 X= a + bY 表示 X 與 Y 的相關情形

(a, b 為常數,b , 0)

(3)

X

+ 5 與 Y + 5 的相關係數仍為 0.016 (4)10X 與 10Y 的相關係數仍為 0.016 (5)若 X =

X

− X

S

X 、Y =

Y

− Y

S

Y ,其中 X 、Y 分別為 X、Y 的平均數,SX、SY別為 X、Y 的標準差,則 X與 Y 的相關係數仍為 0.016

96指考甲

(1) ⃝ 當然可以,怎麼不可以?

(2)  相關係數 0.016 太低,故不適合 (3) ⃝ r(X + 5, Y + 5) = r(X, Y) = 0.016

資料平移不影響相關係數 (4) ⃝ r(10X, 10Y) = r(X, Y) = 0.016

資料伸縮且伸縮係數同號,不影響相關係數 (5) ⃝ 標準化不影響相關係數



(17)

4 總結

如何記憶相關係數公式?

1. 計算數據標準化後的「面積」平均,即

x

i · yi

n

2. 代回原數據,得

∑ (

x

i

−μ

x

σ

x

) (

y

i

−μ

y

σ

y

)

n

=

(xi− μx)(yi− μy)

xσy

| {z }

公式1

3. 套用標準差公式,得

(xi− μx)(yi− μy)

√∑(xi− μx)2√∑

(yi− μy)2

| {z }

公式2

如何記憶迴歸直線公式?

1. 數據標準化後,Y 對 X 的迴歸直線為

y

i = r · xi

2. 代回原數據,得

y

i− μy σy

= r

(

x

i− μx σx

)

⇒ yi− μy = r · σy

σx

(xi− μx)

| {z }

公式1

3. 套用標準差公式,得

y

− μy =

(xi− μx)(yi− μy)

(xi− μx)2 · (x − μx)

| {z }

公式2

數據

Updating...

參考文獻

Updating...

相關主題 :