• 沒有找到結果。

5-1-3機率與統計(II)-交叉分析與二維數據分析

N/A
N/A
Protected

Academic year: 2021

Share "5-1-3機率與統計(II)-交叉分析與二維數據分析"

Copied!
14
0
0

加載中.... (立即查看全文)

全文

(1)選修數學(I)1-3 機率與統計(II)-交叉分析與二維數據分析 【定義】 1. 雙向交叉表: 將同一群體的兩個變數(或兩種特性)的觀測值或分組資料,放入長方形的表 格裡,以便理解兩變數(或特性)間的關係,這種表格稱為雙向交叉表(簡稱交 叉表)。 2. 交叉分析: 了解雙向交叉表中數值分配的特性,並由不同方向解釋之就是交叉分析。 3. 散布圖: 將兩個變數的對應數值繪製在坐標平面上,以表明它們分配情形的圖形,這 就是散布圖。 4. 樣本點: 散布圖上的點稱為樣本點。 註: 1. 單變數:次數分配表Æ直方圖(長條圖)Æ求平均值與標準差。 2. 雙變數:交叉分析表Æ散布圖Æ找直線關係Æ相關係數看關連性Æ找迴歸直 線。 【範例】 班上 10 位同學的數學成績與物理成績如下表: 數學成績 X 20 40 40 50 60 80 80 100 110 120 物理成績 Y 20 10 40 10 20 50 65 60 85 50 將兩個變數的數值資料數對畫在坐標平面上,以表明它們的分布情形,此即散布 圖。. 物理成績. 散布圖 90 80 70 60 50 40 30 20 10 0 0. 10. 20. 30. 40. 50. 60. 70. 80. 90. 100. 110. 120. 數學成績. 【意義】 1. 我們嘗試在散布圖上找一條盡可能的接近所有樣本點的直線,也就是想找到 一條直線來描述兩變數 X 與 Y 的關係,以推測兩變數的直線關係,這種關 係用來表現這些點的變動規律,以衡量兩個變數的關聯性,並推測它們之間 的關聯程度,這就是相關的意義。 2. 散布圖中,若直線要盡可能的接近所有的樣本點,這種相關就是直線相關。 散布圖中,也可以找一曲線來描述變數 X 與 Y 的關係,這種相關是曲線相 關。 3. 畫出散布圖的目的在於先觀察出資料之間是否有一些比較明顯的關係存 在,若有,我們想要找出一條直線來推測出這兩個變數之間的變動規律,以 衡量這兩個變數的關聯性,並推測出它們之間的關聯程度。若無顯著的一致 1.

(2) 性關係時,不要硬要討論它們之間的關聯程度。. 2.

(3) 【範例】 通常身高與體重會成正比,但是給你一組資料,應該如何來衡量這兩個變數間的 關係呢?如何衡量相關程度的高低?可否由身高來預測體重大約多少? 班上 10 位同學的數學成績與物理成績如下表: 身 高 X ( 公 155 157 163 165 168 169 172 175 178 185 分) 體重 Y (公斤) 45 50 53 55 57 59 63 75 79 83 畫出散布圖: 散布圖 100. 體重. 80. ( x, y ). 60 40 20 0 150. 160. 170. 180. 190. 身高. 通常我們會畫出平均值,並標示於圖形上如上圖,兩直線交點處即為兩變數平均 數之處,即坐標點為 ( x , y ) = (168.7,61.9) 之處。此時若把身高的單位變化成為公 厘後,重新畫出一個散布圖後,並標示於圖形如下圖,兩直線交點處即為兩變數 平均數之處,即坐標點為 ( x , y ) = (1687 ,61.9) 之處。 散布圖 200. 體重. 150 100 50 0 0. 500. 1000. 1500. 2000. 身高. 1.. 2. 3.. 你觀察同樣資料的兩個散布圖,你可能會覺得第二個散布圖中的資料比較集 中,但實際上只是資料單位取的不同而已。所以我們希望有一個不受單位影 響的統計量,來觀察兩個變數之間的相關性強弱。 又若不同單位,會影響統計量的大小時,是否統計量越大就表示相關性越 大,則不是很客觀的,故希望能將資料標準化,而不受單位的影響。 在觀察相關時,我們也希望知道相關的正或負,所以上述畫出兩變數的平均 線的目的,以就是希望能夠觀察出,兩變數之間是呈現正比或是反比,若資 料散布於以 ( x , y ) 當新原點,兩變數平均線當新坐標軸的第一象限或第三象 限比較多時,我們大約可以知道是呈現正相關,若散布於第二象限或第四象 線比較多時,我們大約可以知道是呈現負相關。. 3.

(4) 【目的】 研究兩個變數的相關性,定義相關係數時,希望能有以下性質: 1. 相關性的方向:正相關或負相關。 2. 相關性強度,且強度的範圍希望在 ± 1 之間。 3. 無單位:要與單位無關。 【定義】 1. 正相關: 如果變數 X 的高數值傾向於對應的變數 Y 的高數值,而變數 X 的低數值傾 向於對應的變數 Y 的低數值,稱變數 X 與 Y 之間有正相關。(如圖一) 2. 負相關: 如果變數 X 的高數值傾向於對應的變數 Y 的數數值,而變數 X 的數數值傾 向於對應的變數 Y 的高數值,稱變數 X 與 Y 之間有負相關。(如圖二) 3. 完全正相關: 當變數 X 與 Y 是正相關,且 X 與 Y 的樣本點都落在一直線上(直線與 x 軸正 向斜角小於 90 度)時,稱 X 與 Y 是完全正相關。(如圖三) 4. 完全負相關: 當變數 X 與 Y 是負相關,且 X 與 Y 的樣本點都落在一直線上(直線與 x 軸正 向斜角大於 90 度)時,稱 X 與 Y 是完全負相關。(如圖四). 5.. 6.. (圖一) (圖二) (圖三) (圖四) 無直線相關: 當變數 X 與 Y 的樣本分配,在 X 增大時,Y 沒有固定一個方向的大小趨勢, 稱 X 與 Y 無直線相關。(如圖五、六、七) 註: 例如呈現圓形分布、水平線、垂直線、曲線形、扁平形、全部散開形。. (圖五) (圖六) (圖七) 曲線相關: 兩變數間的關係不是線性的,為二次形、雙曲線形、...等等。 註: 兩變數相關係數為零時,表示兩變數無直線相關而已,但可能有其他的曲線 相關。. 4.

(5) 【意義】 1. 如果知道一個變數的數值,相應的另一變數的數值的變異範圍時,可以用來 測量兩變數之間的關係,範圍越大,兩變數的關係越模糊,也就是兩變數之 間的關聯性很低,表示兩者由不同的因素決定,也就是一變數變動時,另一 變數不一定跟著改變;範圍越小,兩變數的關係越明確,也就是兩變數之間 的關聯性很高,表示兩者幾乎由同一因素決定,也就是一變數變動時,另一 變數跟著改變。 2. 當變數 X 的數值增大,對應的 Y 的數值也增大,那麼樣本點在散布圖中將 呈現出由左下方往右上方的趨勢;此時,接近這些樣本點的直線的斜率為 正,所以稱它為正相關。反之,若變數 X 的數值增大,對應的 Y 的數值卻 減小,那麼樣本點在散布圖中將呈現出由左上方往右下方的趨勢;此時,接 近這些樣本點的直線的斜率為負,所以稱它為負相關。 3. 我們要如何用一個數來描述兩變數之間直線相關的方向與強度呢?一般而 言,將變數 X 與 Y 各以 x 與 y 為基準作平移,如果落在新坐標軸的第一象限 與第三象限內的樣本點越多,∑ ( xi − x )( yi − y ) 的值為正,且其值也越大, X. 與 Y 的正相關程度就越強;如果落在新坐標軸的第二象限與第四象限內的樣 本點越多, ∑ ( xi − x )( yi − y ) 的值為負,且其值也越小, X 與 Y 的負相關程 4.. 度就越強。 當正相關的兩變數 X 與 Y 的樣本點增多時, ∑ ( xi − x )( yi − y ) 的值必增大; 又當 X 與 Y 的標準差變大或縮小時, ( xi − x )( yi − y ) 也會隨著變大或縮小,. 則 ∑ ( xi − x )( yi − y ) 也會隨著變大或縮小;因此,欲求得 X 與 Y 的相關程度 時,必須以 S X 與 SY 為單位,並考慮樣本個數的大小。 【定義】 1. 相關係數(Correlation Coefficient): 設兩變數 X 與 Y 的 n 對數據為 ( x1 , y1 ), ( x2 , y2 ),L, ( xn , yn ) ,且 X 與 Y 的算術平 均數為 x, y ,則 X 與 Y 的相關係數 n. r=. ∑ (x i =1. n. ∑ (x. i. i =1. 2.. i. − x). n. 2. ∑(y i =1. i. =. − y). ∑x y i =1. n. ∑x. 2. i =1. i. i. − nx. i. − nx ⋅ y 。. n. 2. ∑y i =1. i. − ny. 2. 樣本標準差: n. SX =. 3.. n. − x )( yi − y ). ∑ ( xi − x )2 i =1. n. , SY =. ∑(y i =1. i. − y)2. 。 n −1 n −1 樣本互(共)變異數(sample covariance): n n 1 ⎛ n 1 n ⎞ S XY = 1 ∑ ( xi − x )( yi − y ) = ⎜ ∑ xi y i − ∑ xi ∑ y i ⎟ ,稱 S XY 為 n 個樣本 n − 1 ⎝ i =1 n i =1 i =1 ⎠ n − 1 i =1 點 ( x1 , y1 ), ( x2 , y2 ),L, ( xn , yn ) 的兩變數 X 與 Y 的樣本互變異數。 註: 又稱樣本互(共)互變異數,亦可以符號 Cov( X,Y ) 表示。. 5.

(6) 相關: (1) 當 r 為正數時,稱兩變數為正相關; r 為負數時,稱兩變數為負相關。 (2) 當 r = 0 時,稱兩變數為零相關或無相關。資料可能呈現很平均的散布 狀態或在一水平或鉛直的直線上。當相關係數為零時,只能說兩變數缺 乏機率上的線性關係,並未排除變數間有非線性的關係,即無相關並非 不相關。 (3) 當 r = 1 時,稱兩變數為完全正相關,當 r = −1 時,稱兩變數為完全負相 關。 (4) 當 | r | 愈大表示兩變數愈呈線性相關,即當 | r | 趨近於 1 時,雖然不是所 有的點 ( x, y ) 都在一直線上,但卻幾乎在一直線上。 註: (1) r = −1 時,稱完全負相關。 2 (2) − 1 < r ≤ − 時,稱高度負相關。 3 2 1 (3) − < r ≤ − 時,稱中度負相關。 3 3 1 (4) − < r < 0 時,稱低度負相關。 3 (5) r = 0 時,稱零相關。 1 (6) 0 < r ≤ 時,稱低度正相關。 3 1 2 (7) < r ≤ 時,稱中度正相關。 3 3 2 (8) < r < 1 時,稱高度正相關。 3 (9) r = 1 時,稱完全正相關。 註:零相關時,不要稱不相關。 【問題】 1. 不同度量單位是否會影響到相關性強弱?(解:不會) 2. 因為坐標選取不同而畫出同一組資料的不同散布圖是否可能有不同的解 讀?(解:可能) 3. 資料散布在某一水平直線上或某一垂直直線上時是否稱完全相關?(解:否) 4. 標準差較大是否表示相關性比較小呢?(解:否) 5. 資料伸縮或平移是否影響相關性?(解:否) 6. 對 y = x 對稱變換對於相關係數之影響為何?(解:不變) 7. 當兩變數呈現正相關時,是否表示此兩變數一定有實際上的解讀意義? (解:不一定,要相關係數越靠近 1 越好) 4.. 6.

(7) 【性質】 1. 相關係數大約是標準化資料 xi ' , yi ' 相乘後乘積的平均。 2. 相關係數與單位無關,即相關係數不因變數的單位與固定數的增減的改變而 改變,其證明於下列性質。 X −x Y−y 3. 兩變數 X 與 Y ,將資料標準化為 U = 後,可利用最小平方 ,V = SX SY. ˆ. 法 找 到 一 條 最 適 合 所 有 樣 本 點 的 直 線 V = rU , 此 處 的 r 就 是 ( x1 , y1 ), ( x2 , y2 ),L, ( xn , yn ) 的相關係數。 4.. n 1 ⎛ n 1 n ⎞ ⎜ ∑ xi y i − ∑ xi ∑ y i ⎟ 。 n − 1 ⎝ i =1 n i =1 i =1 ⎠. S XY =. n. 5.. ∑(x. r=. i =1. n. ∑(x i =1. 6.. i. i. 1 n ∑ ( xi − x )( yi − y ) n − 1 i =1. − x )( yi − y ) =. n. ∑(y. − x)2. i =1. i. =. 1 n 1 n ( xi − x ) 2 ( yi − y ) 2 ∑ ∑ n − 1 i =1 n − 1 i =1. − y)2. S XY 。 S X SY. 設兩係數 X 與 Y 的相關係數 rXY ,則 − 1 ≤ rXY ≤ 1 。 證明: 設變數 X 與 Y 有 n 個樣本點 ( x1 , y1 ), ( x2 , y2 ),L, ( xn , yn ) , 令 u i = xi − x , vi = y i − y , n. n. ∑ ( xi − x )( yi − y ). 則 X 與 Y 的相關係數 rXY =. n. ∑(x i =1. i. n. ∑(y. − x)2. i =1. i. ∑u v. i i. =. i =1. i =1. n. ,. n. ∑u ∑v. − y)2. i =1. 2. i. i =1. 2. i. n. 且 f (t ) = ∑ (vi − tu i ) 2 , i =1. 則對任意實數 t , f (t ) 恆大於或等於 0 ,又 n. n. i =1. i =1. n. n. n. i =1. i =1. f (t ) = ∑ (vi − tu i ) 2 = ∑ (t 2 ui − 2tu i vi + vi ) = t 2 ∑ u i − 2t ∑ u i vi + ∑ vi ≥ 0 , 2. 2. 2. i =1. 2. 由二次函數的性質知道,恆大於或等於 0 的充要條件為判別式 n. n. n. n. n. i =1. i =1. n. (−2∑ ui vi ) 2 − 4(∑ ui )(∑ vi ) ≤ 0 ,即 (∑ ui vi ) 2 ≤ (∑ ui )(∑ vi ) , i =1. 2. i =1. 2. i =1. 2. 2. i =1. n. 因此. (∑ ui vi ) 2 i =1. n. n. 2. (∑ ui )(∑ vi ) i =1. 2. ≤ 1 ,亦即 rXY ≤ 1 ,所以 − 1 ≤ rXY ≤ 1. 2. i =1. 註: 利用柯西不等式可得相關係數的範圍位於 − 1 與 1 之間: 2. ⎛ n ⎞⎛ n ⎞ ⎛ n ⎞ ⎜ ∑ ( xi − x ) 2 ⎟⎜ ∑ ( yi − y ) 2 ⎟ ≥ ⎜ ∑ ( xi − x )( yi − y )⎟ ⇔ r 2 ≤ 1 ⇔ −1 ≤ r ≤ 1 。 ⎝ i =1 ⎠⎝ i =1 ⎠ ⎝ i =1 ⎠. 7.

(8) 7.. 平移伸縮對相關係數的影響: ⎧si = axi + b ⎧r , ac > 0 , ∀i = 1,2,L , n ,則 rST = ⎨ XY 若⎨ 。 ⎩− rXY , ac < 0 ⎩t i = cyi + d n. ∑ (s. i. rST =. n. ∑ (s. i. i =1. − s). n. 2. ∑ (t i =1. n. =. − s )(ti − t ). i =1. ∑ ((ax. i. i. − t )2. + b) − (ax + b))((cyi + d ) − (cy + d )). i =1. n. ∑ ((ax. i. i =1. + b) − (ax + b))2. n. ∑ ((cy. i. i =1. + d ) − (cy + d ))2. n. ac ∑ ( xi − x )( yi − y ). =. =. i =1. n. | ac |. ∑ ( xi − x )2 i =1. n. ∑(y i =1. i. − y )2. ⎧rXY , ac > 0 ac = ± rXY 。 rXY = ⎨ − r , ac < 0 | ac | ⎩ XY. 註: 故平移伸縮對於相關係數的絕對值不影響,只可能影響正負。. 8.

(9) 【思考】 1. 如下圖,對於散布圖中 10 個樣本點,使用哪一條直線來形容此兩變數的關 係比較好呢?. Y. 散布圖 15 14 13 12 11 10 9 8 7 6 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. X. 2.. 3.. 4.. 要找出此條心目中的理想直線時,要用何種標準去判斷,所取到的直線是好 還是不好的,這就需要一種標準來決定誤差是大還是小。也希望處理誤差的 過程當中,能夠有容易的代數方法來處理問題。 如果散布圖顯示出兩個數量變數之間的直線相關,我們會希望在散布圖中取 一條直線,來對兩變數的關係做一個描述。最小平方法就是一種找出這樣的 直線之方法,找出來的直線稱為最佳直線(最適合直線)或迴歸直線,利用迴 歸直線可以利用一個變數來解釋或預測另一個變數,條件是它們之間的關係 是可以解釋或預測的。 設變數 X 與 Y 有 n 個樣本點 ( x1 , y1 ), ( x2 , y2 ),L, ( xn , yn ) ,利用散布圖呈現變數 X 與 Y 的分布情形,利用相關係數算出 X 與 Y 的相關程度,現在我們想找 一個線性函數 β 0 + β1 x ,可以讓我們根據變數 X 之值 xi , i = 1,2, L , n ,求得 ) ) ) 變數 Y 之值 yi 的估計值之值 yi ,使得所有 yi 與 yi 之差,其平方 ( yi − yi ) 2 之 n n ) 和最小,也就是使 ∑ ( yi − yi ) 2 = ∑ [ yi − ( β 0 + β1 xi )]2 最小,這就是利用最小 i =1. 5.. i =1. 平方法求迴歸直線的意涵。 利用最小平方法來推算其迴歸直線 yˆ = a + bx 之中的係數 a, b ,其推算過程 中,主要是利用二次式的配方法。. 9.

(10) 【定義】 1. 觀察值(實際資料值): yi 。 2. 擬合值(估計值): yˆi = a + bxi 。 3. 殘差: ei = y i − yˆ i 。 4. 殘差平方和(越小越好) : n. n. n. i =1. i =1. ∑ ei = ∑ ( yi − yˆi ) 2 = ∑ [ yi − (a + bxi )]2 。 i =1. 5.. 2. 標準化資料: 將資料 ( xi , yi ) 轉化成 (. 6.. xi − x yi − y , ) 的過程,稱將資料標準化,即化成平均 SX SY. 數 0 ,標準差 1。 註: n n y −y x −x 若 ui = i ,則 ∑ u i = 0, ∑ vi = 0 , , vi = i SX SY i =1 i =1 故 u = 0, v = 0 ,且 SU = 1, SV = 1 。 迴歸直線(regression line)(最佳直線)(用於預測與估計): 設兩變數 X 與 Y 的 n 個樣本點為 ( x1 , y1 ), ( x2 , y2 ),L, ( xn , yn ) , 利用最小平方法可求得變數 Y 對 X 的迴歸直線的方程式(或稱迴歸方程)為 n. yˆ = a + bx ,其中 b =. ∑x y i =1 n. ∑x i =1. 7.. i. i. 2 i. − nx ⋅ y =r. − nx 2. SY , a = y − bx , SX. b 稱 Y 對 X 的迴歸係數, r 為 X 與 Y 的直線相關係數, 其中 x, y 分別為 X 與 Y 的算術平均數, S X , SY 分別為 X 與 Y 的樣本標準差。 註: (1)若將資料標準化後,所求得的最佳直線之斜率即為相關係數,即標準化 ⎛ y− y⎞ ⎛ x−x⎞ ⎟⎟ 。 ⎟⎟ = r ⎜⎜ 資料的迴歸直線為 v = ru (斜率為 r ),即 ⎜⎜ ⎝ SY ⎠ ⎝ S X ⎠ (2)變數 Y 對 X 的迴歸係數與 X 對 Y 的迴歸係數不同;而變數 X 與 Y 的相關 係數就是 Y 與 X 的相關係數。 (3)迴歸直線必定經過點 ( x , y ) 。 預測值: 給定 x = xh ,則 y 的預測值為 yˆ h = a + bx h 。. 10.

(11) 【證明】 1. (方法一) 標準化資料後利用最小平方法(principle of least square)求 u = a + bv : 找 u = a + bv , n. n. n. i =1. i =1. 得殘差 ∑ ei = ∑ (vi − vˆi ) 2 = ∑ [vi − (a + bui )]2 最小, 2. i =1. 即是求出最佳的 a, b 的估計值, n. n. n. n. ∑ ei 2 = ∑ (vi − vˆi ) 2 = ∑[v − (a + bu )]. 2. i =1. =. i. i =1. i =1. i. n. n. = ∑ [(vi − bui ) − a ]2 i =1. n. ∑ (vi − bui ) 2 − 2a∑ (vi − bui ) + na 2 = ∑ (v i =1. i =1. i =1. i. n. 則 a = 0 且 ∑ (vi − bu i ) 2 最小時,殘差平分和最小, i =1. n. n. n. n. i =1. i =1. 但 ∑ (vi − bu i ) 2 = ∑ vi − 2b∑ u i vi +b 2 ∑ u i , i =1. i =1. n. 故b =. ∑. ⎛ xi − x ⎞⎛ yi − y ⎞ ⎜⎜ ⎟⎟⎜⎜ ⎟ ∑ SY ⎟⎠ i =1 ⎝ S X ⎠ ⎝ = = 2 n ⎛ xi − x ⎞ ⎟⎟ ⎜⎜ ∑ i =1 ⎝ S X ⎠ n. u i vi. i =1 n. ∑ ui 2 i =1. n. =. 2. ∑ (x. i. − x )( yi − y ) n. ∑ (x − x) ∑( y 2. i =1. i. i =1. i. − y). ∑ (x i =1. i. − x )( yi − y ). ( n − 1) S X S Y. = r 時有最小值,. i =1. n. 2. n. 2. 即標準化後資料的迴歸直線為 v = ru , ⎛ y− y⎞ ⎛ x−x⎞ ⎟⎟ , ⎟⎟ = r ⎜⎜ 轉回原來資料故得 ⎜⎜ ⎝ SY ⎠ ⎝ S X ⎠ S S S 即 y = y + r Y ( x − x ) = (r Y ) x − ( y − r Y x ) = a + bx 。 SX SX SX. 11. n. n. i =1. i =1. − bu i ) 2 + na 2 (因 ∑ ui = ∑ vi = 0 ).

(12) 2.. (方法二) 利用微積分方法求 y = a + bx : n. n. n. i =1. i =1. 找 y = a + bx ,得殘差 ∑ ei = ∑ ( yi − yˆ i ) 2 = ∑ [ yi − (a + bxi )]2 最小, 2. i =1. 即是求出最佳的 a, b 的估計值, n. n. n. i =1. i =1. 設 f (a, b) = ∑ ei 2 = ∑ ( yi − yˆ i ) 2 = ∑ [ yi − (a + bxi )]2 i =1. n n ⎧n ⎧ ∂f (a, b) − − y a b = − − + = 2 [ y ( a bx )] 0 ⎪∑ i ∑ ∑ xi = 0 ∑ i i ⎪ ∂a ⎪ ⎪ i =1 i =1 i =1 i =1 ⇒⎨ ⇒⎨ n n n n ⎪ ∂f (a, b) = −2 x [ y − (a + bx )] = 0 ⎪ x y −a x − b x 2 = 0 ∑ i i i ∑i ⎪∑ i i ∑ i ⎪⎩ ∂b i =1 i =1 i =1 ⎩ i =1 n. ⎧a + bx = y ⎪ n n ⇒⎨ 2 + = n x a b x xi yi ∑ ∑ i ⎪ i =1 i =1 ⎩ n. n. ⇒b=. ∑ xi yi − nx ⋅ y. i =1 n. 2 ∑ xi − nx. i =1. 2. =. ∑ (x i =1. i. − x )( yi − y ). n. ∑ (x i =1. i. − x)2. =. S XY S S S = XY × Y = r Y , 2 S X SY S X SX SX. S S S 故 a = y − bx = y − r Y x ,迴歸直線為 y = a + bx = ( y − r Y x ) + r Y X , SX SX SX. 即y = y+r. ⎛ y− y⎞ ⎛ x−x⎞ SY S S ⎟⎟ 。 ⎟⎟ = r ⎜⎜ ( x − x ) = ( r Y ) x − ( y − r Y x ) ,故 ⎜⎜ S S SX SX SX ⎝ Y ⎠ ⎝ X ⎠. 12.

(13) 3.. (方法三) 利用配方法求: n. n. n. i =1. i =1. ∑ ei 2 = ∑ ( yi − yˆi )2 = ∑[ yi − (a + bxi )]2 i =1. n. = ∑ (a 2 + 2abxi + b 2 xi − 2ayi − 2bxi yi + yi ) 2. 2. i =1. n. n. n. n. n. i =1. i =1. i =1. = na 2 + 2ab ∑ xi + b 2 ∑ xi − 2a ∑ yi − 2b∑ xi yi + ∑ yi i =1. 2. i =1. 2. n. = na 2 + 2abnx + b 2 [∑ ( xi − x ) 2 + nx 2 ] − 2any i =1. n. n. − 2b∑ [( xi − x )( yi − y ) + nx y ] + [∑ ( yi − y ) 2 + ny 2 ] i =1. i =1. n. = n(a 2 + 2abx + b 2 x 2 ) + b 2 ∑ ( xi − x ) 2 − 2any i =1. n. n. − 2b∑ ( xi − x )( yi − y ) − 2bnx y + ∑ ( yi − y ) 2 + ny 2 i =1. i =1. n. n. n. = n(a + bx )2 + b2 ∑( xi − x )2 − 2ny(a + bx ) − 2b∑ ( xi − x )( yi − y) + ∑ ( yi − y )2 + ny 2 i =1. i =1. i =1. n. n. n. i =1. i =1. i =1. = n[(a + bx )2 − 2 y(a + bx ) + y 2 ] + b2 ∑( xi − x )2 − 2b∑( xi − x )( yi − y) + ∑( yi − y)2 = n[(a + bx ) − y ]. 2 2. ⎞ ⎛ n ( xi − x )( yi − y ) ⎜ ∑ ( xi − x )( yi − y ) ⎟ ∑ n ⎟ ] + ⎜ i =1 n + ∑ ( xi − x ) 2 [b 2 − 2b i =1 n ⎟ ⎜ i =1 ( xi − x ) 2 ( xi − x ) 2 ∑ ∑ ⎟ ⎜ i =1 i =1 ⎠ ⎝ n. 2. ⎛ n ⎞ ⎜ ∑ ( xi − x )( yi − y ) ⎟ n ⎠ + ( y − y )2 − ⎝ i =1 n ∑ i 2 i =1 ( x − x ) ∑ i i =1. n. n. = n[(a + bx ) − y ] + ∑ ( xi − x ) [b − 2. 2. ∑ (x. i. n. ∑ (x. i =1. i =1. ⎛ n ⎞ ⎜ ∑ ( xi − x )( yi − y ) ⎟ n ⎠ + ∑ ( yi − y ) 2 − ⎝ i =1 n i =1 ∑ ( xi − x )2. − x )( yi − y ). i =1. i. ]2 − x )2. 2. i =1. n. 當 y = a + bx 且 b =. ∑ ( x − x )( y i. i. − y). i =1. n. ∑ (x i =1. i. − x )2. n. 時, ∑ ei 有最小值。 i =1. 13. 2.

(14) 【範例】 設 ( x1 , y1 ) = (−2,0), ( x2 , y2 ) = (0,1), ( x3 , y3 ) = (1,1) , 試 找 出 實 數 a, b , 使 得 3. ∑[ y i =1. i. − (a + bxi )]2 有最小值。. 解答: 3. ∑[ y i =1. i. − (a + bxi )]2. = [ y1 − (a + bx1 )]2 + [ y2 − (a + bx2 )]2 + [ y3 − ( a + bx3 )]2. = [0 − (a − 2b)]2 + [1 − (a + 0)]2 + [1 − (a + b)]2 = a 2 − 4ab + b 2 + 1 − 2a + a 2 + 1 + a 2 + b 2 − 2a − 2b + 2ab = 3a 2 − 2ab + 5b 2 − 4a − 2b + 2 2 2 14 5 11 = 3(a − b − ) 2 + (b − ) 2 + 3 3 3 14 14 2 2 ⎧ a− b− =0 ⎪⎪ 3 3 當⎨ 時,有最小值, 5 ⎪b − ⎪⎩ 14 = 0 11 ⎧ = a ⎪⎪ 14 。 得⎨ ⎪b = 5 ⎪⎩ 14 【問題】 1. 若變數 X 與 Y 的相關係數為零,是否迴歸直線的斜率為零?(解:是) 2. 若迴歸直線的斜率為零,是否將資料標準化後之迴歸直線的斜率也為零? (解:是) 3. 若變數 X 與 Y 原先為直線關係(即相關係數為 1 或 0 ),是否將資料標準化後 之迴歸直線斜率只可能為 1或 0 ?(解:是) 4. 若資料標準化後,兩變數呈現直線關係,問原本資料為何種關係? (解:直線相關) 5. 迴歸直線必定經過資料平均數 ( x , y ) ?(解:是) 6. 將資料標準化後,所求得的迴歸直線必定經過原點?(解:是). 14.

(15)

參考文獻

相關文件

競賽期間自備之相關填充材質(如保麗龍片及玻璃籤維,棉紗線等)須於

 相關係數﹕顯示兩個隨機變數之間線性關係的強度和方向,數值介乎-1 和 1。方向以符號劃分,正值表示相同,負值表示相反。強度則以絕對值 大小衡量,一般而言,小於

此外,視圖與視圖之間隔距離,不宜太遠或太近,通常

一組曲線 F 的垂直軌跡 (orthogonal trajectory) ,是指一條 曲線在與 F 中的曲線相交時,在交點相交的角度為直角。如

( )附圖是某電信公司的通話費計算方式:300 秒以內只繳基本費,超過 300 秒之後的費用與

酸鹼滴定、一次微分、二次微分曲線圖..

[r]

檢查圖形上的每一點在對稱軸之兩側等距離位置是否都有對稱點,若 有,則此圖形是線對稱圖形。. ( 若圖形可以拿起來對折,可以沿著對稱軸對折,檢查圖形是否會完全