• 沒有找到結果。

5-1-4機率與統計(二)-相關係數

N/A
N/A
Protected

Academic year: 2021

Share "5-1-4機率與統計(二)-相關係數"

Copied!
7
0
0

加載中.... (立即查看全文)

全文

(1)5-1-4 機率與統計(二)-相關係數 【定義】 散佈圖: 要了解兩個變數間是否有關,最直接的方法就是將 n 筆資料 ( xi , yi ), i = 1,2,", n 畫 在坐標平面上,所得圖形稱 y (應變數)對 x (自變數)的散佈圖。目的在於觀察 y (應變數)對 x (自變數)之間的相關性。有時資料很多或坐標不需要時,可以將 之省略。 【定義】 相關: 1. 正相關:當一個變數的數值增加時,另一個變數的數值有增加的趨勢。 2. 負相關:當一個變數的數值增加時,另一個變數的數值有減少的趨勢。 3. 完全相關:兩個變數的散佈圖所有點都在一條斜的直線上。 4. 完全正相關:兩個變數的散佈圖所有點都在一條斜率為正的直線上(直線斜 角小於 90 度)。 5. 完全負相關:兩個變數的散佈圖所有點都在一條斜率為負的直線上(直線斜 角大於 90 度)。 6. 無關:兩變數之間沒有關係的,例如呈現圓形分布,水平線,垂直線,扁平 形,全部散開形。 7. 曲線相關:兩變數間的關係不是線性的,為二次形、雙曲線形、...等等。 【定義】 相關係數: 研究兩個變數的相關性,要能表示出 1. 相關性的方向:正相關或負相關。 2. 相關性強度。 3. 要與單位無關。 4. 強度的範圍希望在正負1之間。 【定義】 資料標準化:. xi − X 。 SX 平均值 標準差 SX X. 將資料標準化,化成平均數 0,標準差 1,即 xi ' =. 原始資料 標準化資料. 資料 xi. xi ' =. xi − X SX. 0. 1. 【性質】 1. 避免坐標選取不同產生的視覺差異。 2. 相關係數大約是標準化資料 xi ' , yi ' 相乘後成績的平均。 3. 相關係數為正時,表示大部份 xi ' , yi ' 資料同號,大部份分布在第一、第三象 限,即 xi 大於平均數 X 時, yi 也有大於平均數 Y 的趨勢; xi 小於平均數 X 時, yi 也有小於平均數 Y 的趨勢,當越靠近 y ' = x' 直線時,相關係數越強, 否則越弱。 4. 相關係數為負時,表示大部份 xi ' , yi ' 資料異號,大部份分布在第二、第四象.

(2) 限,即 xi 大於平均數 X 時, yi 有小於平均數 Y 的趨勢; xi 小於平均數 x 時,. yi 有大於平均數 y 的趨勢。 n. 5.. ∑x 'y '. r=. i. i =1. i. n −1 xi − X y i − Y ∑ SX SY = i =1 n −1 n xi − X yi − Y n. ∑. n. ∑ ( xi − X ). i =1. n. ∑ ( yi −Y ). 2. i =1. n −1. =. 2. i =1. n −1. n −1 n. ∑ (x. =. i =1. i. − X )( y i − Y ). n. n. ∑ ( xi − X ) 2. ∑(y. i =1. i =1. n. ∑ (x y. =. i =1. n. i. i. − Y )2. − nXY). i. n. (∑ xi − n X )(∑ y i − nY ) 2. 2. i =1. i =1. n. ∑ (x y. =. 2. 2. i =1. n. i. − nXY). i. n. (∑ xi − n X ) ⋅(∑ y i − nY ) 2. 2. i =1. 2. 2. i =1. n S XY ,其中 S XY = ∑ ( xi y i − n X Y ) 稱 X , Y 的樣本互變異數 S X SY i =1 【性質】 1. 利用科西不等式可得. =. n. n. n. i =1. i =1. (∑ ( xi − X ) 2 ) ⋅(∑ ( y i − Y ) 2 ≥ (∑ ( xi − X )( y i − Y )) 2 i =1. ⇔ r ≤ 1 ⇔ −1 ≤ r ≤ 1 。 2. 相關係數與單位無關,即相關係數不因變數的單位與固定數的增減的改變而 改變。 3. 平移伸縮對相關係數的影響: ⎧si = axi + b ⎧rXY , ac > 0 試證明:若 ⎨ 。 , ∀i = 1,2," , n ,則 rST = ⎨ ⎩− rXY , ac < 0 ⎩t i = cyi + d 2. n. rST =. ∑ si ' t i ' i =1. n −1. n. =. ∑ (s i =1. i. − S )(t i − T ). n. n. i =1. i =1. ∑ (si − S ) 2 ⋅∑ (t i − T ) 2.

(3) n. =. ∑ ((ax i =1. i. + b) − (a X + b))((cyi + d ) − (cY + d )). n. n. ∑ ((axi + b) − (a X + b)) 2 ⋅∑ ((cyi + d ) − (cY + d )) 2 i =1. i =1. n. =. ac∑ ( xi − X )( y i − Y ) i =1. n. n. i =1. i =1. a 2 c 2 ∑ ( xi − X ) 2 ⋅∑ ( y i − Y ) 2 ac = rXY | ac | ⎧rXY , ac > 0 =⎨ ⎩− rXY , ac < 0 = ± rXY 故平移伸縮對於相關係數的絕對值不影響。 4. r > 0 稱正相關; r = 1 稱完全正相關 r < 0 稱負相關; r = −1 稱完全負相關 r = 0 稱零相關或不相關 | r |→ 1 時,所有資料幾乎都在一直線上 5. r = −1 時,稱完全負相關 2 − 1 < r ≤ − 時,稱高度負相關 3 2 1 − < r ≤ − 時,稱中度負相關 3 3 1 − < r < 0 時,稱低度負相關 3 r = 0 時,稱零相關 1 0 < r ≤ 時,稱低度正相關 3 1 2 < r ≤ 時,稱中度正相關 3 3 2 < r < 1 時,稱高度正相關 3 r = 1 時,稱完全正相關 【問題】 1. 不同度量單位是否會影響到相關性強弱? 2. 因為坐標選取不同而畫出同一組資料的不同散佈圖是否可能有不同的解 讀? 3. 資料散布在某一水平直線上或某一垂直直線上時是否稱完全相關? 4. 標準差較大是否表示相關性比較小呢? 5. 資料伸縮或平移是否影響相關性? 6. 平移伸縮對於平均數之影響為何? 7. 平移伸縮對於標準差之影響為何? 8. 平移伸縮對於變異係數之影響為何?.

(4) 9. 平移伸縮對於相關係數之影響為何? 10. 對 y = x 對稱變換對於相關係數之影響為何? 【定義】 1. 直線: y = a + bx 2. 觀察值(實際資料值): yi 3. 擬合值(估計值): yˆ i = a0 + bxi 4. 殘差: ei = yi − yˆ i 5. 殘差平方和(越小越好): n. ∑. n. ∑. ei 2 =. i =1. ( yi − yˆ i ) 2 =. i =1. n. ∑ ( yi − (a + bxi )) 2 i =1. x −X y −Y 標準化資料: ui = i , vi = i , SX SY. 6.. n. n. i =1. i =1. 則 ∑ ui = 0, ∑ vi = 0 【方法一】 標轉化資料後利用最小平方法求 u = a + bv : 找 u = a + bv n. n. n. i =1. i =1. i =1. 得殘差 ∑ ei 2 = ∑ (vi − vˆi ) 2 = ∑ (vi − (a + bui )) 2 最小 即是求出最佳的 a, b 的估計值 (大學時可用微積分方法求之) n. ∑ ei 2 i =1. = =. n. ∑ (vi − vˆi ) 2 i =1 n. ∑ (vi − (a + bui ))2 i =1 n. = ∑ ((vi − bui ) − a) 2 i =1. =. n. ∑. (vi − bui ) 2 − 2a. i =1. n. ∑ (vi − bui ) + na 2 i =1. n. = ∑ (vi − bui ) 2 + na 2 i =1. n. 則 a = 0 且 ∑ (vi − bui ) 2 最小時,殘差平分和最小 i =1. 但 n. ∑ (vi − bui ) 2 i =1. n. n. n. i =1. i =1. = ∑ vi − 2b∑ ui vi +b 2 ∑ ui i =1. 2. 2.

(5) 故 b n. =. ∑ u i vi i =1 n. ∑ ui 2 i =1 n. =. ∑ i =1. ( xi − X ) ( y i − Y ) SX SY ( xi − X ) 2. n. ∑. SX. i =1. =. n. 1 S X SY. ∑ (x i =1. 1 SX n. =. ∑ (x i =1. i. i. 2. − X )( y i − Y ). (n − 1) S X. 2. 2. − X )( y i − Y ). (n − 1) S X S Y n. ∑ (x. =. i =1. i. − X )( yi − Y ). n. n. i =1. i =1. ∑ ( xi − X ) 2 ⋅∑ ( yi − Y ) 2 = r 時有最小值 即標準化後資料的最佳直線為 v = ru 轉回原來資料故得 ⎛ y −Y ⎜ ⎜ S ⎝ Y. ⎞ ⎛x− X ⎟ = r⎜ ⎟ ⎜ S ⎠ ⎝ X. ⎞ ⎟ ⎟ ⎠. 即 SY (x − X ) SX S S = (r Y ) x − (Y − r Y X ) SX SX = a + bx y =Y +r. 【定義】 迴歸直線(最佳直線)(用於預測與估計): y = a + bx. y 對 x 的迴歸式: 標準化資料的迴歸直線為 v = ru , ⎛ y −Y ⎝ SY. 即 ⎜⎜. ⎞ ⎛x− X ⎟ = r⎜ ⎟ ⎜ S ⎠ ⎝ X. ⎞ ⎟ ⎟ ⎠. 預測值: 給定 x = xh ,則 y 的預測值為 yˆ h = a + bxh.

(6) 【方法二】 利用微積分方法求 y = a + bx : n. n. n. i =1. i =1. i =1. 找 y = a + bx ,得殘差 ∑ ei 2 = ∑ ( yi − yˆ i ) 2 = ∑ ( yi − (a + bxi )) 2 最小 即是求出最佳的 a, b 的估計值 設 f ( a, b) = = =. n. ∑ ei 2 i =1 n. ∑ ( yi − yˆ i ) 2 i =1 n. ∑ ( yi − (a + bxi )) 2 i =1. n ⎧ ∂f (a, b) 2 ( yi − (a + bxi )) = 0 = − ∑ ⎪ ∂a ⎪ i =1 ⇒⎨ n ⎪ ∂f (a, b) = −2 x ( y − (a + bx )) = 0 ∑ i i i ⎪⎩ ∂b i =1. n n ⎧n ⎪ y i − a − b xi = 0 ⎪ i =1 i =1 i =1 ⇒⎨ n n n ⎪ x y a x b xi 2 = 0 − − i i i ⎪ i =1 i =1 ⎩ i =1. ∑. ∑. ∑. ∑. ∑. ⎧a + b X = Y ⎪ n ⎪ ⇒⎨ xi 2 ⎪ i =1 = ⎪a X + b n ⎩. ∑. ∑. ∑ xi y i. n. ∑ xi yi. ⇒b=. i =1. n n. ∑ xi. i =1. n. −X Y. 2. −X. 2. n. =. ∑ xi y i − n X Y i =1 n. ∑ xi 2 − n X. 2. i =1 n. =. ∑ ( xi − X )( yi − Y ) i =1. n. ∑ ( xi − X ) 2 i =1. =. S XY SX 2. n. i =1. n.

(7) =r. SY SX. 故 a = Y − bX = Y − r. SY X SX. 最佳直線為 y = a + bx = (Y − r. SY S X)+r Y X SX SX. 即 SY (x − X ) SX S S = (r Y ) x − (Y − r Y X ) SX SX y =Y +r. ⎛ y −Y ⎞ ⎛ x − X ⎟ = r⎜ ⎟ ⎜ S ⎝ Y ⎠ ⎝ SX. 即 ⎜⎜. ⎞ ⎟ ⎟ ⎠. 【定義】 迴歸直線(最佳直線)(用於預測與估計): y = a + bx. y 對 x 的迴歸式: n. S y = a + bx ,其中 b = r Y = SX. ∑ (x i =1. i. − X )( y i − Y ) ,b = Y − aX. n. ∑ (x i =1. i. − X). 2. 預測值:給定 x = xh ,則 y 的預測值為 yˆ h = a + bxh 【問題】 1. 標準化資料的最佳直線必定經過原點? 2.. 最佳直線必定經過資料平均數 ( X , Y ) ?.

(8)

參考文獻

相關文件

競賽期間自備之相關填充材質(如保麗龍片及玻璃籤維,棉紗線等)須於

對數函數之微分及其 對數函數之微分及其.. 相關之積分

 相關係數﹕顯示兩個隨機變數之間線性關係的強度和方向,數值介乎-1 和 1。方向以符號劃分,正值表示相同,負值表示相反。強度則以絕對值 大小衡量,一般而言,小於

[r]

一組曲線 F 的垂直軌跡 (orthogonal trajectory) ,是指一條 曲線在與 F 中的曲線相交時,在交點相交的角度為直角。如

這些 dimensions 之間的關係, 而這些關係和 ordered basis 的選取無關, 所以 A, B associated λ 的 elementary Jordan matrices 的各個階數的個數會相同, 也就是 A,B 可以化為相同的

「光滑的」邊界 C。現考慮相鄰的 兩個多邊形的線積分,由於共用邊 的方向是相反的,所以相鄰兩個多

同時具備 非自願離職身分之特定對象失業 者,依就業促進津貼實施辦法第29條第2項 規定,應 優先依非自願離職身分參加