相關係數面面觀 - 政大學術集成
全文
(2) 摘要. 摘要 相關係數 r 是一個用以描述兩變量之間線性關係程度的指標。它的值域範圍介於 1 到 1 之間,正、 負號表示兩變量之間的相關方向,而 r 的大小則表示兩變量間相關程度的強弱。本文主要從皮爾森積 差相關係數的概念下手,從不同向度切入來探討兩變量間的線性相關性,提供多樣面向的兩變量相關 強弱程度的解釋與演繹計算的方法。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v.
(3) 摘要. Abstract The correlation coefficient r is an indicator of the degree of linear relation between two variables. Its values range between 1 and 1 ; positive signs and negative signs indicate the directions of correlations between two variables. Its absolute value indicates the strength of correlation between two variables. This study starts with the Pearson product-moment correlation coefficient and explores the linear correlation between the two variables from different aspects. We then provide various explanations for the strength of linear correlation between two variables and its calculation methods.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v.
(4) 目錄. 目. 錄. 第一章 研究動機 ........................................................................................................................... 1 第二章 皮爾森積差相關係數 ......................................................................................................... 2 第一節 圖形散佈 .................................................................................................................................. 2 第二節 r 的值域 ................................................................................................................................... 4 第三章 資料標準化線性關係不變 ................................................................................................. 6 第一節 變數資料標準化後,線性關係不變 ...................................................................................... 6. 政 治 大. 第二節 公式推導 .................................................................................................................................. 7. 立. 第四章 標準化共變異數 ................................................................................................................ 8. ‧ 國. 學. 第一節 共變異數 .................................................................................................................................. 8. ‧. 第二節 相關係數與共異變數關係 ...................................................................................................... 8. sit. y. Nat. 第五章 相關係數與標準化迴歸直線的斜率關係 ......................................................................... 11. al. er. io. 第一節 簡單迴歸分析 ........................................................................................................................ 11. v. n. 第二節 皮爾森積差相關係數主要是用於直線關係。 .................................................................... 13. Ch. engchi. i Un. 第三節 相關係數 r 的絕對值等同兩廻歸直線斜率的幾何平均數 ................................................. 14 第六章 方向餘弦與相關係數 ....................................................................................................... 15 第一節 向量內積 ................................................................................................................................ 15 第二節 歐氏空間 n .......................................................................................................................... 16 第七章 兩個標準化迴歸直線的夾角與相關係數關係.................................................................. 18 第一節 相關係數不因觀測變數角度不同改變 ................................................................................ 18 第二節 兩直線銳角夾角與皮爾森相關係數 r 的關係 ..................................................................... 19 第三節 公式推導 ................................................................................................................................ 19.
(5) 目錄. 第八章 判定係數與相關係數 ....................................................................................................... 21 第一節 判定係數 R 2 ........................................................................................................................... 21 第二節 判定係數 R 2 相關係數 r 2 ................................................................................................... 22 第九章 結論與建議 ..................................................................................................................... 24 參考文獻 ...................................................................................................................................... 25 附錄.............................................................................................................................................. 26 相關名詞解釋...................................................................................................................................... 26 圖檔...................................................................................................................................................... 28. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v.
(6) 第一章 研究動機. 第一章 研究動機 我們常常想要了解兩個變數間是否具有某種關聯性,比方說如果其中一個變數增加時,另一個變 數是否也會增加?或者是其中一個增加時,另一個反而減少? 畢竟一大堆資料是沒辦法隨身帶著走的。想要形容一組資料中兩變數間的關聯性時,如果可以藉 由一個簡單的指標來做描述,自然是再好不過了。因此究竟有沒有辦法可以藉由一個簡單的統計量來 描述兩個變數之間的關聯性呢? 統計學上,用來描述兩個變數間線性相關性強弱的一個工具就是「相關係數」(Correlation Coefficient)。基本上就是希望設法用一個『數』來表示兩者之間線性關聯程度的大小,同時說明關聯. 政 治 大. 的方向(亦即其中一個變數變大時,另一個變數會隨之變大或變小)。. 立. 本研究主要是以高中課程中所介紹的相關係數定義方式為出發點,希望藉由不同向度來切入了解. ‧ 國. 學. 相關係數 r 的可能意涵。主要參考文獻為 Joseph Rodgers 及 W. Alan Nicewander 的論述. Thirteen Ways. y. Nat. 的觀點來進行探討。. ‧. to Look at the Correlation Coefficient.(Rodgers and Nicewander (1988)),擷取其中適合高中學生程度. er. io. sit. 第二章為皮爾森積差相關係數 r 的定義介紹。首先以皮爾森積差相關係數 r 來說明兩變數間資料 的散佈關係,再利用柯西不等式討論 r 的值域範圍。第三章為第二章的觀念延伸,但是改將變數的資. al. n. iv n C 料先行標準化後,再來看兩變數間的相關性;藉由數理觀點驗證兩變數間的線性關係並不會因為標準 hengchi U. 化後而改變其原有的線性關係。第四章以共變異數的向度來看相關係數,這是因為共變異數標準化 後,去除單位的因素干擾,焦點將著重在於測量兩變數線性關係強弱的判斷。第五章,藉由直線的線 性關係和斜率,以迴歸直線向度切入來看相關係數。由線性關係來看,標準化迴歸直線的斜率與兩標 準化廻歸直線斜率的幾何平均數均可用以表示相關係數。觀看兩標準化兩迴歸直線與兩軸的夾角相等 關係,可以得出變數間相關性的強弱不會因為端看資料的角度不同而改變。第六章以向量的方向餘弦 角度切入看相關係數;第七章以兩迴歸直線交角向度看相關係數。第八章以判定係數 R 2 為結尾,利 用判定係數 R 2 和相關係數 r 的關係,計算求得 r 值。第九章則為結論與建議。. 頁 1.
(7) 第二章 皮爾森積差相關係數. 第二章 皮爾森積差相關係數 皮爾森積差相關係數(Pearson Product Moment Correlation Coefficient) r 探究的是兩個變數之間的 線性關係,其中這兩個變數在本質上必須是連續的,換句話說,這些變數理論上可以取用某個連續區 間中的任何數值,例如身高、年齡、考試成績或收入。至於其他不連續的隨機變數,例如種族〈如白 人和黑人〉、社會階級〈如高和低〉和政治背景〈如民進黨或國民黨〉等,則不在探討的範圍內。 令 X1 , Y1 、 X 2 , Y2 、…、 X n , Yn 為 n 筆資料。就此資料而言,皮爾森積差相關係數 r 的定義 如下: X Y Y 政 治 大 X X Y Y n. r. X i 1. n. . 立. i. i. 2. i. . 2. i. i 1. 學. ‧ 國. i 1. n. 其中, X 、 Y 分別為變數 X 、 Y 的算術平均數。. 圖形散佈. ‧. 第一節. y. Nat. er. io. 表現嗎?這是一個很有趣的問題。. sit. 利用散佈圖來觀看兩變數資料的關係,很有感覺。不過,兩變數資料的相關程度可以用數值加以. al. n. iv n C 算術平均數(簡稱平均值)稱為資料的中心點。簡單來說,當每一個資料都減去平均值時,這些數 hengchi U. . . . . . . . 的總和就是 0 ,亦即 X X 0 、 Y Y 0 ;其中 X X 、 Y Y 為離均差,也就是變數資 料 X 、 Y 和平均值 X 、 Y 的差。因為離均差總和為 0 ,所以我們稱平均值為資料的中心點,因此平均 值是非常重要的「資料代表數」。. . . 以 X , Y 為座標點原點來觀看資料分散的情形,恰可將散佈圖分割為四個象限。第一象限內各點. . . . . . . . . . 之 X X 及 Y Y 均為正,其乘積 X X Y Y 為正;第二象限內各點之 X X 為負,而 Y Y. . . . . 為正,其乘積為負;第三象限內各點之 X X 及 Y Y 均為負,其乘積為正;第四象限內各點之. X X 為正,而 Y Y 為負,其乘積為負。如下圖 2.1-1 所示: 頁 2.
(8) 第二章 皮爾森積差相關係數. 圖 2.1-1. 圖 2.1-2 顯示,資料落於第一、三象限的數量明顯多於第二、四象限,兩變數間似乎呈現出正比 的關係。反之,圖 2.1-3 則顯示資料落於第二、四象限數量明顯多於第一、三象限,兩變數間似乎呈 現出反比的關係。. 政 治 大. 立. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat 圖 2.1-2. Ch. n engchi U. 圖 2.1-3. iv. 由於兩變數 X 與 Y 若呈現正比關係時,也就是說 X 值上升(下降)時, Y 值也呈現上升(下降)的趨. . . . . . . 勢,則多半的 X X Y Y 均為正,所以其和 X X Y Y 也為正,當關聯程度愈高時,則資. . . . 料散佈在第一、第三象限的內的點數也會愈多,因此 X X Y Y 之值必為較大正數。反之,若 兩變數成反比關係時,也就是說 X 值上升(下降)時,Y 值則呈現下降 (上升)的趨勢,則多半的. X X Y Y 為負,因此 X X Y Y 為負,同樣地,關聯程度愈高,則密集於第二、第四象 . . . 限內的點數愈多,因此 X X Y Y 之值必為愈小的負數。. . . . 藉由前述的說明可以發現,由於 X X Y Y 之正負與大小,恰好可以反映出變數間究竟呈. . . . 現出正比或反比的關係以及關係的強弱,因此 X X Y Y 可作為測量兩變數 X 與 Y 的相關程度 頁 3.
(9) 第二章 皮爾森積差相關係數. 的一個指標。 綜合上述的觀察,我們可以發現下列結果: 1.. 當 r 0 時, X 與 Y 成正比關係,也就是說 X 值上升(下降)時,Y 值也呈現上升(下降)的趨勢。 反之,當 r 0 時, X 與 Y 成反比關係,也就是說 X 值上升(下降)時, Y 值則呈現下降 (上升) 的趨勢。. 2.. X X Y Y 0 , r 0 ; X X Y Y 0 , r 0 。 因此皮爾森積差相關係數 r 主要著眼於說明變數 X 、Y 間所呈現出的線性關係,其中正比關 係 r 0 我們稱之為正相關;反比關係 r 0 我們則稱之為負相關。. 第二節. r 的值域. 政 治 大. 立. . an 2 b12 b22 . n. al. . bn 2 a1b1 a2b2 . 等號 " " 成立的時機為. 令. 則. a1 a2 a3 b1 b2 b3. Ch. . an bn. engchi. sit. a22 . anbn . 2. er. 2 1. io. a. Nat. 設 a1 、 a2 、…、 an , b1 、 b2 、…、 bn 為 2n 個實數,則. y. 引理:柯西不等式. ‧. ‧ 國. 學. 皮爾森積差相關係數 r 的值域為 1 r 1 ;這點可藉由柯西不等式的觀點來作說明。. i Un. v. ai X i X bi Yi Y. r2 . n X i X Yi Y i 1 . . n. i 1. Xi X. . . 2. Y Y 2. n. i 1. i. 2. 2. n aibi n i 1 n ai 2 bi 2 i 1. i 1. 根據柯西不等式,可得 r 2 1 ,亦即 1 r 1 。因此相關係數 r 的值恆介於 1 與 1 之間。. 頁 4.
(10) 第二章 皮爾森積差相關係數. 一般而言相關係數主要著眼於資料是否近似線型結構,或者是散成一團?當然,實際上的資料的 呈現並不是這麼單純的兩極化。如圖 2.2-4,相關係數的值會是什麼樣,要看資料的散佈狀況。. 圖 2.2-1. 政 治 大. 當中數字是該圖象代表的資料之相關係. 立. 圖相來源:http://en.wikipedia.org/wiki/Correlation. ‧ 國. 學. 當資料散得越亂的時候,相關係數會接近於零。當資料的組成越接近一條斜率為正的直線時,相 關係數就會越接近於 1;反之如果越近似一條斜率為負的直線時,則相關係數就會越接近於 -1。不過,. ‧. 要注意的是就算資料能夠聚成為一條直線,但是如果這條直線的角度越接近於水平或是垂直時相關係. sit. y. Nat. 數也會越接近於零,這表示 X 的變動與 Y 的變動之間並沒有關係。經驗法則告訴我們,相關係數 r 值. n. al. er. io. 的大小與兩變數相關程度強弱的界定,大致如下表所示:. Ch. 相關係數絕對值. engchi. i Un. v. 相關程度. 約=1. 完全相關 (Perfect Correlated). 0.7~0.99. 高度相關 (Highly Correlated). 0.4~0.69. 中度相關 (Moderately Correlated). 0.1~0.39. 低度相關 (Modestly Correlated). 0.01~0.09. 接近無相關 (Weakly Correlated). 約=0. 無相關 表 2.2-1. 頁 5.
(11) 第三章 資料標準化線性關係不變. 第三章 資料標準化線性關係不變 皮爾森積差相關係數 r ,亦可透過下列方式來計算:. r. Z. X. ZY. (3.1). n. 其中 Z X 為 X 變項標準化過後的 Z 分數、 ZY 為 Y 變項標準化過後的 Z 分數、 n 為樣本總數。亦即,將 變數先行標準化後,相關係數恰為其內積的平均值。 第一節. 政 治 大. 變數資料標準化後,線性關係不變. 立. ‧ 國. 學. 因為大都數資料多是散亂不一致的。所以將資料標準化的用意在為以整組數據資料的標準差為新 的度量單位,計算每筆數據距離平均值有幾個標準差。標準化後的資料將是一個無單位相對數值。這. ‧. 在直覺上和實務上對於若碰上兩變數資料單位不同而欲觀看這兩變數之間的關係時,將會變得使人更. sit. y. Nat. 容易分辨。標準化資料除了有這個特性,另外還有一個好處,就是它們的平均值都是 0 。把標準化的. n. al. er. io. 變數資料放到座標平面上,它們的中心點就會落在原點上;如圖 3.1-1 所示。. Y. Ch. engchi. i Un. v. X. 圖 3-1-1. 資料標準化後 SZ SZ 1 X Y. 頁 6.
(12) 第三章 資料標準化線性關係不變. 將變數 X 、 Y 標準化後可得: ZX . . ; ZY . SX. Y Y 同構。由於 Z. 明顯可以看出 Z X ZY 與 X X. X X Y Y 0,則 Z. X X . X. Y Y SY. . ZY 的正負值與 X X. . . Y Y 相同,若. . ZY 0,亦即 r 0。反之,若 X X Y Y 0,則 Z X ZY 0 ,. X. 亦即 r 0 。因此,將兩變數標準化後,並不會改變其原來關係,即線性關係不變。另外,標準化後 的變數無單位,故皮爾森積差相關係數 r 不受討論變數單位不同所影響,重心擺在變數間線性關係 的評估。. 立. n. Ch. 因此皮爾森積差相關係數 r 也可改寫如下: r. . ; SY . 2. X X n. n. n. i Un. engchi. X X Y Y X X Y Y X X Y Y 2. Y Y . sit. io. al. n. 2. X X Y Y . v. 2. Y Y n. 2. er. Nat. SX . X X . y. ‧. 由於:. ‧ 國. 公式推導. 學. 第二節. 政 治 大. 2. X X Y Y . nS X SY. 頁 7. SX. SY n. . Z. X. n. ZY.
(13) 第四章 資料標準化線性關係不變. 第四章 標準化共變異數 共變異數(Covariance)與相關係數相同,都可用於測量變數間線性關係。所以在計算相關係數 r 時,我們也可藉由共變異數來求得,亦即:. r. S XY S X SY. 其中 S XY 為共變異數, S X 為 X 的標準差, SY 為 Y 的標準差。. 共變異數. 立. 政 治 大. S XY . X X Y Y . ‧. ‧ 國. 學. X 與 Y 的共變異數的定義如下:. io. sit. Nat. n. y. 第一節. n. al. er. X 與 Y 的共變異數可以藉由 X 、 Y 兩變數扣除個別平均值後的乘積和除以樣本總數後計算得出。由. iv. S XY 似乎不失為一 於 S XY 的正負值取決於 X X Y Y C ,所以在判斷兩變數之間的正負相關性時, Un h. . . . engchi. 項可以用來作為依據的一項指標。 不過通常我們在判斷兩變數間線性關係的強弱時,並不會直接引用它來做為判斷依據,這是因為 共變異數的大小易受變數單位的不同而影響,很難藉以說明兩變數間的相關程度到底是大還是小,因 此單憑共變異數是不足以描述兩個變數間線性相關性的強弱。 第二節. 相關係數與共異變數關係. 因共變異數易受變數單位不同的干擾,故欲將共變異數測量的焦點轉移到兩變數線性關係強弱的 判斷時,去除變數單位的這一干擾因素是必然的步驟。由於一個隨機變數的標準差可以視為一種測度 標準,且標準差與原始變數具有相同的單位,因此直覺的想法是如果將共變異數除以兩變數個別的標 頁 8.
(14) 第四章 資料標準化線性關係不變. 準差,亦即 S XY (S X SY ) ,應該可以解決當變數單位不同時,共變異數無法用來測量兩變數線性關係強 弱的缺失。事實的確也是如此。. 由前一章式(3-1)已知,在計算相關係數 r 時,若不使用原始資料,我們可以利用 X 、 Y 變數的 Z 分數來計算相關係數。變數經標準化後,線性關係並不會因此而改變。. 由於. r. . Z. X. ZY. n. . X X Y Y SX. SY. X X Y Y X X Y Y . . n. 政 治 大n. nS X SY. 1 S X SY. S XY (共變異數 ). . ‧. ‧ 國. 所以. 立. 學. S r XY 。 S X SY. . 資料若先行標準化後, SZ X SZY 1,因此 r S z X zY / S zX S zY S zX zY ,亦即相關係數 r 標準化後. y. sit. io. er. . Nat. . 的共變異數 S z X zY 。. al. n. 此外,若將式子改寫為 S XY r (S X SY ) ,分別以 S X SY 為橫坐標、 S XY 為縱座標,則 S XY r (S X SY ) 可. Ch. engchi. i Un. v. 以視為通過原點,斜率為 r 的直線方程式;這個式子也提供我們另一種探討相關係數特性的方向:. (狀況一) 當 X Y 時, S XY. X . (狀況二) 當 X Y 時, S XY. i. X . . X Yi Y n i. . X. X Yi Y n. i. X. i. n. 頁 9. 2. n. X. 上述兩變數關係狀況,可視為 S XY r (S X SY ) 的兩個特例。. . X. S X 2 SY 2 S X SY. . 2. S X 2 SY 2 S X SY.
(15) 第四章 資料標準化線性關係不變. 立. 治 政 圖 4.2-1 大. ‧ 國. 學. 如圖 4.2-1 所示,直線 S XY r (S X SY ) 分別為對應於斜率 m 1 的線型函數。將狀況一、二代入(3-1) 式,恰可得 r 1 ,此值恰為相關係數 r 值的極大值與極小值。因此可知兩變數相關性最大時,資. ‧. io. sit. y. Nat. n. al. er. 料落在 L1 或 L2 直線上。. Ch. engchi. 頁 10. i Un. v.
(16) 第五章 相關係數與標準化回歸直線的斜率關係. 第五章 相關係數與標準化迴歸直線的斜率關係 在計算相關係數 r 時,亦可利用迴歸直線的斜率求得。實際上,若將標準化後的資料進行迴歸分 析,所得到的迴歸直線的斜率即為相關係數。關係式如下:. ZˆY r Z X. 其中 ZY. 、. 第一節. Z X 分別為 Y 與 X 標準化過後的 Z 分數。. 簡單迴歸分析. 政 治 大. 立. ‧ 國. 學. 簡單線性迴歸(Simple Linear Regression)分析是一種統計方法,主要是用於探討兩個變數間是否存 在線性關聯,透過適當數學模型的建立來描述變數之間的關係。. ‧. 簡單線性迴歸: E (Y ) 1 X 0. , X n , Yn ;我們希望利用一條直線來描述變數 X 與變. y. Nat. io. er. 假設有 n 對樣本資料 X1 , Y1 , X 2 , Y2 ,. sit. 1.. 數 Y 之間的關係,這樣的一條線我們稱之為簡單線性迴歸線。問題是,我們應該如何取得這條線. n. al. 呢?. 圖 5.1-1. Ch. engchi. i Un. v. 以線性模型來描述變數 X 與變數 Y 之線性關係. 頁 11.
(17) 第五章 相關係數與標準化回歸直線的斜率關係. 最小平方法. 2.. 當收集到一組資料後,迴歸分析的第一個步驟就是要估計 1 與 0 。最常用的方法即是最 小平方法。所謂的最小平方法就是找使散佈圖中各點至此直線之鉛直距離平方和(即誤差平方 和)為最小的那條直線。下圖虛線部分即為誤差。(有關最小平方法視覺化說明請參考附錄。). 政 治 大. 立. ‧. ‧ 國. 學. n. y. Nat. io. i 1 n. sit. Q (Yi ( 0 1 X i ))2 ,分別對 0與1 微分後,並令其值為 0。可得:. al. Q 2 [Yi ( 0 1 X i )] 0 0 i 1 n Q. n. . 2 [Yi ( 0 1 X i )] X i 0 1 i 1 n. n. Y n X . 亦即. i 1. er. 令. 圖 5.1-2. i. 0. i 1. i. 1. Ch. engchi. n. ;. n. i Un n. X Y X X. i 1. i i. i 1. i. 0. i 1. 2 i. v. 1. 解聯立方程式,可得 1 與 0 兩參數估計式如下: n. X. ˆ1 i 1 n. i. X. i 1. . X Yi Y i. X. 2. . ; ˆ0 Y ˆ1 X n. . . . 由上式可明顯知道 ˆ1 的正負值會跟隨 X i X Yi Y 而變動。將 ˆ1 進一步作推導,可得到 i 1. 和相關係數 r 有下列關係: ˆ1 r. SY 。過程如下: SX. 頁 12.
(18) 第五章 相關係數與標準化回歸直線的斜率關係. n. X. ˆ1 i 1 n. . X Yi Y. i. X. i 1 n. . i 1. =. n. X. i 1. i. X. i. . . 2. . X i X Yi Y X. n. Y Y . . n. Y Y i 1 2. i 1 n. X. 2. i. i 1. 2. i. i. X. . 2. 皮爾森積差相關係數 r n 2. Y Y . i 1. i. r 治 政 S 大 X X i立 1 SY. n. r. n. 2. X. i. n. ‧ 國. 學 y. Nat. io. n. al. sit. 皮爾森積差相關係數主要是用於直線關係。. er. 第二節. ‧. 明顯的,相關係數 r 與迴歸估計線 L : Yˆ ˆ0 ˆ1 X 的斜率有密切關係。. v. 將原始資料 X 、 Y 標準化為 Z 分數後,標準化過後的新迴歸斜率 ˆ 即為相關係數 r (黃富廷, 民 93)。 1.. Ch. engchi. i Un. 迴歸直線 L : E (Y ) 1 X 0 ,以離均差( X X 或 Y Y )來計算迴歸係數時,截距 0 將會 消失不見。 令. X ' X X ; Y ' Y Y 。由於 X . 因此. ˆ0 Y ˆ1 X 0. 1 1 ( X X ) 0 ; Y (Y Y ) 0 , n n. 從上式可見,截距 0 已消失。 2.. 標準化資料 進一步,以 Z 分數來計算迴歸係數時,其迴歸估計式可表示成: ZˆY ˆ Z X 。. 頁 13.
(19) 第五章 相關係數與標準化回歸直線的斜率關係. 因為. ˆ r. S ZY SZ X. ,且 SZY SZ X 1 ,因此 ˆ r ,亦即 ZˆY r Z X 。. 故標準化後的新斜率即為相關係數。 第三節. 令. 相關係數 r 的絕對值等同兩廻歸直線斜率的幾何平均數. L 1 : Yˆ ˆ1 X ˆ1 、 L 2 : Xˆ ˆ2Y ˆ 2 ,則. ˆ1 r. SY S , ˆ2 r X SX SY. S r ˆ2 Y 。所以 r 2 ˆ1 ˆ2 ,即 r ˆ1 ˆ2 。也就是說, r ˆ1 ˆ2 。 SX. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 頁 14. i Un. v. S 亦 即 r ˆ1 X SY. , 且.
(20) 第六章 方向餘弦與相關係數. 第六章 方向餘弦與相關係數 若將資料先行中心化後,相關係數 r 亦可視為 n 度空間中 X 、 Y 兩對應向量的方向餘弦值,亦 即:. r cos. 其中, 為 X 、 Y 兩對應向量的夾角。 第一節. 向量內積. 立. 政 治 大. ‧ 國. 學. 『向量』是數學、物理和工程等多個自然科學中的基本概念,指的是一個同時具有大小和方向 的幾何量。現行高中數學課程中所談的『向量內積』,是將其中一個向量平移,使兩向量的起點相. ‧. 同。如下圖所示,向量 v 與向量 u 的夾角為 。. n. er. io. sit. y. Nat. al. Ch. engchi. 圖 6.1-1. i Un. v. 00 1800. 向量 v 和 u 的內積定義為 v 和 u 兩向量的大小與其夾角的餘弦函數 cos 的乘積:. v u v. 頁 15. u cos .
(21) 第六章 方向餘弦與相關係數. 第二節. 歐氏空間 n. X1 , Y1 、 X 2 , Y2 、…、 X n , Yn 為 n 筆資料;令 X 分量與 Y 分量的樣本平均數分別為 X 與 Y 。 定義向量 v 與 u 分別代表資料中心化後的向量:. . . v X1 X ,..., X n X ; u Y1 Y ,..., Yn Y. 向量 v 、 u 的長度為:. u . X. 1. X. Y Y 1. . 2. . . . Xn X. . 2. X n. . i. X. . 2. 政 治 大 Y Y Y Y 立 i 1. 2. n. 2. n. i 1. i. 令兩向量的夾角為 。因為向量 v 和 u 的內積為: v u v. . . . v u v u. . . . Xn X. n. i 1. . al. Y1 Y 2. i n C X X Y Y U h en g c h i r i 1. i 1. . . . . y. 2. n. cos . n. sit. X1 X . n. 所以. . er. u cos . io. v. . X n X Yn Y X i X Yi Y. v u X1 X Y1 Y . Nat. 將右式展開得. . u cos 。. ‧. 將左式展開得. 學. ‧ 國. v . 2. i. . Yn Y. 2. cos . v. i. 2. Xi X. 2. n. i 1. Yi Y. . 2. cos 的值域為 1 ~ 1,即: 1 cos 1 ,這也與相關係數 r 的值域範圍相同。所以相關係數 r 也. 可視為兩變項 X 、 Y 方向餘弦值。即: r cos 。. 頁 16.
(22) 第七章 兩個標準化迴歸直線的夾角與相關係數關係. 如圖 6.2-1, v 為 u 在 OA 方向的投影分量(正射影), u 與 OA 的夾角為 ,其中 OA 上的單位. 向量為. OA. 。. OA. 立. 政 治 大 圖 6.2-1 u u. OA. . OA u. OA. y. Nat. 則. S OB 在 OA 方向的投影又可改寫成下列關係: Y Y r Y SX. n. er. sit. OA X X , OB Y Y ,. io. 令. al. OA 。. ‧. ‧ 國. u 在 OA 方向投影亦可表示為. . 學. v = . Ch. engchi. i Un. v. X X 。. 以正射影角度更能明確來看出兩變數間的相關性,這結果正呼應方向餘弦 cos 的值域變換與 兩向量夾角角度 關係。當角度 愈小,當 OB 在 OA 的投影量愈大, OB 與 OA 的關係愈密切。此 時用 OA 去推測 OB 的解釋度亦相對提高;反之,當角度 愈大,當 OB 在 OA 的投影量愈小, OB 與 OA 的關係將愈疏離。此時用 OA 去推測 OB 的解釋度相對降低。換句話說,兩變項的相關性高低會. 跟隨夾角的大小決定。所以以向量的觀點看相關相關係數,相關係數 r 可視為中心化資料的向量方 向餘弦值。即,相關係數 r 具有向量方向餘弦性質(陳順宇、鄭碧娥 民 87)。. 頁 17.
(23) 第七章 兩個標準化迴歸直線的夾角與相關係數關係. 第七章 兩個標準化迴歸直線的夾角與相關係數關係 藉由兩條標準化迴歸直線相交所成的角度大小,亦可用來表示變數間相關程度的強弱,亦即相 關係數 r 亦可藉由下面方式取得:. r sec tan . 其中 為兩標準化迴歸直線的銳角夾角。 第一節. 政 治 大. 相關係數不因觀測變數角度不同改變. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 7.1-1 兩標準化迴歸直線和兩軸夾角相等. 觀 察 圖 7.1-1 : 將 資 料 標 準 化 後 , 不 管 是 直 線 ZˆY r Z X 或 Zˆ X r ZY , 顯 示 出 ZˆY r Z X 與 X 軸 、Zˆ X r ZY 與 Y 軸 的夾角 相同。所以不管是由 X 的觀點來看 Y ,或是由 Y 的觀點. 來看 X ,相關性強弱不會因為端看資料的角度不同而有所改變。. 頁 18.
(24) 第七章 兩個標準化迴歸直線的夾角與相關係數關係. 第二節. 兩直線銳角夾角與皮爾森相關係數 r 的關係. 觀察圖 7.2-1、7.2-2,可發現兩迴歸直線間的銳角夾角 大小和兩變數間的相關強弱具奇妙的關 聯性。即當 愈小, L1 與 L2 越靠近。當 愈大, L1 與 L2 疏遠。所以,我們可藉由兩迴歸直線相交時 銳角夾角角度數的大小,來看兩變數間的相關性強弱。. 立. 政 治 大. ‧. ‧ 國. 學. 圖 7.2-1. 圖 7.2-2. Nat. sit. n. al. er. io. 相關係數 r 也越小。. y. 當 L1 與 L2 距離愈近,即相關係數 r 越大; L1 與 L2 距離愈遠,兩變數的相關性相對的也就越小,. 第三節. 公式推導. Ch. engchi. i Un. v. 觀看右圖 7.3-1。兩標準化迴歸直線 L1 、. L2 與 Z x 和 Z y 兩軸的夾角 ,兩直線的銳角 夾角為 。. 圖 7.3-1. 頁 19.
(25) 第七章 兩個標準化迴歸直線的夾角與相關係數關係. 考慮 在下面兩種狀況: 1.. 當0 . 4. L1 : Z y rZ x. 時,因. 所以正切函數 tan r ,且 tan 2 . 2r , 1 r2. 1 r2 1 r2 因此 tan tan 2 cot 2 ,且 sec 2r 2r 2 . 由於 sec tan . 1 r2 1 r2 r 2r 2r. 所以 r sec tan 2.. 當. 4. . 0, 因. 2. 2 ,所以. 政 治 大. ‧ 國. 立. sec tan . 將上述兩式相加可得. 學. 1 r2 1 r2 tan tan 2 cot 2 2r 2 2r 1 r2 1 r2 且 sec sec 2 csc 2 2r 2 2r . ‧. 1 r2 1 r2 r 2r 2r . 所以 r sec tan . y. Nat. sit. 根據 1、2 結果,在看兩變數間的相關性強弱,我們亦可藉由兩迴歸直線銳角夾角度數的大小變. al. n. 式為: r sec tan 。. er. io. 換來看變數間的相關性;即,若兩迴歸直線交角 ,其中 00 900 ,則 和相關係數 r 之間的關係. Ch. engchi. i Un. v. 考慮 r sec tan ,將此關係式改寫成 r 1 sin / cos ;當 趨近於 00,r 的值將愈接近 1 ; 這代表兩迴歸直線將愈靠近角平分線 L (圖 7.3-2 )。而當 趨近於 900 , r 的值會越接近於零,表示 X 的變動與 Y 的變動之間並無關係。. 圖 7.3-2. 頁 20.
(26) 第八章 判定係數與相關係數. 第八章 判定係數與相關係數 在簡單迴歸中,相關係數 r 和判定係數 R 2 的關係為: r R 的正或負平方根. 所以,相關係數 r 亦可藉由計算判定係數 R 2 的方式取得。. 第一節. 判定係數 R 2. 治 政 大 相關分析是利用相關係數 r 來衡量兩變數 X 、Y 之間的直線關係強度與相關方向;而迴歸分析 立. 是根據依變數 Y 與自變數 X 的關係,求出一個迴歸模型,再利用此迴歸模型,用自變數 X 去預測. ‧ 國. 學. 依變數 Y 。當依變數 Y 與自變數 X 之間的關係可以用一迴歸模型來解釋時,模型解釋能力的程度. ‧. 大小,或者迴歸方程式的配適度如何,是藉由判定係數 R 2 來作描述。. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 8.1-1 迴歸分析中總變異量成份的解析. 頁 21.
(27) 第八章 判定係數與相關係數. Y Y . Yi Y Yi Y Yi Yi ,且 . 因為. 2. i. 2. Yi Y Yi Yi . 2. 其中. Y Y . 2. 總變異 sum of squares due to total ( SSTO). i. 2. Yi Y 可解釋變異 sum of squares due to regression SSR 2. Yi Yi 不可解釋變異 sum of squares due to error (SSE ). 所以 SSTO SSR SSE 。 判定係數 R 2 是依變數 Y 的變異中可以被自變數X所解釋的比例。定義為:. 2. 學. SSR SSE 1 SSTO SSTO. . ‧ 國. 立R. 政 治 大. ‧. 判定係數 R 2 之值介於 0 與 1 之間。若將判定係數 R 2 以百分比表示時, R 2 可視為總變異可用估計迴. sit. y. Nat. 歸方程式解釋的程度,也就是 Y 可以被 X 解釋的程度。判定係數 R 2 愈高,代表自變數 X 越能解釋. io. n. al. er. 依變數 Y (估計線性迴歸方程式配適度愈好。)。 第二節. 判定係數 R 2 相關係數 r 2. Ch. engchi. 變異的計算公式如下: SSTO Yi 2 nY 又因為. R2 . i Un. v. X iYi nX Y ; SSR 2 2 X i nX. 2. 2. SSR SSTO SSE ,因此. SSR SSTO. X iYi n X Y . Y. i. 2. 2. X. nY. 2. . i. X. . 2. . X iYi n X Y n . Y Y X 2. . X. i. i. n. n. 頁 22. 2. . 2. . 2 S XY 2 rXY r2 2 2 S X SY.
(28) 第八章 判定係數與相關係數. 所以,判定係數 R 2 相關係數 r 2 。兩個變數共用的特徵越多,它們就越相關。. 判定係數 R2 r 2 相關係數. 變數 X 和變數 Y 關係. 共用. 0%. 立. 政 治 大. ‧ 國. 學. 共用. 25%. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 共用. 81%. 表 8.2-1. 表 8.2-1,例舉判定係數 R 2 與相關係數 r 的對應關係。資料點散佈愈緊密於迴歸模型,則模型 解釋能力的程度愈高。再將自變數 X 解釋依變數 Y 的比例與相關係數值的大小關係以圖文氏圖形 圖表示;每個陰影區域越大(兩個變數共用變異量就越大),這兩個變數就越高度相關。. 頁 23.
(29) 第九章 結論與建議. 第九章 結論與建議 相關係數的說明煩瑣,光是解讀就煞費苦心;尤其在教學時,面對統計觀念尚未熟稔的新生,尤 其棘手。本文所談到的不同向度相關係數解釋,希望有助於教師在從事教學活動時,對於相關係數. 的介紹和使用,能夠更多樣化。 如在標準化系統下,以 S X 當作 X 座標的單位長, SY 當作 Y 座標的單位長,定義相關係數 r. Z. X. ZY. ,是比較直觀、易懂、方便教學的作法(第三章)。而在原始資料中,若將變數 X 、Y 以. n. 向 量 的 觀 點 來 看 ( 為 X 、 Y 對 應 向 量 的 夾 角 ) , 則 r c o s , 原 相 關 係 數 定 義. r. i 1. i 1. i. . X Yi Y. X. . Y Y 2. n. i 1. 和記得。. i. 立. 中, 1 r 1 之所以成立,也就變得平易近人,學生也較容易接受 2. 學. X n. i. 政 治 大. ‧. ‧ 國. X n. sit. y. Nat. 在推導出迴歸直線的係數時,可以正射影作為輔助,用簡單的直線方程式 ZˆY rZ X ,來聯想. er. io. X X SY S Yˆ Y X r Y X ,就容易許多。而且很明顯 r ,推得 Y 對 X 的迴歸直線 L : Yˆ Y r SX SX SY SX . al. n. iv n C 的可以看出這方程式具由 X 估計 Y 的功能。學生這樣也會比容易接受理解 Y 對 X 的最適合直線涵 hengchi U 義。(李政豐,民 99) 電腦與通訊科技的突飛猛進,在邁入網路學習的現今,傳統的教育學習方式,已無法抵擋網路 社會的巨大變化。借用資訊科技,利用電腦快速處理大量圖形及超強計算能力,我們可以動態方式 呈現各種軌跡圖形、抽象概念以具體圖像來呈現等。透過 GGB、GSP、Minitab、EXCEL 等數學軟 體將相關係數相關議題視覺化,將傳統繁瑣的徒手演算,改以直接報導答數和進行結論說明,學生 將更容易明白所學為何;學習態度亦會變成主動且熱衷。. 頁 24.
(30) 參考文獻. 參考文獻 英文部分 Rodgrs and Nicewander.(1998). “Thirteen Ways to Look at the Correlation Coefficient.” The American Statistician, 42, 59-66. GeoGebra (GGB) 。 http://www.geogebra.org/cms/. 中文部分 黃富廷。(2004)。皮爾遜積差相關之數學原理:線性代數觀點。台東特教第 19 期。. 政 治 大. 李政豐(2010)。視覺化的相關係數最小平方法與迴歸直線。教育部高中數學學科中心資訊融入教學. 立. ‧ 國. 學. 工作坊。. 陳順宇、鄭碧娥 (1998)。統計學,台北市:華泰書局。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. 頁 25. i Un. v.
(31) 附錄. 附錄 相關名詞解釋 1.. 相關係數另外有下列幾種計算相關係數的方法: (1). 等級相關係數(Rank correlation coefficient) 有時給出的變數值不方便、不經濟,甚至不可能,只能給出變數的等級。在這種情況下, 必須利用等級相關係數。等級相關係數可能也是用於變數之間出現非線性關係的情況。 (2). 肯道耳等級相關係數(Kendall’s coefficient of rank correlation) 這種相關係數記作 ,可利用 n 對數據通過下面公式計算: . 立. 政 治 大. S 1 n n 1 2. 這種相關係數記作 ,其計算公式如下: 1 . y. Nat. (1). 常態分佈. n n 2 1. io. sit. 資料中心化. 6 D 2. ‧. 又稱高斯分佈(Gauss Distribution)。是統計學中最重要的分配之一,其圖形呈鐘形,. n. al. er. 2.. 學. ‧ 國. (3). 史匹曼等級相關係數(Spearman’s coefficient of rank correlation). i Un. v. 稱為常態曲線。一般研究變數常會呈現常態分佈或近似常態分佈,如身高、體重、收入、. Ch. engchi. 支出、意見程度、評量誤差(error of measurement)。如下圖所示:. 中心點位置其數值出現的頻率(次數)最多,離中心點位置左右(可延伸到無窮大±∞) 的數值出現頻率漸少,曲線左右對稱,即大於平均值和小於平均值的出現頻率相等。統計 學上所謂的標準常態分布是指將觀測資料標準化,使其平均數為 0 ,標準差為 1 。 (2). 中央極限定理 當樣本越大時,樣本平均值的分布越接近常態分布,且向平均值 集中。以下網址提 頁 26.
(32) 附錄. 供網路互動式模擬程式,可從互動的實驗中理解中央極限定理的基本概念。 參考網址: http://www.math.nsysu.edu.tw/StatDemo/CentralLimitTheorem/CentralLimit.html#five (3). 資料中心化 所謂的『資料中心化』,是將觀測資料知原始平均數朝原點來移動。即是將原始資料 的平均數化為 0 。資料經過中心化後,任何數值等於離均差;任何數值的絕對值義等於離 均差長度。. 立. 政 治 大. ‧. ‧ 國. 學. 可參考『第三章 資料標準化線性關係不變』。. n. er. io. sit. y. Nat. al. Ch. engchi. 頁 27. i Un. v.
(33) 附錄. 圖檔. 資料標準化後,相關性不變;相關係數等於內積的平均值. 立. ‧. ‧ 國. 學. io. y. sit. 最佳直線(1). Nat. 2.. 政 治 大. n. al. er. 1.. Ch. engchi. 頁 28. i Un. v.
(34) 附錄. 最佳直線(2). 立. ‧. ‧ 國. 學. io. y. sit. 標準化迴歸直線. Nat. 4.. 政 治 大. n. al. er. 3.. Ch. engchi. 頁 29. i Un. v.
(35) 附錄. 兩標準化迴歸直線和兩軸夾角相等. 立. ‧. ‧ 國. 學. io. y. sit. 正射影. Nat. 6.. 政 治 大. n. al. er. 5.. Ch. engchi. 頁 30. i Un. v.
(36)
相關文件
interview and AHP in order, it comes out that this research can describe the correlation between the economic recession and the investment intentions, and this will help the
In order to partition the GPS market into different segments, this paper used purchase motives, product attributes and consumer lifestyle as the variables for market
The present study explores the relationship between organizational reward system, job satisfaction, organizational citizenship behavior (OCB) and organizational performance to
Based on the tourism and recreational resources and lodging industry in Taiwan, this paper conducts the correlation analysis on spatial distribution of Taiwan
The study explores the degree of favor towards B&B from different ages of people in Yilan, the impact of B&B brought upon the local economy and the
Thus, the purpose of this study is to determine the segments for wine consumers in Taiwan by product, brand decision, and purchasing involvement, and then determine the
By utilizing Pearson correlation and multiple regression analysis, the researcher concluded that teachers who also served as administrative staff concurrently had higher job
"Type of commercial activity" and "organizational image" has a significant positive correlation, the Pearson correlation know "type of commercial