第十章 相關分析
(Correlation Analysis)
內容簡介-學習目標
z
單元概要
z
學理探討
z
簡單相關分析
z
多元相關分析
z
討論與習題
z
熟習兩變數間之關係種類 與圖表意義
z
熟習雙變數簡單相關分析 之處理步驟與應用技巧
z
熟習多變數多元相關分析
之處理步驟與應用技巧
線性關係的分析原理
z
基本條件: 連續變項之間的關 係
z
線性關係
linear relationship,指 兩個變項的關係可以被一條最 具代表性的直線來表達之時,
所存在的關連情形。
z
該直線之方程式為Y=bx+a,b 為斜率(即Δy/Δx,每單位的 X變動時,在Y軸上所變動的量)
z
線性關係可以散佈圖的方式來 表現
身高
190 180
170 160
150
體重
90
80
70
60
50
40
線性關係與相關
z 相關(correlation)是用以檢驗兩個變項線性關係的統計技術。
z 兩個連續變項的關聯情形,除了用散佈圖的方式來表達,尚須建 立一套統計的運算檢驗模式來進行精確的分析,也即是建立一個 用以描述相關情形的量數,即相關係數(coefficient of
correlation)。
z 線性關係中的斜率並不足以說明兩個變項觀察值的分佈情形。相 關係數要能反應兩個變數的配對觀察值的分佈,其運算必須考慮 到兩個變數各自的集中與分散狀況,以及配對分數的集中與分散 狀況,將所有觀察值的分佈情形納入考慮,以共變數的概念進行。
z 相關係數是一個標準化的關聯係數。其原理是先計算出兩個變項 的共變量,再除去兩個變項的不同分散情形與單位差異(即標準 差),加以標準化,得到的一個去除單位的標準化分數。
X Y
cov(x,y)
SDx2
X Y
SDy2
相關分析的圖示
N SS N
X
X − = x
= Σ( )2 Variance
N
Y Y X
X )( ) Covariance= Σ( − −
y x
xy y
x SS SS
SP Y
Y X X
Y Y X X s
s y
r x =
−
− Σ
−
−
= Σ
= 2 2
) (
) (
) )(
( )
, cov(
相關係數的特質
1. 隨著共變數的大小與正負向,相關係數可以 分為正相關(完全正相關)、負相關(完全負相 關)、零相關五種情形。
2. 相關的大小需經顯著性檢定來證明是否顯著 (是否有統計上的意義)。
3. 相關係數介於-1至1之間。
4. 相關情形的大小非與r係數大小成正比
5. 相關並不等於因果
6. 相關係數沒有單位, 可以進行跨樣本的比較
相關係數的強度大小與意義
相關係數範圍(絕對值) 變項關聯程度
1.00 完全相關
.70 至.99 高度相關 .40 至.69 中度相關 .10 至.39 低度相關
.10 以下 微弱或無相關
其他類型相關分析
z
史比爾曼等級相關 (Spearman rank order correlation coefficient, Rho;rs)
z
應用於順序變項線性關係之描述。當兩個變 數中,有任一變數為順序變項時
z
點二系列相關(point-biserial correlation)
z
當X與Y兩個變項中,一為連續變項,另一為 二分類別變項(如性別),兩個變項的相關 係數稱為點二系列相關
) 1 (
1 6 2
2
−
− Σ
= N N
rs Di
s pq X r X
t q p
pb
= −
淨相關與部份相關
z 線性關係的統計控制
z
如果兩個連續變項之間的關係,可能受到其他變項的干擾之時,
或研究者想要把影響這兩個變項的第三個變項效果排除,可以利 用控制的方式,將第三變項的效果進行統計的控制。
z 淨相關
z
在計算兩個連續變項X1與X2的相關之時,將第三變項(X3)與 兩個相關變項的相關r13與r23予以排除之後的純淨相關,以r12
. 3來表示。z 部份相關
z
計算X1與X2的單純相關,如果在計算排除效果之時,僅處理第 三變項與X1與X2當中某一個變項的相關之時,所計算出來的相 關係數,稱之為部份相關,或稱為半淨相關(semipartial
correlation)
2 23 2
13
23 13 12
3 . 12
1 1 r r
r r r r
−
−
= −
2 23
23 13 12
) 3 . 2 ( 1
1 r r r r r
−
= −
雙變數相關分析 範例一 (郵包重量.sav)
z 如前第八章練習一所 述之郵購公司,其每 月郵包重量及訂單數 據一批如下,現該公 司經理欲知兩者之間 是否有明顯正比關係,
試為其解答此一問題。
註:
z 郵包「重量」單位為 公斤。
z 訂單之單位為筆數。
z 顯著水準為0.05。
EG1-解題剖析
z
本題為兩變數間之相關分析問題。由表中之 數據顯示,當重量增加時,訂單筆數似乎也 有所增加(如第三列到第四列)。相反地,從 第四到第五列,則訂單筆數相關降低。而此 一現象也不盡然,例如從第一列到第二列時,
重量降低,訂單筆數卻反增。
z
因此必須由統計分析來剖析兩者之間的實際 相關性,再由顯著水準指標是否達到來說話。
而為求結論下達的更進一步精確,尚可由提
高樣本數的抽取與繪圖對照來加強。
操作步驟
1.
在開啟資料檔 後,先點選 [分析/相關]選 取「雙變數」
選項。
2.
同時標示並選
取左側兩變數
標籤[重量]與
[訂單]準備點
選右移鈕。
操作步驟
3.
在點選右移鈕後兩變數進入右側[變數]框中,
再按下[確定]鈕後即可產出報表。
Eg1. 輸出判讀一
z
相關分析在直接按下「確 定」下,一般只顯示一組 報表。
z
表中首先要觀察的是相關 係數是否有量號(*)表示,
如有即表顯著,無則表相 關性不顯著。
z
通常一個星號表達0.05水
準,兩個星號表達0.01顯
著水準,這點可由「顯著
性」列的P值與表下緣的
註記可知。
Eg1. 結論下達
z
「由樣本數據顯示,郵包重量與訂單筆數兩者
之間呈顯著正相關關係。換言之,郵包的重量
愈重,其相對的訂單筆數則愈多;反之亦然。」
練習一 (價格策略.SAV)
z 依據消費者心理學,產品的售價愈高,其市場的購買力 則愈低。某業者欲瞭解其產品銷售實際情況是否亦有此 一現象,遂收集得其各產品「售價」與相對的「銷售金 額」一批如下,試為其做統計分析,並提出一價格策略 建議以資參考。
註:
z
目前抽取得具代表性之樣本數一 批共15筆。
z
該等表產品多為單一價,此乃其 行銷模式特色。
z
相關係數值究竟係屬低、中或高
標請參考下表。
練習一 (價格策略.SAV)
z
相關係數強度對照表
相關係數值範圍 描述標準參照
0.1~0.3 低度相關
0.4~0.6 中度相關
0.7~0.9 高度相關
練習一 (價格策略.SAV) 解答
多變數相關分析 範例二 (年收入行業.SAV)
z 在二次大戰前後期間人口調查取得下列數據一批,其中 涵蓋歐洲地區國家年所得與數個行業的人口資訊。今欲 瞭解當時各行業別人口分佈與其年所得之關係,試做必 要的相關統計分析。( α= 0.05)?
又問
1.
那些行業人口數與 年所得成正比關係?
2.
那些行業人口數與 年所得成反比關係?
3.
試圖解解分析結果。
EG2-解題剖析
z
本題為多個兩組變數之間的相關性分析問 題:如年所得與農業人口之間,年所得與 工業人口之間等之相關分析。如每次操作 僅抓取兩個變數(如前節所述),則太過 繁瑣,且無法看出整體相關架構之全貌。
z
所幸,SPSS可一次抓取多個變數,並迅速
對任兩變數之間做相關分析計算,因此可
將所有可能相關(或具有相關結果應用價
值)的變數一併納入分析架構中。
操作步驟
1. 在開啟資料檔 後,先點選[分 析/相關]選取
「雙變數」選 項。
2. 同時標示並選 取左側全部變 數標籤[年所得]
[農業人口] [工
業人口]與[服務 業人口],準備 點選右移鈕。操作步驟
3.
在點選右移鈕後所有變數進入右側[變數]框中,
再按下[確定]鈕後即可產出報表。
Eg2. 報表判讀
Eg2. 報表判讀(續)
z
相關報表顯示為4x4的相關矩陣報表。
z
其中從左上到右下之對角線為無可避免之自 我相關比較,故其相關係數值均為1,可以不 必理會。
z
由表中看出,年所得與工業人口(高度相關)
及服務業人口(中度相關)成顯著正相關關 係。
z
而年所得與農等人口數之間則呈高度負相關
關係,且顯著水準均達0.01。
Eg2. 結論下達
z 「由所得樣本數據相關性分析結果顯示,工業人口 與服務業人口愈多,則該國之國民年所得愈高,反 之亦然。而各國農業人口愈多,則其國民年所得愈 低,反之亦然。」
[註.]
z 原則上兩變數間可以不必有方向性(即因果關係),例 如前述結論之末句亦可改述成「國民年所得愈低,其 農業人口愈多」。
z 針對論文中的報表呈現或判讀,一般要力求嚴謹,例 如顯著水準、相關係數值等均應予以據實報導呈現。
z 相對地,在結論下達的描述時,則要儘量予以通俗化,
並避免使用過多「制式的」統計用詞,以加強讀者們 對問題目標之瞭解。
練習二 (吸煙癌症.SAV )
z 「吸煙會導致癌症」是眾所周知的常識,但究竟那些癌 症與吸煙有密切關,那些則無,卻有待深入分析研究。
在某項研究調查下,取得美國各州香煙販售量與該州數 種癌症死亡人數資料一批如右手下:
1. 試分析那些癌症 與吸煙呈正相關,
到何程度。
2. 那些癌症與吸煙 無直接或低度相 關,何故?