• 沒有找到結果。

第二章 文獻回顧

3.1 相關分析

任何客觀事件都不是孤立的,反應在事物的數量方面,就表現為變數 與變數之間的相關,如銷售量與廣告費之間、子女數目與雙親教育程度之 間、抽菸與肺癌罹患率之間或工作的績效與工作滿足之間的相關。因此在 社會科學的研究中,除了瞭解一個變數的情況外,更重要的是瞭解兩個變 數之間的關係。

一群受測體中每個都測

X

Y

兩種變數,所得到的資料是為雙變數資 料(Bivariate Data)。雙變數資料可供「相關」和「預測」的研究,若其 中一個的某些值之變化會造成另一個的值做系統性的變化,則稱此二變數 為相關的(Correlated),否則稱之為獨立的(Independent)。兩相關變數 變動的方向若一致則為正相關,否則為負相關。雙變數資料間可能呈現函 數相關(完全相關)、統計相關(非完全相關)或不相關(零相關)的情形。

描述雙變數間相關情形的模式有確定模式(描述函數相關)及機率模 式(描述統計相關)兩種。機率模式又可稱為非確定模式。兩者的區別如 下:

1. 能確實掌握影響

Y

的所有因素時用確定模式

Y=f

x

)表示

(1)

f

X

)可以是

X

的直線函數,也可以是

X

的非直線函數。

(2)

Y

的值可由

X

的值透過函數

f

X

)予以確定。

(3)散佈圖上所有的資料點(

x,y

)都會落在代表關聯的函數線上。

2. 只能掌握影響

Y

的主要因素時用機率模式

Y

=

f

X

)+ε表示

(1)

f

X

)為規律部份。

(2)ε為隨機誤差部份,反應模型未考慮的許多因素(包括量測誤差)之 合成效果。如模型

Y

=

a

+

Bx

+ε顯示

Y

X

間有直線趨勢的統計關係,

但函數 f(

X

)只能決定

Y

的平均值,個別觀察值仍受隨機性因素ε的 影響。

(3)散佈圖上的資料點(

x,y

)不會全部落在代表關聯趨勢的直線上。

變數間會呈現統計相關(即有隨機誤差ε的存在)的主要原因有三:

1. 某些影響反應變數值的原因被忽略了。

2. 有些無法預測的隨機行為發生。

3. 觀查或測量所造成的變數值誤差。

欲瞭解屬量的雙變數間之相關情形可先繪製散佈圖(Scatter Plot)

並檢視散點分布的「形式」、「方向」及「強度」,然後再計算數值描述。

1. 「形式」是指散點分佈所呈現的趨勢。

2. 「方向」是指正相關還是負相關。

3. 「強度」則由散點遵循某種形式的程度來決定,點散佈的愈廣相關程度 越弱。

若雙變數資料的散佈圖呈一直線趨勢,則此兩變數間可能存在直線關 係,宜進一步作直線相關分析。散點分佈不成直線趨勢則說明了兩變數間 不存在直線關係。

因直線函數可描述許多現象之間的關係,固通常用直線相關來量測兩 變數變動趨勢的一致性。兩變數之間的共變異就是它們共同改變的情形,

可反映它們之間變動趨勢的一致性,故可用來測量變數間的直線相關。若 兩者改變的情形沒有關聯,其值為 0。若改變方向一致(即一個變數值較大 時,另一個變數的值也往往較大),其值為正。若改變方向相反(即一個變 數值較大時,另一個變數的值往往較小),其值為負。

雖然共變異σxy可以測量

X

Y

間的直線相關程度,但其數值會受變數的 測量尺度影響,需用尺度標準化的積差(或稱皮爾遜)相關係數(Product moment或Pearson correlation coefficient)

ρxy=

y x

xy

σ σ

σ

(3-1)

來測量,其中σx與σy分別為

X

Y

的標準差。

ρ的一般性質如下述:

1. 因-1≦ρ≦+1 且與變數所使用的測量單位無關,故可做不同母體之間的 比較。

2. ρ為兩變數成直線(即兩變數間的一致性)程度的一種測度,測的是統 計關係而不是數學函數關係,更不是因果關係。

3. ρ2表示在

X

已知時,

Y

之變異縮減(Variance Reduction)的比例,

也就是

Y

的變異中可由

X

之變動加以解釋的部份所佔的比例。

4. |ρ|值大小反應變數間直線相關的密切程度,符號反應直線相關之方 向。

5. ρ只測量直線相關不能描述非直線關,因此ρ=0 只說明無直線相關,並 不代表沒有其他形式的相關。

母體中的ρ未知時須根據變數的類型及測量尺度選擇適當的推論方 式。

令{(

X

i,

Y

i)} 表由二元常態母體取出的隨機樣本,則樣本相關係數 1n r =

y x

xy

S S

S

(3-2)

為母體相關係數ρ的最大概似估計(Maximun likelihood estimate)。其 中

S

xy

X

Y

間的樣本共變異,

S

x

X

的樣本標準差,

S

y

Y

的樣本標準差。

用 r 估計ρ雖有偏誤(Biased),但在大樣本的情況下偏誤甚小,可以 忽略不計。判定兩變數間相關之有無與高低不可只看 r 的數值大小,還需 考慮樣本數的問題。

1. 因為 r 的變異與樣本數成反比,樣本數愈大變異愈小。

2. 因此,當 n 小時,r 必須較大才能說兩變數有相關存在,當 n 大時,則 r 稍小時也可能有相關之存在。

3. 在樣本數約為 30 時,0≦∣r∣≦1/3 為低相關,1/3≦∣r∣≦2/3 為中 等相關,2/3≦∣r∣≦1 為高相關。

只知兩變數相關但不知兩者有無依存關係(即有反應變數與解釋變數 的關係)時只能用相關分析來瞭解相關的程度及方向。若由相關理論或實 務經驗得知兩相關變數間有依存關係,則適合作迴歸分析,並可由自變數 的值去推測應變數的值。一般而言,相關分析是迴歸分析的基礎,相關愈 大表示愈可以從其中一個變數較正確地預測另外一個變數。迴歸和相關分 析只代表變數與變數間相關的可能程度,不可當做建立因果關係的解釋。

有相關存在,不一定表示

X

Y

變項之間有因果關係存在。