• 沒有找到結果。

第三章 研究方法

第五節 多元迴歸分析

多元迴歸(Multiple Regression)分析又稱為複迴歸分析,屬於單應變變數的相 依分析方法,目的在了解以及建立一個計量尺度之應變變數與一組計量尺度之自 變變數之間的關係。本研究參考Paul Green(1978)、黃俊英(2007)和林震岩

(2007)之著作,對多元迴歸分析進行解釋。

一、多元迴歸分析之基本概念

多元迴歸可用下列一般形式來說明:

Y(計量)=X1(計量)+ X2+ …+ Xm

利用多元迴歸分析,我們可以回答以下的四個問題:

1. 能否找出一個線性組合,用以簡潔的說明一組自變變數(X1)與一個應變變 數(Y)之間的關係?

2. 如果可以,此種關係的強度有多強,亦即利用自變變數的線性組合來預測應 變變數的能力如何?

3. 整體關係是否具有統計上的顯著性?

4. 在解釋應變變數的變異方面,那些自變變數最為重要;特別是原始模式中的 變數數量是否能夠予以減少仍具有足夠的預測能力?

多元迴歸模式的一般型態為:

Y=α+β1X12X2+…+βmXm

α, βj:迴歸母數(j=1,2,……,m)

Xj:自變變數

ε:誤差值(residual,或稱殘值)

上面這個模式是理論上的模式,在實際運算時,因為α 與 βj的真正數值無法得 知,故使用估計係數將上式修改為:

Ý=α0+b1X1+b2X2+…+bmXm

其中,α0以及bj是從樣本資料估計而得,稱為估計迴歸係數。因此模式具有 直線特性,易於計算係數的數值以及評估模式的良窳,因此即使真實的關係並不 是直線的,在應用上也常假設是直線關係,然後使用直線回歸模式加以分析,然 後估計其偏差的大小。

多元迴歸模式有四項基本的假設,我們建立的多元迴歸必須符合這四個假設,才 可稱為一個有效的、合適的模型。

這四個假設是:

1. 應變變數與自變變數的直線關係 2. 誤差項的變異數相等

3. 誤差項的獨立性 4. 誤差項分配的常態性

若欲檢視以上四個多元迴歸模式的假設,可以透過觀察誤差值散佈圖的形狀 判定之。

二、多元迴歸分析之決策流程

多元迴歸的決策流程,如圖4-X 所示,包括研究問題、選擇變數、估計迴歸模式、

檢查迴歸假定、檢定統計顯著性、評估解釋能力和驗證迴歸結果等步驟。

圖3-3 多元迴歸的決策流程 研究問題

選擇變數

估計迴歸模式

檢察迴歸假定

檢定統計顯著性

評估解釋能力

驗證迴歸結果

1. 研究問題

多元迴歸是使用甚廣的一種多變量統計分析技術,可利用多元迴歸來研究的 問題可以分為兩大類:即預測和解釋。這兩類的研究問題並不互相排斥,研 究人員可以應用多元迴歸統計分析技術來單獨分析預測或解釋研究問題,也 可以同時處理這兩類的研究問題。在應用多元迴歸時,首先要決定研究的目 的是要處理或分析哪一類的研究問題。

2. 選擇變數

多元迴歸的目的是要建立一個應變變數和一組自變變數之間的關係。研究人 員首先要決定哪一個變數是應變變數,那些變數是自變變數。應變變數的選 擇通常會由研究問題來決定;自變變數的選擇雖然也視研究問題而定,但如 果有理論上的依據較佳,應盡量避免將一些不相關或不合適的自變變數納入 迴歸模式中。

將不相關的變數選做預測變數或是將相關的變數排除在模型採用的變數之外,

即是所謂的陳述誤差(specification error),這是自變變數選擇上的一種典型 問題,應盡量避免。

將不相關的變數選為自變變數雖然不會使其他預測變數的結果發生偏差,但 仍會有一些影響:首先,這樣會降低迴歸模型的精簡性,精簡性在結果的解 釋上可能是很重要的;其次,多餘的變數可能掩蓋或取代其他更有用的變數 的效果;第三,多於的變數可能會使自變變數的統計顯著性檢定較不精確,

並降低迴歸分析在統計上和實務上的重要性。

將相關的變數排除在預測變數之外也會使結果發生嚴重偏差,對結果的解釋 有不利的影響。如果被排除的變數和納入的變數沒有相關,則其影響只是降

低整體預測的正確性;但如被排除和納入的變數有相關存在,則被納入之變 數的效果就會發生偏差,相關越大,偏差也就越大,此時被納入之自變變數 的估計效果不僅代表他們的實際效果,也代表被納入變數和被排除變數兩者 共同的效果。這將導致模型解釋以及統計與管理重要性評估上的嚴重問題。

3. 估計迴歸模式

在決定研究問題和選定應變與自變變數後,就要估計迴歸模式。除了在某些 驗證性的研究中研究人員可以事先明確指定要包含哪些自變變數之外,通常 研究人員是先選出一組變數做為可能的自變變數,然後再選擇性的增加或刪 減某些變數,直到令研究人員滿意為止,以期能以最少的預測變數獲得最大 的預測或解釋能力。

4. 檢查迴歸假定

在求得估計的迴歸模式後,接著要檢查模式中各自變變數與應變變數以及整 個迴歸關係是否符合多元迴歸的假設條件。如發現有嚴重不符的情形,應採 取必要的改正行動並重新估計迴歸模式。有關多元迴歸的四項基本假設已經 介紹過不再重複。

5. 檢定統計顯著性

一般建立迴歸模式都是根據樣本資料來建立迴歸模式,而非使用普查資料,

因此應對迴歸模式中的迴歸係數進行統計顯著性檢定,以了解有多大的機率 利用樣本資料估計而得的迴歸係數不等於零。檢定迴歸模式統計顯著性的方 法主要有t檢定和F檢定。

樣本數的大小會影響統計顯著性的檢定效果。對一個小樣本(通常指少於20 個觀察值)而言,只宜有一個自變變數,而且只有很強的關係才會被檢定出

來。而一個非常大的樣本(1,000個或以上的觀察值)則會使顯著性檢定變得 過度敏感,幾乎任何關係都會呈顯統計上的顯著性,因此在樣本數很大時,

除了符合統計顯著性的要求之外,也必須符合實務顯著性的準則。

6. 評估解釋能力

在檢定統計顯著性後,接著要解釋迴歸變量。首先要評估估計迴歸係數解釋 準則變數的能力。如果在估計迴歸方程式之前,已經先把所有預測變數標準 化,則所獲得的迴歸係數稱為beta係數,beta係數的大小可以說明各自變變數 解釋應變變數變異的能力。將各自變變數標準化可以消除不同自變變數的衡 量單位不同造成的問題,因此,beta係數越大,該自變變數對應變變數的影 響力就越大。

另外,也要評估各項自變變數之間是否有多元共線性(multicollinearity)的 問題。多元共線性是表示自變變數之間有相關關係存在。研究人員應評估多 元共線性的程度,並確定他對迴歸結果的可能影響,如有必要應該取補救或 修正的措施。共線性的程度可以用容忍值(tolerance)來表示,容忍值是1減 去某一變數的變異數倍其他自變變數解釋的比例。容忍值介於0與1之間,其 值越大,表示共線性越小;其值越小,表示共線性越嚴重。共線性的程度也 可以用變異數膨脹因素(variance inflation factor,VIF)來評估。VIF為容忍 值的倒數,VIF越大表示共線性越大。

7. 驗證迴歸結果

在確認最佳的迴歸模型後,最後的一個步驟是驗證迴歸的結果。為使獲得的 模式更能代表母體,最好的方法是從同一個母體再抽出一組新的樣本,然後 有兩種方式來驗證原始模型的效度:一是使用原始模型預測新樣本中的數值,

並計算預測的契合度;另一個是用新樣本的資料來估計另一個迴歸模式,然

後比較原始模式和新的模式在特定的特性(如包含的重要變數;變數的正負、

大小、和相對重要性的排序、預測正確性等)上的差異情形。

許多時候研究人員受限於成本、時間壓力或其他因素,無法收集新的資料。

在這樣的狀況下,研究人員可以將樣本分為估計用的子樣本和驗證用的子樣 本兩部分,然後先利用估計用的子樣本來求得迴歸模式,再利用驗證用的子 樣本來檢定或驗證迴歸模式。

三、多元迴歸模式

以三變數迴歸模式為例解釋多元迴歸模式:

三變數迴歸模式

簡單直線迴歸模式可以很容易的推廣與延伸到多變數迴歸模式。例如可以增加一 個自變變數而成為如下的三變數直線迴歸模式:

Y=α+β1X12X2

其估計迴歸函數為:

Ý=a+b1X1+b2X2

可以透過求解以下的常態方程式,求得α, β1和β2的最小平方估計 值:

ΣYi=na+b1ΣXi1+b2ΣXi2

ΣXi1Yi=aΣXi1+b1ΣX2i1+b2ΣXi1Xi2

ΣXi2Yi=aΣXi2+b1ΣXi1Xi2+b2ΣX2i2

α, β1和β2的最小平方估計 值 a, b1和b2如下:

[其中 d1=X1-X1 ,d2=X2-X2]

b1= b1= a=Y-b1X1-b2X2