第二章 文獻回顧
3.2 多元迴歸分析
廖佩珊【22】提出建構迴歸模型的流程如下:
1. 描述反應變數的分配特性。
2. 檢查所有潛在解釋變數的範圍與離群現象。
3. 探究變數間的相關情形。
4. 配適包含所有潛在解釋變數的一階模型,檢查誤差項是否滿足無相關、
變異數一致性與常態性的假設。配適其他模型以了解交互作用是否顯 著?(注意樣本數須為解釋變數個數的 6-10 倍,所以模型不能太複雜)
檢查是否遺漏了重要的解釋變數?
5. 如需要則進行殘差獨立化、常態化或交互作用效應縮減之變數轉換。
6. 根據第五步的變數型態進行預測變數之縮減。
7. 配適含交互作用、二次項或更高階項的模型以檢查第六步所得變數的一 階模型之合適性。(注意樣本數的限制)
8. 進行第七步所得模型的初步診斷,包括誤差項的獨立性、變異數一致性 及常態性。
9. 進一步診斷第七步所得模型,包括離群值與影響點的辨認、多元共線性 的偵測及須考慮的矯正措施。相關推論用顯著水準α。
10. 評估影響個案對模型配適及推論的影響並採取適當的矯正措施。
11. 用矯正過後的模型配適確認資料集並檢討所得的迴歸係數估計、估計 標準差及其他模型配適統計量與建模階段結果的一致性。
12. 計算確認資料集的均方預測誤差(MSPR)並說明用矯正後的模型之預 測能力。
一個好的迴歸模式應滿足三要件:配合度佳(Goodness of Fit)、精 簡(Parsimony)、具詮釋性(Interpretable)。
本研究將依照上述要件建構迴歸模式,參考相關分析之結果進行多元 線性迴歸,分別建立散裝船、貨櫃船與油輪的迴歸模型。
【1】
【2】
資料蒐集與準備 【3】
是 【4】
否 【5】
--- 【6】減少解釋變數 ---(用於探索性觀察研究)
【7】
【8】
【9】
模型精煉與選擇 是 否 【10】
--- 【11】
否 是 模型確認 【12】
蒐集資料
更完整研究曲線 效應及交互作用
決定幾個可能有用的解釋變 數子集;納入已知重要變數
需矯正 處理?
確認通過 需矯正 處理?
矯正處置
資料品質初步檢查
關聯及交互作用診斷
選擇暫用模型 殘差研究及其他診斷 矯正處置
最終模型
圖 3. 1 迴歸模型的建構流程
資料來源:廖佩珊【22】
廖佩珊【22】認為迴歸分析是一種瞭解並利用兩個或多個數量變數間 之關係,使其中反應變數的值可以用一個或多個解釋變數的值加以預測的 統計方法。或者說是一種研究一個或多個變數(自變數)對另一個變數(依 變數)的影響情況,並以數學方程式來描述變數間的關係的統計方法。
在「預測」的研究中,須將變數區分為反應變數和解釋變數。
1. 反應變數:要研究其變化的變數,通常是個(實驗或觀察的)「結果」。 一般用
Y
代表之。1. 解釋變數:可以解釋或造成反應變數變化的變數。一般用
X
或X
1,X
2,…表示。
要建立適當的模型才能做預測,所謂建立模型就是指找出一個能表達 變數間關係的函數式。至於函數式究竟應包括哪些變數及變數應以何種型 態出現須有理論或實務之根據,而函數式內變數間關係的強度及方向則由 樣本資料評估之。為能反映變數間的統計關係,迴歸模型須架構在下列兩 個基本假設上:
1. 對應自變數
X
的每個水準,反應變數Y
呈現一個機率分佈。2.
Y
的各機率分佈之平均值隨著X
的值做規則性的變化。為能適當地描述樣本資料,模型必須符合下列假設:
1. 對於各個
X
值,Y
的平均值 E(Y
∣X
)可透過迴歸函數求得。2. 對於各個
X
值,Y
X值分配於其平均值附近,且其機率分配都有相同的變 異數σ2(稱為 Homoskedastic)。3.
Y
值間的共變異數為 0,表示它們之間沒有線性相關。4. 變數
X
必須至少有兩個不同的值。5. (選擇性的),對於各個
X
值,Y
值服從變異數為σ2的常態分配,而其 平均數由迴歸函數決定。具有常態誤差項的一般線性迴歸模型(GLM:General Liner Regression Model)通常用以下聯立方程組表示:
Y
i=β0+β1X
i1+β2X
i2+…+βp-1X
i,p-1+εi∀
i=1,2,…,n (3-3)Y
i:反應變數X
1:解釋變數 βp:迴歸係數 εi:隨機誤差隨機誤差εi的來源可以歸納下列三個原因:
1. 人類行為自然現象的隨機性。
2. 測量的誤差。 係數(Coefficient of Multiple Determination)R2來衡量模型的解釋力:
1. 複判定係數
複相關係數(Coefficient of Multiple Correlation)是複判定係數 的正平方根,以Ry.12…p-1表示,即Ry.12…p-1=
R
2 。1. 複相關係數衡量反應變數
Y
與整組解釋變數間的直線相關程度。2. 只有一個解釋變數時,複相關係數Ry.12…p-1等於(簡單)相關係數r的絕
對值。
1. 前進選擇法(Forward Selection)
2. 後退消去法(Backward Selection)
3. 逐步回歸法(Stepwise Selection)
4. 強迫輸入法(Enter Selection)
吳 明 隆 、 塗 金 堂 【 12 】 認 為 進 行 多 元 迴 歸 分 析 要 留 意 共 線 性
(Collinarity)問題,所謂的共線性指的是由於自變數間的相關太高(例 如超過 0.8),造成迴歸分析之情境困擾。自變數間是否有共線性問題,可 由下面的數據加以判別:
1. 容忍度(Tolerance)
Tolerance=1-R2 (3-9)
其中R2是此自變數與其他自變數間的複相關係數的平方,此時變數之R2
值太大,代表模式中其它自變數可以有效解釋這個變數。容忍度的值界 於 0 與 1 之間,如果一個自變數的容忍度太小,表示此項變數與其他自 變數間有共線性問題;其值如接近 0,表示此變數幾乎是其它變數的線 性組合,這個變數迴歸係數的估計值不夠穩定,而迴歸係數的計算值也 會有很大誤差。
2. 變異數膨脹因子(VIF:Variance Inflation Factor)
VIF=
Tolerance
1
= 21 1
− R
(3-10)VIF 的值愈大,表示自變數的容忍度愈小,愈有共線性的問題。
若Max(VIF1,VIF2,…,VIFp-1)>10 或平均之VIF遠大於 1,則變數 X1,X2,…,Xp-1間有嚴重的共線性,會過度影響迴歸係數的估計。
3. 條件指標(CI:Condition Index)
CI=
λ λ
max(3-11)
λ
:特徵值(Eigenvalue)CI 值愈大,愈有共線性問題。
多元共線性的補救方法:
1. 加入事前經驗的訊息。
2. 將時間序列資料與隨機樣本資料合併估計。
3. 剔除發生多元線性相關的某一解釋變數,但要注意模型所引起的偏差,
而且此法等於丟棄已有的資訊,但非不得已不宜採用。
4. 轉換變數。
5. 增加新資料。
6. 採用脊回歸(Ridge Regression)分析法。