多元迴歸分析

第二章文獻回顧

3.2 多元迴歸分析

廖佩珊【22】提出建構迴歸模型的流程如下：

1. 描述反應變數的分配特性。

2. 檢查所有潛在解釋變數的範圍與離群現象。

3. 探究變數間的相關情形。

4. 配適包含所有潛在解釋變數的一階模型，檢查誤差項是否滿足無相關、

變異數一致性與常態性的假設。配適其他模型以了解交互作用是否顯著？（注意樣本數須為解釋變數個數的 6-10 倍，所以模型不能太複雜）

檢查是否遺漏了重要的解釋變數？

5. 如需要則進行殘差獨立化、常態化或交互作用效應縮減之變數轉換。

6. 根據第五步的變數型態進行預測變數之縮減。

7. 配適含交互作用、二次項或更高階項的模型以檢查第六步所得變數的一階模型之合適性。（注意樣本數的限制）

8. 進行第七步所得模型的初步診斷，包括誤差項的獨立性、變異數一致性及常態性。

9. 進一步診斷第七步所得模型，包括離群值與影響點的辨認、多元共線性的偵測及須考慮的矯正措施。相關推論用顯著水準α。

10. 評估影響個案對模型配適及推論的影響並採取適當的矯正措施。

11. 用矯正過後的模型配適確認資料集並檢討所得的迴歸係數估計、估計標準差及其他模型配適統計量與建模階段結果的一致性。

12. 計算確認資料集的均方預測誤差（MSPR）並說明用矯正後的模型之預測能力。

一個好的迴歸模式應滿足三要件：配合度佳（Goodness of Fit）、精簡（Parsimony）、具詮釋性（Interpretable）。

本研究將依照上述要件建構迴歸模式，參考相關分析之結果進行多元線性迴歸，分別建立散裝船、貨櫃船與油輪的迴歸模型。

【1】

【2】

資料蒐集與準備【3】

是【4】

否【5】

--- 【6】減少解釋變數 ---（用於探索性觀察研究）

【7】

【8】

【9】

模型精煉與選擇是否【10】

--- 【11】

否是模型確認【12】

蒐集資料

更完整研究曲線效應及交互作用

決定幾個可能有用的解釋變數子集；納入已知重要變數

需矯正處理？

確認通過需矯正處理？

矯正處置

資料品質初步檢查

關聯及交互作用診斷

選擇暫用模型殘差研究及其他診斷矯正處置

最終模型

圖 3. 1 迴歸模型的建構流程

資料來源：廖佩珊【22】

廖佩珊【22】認為迴歸分析是一種瞭解並利用兩個或多個數量變數間之關係，使其中反應變數的值可以用一個或多個解釋變數的值加以預測的統計方法。或者說是一種研究一個或多個變數（自變數）對另一個變數（依變數）的影響情況，並以數學方程式來描述變數間的關係的統計方法。

在「預測」的研究中，須將變數區分為反應變數和解釋變數。

1. 反應變數：要研究其變化的變數，通常是個（實驗或觀察的）「結果」。一般用

Y

代表之。

1. 解釋變數：可以解釋或造成反應變數變化的變數。一般用

X

或

X

2,…

表示。

要建立適當的模型才能做預測，所謂建立模型就是指找出一個能表達變數間關係的函數式。至於函數式究竟應包括哪些變數及變數應以何種型態出現須有理論或實務之根據，而函數式內變數間關係的強度及方向則由樣本資料評估之。為能反映變數間的統計關係，迴歸模型須架構在下列兩個基本假設上：

ⁱ²+…+β^p-1

X

^i,p-1+εⁱ

∀

i=1,2,…,n （3-3）

Y

i：反應變數

X

¹：解釋變數 βp：迴歸係數 εⁱ：隨機誤差

隨機誤差εi的來源可以歸納下列三個原因：

1. 人類行為自然現象的隨機性。

2. 測量的誤差。係數（Coefficient of Multiple Determination）R²來衡量模型的解釋力：

1. 複判定係數

複相關係數（Coefficient of Multiple Correlation）是複判定係數的正平方根，以R^y.12…p-1表示，即R^y.12…p-1=

R

² 。

1. 複相關係數衡量反應變數

Y

與整組解釋變數間的直線相關程度。

2. 只有一個解釋變數時，複相關係數R^y.12…p-1等於（簡單）相關係數r的絕

對值。

1. 前進選擇法（Forward Selection）

2. 後退消去法（Backward Selection）

3. 逐步回歸法（Stepwise Selection）

4. 強迫輸入法（Enter Selection）

吳明隆、塗金堂【 12 】認為進行多元迴歸分析要留意共線性

（Collinarity）問題，所謂的共線性指的是由於自變數間的相關太高（例如超過 0.8），造成迴歸分析之情境困擾。自變數間是否有共線性問題，可由下面的數據加以判別：

1. 容忍度（Tolerance）

Tolerance=1-R² （3-9）

其中R²是此自變數與其他自變數間的複相關係數的平方，此時變數之R²

值太大，代表模式中其它自變數可以有效解釋這個變數。容忍度的值界於 0 與 1 之間，如果一個自變數的容忍度太小，表示此項變數與其他自變數間有共線性問題；其值如接近 0，表示此變數幾乎是其它變數的線性組合，這個變數迴歸係數的估計值不夠穩定，而迴歸係數的計算值也會有很大誤差。

2. 變異數膨脹因子（VIF：Variance Inflation Factor）

VIF=

Tolerance

1

= ₂

1 1

− R

（3-10）

VIF 的值愈大，表示自變數的容忍度愈小，愈有共線性的問題。

若Max（VIF1,VIF2,…,VIFp-1）＞10 或平均之VIF遠大於 1，則變數 X¹,X²,…,X^p-1間有嚴重的共線性，會過度影響迴歸係數的估計。

3. 條件指標（CI：Condition Index）

CI=

λ λ

_max

（3-11）

λ

：特徵值（Eigenvalue）

CI 值愈大，愈有共線性問題。

多元共線性的補救方法：

1. 加入事前經驗的訊息。

2. 將時間序列資料與隨機樣本資料合併估計。

3. 剔除發生多元線性相關的某一解釋變數，但要注意模型所引起的偏差，

而且此法等於丟棄已有的資訊，但非不得已不宜採用。

4. 轉換變數。

5. 增加新資料。

6. 採用脊回歸（Ridge Regression）分析法。

在文檔中新造船舶數量之影響因素分析與預測 (頁 38-43)

第二章 文獻回顧

3.2 多元迴歸分析

資料來源：廖佩珊【22】

Y

X

X

X

X

Y

Y

X

X

Y

Y

X

X

Y

Y

X

X

Y

Y

X

X

X

∀

Y

X

R

Y

Tolerance

1

1 1

− R

λ λ

λ

第二章文獻回顧