• 沒有找到結果。

第二章 文獻回顧

3.2 多元迴歸分析

廖佩珊【22】提出建構迴歸模型的流程如下:

1. 描述反應變數的分配特性。

2. 檢查所有潛在解釋變數的範圍與離群現象。

3. 探究變數間的相關情形。

4. 配適包含所有潛在解釋變數的一階模型,檢查誤差項是否滿足無相關、

變異數一致性與常態性的假設。配適其他模型以了解交互作用是否顯 著?(注意樣本數須為解釋變數個數的 6-10 倍,所以模型不能太複雜)

檢查是否遺漏了重要的解釋變數?

5. 如需要則進行殘差獨立化、常態化或交互作用效應縮減之變數轉換。

6. 根據第五步的變數型態進行預測變數之縮減。

7. 配適含交互作用、二次項或更高階項的模型以檢查第六步所得變數的一 階模型之合適性。(注意樣本數的限制)

8. 進行第七步所得模型的初步診斷,包括誤差項的獨立性、變異數一致性 及常態性。

9. 進一步診斷第七步所得模型,包括離群值與影響點的辨認、多元共線性 的偵測及須考慮的矯正措施。相關推論用顯著水準α。

10. 評估影響個案對模型配適及推論的影響並採取適當的矯正措施。

11. 用矯正過後的模型配適確認資料集並檢討所得的迴歸係數估計、估計 標準差及其他模型配適統計量與建模階段結果的一致性。

12. 計算確認資料集的均方預測誤差(MSPR)並說明用矯正後的模型之預 測能力。

一個好的迴歸模式應滿足三要件:配合度佳(Goodness of Fit)、精 簡(Parsimony)、具詮釋性(Interpretable)。

本研究將依照上述要件建構迴歸模式,參考相關分析之結果進行多元 線性迴歸,分別建立散裝船、貨櫃船與油輪的迴歸模型。

【1】

【2】

資料蒐集與準備 【3】

是 【4】

否 【5】

--- 【6】減少解釋變數 ---(用於探索性觀察研究)

【7】

【8】

【9】

模型精煉與選擇 是 否 【10】

--- 【11】

否 是 模型確認 【12】

蒐集資料

更完整研究曲線 效應及交互作用

決定幾個可能有用的解釋變 數子集;納入已知重要變數

需矯正 處理?

確認通過 需矯正 處理?

矯正處置

資料品質初步檢查

關聯及交互作用診斷

選擇暫用模型 殘差研究及其他診斷 矯正處置

最終模型

圖 3. 1 迴歸模型的建構流程

資料來源:廖佩珊【22】

廖佩珊【22】認為迴歸分析是一種瞭解並利用兩個或多個數量變數間 之關係,使其中反應變數的值可以用一個或多個解釋變數的值加以預測的 統計方法。或者說是一種研究一個或多個變數(自變數)對另一個變數(依 變數)的影響情況,並以數學方程式來描述變數間的關係的統計方法。

在「預測」的研究中,須將變數區分為反應變數和解釋變數。

1. 反應變數:要研究其變化的變數,通常是個(實驗或觀察的)「結果」。 一般用

Y

代表之。

1. 解釋變數:可以解釋或造成反應變數變化的變數。一般用

X

X

1,

X

2,…

表示。

要建立適當的模型才能做預測,所謂建立模型就是指找出一個能表達 變數間關係的函數式。至於函數式究竟應包括哪些變數及變數應以何種型 態出現須有理論或實務之根據,而函數式內變數間關係的強度及方向則由 樣本資料評估之。為能反映變數間的統計關係,迴歸模型須架構在下列兩 個基本假設上:

1. 對應自變數

X

的每個水準,反應變數

Y

呈現一個機率分佈。

2.

Y

的各機率分佈之平均值隨著

X

的值做規則性的變化。

為能適當地描述樣本資料,模型必須符合下列假設:

1. 對於各個

X

值,

Y

的平均值 E(

Y

X

)可透過迴歸函數求得。

2. 對於各個

X

值,

Y

X值分配於其平均值附近,且其機率分配都有相同的變 異數σ2(稱為 Homoskedastic)。

3.

Y

值間的共變異數為 0,表示它們之間沒有線性相關。

4. 變數

X

必須至少有兩個不同的值。

5. (選擇性的),對於各個

X

值,

Y

值服從變異數為σ2的常態分配,而其 平均數由迴歸函數決定。

具有常態誤差項的一般線性迴歸模型(GLM:General Liner Regression Model)通常用以下聯立方程組表示:

Y

i=β01

X

i12

X

i2+…+βp-1

X

i,p-1i

i=1,2,…,n (3-3)

Y

i:反應變數

X

1:解釋變數 βp:迴歸係數 εi:隨機誤差

隨機誤差εi的來源可以歸納下列三個原因:

1. 人類行為自然現象的隨機性。

2. 測量的誤差。 係數(Coefficient of Multiple Determination)R2來衡量模型的解釋力:

1. 複判定係數

複相關係數(Coefficient of Multiple Correlation)是複判定係數 的正平方根,以Ry.12…p-1表示,即Ry.12…p-1=

R

2

1. 複相關係數衡量反應變數

Y

與整組解釋變數間的直線相關程度。

2. 只有一個解釋變數時,複相關係數Ry.12…p-1等於(簡單)相關係數r的絕

對值。

1. 前進選擇法(Forward Selection)

2. 後退消去法(Backward Selection)

3. 逐步回歸法(Stepwise Selection)

4. 強迫輸入法(Enter Selection)

吳 明 隆 、 塗 金 堂 【 12 】 認 為 進 行 多 元 迴 歸 分 析 要 留 意 共 線 性

(Collinarity)問題,所謂的共線性指的是由於自變數間的相關太高(例 如超過 0.8),造成迴歸分析之情境困擾。自變數間是否有共線性問題,可 由下面的數據加以判別:

1. 容忍度(Tolerance)

Tolerance=1-R2 (3-9)

其中R2是此自變數與其他自變數間的複相關係數的平方,此時變數之R2

值太大,代表模式中其它自變數可以有效解釋這個變數。容忍度的值界 於 0 與 1 之間,如果一個自變數的容忍度太小,表示此項變數與其他自 變數間有共線性問題;其值如接近 0,表示此變數幾乎是其它變數的線 性組合,這個變數迴歸係數的估計值不夠穩定,而迴歸係數的計算值也 會有很大誤差。

2. 變異數膨脹因子(VIF:Variance Inflation Factor)

VIF=

Tolerance

1

= 2

1 1

R

(3-10)

VIF 的值愈大,表示自變數的容忍度愈小,愈有共線性的問題。

若Max(VIF1,VIF2,…,VIFp-1)>10 或平均之VIF遠大於 1,則變數 X1,X2,…,Xp-1間有嚴重的共線性,會過度影響迴歸係數的估計。

3. 條件指標(CI:Condition Index)

CI=

λ λ

max

(3-11)

λ

:特徵值(Eigenvalue)

CI 值愈大,愈有共線性問題。

多元共線性的補救方法:

1. 加入事前經驗的訊息。

2. 將時間序列資料與隨機樣本資料合併估計。

3. 剔除發生多元線性相關的某一解釋變數,但要注意模型所引起的偏差,

而且此法等於丟棄已有的資訊,但非不得已不宜採用。

4. 轉換變數。

5. 增加新資料。

6. 採用脊回歸(Ridge Regression)分析法。