多元迴歸分析

第三章研究方法

3.3 多元迴歸分析

的主成分能保有原來變數最多的資訊，即主成分有最大的變異數。

主成分分析將多個有相關的變數簡化為少數沒有相關的主成分，經由樣本

x

₁

, x

₂

, L , x

_n所估計的相關矩陣 R ，可得到該矩陣的特徵值

λ λ

₁, ₂,_L ,

λ

_n ，則 λ _i 所對應的特徵向量

α

_i，則

1 1 2 1 1

1 2

, , ,

n n

n n n n

α α α

⎛ ⎞ ⎛ ⎞ ⎛ ⎞

⎜ ⎟ ⎜ ⎟ ⎜ ⎟

= ⎜ ⎟ = ⎜ ⎟ = ⎜ ⎟

⎜ ⎟ ⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠ ⎝ ⎠

M M L M

(3.2.5)

其中

α α

_i _i′ = ，

I R α

_i =

λα

_i _i。利用

α

_i將 x轉換成第 i 個主成份

F ，轉換結果如下：

第一主成份為：

F

₁ =

α

_{11 1}

x

α

_{12 2}

x

+L+

α

_{1n n}

x

第二主成份為：

F

₂ =

α

_{21 1}

x

α

_{22 2}

x

+L+

α

_{2n n}

x

第n主成份為：

F

_n =

α

_n_{1 1}

x

α

_n_{2 2}

x

+L+

α

_nn

x

為了達到簡化的目的，通常主成份個數只取最大m個來替代原本的 n個變數，而這m個變數可解釋原始變數變異數的比例為

2 1 2

1 2

m n

R λ λ λ

λ λ λ

+ + +

= + +L+

L (3.2.6)

一、迴歸分析基本假設(殘差分析) (一)常態性

對任何一個自變數X 而言，依變數 Y 是常態分配的，平均數為

μ

Y X，變異數為

σ

²。本研究利用迴歸方程式的殘差相關檢定，繪製標準化殘差值的次數分配圖與標準化殘差值的常態機率(P-P)圖，檢定殘差項是否符合常態分配。

(二)獨立性

每一個依變數 Y 彼此之間是統計獨立，觀察值之間彼此不會互相引響。本研究將利用 D-W 檢定(Durbin-Watson Test)用以檢定觀測資料，是否合乎獨立性的假設。

2 1 2

2 1

( )

i i

i n

i i

E E DW

E

= −

−

∑

(3.3.1)

Where E_i = −Y_i Y iˆ , 1,2,3, ,_i = L n

若 DW 值小時，表示殘差是正相關；若大時，表示負相關。當 DW 值愈接近 2 時(範圍為 1.5~2.5 之間)，殘差項間愈無相關；當 DW 值愈接近 0 時，殘差項間正相關愈強；當 DW 值愈接近 4 時，殘差項間負相關愈強。

(三)恆常性

即迴歸殘差值的變異量為固定的常數，不會因為變數值而改變原使得型態。若迴歸標準化殘差值與變數的散佈圖呈現一水平帶狀，代表殘差值的變異量為固定值，即符合迴歸殘差恆常性。

當迴歸方程式滿足上述三個基本假設時，代表此迴歸方程式具有線性特性，稱為線性迴歸。如果資料違反基本假設時，可將變數加以轉換，譬如採取對數、平方根或倒數。

二、多元迴歸模式

本研究將 17 項專利指標利用因素分析萃取出不同的主成份之後，再利用多元迴歸模式分析依變數( 專利訴訟賠償金額)Y 與自變數 (各個主成份 )F 之間的線性關係，多元迴歸基本模式為

0 1 1 2 2

i i i m mi i

Y

β

β F

+L+

β F

ε

(3.3.2) 或

1 ( 1) ( 1) 1 1

n n m m n

Y

_× =

F

_× ₊

β

_{+ ×} +

ε

_× 或

1 11 1 0 1

2 21 1 1 2

1 1 1

m m

n n nm m n

Y F F

β ε

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤

⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎢= ⎥ ⎢ ⎥ ⎢ ⎥+

⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

L L

M M M M M M M

(3.3.3)

其中

ε

_i為多元迴歸基本模式的殘差值，彼此之間互相獨立且屬常態分配，

^ε

ⁱ ^~

^N (

^0,

^σ

)

ⁱ

⁼^{1,2, ,}L ，接著利用最小平方法(Original Least

ⁿ

Square，OLS)，估計多元迴歸方程式的係數值為

1 1

0 2

1 1 1

( ) ,

m m

i i

m m m

i i i i

i i i

m F Y

F F F Y Y F

F F FY

β

⁻ ⁼ ⁼

β β

= = =

⎛ ⎞⎛ ⎞

⎜ ⎟⎜ ⎟

′ ′

= = = −

⎜ ⎟⎜ ⎟

⎝ ⎠⎝ ⎠

∑ ∑

∑ ∑ ∑

(3.3.4)

三、多元共線性分析

共線性指的是由於自變數之間的相關性太高，具有共線性變數所提供的訊息相似，使研究結果無法分辨出個別變數的效果，因此變數項之間如果存在著共線性問題，表示一個自變數是其他字變相的線性組合，例如有兩個自變項

X 與

₁

X ，兩自

₂ 變項具有完全共線性，則

X

₁= +

a bX

₂，所以一自變項與其他自變項之間具有共線性問題時，這個自變項的迴歸係數估計值不夠穩定，而迴歸係數的計算值也會有很大的誤差。

通常診斷共線性的問題可由容忍度(tolerance)或變異數膨脹因素(variance inflation factor， VIF)作為共線性的量度。容忍度與 VIF 的公式分別為 (3.4.4)與 (3.4.5)：

1 2

tolerance = − R (3.3.5)

VIF

R

− (3.3.6)

其中

R 是此自變項與其他自變項間的多元相關係數的平方，即模式

² 中其他自變項對此變項的解釋能力，因此如果其他自變項對此變項解釋能力越高，即若容忍度越小，代表此變項與其他變項間存在線性關係；

VIF 值為容忍度的倒數，因此容忍度越小，即 VIF 越大，代表此變項與其他變項間存在線性關係。

在文檔中中華大學碩士論文 (頁 58-62)

第三章 研究方法

3.3 多元迴歸分析

x

, x

, L , x

λ λ

λ

α

, , ,

⎛ ⎞ ⎛ ⎞ ⎛ ⎞

⎜ ⎟ ⎜ ⎟ ⎜ ⎟

= ⎜ ⎟ = ⎜ ⎟ = ⎜ ⎟

⎜ ⎟ ⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠ ⎝ ⎠

M M L M

α α

I R α

λα

α

F ， 轉 換 結 果 如 下 ：

F

α

x

α

x

α

x

F

α

x

α

x

α

x

F

α

x

α

x

α

x

R λ λ λ

λ λ λ

μ

σ

E E DW

E

∑

∑

Y

β

β F

β F

β F

ε

Y

F

β

ε

β ε

β ε

β ε

ε

ε

N (

σ

)

i

n

m F Y

F F F Y Y F

F F FY

β

β β

∑ ∑

∑ ∑ ∑

X 與

X ， 兩 自

X

第三章研究方法

F ，轉換結果如下：

^ε

^N (

^σ

ⁱ

ⁿ

X ，兩自