𝑋𝑗 = 𝑎0+ 𝑎1𝑋1+ ⋯ + 𝑎𝑗−1𝑋𝑗−1+ 𝑎𝑗+1𝑋𝑗+1+ ⋯ + 𝑎𝑘𝑋𝑘+ 𝜀𝑗 (3.5) 該多重迴歸式得到的 𝑅2 即為自變數 j 與其他自變數的複相關係數平方 𝑅𝑗2。 由於計算複雜,本研究使用 SAS 統計軟體來計算各自變數間的 𝑅𝑗 值,以計算 𝑉𝐼𝐹𝑗。
要處理多重共線性的問題,第一種方法是刪除自變數以降低多重共線性的影 響。在選擇自變數之前,會先計算變異數膨脹因子,倘若 𝑉𝐼𝐹𝑗 > 10,則選擇不 加入該自變數。此方法雖能減少多重共線性的影響,校估係數時不會有太多偏誤,
但被刪除自變數的訊息卻無法得知,對於評估自變數的影響效果並無太多幫助。
第二種方法與第一種相反,是加入一些新的自變數來消除多重共線性的影響,但 新加入的自變數也可能與既有自變數有相互影響。第三種方法是將自變數的迴歸 係數依照不同組合的資料校估而得,來避免多重共線性的問題。以下述模式為 例:
𝑌𝑖 = 𝛽0+ 𝛽1𝑋𝑖1+ 𝛽2𝑋𝑖2+ 𝜀𝑖 (3.6) 若 𝑋𝑖1 與 𝑋𝑖2 有高度的相關性,即有多重共線性的影響,則將 𝑋𝑖1 移項,
將應變數 𝑌𝑖 調整為,係數 𝛽1 是根據橫斷資料估計而得:
𝑌𝑖′= 𝑌𝑖 − 𝛽1𝑋𝑖1 (3.7) 最後,將自變數 𝑋𝑖2 依照調整後的應變數校估得到係數 𝛽2,即:
𝑌𝑖− 𝛽1𝑋𝑖1 = 𝛽0+ 𝛽2𝑋𝑖2+ 𝜀𝑖 (3.8) 或是
𝑌𝑖′ = 𝛽0+ 𝛽2𝑋𝑖2+ 𝜀𝑖 (3.9) 第四種方法,為使用下一節說明之「山脊型迴歸法 (Ridge regression)」為一 般研究者處理多重共線性問題常用的方式。
山脊型迴歸法 3.1.5
使用山脊型迴歸法的優點是可以維持既有的自變數,在原先校估的係數加上
偏差值,得到較合理的迴歸係數。但相對付出的代價即為降低模式的解釋能力。
本研究由於自變數皆是按照社會經濟條件、旅次目的即運具特性等因子來考量,
自變數皆與總體需求有相關性,除非校估係數為不顯著,否則任意刪除一變數,
則無法得知該變數的訊息。
山脊型迴歸法介紹 3.1.5.1
山脊型迴歸法可用來尋找較合適的迴歸係數,如下圖所示,自變數 j 採用
「最小平方法」得到的迴歸係數為 𝑏𝑗,若有多重共線性影響,其變異數受到其 他自變數影響而膨脹,致使趨近真實係數 𝛽𝑗 的機率較低,而經過山脊型迴歸法 的修正後,會使變異數的膨脹減少 (圖 3.4 中較高峰的分布),使用修正後的迴歸 係數 𝑏𝑗𝑅,會有較大機率趨近真值 𝛽𝑗,如此可減少偏誤的現象。
圖 3.4 山脊型迴歸係數與最小平方法迴歸係數之差異(François Nielsen, 2006)
𝑏𝑗𝑅 的推估方式,先從一般的最小平方法來推導:
𝑌 = 𝑏1′𝑋1′+ 𝑏2𝑋2′ + ⋯ + 𝑏𝑘𝑋𝑘′ + 𝜀′ (3.10) 其中 𝑋1′,𝑋2′,…,𝑋𝑘′ 為標準化後的自變數,𝑏1′, 𝑏2′, … 𝑏𝑘′ 為標準化迴歸係數,
標準化後的自變數不會受到不同單位的影響,以方便修正。上述式子根據統計的 推導,可以變成 𝑟𝑥𝑥𝑏 = 𝑟𝑦𝑥,其中 𝑟𝑥𝑥 為 (𝑘 − 1) × (𝑘 − 1) 階層的矩陣,由自 變數間的相關係數所組合成的相關矩陣,即:
𝑟𝑥𝑥 =
𝑉𝐼𝐹̅̅̅̅̅ = ∑ 𝑉𝐼𝐹𝑗
山脊型標準化迴歸係數之變異數