第四章 分析方法
第三節 LARS、Stagewise、LASSO 迴歸模型
三、多個獨立母體之無母數檢定 Kruskal-Wallis 檢定(KW 檢定)
此法不像上述的一因子變異數分析須要同質變異數或常態分配等假設,只須將 n 筆
第三節 LARS、Stagewise、LASSO 迴歸模型
此節將 LARS、Stagewise、LASSO 一起討論的原因在於三種方法皆可由 LARS 演 算法求得其迴歸係數估計值。此外,在演算法中如何修改使我們得知 Stagewise 和 LASSO 的估計值結果以及各方法運用至高維度資料時的優缺點也會在此節一併說明。
‧
一、Least Angle Regression(LARS)
我們先由圖 4.2 來簡單解釋 LARS 的概念。若現在只考慮兩個變量
x
1、x
2對y 的資料來源:“Least Angle Regression” by Efron, B., Hastie, T., Johnstone, I. and Tibshirani R., 2003, Annals of Statistics, 32(2), 412.
當
m 2
時,我們即以數學式來表示。假設有 m 個變數, n 個觀察值,‧
2006;Hastie 等人,2009)
二、Forward Stagewise Regression
與向前選取方法類似,差別是在於此方法每一步的移動幅度很小,且較謹慎。簡單 停止。而修正 LARS 演算法來求解 Stagewise 估計值的方法是先考慮 Stagewise 選取變數 的每個步驟大小
趨近於零,假設已作了 N 個 Stagewise 的步驟,就會產生一些估計式μ
ˆ 且將N
j定義成將第 j 個變數選入模型中所須之步驟數,其中 j
1,2,,m,當 j
時,‧
時的 Stagewise 反而會將其變數之迴歸係數膨脹,並盡可能的將其變數之迴歸係數維持 非遞增或非遞減的變化,而此特性會在實証分析的部份有所驗証。而缺點就是比較沒有 縮減變數之效果且在高維度資料中,迴歸模型最多會選入與樣本數(n)相同之變數個 數。(Efron 等人,2003;Hastie 等人,2009;Leng 等人,2006)三、LASSO
Tibshirani(1996)提出關於 LASSO 的文章,LASSO 是一種具有懲罰項的迴歸估計 式,即限制在
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
19
的元素是
j
時其值為sjwj,反之為零。因此μ
ˆ
Xβ
(
),其中
j(
)
ˆj
dˆj。此時若將 LARS 的角平分向量對應至 LASSO 估計值的路徑上會發現
j(
)在
j
ˆj/dˆj 時變號那麼對於我們已經有的 LASSO 估計值β ( )
中的元素會在最小的的那個大於零 的
j處變號且將其記為~
表示min( )0 j
j
,若沒有
j大於零的話,則將 ~
記為無窮大。另外,若
~ 小於
ˆ ,因
j( )
之正負號需與c
j( )
一致,則對應至 LARS 估計的
j( )
就不 會成為一個 LASSO 估計值,所以在此狀況下就不能繼續在 LARS 的步驟上繼續前進,而解決辦法就是將與
j相等的~
所對應之~ j
從
中刪掉後再繼續進行 LARS 步驟以得 出 LASSO 迴歸係數估計值。 (Efron 等人,2003;Leng 等人,2006)LASSO 這種方法的優點是可同時達到將迴歸係數縮減和變數選取的效果。不過缺 點是面對高維度資料變數個數大於樣本數時,除了在對於兩個具有高度相關的變數選入 模型的方式是採「任意」的方式將某個變數加入其模型中,因而影響變數的排序;此外 最後模型中之非零迴歸係數個數最多並不會超過樣本數(n)。(Hastie 等人,2009)
當面對高維度資料時,以上三種迴歸選模方法相同之處是除了都可產生一連串選取 變數模型的過程外,每種方法的步驟數雖不相同,而實際上最後會被選入迴歸模型中的 變數個數最多都不會超過樣本數(n)。而在高維度資料中,LARS 選取變數的步驟數目 會由樣本數(n)來控制,而 Stagewise 是會根據一個很接近零的
來控制其步驟數目,LASSO 則是依據 t 值的變化來更改其迴歸模型。此外,在選取變數的過程中只有 LARS 必會於每個步驟中將某個變數加入活動集合中(從此再也不會將此變數從活動集合中刪 除),但 Stagewise 以及 LASSO 就可能會出現將某個變數先加入活動集合中,然後經過 若干步驟後又將此變數從活動集合中刪除的情形發生。