LARS、Stagewise、LASSO 迴歸模型 - 分析方法 - 分類蛋白質質譜資料變數選取的探討

第四章分析方法

第三節 LARS、Stagewise、LASSO 迴歸模型

三、多個獨立母體之無母數檢定 Kruskal-Wallis 檢定(KW 檢定)

此法不像上述的一因子變異數分析須要同質變異數或常態分配等假設，只須將 n 筆

第三節 LARS、Stagewise、LASSO 迴歸模型

此節將 LARS、Stagewise、LASSO 一起討論的原因在於三種方法皆可由 LARS 演算法求得其迴歸係數估計值。此外，在演算法中如何修改使我們得知 Stagewise 和 LASSO 的估計值結果以及各方法運用至高維度資料時的優缺點也會在此節一併說明。

‧

一、Least Angle Regression(LARS)

我們先由圖 4.2 來簡單解釋 LARS 的概念。若現在只考慮兩個變量

x

₁、

x

₂對y 的

資料來源：“Least Angle Regression” by Efron, B., Hastie, T., Johnstone, I. and Tibshirani R., 2003, Annals of Statistics, 32(2), 412.

當

m  2

時，我們即以數學式來表示。假設有 m 個變數， n 個觀察值，

‧

2006；Hastie 等人，2009)

二、Forward Stagewise Regression

與向前選取方法類似，差別是在於此方法每一步的移動幅度很小，且較謹慎。簡單停止。而修正 LARS 演算法來求解 Stagewise 估計值的方法是先考慮 Stagewise 選取變數的每個步驟大小



趨近於零，假設已作了 N 個 Stagewise 的步驟，就會產生一些估計式

μ

^ˆ 且將

N

_j定義成將第 j 個變數選入模型中所須之步驟數，其中 j



1,2,,m，當 j

 

時，

‧

時的 Stagewise 反而會將其變數之迴歸係數膨脹，並盡可能的將其變數之迴歸係數維持非遞增或非遞減的變化，而此特性會在實証分析的部份有所驗証。而缺點就是比較沒有縮減變數之效果且在高維度資料中，迴歸模型最多會選入與樣本數(n)相同之變數個數。(Efron 等人，2003；Hastie 等人，2009；Leng 等人，2006)

三、LASSO

Tibshirani(1996)提出關於 LASSO 的文章，LASSO 是一種具有懲罰項的迴歸估計式，即限制在



‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的元素是

j  

時其值為s_jw_j，反之為零。因此

μ

ˆ_



β

(



)，其中



_j(



)

 

ˆ_j

 

dˆ_j。此

時若將 LARS 的角平分向量對應至 LASSO 估計值的路徑上會發現



_j(



)在



  

ˆ_j/dˆ_j 時變號那麼對於我們已經有的 LASSO 估計值

β (  )

中的元素會在最小的的那個大於零的



_j處變號且將其記為

^~

表示min( )

0 j

 



，若沒有



_j大於零的話,則將

 ^~

記為無窮大。另

外，若



~ 小於



ˆ ，因



(  )

之正負號需與

c

(  )

一致，則對應至 LARS 估計的



(  )

就不會成為一個 LASSO 估計值，所以在此狀況下就不能繼續在 LARS 的步驟上繼續前進，

而解決辦法就是將與



_j相等的

^~

所對應之

~ j

從



中刪掉後再繼續進行 LARS 步驟以得出 LASSO 迴歸係數估計值。 (Efron 等人，2003；Leng 等人，2006)

LASSO 這種方法的優點是可同時達到將迴歸係數縮減和變數選取的效果。不過缺點是面對高維度資料變數個數大於樣本數時，除了在對於兩個具有高度相關的變數選入模型的方式是採「任意」的方式將某個變數加入其模型中，因而影響變數的排序；此外最後模型中之非零迴歸係數個數最多並不會超過樣本數(n)。(Hastie 等人，2009)

當面對高維度資料時，以上三種迴歸選模方法相同之處是除了都可產生一連串選取變數模型的過程外，每種方法的步驟數雖不相同，而實際上最後會被選入迴歸模型中的變數個數最多都不會超過樣本數(n)。而在高維度資料中，LARS 選取變數的步驟數目會由樣本數(n)來控制，而 Stagewise 是會根據一個很接近零的



來控制其步驟數目，

LASSO 則是依據 t 值的變化來更改其迴歸模型。此外，在選取變數的過程中只有 LARS 必會於每個步驟中將某個變數加入活動集合中(從此再也不會將此變數從活動集合中刪除)，但 Stagewise 以及 LASSO 就可能會出現將某個變數先加入活動集合中，然後經過若干步驟後又將此變數從活動集合中刪除的情形發生。

‧

在文檔中分類蛋白質質譜資料變數選取的探討 - 政大學術集成 (頁 22-27)

LARS、Stagewise、LASSO 迴歸模型

第四章 分析方法

第三節 LARS、Stagewise、LASSO 迴歸模型

第三節 LARS、Stagewise、LASSO 迴歸模型

‧

x

x

m  2

‧



μ

N



 

‧



‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

j  

μ



β







 

 







  

β (  )



~





 ~







(  )

c

(  )



(  )



~

~ j





‧

第四章分析方法

立政治大學

^~

 ^~

^~