• 沒有找到結果。

第二章 文獻回顧與探討

第一節 迴歸模型正規化

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4

第二章 文獻回顧與探討

第一節 迴歸模型正規化

在上一章已提及迴歸演算法處理複雜資料時所面臨的困境,本節將簡介線性迴歸模 型並描述可改善迴歸演算法缺點的正規化方法,其利用在線性迴歸的損失函數中除估計 預測誤差外增加懲罰,懲罰為懲罰參數(λ)與懲罰項相乘,藉由將係數絕對值大小納入損 失函數中考量,以壓縮或歸零不具重大影響力自變數的模型係數,提升迴歸模型穩健度 和提高模型解釋性。

一、線性迴歸

基本的線性迴歸模型為:

𝑌 = 𝜇1𝑛 + 𝑋𝛽 + 𝑒 (1)

Y 為 n×1 的向量,值為每個樣本的目標變數值,μ 為截距,1𝑛為值皆為1 的 n×1 的 向量,X 為樣本數(n)×自變數數量(p)的自變數矩陣,𝛽為長度為 p 的係數向量,e 為平均 數為零的常態分配殘差,其變異數為𝜎2

以普通最小平方法(Ordinary Least Square; OLS)評估模型表現,其決定未知係數𝛽的 方式為藉由調整係數𝛽最小化誤差平方和(Root Sum Square; RSS),RSS 即為損失函數,

可寫作解以下損失函數最小化問題:

𝑚𝑖𝑛𝛽𝑅𝑆𝑆(𝛽) = |𝑌 − (𝜇1𝑛 + 𝑋𝛽)|2 (2) 但若資料集中存在高度多重共線性會對迴歸模型產生負面影響(Farrar and Glauber, 1967),普通最小平方迴歸在處理以上資料集時會使模型係數不精確或係數正負號與預 期相反。有許多變數存在的複雜資料集則是因迴歸模型沒有係數縮減的功能,模型內存 在太多變數且係數過大,以上兩種資料集特徵皆會使模型解釋性降低,因此需正規化改 善迴歸分析的缺點。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

二、Ridge regression

在損失函數中加入由係數平方總和乘以懲罰參數 λ的懲罰,亦名為 L2 正規化的迴 歸模型稱為Ridge regression(Ridge 迴歸),由Hoerl and Kennard (1970)提出。其適合用於 處理多自變數資料集且常態分配下係數不為零的情況,當資料中自變數數量越多,自變 數之間具有共線性的機率越高,而當模型內變數存在高共線性時,其係數具高不確定性 及變異性,Ridge 迴歸會相互縮減具高共線性自變數的係數,例如有 k 個相同的自變數,

則模型中係數皆為1/k,與自變數單獨放入模型中時係數相同(Friedman et al., 2010)。Ridge 迴歸可改善迴歸模型處理具高度共線性資料時產生的係數變異數過大的問題,並實現係 數壓縮,在懲罰參數λ 不為無限大的前提下會將係數縮減至接近零,但不為零,因此無 法進行變數挑選,去蕪存菁,原因如圖1 所示。

圖 1 Ridge 迴歸求解示意圖 資料來源:Tibshirani, R. (1996, p. 271)

圖1 可看出 Ridge 迴歸模型係數範圍被限制,減少高共線性資料對係數的影響,而 解所在的位置使係數大小被壓縮,但不為零。

Ridge 迴歸需解的損失函數最小化問題為將函式(2)中的損失函數部分加上 L2 正規 化:

𝑚𝑖𝑛𝛽𝑅𝑆𝑆(𝛽) = |𝑌 − (𝜇1𝑛 + 𝑋𝛽)|2+ 𝜆2|𝛽|2 (3)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6

𝜆2 >= 0為懲罰參數,𝜆2越大懲罰強度越大,係數縮減程度越多,|𝛽|2為針對𝛽的 L2 正規化,而因正規化與係數平方大小有關,在最小化損失函數時會對較大的係數施加更 多的懲罰,因此 X 皆須經過標準化,標準化後平均數為 0,標準差為 1,所有變數的係 數才能互相比較。

三、Lasso regression (Least absolute shrinkage and selection operator regression)

使用L1 正規化的迴歸模型稱為 Lasso regression (Lasso 迴歸),損失函數中加入由係 數絕對值加總乘以懲罰參數λ 組成的懲罰,由Tibshirani (1996)提出,Friedman et al. (2010) 表示適合用於分析需使用有效率、速度快演算法的巨大資料集,比如網路資料。如圖 2 所示,Lasso 迴歸不只可壓縮模型內係數,甚至縮減為零,實現變數挑選,使 Lasso 迴歸 面對多變數資料集時,模型內變數相較迴歸及Ridge 迴歸少,並剔除對依變數無影響力 的變數,模型解釋性增加。但Lasso 迴歸在處理具高共線性自變數的資料時模型會挑選 其中一個忽略其他變數(Friedman et al., 2010),並不穩健。

圖 2 Lasso 迴歸求解示意圖 資料來源:Tibshirani, R. (1996, p.271)

圖2 可看出 Lasso 迴歸模型係數範圍被限制,高共線性資料對係數的影響如同 Ridge

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

迴歸也被降低,而解所在的位置使變數被挑選,無影響力的變數係數降為零。

Lasso 迴歸需解的損失函數最小化問題為將函式(2)中的損失函數加上L1正規化:

𝑚𝑖𝑛𝛽𝑅𝑆𝑆(𝛽) = |𝑌 − (𝜇1𝑛 + 𝑋𝛽)|2+ 𝜆1|𝛽| (4) 𝜆1 >= 0為懲罰參數,|𝛽|為針對𝛽的 L1正規化,可為問題(4)提供稀疏解法。

四、Elastic net

Elastic net 由 Zou and Hastie (2005)提出,建議可在處理高維度資料時使用 Elastic net,

避免Lasso 迴歸模型在具高共線性自變數時不穩定的問題(Zou and Hastie, 2005)。

假設𝛼 = 𝜆1

𝜆1+𝜆2,Elastic net 的最小化損失函數問題為將函式(2)結合 L1 正規化和 L2 正規化:

𝑚𝑖𝑛𝛽𝑅𝑆𝑆(𝛽) = |𝑌 − (𝜇1𝑛 + 𝑋𝛽)|2+ 𝛼|𝛽| + (1 − 𝛼)|𝛽|2 (5) 𝛼|𝛽| + (1 − 𝛼)|𝛽|2為Elastic net 對𝛽的懲罰,當𝛼為 1,Elastic net 會簡化為 Lasso 迴 歸,當𝛼為 0,Elastic net 會簡化為 Ridge 迴歸,Elastic net 相當於是綜合 Lasso 迴歸與 Ridge 迴歸的解決方案,L1正規化的部分幫助Elastic net 做特徵挑選,L2 的部分可讓自 變數分組篩選,並在隨機抽樣的前提下穩定解決路徑(Ogutu et al., 2012)。將自變數分組 表示可讓高共線性的變數對依變數有影響力時同時存在於模型,而不會像Lasso 迴歸傾 向只保留其中之一。

以上三種正規化方法皆可達到壓縮迴歸模型係數的效果,但其中只有Lasso 迴歸以 及Elastic net 有將模型變數縮減的能力,但若以本論文所側重的提升迴歸分析高維度資 料預測表現及模型解釋性這兩方面來看,Lasso 迴歸挑選變數並只保留一個高共線性變 數的特性使其成為最佳選擇,藉由盡可能拋棄模型內對自變數無影響力的變數使解釋性 及預測能力提高,雖其在面對高共線性資料會使模型結果不穩定,但保留所有高共線性 自變數既無法增加模型預測表現,也會使模型變得更為複雜。

相關文件