緒論 - LASSO迴歸在B-spline基底組成之危險函數上的應用

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章緒論

第一節研究動機

在生物統計中，存活時間為研究者時常面臨的資料。例如，在分析HIV 感染者經歷潛伏期至AIDS 發作的所需時間時，研究者欲瞭解哪些共變量對於發病時間是有解釋力的，這些共變量可能包括：感染者的性別、初感染年紀、病毒量、

CD4 細胞數與投藥時間早晚等等，或類別型或連續型。一般來說，存活時間資料有著特殊的機率結構，因為並非所有的研究都具足夠的時間來追蹤病人的狀態，

或者病人在研究中忽然失去聯繫，而造成研究者最終無法觀察到病人的結果。這樣的情況，即稱為設限(censoring)，也促成了分析上的不易。

在分析設限的存活時間資料與共變量之間的關係時，

Cox (1972)

的比例危險模型(proportional hazards model)為最廣泛被應用的模型。該模型描述了研究對象的危險函數(hazard function)與共變量之間的關係如下，

𝜆𝜆(𝑡𝑡|𝐳𝐳) = 𝜆𝜆0(𝑡𝑡) exp(𝐳𝐳^T𝛃𝛃) (1.1) 其中，𝜆𝜆與𝜆𝜆0分別為研究對象的危險函數與基線危險函數(baseline hazard function)，兩者皆為存活時間𝑡𝑡的函數。另外，𝐳𝐳為研究對象的共變量，而𝛃𝛃為對應共變量的迴歸係數。該模型在概念上簡單，且不須界定𝜆𝜆0的型式下即可估計出 𝛃𝛃係數，只是須考慮一項重要的假設：危險函數與共變量之間具備一個對數的線性關係。然而，當這樣的假設不成立時，研究者就有可能作出錯誤的決策與推論 (Keele, 2010)。因此，本文欲探討式(1.1)的延伸模型，使對數危險函數(log-hazard function)與連續型共變量之間不必然呈現線性關係，而是一個任意的平滑函數 (smooth function)，並發展此延伸模型下的假設檢定。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節文獻回顧

在探討 Cox 延伸模型的文獻中，一般考慮將此模型寫為一般化的可加性模型(generalized additive model)，也就是各個共變量皆是透過某個平滑函數來影響對數危險函數，其總影響即為各個函數的加總。

Hastie & Tibshirani (1990)

使用了類似局部得點演算法(local scoring algorithm)的方法來估計各個函數的型態。

Sleeper & Harrington (1990)

使用了多項式樣條(polynomial spline)來近似這些未知函數。同樣透過可加模型，

Gray (1992)

則採用受懲罰的樣條(penalized spline) 在隨時間變化的係數(time-varying coefficient)模型上。

Kooperberg, Stone, &

Truong (1995)

直接將危險函數寫作一個基於樣條的迴歸模型，而捨棄了危險函

數的比例假設。

LeBlanc & Crowley (1999)

發展了自我調整迴歸樣條(adaptive regression spline)的方法來配適可加性模型的函數與交互作用。Huang & Liu

(2006)

則維持共變量與迴歸係數的線性組合形式，但是此線性組合係透過某個鏈

結函數(link function)來影響危險函數，而在估計這個鏈結函數時，同樣地運用了樣條函數來作近似。

第三節方法摘要

本文採用

Sleeper & Harrington (1990)

所提之方法，以 B 樣條基底函數(B-spline basis function)來近似未知的共變量函數。由於一個共變量的函數須對應至多個基底係數，若是模型納入的共變量過多，則參數數量便會非常龐大。因此，

在參數估計方面，本文採用具懲罰效果的最小絕對壓縮挑選機制(least absolute shrinkage and selection operator, lasso)來進行估計。Lasso 方法為

Tibshirani

(1996, 1997)

所提出，目的在於壓縮係數，而達到稀疏估計(sparse estimation)的效果。在近期內，lasso 成為一個相當熱門的估計方法，尤其是應用於高維度資料的分析當中。此方法運作的原理為，在最適化某個目標函數來進行參數估計時，

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

納入一個𝐿𝐿1範數(norm)的限制式，以達到壓縮係數的效果。具體而言，

𝛃𝛃^lasso = argmax

𝛃𝛃 {ℓ(𝛃𝛃) − 𝜆𝜆‖𝛃𝛃‖1} (1.2) 其中，目標函數ℓ為對數概似函數，‖∙‖₁為𝐿𝐿₁範數，而𝜆𝜆為懲罰係數。在適度的懲罰之下，此估計方法將導致某些解釋力較低的共變量所對應的係數為零，進而提升模型的解讀性。

考慮到本文模型中，各個共變量乃是對應至一組基底係數，若運用傳統的 lasso 方法，可能便出現在對應至同一個共變量的基底係數中，某些係數被估成零，而某些不是零的矛盾狀況。據此，本文將選擇group lasso 方法(Yuan & Lin,

2006)來進行估計。Group lasso 為 lasso 方法的延伸，此方法在懲罰係數時，是

以組為單位，得以將同一組係數同時估為零。Group lasso 除了應用在一般的線性模型當中，也延伸至羅吉斯迴歸模型(Meier, van de Geer, & Bühlmann, 2008)與標準的Cox 比例危險模型(Kim, Sohn, Jung, Kim, & Park, 2012)。但是對於一個以 B 樣條基底來近似共變量函數的比例危險模型，則尚未有文章詳加討論。因此，

本文選擇此方法來深入研究。

進行完參數估計之後，本文嘗試提出幾個檢定方法來判斷共變量的顯著性。

其中包含了基於卡方分配的檢定量、因應懲罰函數而作修正的檢定量，與基於拔靴法(bootstrap)的檢定量。最後，本文以模擬的方式比較，在不同樣本數與不同懲罰係數之下，各個檢定量犯型一錯誤(type I error)的機率與檢定力(power)。基於模擬結果，本文將對檢定量的選用給予適當建議。

‧

function) 𝑓𝑓(𝑡𝑡|𝐳𝐳)或是分配函數(distribution function) 𝐹𝐹(𝑡𝑡|𝐳𝐳)，不過更常見地，則是藉由危險函數𝜆𝜆(𝑡𝑡|𝐳𝐳)來探討。其定義如下，其中，𝜆𝜆₀(𝑡𝑡)為基線危險函數，此函數被視為是一個干擾參數(nuisance parameter)，

而𝛃𝛃為對應共變量𝐳𝐳的迴歸參數向量。該模型最大的特點為，並不需要事先界定𝜆𝜆0

的形式，便可直接估計迴歸係數。因此，這是一個半參數的模型(semiparametric

在文檔中 LASSO迴歸在B-spline基底組成之危險函數上的應用 - 政大學術集成 (頁 7-10)

緒論

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章 緒論

第一節 研究動機

Cox (1972)

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 文獻回顧

Hastie & Tibshirani (1990)

Sleeper & Harrington (1990)

Gray (1992)

Kooperberg, Stone, &

Truong (1995)

LeBlanc & Crowley (1999)

(2006)

第三節 方法摘要

Sleeper & Harrington (1990)

Tibshirani

(1996, 1997)

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2006)來進行估計。Group lasso 為 lasso 方法的延伸，此方法在懲罰係數時，是

‧

立政治大學

第一章緒論

第一節研究動機

立政治大學

第二節文獻回顧

第三節方法摘要

立政治大學