國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
1
第一章 緒論
第一節 研究動機
在生物統計中,存活時間為研究者時常面臨的資料。例如,在分析HIV 感染 者經歷潛伏期至AIDS 發作的所需時間時,研究者欲瞭解哪些共變量對於發病時 間是有解釋力的,這些共變量可能包括:感染者的性別、初感染年紀、病毒量、
CD4 細胞數與投藥時間早晚等等,或類別型或連續型。一般來說,存活時間資料 有著特殊的機率結構,因為並非所有的研究都具足夠的時間來追蹤病人的狀態,
或者病人在研究中忽然失去聯繫,而造成研究者最終無法觀察到病人的結果。這 樣的情況,即稱為設限(censoring),也促成了分析上的不易。
在分析設限的存活時間資料與共變量之間的關係時,
Cox (1972)
的比例危險 模型(proportional hazards model)為最廣泛被應用的模型。該模型描述了研究對 象的危險函數(hazard function)與共變量之間的關係如下,𝜆𝜆(𝑡𝑡|𝐳𝐳) = 𝜆𝜆0(𝑡𝑡) exp(𝐳𝐳T𝛃𝛃) (1.1) 其 中 ,𝜆𝜆與𝜆𝜆0分 別 為 研 究 對 象 的 危 險 函 數 與 基 線 危 險 函 數(baseline hazard function),兩者皆為存活時間𝑡𝑡的函數。另外,𝐳𝐳為研究對象的共變量,而𝛃𝛃為對 應共變量的迴歸係數。該模型在概念上簡單,且不須界定𝜆𝜆0的型式下即可估計出 𝛃𝛃係數,只是須考慮一項重要的假設:危險函數與共變量之間具備一個對數的線 性關係。然而,當這樣的假設不成立時,研究者就有可能作出錯誤的決策與推論 (Keele, 2010)。因此,本文欲探討式(1.1)的延伸模型,使對數危險函數(log-hazard function)與連續型共變量之間不必然呈現線性關係,而是一個任意的平滑函數 (smooth function),並發展此延伸模型下的假設檢定。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2
第二節 文獻回顧
在探討 Cox 延伸模型的文獻中,一般考慮將此模型寫為一般化的可加性模 型(generalized additive model),也就是各個共變量皆是透過某個平滑函數來影 響對數危險函數,其總影響即為各個函數的加總。
Hastie & Tibshirani (1990)
使 用了類似局部得點演算法(local scoring algorithm)的方法來估計各個函數的型態。Sleeper & Harrington (1990)
使用了多項式樣條(polynomial spline)來近似這些未 知函數。同樣透過可加模型,Gray (1992)
則採用受懲罰的樣條(penalized spline) 在隨時間變化的係數(time-varying coefficient)模型上。Kooperberg, Stone, &
Truong (1995)
直接將危險函數寫作一個基於樣條的迴歸模型,而捨棄了危險函數的比例假設。
LeBlanc & Crowley (1999)
發展了自我調整迴歸樣條(adaptive regression spline)的方法來配適可加性模型的函數與交互作用。Huang & Liu(2006)
則維持共變量與迴歸係數的線性組合形式,但是此線性組合係透過某個鏈結函數(link function)來影響危險函數,而在估計這個鏈結函數時,同樣地運用了 樣條函數來作近似。
第三節 方法摘要
本文採用
Sleeper & Harrington (1990)
所提之方法,以 B 樣條基底函數(B-spline basis function)來近似未知的共變量函數。由於一個共變量的函數須對應 至多個基底係數,若是模型納入的共變量過多,則參數數量便會非常龐大。因此,在參數估計方面,本文採用具懲罰效果的最小絕對壓縮挑選機制(least absolute shrinkage and selection operator, lasso)來進行估計。Lasso 方法為
Tibshirani
(1996, 1997)
所提出,目的在於壓縮係數,而達到稀疏估計(sparse estimation)的 效果。在近期內,lasso 成為一個相當熱門的估計方法,尤其是應用於高維度資 料的分析當中。此方法運作的原理為,在最適化某個目標函數來進行參數估計時,‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3
納入一個𝐿𝐿1範數(norm)的限制式,以達到壓縮係數的效果。具體而言,
𝛃𝛃lasso = argmax
𝛃𝛃 {ℓ(𝛃𝛃) − 𝜆𝜆‖𝛃𝛃‖1} (1.2) 其中,目標函數ℓ為對數概似函數,‖∙‖1為𝐿𝐿1範數,而𝜆𝜆為懲罰係數。在適度的懲 罰之下,此估計方法將導致某些解釋力較低的共變量所對應的係數為零,進而提 升模型的解讀性。
考慮到本文模型中,各個共變量乃是對應至一組基底係數,若運用傳統的 lasso 方法,可能便出現在對應至同一個共變量的基底係數中,某些係數被估成 零,而某些不是零的矛盾狀況。據此,本文將選擇group lasso 方法(Yuan & Lin,
2006)來進行估計。Group lasso 為 lasso 方法的延伸,此方法在懲罰係數時,是
以組為單位,得以將同一組係數同時估為零。Group lasso 除了應用在一般的線 性模型當中,也延伸至羅吉斯迴歸模型(Meier, van de Geer, & Bühlmann, 2008)與 標準的Cox 比例危險模型(Kim, Sohn, Jung, Kim, & Park, 2012)。但是對於一個以 B 樣條基底來近似共變量函數的比例危險模型,則尚未有文章詳加討論。因此,本文選擇此方法來深入研究。
進行完參數估計之後,本文嘗試提出幾個檢定方法來判斷共變量的顯著性。
其中包含了基於卡方分配的檢定量、因應懲罰函數而作修正的檢定量,與基於拔 靴法(bootstrap)的檢定量。最後,本文以模擬的方式比較,在不同樣本數與不同 懲罰係數之下,各個檢定量犯型一錯誤(type I error)的機率與檢定力(power)。基 於模擬結果,本文將對檢定量的選用給予適當建議。
‧
function) 𝑓𝑓(𝑡𝑡|𝐳𝐳)或是分配函數(distribution function) 𝐹𝐹(𝑡𝑡|𝐳𝐳),不過更常見地,則 是藉由危險函數𝜆𝜆(𝑡𝑡|𝐳𝐳)來探討。其定義如下, 其中,𝜆𝜆0(𝑡𝑡)為基線危險函數,此函數被視為是一個干擾參數(nuisance parameter),而𝛃𝛃為對應共變量𝐳𝐳的迴歸參數向量。該模型最大的特點為,並不需要事先界定𝜆𝜆0
的形式,便可直接估計迴歸係數。因此,這是一個半參數的模型(semiparametric