• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

1

第一章 緒論

第一節 研究動機

在生物統計中,存活時間為研究者時常面臨的資料。例如,在分析HIV 感染 者經歷潛伏期至AIDS 發作的所需時間時,研究者欲瞭解哪些共變量對於發病時 間是有解釋力的,這些共變量可能包括:感染者的性別、初感染年紀、病毒量、

CD4 細胞數與投藥時間早晚等等,或類別型或連續型。一般來說,存活時間資料 有著特殊的機率結構,因為並非所有的研究都具足夠的時間來追蹤病人的狀態,

或者病人在研究中忽然失去聯繫,而造成研究者最終無法觀察到病人的結果。這 樣的情況,即稱為設限(censoring),也促成了分析上的不易。

在分析設限的存活時間資料與共變量之間的關係時,

Cox (1972)

的比例危險 模型(proportional hazards model)為最廣泛被應用的模型。該模型描述了研究對 象的危險函數(hazard function)與共變量之間的關係如下,

𝜆𝜆(𝑡𝑡|𝐳𝐳) = 𝜆𝜆0(𝑡𝑡) exp(𝐳𝐳T𝛃𝛃) (1.1) 其 中 ,𝜆𝜆與𝜆𝜆0分 別 為 研 究 對 象 的 危 險 函 數 與 基 線 危 險 函 數(baseline hazard function),兩者皆為存活時間𝑡𝑡的函數。另外,𝐳𝐳為研究對象的共變量,而𝛃𝛃為對 應共變量的迴歸係數。該模型在概念上簡單,且不須界定𝜆𝜆0的型式下即可估計出 𝛃𝛃係數,只是須考慮一項重要的假設:危險函數與共變量之間具備一個對數的線 性關係。然而,當這樣的假設不成立時,研究者就有可能作出錯誤的決策與推論 (Keele, 2010)。因此,本文欲探討式(1.1)的延伸模型,使對數危險函數(log-hazard function)與連續型共變量之間不必然呈現線性關係,而是一個任意的平滑函數 (smooth function),並發展此延伸模型下的假設檢定。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2

第二節 文獻回顧

在探討 Cox 延伸模型的文獻中,一般考慮將此模型寫為一般化的可加性模 型(generalized additive model),也就是各個共變量皆是透過某個平滑函數來影 響對數危險函數,其總影響即為各個函數的加總。

Hastie & Tibshirani (1990)

使 用了類似局部得點演算法(local scoring algorithm)的方法來估計各個函數的型態。

Sleeper & Harrington (1990)

使用了多項式樣條(polynomial spline)來近似這些未 知函數。同樣透過可加模型,

Gray (1992)

則採用受懲罰的樣條(penalized spline) 在隨時間變化的係數(time-varying coefficient)模型上。

Kooperberg, Stone, &

Truong (1995)

直接將危險函數寫作一個基於樣條的迴歸模型,而捨棄了危險函

數的比例假設。

LeBlanc & Crowley (1999)

發展了自我調整迴歸樣條(adaptive regression spline)的方法來配適可加性模型的函數與交互作用。Huang & Liu

(2006)

則維持共變量與迴歸係數的線性組合形式,但是此線性組合係透過某個鏈

結函數(link function)來影響危險函數,而在估計這個鏈結函數時,同樣地運用了 樣條函數來作近似。

第三節 方法摘要

本文採用

Sleeper & Harrington (1990)

所提之方法,以 B 樣條基底函數(B-spline basis function)來近似未知的共變量函數。由於一個共變量的函數須對應 至多個基底係數,若是模型納入的共變量過多,則參數數量便會非常龐大。因此,

在參數估計方面,本文採用具懲罰效果的最小絕對壓縮挑選機制(least absolute shrinkage and selection operator, lasso)來進行估計。Lasso 方法為

Tibshirani

(1996, 1997)

所提出,目的在於壓縮係數,而達到稀疏估計(sparse estimation)的 效果。在近期內,lasso 成為一個相當熱門的估計方法,尤其是應用於高維度資 料的分析當中。此方法運作的原理為,在最適化某個目標函數來進行參數估計時,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3

納入一個𝐿𝐿1範數(norm)的限制式,以達到壓縮係數的效果。具體而言,

𝛃𝛃lasso = argmax

𝛃𝛃 {ℓ(𝛃𝛃) − 𝜆𝜆‖𝛃𝛃‖1} (1.2) 其中,目標函數ℓ為對數概似函數,‖∙‖1為𝐿𝐿1範數,而𝜆𝜆為懲罰係數。在適度的懲 罰之下,此估計方法將導致某些解釋力較低的共變量所對應的係數為零,進而提 升模型的解讀性。

考慮到本文模型中,各個共變量乃是對應至一組基底係數,若運用傳統的 lasso 方法,可能便出現在對應至同一個共變量的基底係數中,某些係數被估成 零,而某些不是零的矛盾狀況。據此,本文將選擇group lasso 方法(Yuan & Lin,

2006)來進行估計。Group lasso 為 lasso 方法的延伸,此方法在懲罰係數時,是

以組為單位,得以將同一組係數同時估為零。Group lasso 除了應用在一般的線 性模型當中,也延伸至羅吉斯迴歸模型(Meier, van de Geer, & Bühlmann, 2008)與 標準的Cox 比例危險模型(Kim, Sohn, Jung, Kim, & Park, 2012)。但是對於一個以 B 樣條基底來近似共變量函數的比例危險模型,則尚未有文章詳加討論。因此,

本文選擇此方法來深入研究。

進行完參數估計之後,本文嘗試提出幾個檢定方法來判斷共變量的顯著性。

其中包含了基於卡方分配的檢定量、因應懲罰函數而作修正的檢定量,與基於拔 靴法(bootstrap)的檢定量。最後,本文以模擬的方式比較,在不同樣本數與不同 懲罰係數之下,各個檢定量犯型一錯誤(type I error)的機率與檢定力(power)。基 於模擬結果,本文將對檢定量的選用給予適當建議。

function) 𝑓𝑓(𝑡𝑡|𝐳𝐳)或是分配函數(distribution function) 𝐹𝐹(𝑡𝑡|𝐳𝐳),不過更常見地,則 是藉由危險函數𝜆𝜆(𝑡𝑡|𝐳𝐳)來探討。其定義如下, 其中,𝜆𝜆0(𝑡𝑡)為基線危險函數,此函數被視為是一個干擾參數(nuisance parameter),

而𝛃𝛃為對應共變量𝐳𝐳的迴歸參數向量。該模型最大的特點為,並不需要事先界定𝜆𝜆0

的形式,便可直接估計迴歸係數。因此,這是一個半參數的模型(semiparametric

相關文件