Kaplan-Meier 估計量尾端會降到 0 的機率

第二章第一類治癒模式-無法直接辨識免疫者

2. EM 演算法

2.3 無母數分析

2.3.3 Kaplan-Meier 估計量尾端會降到 0 的機率

Pˆ T ≤t_max p p

) Pr(T ≤t

c. Theorem 3.5: 當 τ

_G ≤

τ

，則 τ

_G =

τ

，此時 in probability。

) Pr(

) r(

Pˆ T ≤t_max → T≤τ_G

當

τ

_G ≤

τ

_F 觀察時間未能包含最大可能觀測到的發病時間，值得一提的是這個結果未討論免疫者存在的情形。當免疫者不存在時，

τ

_G ≤

τ

_F 是不理想的狀態;然而當免疫者存在時，

τ

_G <

τ

_F 卻是必然，而我們希望以估計，所以有以下的結果。

) r(

Pˆ T ≤t_max

<1 p

d. Theorem 3.6: 只有當 τ

₀ ≤

τ

，才有

Pˆr(T ≤t_max)→Pˆr(T ≤τ₀)= p

。

這個結果說明了充分追蹤時間(

τ

₀ ≤

τ

_G)的重要性，此時以 Kaplan-Meier 尾端的估計量用來估計免疫的比例才會合理。值得注意的是若

τ

_G =

τ

_H <

τ

₀，

則會高估，因為若將觀察時間延長會繼續記錄到事件發

生，使得還有下降空間。

) r(

Pˆ T >t_max 1−p )

Pˆ T >t

2.3.3 Kaplan-Meier 估計量尾端會降到 0 的機率

一旦，我們就會得到。當免疫者實際存在時﹝尤

其當比例很小 ﹞ ，資料仍有可能得到的情形，雖然實際上

。因此 Maller and Zhou 在 3.2 節的主題就以計算了在重複抽樣下會得到的 frequency。熟悉存活分析的人都知道當最大的觀測值是觀察到的 failure 則 Kaplan-Meier 曲線會降到 0 即。令

1 ) r(

Pˆ T ≤ t_max = Pˆr(B=0)=0 0 ) 0 r(

Pˆ B= = 0

) 0 Pr(B= >

1 ) r(

Pˆ T ≤ t_max =

1 ) r(

Pˆ T ≤ t_max =

δ

_max代表t_max對應的指標函數，則

) 1 Pr(

) 0 ) 0 r(

Pˆ

Pr( B= = = δ_max = 。

書中的 Theorem 3.9，推導了在p≤1的情形下Pr(

δ

_max =1)的理論值; Theorem 3.10，推導了在p≤1的情形下Pr(

δ

_max =0)的理論值。這些值都以積分或是連加的方式表示，與變數p值和T|B=1與 C 的母數分配有關。實際的計算在一般情形下需要用到數值方法。但是若分配是 exponential distribution，則可以得到 explicit 的結果。此外兩個定理的結果包含所有的樣本大小，所以是 finite-sample 的結果。

Theorem 3.11 和 3.12 則是針對

τ

₀,τ ,_F

τ

_G 大小的不同排列情形推導 )

Pr(

δ

_max = 在大樣本的極限值。基本上我們要看當 p=1 時，是否 1

) 1 Pr(

lim_n_→_∞

δ

_max = = ，因為當免疫者不存在且樣本很大時， K-M 曲線降到 0 的機率應該是 1 才合理。同理當 p<1代表免疫者存在，我們應該得到

1 ) 0 Pr(

lim_n_→_∞

δ

_max = = ，代表 K-M 曲線不會降到 0 的機率也應該是 1 才合理。我們重述其理論:

Theorem 3.11: 當

p=1

且觀測時間太短以致 τ

_G <

τ

，則

lim_n_→_∞Pr(

δ

_max =0)=1

。當

Pr(B=1)<1

，則亦會得到

lim_n_→_∞Pr(

δ

_max =0)=1

。

Theorem 3.12: 當

p=1

且觀察時間夠長到使得 τ

_G >

τ

，則

lim_n_→_∞Pr(

δ

_max =1)=1

。

書中約略提到

τ

_G =

τ

_F的情形，需要加入特殊的條件才會使得lim_n_→_∞Pr(

δ

_max =1)的極限存在。

2.3.4 Kaplan-Meier 估計量的分配理論與收斂速率

令。Maller and Zhou 的 Theorem 4.1 證明只有當觀察時間充份的情形下

) r(

ˆ Pˆ T t_max

p= ≤

)

(

τ

₀ ≤

τ

_G ，。這個定理說明具有一致性的充分必要條件就是

p B

pˆ→^p Pr( =1)= pˆ

τ

₀ ≤ 。此時Pr(T ≤ Bt| =1)的無母數估計量為，在同

樣的條件下具有 uniform consistency 的性質。

p t T )/ ˆ r(

Pˆ ≤ p

t T )/ ˆ r(

Pˆ ≤

以上討論的是做為點估計量的性質，欲做後續的推論﹝如區間估計和假設檢定﹞則需要有關於分配理論的推導結果。在 Maller and Zhou﹝1996﹞書中第四章的 Theorem 4.1 證明了當

pˆ pˆ

0< p< 的情形下﹝即免疫者存在﹞，

ˆ ) (p p

n − 會收斂到常態分配，此外書中亦提供了Var{ n(pˆ−p)}的公式。然而當p=1，只知 n(pˆ−1)→0。換言之當免疫者不存在時﹝p=1﹞，會收斂到一個 non-degenerate distribution，只知的收斂速率比一般的

ˆ ) (p p n⁻^q −

pˆ n⁻¹^/²

速率來得快﹝即 ﹞，但是確切的值未知，而且的分配型態亦

未知。文獻上稱時的性質討論為“boundary problem＂，因為是比例的上界。在一般統計分析中研究這個問題都是困難的，

﹝如泰勒展開式 …﹞在邊界無法使用。因為理論推導的問題牽涉到困難的數學分析能力，我們不做進一步討論。在此我們討論

2 /

q q n⁻^q(pˆ−p)

p p=1

因為許多有用的數學工具

p 的性質在實際問題的應用。

點估計量pˆ的性質在所有p≤1

先前提到的第一步驟檢驗

的情形都適用。但是做進一步的推論卻需要判斷是否免疫者存在。 H₀₁:Pr(T ≤

τ

_G)=1就包含檢定免疫者存在的情形。因為若是H₀₁被接受了，可以推得p=1; 若被拒絕則要繼續做第二步驟的檢定。Maller and Zhou﹝1994﹞的論文提出討論檢定充份追蹤時間的方法欲檢定，可以利用

H02

。 H₀₁ pˆ−1的距離做為判別標準，然而的分配型態和值在卻是未知的。根據 Neyman-Pearson 法則，棄卻範圍由控制型一錯誤

) ˆ 1 ( −

− p

n ^q q p=1

α 決定: Pr(pˆ−1>c_n(α)|p=1)=α。換言之若是pˆ >1−c_n(

α

)則拒絕

，承認免疫不存在。然而

H01 c_n(

α

)的值卻因為pˆ的性質在p=1缺乏理論依據所以無法求得，使得以無母數的方法檢驗的目標遇到很大的挑戰。Maller and

的檢定。

H01

Zhou 以模擬分析討論H₀₁

第三章:以固定時間為切點之治癒模式

對參數微分後可得 score equation：

) 0

3.1 Jung﹝1996﹞

Jung 發現E(I(X_i ≥t)|Z_i)=Pr(T_i ≥t|Z_i)G(t)，其中G(t)=Pr(C_i >t)。因此

這個方法使用的原則是處理 missing data 常用的 “inverse probability weighting＂的方法。

3.2 Subramanian (2001)

Subramanian 文章的概念是以E[I(T_i ≥M)|

δ

_i,X_i,Z_i]的無母數估計量(以表示之)取代(3.1)式中的。此文章所做的額外假設為解釋變數為離散變數，如此才可能針對個別可能的

Eˆi

) (T M

I _i ≥ Z_i

Z值估計。所提出的估計函

數可表示為

)

| Pr(X_i ≥M Z_i

) 0 ( ) (

) } (

) ˆ (

{ _' _'

' =

∑

−

= i

i i

i n

i Z

Z Z

E π β π β

β β π

π ^φ ， (3.3)

其中

] , ,

| ) (

ˆ[

ˆi E I Ti M i Xi xi Zi

E = ≥ δ =

)

| r(

Pˆ

)

| r(

)Pˆ 0 , (

) (

i i

i T x Z

Z M M T

x X I M X

I >

= >

= +

≥

= δ 。 (3.4)

這個方法所應用的原則被稱為“imputation by conditional mean＂。這個方法的缺點在於Pr(T >t|Z)的估計與Z有關，所需要的資訊非

的假設所能夠涵蓋。若是解釋變數為離散型，則可以根據

) ( )

| 0

Pr(B= Z =

π β

^'Z Z值將資料做切割，再以 Kaplan-Meier 的無母數估計量估計Pr(T >t|Z)。

第四章:考慮競爭風險之治癒模式

傳統的治癒模式並不直接定義哪個狀態為免疫，因此真正的免疫者是與非免疫的設限資料混合在一起。當模式假設不夠強時﹝指在無母數的情形下﹞，則強烈的需要依賴資料的“良好品質＂(指追蹤時間充份)，才能做正確的推論。第三章討論的治癒模式，分析的結果和人為決定的切點有關，所以應用有限。在本章中我們討論第三類型的治癒模式，免疫與否的定義取決於競爭風險發生的種類或

是次序。

我們先討論一個簡化的例子，是將 Betensky 與 Schoenfeld。2001﹞討論的新生兒因急性肺炎住院改編成因 SARS 住院的例子。令

T1 = time to hospital discharge (因 SARS 入院到活著出院的時間) T2 = time to death (因 SARS 入院到在醫院死亡的時間)。

在此例中，“活著出院＂可視為痊癒。也就是說“免疫與否＂取決於競爭風險 (“死亡＂與“出院＂)發生的次序，因此若是在沒有外來設限的情形下，“痊癒＂是可被觀察到的事件。因為免疫與否有清楚的定義，這樣的架構不致發生前述不可辨識性的問題。

因 SARS 入院

死在醫院

活著出院

圖 4-1：SARS 入院的例子

以競爭風險的角度來看上述的問題，在這個簡化的例子中，只有兩種失敗型態(failure types)。令B~ =1，代表“活著出院＂的情形；B~ =2，代表“在醫院中死亡＂的情形。若令 “ 活著出院＂代表痊癒，則無法痊癒的比例為

)

~ 2

Pr(B = 。然而對B~ =2的觀測值，的定義不明，有的做法是對死在醫院者時，

令；或是只定義

∞

T ~ 1

1|B=

T 。可得

)

~ 2 Pr(

)

~ 1 Pr(

)

~ 1

| Pr(

)

Pr(T₁ >t = T₁ >t B= B= + B= 。可以清楚看到

，代表不會發生活著出院的比例。值得一提的是，

)

~ 2 Pr(

) Pr(

lim ₁ > = =

∞

→ T t B

) Pr(

1− T₁ >t = T₁ ≤t 是競爭

風險文獻裏經常討論的“累積發生函數＂( ，

代表到時間所累積觀察到發生活著出院的比率。同理可得

cumulative incidence function) t

)

~ 1 Pr(

)

~ 2 Pr(

)

~ 2

| Pr(

)

Pr(T₂ >t = T₂ >t B= B= + B= ，其尾端機率 ~ 1)

Pr(B= 代表不會死於醫院的比例。

文獻中考慮競爭風險的治癒模式有 Greenhouse and Wolfe (1984)，

Larsen and Dinse (1985)，Taylor (1995)，Ng and McLanchlan (1998)，Betensk and Schoenfeld (2001)，Maller and Zhou (2002)，Wang (2004)…等。由發表年代看來，這個研究方向似乎有變得熱門的趨勢。我們將統整這些文章的符號，

以便做有系統的整理。這一系列文獻中，經常引用的文獻始自 Greenhouse and Wolfe (1984)，多數的文章討論不只兩種競爭風險。在此，我們由 Larsen & Dinse (1985)開始介紹，因為此文提供的思路為後續文章主要的脈絡。

4.1 Larson-Dinse 的迴歸分析 令 B~

代表失敗的型態，假設共有種可能，每一種失敗型態發生的機率定為J

pj Larson-Dinse﹝1985﹞以迴歸模式來描述與。令代表解釋變

數，在失敗型態的部分用 logistic regression 做為模式的假設，則每一種失敗型態發生的機率可以表示成

其中風險函數的型態給定為 piece-wise exponential 模式，可將時間資料分成

其中 t

，，代表確知未痊癒(or susceptible)；然而當時，

的值未知，即不知道免疫與否，此時

)

文章分析了著名的心臟移植資料(Stanford Heart Transplant)，希望對於接受心臟移植後的病人(共 65 人)能探討解釋變數對於不同失敗型態的影響。共有兩個失敗型態，其中B~ =1代表因為發生排斥而死亡，B~ =2代表因為其他原因

而死亡。在實際資料中， (29 人)， (12 人)，值得

注意的是 (24 人)，代表缺失值頗嚴重。解釋變數的維度，

除了截距項以外還包含“mismatch score＂ (越大代表捐贈者和接受者組織之相容度差)，“age＂代表接受移植時的年紀，“waiting time＂代表等到心臟移植的時間。其中“mismatch score＂和“age＂變數都經過標準化，

time＂則是轉成是否超過 31 天的 0/1 變數。對於的模式採 piecewise-exponential 分配，試了三種配置法:當

“waiting )

當發現“waiting time＂沒有太大影響時這個解釋變數便被捨棄，此時作者只考慮將“mismatch score＂和“age＂並以M =3的 piecewise-exponential 分配做為Q_j(t|Z)的模式。分析結果發現這兩個解釋變數對於 ~ 1)

Pr(B= 並無顯著

影響，倒是對於反映在上的排斥時間有顯著影響，年紀越輕且組織 match

4.2 Logistic/Weibull 模式 -- Taylor

Larson and Dinse﹝1985﹞的分析，對於每一種失敗型態發生的機率( ) 和給定第個事件會發生的條件存活函數( )皆做了母數模式的假設。而在

Taylor﹝1995﹞一文中，對於每一種失敗型態發生的機率( )仍做 logistic regression 的假設，以為例令並以無母數 product-limit 的方式分析之;但是對於免疫的人 (

取對數之後為

此處利用 Kaplan-Meier 所表示成的 product-limit 形式代入，透過 EM 演算法即得所求之估計值。

)

2(xi zi

利用以上 logistic / Kaplan-Meier 做為模式假設會發生的問題是過多的未知參數造成估計的繁雜，此外理論上lim_t_→_∞Q₁(t|Z)=0，但是在模擬分析上卻依

Greenhouse and Wolfe(1984)提出以最大概似法做為推論方法，並針對常見模式做細節討論。Ng and McLanchlan (1998)亦是採取母數模式的架構，因為

提出的推論方法較為創新，因此回顧這篇文章。該文主要目的是估計 ~ 1

論文中討論 likelihood-based 的推論方法。如果和的母數分配均為已知，則 log-likelihood 可以表示為趣的參數。以此為前提下作者認為 full-likelihood 需要對兩個分佈均做母數分配的假設並沒有必要，並進一步提出了 partial Maximum likelihood 的估計

方法。他們的想法是只對的函數型態做母數的假設，對於的資料給予

誤。

Maller and Zhou (2002) 考慮更一般化的競爭風險架構，可以容許更多的失敗

型態，所以 ~ ) 1。再定義以下存活函數下，提出值得發表的創意。Ng and McLanchlan (1998) 提出較具穩健性的 partial ML 方法；Maller and Zhou (2002) 則是理論推導，做為檢定

的假說的基礎。在給定下，而且外生的設限存在，我們往往不知道 (boundary)，是非典型的推論問題，許多數學技巧都不能使用。

Wang (2004) 只考慮 2 種競爭風險，並以 multi-state model 描述問題，

文中令 B~

做為路徑的指標，並提出以無母數角度估計p,Q₁(t),Q₂(t)的方法。為求

符號的一致性，資料型態可以表示為{(b_i,x_i)(i=1,...,n)}。可知當b=0，B~

)

第五章結論

在有關治癒模式的文獻中，我們將文章依“治癒＂或是“免疫＂是否明確定

在文檔中治癒模式之文獻回顧 (頁 20-0)

第二章 第一類治癒模式-無法直接辨識免疫者

2. EM 演算法

2.3 無母數分析

2.3.3 Kaplan-Meier 估計量尾端會降到 0 的機率

c. Theorem 3.5: 當 τ

τ

，則 τ

τ

，此時 in probability。

τ

τ

τ

τ

τ

τ

d. Theorem 3.6: 只有當 τ

τ

，才有

。

τ

τ

τ

τ

τ

δ

δ

δ

τ

τ

δ

δ

δ

Theorem 3.11: 當

且觀測時間太短以致 τ

τ

，則

δ

。 當

，則亦會得到

δ

。

Theorem 3.12: 當

且觀察時間夠長到使得 τ

τ

，則

δ

。

τ

τ

δ

τ

τ

τ

τ

τ

α

α

第三章:以固定時間為切點之治癒模式

δ

∑

π β

第四章:考慮競爭風險之治癒模式

第五章 結論

第二章第一類治癒模式-無法直接辨識免疫者

。當

第五章結論