第二章 第一類治癒模式-無法直接辨識免疫者
2. EM 演算法
2.3 無母數分析
2.3.3 Kaplan-Meier 估計量尾端會降到 0 的機率
r(
Pˆ T ≤tmax p p
) Pr(T ≤t
c. Theorem 3.5: 當 τ
G ≤τ
F,則 τ
G =τ
H,此時 in probability。
) Pr(
) r(
Pˆ T ≤tmax → T≤τG
當
τ
G ≤τ
F 觀察時間未能包含最大可能觀測到的發病時間,值得一提的是這 個結果未討論免疫者存在的情形。當免疫者不存在時,τ
G ≤τ
F 是不理想的 狀態;然而當免疫者存在時,τ
G <τ
F 卻是必然,而我們希望以 估 計 ,所以有以下的結果。) r(
Pˆ T ≤tmax
<1 p
d. Theorem 3.6: 只有當 τ
0 ≤τ
G,才有
Pˆr(T ≤tmax)→Pˆr(T ≤τ0)= p。
這個結果說明了充分追蹤時間(
τ
0 ≤τ
G)的重要性,此時以 Kaplan-Meier 尾 端的估計量用來估計免疫的比例才會合理。值得注意的是若τ
G =τ
H <τ
0,則 會高估 ,因為若將觀察時間延長會繼續記錄到事件發
生,使得 還有下降空間。
) r(
Pˆ T >tmax 1−p )
r(
Pˆ T >t
2.3.3 Kaplan-Meier 估計量尾端會降到 0 的機率
一旦 ,我們就會得到 。當免疫者實際存在時﹝尤
其 當 比 例 很 小 ﹞ , 資 料 仍 有 可 能 得 到 的 情 形 , 雖 然 實 際 上
。因此 Maller and Zhou 在 3.2 節的主題就以計算了在重複抽樣下 會得到 的 frequency。熟悉存活分析的人都知道當最大的觀測值是 觀察到的 failure 則 Kaplan-Meier 曲線會降到 0 即 。令
1 ) r(
Pˆ T ≤ tmax = Pˆr(B=0)=0 0 ) 0 r(
Pˆ B= = 0
) 0 Pr(B= >
1 ) r(
Pˆ T ≤ tmax =
1 ) r(
Pˆ T ≤ tmax =
δ
max代 表tmax對應的指標函數,則) 1 Pr(
) 0 ) 0 r(
Pˆ
Pr( B= = = δmax = 。
書中的 Theorem 3.9,推導了在p≤1的情形下Pr(
δ
max =1)的理論值; Theorem 3.10,推導了在p≤1的情形下Pr(δ
max =0)的理論值。這些值都以積分或是連加 的方式表示,與變數p值和T|B=1與 C 的母數分配有關。實際的計算在一般情 形下需要用到數值方法。但是若分配是 exponential distribution,則可以得 到 explicit 的結果。此外兩個定理的結果包含所有的樣本大小,所以是 finite-sample 的結果。Theorem 3.11 和 3.12 則 是 針 對
τ
0,τ ,Fτ
G 大 小 的 不 同 排 列 情 形 推 導 )1
Pr(
δ
max = 在 大 樣 本 的 極 限 值 。 基 本 上 我 們 要 看 當 p=1 時 , 是 否 1) 1 Pr(
limn→∞
δ
max = = ,因為當免疫者不存在且樣本很大時, K-M 曲線降到 0 的 機 率 應 該 是 1 才 合 理 。 同 理 當 p<1代 表 免 疫 者 存 在 , 我 們 應 該 得 到1 ) 0 Pr(
limn→∞
δ
max = = ,代表 K-M 曲線不會降到 0 的機率也應該是 1 才合理。我 們重述其理論:Theorem 3.11: 當
p=1且觀測時間太短以致 τ
G <τ
F,則
limn→∞Pr(δ
max =0)=1。 當
Pr(B=1)<1,則亦會得到
limn→∞Pr(δ
max =0)=1。
Theorem 3.12: 當
p=1且觀察時間夠長到使得 τ
G >τ
F,則
limn→∞Pr(δ
max =1)=1。
書中約略提到τ
G =τ
F的情形,需要加入特殊的條件才會使得limn→∞Pr(δ
max =1)的 極限存在。2.3.4 Kaplan-Meier 估計量的分配理論與收斂速率
令 。Maller and Zhou 的 Theorem 4.1 證明只有當觀察時間 充份的情形下
) r(
ˆ Pˆ T tmax
p= ≤
)
(
τ
0 ≤τ
G , 。這個定理說明 具有一致性的充分 必要條件就是p B
pˆ→p Pr( =1)= pˆ
τ
Gτ
0 ≤ 。此時Pr(T ≤ Bt| =1)的無母數估計量為 ,在同樣的條件下 具有 uniform consistency 的性質。
p t T )/ ˆ r(
Pˆ ≤ p
t T )/ ˆ r(
Pˆ ≤
以上討論的是 做為點估計量的性質,欲做後續的推論﹝如區間估計和假設 檢定﹞則需要有關於 分配理論的推導結果。在 Maller and Zhou﹝1996﹞書中 第四章的 Theorem 4.1 證明了當
pˆ pˆ
1
0< p< 的情形下﹝即免疫者存在﹞,
ˆ ) (p p
n − 會收斂到常態分配,此外書中亦提供了Var{ n(pˆ−p)}的公式。然而 當p=1,只知 n(pˆ−1)→0。換言之當免疫者不存在時﹝p=1﹞, 會 收斂到一個 non-degenerate distribution,只知 的收斂速率比一般 的
ˆ ) (p p n−q −
pˆ n−1/2
速率來得快﹝即 ﹞,但是確切的 值未知,而且 的分配型態亦
未知。文獻上稱 時的性質討論為“boundary problem",因為 是比例 的上界。在一般統計分析中研究這個問題都是困難的,
﹝如泰勒展開式 …﹞在邊界無法使用。因為理論推導的問題牽涉到困難的數學 分析能力,我們不做進一步討論。在此我們討論
2 /
>1
q q n−q(pˆ−p)
=1
p p=1
因為許多有用的數學工具
=1
p 的性質在實際問題的應用。
點估計量pˆ的性質在所有p≤1
先前提到的第一步驟檢驗
的情形都適用。但是做進一步的推論卻需要 判斷是否免疫者存在。 H01:Pr(T ≤
τ
G)=1就包含檢定免 疫者存在的情形。因為若是H01被接受了,可以推得p=1; 若被拒絕則要繼續做 第二步驟 的檢定。Maller and Zhou﹝1994﹞的論文提出討論檢定充份追蹤 時間的方法 欲檢定 ,可以利用H02
。 H01 pˆ−1的距離做為判別標準,然而 的 分配型態和 值在 卻是未知的。根據 Neyman-Pearson 法則,棄卻範圍由控 制型一錯誤
) ˆ 1 ( −
− p
n q q p=1
α 決定: Pr(pˆ−1>cn(α)|p=1)=α。換言之若是pˆ >1−cn(
α
)則拒絕,承認免疫不存在。然而
H01 cn(
α
)的值卻因為pˆ的性質在p=1缺乏理論依據所 以無法求得,使得以無母數的方法檢驗 的目標遇到很大的挑戰。Maller and的檢定。
H01
Zhou 以模擬分析討論H01
第三章:以固定時間為切點之治癒模式
對參數微分後可得 score equation:
) 0
3.1 Jung﹝1996﹞
Jung 發現E(I(Xi ≥t)|Zi)=Pr(Ti ≥t|Zi)G(t),其中G(t)=Pr(Ci >t)。因此
這 個 方 法 使 用 的 原 則 是 處 理 missing data 常 用 的 “inverse probability weighting"的方法。
3.2 Subramanian (2001)
Subramanian 文章的概念是以E[I(Ti ≥M)|
δ
i,Xi,Zi]的無母數估計量(以 表示之)取代(3.1)式中的 。此文章所做的額外假設為解釋變數 為離 散變數,如此才可能針對個別可能的Eˆi
) (T M
I i ≥ Zi
Z值估計 。所提出的估計函
數可表示為
)
| Pr(Xi ≥M Zi
) 0 ( ) (
) } (
) ˆ (
{ ' '
'
1
' =
∑
−= i
i i
i n
i
i
i Z
Z Z
Z Z
E π β π β
β β π
π φ , (3.3)
其中
] , ,
| ) (
ˆ[
ˆi E I Ti M i Xi xi Zi
E = ≥ δ =
)
| r(
Pˆ
)
| r(
)Pˆ 0 , (
) (
i i
i i
i i
i T x Z
Z M M T
x X I M X
I >
= >
<
= +
≥
= δ 。 (3.4)
這個方法所應用的原則被稱為“imputation by conditional mean"。這個方法 的缺點在於Pr(T >t|Z)的估計與Z有關,所需要的資訊非
的假設所能夠涵蓋。若是解釋變數為離散型,則可以根據
) ( )
| 0
Pr(B= Z =
π β
'Z Z值將資料做切割,再 以 Kaplan-Meier 的無母數估計量估計Pr(T >t|Z)。第四章:考慮競爭風險之治癒模式
傳統的治癒模式並不直接定義哪個狀態為免疫,因此真正的免疫者是與非免 疫的設限資料混合在一起。當模式假設不夠強時﹝指在無母數的情形下﹞,則強 烈的需要依賴資料的“良好品質"(指追蹤時間充份),才能做正確的推論。第三 章討論的治癒模式,分析的結果和人為決定的切點有關,所以應用有限。在本章 中我們討論第三類型的治癒模式,免疫與否的定義取決於競爭風險發生的種類或
是次序。
我們先討論一個簡化的例子,是將 Betensky 與 Schoenfeld。2001﹞討論的 新生兒因急性肺炎住院改編成因 SARS 住院的例子。令
T1 = time to hospital discharge (因 SARS 入院到活著出院的時間) T2 = time to death (因 SARS 入院到在醫院死亡的時間)。
在此例中,“活著出院"可視為痊癒。也就是說“免疫與否"取決於競爭風險 (“死亡"與“出院")發生的次序,因此若是在沒有外來設限的情形下,“痊 癒"是可被觀察到的事件。因為免疫與否有清楚的定義,這樣的架構不致發生前 述不可辨識性的問題。
因 SARS 入院
死在醫院
活著出院
圖 4-1:SARS 入院的例子
以競爭風險的角度來看上述的問題,在這個簡化的例子中,只有兩種失敗型 態(failure types)。令B~ =1,代表“活著出院"的情形;B~ =2,代表“在醫 院 中 死 亡 " 的 情 形 。 若 令 “ 活 著 出 院 " 代 表 痊 癒 , 則 無 法 痊 癒 的 比 例 為
)
~ 2
Pr(B = 。然而對B~ =2的觀測值, 的定義不明,有的做法是對死在醫院者時,
令 ;或是只定義
T1
∞
1=
T ~ 1
1|B=
T 。可得
)
~ 2 Pr(
)
~ 1 Pr(
)
~ 1
| Pr(
)
Pr(T1 >t = T1 >t B= B= + B= 。 可以清楚看到
, 代表不會發生活著出院的比例。值得一提的是,
)
~ 2 Pr(
) Pr(
lim 1 > = =
∞
→ T t B
t
) Pr(
) Pr(
1− T1 >t = T1 ≤t 是競爭
風險文獻裏經常討論的“累積發生函數"( ,
代表到 時間所累積觀察到發生活著出院的比率。同理可得
cumulative incidence function) t
)
~ 1 Pr(
)
~ 2 Pr(
)
~ 2
| Pr(
)
Pr(T2 >t = T2 >t B= B= + B= , 其尾端機率 ~ 1)
Pr(B= 代表不會死於醫院的比例。
文獻中考慮競爭風險的治癒模式有 Greenhouse and Wolfe (1984),
Larsen and Dinse (1985),Taylor (1995),Ng and McLanchlan (1998),Betensk and Schoenfeld (2001),Maller and Zhou (2002),Wang (2004)…等。由發表 年代看來,這個研究方向似乎有變得熱門的趨勢。我們將統整這些文章的符號,
以便做有系統的整理。這一系列文獻中,經常引用的文獻始自 Greenhouse and Wolfe (1984),多數的文章討論不只兩種競爭風險。在此,我們由 Larsen & Dinse (1985)開始介紹,因為此文提供的思路為後續文章主要的脈絡。
4.1 Larson-Dinse 的迴歸分析 令 B~
代表失敗的型態,假設共有 種可能,每一種失敗型態發生的機率定為J
pj Larson-Dinse﹝1985﹞以迴歸模式來描述 與 。令 代表解釋變
數,在失敗型態的部分用 logistic regression 做為模式的假設,則每一種失敗 型態發生的機率可以表示成
其中風險函數 的型態給定為 piece-wise exponential 模式,可將時間資料 分成
其中 t
, ,代表確知未痊癒(or susceptible);然而當 時,
的值未知,即不知道免疫與否,此時
)
文章分析了著名的心臟移植資料(Stanford Heart Transplant),希望對於 接受心臟移植後的病人(共 65 人)能探討解釋變數對於不同失敗型態的影響。共 有兩個失敗型態,其中B~ =1代表因為發生排斥而死亡,B~ =2代表因為其他原因
而死亡。在實際資料中, (29 人), (12 人),值得
注意的是 (24 人),代表缺失值頗嚴重。解釋變數的維度 ,
除了截距項以外還包含“mismatch score" (越大代表捐贈者和接受者組織之相 容度差),“age"代表接受移植時的年紀,“waiting time"代表等到心臟移植 的時間。其中“mismatch score"和“age"變數都經過標準化,
time" 則 是 轉 成 是 否 超 過 31 天 的 0/1 變 數 。 對 於 的 模 式 採 piecewise-exponential 分配,試了三種配置法:當
45
“waiting )
當發現“waiting time"沒有太大影響時這個解釋變數便被捨棄,此時作者 只考慮將“mismatch score"和“age"並以M =3的 piecewise-exponential 分配做為Qj(t|Z)的模式。分析結果發現這兩個解釋變數對於 ~ 1)
Pr(B= 並無顯著
影響,倒是對於反映在 上的排斥時間有顯著影響,年紀越輕且組織 match
4.2 Logistic/Weibull 模式 -- Taylor
Larson and Dinse﹝1985﹞的分析,對於每一種失敗型態發生的機率( ) 和給定第 個事件會發生的條件存活函數( )皆做了母數模式的假設。而在
Taylor﹝1995﹞一文中,對於每一種失敗型態發生的機率( )仍做 logistic regression 的假設,以 為例令 並以無母數 product-limit 的方式分析之;但是對於免疫的人 (
取對數之後為
此處 利用 Kaplan-Meier 所表示成的 product-limit 形式代入,透過 EM 演算法即得所求之估計值。
)
|
2(xi zi
Q
利用以上 logistic / Kaplan-Meier 做為模式假設會發生的問題是過多的未 知參數造成估計的繁雜,此外理論上limt→∞Q1(t|Z)=0,但是在模擬分析上卻依
Greenhouse and Wolfe(1984)提出以最大概似法做為推論方法,並針對常 見模式做細節討論。Ng and McLanchlan (1998)亦是採取母數模式的架構,因為
提出的推論方法較為創新,因此回顧這篇文章。該文主要目的是估計 ~ 1
論文中討論 likelihood-based 的推論方法。如果 和 的母數分配均為 已知,則 log-likelihood 可以表示為 趣的參數。以此為前提下作者認為 full-likelihood 需要對兩個分佈均做母數 分配的假設並沒有必要,並進一步提出了 partial Maximum likelihood 的估計
方法。他們的想法是只對 的函數型態做母數的假設,對於 的資料給予
誤。
Maller and Zhou (2002) 考慮更一般化的競爭風險架構,可以容許更多的失敗
型態,所以 ~ ) 1。再定義以下存活函數 下,提出值得發表的創意。Ng and McLanchlan (1998) 提出較具穩健性的 partial ML 方法;Maller and Zhou (2002) 則是理論推導,做為檢定
的假說的基礎。在 給定下,而且外生的設限存在,我們往往不知道 (boundary),是非典型的推論問題,許多數學技巧都不能使用。
J*
Wang (2004) 只考慮 2 種競爭風險,並以 multi-state model 描述問題,
文中令 B~
做為路徑的指標,並提出以無母數角度估計p,Q1(t),Q2(t)的方法。為求
符號的一致性,資料型態可以表示為{(bi,xi)(i=1,...,n)}。可知當b=0,B~
)
第五章 結論
在有關治癒模式的文獻中,我們將文章依“治癒"或是“免疫"是否明確定
在有關治癒模式的文獻中,我們將文章依“治癒"或是“免疫"是否明確定