第一章 緒論
1.3 論文方向
我們決定把論文方向由資料分析調整為方法論的探討。希望針對 )
,
~, ,
~,
(X δx Y ηy C 的資料型態提出可行的推論方法,藉此可以看出Y 的資訊在其中 所扮演的角色,如果可能,未來請資料提供者再分享更完整的資料。
第二章的內容主要為文獻回顧,內容包含“競爭風險資料"與“半競爭風險 資料"與“截切資料" 的介紹。在第三章中我們把具體的研究目標鎖定為
) ,
Pr(
)
1(t X t X Y
F = ≤ < 的估計,這個函數描述了母體發病年齡的分配函數。我們
回顧了現有文獻的推論方法。早期的研究主要針對右設限資料,Chen, Chang and Wang (2006) 的論文中探討三種推論技巧 (分解法 decomposition、加權 法 weighting 以及補差法 imputation),並證明這三種不同方法可得相同的答 案。我們在第三章中並摘錄了 Peng & Fine (2006) 的結果,他們亦是針對半競 爭風險與截切資料探討累積發生函數的估計。我們在網路上獲得 Peng & Fine 文章的檔案,並發現這篇文章已被 Biometrika 期刊接受並會在近期發表。雖然 我們感興趣的問題已經有學者提出答案,我們在第四章中仍然以另一種角度建構 新的估計量。在 Chen, Chang and Wang (2006) 的架構下,Peng & Fine (2006) 的做法比較像是利用分解法(decomposition) ,而我們的方法則是用加權
(weighting) 的概念。在第五章我們透過模擬實驗比較不同估計量的表現。第六 章為結論與未來值得探討的研究方向。
第二章文獻研讀─不完整資料型態簡介
在本章中,我們回顧幾種常見的不完整資料結構 (截切、競爭風險、半競爭風 險) 。我們所欲探討的問題,則是結合數種架構更為複雜的資料型態。
2.1 截切資料
令 Y 為感興趣事件的發生時間,當Y 的值唯有介於(AL,AR)中才有可能被觀 察到時,我們稱其受到了截切 (truncation)。左截切是當AR =∞的情形,右截 切則是當AL =0的情形。截切資料和一般設限 (censoring) 資料之不同處在於 被設限的變數仍包含部份的資訊,然而被截切的資料卻無法由所觀測到的變數中 獲取任何資訊。欲對Y 的分配做進一步推論,通常需要假設Y 與截切變數間彼此 獨立,這是避免所謂“不可辨識性"(un-identifiability) 的常用假設。
以下針對最常見的左截切資料(AL = A,AR =∞),討論存活函數 Pr(Y > t) 的估計方法。在不失一般性下先排除設限情形,可觀察的資料包含
)}
,..., 1 ( ) ,
{(Yi Ai i = n ,且需滿足截切條件Yi > Ai。存活函數可以表示為風險函數 的連乘積:
) } Pr(
) ,
[ 1 Pr(
{ )
Pr(
∏
≤ ≥
+
− ∈
=
>
t
u Y u
du u u t Y
Y , (2.1)
其中風險函數λ2(u)滿足
) Pr(
)) ,
[ ) Pr(
2(
u Y
du u u du Y
u ≥
+
= ∈
λ 。 (2.2)
當資料為完整時,風險函數機率λ2(u)du的估計量為
∑ ∑
=
=
≥
= n
i i n
i
i u I Y u
Y I
1 1
) ( / )
( 。然
而若是資料為左截切,
∑ ∑
=
=
≥
= n
i i n
i
i u I Y u
Y I
1 1
) ( / )
( 所估計的非λ2(u)du,而是
) , Pr(
) ), ,
[ Pr(
A Y u Y
A Y du u u Y
>
≥
>
+
∈ 。 (2.3)
圖 2.1 提供了更詳細的說明。在未截切下,時間 u 的風險集合為
{
Y ≥u}
。圖 2.1中橫虛線標示的部份為風險集合中因截切而無法觀察到的區域,橫實線所標示為
截切後可觀察到的區域即
{
Y ≥ ,u Y > A}
。在此截切下的風險集合中,實際在 u 點 發生感興趣的事件的觀測值滿足{
Y = ,u Y > A}
。以上分析顯示若未調整風險集 合的定義,會發現 Y 值越大,越容易出現在集合{
Y ≥ ,u Y > A}
中。即使 A 與 Y彼此獨立,以
∑ ∑
=
=
≥
= n
i i n
i
i u I Y u
Y I
1 1
) ( / )
( 估計λ2(u)du仍有低估的問題,因為分子和 分母被截切的比例不同。
針對左截切資料,Lynden-Bell (1971) 修正了風險集合的定義,以去除截 切所造成的偏誤。修正的方向為針對風險集合做更進一步的截切,也就是把風險 集合修正為
{
Y ≥ ,u A<u}
。在圖 2.1 中,修正後的風險集合為橫直線方格所標示 的區域。此時在 A 與 Y 彼此獨立的情形下,因為{
Y = ,u A<u}
與{
Y ≥ ,u A<u}
兩個集合受截切的比例是相同的,所以
∑ ∑
=
=
<
≥
<
= n
i
i i
n
i
i
i u A u I Y u A u
Y I
1 1
) ,
( / ) ,
( 能
夠合理的估計λ2(u)du。此時Pr(Y > 的估計量可表示為 t)
} ) ,
(
) ,
( 1
{ ) (
1
∏
1∑
∑
≤
=
=
<
≥
<
=
−
=
t u
n
i
i i
n
i
i i
Y
u A u Y I
u A u Y I t
S 。 (2.4)
以上利用“進一步截切"的技巧雖巧妙的修正偏誤,卻也顯現另一個問題:
當 u<min
{
Ai,i=1,...,n}
時,我們無法估計λ2(u)du。圖 2.2 顯示在{
A i n}
u<min i, =1,..., 時,沒有任何觀測值會落在所對應的風險集合中(以斜線表 A> (從未進入研究) Y
Y
A u
圖 2.1:截切資料觀測範圍
示)。這個問題對存活函數的估計所產生的影響可由以下的分解得見。令
)
個體可能經歷“發病",或是“死亡"兩種事件。令 X 代表發病時間,Y 代表死 亡時間,可知Y 是 X 的競爭風險,但 X 卻非Y 的競爭風險。以發病的例子而言,
發病時間 X 的定義是模糊的,因為部份研究個體可能至死都不會發病。這些終 生未發病的個體,我們通常假設X > ,但是避免定義 X 的值。 Y
針對多重事件的資料,在右設限下若只記錄第一個事件的資訊(包含“事件 發生的時間"與“事件的種類"),文獻稱之為競爭風險資料 (competing risks data)。令設限變數為 C,競爭風險資料所記錄到的變數為 ~, , )
(X δx δy ,其中 C
Y X X~ = ∧ ∧
、δx =I(X ≤Y∧C)、δy =I(Y ≤ X ∧C)。當δx =1時,X~ = X
; 當δy =1時,X~ =Y
;當δx =0且δy =0時,X~ =C
。
以下兩個函數經常被用於描述競爭風險資料:第一個是“特定原因之風險函 數"(the cause-specific hazard function):
dt
t Y t X dt t t t X
dt
) ,
| ) , [ limPr(
) (
1 0
≥
≥ +
= ∈
λ → ,
與 “累積發生函數"(the cumulative incidence function):
) ,
Pr(
)
1(t X t X Y
F = ≤ < 。
之後的論文方向會以 F1(t) 的估計為重點,以我們的例子來說F1(t)代表母體中 到 t 歲前會發生症的比例,其中X < 生前發病的條件必然成立。在第三章中我Y 們會回顧以無母數方法估計F1(t)=Pr(X ≤t,X <Y)的相關文獻。
2.3 半競爭風險資料
在我們感興趣地例子中,“死亡"並非發病的競爭風險,換言之兩個事件的 競爭關係並非雙向的。此時研究者可記錄的事件不只限於“第一個"發生的事 件,還能包含死亡這類具有“終結" (terminal) 特質的事件。當所記錄的變數 包含 ~, , )
~,
(X Y δx ηy ,其中Y~=Y ∧C
,ηy =I(Y ≤C),Fine et al.(2001)稱之為半 競爭風險資料 (semi-competing risks data)。
這種資料型態的特色是只能觀察到
{
(X,Y):0≤ X <Y <∞}
的情況下,文獻中探討半競爭風險資料的論文包含探討 X 之雙樣本檢定問題。Lin,Robins and Wei,1996;Chang,2000。探討(X,Y)的關聯性的論文則包含 Day et al.(1997)、
Fine et al.(2001)以及 Wang(2003)。由於競爭風險資料只紀錄第ㄧ個發生的事 件,半競爭風險資料比競爭風險資料多了關於終結事件的資訊,我們希望瞭解這 樣的訊息是否對累積發生函數F1(t)的估計更有幫助。在第三章將回顧 Peng and Fine (2006)的文章,他們發現在截切的條件下,半競爭風險資料確實比競爭風 險資料提供更多訊息,對估計F1(t)也更加精準。
第三章 文獻研讀─累積發生函數之估計
3.1 競爭風險架構在論文中我們假設 X 代表發病時間,Y 代表死亡時間。在 2.2 小節中 我們以競爭風險架構 (competing risks framework) 描述發病和死亡的關係,並 提及論文的目標會鎖定於“累積發生函數"F1(t)=Pr(X ≤t,X <Y) 的估計。在 本章中,我們針對不同資料型態,回顧文獻所提出估計F1(t)的方法。在右設限 下,令設限變數為 C。競爭風險資料所記錄的變數為
C Y X X~ = ∧ ∧
、δx = I(X ≤Y ∧C)、δc =I(C≤ X ∧Y)、δy = 1−δx −δc。 時間變數 X~
代表第一個發生事件的發生時間,(δx,δy,δc)為第一個事件發生型態
(cause of failure) 的指標,δx =1代表最先發病、δy =1代表死亡時還未發病且 未被設限、δc =1代表還未觀察到發病或是死亡就被設限了。競爭風險架構下所 記錄的隨機樣本可以表示為 ~ , , )( 1,..., )}
{(Xi δxi δyi i= n 。
3.2 競爭風險資料下的估計方法
當 C =∞ 時,資料可以簡化為 {Xi ∧Yi,∆i =I(Xi ≤Yi) (i=1,...,n)}。此時 )
1(t
F 可用動差法估計
∑
=
=
∆
≤
n ∧
i
i i
i Y t n
X I
1
/ ) 1 ,
( 。然而當外來設限發生時,無法
得知部份個體的 ∆ 值。對於 i F1(t) 的估計,現有文獻多數考慮右設限的資料 )}
,..., 1 )(
,
~ ,
{(Xi δxi δyi i= n 。Chen, Chang and Wang (2006) 曾把文獻常用的方 法區分為三類,並證明這三個方法會得到一致的答案。我們在此摘要他們的結果。
文獻的第一個方向是先將F1(t)分解,個別估計後再代回。可將F1(t)表示為 F1(t)=Pr(X ≤t,X <Y)=
∫
0tSX∧Y(u−)λ1(u)du, (3.1) 其中SX∧Y(u)=Pr(X >u,Y >u)=Pr(X ∧Y >u)。可以採用 Kaplan-Meier 方法估 計SX,Y(t),公式如下∏ ∑
Kaplan-Meier 方法估計如下
∏
致"(self-consistent) 方程式,以此建構估計量需要用進一步用數值方法求解。
經過一番整理可得以下更易操作的關係式:
代入 (3.2) SX∧Y(t)的估計量後,以補差法求得之F1(t)估計量如下:
∏ ∑
切" (further truncation) 的技巧是用來修正截切造成的偏誤,但這個方法會捨 棄一些可用的資訊。在λ1(t)dt與SX∧Y(t)的估計中經過進一步的截切後所考慮的過“人為截切" (artificially truncation) 的機制,只會用到那些“在 70 歲以前 進入樣本者"的資訊 (註: 如果有個人在 72 歲進入樣本時尚未發病且存活,
他的資訊不會被使用)。在下一節中 Peng & Fine (2006) 利用半競爭風險資料 中存活變數Y 的資訊以估計F1(t),過程中捨棄人為截切的技巧,因此可避免所 資料流失的缺點。
3.4 截切後的半競爭風險架構
Peng & Fine (2006) 仍利用分解的方法得到以下的等式 )
, Pr(
)
1(t X t X Y
F = ≤ <
dvdu v Y u Y X
t u
∫ ∫
v u≤ >
=
=
∧
= Pr( , ) , (3.9)
其中 )]Pr(X ∧Y = x,Y = y)=E[I(X ∧Y = x,Y = y 。他們發現F1(t)的估計可以利 用代入Pr(X ∧Y = x,Y = y)的無母數估計量,而後者的估計所需要的是半競爭風 險的資料。考慮設限下的半競爭風險資料為
)}
,..., 1 )(
, , ,
~,
~ ,
{(Xi Yi δxi ηyi Ai Ci i= n , 其中X~i = Xi ∧Yi ∧Ci
、Y~i =Yi ∧Ci
、δxi =I(Xi ≤Yi ∧Ci)、ηyi =I(Yi ≤Ci),截 切的條件為Y~i ≥ Ai
。
第一目標為估計 Pr(X ∧Y = x,Y = y)。在截切下可得
~ )
| 1
~ ,
~ ,
Pr(X = xY = yηy = Y ≥ A ~ )
| ,
,
Pr(X ∧Y = xY = y Y ≤C Y ≥ A
=
~ ) Pr(
) Pr(
) , Pr(
A Y
C y A y Y x Y X
≥
≤
≤
=
=
= ∧ 。
調整以上等式可得
) , Pr(X ∧Y = x Y = y
) Pr(
~ ) Pr(
~ )
| 1
~ ,
~ , Pr(
C y A
A Y A Y y
Y x
X y
≤
≤
≥
≥
=
=
= = η
。(3.10)
下一目標是估計上式等號右邊的每個成員。欲估計Pr(A≤ y≤C)可以先探討以下
關係: 依據(3.11)(3.12)的推導,(3.10)可以進一步表示為
)
上式右邊的每個成員皆可套用現成方法估計之,分述如下。可以用 Lynden-Bell 方法估計 SY(t)=Pr(Y >t):
的估計必須要在 y 很大時亦為合理。然而在當研究時間有限時,往往會發生較晚
⎪⎭
⎪⎬
⎫
⎪⎩
⎪⎨
⎧ − +
=
≤
<
≤
= +
+
=
∑
− (~ , ~ ~ , 1) ~ ( ) 1 ((, ))~) (
~ )
~ ( ) 1
~ ( 2,
1
1 τ
τ τ η
τ
n T n
Y yi
i i i n
i n i
i T PF Y
C t S C
Y X t X Y I C
Y S t n
F 。(3.20)
以上依據半競爭風險所架構的估計量 ~ ( )
1 t
FPF 與(3.8)式依據競爭風險資料所架構
的 naïve 估計量 ˆ ( )
1 t
FPF 相比較,會發現 ˆ ( )
1 t
FPF 利用了人為截切,但是 ~ ( )
1 t
FPF 卻
不需要這個條件。換言之, ~ ( )
1 t
FPF 可以更充分的善用每ㄧ筆觀察值。此外,根
據模擬試驗的結果, ~ ( )
1 t
FPF 估計的比 ˆ ( )
1 t
FPF 更為準確。
第四章 我們提出的估計量
在第三章中我們回顧了以無母數方法估計累積發生函數的現有文獻,其 中比較多的研究針對競爭風險資料,Peng and Fine (2006) 則是針對截切下的 半競爭風險資料,也是本論文的主要研究方向。我們希望把 Chen, Chang and Wang (2006) 論文探討的推論技巧 (“分解法"、“加權法"與“補差法"),
應用到受制於截切的半競爭風險資料結構,所提出的方法將與 Peng and Fine (2006) 提出的估計量做比較。
4.1 未截切資料
在 Peng & Fine (2006) 的論文中強調半競爭風險資料含有較多有用資 訊。我們第一個想探討的是此多餘資訊是如何對估計產生幫助? 如前所述累積發 生函數做以下的分解:
) ,
Pr(
)
1(t X t X Y
F = ≤ <
∫
≤
>
=
=
t u
u Y u
X , )
Pr(
∫
≤
=
∆
=
∧
=
t u
u Y
X , 1)
Pr( ,
其中∆=I(X <Y)。由此拆解可知F1(t)可以表示為(X ∧ Y,∆)的積分函數,這是 未設限下的競爭風險資料型態。另一種分解方法為
) ,
Pr(
)
1(t X t X Y
F = ≤ <
∫ ∫
≤ >=
=
=
t u v u
dvdu v Y u
X , )
Pr(
dvdu v Y u Y X
t u
∫ ∫
v u≤ >
=
=
∧
= Pr( , ) 。
以上的表示法顯示F1(t)亦可以表示為(X ∧Y,Y)的積分函數,這是未設限下半競 爭風險資料可觀察到的變數。
先不考慮設限的情形,令競爭風險的樣本為 {(Xi ∧Yi,∆i)(i=1,...,n)};半競 爭風險的樣本為{(Xi ∧Yi,Yi)(i=1,...,n)}。可得
n
∏ ∑
∑
= −
[
( , , )Pr( , | , , )]
表研究時間長度) 獨立,並利用 product-limit decomposition 和 artificial truncation 的概念,獲知FA(t)
∏
因此我們可以
=
∫
− −將上式估計量與 Peng & Fine (2006) 所提出的半競爭風險估計量(原(3.20)式) 比較,Peng & Fine 在估計 A 和C的函數時,是估計兩個變數的聯合函數,而我