論文方向

第一章緒論

1.3 論文方向

我們決定把論文方向由資料分析調整為方法論的探討。希望針對 )

~, ,

(X δ_x Y η_y C 的資料型態提出可行的推論方法，藉此可以看出Y 的資訊在其中 所扮演的角色，如果可能，未來請資料提供者再分享更完整的資料。

第二章的內容主要為文獻回顧，內容包含“競爭風險資料＂與“半競爭風險資料＂與“截切資料＂的介紹。在第三章中我們把具體的研究目標鎖定為

) ,

Pr(

)

1(t X t X Y

F = ≤ < 的估計，這個函數描述了母體發病年齡的分配函數。我們

回顧了現有文獻的推論方法。早期的研究主要針對右設限資料，Chen, Chang and Wang (2006) 的論文中探討三種推論技巧 (分解法 decomposition、加權法 weighting 以及補差法 imputation)，並證明這三種不同方法可得相同的答案。我們在第三章中並摘錄了 Peng & Fine (2006) 的結果，他們亦是針對半競爭風險與截切資料探討累積發生函數的估計。我們在網路上獲得 Peng & Fine 文章的檔案，並發現這篇文章已被 Biometrika 期刊接受並會在近期發表。雖然我們感興趣的問題已經有學者提出答案，我們在第四章中仍然以另一種角度建構新的估計量。在 Chen, Chang and Wang (2006) 的架構下，Peng & Fine (2006) 的做法比較像是利用分解法(decomposition) ，而我們的方法則是用加權

(weighting) 的概念。在第五章我們透過模擬實驗比較不同估計量的表現。第六章為結論與未來值得探討的研究方向。

第二章文獻研讀─不完整資料型態簡介

在本章中，我們回顧幾種常見的不完整資料結構 (截切、競爭風險、半競爭風險) 。我們所欲探討的問題，則是結合數種架構更為複雜的資料型態。

2.1 截切資料

令 Y 為感興趣事件的發生時間，當Y 的值唯有介於(A_L,A_R)中才有可能被觀察到時，我們稱其受到了截切 (truncation)。左截切是當A_R =∞的情形，右截切則是當A_L =0的情形。截切資料和一般設限 (censoring) 資料之不同處在於被設限的變數仍包含部份的資訊，然而被截切的資料卻無法由所觀測到的變數中 獲取任何資訊。欲對Y 的分配做進一步推論，通常需要假設Y 與截切變數間彼此 獨立，這是避免所謂“不可辨識性＂(un-identifiability) 的常用假設。

以下針對最常見的左截切資料(A_L = A，A_R =∞)，討論存活函數 Pr(Y > t) 的估計方法。在不失一般性下先排除設限情形，可觀察的資料包含

)}

,..., 1 ( ) ,

{(Y_i A_i i = n ，且需滿足截切條件Y_i > A_i。存活函數可以表示為風險函數的連乘積:

) } Pr(

) ,

[ 1 Pr(

{ )

Pr(

∏

≤ ≥

− ∈

u Y u

du u u t Y

Y ， (2.1)

其中風險函數λ₂(u)滿足

) Pr(

)) ,

[ ) Pr(

u Y

du u u du Y

u ≥

= ∈

λ 。 (2.2)

當資料為完整時，風險函數機率λ₂(u)du的估計量為

∑ ∑

≥

= ⁿ

i i n

i u I Y u

Y I

1 1

) ( / )

( 。然

而若是資料為左截切，

∑ ∑

≥

= ⁿ

i i n

i u I Y u

Y I

1 1

) ( / )

( 所估計的非λ₂(u)du，而是

) , Pr(

) ), ,

[ Pr(

A Y u Y

A Y du u u Y

≥

∈ 。 (2.3)

圖 2.1 提供了更詳細的說明。在未截切下，時間 u 的風險集合為

{

^Y ^≥^u

}

^{。圖 2.1}

中橫虛線標示的部份為風險集合中因截切而無法觀察到的區域，橫實線所標示為

截切後可觀察到的區域即

{

^Y ^{≥ ,}^u ^Y ^> ^A

}

。在此截切下的風險集合中，實際在 u 點發生感興趣的事件的觀測值滿足

{

Y = ,u Y > A

}

。以上分析顯示若未調整風險集 合的定義，會發現 Y 值越大，越容易出現在集合

{

^Y ^{≥ ,}^u ^Y ^> ^A

}

中。即使 A 與 Y

彼此獨立，以

∑ ∑

≥

= ⁿ

i i n

i u I Y u

Y I

1 1

) ( / )

( 估計λ₂(u)du仍有低估的問題，因為分子和分母被截切的比例不同。

針對左截切資料，Lynden-Bell (1971) 修正了風險集合的定義，以去除截切所造成的偏誤。修正的方向為針對風險集合做更進一步的截切，也就是把風險集合修正為

{

^Y ^{≥ ,}^u ^A^<^u

}

。在圖 2.1 中，修正後的風險集合為橫直線方格所標示 的區域。此時在 A 與 Y 彼此獨立的情形下，因為

{

Y = ,u A<u

}

與

{

Y ≥ ,u A<u

}

兩個集合受截切的比例是相同的，所以

∑ ∑

≥

= ⁿ

i i

i u A u I Y u A u

Y I

1 1

) ,

( / ) ,

( 能

夠合理的估計λ₂(u)du。此時Pr(Y > 的估計量可表示為 t)

} ) ,

(

) ,

( 1

{ ) (

∏

∑

≤

≥

−

t u

i i

u A u Y I

u A u Y I t

S 。 (2.4)

以上利用“進一步截切＂的技巧雖巧妙的修正偏誤，卻也顯現另一個問題:

當 ^u<min

{

^Ai,ⁱ=1,...,ⁿ

}

時，我們無法估計λ₂(u)du。圖 2.2 顯示在

{

A i n

}

u<min _i, =1,..., 時，沒有任何觀測值會落在所對應的風險集合中(以斜線表 A> (從未進入研究) Y

A u

圖 2.1：截切資料觀測範圍

示)。這個問題對存活函數的估計所產生的影響可由以下的分解得見。令

)

個體可能經歷“發病＂，或是“死亡＂兩種事件。令 X 代表發病時間，Y 代表死 亡時間，可知Y 是 X 的競爭風險，但 X 卻非Y 的競爭風險。以發病的例子而言，

發病時間 X 的定義是模糊的，因為部份研究個體可能至死都不會發病。這些終 生未發病的個體，我們通常假設X > ，但是避免定義 X 的值。 Y

針對多重事件的資料，在右設限下若只記錄第一個事件的資訊(包含“事件發生的時間＂與“事件的種類＂)，文獻稱之為競爭風險資料 (competing risks data)。令設限變數為 C，競爭風險資料所記錄到的變數為 ~, , )

(X δ_x δ_y ，其中 C

Y X X~ = ∧ ∧

、δ_x =I(X ≤Y∧C)、δ_y =I(Y ≤ X ∧C)。當δ_x =1時，X~ = X

；當δ_y =1時，X~ =Y

；當δ_x =0且δ_y =0時，X~ =C

。

以下兩個函數經常被用於描述競爭風險資料：第一個是“特定原因之風險函數＂(the cause-specific hazard function)：

t Y t X dt t t t X

) ,

| ) , [ limPr(

) (

1 0

≥

≥ +

= ∈

λ → ，

與 “累積發生函數＂(the cumulative incidence function):

) ,

Pr(

)

1(t X t X Y

F = ≤ < 。

之後的論文方向會以 F₁(t) 的估計為重點，以我們的例子來說F₁(t)代表母體中 到 t 歲前會發生症的比例，其中X < 生前發病的條件必然成立。在第三章中我Y 們會回顧以無母數方法估計F₁(t)=Pr(X ≤t,X <Y)的相關文獻。

2.3 半競爭風險資料

在我們感興趣地例子中，“死亡＂並非發病的競爭風險，換言之兩個事件的競爭關係並非雙向的。此時研究者可記錄的事件不只限於“第一個＂發生的事件，還能包含死亡這類具有“終結＂ (terminal) 特質的事件。當所記錄的變數包含 ~, , )

(X Y δ_x η_y ，其中Y~=Y ∧C

，η_y =I(Y ≤C)，Fine et al.(2001)稱之為半競爭風險資料 (semi-competing risks data)。

這種資料型態的特色是只能觀察到

{

⁽^X^,^Y⁾^:⁰^≤ ^X ^<^Y ^<^∞

}

^{的情況下，文獻中}

探討半競爭風險資料的論文包含探討 X 之雙樣本檢定問題。Lin，Robins and Wei，1996；Chang，2000。探討(X,Y)的關聯性的論文則包含 Day et al.(1997)、

Fine et al.(2001)以及 Wang(2003)。由於競爭風險資料只紀錄第ㄧ個發生的事件，半競爭風險資料比競爭風險資料多了關於終結事件的資訊，我們希望瞭解這樣的訊息是否對累積發生函數F₁(t)的估計更有幫助。在第三章將回顧 Peng and Fine (2006)的文章，他們發現在截切的條件下，半競爭風險資料確實比競爭風險資料提供更多訊息，對估計F₁(t)也更加精準。

第三章文獻研讀─累積發生函數之估計

3.1 競爭風險架構

在論文中我們假設 X 代表發病時間，Y 代表死亡時間。在 2.2 小節中 我們以競爭風險架構 (competing risks framework) 描述發病和死亡的關係，並提及論文的目標會鎖定於“累積發生函數＂F₁(t)=Pr(X ≤t,X <Y) 的估計。在本章中，我們針對不同資料型態，回顧文獻所提出估計F₁(t)的方法。在右設限下，令設限變數為 C。競爭風險資料所記錄的變數為

C Y X X~ = ∧ ∧

、δ_x = I(X ≤Y ∧C)、δ_c =I(C≤ X ∧Y)、δ_y = 1−δ_x −δ_c。 時間變數 X~

代表第一個發生事件的發生時間，(δ_x,δ_y,δ_c)為第一個事件發生型態

(cause of failure) 的指標，δ_x =1代表最先發病、δ_y =1代表死亡時還未發病且未被設限、δ_c =1代表還未觀察到發病或是死亡就被設限了。競爭風險架構下所記錄的隨機樣本可以表示為 ~ , , )( 1,..., )}

{(X_i δ_xi δ_yi i= n 。

3.2 競爭風險資料下的估計方法

當 C =∞ 時，資料可以簡化為 {X_i ∧Y_i,∆_i =I(X_i ≤Y_i) (i=1,...,n)}。此時 )

1(t

F 可用動差法估計

∑

∆

≤

n ∧

i i

i Y t n

X I

/ ) 1 ,

( 。然而當外來設限發生時，無法

得知部份個體的 ∆ 值。對於 _i F₁(t) 的估計，現有文獻多數考慮右設限的資料 )}

,..., 1 )(

~ ,

{(X_i δ_xi δ_yi i= n 。Chen, Chang and Wang (2006) 曾把文獻常用的方法區分為三類，並證明這三個方法會得到一致的答案。我們在此摘要他們的結果。

文獻的第一個方向是先將F₁(t)分解，個別估計後再代回。可將F₁(t)表示為 F₁(t)=Pr(X ≤t,X <Y)⁼

∫

0^t^S^X^∧^Y(^u⁻)λ1(^u)^du， (3.1) 其中S_X_∧_Y(u)=Pr(X >u,Y >u)=Pr(X ∧Y >u)。可以採用 Kaplan-Meier 方法估計S_X_,_Y(t)，公式如下

∏ ∑

Kaplan-Meier 方法估計如下

∏

致＂(self-consistent) 方程式，以此建構估計量需要用進一步用數值方法求解。

經過一番整理可得以下更易操作的關係式:

代入 (3.2) S_X_∧_Y(t)的估計量後，以補差法求得之F₁(t)估計量如下:

∏ ∑

切＂ (further truncation) 的技巧是用來修正截切造成的偏誤，但這個方法會捨棄一些可用的資訊。在λ₁(t)dt與S_X_∧_Y(t)的估計中經過進一步的截切後所考慮的

過“人為截切＂ (artificially truncation) 的機制，只會用到那些“在 70 歲以前進入樣本者＂的資訊 (註: 如果有個人在 72 歲進入樣本時尚未發病且存活，

他的資訊不會被使用)。在下一節中 Peng & Fine (2006) 利用半競爭風險資料 中存活變數Y 的資訊以估計F₁(t)，過程中捨棄人為截切的技巧，因此可避免所資料流失的缺點。

3.4 截切後的半競爭風險架構

Peng & Fine (2006) 仍利用分解的方法得到以下的等式 )

, Pr(

)

1(t X t X Y

F = ≤ <

dvdu v Y u Y X

t u

∫ ∫

v u

≤ >

∧

= Pr( , ) ， (3.9)

其中 )]Pr(X ∧Y = x,Y = y)=E[I(X ∧Y = x,Y = y 。他們發現F₁(t)的估計可以利用代入Pr(X ∧Y = x,Y = y)的無母數估計量，而後者的估計所需要的是半競爭風險的資料。考慮設限下的半競爭風險資料為

)}

,..., 1 )(

, , ,

~ ,

{(X_i Y_i δ_xi η_yi A_i C_i i= n ，其中X~_i = X_i ∧Y_i ∧C_i

、Y~_i =Y_i ∧C_i

、δ_xi =I(X_i ≤Y_i ∧C_i)、η_yi =I(Y_i ≤C_i)，截切的條件為Y~_i ≥ A_i

。

第一目標為估計 Pr(X ∧Y = x,Y = y)。在截切下可得

~ )

| 1

~ ,

Pr(X = xY = yη_y = Y ≥ A ~ )

| ,

Pr(X ∧Y = xY = y Y ≤C Y ≥ A

~ ) Pr(

) Pr(

) , Pr(

A Y

C y A y Y x Y X

≥

≤

= ∧ 。

調整以上等式可得

) , Pr(X ∧Y = x Y = y

) Pr(

~ ) Pr(

~ )

| 1

~ ,

~ , Pr(

C y A

A Y A Y y

Y x

X _y

≤

≥

= = η

。(3.10)

下一目標是估計上式等號右邊的每個成員。欲估計Pr(A≤ y≤C)可以先探討以下

關係: 依據(3.11)(3.12)的推導，(3.10)可以進一步表示為

)

上式右邊的每個成員皆可套用現成方法估計之，分述如下。可以用 Lynden-Bell 方法估計 S_Y(t)=Pr(Y >t):

的估計必須要在 y 很大時亦為合理。然而在當研究時間有限時，往往會發生較晚

⎪⎭

⎪⎬

⎫

⎪⎩

⎪⎨

⎧ − +

≤

= ₊

∑

− ⁽^~ ^, ^~ ^~ ^, ¹⁾ ^~ ⁽ ⁾ ¹ ⁽₍^, ₎⁾

~) (

~ )

~ ( ) 1

~ ( 2,

1 τ

τ τ η

n T n

Y yi

i i i n

i n i

i T PF Y

C t S C

Y X t X Y I C

Y S t n

F 。(3.20)

以上依據半競爭風險所架構的估計量 ~ ( )

1 t

F^PF 與(3.8)式依據競爭風險資料所架構

的 naïve 估計量 ˆ ( )

1 t

F^PF 相比較，會發現 ˆ ( )

1 t

F^PF 利用了人為截切，但是 ~ ( )

1 t

F^PF 卻

不需要這個條件。換言之， ~ ( )

1 t

F^PF 可以更充分的善用每ㄧ筆觀察值。此外，根

據模擬試驗的結果， ~ ( )

1 t

F^PF 估計的比 ˆ ( )

1 t

F^PF 更為準確。

第四章我們提出的估計量

在第三章中我們回顧了以無母數方法估計累積發生函數的現有文獻，其中比較多的研究針對競爭風險資料，Peng and Fine (2006) 則是針對截切下的半競爭風險資料，也是本論文的主要研究方向。我們希望把 Chen, Chang and Wang (2006) 論文探討的推論技巧 (“分解法＂、“加權法＂與“補差法＂)，

應用到受制於截切的半競爭風險資料結構，所提出的方法將與 Peng and Fine (2006) 提出的估計量做比較。

4.1 未截切資料

在 Peng & Fine (2006) 的論文中強調半競爭風險資料含有較多有用資訊。我們第一個想探討的是此多餘資訊是如何對估計產生幫助? 如前所述累積發生函數做以下的分解:

) ,

Pr(

)

1(t X t X Y

F = ≤ <

∫

≤

t u

u Y u

X , )

Pr(

∫

≤

∆

∧

t u

u Y

X , 1)

Pr( ,

其中∆=I(X <Y)。由此拆解可知F₁(t)可以表示為(X ∧ Y,∆)的積分函數，這是未設限下的競爭風險資料型態。另一種分解方法為

) ,

Pr(

)

1(t X t X Y

F = ≤ <

∫ ∫

≤ >

t u v u

dvdu v Y u

X , )

Pr(

dvdu v Y u Y X

t u

∫ ∫

v u

≤ >

∧

= Pr( , ) 。

以上的表示法顯示F₁(t)亦可以表示為(X ∧Y,Y)的積分函數，這是未設限下半競爭風險資料可觀察到的變數。

先不考慮設限的情形，令競爭風險的樣本為 {(X_i ∧Y_i,∆_i)(i=1,...,n)}；半競爭風險的樣本為{(X_i ∧Y_i,Y_i)(i=1,...,n)}。可得

∏ ∑

∑

= −

[

( , , )Pr( , | , , )

]

表研究時間長度) 獨立，並利用 product-limit decomposition 和 artificial truncation 的概念，獲知

F_A(t)

∏

因此我們可以

⁼

∫

⁻ ⁻

將上式估計量與 Peng & Fine (2006) 所提出的半競爭風險估計量(原(3.20)式) 比較，Peng & Fine 在估計 A 和C的函數時，是估計兩個變數的聯合函數，而我

在文檔中針對半競爭風險與截切資料估計累積發生函數 (頁 12-0)

第一章 緒論

1.3 論文方向

第二章文獻研讀─不完整資料型態簡介

∏

∑ ∑

∑ ∑

{

}

{

}

{

}

{

}

∑ ∑

{

}

{

}

{

}

∑ ∑

∏

∑

∑

{

}

{

}

{

}

第三章 文獻研讀─累積發生函數之估計

∑

∫

∏ ∑

∏

∏ ∑

∫ ∫

∑

第四章 我們提出的估計量

∫

∫

∫ ∫

∫ ∫

∏ ∑

∑

[

]

∏

∫

第一章緒論

第三章文獻研讀─累積發生函數之估計

第四章我們提出的估計量