• 沒有找到結果。

第一章 緒論

1.3 論文方向

我們決定把論文方向由資料分析調整為方法論的探討。希望針對 )

,

~, ,

~,

(X δx Y ηy C 的資料型態提出可行的推論方法,藉此可以看出Y 的資訊在其中 所扮演的角色,如果可能,未來請資料提供者再分享更完整的資料。

第二章的內容主要為文獻回顧,內容包含“競爭風險資料"與“半競爭風險 資料"與“截切資料" 的介紹。在第三章中我們把具體的研究目標鎖定為

) ,

Pr(

)

1(t X t X Y

F = ≤ < 的估計,這個函數描述了母體發病年齡的分配函數。我們

回顧了現有文獻的推論方法。早期的研究主要針對右設限資料,Chen, Chang and Wang (2006) 的論文中探討三種推論技巧 (分解法 decomposition、加權 法 weighting 以及補差法 imputation),並證明這三種不同方法可得相同的答 案。我們在第三章中並摘錄了 Peng & Fine (2006) 的結果,他們亦是針對半競 爭風險與截切資料探討累積發生函數的估計。我們在網路上獲得 Peng & Fine 文章的檔案,並發現這篇文章已被 Biometrika 期刊接受並會在近期發表。雖然 我們感興趣的問題已經有學者提出答案,我們在第四章中仍然以另一種角度建構 新的估計量。在 Chen, Chang and Wang (2006) 的架構下,Peng & Fine (2006) 的做法比較像是利用分解法(decomposition) ,而我們的方法則是用加權

(weighting) 的概念。在第五章我們透過模擬實驗比較不同估計量的表現。第六 章為結論與未來值得探討的研究方向。

第二章文獻研讀─不完整資料型態簡介

在本章中,我們回顧幾種常見的不完整資料結構 (截切、競爭風險、半競爭風 險) 。我們所欲探討的問題,則是結合數種架構更為複雜的資料型態。

2.1 截切資料

令 Y 為感興趣事件的發生時間,當Y 的值唯有介於(AL,AR)中才有可能被觀 察到時,我們稱其受到了截切 (truncation)。左截切是當AR =∞的情形,右截 切則是當AL =0的情形。截切資料和一般設限 (censoring) 資料之不同處在於 被設限的變數仍包含部份的資訊,然而被截切的資料卻無法由所觀測到的變數中 獲取任何資訊。欲對Y 的分配做進一步推論,通常需要假設Y 與截切變數間彼此 獨立,這是避免所謂“不可辨識性"(un-identifiability) 的常用假設。

以下針對最常見的左截切資料(AL = AAR =∞),討論存活函數 Pr(Y > t) 的估計方法。在不失一般性下先排除設限情形,可觀察的資料包含

)}

,..., 1 ( ) ,

{(Yi Ai i = n ,且需滿足截切條件Yi > Ai。存活函數可以表示為風險函數 的連乘積:

) } Pr(

) ,

[ 1 Pr(

{ )

Pr(

+

− ∈

=

>

t

u Y u

du u u t Y

Y , (2.1)

其中風險函數λ2(u)滿足

) Pr(

)) ,

[ ) Pr(

2(

u Y

du u u du Y

u

+

= ∈

λ 。 (2.2)

當資料為完整時,風險函數機率λ2(u)du的估計量為

∑ ∑

=

=

= n

i i n

i

i u I Y u

Y I

1 1

) ( / )

( 。然

而若是資料為左截切,

∑ ∑

=

=

= n

i i n

i

i u I Y u

Y I

1 1

) ( / )

( 所估計的非λ2(u)du,而是

) , Pr(

) ), ,

[ Pr(

A Y u Y

A Y du u u Y

>

>

+

∈ 。 (2.3)

圖 2.1 提供了更詳細的說明。在未截切下,時間 u 的風險集合為

{

Y u

}

。圖 2.1

中橫虛線標示的部份為風險集合中因截切而無法觀察到的區域,橫實線所標示為

截切後可觀察到的區域即

{

Y ≥ ,u Y > A

}

。在此截切下的風險集合中,實際在 u 點 發生感興趣的事件的觀測值滿足

{

Y = ,u Y > A

}

。以上分析顯示若未調整風險集 合的定義,會發現 Y 值越大,越容易出現在集合

{

Y ≥ ,u Y > A

}

中。即使 A 與 Y

彼此獨立,以

∑ ∑

=

=

= n

i i n

i

i u I Y u

Y I

1 1

) ( / )

( 估計λ2(u)du仍有低估的問題,因為分子和 分母被截切的比例不同。

針對左截切資料,Lynden-Bell (1971) 修正了風險集合的定義,以去除截 切所造成的偏誤。修正的方向為針對風險集合做更進一步的截切,也就是把風險 集合修正為

{

Y ≥ ,u A<u

}

。在圖 2.1 中,修正後的風險集合為橫直線方格所標示 的區域。此時在 A 與 Y 彼此獨立的情形下,因為

{

Y = ,u A<u

}

{

Y ≥ ,u A<u

}

兩個集合受截切的比例是相同的,所以

∑ ∑

=

=

<

<

= n

i

i i

n

i

i

i u A u I Y u A u

Y I

1 1

) ,

( / ) ,

( 能

夠合理的估計λ2(u)du。此時Pr(Y > 的估計量可表示為 t)

} ) ,

(

) ,

( 1

{ ) (

1

1

=

=

<

<

=

=

t u

n

i

i i

n

i

i i

Y

u A u Y I

u A u Y I t

S 。 (2.4)

以上利用“進一步截切"的技巧雖巧妙的修正偏誤,卻也顯現另一個問題:

u<min

{

Ai,i=1,...,n

}

時,我們無法估計λ2(u)du。圖 2.2 顯示在

{

A i n

}

u<min i, =1,..., 時,沒有任何觀測值會落在所對應的風險集合中(以斜線表 A> (從未進入研究) Y

Y

A u

圖 2.1:截切資料觀測範圍

示)。這個問題對存活函數的估計所產生的影響可由以下的分解得見。令

)

個體可能經歷“發病",或是“死亡"兩種事件。令 X 代表發病時間,Y 代表死 亡時間,可知Y 是 X 的競爭風險,但 X 卻非Y 的競爭風險。以發病的例子而言,

發病時間 X 的定義是模糊的,因為部份研究個體可能至死都不會發病。這些終 生未發病的個體,我們通常假設X > ,但是避免定義 X 的值。 Y

針對多重事件的資料,在右設限下若只記錄第一個事件的資訊(包含“事件 發生的時間"與“事件的種類"),文獻稱之為競爭風險資料 (competing risks data)。令設限變數為 C,競爭風險資料所記錄到的變數為 ~, , )

(X δx δy ,其中 C

Y X X~ = ∧ ∧

、δx =I(XYC)、δy =I(YXC)。當δx =1時,X~ = X

; 當δy =1時,X~ =Y

;當δx =0且δy =0時,X~ =C

以下兩個函數經常被用於描述競爭風險資料:第一個是“特定原因之風險函 數"(the cause-specific hazard function):

dt

t Y t X dt t t t X

dt

) ,

| ) , [ limPr(

) (

1 0

≥ +

= ∈

λ

與 “累積發生函數"(the cumulative incidence function):

) ,

Pr(

)

1(t X t X Y

F = ≤ < 。

之後的論文方向會以 F1(t) 的估計為重點,以我們的例子來說F1(t)代表母體中 到 t 歲前會發生症的比例,其中X < 生前發病的條件必然成立。在第三章中我Y 們會回顧以無母數方法估計F1(t)=Pr(Xt,X <Y)的相關文獻。

2.3 半競爭風險資料

在我們感興趣地例子中,“死亡"並非發病的競爭風險,換言之兩個事件的 競爭關係並非雙向的。此時研究者可記錄的事件不只限於“第一個"發生的事 件,還能包含死亡這類具有“終結" (terminal) 特質的事件。當所記錄的變數 包含 ~, , )

~,

(X Y δx ηy ,其中Y~=YC

,ηy =I(YC),Fine et al.(2001)稱之為半 競爭風險資料 (semi-competing risks data)。

這種資料型態的特色是只能觀察到

{

(X,Y):0 X <Y <

}

的情況下,文獻中

探討半競爭風險資料的論文包含探討 X 之雙樣本檢定問題。Lin,Robins and Wei,1996;Chang,2000。探討(X,Y)的關聯性的論文則包含 Day et al.(1997)、

Fine et al.(2001)以及 Wang(2003)。由於競爭風險資料只紀錄第ㄧ個發生的事 件,半競爭風險資料比競爭風險資料多了關於終結事件的資訊,我們希望瞭解這 樣的訊息是否對累積發生函數F1(t)的估計更有幫助。在第三章將回顧 Peng and Fine (2006)的文章,他們發現在截切的條件下,半競爭風險資料確實比競爭風 險資料提供更多訊息,對估計F1(t)也更加精準。

第三章 文獻研讀─累積發生函數之估計

3.1 競爭風險架構

在論文中我們假設 X 代表發病時間,Y 代表死亡時間。在 2.2 小節中 我們以競爭風險架構 (competing risks framework) 描述發病和死亡的關係,並 提及論文的目標會鎖定於“累積發生函數"F1(t)=Pr(Xt,X <Y) 的估計。在 本章中,我們針對不同資料型態,回顧文獻所提出估計F1(t)的方法。在右設限 下,令設限變數為 C。競爭風險資料所記錄的變數為

C Y X X~ = ∧ ∧

、δx = I(XYC)、δc =I(CXY)、δy = 1−δx −δc時間變數 X~

代表第一個發生事件的發生時間,(δxyc)為第一個事件發生型態

(cause of failure) 的指標,δx =1代表最先發病、δy =1代表死亡時還未發病且 未被設限、δc =1代表還未觀察到發病或是死亡就被設限了。競爭風險架構下所 記錄的隨機樣本可以表示為 ~ , , )( 1,..., )}

{(Xi δxi δyi i= n

3.2 競爭風險資料下的估計方法

C =∞ 時,資料可以簡化為 {XiYi,∆i =I(XiYi) (i=1,...,n)}。此時 )

1(t

F 可用動差法估計

=

=

n

i

i i

i Y t n

X I

1

/ ) 1 ,

( 。然而當外來設限發生時,無法

得知部份個體的 ∆ 值。對於 i F1(t) 的估計,現有文獻多數考慮右設限的資料 )}

,..., 1 )(

,

~ ,

{(Xi δxi δyi i= n 。Chen, Chang and Wang (2006) 曾把文獻常用的方 法區分為三類,並證明這三個方法會得到一致的答案。我們在此摘要他們的結果。

文獻的第一個方向是先將F1(t)分解,個別估計後再代回。可將F1(t)表示為 F1(t)=Pr(Xt,X <Y)=

0tSXY(u1(u)du, (3.1) 其中SXY(u)=Pr(X >u,Y >u)=Pr(XY >u)。可以採用 Kaplan-Meier 方法估 計SX,Y(t),公式如下

∏ ∑

Kaplan-Meier 方法估計如下

致"(self-consistent) 方程式,以此建構估計量需要用進一步用數值方法求解。

經過一番整理可得以下更易操作的關係式:

代入 (3.2) SXY(t)的估計量後,以補差法求得之F1(t)估計量如下:

∏ ∑

切" (further truncation) 的技巧是用來修正截切造成的偏誤,但這個方法會捨 棄一些可用的資訊。在λ1(t)dtSXY(t)的估計中經過進一步的截切後所考慮的

過“人為截切" (artificially truncation) 的機制,只會用到那些“在 70 歲以前 進入樣本者"的資訊 (註: 如果有個人在 72 歲進入樣本時尚未發病且存活,

他的資訊不會被使用)。在下一節中 Peng & Fine (2006) 利用半競爭風險資料 中存活變數Y 的資訊以估計F1(t),過程中捨棄人為截切的技巧,因此可避免所 資料流失的缺點。

3.4 截切後的半競爭風險架構

Peng & Fine (2006) 仍利用分解的方法得到以下的等式 )

, Pr(

)

1(t X t X Y

F = ≤ <

dvdu v Y u Y X

t u

∫ ∫

v u

≤ >

=

=

= Pr( , ) , (3.9)

其中 )]Pr(XY = x,Y = y)=E[I(XY = x,Y = y 。他們發現F1(t)的估計可以利 用代入Pr(XY = x,Y = y)的無母數估計量,而後者的估計所需要的是半競爭風 險的資料。考慮設限下的半競爭風險資料為

)}

,..., 1 )(

, , ,

~,

~ ,

{(Xi Yi δxi ηyi Ai Ci i= n , 其中X~i = XiYiCi

Y~i =YiCi

、δxi =I(XiYiCi)、ηyi =I(YiCi),截 切的條件為Y~iAi

第一目標為估計 Pr(XY = x,Y = y)。在截切下可得

~ )

| 1

~ ,

~ ,

Pr(X = xY = yηy = YA ~ )

| ,

,

Pr(XY = xY = y YC YA

=

~ ) Pr(

) Pr(

) , Pr(

A Y

C y A y Y x Y X

=

=

= ∧ 。

調整以上等式可得

) , Pr(XY = x Y = y

) Pr(

~ ) Pr(

~ )

| 1

~ ,

~ , Pr(

C y A

A Y A Y y

Y x

X y

=

=

= = η

。(3.10)

下一目標是估計上式等號右邊的每個成員。欲估計Pr(AyC)可以先探討以下

關係: 依據(3.11)(3.12)的推導,(3.10)可以進一步表示為

)

上式右邊的每個成員皆可套用現成方法估計之,分述如下。可以用 Lynden-Bell 方法估計 SY(t)=Pr(Y >t):

的估計必須要在 y 很大時亦為合理。然而在當研究時間有限時,往往會發生較晚

⎪⎭

⎪⎬

⎪⎩

⎪⎨

⎧ − +

=

<

= +

+

=

(~ , ~ ~ , 1) ~ ( ) 1 ((, ))

~) (

~ )

~ ( ) 1

~ ( 2,

1

1 τ

τ τ η

τ

n T n

Y yi

i i i n

i n i

i T PF Y

C t S C

Y X t X Y I C

Y S t n

F 。(3.20)

以上依據半競爭風險所架構的估計量 ~ ( )

1 t

FPF 與(3.8)式依據競爭風險資料所架構

的 naïve 估計量 ˆ ( )

1 t

FPF 相比較,會發現 ˆ ( )

1 t

FPF 利用了人為截切,但是 ~ ( )

1 t

FPF

不需要這個條件。換言之, ~ ( )

1 t

FPF 可以更充分的善用每ㄧ筆觀察值。此外,根

據模擬試驗的結果, ~ ( )

1 t

FPF 估計的比 ˆ ( )

1 t

FPF 更為準確。

第四章 我們提出的估計量

在第三章中我們回顧了以無母數方法估計累積發生函數的現有文獻,其 中比較多的研究針對競爭風險資料,Peng and Fine (2006) 則是針對截切下的 半競爭風險資料,也是本論文的主要研究方向。我們希望把 Chen, Chang and Wang (2006) 論文探討的推論技巧 (“分解法"、“加權法"與“補差法"),

應用到受制於截切的半競爭風險資料結構,所提出的方法將與 Peng and Fine (2006) 提出的估計量做比較。

4.1 未截切資料

在 Peng & Fine (2006) 的論文中強調半競爭風險資料含有較多有用資 訊。我們第一個想探討的是此多餘資訊是如何對估計產生幫助? 如前所述累積發 生函數做以下的分解:

) ,

Pr(

)

1(t X t X Y

F = ≤ <

>

=

=

t u

u Y u

X , )

Pr(

=

=

=

t u

u Y

X , 1)

Pr( ,

其中∆=I(X <Y)。由此拆解可知F1(t)可以表示為(X ∧ Y,∆)的積分函數,這是 未設限下的競爭風險資料型態。另一種分解方法為

) ,

Pr(

)

1(t X t X Y

F = ≤ <

∫ ∫

≤ >

=

=

=

t u v u

dvdu v Y u

X , )

Pr(

dvdu v Y u Y X

t u

∫ ∫

v u

≤ >

=

=

= Pr( , ) 。

以上的表示法顯示F1(t)亦可以表示為(XY,Y)的積分函數,這是未設限下半競 爭風險資料可觀察到的變數。

先不考慮設限的情形,令競爭風險的樣本為 {(XiYi,∆i)(i=1,...,n)};半競 爭風險的樣本為{(XiYi,Yi)(i=1,...,n)}。可得

n

∏ ∑

=

[

( , , )Pr( , | , , )

]

表研究時間長度) 獨立,並利用 product-limit decomposition 和 artificial truncation 的概念,獲知

FA(t)

因此我們可以

=

將上式估計量與 Peng & Fine (2006) 所提出的半競爭風險估計量(原(3.20)式) 比較,Peng & Fine 在估計 A 和C的函數時,是估計兩個變數的聯合函數,而我

相關文件