• 沒有找到結果。

針對半競爭風險與截切資料估計累積發生函數

N/A
N/A
Protected

Academic year: 2021

Share "針對半競爭風險與截切資料估計累積發生函數"

Copied!
63
0
0

加載中.... (立即查看全文)

全文

(1)

國立交通大學

統計學研究所

碩 士 論 文

針對半競爭風險與截切資料

估計累積發生函數

Nonparametric Estimation of Cumulative Incidence Function

Based on Truncated Semi-Competing Risk Data

研 究 生:楊舒雯

指導教授:王維菁 教授

(2)

針對半競爭風險與截切資料

估計累積發生函數

Nonparametric Estimation of Cumulative Incidence Function

Based on Truncated Semi-Competing Risk Data

研 究 生:楊舒雯 Student:Shu-Wen Yang

指導教授:王維菁 教授 Advisor:Dr. Weijing Wang

國 立 交 通 大 學

統計學研究所

碩 士 論 文

A Thesis

Submitted to Institute of Statistics

College of Science

National Chiao Tung University

in Partial fulfillment of the Requirements

for the Degree of

Master

in

Statistics

June 2006

Hsinchu, Taiwan, Republic of China

中 華 民 國 九 十 五 年 六 月

(3)

針對半競爭風險與截切資料

估計累積發生函數

研究生:楊舒雯 指導教授:王維菁 教授

國立交通大學統計研究所

摘 要

本篇論文針對半競爭風險與截切資料探討累積發生函數的無母數估

計方法。發現文獻中已有 Peng & Fine (2006) 討論過這個問題,並

以“分解代入法"提出估計量。我們先分析競爭風險與半競爭風險資

料所提供訊息之差異,並探討截切限制對估計造成的影響,最後以

“加權修正偏誤"的方法提出新的無母數估計量。藉著電腦模擬實驗

我們比較兩種估計量的表現,並探討造成優劣之可能原因。

關鍵字:累積發生函數、無母數分析、發病時間、半競爭風險、截切、

加權法

(4)

Nonparametric Estimation of Cumulative Incidence Function

Based on Truncated Semi-Competing Risk Data

Student:Shu-Wen Yang Advisor:Dr. Weijing Wang

Institute of Statistics

National Chiao Tung University

Abstract

In this thesis, we consider nonparametric estimation of the

cumulative incidence function based on truncated semi-competing

risk data. Peng & Fine (2006) apply the idea of decomposition to

construct an estimator. Under a similar framework, we propose an

alternative weighting approach. The two estimators are compared

via simulations. The results show that our proposed estimator

performs better which is possibly due to the fact that we make

slightly stronger assumptions. We also investigate the difference

between the information given by competing risks data and that

given by semi-competing risks data.

Key words : cumulative incidence function 、 nonparametric

analysis、onset age、semi-competing risks、truncation、weighting

(5)

誌謝

時光匆匆過去,經歷許多成功與挫折,歡笑與悲傷,兩年的時間

讓自己茁壯許多,對未來也更能勇敢面對,而能擁有這些勇氣與能

力,首先必須感謝指導教授王維菁老師,因為她的耐心指導,她的真

誠對待,讓我不只在課業研究上學習許多專業知識,面對人生與生活

也有更多的體悟,真的非常感謝老師不辭辛苦地指導。同時也要感謝

口試委員洪慧念教授、陳珍信教授和張淑惠教授,於口試時不吝指教

並提供誠懇建議。更要感謝許秋婷學姊像姊姊一樣的照顧,在生活上

與課業上給予許多的教導與幫助。

在交大統研所兩年,學生老師、學長姐與同學間就像一個大家

庭,大家共同扶持協助,很高興能遇見妳們,謝謝大家。

家,永遠都是家,能擁有現在的一切都要感謝我的父母家人,因

為他們的辛苦工作,讓我可以開心地學習,因為他們的關心支持,讓

我勇敢面對困境,因為他們無私地付出,所以我幸福地成長。我愛你

們,親愛的家人。

舒雯

交通大學統計學研究所

民國九十五年六月

(6)

論文目錄

第一章 緒論 01

1.1 背景 01

1.2 Cache 資料 03

1.3 論文方向 05

第二章 文獻研讀 – 不完整資料型態之簡介 06

2.1 截切資料 06

2.2 競爭風險資料 10

2.3 半競爭風險資料 10

第三章 文獻研讀 - 累積發生函數之估計 12

3.1 競爭風險架構 12

3.2 競爭風險資料下的估計方法 12

3.3 截切後的競爭風險架構 15

3.4 截切後的半競爭風險架構 17

第四章 我們提出的估計量 21

4.1 未截切資料 21

4.2 競爭風險下的截切資料 23

4.3 半競爭風險下的截切資料 24

(7)

第五章 模擬實驗 28

5.1 資料生成方法 28

5.2 競爭風險資料之估計量比較 29

5.3 半競爭風險資料之估計量比較 29

第六章 結論 53

參考文獻與附錄

(8)

第一章 緒論

1.1 背景 我們由約翰霍普金斯大學 Dr. Peter P. Zandi 處獲得一筆調查“抗氧化劑 補充的使用與 Alzheimer 症的風險之間的關係"的資料,這個研究計劃的成員來 自美國數個大學與醫療中心。研究從 1995 年開始,針對美國猶他州 Cache 郡 65 歲以上的長久居民抽取樣本 5097 人,並紀錄當時是否得到 Dementia 以及補 充劑的使用情形。三年後(在 1998 到 2000 之間)再對這些參加者進行第二次診 斷,並紀錄此時是否罹患 Dementia 以及服用補充劑的情況。資料成員包含被抽 中的居民及其一等親,包含父母和兄弟姊妹在內的所有成員。 論文最初的動機是分析這筆資料,但是因為抽樣結構十分複雜,我們先定義 符號以建構資料型態。對於這個研究我們主要感興趣的變數是疾病的發病年齡, 以 X 表示。令壽命為 Y ,個體進入研究的年齡為 A ,研究結束(資料分析時)的 年齡C,令 B 表示個體進入研究期間的長度,所以C = A+B。下圖討論哪些情 形個體有可能進入樣本中,其中“×" 代表出生,“#" 代表 死亡。 ① × # ② × # ③ × # ④ × # ⑤ × # 1 A 研究時間長度 = B 1 Y C1 2 Y C2 2 A 3 Y 3 C 3 A 5 Y 5 C 5 A < 0 4 Y 4 C 4 0 A <

(9)

個體①: 研究開始前已死亡:Y1 < A1,且Y1 <C1. 個體②: 研究開始前已出生,研究結束前已死亡:Y2 > A2,且Y2 <C2. 個體③: 研究開始前已出生,研究結束尚未死亡:Y3 > A3Y3 >C3. 個體④: 研究開始尚未出生,在研究期間出生,但研究結束前已死亡:A4 <0, 4 4 A Y > ,Y4 <C4. 個體⑤: 研究開始尚未出生,,在研究期間出生,研究結束尚未死亡:A5 <0, 5 5 A Y > ,Y5 >C5. 我們發現所蒐集的樣本可能有以下的限制: 第一種可能的限制:研究開始時存活的人(A< )才有可能進入樣本中。這Y 包含兩種情形:若是A>0,代表研究開始時已出生並仍存活者才有機會進入樣 本,可以用"A< "表示取樣條件,此時①④⑤會被排除在樣本之外。若是 Y 0 < A ,但是A+B =C>0,代表研究開始時未出生,但是研究期間出生者才有 機會進入樣本,仍可用"A< "表示取樣條件,此時只有①會被排除。 Y 第二種可能的限制:只有0<C<Y 的人可進入樣本中,代表只有分析時是 存活狀態才能進入樣本中,此時①②④會被排除在樣本之外。但是若又加上 0 > A 的條件,①②④⑤都會被排除在樣本之外。 以上兩種資料都顯示,所觀察到的樣本經過“截切"(truncation),第一個 例子的截切條件為 A< ,第二個例子的截切條件為 Y 0<C <Y。而發病時間 X 又受到壽命Y 和研究結束時年齡C的右設限,也就是只有當分析時已經發病的個 體才有可能觀察到 X 的確切值。基於以上的截切的條件,可觀察到的變數可表 示為 (X~,Y~,δxy),其中X~ = XYCY~=YC,δx =I(X ≤(YC)), ) (Y C I y = ≤ η 。

(10)

1.2 Cache 資料 在原始資料中研究個體可以分為兩種:一為(遺傳疾病研究中家系的)淵源者 (proband),另一個體為親屬(relatives)。在美國猶他州 Cache 郡由 1995 年開 始進行的研究中,針對 65 歳以上的居民進行抽樣,這些被抽中者即為淵源者; 而淵源者的父母和兄弟姊妹就是親屬。 先敘述我們取得資料的原始碼,原資料中,"alive"代表 still

living,"lastage"代表 current age or age of death,"dementia"為 prevalent dementia status 的指標,"onsetage"則是 age of dementia。當我們把問題量 化後,就把 Cache 資料轉為所定義之符號。以下是變數的定義: (1) 令 ηy代表“是否仍存活"的指標函數,若 alive = 1,則ηy =0;反之, 當 alive = 0,則ηy =1。 (2) 令 Y~=lastage。 (3) 令 δx代表 “是否得 dementia”的指標函數,因此若 dementia = 0, 則δx =0;相反,當 dementia = 1,則δx =1。 (4) X~:若 δx =0,則 X~= "lastage"; 反之,當δx =1,X~= "onsetage"。 資料中並沒有紀錄個別個體進入研究的年齡紀錄,因為整個實驗追蹤時間為三 年,我們假設所有的個體都是在分析時的前三年即進入研究,並令B=3, 3 − = C A 。以下是變數轉換的實例,我們挑出兩個個體詳述其變數的登錄。 原始碼:

id Sex Alive Last age dementia onset age 1 2 1 90 1 89 3 2 1 82 0 . 轉化新符號的登錄方式:

(11)

X δx Y ηy A B C 89 1 90 0 87 3 90 82 0 82 0 79 3 82 對上述兩個個體做簡單說明:個體“id = 1",性別為女性,分析時是存活狀態, 當時年齡 90 歲,在 89 歳得到 dementia。可以推得 X~= onsetage =89,δx =1, 90 ~ = = C Y ,ηy =0;假設研究一開始就進入,則A=90−3=87。個體“id = 3", 性別為女性,分析時是存活狀態,當時年齡 82 歲,但是尚未得到 dementia。可 以推得 X~= lastage =82,δx =0,Y~= C=82,ηy =0;若假設研究一開始就進 入,則A=82−3=79。 在我們所獲得的資料中,淵源者並不包含“在分析前已死亡者"。換言之所 有的淵源者都必須符合0<C<Y 的截切條件。這個限制使得對淵源者來說 = Y~ lastage = C,而且實際觀察到的Pr(ηy =1)為 0。前述(X~,δx,Y~,ηy,C)的資料 結構,在 0<C<Y 的條件下,只能觀察到 (X~,Cx)。在 5092 個淵源者中, 355 ) 1 ( 5092 1 = =

= i xi I δ ,換言之,只有 7%左右的觀測值已觀察到 dementia 的發生。 這個比例如此小,部份原因可能來自於研究時間太短以致設限情形嚴重。 將研究問題量化後我們發現要直接分析這筆資料有相當的困難,因為所牽涉 到的統計推論問題,相當具有挑戰性且可以參考的現有文獻十分有限。我們感興 趣的變數為發病時間 X ,但是其受到截切和設限的條件又都與死亡時間 Y 有 關,而同一人身上的發病與死亡又是相互關聯的變數。這麼複雜的取樣方式實難 以套用現有文獻分析之。然而這個挑戰也提供我們新的研究方向,我們希望自行 發展出合適的推論方法以分析類似結構的資料。

(12)

1.3 論文方向 我們決定把論文方向由資料分析調整為方法論的探討。希望針對 ) , , ~ , , ~ (X δx Y ηy C 的資料型態提出可行的推論方法,藉此可以看出Y 的資訊在其中 所扮演的角色,如果可能,未來請資料提供者再分享更完整的資料。 第二章的內容主要為文獻回顧,內容包含“競爭風險資料"與“半競爭風險 資料"與“截切資料" 的介紹。在第三章中我們把具體的研究目標鎖定為 ) , Pr( ) ( 1 t X t X Y F = ≤ < 的估計,這個函數描述了母體發病年齡的分配函數。我們 回顧了現有文獻的推論方法。早期的研究主要針對右設限資料,Chen, Chang and Wang (2006) 的論文中探討三種推論技巧 (分解法 decomposition、加權 法 weighting 以及補差法 imputation),並證明這三種不同方法可得相同的答 案。我們在第三章中並摘錄了 Peng & Fine (2006) 的結果,他們亦是針對半競 爭風險與截切資料探討累積發生函數的估計。我們在網路上獲得 Peng & Fine 文章的檔案,並發現這篇文章已被 Biometrika 期刊接受並會在近期發表。雖然 我們感興趣的問題已經有學者提出答案,我們在第四章中仍然以另一種角度建構 新的估計量。在 Chen, Chang and Wang (2006) 的架構下,Peng & Fine (2006) 的做法比較像是利用分解法(decomposition) ,而我們的方法則是用加權

(weighting) 的概念。在第五章我們透過模擬實驗比較不同估計量的表現。第六 章為結論與未來值得探討的研究方向。

(13)

第二章文獻研讀─不完整資料型態簡介

在本章中,我們回顧幾種常見的不完整資料結構 (截切、競爭風險、半競爭風 險) 。我們所欲探討的問題,則是結合數種架構更為複雜的資料型態。 2.1 截切資料 令 Y 為感興趣事件的發生時間,當Y 的值唯有介於(AL,AR)中才有可能被觀 察到時,我們稱其受到了截切 (truncation)。左截切是當AR =∞的情形,右截 切則是當AL =0的情形。截切資料和一般設限 (censoring) 資料之不同處在於 被設限的變數仍包含部份的資訊,然而被截切的資料卻無法由所觀測到的變數中 獲取任何資訊。欲對Y 的分配做進一步推論,通常需要假設Y 與截切變數間彼此 獨立,這是避免所謂“不可辨識性"(un-identifiability) 的常用假設。 以下針對最常見的左截切資料(AL = AAR =∞),討論存活函數 Pr(Y > t) 的估計方法。在不失一般性下先排除設限情形,可觀察的資料包含 )} ,..., 1 ( ) , {(Yi Ai i = n ,且需滿足截切條件Yi > Ai。存活函數可以表示為風險函數 的連乘積: } ) Pr( ) , [ Pr( 1 { ) Pr(

≤ ≥ + ∈ − = > t u Y u du u u Y t Y , (2.1) 其中風險函數λ2(u)滿足 ) Pr( )) , [ Pr( ) ( 2 u Y du u u Y du u ≥ + ∈ = λ 。 (2.2) 當資料為完整時,風險函數機率λ2(u)du的估計量為

= = ≥ = n i i n i i u I Y u Y I 1 1 ) ( / ) ( 。然 而若是資料為左截切,

= = ≥ = n i i n i i u I Y u Y I 1 1 ) ( / ) ( 所估計的非λ2(u)du,而是 ) , Pr( ) ), , [ Pr( A Y u Y A Y du u u Y > ≥ > + ∈ 。 (2.3) 圖 2.1 提供了更詳細的說明。在未截切下,時間 u 的風險集合為

{

Yu

}

。圖 2.1 中橫虛線標示的部份為風險集合中因截切而無法觀察到的區域,橫實線所標示為

(14)

截切後可觀察到的區域即

{

Y ≥ ,u Y > A

}

。在此截切下的風險集合中,實際在 u 點 發生感興趣的事件的觀測值滿足

{

Y = ,u Y > A

}

。以上分析顯示若未調整風險集 合的定義,會發現 Y 值越大,越容易出現在集合

{

Y ≥ ,u Y > A

}

中。即使 A 與 Y 彼此獨立,以

= = ≥ = n i i n i i u I Y u Y I 1 1 ) ( / ) ( 估計λ2(u)du仍有低估的問題,因為分子和 分母被截切的比例不同。 針對左截切資料,Lynden-Bell (1971) 修正了風險集合的定義,以去除截 切所造成的偏誤。修正的方向為針對風險集合做更進一步的截切,也就是把風險 集合修正為

{

Y ≥ ,u A<u

}

。在圖 2.1 中,修正後的風險集合為橫直線方格所標示 的區域。此時在 A 與 Y 彼此獨立的情形下,因為

{

Y = ,u A<u

}

{

Y ≥ ,u A<u

}

兩個集合受截切的比例是相同的,所以

= = < ≥ < = n i i i n i i i u A u I Y u A u Y I 1 1 ) , ( / ) , ( 能 夠合理的估計λ2(u)du。此時Pr(Y > 的估計量可表示為 t) } ) , ( ) , ( 1 { ) ( 1 1

≤ = = < ≥ < = − = t u n i i i n i i i Y u A u Y I u A u Y I t S 。 (2.4) 以上利用“進一步截切"的技巧雖巧妙的修正偏誤,卻也顯現另一個問題: 當 u<min

{

Ai,i=1,...,n

}

時,我們無法估計λ2(u)du。圖 2.2 顯示在

{

A i n

}

u<min i, =1,..., 時,沒有任何觀測值會落在所對應的風險集合中(以斜線表 A> (從未進入研究) Y Y A u 圖 2.1:截切資料觀測範圍

(15)

示)。這個問題對存活函數的估計所產生的影響可由以下的分解得見。令

{

A i n

}

a≥min i, =1,..., ,當t > 時 a

(

Y t Y a

)

a Y t Y > )=Pr( > )Pr > | > Pr(

≤ ≤ ≤ ≤ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ≥ + ∈ − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ≥ + ∈ − = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ≥ + ∈ − = t u a a u t u u Y du u u Y u Y du u u Y u Y du u u Y . ) Pr( )) , [ Pr( 1 ) Pr( )) , [ Pr( 1 ) Pr( )) , [ Pr( 1 為避免估計Pr(Y >a)可能會出現前述之問題,退而求其次可得 ) | Pr( ) (t Y t Y a SYa = > ≥ 的估計量為 } ) , ( ) , ( 1 { ) ( 1 1

≤ ≤ = = < ≥ < = − = t u a n i i i n i i i a Y u A u Y I u A u Y I t S 。 (2.5) 在考慮右設限下,假設設限變數為 C,其隨機樣本為 (C1,...,Cn)。可觀察 的資料為 {(Y~i,Aiyi)(i=1,...,n)},其中 Y~i =YiCi,δyi =I(YiCi)。此樣本 受制於截切條件Yi > Ai ~ ,也就是當 Yi > AiCi > ,才可能被觀察到。當 Ai C iY 相互獨立時,i I Y u A u n n i i yi i , 1, )/ ~ ( 1

= < = = δ 可以合理的估計 Y A 2 2 3 3 minAi 圖 2.2:截切資料風險集合

(16)

) , Pr( )) , [ Pr(Yu u+du C >u A<un u A u Y I n i i i , )/ ~ ( 1

= < ≥ 可以合理的估計 ) , Pr( )) , [ Pr(Yu u+du C >u A<u 。 也因此當 a≥min

{

Ai,i=1,...,n

}

SYa(t) 的估計量由(2.5)修正為 } ) , ~ ( ) , 1 , ~ ( 1 { ) ( ˆ 1 1

≤ ≤ = = < ≥ < = = − = t u a n i i i n i i yi i a Y u A u Y I u A u Y I t S δ 。 (2.6)

Klein and Moeschberger 一書 (2002) 整理了估計量SˆYa(t)的理論性質。當

Y 與截切變數 A 間彼此獨立時, Y 的風險機率可表示為

(

)

(

)

(

(

Y y

)

)

y Y A Y a A y Y A Y a A y Y ≥ = = > = ≥ > = = Pr Pr , | Pr , | Pr 。 此時 SˆYa(t)為SY(t)的 nonparametric MLE。雖然SˆYa(t)具有理想的大樣本性質, 在有限樣本時靠近邊界時間的估計卻會出現不穩定的現象。問題出在風險集合個 數的計算。沒有經人工截切的風險集合個數為

= ≥ = n i i u Y I u R 1 ) ~ ( ) ( ,當 u 遞增時 ) (u R 會遞減,因此估計的不穩定出現在大的時間點。經人工截切的風險集合個 數為

= ≤ ≥ = n i i i u A u Y I u R 1 ) , ~ ( ) ( ,當 u 遞增時,R(u)會遞減,但R(u)卻不是呈現 單調變化,並且在 u 很小或是很大時R(u)→0,此時估計量SˆYa(t)在頭尾兩端階 會有不穩定的問題。Lai & Ying (1991) 建議做以下的修正:

≤ = ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ < < ≥ < = = − = t u n i i i i i i yi i Y I I Y u A u cn u A u Y I u A u Y I t S δ α 1 ) , ~ ( ) , ~ ( ) , 1 , ~ ( 1 ) ( ~ , 其中c>0,0<α <1。修正後的估計量排除了分母太小的可能性,在大樣本時 與SY(t)有相同的近似分配。Sa(t) Pr(Y t|Y a) Y = > ≥ 的估計亦可做相同的調整。 2.2 競爭風險資料 許多醫學研究,個體往往歷經多次或是多種事件。在我們考慮的例子中研究

(17)

個體可能經歷“發病",或是“死亡"兩種事件。令 X 代表發病時間,Y 代表死 亡時間,可知Y 是 X 的競爭風險,但 X 卻非Y 的競爭風險。以發病的例子而言, 發病時間 X 的定義是模糊的,因為部份研究個體可能至死都不會發病。這些終 生未發病的個體,我們通常假設X > ,但是避免定義 X 的值。 Y 針對多重事件的資料,在右設限下若只記錄第一個事件的資訊(包含“事件 發生的時間"與“事件的種類"),文獻稱之為競爭風險資料 (competing risks data)。令設限變數為 C,競爭風險資料所記錄到的變數為(X~,δxy),其中 C Y X X~ = ∧ ∧ 、δx =I(XYC)、δy =I(YXC)。當δx =1時,X~ = X; 當δy =1時,X~ =Y;當δx =0且δy =0時,X~ =C。 以下兩個函數經常被用於描述競爭風險資料:第一個是“特定原因之風險函 數"(the cause-specific hazard function):

dt t Y t X dt t t X t dt ) , | ) , [ Pr( lim ) ( 0 1 ≥ ≥ + ∈ = → λ ,

與 “累積發生函數"(the cumulative incidence function):

) , Pr( ) ( 1 t X t X Y F = ≤ < 。 之後的論文方向會以 F1(t) 的估計為重點,以我們的例子來說F1(t)代表母體中 到 t 歲前會發生症的比例,其中X < 生前發病的條件必然成立。在第三章中我Y 們會回顧以無母數方法估計F1(t)=Pr(Xt,X <Y)的相關文獻。 2.3 半競爭風險資料 在我們感興趣地例子中,“死亡"並非發病的競爭風險,換言之兩個事件的 競爭關係並非雙向的。此時研究者可記錄的事件不只限於“第一個"發生的事 件,還能包含死亡這類具有“終結" (terminal) 特質的事件。當所記錄的變數 包含(X~,Y~,δxy),其中Y~=YC,ηy =I(YC),Fine et al.(2001)稱之為半 競爭風險資料 (semi-competing risks data)。

(18)

這種資料型態的特色是只能觀察到

{

(X,Y):0≤ X <Y <∞

}

的情況下,文獻中 探討半競爭風險資料的論文包含探討 X 之雙樣本檢定問題。Lin,Robins and Wei,1996;Chang,2000。探討(X,Y)的關聯性的論文則包含 Day et al.(1997)、 Fine et al.(2001)以及 Wang(2003)。由於競爭風險資料只紀錄第ㄧ個發生的事 件,半競爭風險資料比競爭風險資料多了關於終結事件的資訊,我們希望瞭解這 樣的訊息是否對累積發生函數F1(t)的估計更有幫助。在第三章將回顧 Peng and

Fine (2006)的文章,他們發現在截切的條件下,半競爭風險資料確實比競爭風 險資料提供更多訊息,對估計F1(t)也更加精準。

(19)

第三章 文獻研讀─累積發生函數之估計

3.1 競爭風險架構

在論文中我們假設 X 代表發病時間,Y 代表死亡時間。在 2.2 小節中 我們以競爭風險架構 (competing risks framework) 描述發病和死亡的關係,並 提及論文的目標會鎖定於“累積發生函數"F1(t)=Pr(Xt,X <Y) 的估計。在 本章中,我們針對不同資料型態,回顧文獻所提出估計F1(t)的方法。在右設限 下,令設限變數為 C。競爭風險資料所記錄的變數為 C Y X X~ = ∧ ∧ 、δx = I(XYC)、δc =I(CXY)、δy = 1−δx −δc時間變數 X~代表第一個發生事件的發生時間,(δxyc)為第一個事件發生型態 (cause of failure) 的指標,δx =1代表最先發病、δy =1代表死亡時還未發病且 未被設限、δc =1代表還未觀察到發病或是死亡就被設限了。競爭風險架構下所 記錄的隨機樣本可以表示為{(X~ixiyi)(i=1,...,n)}。 3.2 競爭風險資料下的估計方法 C =∞ 時,資料可以簡化為 {XiYi,∆i =I(XiYi) (i=1,...,n)}。此時 ) ( 1 t F 可用動差法估計

= = ∆ ≤ ∧ n i i i i Y t n X I 1 / ) 1 , ( 。然而當外來設限發生時,無法 得知部份個體的 ∆ 值。對於 i F1(t) 的估計,現有文獻多數考慮右設限的資料 )} ,..., 1 )( , , ~

{(Xi δxi δyi i= n 。Chen, Chang and Wang (2006) 曾把文獻常用的方 法區分為三類,並證明這三個方法會得到一致的答案。我們在此摘要他們的結果。 文獻的第一個方向是先將F1(t)分解,個別估計後再代回。可將F1(t)表示為 F1(t)=Pr(Xt,X <Y)=

tSXY uu du 0 ( )λ1( ) , (3.1) 其中SXY(u)=Pr(X >u,Y >u)=Pr(XY >u)。可以採用 Kaplan-Meier 方法估 計SX,Y(t),公式如下

(20)

≤ = = ∧ ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ≥ = + = − = t u n i i n i yi xi i Y X u X I u X I t S 1 1 ) ~ ( ) 1 , ~ ( 1 ) ( ˆ δ δ 。 (3.2) 特定風險函數λ1(u)du的估計量為

= = ≥ = = n i n i i xi i u I X u X I 1 1 ) ~ ( / ) 1 , ~ ( δ 。 利用“代 入" (plug-in) 的原則,F1(t)的估計量可以表示為

≤ = = < = = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ≥ = = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ≥ = + = − t u n i i n i xi i u k n i i n i yi xi i u X I u X I k X I k X I 1 1 1 1 ) ~ ( ) 1 , ~ ( ) ~ ( ) 1 , ~ ( 1 δ δ δ 。 (3.3) 第二個方向是利用所謂“加權"(weighting) 的概念以修正因設限所造成 的偏誤。令感興趣的事件為I(X =u,X <Y),但設限下只能觀察到 ) 1 , ~ (X =u x = I δ 。然而以 I(X~ =ux =1) 做為 I(X =u,X <Y) 的代理者 (proxy) 是有偏誤的。在假設C與(X,Y)獨立的情形下,可推得

[

I X u X Y

]

E

[

I X u Y u C u X Y

]

E , x 1)| , ( , , )| , ~ ( = δ = = = ≥ ≥ =I(X =u,Yu)SC(u−), 其中SC(t)=Pr(C>t),且SC(t−)=Pr(Ct)。我們可以把SC(u−)視為偏誤的比 例,透過加權的調整可發現 ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − = = = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = = − X Y u S u X I E E u S u X I E C x C Y X C x , | ) ( ) 1 , ~ ( ) ( ) 1 , ~ ( , δ δ ⎦ ⎤ ⎢ ⎣ ⎡ − − ≥ = = X Y u S u S u Y u X I E C C Y X )| , ) ( ) ( ) , ( , =Pr(X =u,Yu)。 以上推導顯示 ) ( ) 1 , ~ ( − = = u S u X I C x δ 與I(X =u,X <Y) 有相同的一階動差,均為 ) , Pr(X =u Y >u ,前者仍可以利用動差法估計之。因為SC(t)未知,可以用 Kaplan-Meier 方法估計如下

(21)

≤ = = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ≥ = = = − = t u n i i n i yi xi i C u X I u X I t S 1 1 ) ~ ( ) 0 , 0 , ~ ( 1 ) ( ˆ δ δ 。 (3.4) 以加權法所得F1(t)的估計量為

∫ ∑

= = = ≤ = − = = n i C i xi i t u n i C xi i X S t X I n u S n u X I 1 1 ) ~ ( ˆ ) 1 , ~ ( 1 ) ( ˆ ) 1 , ~ ( δ δ 。 (3.5) 第三個方向則是以“補差"(imputation) 的方式來填補因為設限所造成的 訊息缺失。在給定觀察值(X~ixiyi)下,感興趣的變數I(Xi =u,Yi >u)的條件期 望值可表示為 E

[

I(Xi =u,Yi >u)|X~ixiyi

]

=I(X~i=uxi =1) ) 0 , 0 , ~ ( < = = +I Xi u δxi δyi , 0, 0) ~ , ~ | , Pr( = > < = = × Xi u Yi u Xi Xi u δxi δyi , 其中 ) 0 , 0 , ~ , ~ | , Pr(Xi =u Yi >u Xi Xi <u δxi = δyi = ) ~ ( ) , Pr( i Y X i i X S u Y u X ∧ > = = 。 透過期望值的操作可發現 ) , Pr(Xi =u Yi >u =E

[

E

[

I(Xi =u,Yi >u)|X~ixiyi

]

]

=E

[

I(X~i =uxi =1)

]

⎦ ⎤ ⎢ ⎣ ⎡ = > = = < + ∧ ) ~ ( ) , Pr( ) 0 , 0 , ~ ( i Y X i i yi xi i X S u Y u X u X I E δ δ 。 以上等式左右兩邊都牽涉到 Pr(Xi =u,Yi >u),形成所謂“自我一 致"(self-consistent) 方程式,以此建構估計量需要用進一步用數值方法求解。 經過一番整理可得以下更易操作的關係式: ) , Pr(Xi =u Yi >u

[

[

]

]

) ~ ( / ) 0 , 0 , ~ ( 1 ) 1 , ~ ( ,Y i X yi xi i xi i X S u X I E u X I E = = < − = = = δ δ δ 。

(22)

代入 (3.2) SXY(t)的估計量後,以補差法求得之F1(t)估計量如下:

≤ = = = = < − = = t u n i i Y X yi xi i n i xi i X S u X I n u X I 1 , 1 ) ~ ( ˆ / ) 0 , 0 , ~ ( ) 1 , ~ ( δ δ δ 。 (3.6)

Chen, Chang and Wang (2006) 證明 (3.3) (3.5) (3.6) 的公式相等,也就是 三種方法可以得到一致的答案。

3.3 截切後的競爭風險架構

在本節中,我們所討論的競爭風險資料為截切後的樣本。這個問題始出現在 Peng & Fine (2006) 的論文中。我們依自己的架構陳述問題,摘錄 Peng & Fine 已有的結果,後續會提出新的方法做為比較。 為了簡化問題,我們先暫時不考慮設限的影響,也就是令C =∞。令 X 為發 病年齡,Y 為死亡年齡, A 為進入研究的年齡。未截切時可觀察到(X ∧ Y,∆), 若截切條件為XYA,代表進入樣本時個體必須是存活且尚未發病的狀態。 資料可表示為 } ), ( , {XiYii = I XiYi Ai (i=1,...,n), 但是受限於XiYAi。當 (X,Y)⊥ A 時,可得 ) | 1 ), , [ Pr( ) ( 1 t dt = XYt t+dt ∆= XYt λ ) , , | 1 ), , [ Pr(XYt t+dt ∆= XYt XYA A<t = ; } ) Pr( ) Pr( 1 { ) Pr( ) (

≤ ∧ = ∧ − = > ∧ = t u Y X u Y X u Y X t Y X t S } ) , | Pr( ) , | Pr( 1 {

≤ ∧ ≥ ∧ ≥ < < ≥ ∧ = ∧ − = t u X Y u X Y A A u u A A Y X u Y X 。 因此λ1(t)dtSXY(t)的估計量分別調整為

= = < ≥ ∧ < = ∆ = ∧ n i i i i n i i i i i t A t Y X I t A t Y X I 1 1 ) , ( ) , 1 , ( ,

(23)

≤ = = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ≥ ∧ = ∧ − t u n i i i n i i i u Y X I u Y X I 1 1 ) ( ) ( 1 。 再考慮設限的影響,截切的條件可表示為XYC = X~ ≥ A。也就是個體必須 是存活、尚未發病、且突破潛在的設限因素影響才得以進入樣本。所觀察到的資 料可表示為 )} ,..., 1 )( , , , ~ {(Xi δxi δyi Ai i= n , 其中 XiAi ~ 。風險函數λ1(t)dt的估計量可以表示成

= = ≤ ≥ ≤ = = n i i i n i i xi i t A t X I t A i t X I 1 1 ) , ~ ( ) , , ~ ( δ ; ) (t SXY 則可以下式 Kaplan-Meier 的方法估計:

≤ = = ∧ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ≤ ≥ ≤ = + = − = t u n i i i n i i yi xi i T Y X u A u X I u A u X I t S 1 1 ) , ~ ( ) , 1 , ~ ( 1 ) ( ˆ δ δ 。 (3.7) 將以上兩估計量分別代入(3.1)式,可以得到F1(t)的估計量為

∑ ∏

≤ < = = = = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ≤ ≥ ≤ = = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ≤ ≥ ≤ = + = − = t u s u n i i i n i i xi i n i i i n i i yi xi i PN u A u X I u A u X I s A s X I s A s X I t F 1 1 1 1 1 ) , ~ ( ) , 1 , ~ ( ) , ~ ( ) , 1 , ~ ( 1 ) ( ˆ δ δ δ (3.8)

Peng & Fine (2006) 文章將 (3.8) 的估計量稱為 “naïve estimator” ,他 們認為此估計方法雖然是合理的,但是卻未能利用到更多的資訊。“進一步的截 切" (further truncation) 的技巧是用來修正截切造成的偏誤,但這個方法會捨 棄一些可用的資訊。在λ1(t)dtSXY(t)的估計中經過進一步的截切後所考慮的 風險集合包含滿足 X >u,Y >u,A<u,Y > A 的觀測值,而將資料中未符合 A Y u A u Y u X > , > , > , > 者捨棄。假設我們要探討在年齡 u = 70 的發病風險, 直覺上樣本中在 70 歲時尚未發病和仍存活的人應該進入風險集合裏,但是透

(24)

過“人為截切" (artificially truncation) 的機制,只會用到那些“在 70 歲以前 進入樣本者"的資訊 (註: 如果有個人在 72 歲進入樣本時尚未發病且存活, 他的資訊不會被使用)。在下一節中 Peng & Fine (2006) 利用半競爭風險資料 中存活變數Y 的資訊以估計F1(t),過程中捨棄人為截切的技巧,因此可避免所

資料流失的缺點。

3.4 截切後的半競爭風險架構

Peng & Fine (2006) 仍利用分解的方法得到以下的等式

) , Pr( ) ( 1 t X t X Y F = ≤ < dvdu v Y u Y X t u

∫ ∫

≤ >v u = = ∧ = Pr( , ) , (3.9) 其中 )]Pr(XY = x,Y = y)=E[I(XY = x,Y = y 。他們發現F1(t)的估計可以利 用代入Pr(XY = x,Y = y)的無母數估計量,而後者的估計所需要的是半競爭風 險的資料。考慮設限下的半競爭風險資料為 )} ,..., 1 )( , , , , ~ , ~ {(Xi Yi δxi ηyi Ai Ci i= n , 其中X~i = XiYiCiY~i =YiCi、δxi =I(XiYiCi)、ηyi =I(YiCi),截 切的條件為YiAi ~ 。 第一目標為估計 Pr(XY = x,Y = y)。在截切下可得 ) ~ | 1 , ~ , ~ Pr(X = xY = yηy = YA =Pr(XY = x,Y = y,YC|Y~≥ A) ) ~ Pr( ) Pr( ) , Pr( A Y C y A y Y x Y X ≥ ≤ ≤ = = ∧ = 。 調整以上等式可得 ) , Pr(XY = x Y = y ) Pr( ) ~ Pr( ) ~ | 1 , ~ , ~ Pr( C y A A Y A Y y Y x X y ≤ ≤ ≥ ≥ = = = = η 。(3.10) 下一目標是估計上式等號右邊的每個成員。欲估計Pr(AyC)可以先探討以下

(25)

關係: ) ~ | ~ Pr(AyY YA ) ~ Pr( ) , Pr( A Y Y y A C y A ≥ ≤ ≤ ≤ ≤ = ) ~ Pr( ) , Pr( A Y Y y C y A ≥ ≤ ≤ ≤ = Pr( ) ) ~ Pr( ) Pr( y Y A Y C y A ≥ ≤ ≤ = , (3.11) 其中 ) ( ) ~ | ~ Pr( ) Pr( ) ~ | ~ Pr( ) ~ Pr( ) Pr( − ≥ ≤ ≤ = ≥ ≥ ≤ ≤ = ≥ ≤ ≤ y S A Y Y y A y Y A Y Y y A A Y C y A Y 。 (3.12) 依據(3.11)(3.12)的推導,(3.10)可以進一步表示為 ) , Pr(XY = x Y = y ) Pr( ) ~ Pr( ) ~ | 1 , ~ , ~ Pr( C y A A Y A Y y Y x X y ≤ ≤ ≥ ≥ = = = = η ) ~ | ~ Pr( ) ( ) ~ | 1 , ~ , ~ Pr( A Y Y y A y S A Y y Y x X Y y ≥ ≤ ≤ − ≥ = = = = η 。 上式右邊的每個成員皆可套用現成方法估計之,分述如下。可以用 Lynden-Bell 方法估計 SY(t)=Pr(Y >t):

≤ = = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ≤ ≤ = = − = y Y n j j i j n j yi i j T Y i I A Y Y Y Y I y S ~ 1 1 ) ~ ~ ( ) 1 , ~ ~ ( 1 ) ( ~ η ; (3.13) ) ~ | ~ Pr(AyY AY 的估計量為

= ≤ ≤ = n i i i n I A y Y n y C 1 ) ~ ( 1 ) ( ; (3.14) ) ~ | 1 , ~ , ~ Pr(X = xY = yηy = YA 的估計量為

= = = = = n i yi i i n I X xY y n dy dx F 1 * ) 1 , ~ , ~ ( 1 ) , ( η 。 (3.15) 綜合以上(3.13)-(3.15)的推導依代入的原則可得Pr(Xt,X <Y)的估計量 ) 1 , ~ ~ , ~ ( ) ~ ( ) ~ ( ~ 1 ) , ( ) ( ) ( ~ 1 0 * =

≤ < =

∫ ∫

= − ∞ yi i i i n i n i i T Y t x n n T Y Y X t X I Y C Y S n dy dx F y C y S η 。 (3.16) 估計式 (3.16) 中牽涉積分到無窮大的運算,也就是對Pr(XY = x,Y = y)

(26)

的估計必須要在 y 很大時亦為合理。然而在當研究時間有限時,往往會發生較晚 的發病時間且長壽的病人會受到設限。當變數C的上界比變數X ∧ 來得短時,Y

因為資訊不足使得估計Pr(XY = x,Y = y)的尾端有實質上的困難。對此問題 Peng & Fine (2006) 提出修正的方法。他們先選取一常數 τ 滿足

} 0 ) ~ Pr( : { sup > > ≤ ≤ t X t t t τ , 並將Pr(Xt,X <Y)分成Pr(Xt,X <Y ≤τ)和Pr(X ≤ Yt, >τ)兩部份。第一部 份 Pr(Xt,X <Y ≤τ) 內層積分範圍只到 τ ,可用以下估計量 ) 1 , ~ ~ , ~ ( ) ~ ( ) ~ ( ~ 1 1 = ≤ < ≤

= − yi i i i n i n i i T Y Y X t X I Y C Y S n τ η 。 第二部份可以繼續拆解為 ) , Pr( ) Pr( ) , Pr(Xt Y >τ = Y >τ − X >t Y >τ 。 (3.17) 他們利用以下關係 ) ~ | ~ Pr( ) ~ | ~ , ~ Pr( ) | Pr( Y A Y y A Y A Y y A x X y Y x X ≤ < ≤ ≤ < ≤ > = > > , 推導出 ) ~ | ~ Pr( ) ~ | ~ , Pr( ) ( ) , Pr( Y A Y y A Y A Y y A x X y S y Y x X Y ≤ < ≤ ≤ < ≤ > = > > 。 (3.18) 將 (3.18) 代入 (3.17) 中,可得 )} , Pr( ) Pr( ) , Pr(Xt Y >τ = Y >τ − X >t Y >τ } ) ~ | ~ Pr( ) ~ | ~ , Pr( 1 ){ ( Y A Y A Y A Y A t X SY ≤ < ≤ ≤ < ≤ > − = τ τ τ , (3.19) 其對應的估計量為 ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ − + + ) ( ) , ( 1 ) ( ~ 2, τ τ τ n n T Y C t C S , 其中

= ≤ ≤ > = n i i i i n I X x A y Y n y x C 1 , 2 ) ~ , ~ ( 1 ) , ( 。綜合以上結果,他們建議將 ) , Pr(Xt X <Y 的估計量調整為

(27)

⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ − + = ≤ < ≤ = + + = −

(~ , ~ ~ , 1) ~ ( ) 1 ((, )) ) ~ ( ) ~ ( ~ 1 ) ( ~ 2, 1 1 τ τ τ η τ n n T Y yi i i i n i n i i T Y PF C t C S Y X t X I Y C Y S n t F 。(3.20) 以上依據半競爭風險所架構的估計量F~1PF(t)與(3.8)式依據競爭風險資料所架構 的 naïve 估計量Fˆ1PF(t)相比較,會發現Fˆ1PF(t)利用了人為截切,但是F~1PF(t)卻 不需要這個條件。換言之,F~1PF(t)可以更充分的善用每ㄧ筆觀察值。此外,根 據模擬試驗的結果,F~1PF(t)估計的比Fˆ1PF(t)更為準確。

(28)

第四章 我們提出的估計量

在第三章中我們回顧了以無母數方法估計累積發生函數的現有文獻,其 中比較多的研究針對競爭風險資料,Peng and Fine (2006) 則是針對截切下的 半競爭風險資料,也是本論文的主要研究方向。我們希望把 Chen, Chang and Wang (2006) 論文探討的推論技巧 (“分解法"、“加權法"與“補差法"), 應用到受制於截切的半競爭風險資料結構,所提出的方法將與 Peng and Fine (2006) 提出的估計量做比較。

4.1 未截切資料

在 Peng & Fine (2006) 的論文中強調半競爭風險資料含有較多有用資 訊。我們第一個想探討的是此多餘資訊是如何對估計產生幫助? 如前所述累積發 生函數做以下的分解: ) , Pr( ) ( 1 t X t X Y F = ≤ <

≤ > = = t u u Y u X , ) Pr(

≤ = ∆ = ∧ = t u u Y X , 1) Pr( , 其中∆=I(X <Y)。由此拆解可知F1(t)可以表示為(X ∧ Y,∆)的積分函數,這是 未設限下的競爭風險資料型態。另一種分解方法為 ) , Pr( ) ( 1 t X t X Y F = ≤ <

∫ ∫

≤ > = = = t u v u dvdu v Y u X , ) Pr( dvdu v Y u Y X t u

∫ ∫

≤ >v u = = ∧ = Pr( , ) 。 以上的表示法顯示F1(t)亦可以表示為(XY,Y)的積分函數,這是未設限下半競 爭風險資料可觀察到的變數。 先不考慮設限的情形,令競爭風險的樣本為 {(XiYi,∆i)(i=1,...,n)};半競 爭風險的樣本為{(XiYi,Yi)(i=1,...,n)}。可得

(29)

n Y X t X I t F n i i i i , )/ ( ) ( 1 1

= < ≤ = I X Y t n n i i i i , 1)/ ( 1

= = ∆ ≤ ∧ = 。 因為 ) 1 , ( ) , ( ) , ( ∧ = = = ∧ = > = ∧ = ∆ =

> i i i i i i u v i i i Y u Y v I X Y u Y u I X Y u X I , (4.1) 可發現 ) ( 1 t F

∫ ∫ ∑

< > = = = ∧ = t u v u n i i i i Y u Y v n X I( , )/ 1 。 也就是以估計F1(t)而言,兩種資料型態在沒有設限時是無差異的。由 (4.1) 發 現 對 累 積 發 生 函 數 的 估 計 死 亡 的 確 切 時 間 Y 並 不 重 要 , 而 是 只 要 知 道 ) (X Y I ≤ = ∆ 的值就足夠。 當 外 生 設 限 發 生 時 競 爭 風 險 資 料 可 表 示 為(~ , , ) i i y x i X δ δ (i=1,...,n)。 當 0 = + i i y x δ δ ,∆ 的值未知。3.2 節中已討論三種技巧的估計均可以得到同樣的i 估計量,其加權版的估計式如下:

∫ ∑

= ≤ = − = ≤ = − = = = n i C i xi i t u n i C xi i C X S t X I n u S n u X I t F 1 1 1 ) ~ ( ˆ ) 1 , ~ ( 1 ) ( ˆ ) 1 , ~ ( ) ( δ δ  。 (4.2) 設 限 下 的 半 競 爭 風 險 資 料 可 以 表 示 為{(X~ , ,Y~, )(i 1,...,n)} i i i y x i δ η = , 其 中 ) ( i i yi =I YC η 。經過簡單分解運算後可發現 ) , Pr(XY =x Y = y ) ( ) 1 , ~ , ~ Pr( − = = = = y S y Y x X C y η , 其中分子與分母都可以分别估計。我們依加權的概念估計F1(t)得到以下的估計 量:

= − = > ≤ = n i C i yi i i i SC Y S X Y t X I n t F 1 1 ) ~ ( ~ ) 1 , ~ ~ , ~ ( 1 ) ( η  , (4.3) 其中

(30)

≤ = = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ≥ = = − = y Y n j i j n j yi i j C j I Y Y Y Y I y S ~ 1 1 ) ~ ~ ( ) 0 , ~ ~ ( 1 ) ( ~ η 。 在模擬中我們比較兩個估計量F1C(t)(4.2)與F1SC(t)(4.3),發現F1C(t)和F1SC(t)的 表現不分軒輊各有好壞,(Y~iyi)提供的多餘資訊在未截切時可能對猜測∆ 的值i 有幫助。 4.2 競爭風險下的截切資料 截切的條件和取樣的限制有關。我們先考慮競爭風險下的截切,令 A 代表 進入樣本的年齡,XYA的截切條件代表指進入研究的人是尚未得病的活 人。考慮設限的變數,則截切條件修訂為X~ ≥ A,代表進入研究的人除了是尚未 得病且存活外,還需要突破潛在的設限變因(C> A)。我們先考慮以下的資料結 構 : {(X~iXiYi,Ai,Ci)(i=1,...,n)}, 受 制 於 X~iAi 的 截 切 條 件 。 可 發 現 n u X I n i Xi i , 1)/ ~ ( 1

= = = δ 估計 )] ~ | 1 , ~ ( [I X u X A E = δx = ≥ = Pr( , )Pr( , ) ) ~ Pr( 1 u C u A u Y u X A X ≥ = ≥ ≤ ≥ 。 上式可以表示為 = ≥ = , ) Pr(X u Y u ) , Pr( ) ~ Pr( )] ~ | 1 , ~ ( [ u C u A A X A X u X I E x ≤ ≤ ≥ ≥ = = δ 。 令w(t)=Pr(At,Ct),以加權的方法可得Pr(X =t,Y >t)的估計量為

= = = ⋅ ≥ n i Xi i t w n t X I A X 1 ˆ( ) ) 1 , ~ ( ) ~ r( Pˆ δ , (4.4) 其中wˆ t( )與Pˆr(X~ ≥ A)分別為w(t)和Pr(X~ ≥ A)的估計量。在截切條件下 n t C t A I n i i i , )/ ( 1

= ≥ ≤ 所估計的是 ) ~ Pr( ) , , , Pr( A X A Y A X t C t A ≥ ≥ ≥ ≥ ≤ , 所以加權的方法會得到

(31)

= − ≥ ≤ ⋅ ≥ = n i xT y i i i A S n t C t A I A X t w 1 ˆ ( ) ) , ( ) ~ r( Pˆ ) ( ˆ , 其中SˆTxy(t)是Pr(X >t,Y >t)的估計量,公式記錄在(3.7)中。綜合以上結果 ) , Pr(X =t Yt 的估計量可表示為

= = = n i Xi i n t X I 1 ) 1 , ~ ( δ 1 1 ˆ ( ) ) , ( − = − ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛

n i xT y i i i A S n t C t A I 。 可得Pr(Xt,X <Y)的估計量為

≤ − = ∧ − = ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = = = t u n i Tx y i i i n i Xi i W A S n u C u A I n u X I t F 1 1 1 1 ) ( ˆ ) , ( ) 1 , ~ ( ) ( ˆ δ (4.5)

以上估計量可與以下 Peng & Fine (2006) 所提出的 naïve 估計量(原(3.8)式) 比較

∑ ∏

≤ < = = = = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ≤ ≥ ≤ = = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ≤ ≥ ≤ = + = − = t u s u n i i i n i i xi i n i i i n i i yi xi i PN u A u X I u A u X I s A s X I s A s X I t F 1 1 1 1 1 ) , ~ ( ) , 1 , ~ ( ) , ~ ( ) , 1 , ~ ( 1 ) ( ˆ δ δ δ 。 我們可發現(4.5)式中多用了C的資訊,在模擬中表現也確實比較準確。 4.3 半競爭風險下的截切資料 若資料為半競爭風險資料時,在設限並且截切條件放寬為Y~≥ A(進入樣本 時,個體必須是存活的狀態,但是可容許進入研究前已得病,即X ≤ )。可觀A 察到的資料為{(X~ixi,Y~iyi,Ai)(i=1,...,n)}。我們可得

[

I X t Y A

]

E = x = ≥ ~ | ) 1 , ~ ( δ

[

( , , ,~ )

]

) ~ Pr( 1 A Y t C t Y t X I E A Y ≥ = ≥ ≥ ≥ =

[

[

( , , , , | , , )

]

]

) ~ Pr( 1 , , E I X t Y t C t Y AC A X Y C E A YXYC A = ≥ ≥ ≥ ≥ =

(32)

[

( , , )Pr( , | , , )

]

) ~ Pr( 1 , , I X t Y t C t A Y A C X Y C E A YXYC = ≥ ≥ ≤ ≤ =

[

( , , )Pr( ~| ~)

]

) ~ Pr( 1 , , I X t Y t C t A Y Y E A YXYC = ≥ ≥ ≤ = 進一步整理可得 ⎦ ⎤ ⎢ ⎣ ⎡ ≥ = = A Y Y Y F t X I E A x ~ | ) ~ | ~ ( ) 1 , ~ ( δ ) ~ Pr( ) ( ) , Pr( A Y t S t Y t X C ≥ − ≥ = = , 其中FA(t)=Pr(At),且SC(t)=Pr(C >t),SC(t−)=Pr(Ct)。對於FA(t)的估 計,我們令C = A+BB>0,並假設 A (代表進入研究時的年齡) 與 B (代 表研究時間長度) 獨立,並利用 product-limit decomposition 和 artificial truncation 的概念,獲知 FA(t)

> ⎭⎬ ⎫ ⎩ ⎨ ⎧ ≤ = − = ≤ = t u A u u A t A ) Pr( ) Pr( 1 ) Pr(

> ⎭⎬ ⎫ ⎩ ⎨ ⎧ ≥ ≤ ≥ = − = t u A u Y u u Y u A ) , Pr( ) , Pr( 1 發現 ) ~ Pr( ) , , Pr( ) ~ | ~ , Pr( A Y u C u Y u A A Y u Y u A ≥ ≥ ≥ = = ≥ ≥ = ) ~ Pr( ) , Pr( A Y u Y u A ≥ ≥ = = 並利用加權法, ⎦ ⎤ ⎢ ⎣ ⎡ ≥ − ≥ ≤ − Y A A u S u Y u A I E B ~ | ) ) (( ) ~ , ( ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − ≥ ≤ ≥ = AY A u S u Y u A I E E A Y B , | ) ) (( ) ~ , ( ) ~ Pr( 1 ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − − ≥ ≥ ≤ ≥ = AY A u S A u B u Y u A I E E A Y B , | ) ) (( ) , , ( ) ~ Pr( 1 ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − − ≥ ≥ ≤ ≥ = A Y A u S A u B I E Y u A I E A Y B , | ) ) (( ) ( ) , ( ) ~ Pr( 1 ) ~ Pr( ) , Pr( A Y u Y u A ≥ ≥ ≤ =

(33)

因此我們可以

= − = − ≥ ≤ ≥ = n i i B i i n i i i A u S u Y u A I u Y u A I 1 1 ) ) (( ˆ / ) ~ , ( ) ~ , ( 估計 ) Pr( ) Pr( u A u A ≤ = 的,而FA(t)的 估計量則可以表示成

> = − = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ − ≥ ≤ ≥ = − = t u n i i B i i n i i i A A u S u Y u A I u Y u A I t F 1 1 ) ) (( ˆ / ) ~ , ( ) ~ , ( 1 ) ( ~ (4.6) 那麼我們可利用

= = = n i A i xi i Y F t X I n 1 ) ~ ( ~ , 1) ~ ( 1 δ 做為 ) ~ Pr( ) ( ) , Pr( A Y t S t Y t X C ≥ − ≥ = 的估計量。考慮 ) ~ Pr(YA 的估計,可得 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ≥ A Y Y Y F E A ~ | ) ~ | ~ ( 1 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ≥ ≥ = ) ~ | ~ ( ) ~ ( ) ~ Pr( 1 Y Y F A Y I E A Y A ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ≥ ≥ = Y C Y Y F A Y I E E A Y A(~| ~) | , ) ~ ( ) ~ Pr( 1 ⎦ ⎤ ⎢ ⎣ ⎡ ≥ = (~| ~) ) ~ | ~ ( 1 ) ~ Pr( 1 Y Y F Y Y F E A Y A A ) ~ Pr( 1 A Y ≥ = 。 因此

= n i FA Yi n 1 ) ~ ( ~ 1 1 可以做為 ) ~ Pr( 1 A Y ≥ 的估計量。有關SC(t−)的估計,我們利用 條件期望值的操作得 ) Pr( ) (t A B t SC − = + ≥ =E

[

I(A+Bt)

]

=EA

[

EB

[

I(A+Bt)|A

]

]

=EA

[

EB

[

I(BtA)|A

]

]

=EA

[

SB((tA)−|A)

]

(34)

=

− − A A B t u dF u S (( ) ) ( )。 根據{(Y~iAi,1−ηyi)(i=1,..,n)}的資料,可得SB(t)=Pr(B >t)的 product-limit 估 計量為:

( )

(

)

(

)

≤ = = ⎪ ⎪ ⎭ ⎪⎪ ⎬ ⎫ ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ ≥ − = = − − = t u n i i i n i Yi i i T B u A Y I u A Y I t S 1 1 ~ 0 , ~ 1 ~ η 。 (4.7) 將S~T(t) B 代入,可獲得估計量

− − = ≥ A A T B T C C t S t u dF u S~ ( ) ~ (( ) ) ~ ( )如下:

[

]

∑ ∏

= < − − = = ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ≥ − = = − − n j k t A j A j A n i i i n i Yi i i j A F A F k A Y I k A Y I 1 ( ) 1 1 1 ) ( ~ ) ( ~ ) ~ ( ) 0 , ~ ( 1 η (4.8) 其中 A0 =0。綜合以上分析可得Pr(X =t,X <Y)的估計量如下:

[

]

1 1 1 1 ) ( ~ ) ~ ( ~ 1 ) ~ ( ~ , 1) ~ ( − − = = − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = =

S t Y F Y F t X I T C n i A i n i A i xi i δ 基於

= = > = < ≤ t u X u Y u du Y X t X 0Pr( , ) ) , Pr( ,我們提出適用於截切下的半競爭 風險資料F1(t)估計量為:

[

]

≤ − − = = ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = = = t u T C n i A i n i A i xi i W u S Y F Y F u X I t F 1 1 1 1 1 ( ) ~ ) ~ ( ~ 1 ) ~ ( ~ , 1) ~ ( ) ( ~ δ 。 (4.9) 將上式估計量與 Peng & Fine (2006) 所提出的半競爭風險估計量(原(3.20)式) 比較,Peng & Fine 在估計 A 和C的函數時,是估計兩個變數的聯合函數,而我 們的估計量則是將 A 和C的函數分開估計,但必須有較強的假設C = A+B且 A 與 B 獨立。為了更清楚估計量的準確性,由 CIF 的模擬試驗發現F~1W(t)的表現比 ) ( ~ 1 t FPF 為好。

參考文獻

相關文件

利用 determinant 我 們可以判斷一個 square matrix 是否為 invertible, 也可幫助我們找到一個 invertible matrix 的 inverse, 甚至將聯立方成組的解寫下.

Then, we tested the influence of θ for the rate of convergence of Algorithm 4.1, by using this algorithm with α = 15 and four different θ to solve a test ex- ample generated as

Numerical results are reported for some convex second-order cone programs (SOCPs) by solving the unconstrained minimization reformulation of the KKT optimality conditions,

Particularly, combining the numerical results of the two papers, we may obtain such a conclusion that the merit function method based on ϕ p has a better a global convergence and

Then, it is easy to see that there are 9 problems for which the iterative numbers of the algorithm using ψ α,θ,p in the case of θ = 1 and p = 3 are less than the one of the

By exploiting the Cartesian P -properties for a nonlinear transformation, we show that the class of regularized merit functions provides a global error bound for the solution of

This paper examines the effect of banks’off-balance sheet activities on their risk and profitability in Taiwan.We takes quarterly data of 37 commercial banks, covering the period

For the data sets used in this thesis we find that F-score performs well when the number of features is large, and for small data the two methods using the gradient of the