標誌歷程之動態存活預測的統計分析

(1)

國立臺灣大學公衛學院流行病學與預防醫學所生統組博士論文

Division of Biostatistics, Institute of Epidemiology and Preventive Medicine, College of Public Health,

National Taiwan University Doctoral Dissertation

標誌歷程之動態存活預測的統計分析

Statistical Analysis for Dynamic Survival Prediction Involving Marker Processes

蘇登煌

Deng-Huang Su

指導教授: 張淑惠教授

Advisor : Shu-Hui Chang, Professor

中華民國 105 年 1 月

January, 2016

(2)

(3)

目錄

摘要 ... iii

第一章背景和目的 ... 1

第二章文獻回顧 ... 5

1．多變數存活資料的分類及特性 ... 5

(Ⅰ) 平行資料 ... 5

(Ⅱ) 長期資料 ... 7

2．多變數存活資料的統計分析 ... 11

(Ⅰ) 相依性分析 ... 12

(Ⅱ) 邊際模型的分析 ... 15

(Ⅲ) 條件與聯合模型 ... 16

(Ⅳ) 多階段模式 ... 17

3．標誌歷程 ... 18

(Ⅰ) 標誌歷程的應用 ... 19

(Ⅱ) 右受限的標誌歷程 ... 20

(Ⅲ) 前進式三階段資料 ... 20

(Ⅳ) 前進式三階段資料之統計分析 ... 21

4．不同 Cox 模式對時間依賴性變數之處理 ... 24

5．所用之甲狀腺乳突癌資料 ... 24

第三章．方法 ... 27

1．符號及資料結構 ... 27

2．模型 ... 32

3．估計 ... 34

(Ⅰ) 以右受限資料估計以標誌歷程為條件的未來存活函數 ... 34

(Ⅱ) 以存活者的後續有限觀察時間條件存活機率之預測 ... 46

(4)

4．估計量的統計性質 ... 47

第四章模擬及結果 ... 52

1．資料生成 ... 52

2．模擬結果 ... 53

第五章實例說明 ... 57

第六章討論和結論 ... 62

參考文獻 ... 90

附錄 ... 105

附錄 A 甲狀腺癌預後因子研究之台大醫院研究倫理委員會通過函 ... 105

附錄 B 無共變數下，條件存活機率S t T( _M m)^及S t T( _M m)的推導 ... 108

附錄 C 條件存活機率S t T( _M m)^及S t T( _M m)的推導 ... 117

附錄 D 輔助定理的証明 ... 124

(5)

圖目錄

圖一進展疾病死亡模式 ... 28 圖二 T_M及T_D在t m的關係圖 ... 35 圖三模擬資料的標誌時間為 2(黑線)、5(紅線)、8(綠線)年之S t T( _M m)及

( _M )

S t T m 及真值、估計值及 95%信賴區間。 ... 74 圖四甲狀腺乳突癌患者的標誌時間為不大於 2(黑線)、5(紅線)、8(綠線)年之

( _M )

S t T m 估計值及 95%信賴區間。 ... 75 圖五甲狀腺乳突癌患者的標誌時間為大於 2(黑線)、5(紅線)、8(綠線)年之

( _M )

S t T m 估計值及 95%信賴區間。 ... 76 圖六甲狀腺乳突癌患者的標誌時間為不大於 2(黑線)、5(紅線)、8(綠線)年之

( _M , _D )

S t T m T m 估計值及 95%信賴區間。 ... 77 圖七甲狀腺乳突癌患者的標誌時間為大於 2(黑線)、5(紅線)、8(綠線)年之

( _M , _D )

S t T ＞m T m 估計值及 95%信賴區間。 ... 78 圖八甲狀腺乳突癌患者(40 歲內)的標誌時間為不大於 2(黑線)、5(紅線)、8(綠

線)年之S t T( _M m)估計值及 95%信賴區間。 ... 79 圖九甲狀腺乳突癌患者(40 歲內)的標誌時間為大於 2(黑線)、5(紅線)、8(綠

線)年之S t T( _M m)估計值及 95%信賴區間。 ... 80 圖十甲狀腺乳突癌患者(40 歲內)的標誌時間為不大於 2(黑線)、5(紅線)、8(綠

線)年之S t T( _M m T, _D m)估計值及 95%信賴區間。 ... 81 圖十一甲狀腺乳突癌患者(40 歲內)的標誌時間為大於 2(黑線)、5(紅線)、8(綠

線)年之S t T( _M＞m T, _D m)估計值及 95%信賴區間。 ... 82

(6)

圖十二 40 歲以上之甲狀腺乳突癌患者的標誌時間為不大於 2(黑線)、5(紅線)、

8(綠線)年之S t T( _M m)估計值及 95%信賴區間。 ... 83 圖十三 40 歲以上之甲狀腺乳突癌患者的標誌時間為大於 2(黑線)、5(紅線)、8(綠

線)年之S t T( _M m)估計值及 95%信賴區間。 ... 84 圖十四 40 歲以上之甲狀腺乳突癌患者的標誌時間為不大於 2(黑線)、5(紅線)、

8(綠線)年之S t T( _M m T, _D m)估計值及 95%信賴區間。 ... 85 圖十五 40 歲以上之甲狀腺乳突癌患者的標誌時間為大於 2(黑線)、5(紅線)、8(綠

線)年之S t T( _M＞m T, _D m)估計值及 95%信賴區間。 ... 86 圖十六甲狀腺乳突癌患者的未發生標誌事件(藍線)及發生標誌事件(紅線)的存

活機率(Kaplan-Meier 估計量)。 ... 87 圖十七甲狀腺乳突癌患者(40 歲內)的未發生標誌事件(藍線)及發生標誌事件(紅

線)的存活機率(Kaplan-Meier 估計量)。 ... 88 圖十八甲狀腺乳突癌患者(40 歲以上)的未發生標誌事件(藍線)及發生標誌事件

(紅線)的存活機率(Kaplan-Meier 估計量)。 ... 89

(7)

表目錄

表一疾病發展路徑 ... 31

表二 S t T( _M m)的真值及三組右受限資料之模擬結果 ... 65

表三 S t T( _M m)的真值及三組右受限資料之模擬結果，第一種方法 ... 66

表四 S t T( _M m)的真值及三組右受限資料之模擬結果，第二種方法 ... 67

表五甲狀腺乳突癌(不分年紀)的S t T( _M m)及S t T( _M m)的估計值及 95%信賴區間 ... 68

表六甲狀腺乳突癌(不分年紀)的S t T( _M m T, _D m)^及S t T( _M m T, _D m)^的估計值及 95%信賴區間 ... 69

表七甲狀腺乳突癌(40 歲內)的S t T( _M m)及S t T( _M m)的估計值及 95%信賴區間 ... 70

表八甲狀腺乳突癌(40 歲內)的S t T( _M m T, _D m)^及S t T( _M m T, _D m)^的估計值及 95%信賴區間 ... 71

表九甲狀腺乳突癌(40 歲以上)的S t T( _M m)及S t T( _M m)的估計值及 95%信賴區間 ... 72

表十甲狀腺乳突癌(40 歲以上)的S t T( _M m T, _D m)^及S t T( _M m T, _D m)^的估計值及 95%信賴區間 ... 73

(8)

誌謝

做為一個臨床醫師，要一方面從事門診工作，一方面要從事生物

統計的研究，其實是非常困難，故若非很多人工作、學業及生活上的協助，是不可能完成我的論文，故要感謝的人太多了。

首先謝謝我臨床上的恩師—張天鈞教授，我母親是甲狀腺機能亢進症的患者，年輕時便苦於此症，還為此開了兩次刀，而張教授是我母親的主治醫師，後來我因緣際會進了台大內分泌新陳代謝科，成了張教授的學生，在其門下學習診治患者、甲狀腺超音波、細胞穿剌及細胞學等，並開始學習臨床研究。張教授每逢困難的問題，都能用簡單的方法解決，也樂意回答學生的問題，拙於問問題的我，幸得張教授的允許，得以在身旁學習，通過觀察張教授和病人的互動及患者的病歷，完成了臨床的入門。台大住院醫師訓練結束後，幸得張教授的引薦而進入遠東聯合診所，在此也感謝我的所長—黃博昭教授及所有的診所成員，讓我在工作上無後顧之憂。

在預醫所碩士班時，第一次接觸陳秀熙教授上課，就深深被陳教授的課程所吸引，當統計不再是死記的東西，而是可理解可依循的，

它不再是高牆內遙不可及的，陳教授讓小池塘中的我領略了大海的廣大，於是我在陳教授的指導下完成了碩士學位，並在同年進入了生統組開始了我的博士班生活，這要感謝陳教授帶我入生統的門。

(9)

在生統組的課程中，戴政教授總是不厭其煩地從基礎教導學生，

不僅是學術上的教導，也包括人生上的學問，只是戴教授的學問確實深奧，在數統上的學習，他教導了我不一樣的想法，而不是傳統上不停的演算，而在統計的學習，戴教授也是一磚一瓦地教導我從目的、

資料結構、假設、模式及使用方法一步一步地架構起統計的結構。他不僅教我 A 的道理，也包括 B 的事。

最感謝的是我的指導教授—張淑惠教授，她給了我充足的空間，

在我低潮時，給我驅動力可以再度前進，她總是不厭煩地等待我趕上她的進度，她的邏輯性是我學習的目標，謝謝她的耐心等待及教導，

讓我終於能完成博士論文。

最後感謝我的女兒—子容，她的圖讓我的論文增色不少，僅將本論文獻於我的父母及家人--太太采芬、兒子宥銘及女兒子容。

(10)

摘要

以臨床工作而言，診療慢性患者的過程所形成的記錄，為一長期 追踨資料型態。在每次患者就診中，臨床醫師會透過一些標誌或事件訊息來了解未來患者的併發症或死亡風險的高低，根據這些風險的高低，醫師需要制定適當的措施來防制或延緩併發症甚至死亡的發生，

故如何量化此類風險是臨床上很重要的問題。本論文的目的在於利用患者的動態指標訊息及基本特性來預測未來的存活機率，亦即利用標誌的訊息，不斷地更新對未來存活的預測。時間依賴性 Cox 模式 (time-dependent Cox’s model)是分析存活資料的一種常用的迴歸模式，

具有利用長期追蹤資料具時間順序的特色，而明確地架構標誌歷程和基礎共變數跟終止事件間的相關性。但採用以標誌歷程為時間依賴性共變數的 Cox 模式的問題在於此時間依賴性模式為一即時解釋模式，

無法用過去標誌歷程直接預測未來存活機率。因此本論文運用貝氏定理作機率的反轉及條件式機率的運算來處理這個問題，如此便可利用共變數和標誌歷程的條件式分布，在發生終止事件的時間點上給予適當的權重上(Cox 模式中的參數及變數值所構成)，而可在不同標誌歷程及共變數的條件下，估計未來存活機率。此方法之優點在於可免於估計時間依賴性 Cox 模式中的基礎風險函數及標誌時間的邊際分布。本研究將利用模擬以測試所提出方法之表現，並以甲狀腺乳突癌患者為例加以說明所提之方法的運用。

關鍵詞: 追蹤資料、標誌歷程、雙變數存活、多變數存活、存活預測

(11)

Abstract

In clinical practice, the records of patients with chronic diseases is a form of the longitudinal data. At each patient’s visit, the physician will collect the signs or event information to understand the level of the patient's future risk of complications or death. According to the level of these risks, physicians need to take some appropriate actions to prevent or delay the occurrence of complications or death. So, how to quantify such risks is a clinically important issue. The purpose of this paper is to use the dynamic messages of marker and the patients’ basic characteristics to predict the patients’ survival. Time-dependent Cox’s model is a population regression model which constructs explicit dependence of the hazard of termination time on baseline covariates and marker process by taking the advantage of longitudinal data with chronological features. However, in the time-dependent Cox’s model, the effect of the marker on the immediate survival has no meaning of prediction. That is, it is not straightforward to predict the future survival given the past information of the marker process in the time-dependent Cox’s model. Therefore, we adopt Bayes' theorem and conditional probability to overcome such problems. We estimate the conditional probability of future survival given the different information of marker process by using the conditional distribution of baseline covariates and marker process given surviving at a time point and the Cox modeling information. The advantage of the proposed method is that marginal distribution of marker process and baseline hazard function in the Cox’s model are not required. Simulation studies are conducted to assess the performance of the proposed method. An example of papillary thyroid carcinoma is provided for illustration.

Key Words: longitudinal data, marker process, bivariate survival, Multivariate survival, prediction

(12)

第一章背景和目的

在醫師的臨床工作所接觸的患者中，有些患者的疾病病程是短期 而可治癒的，像是上呼吸道感染，若是患者沒有出現併發症，患者可能只有一至數次的門診。相反地，有些患者本身的疾病則需要長期的治療方可治癒，像是肺結核的治療，往往需要六個月以上的藥物治療才有較高的治癒的機會;另有些疾病則是不可治癒且其器官機能會隨時間逝去而逐漸變差，這類疾病治療的目的在於改善症狀或延緩死亡的發生，像是阿滋海默症(Alzheimer’s disease)所引起的老人失智症，目前並沒有藥物可以有效治療其基本病程(Schneider, 2013)，故其治療的方針是改善生活品質或延緩疾病的進展;而有些疾病則是不可治癒但可以控制，像是高血壓、糖尿病及高血脂症等慢性病，透過藥物治療及生活方式的改變，其血壓、血糖及血脂的異常可被控制，這類疾病治療的目的在於防止其相關的併發症或死亡的發生。而在這些慢性疾病患者的追蹤期間，可能會出現某些臨床訊息而代表疾病的惡化，如糖尿病患者微量白蛋白尿的出現，代表的是患者腎臟功能的初期損害或心臟血管疾病的風險的增加(Zoppini et al., 2012)。這些慢性疾病患者的存活時間、併發症或某些臨床訊息的發生，往往是醫生或患者注意的重點，亦是長期追蹤資料需要的訊息。

慢性患者的特徵在於需要長期追蹤，而在追蹤中，根據診治醫師的要求及病情的需要，安排患者在在特定的時間會到醫師的診間或醫院，接受問診、理學檢查、抽血、影像檢查和治療。理論上，觀察的時間應是連續的(continuous)，但實際上我們卻只在離散的(discrete)時間點上擷取訊息，這些訊息包括觀察到不同的事件(event)及事件時間或生

(13)

2

物標誌(biological marker)。這樣的資料結構稱為長期資料(longitudinal data)或追蹤資料(follow-up data) (Zoppini et al., 2012)，慢性疾病患者的就診過程便是標準的長期資料。如果在追蹤的過程中，我們只對某特定事件有興趣，此稱為單變數存活資料(univariate survival data)，此為現行的臨床研究中最常見的資料型態;但若被觀察者可出現不同的事件或重覆出現相同的事件，不同的事件間可能存在時序間先後的關係或彼此為互斥的關係，這種資料型態稱為多變數存活資料(multivariate survival data)，其中包涵了競爭風險資料(competing risks data) (Zhang, Zhang and Fine, 2011)、多階段資料(multi-state data) (Meira-Machado et al., 2009)和復發事件資料(recurrent event data) (Zhao et al., 2012)。從長期資料的特性中，我們知道單變數存活資料若也有長期追蹤的過程，

其本質上也是一種多變數存活資料，只是終止事件(terminal event)前發生的其他事件，不是我們有興趣的，像是乳癌的患者，若我們只對死亡有興趣，對於追蹤中間發生的局部復發或遠處轉移，雖然有觀察到這些事件，但不呈現這些事件的過程。也有非常單純的單變數存活資料，像是登記檔的資料，可能僅有起初登記的資料及最後死亡檔的資訊 (Bodger et al., 2011)。

而在門診中，常因口耳相傳或地緣的緣故，使得同一家庭的成員或同一公司的職員都成為同一個醫師及同一家醫院的患者。對於家庭而言，其成員具有基因及生活環境上的類似，對於公司的成員而言，

他們具有工作環境上的類似，這種被觀察者間具有某種類似的性質，

使得在分析上每個個體皆獨立的假設是不存在，這種在群聚中具有相關的資料可稱為平行資料(parallel data)或群集資料(cluster data) (Zhang, Fan and Sun, 2009)。由上述臨床的經驗可知，就醫行為所形成的資料，

常為具有長期追蹤及群集的雙重特性之混合多變數存活資料型態。對

(14)

於臨床醫師而言，其面對的群體大多是已患病的患者，其臨床工作的目的可依疾病的性質來分，若是可治癒的病，其目的在於治癒患者的疾病，若是慢性病，其目的大多是要預防疾病的惡化所產生的併發症所導致的殘障，甚至死亡。故臨床醫師們希望在每次就診中，透過一些指標訊息或事件訊息來了解未來患者的併發症或死亡的風險高低。

透過對併發症或死亡風險的了解，我們可採取一些因應措施去降低患者未來產生不良事件的風險。這些指標訊息或事件訊息包涵了患者的口述病史及症狀、理學檢查、血液檢查、影像檢查及患者在就診間隔所發生的事件記載，這樣的訊息我們可稱為標誌(markers)，而標誌所形成的歷程可稱為標誌歷程(marker processes) (Whitmore, Crowder and Lawless, 1998)。例如甲狀腺癌患者的追蹤中，醫師會檢驗甲狀腺球蛋白(thyroglobulin)、甲狀腺超音波及碘 131 攝影來發現局部復發或遠處轉移(Kucukalic-Selimovic et al., 2012)，這些檢查的結果、局部復發或遠處轉移都可做為甲狀腺癌的生物或事件標誌，因局部復發或遠處轉移這樣的事件(標誌事件)可能對於甲狀腺癌患者的最後終止事件(指死亡) 具有重大的影響 (Verburg et al., 2013)，故若患者發生標誌事件時，我們必須要對患者進行更積極的治療以防止或延遲死亡的到來。

因疾病進展所導致的終止事件(死亡或某種併發症)才是臨床上所關心的重點，而臨床上常面臨的問題是假如發生了或尚未發生某種事件(標誌)，此時對患者的預後影響為何?而在不同臨床分期的患者，同一標誌事件的發生與否，是否其預後有所差別?而標誌事件的發生時間的早晚是否會影響其後續存活?而標誌事件影響存活的程度是多少?這些問題都跟患者的生活及未來息息相關，故是患者跟臨床工作者很想知道的問題。

如何能運用上述這些標誌歷程的資訊，以達到預測未來存活機

(15)

4

率，乃本論文之目的。本研究將在標誌歷程和其他共變數的分布並無特定的假設下，使用時間依賴性 Cox 模式(Cox, 1972)來設定風險函數 (hazard function)與標誌歷程和其他共變數(covariates)間的關係，運用貝氏定理(Bayes’ theorem)做機率的反轉，並利用標誌歷程和其他共變數的條件聯合分布以估計未來存活函數，而達到本研究以動態之標誌歷程預測未來存活機率的目的，此為一半母數估計法(semi-parametric estimator)。以下論文分為下列章節進行:第二章為文獻回顧，將針對多變數存活資料的分類及特性、多變數存活資料的處理及標誌歷程的運用來討論;第三章為方法，首先定義所用的資料型態及符號，後分別針對完整資料結構及右受限資料結構，利用動態的標誌歷程進行對未來存活函數的估計，此章最後為估計式的變異數的推導過程及其漸進性質的證明;第四章為模擬之過程及結果;第五章為以甲狀乳突癌為例說明方法之運用;第六章為討論和結論，主要是說明方法之特點、未來論文所要持續進行之方向，及現階段所得之結果之總結。

(16)

第二章文獻回顧

1．多變數存活資料的分類及特性

多變數存活資料是一種具有相關性(correlation)的存活資料，其相 關性有兩種來源，一種是來自被觀察者與被觀察者間，亦即事件是發生在不同的被觀察者身上，但被觀察者與被觀察者間具有某種相同的特性，像是血緣關係或相同的生活或工作環境。相關性的另一個來源來自同一被觀察者的不同事件間的相關。根據相關性來源的不同，我們可將多變數存活資料分為平行資料和長期資料，以下就其不同的特性來分別討論:

(Ⅰ) 平行資料

當相關性來自被觀察者與被觀察者間的某項類似的特性時，此時所形成的資料結構稱為平行資料或聚集資料。這種資料中，每個被觀察者都有不同的受限時間(censoring time)，此與長期資料中，同一個被觀察者的多元事件皆受同一個受限時間限制不同。平行資料常見的例子為雙胞胎研究(Twin Study) (Fischer, Harvald and Hauge, 1969)，這樣的研究設計主要是要研究雙胞胎間資料的相依性(dependence)，因同卵雙胞胎與異卵雙胞胎間，其生活方式和其他環境因子皆類似，故兩者間的差異來自基因上的差異，同卵雙胞胎的基因是相同的，而異卵雙胞胎的基因間的相異度就如同一般的兄弟姊妹一樣，兩者的基因相似只有百分之五十，故研究雙胞胎間的參數是否具有相依性，就等於研究同卵及異卵雙胞胎間基因的差異是否與我們有興趣的參數有關，亦

(17)

6

即若不存在相關性，則結果與遺傳無關。這類的研究的例子包括有丹麥雙胞胎研究(Hauge et al., 1968)和澳洲雙胞胎研究(Slutske et al.,

2013)。類似的研究概念包括手足研究(sibling study)(Pollard et al., 2010) 和親子研究(parent-child study)(Tan et al., 2007)，只是這樣的研究中仍可能存在環境因子的差異，不像雙胞胎研究單純只有基因上的差異，但其優點也在於可研究基因和環境間的交互作用。而更複雜的遺傳研究設計包括了三元體資料(Vefring et al., 2010)、四元體資料、核心家庭資料或其他家族聚集資料，這樣的家族資料主要是用來看資料間是否具有相關性，這種相關性的存在即是要討探基因和我們有興趣的結果的相關性是否存在。除了遺傳研究外，有些平行資料的研究，研究者必需將某一群被觀察者視為同一個群集(cluster)，因他們具有某種類似的特性，如同一所學校，這種資料型態必須要處理群集中的相關性以求得參數的無偏估計值。

另一個平行資料研究的重點在於估計變異數時，其值會受到資料間相關性的影響，如果不考慮相關性時，會得到有偏的(biased)變異數估計量。故在處理資料時，可先測試其相依性，若相依性不存在，則一般的獨立分析方法即可用。但若存在相關性時，一則是我們對於相關性的估計並不在意，則相關性相對於我們有興趣的參數而言，是一個累贅因子(nuisance factor)，我們可運用穩健估計量(robust estimator) 去做參數的估計(Al-Khalidi et al., 2011)，而不須在意相關性的實際分布是什麼。另一方面，如果相關性的估計也是我們有興趣的，則必須同時考慮相關性及其他參數，此時可運用模式去模式化相關性及假設在模式化相關性後個體或事件間為條件獨立，再運用資料去估計相關性及所需的參數。這個方法的優點在於可處理複雜的資料，並同時得到相關性及所需的參數的估計值，但缺點是同時下了相關性的模式及條

(18)

件獨立的假設，這些假設是很強的假設，若是這些假設不符合實際的資料，則可能導致所得到的估計值是錯誤的，故這樣的方法是需要做模式診斷和驗證(model diagnosis and validation)。另一個複雜的方法，則是假設邊際(marginal)函數、相關性和其聯合函數間的關係來估計相關性及其參數。

(Ⅱ) 長期資料

另一種多變數存活資料則是同一被觀察者發生多個事件，這些事件同時受同一個受限時間的限制。在單變數存活分析時，我們常假設死亡時間與受限時間之間為獨立，但在此類多變數存活資料中，若考慮間隔時間(sojourn time)時，此時，間隔時間跟受限時間並不獨立，這種相關稱為誘導式相依(reduced dependence)。這種同一被觀察者會發生多重事件的資料，因為要觀察到這些事件的發生，必需要長期的追蹤及觀察，故此類多變數存活資料被稱為長期資料或追蹤資料。

若將長期資料依發生事件是否相同來分類，當發生的事件為相同時，此時資料可稱為復發事件資料(recurrent event data)(Lim and Zhang, 2011)，復發事件為有序事件(ordered event)，因要發生下一次復發事件前，一定要發生前一次的復發事件。而在資料處理上，第一個問題仍是復發事件間是否具有相依性，在工業或日常生活上，復發事件間可能具有獨立性，例如家裏所用的日光燈的置換就可能具有獨立性。當復發事件間的相關性不存在時，則每個事件都可看成是獨立的，如一個個體有三次復發事件，則我們可將此個體的時間切成四段時間，此相當於四個獨立個體，其中有三個個體發生事件，一個未發生事件。

但在醫學上，復發事件間往往是具有相關性的，亦即上一次復發往往

(19)

8

會增加下一次復發的風險，另復發的次數也可能會增加下一次復發的風險。若當相關性存在時，假如我們有興趣的是平均復發次數，則事件間的相關性並不是我們所關心的，此時使用穩健估計量去做參數的估計即可，不需考慮事件間的相關性。另一個方法則是將相關性設為一個隱變數(latent variable)，利用模式化相關性和事件的關係去估計我們所需要的參數，並在估計過程中，將相關性利用平均或積分的技巧去除掉。但若我們對相關性有興趣，除模式化相關性外，並將相關性放在模式中去估計參數及相關性。而在復發事件資料處理上，第二個問題是復發事件和終止事件間的關係，復發事件會受終止事件的影響而不再發生，如懷孕為復發事件，停經可視為懷孕的終止事件，懷孕會受到停經的影響，一旦停經後，懷孕便不再發生，在此例中，停經的發生並不受到懷孕的影響。另終止事件可能會受到復發事件的發生而增加風險，如腫瘤的復發會受到個體死亡的緣故而不再發生，且腫瘤的復發往往會造成個體的死亡，故當以腫瘤的復發為研究主體，此時不能將死亡視為獨立性受限(independent censoring)或無訊息性受限 (uninformative censoring)，而要將之視為相依性受限(dependent

censoring)或訊息性受限(informative censoring)來處理(Liu, Wolfe and Huang, 2004; Ye, Kalbfleisch and Schaubel, 2007)。在復發事件資料中，

除了要處理終止事件的相依性受限，有時也要處理間隔時間與受限時間之間的誘導式相依及間隔時間與間隔時間之間的相關性。考量此類資料的複雜性，必須要同時處理復發事件的相關性和其他參數，就如同要處理平行資料一樣，必須要模式化相關性及使用條件獨立的假設。

若是長期資料中，發生事件為不同時，此時可依事件間是否有序來分類。若為有序多重事件，最簡單的是直線漸進的模式，如我們將糖尿病的病程分為正常、糖尿病前期、糖尿病、併發症及死亡五期。

(20)

對有序事件而言，每一個事件都是必須照順序，亦即發生下個事件前，

必須發生前一事件，不可能跳躍過某個事件而直接進入下一個事件。

如果有跳躍發生，表示事件的發生有另外的途徑，若以前面所舉的糖尿病為例，可能有某些人直接死於糖尿病，而並非經由併發症這個階段，此時糖尿病患者從糖尿病到死亡的事件的途徑便有兩條，一條不經由併發症，一條經由併發症。另外，若我們有大量資料，我們可複雜化上述路徑，我們可將糖尿病的併發症再細分為腎病變、心臟血管疾病、腦中風及下肢血管疾病等併發症，而不同的併發症可同時或不同時間發生，但若以第一個發生的併發症為考慮，則這些併發症間彼此為互斥，且相互競爭，我們可稱這些併發症為競爭風險(competing risks)，這樣去定義事件發生的次序及路徑的模式，可稱為多階段模式 (multi-state models)(Meira-Machado et al., 2009)，在多階段模式中，事件的發生是一種轉換(transition)，而事件發生後，就是進入一種新的狀態(state)，而狀態的改變也就是轉換。這個模式的優點在於它定義了事件發生的路徑，如此會簡化並限制事件聯合機率(joint probabilities)化為條件機率(conditional probabilities)的過程，因當事件為有序時，下一個事件的機率必須根據上一個事件而決定，事件間的關係就有如親代和子代間的關係。但缺點在於路徑是人為定義，且多階段模式本身即為一非常強烈的假設，此假設若要跟實際的資料符合，必須在定義路徑及事件上去符合生物的特性及實際發生的路徑，一旦假設錯誤，則結果會發生極大的錯誤。若事件間為無序時，亦即在上述的多階段模式中，有多條路徑會發生，這種無序事件亦可用多階段模式來模式化，

但要得到一致的(consistent)和無偏的結果，這種資料必須要很龐大。此段中所論述的長期資料，因具有多階段的特性，可稱為多階段事件資料。

(21)

10

另一種多變數存活資料型態為競爭風險資料(competing risk

data)(Pintilie, 2007)，它指同一個體有可能歷經不同的事件，而這些事件間彼此互斥，且同一個體最終只能發生一個事件，不能經歷兩個事件，故 Hougaard (2000)雖將競爭風險資料跟其他的多變數存活資料一起討論，但他並不將競爭風險資料視為一種多變數存活資料。通常在處理競爭風險資料時，一般會將不同的競爭風險視為彼此獨立，因此在處理上，當我們在探討某一個死因時，其他的死因都被視為獨立性受限來處理，例如一個甲狀腺癌患者死於車禍時，車禍就可視為甲狀腺癌的競爭死因，且是獨立性受限的。但相同的情形發生在糖尿病患者時，就不一定了，如果他是乘客時，車禍就可視為糖尿病的競爭死因，且是獨立性受限的;但如果他是司機時，可能是發生車禍前發生了低血糖而意識不清，或發生急性心肌梗塞或急性腦中風而發生車禍，

此時車禍不再與糖尿病無關，故不能當成獨立性受限。另外，我們以 B 型或 C 型肝炎為例，此兩種肝炎病毒若是在患者感染後演變成急性肝炎而沒有演變成慢性肝炎時，除非患者是得到猛暴性肝炎而導致死亡，不然他們是可痊癒的，另一種可能是他們沒有痊癒，而變成慢性肝炎。若患者走向慢性化，則臨床上，他們可能會有慢性肝炎、肝硬化及肝癌的可能性。有些患者會經慢性肝炎、肝硬化、肝癌而死亡;有些患者只經慢性肝炎、肝硬化而死亡，則他們在因肝硬化而死亡前並未發生肝癌;有些患者則直接由慢性肝炎而直接發生肝癌而死亡。對於一個同時患有肝癌及肝硬化的患者而言，他可能因肝癌或肝硬化死亡，故肝癌或肝硬化彼此為互斥且競爭，此兩者彼此可視為 B 型或 C 型肝炎患者之競爭死因。但從上述複雜之路徑來看，肝硬化與肝癌之間存在著某種相關性，若將二者間視為獨立，則可能會導致錯誤之結論。從以上例子可知，在競爭風險資料中，多數事件皆可視為獨立，

(22)

但若在一些特殊事件中，事件間是有相關的。另外，在多階段模式中，

就如上述的糖尿病併發症的例子來看，糖尿病併發症間是競爭風險，

故要了解多重變數存活資料，了解競爭風險也是必要的。

最後一種多變數存活資料是半競爭風險資料(semi-competing risk data)(Fine, Jiang and Chappell, 2001)，它也可視為多階段模式中的一種特例，稱為前進式三階段資料(progressive three state data)。其特徵在於到終止事件前有二條路徑，一條不經非終止事件而直接到終止事件，

一條經非終止事件而到終止事件，故為一種多階段模式，且這個資料結構中，事件的進行是前進而不後退，又有三個狀態，故稱為前進式三階段資料。若跟競爭風險資料做比較，終止事件是非終止事件的受限事件，但非終止事件卻不是終止事件的受限事件，這跟競爭風險資料中的事件互為彼此的受限事件不同，且一旦個體發生非終止事件後，往往發生終止事件的風險便會增高。

複雜的多變數存活資料可同時包括平行資料及長期資料，就如同在臨床工作中所遇到的患者一樣，且也可能同時包涵有復發事件、有序事件、競爭風險及半競爭風險事件。

2．多變數存活資料的統計分析

從以上的多變數存活資料的介紹中，其分析方法可分為四類，其一是分析兩個事件時間或兩個個體(平行資料的兩個個體或長期資料的時間中，同一個體的兩個事件)之間的相依性;另一個是事件的邊際風險函數(marginal hazard functions)或邊際強度歷程(marginal intensity

process)的分析，此分析重點並不在事件的相依性上，故將相依性當做累贅因子來處理。另一種分析方法為條件模式(conditional model)及聯

(23)

12

合機率模式(joint probability model)，條件模式是使用隨機變數去模式化相依性，這個不可觀察到的隨機變數稱為脆弱性(frailty)，它可用於描述單變數存活資料中未觀察到的變數或多變數存活資料中事件和事件之間或人與人間的相關性，通常我們會假設在脆弱性及其他共變數存在下，事件和事件間或人與人間是獨立的，如此便可將多變數存活資料解離成數段獨立的單變數存活資料，還有另一種是聯合機率模式，copula 模式是其中常用的一種(Othus and Li, 2010)，它運用 copula 變數去模式化不同的邊際存活函數間的相關性，而將一個多變數聯合存活函數分解成事件的邊際存活函數與 copula 變數的結合。最後一種方法則是使用多階段模式去處理多變數存活資料，因多變數存活資料大都可化為多階段模式，此模式中最常見的處理方法是使用馬可夫鏈 (Markov Chain)的模式(Sweeting, Farewell and De Angelis, 2010)，此模式假設未來一刻發生事件的機率及路徑只跟前一刻的狀態有關，跟前一刻所在的狀態之前的歷史無關，故其假設也是一種條件獨立。以下將分四小節分別討論此四種方法。

(Ⅰ) 相依性分析

在多變數存活資料分析中，通常只用一個參數去描述其相關性，

故為總體相依性(global dependence)。若干雙變數存活時間的總體相依性估計量已經被提出，包括 Spearman’s correlation coefficient，Pearson correlation coefficients、Kendall's tau(Oakes, 1982a)和中位數一致性 (Median concordance)。Spearman’s correlation coefficient 是用於二個可排序的變數間的相依性測量，而 Pearson correlation coefficients 多是用於二個常態分布的變數間的相依性測量，且兩者要用於完整資料

(24)

(Hougaard, 2000)，故不太適合於存活資料的分析。總體相依性是一種類獨立(quasi-independence)的測量，因當相依性為零時，表二個變數間不相關，不代表兩者為獨立，但實務上，若相依性為零時，我們將二個事件時間之間視為獨立。Kendall's tau 是目前存活分析中常用的對總體相依性的無母數估計，不僅用於二個事件時間的相依性測量，也已推廣至復發事件(Fu, Su and Chang, 2015)。

總體相依性是假設其相依性與時間無關，但是若兩個事件時間的相依性具有時間的相關性時，則總體相依性會掩蓋相依性和時間之間的關聯，Hougaard (2000)將相依性與時間之間的框架分為早/晚、立即、

短期和長期的相依。當相依性具有上述的時間變化，則總體相依性用來測量相依性是不適合的。此時可用局部相依性(local dependence)或分段相依性(piece-wise dependence)來表示相依性的時間變化。

交叉比函數(cross-ratio function)是人們最常使用的局部相依性測量 (Clayton, 1978; Oakes, 1982b)，交叉比函數 最初定義如下

⁰ ⁰ ⁰ ⁰

0 0 0 0

( | ) ( | )

s f

t s s s t t

s t t t s s

  

 

 

  ， (2-1) 其意指若有父子二人，



_s(s t₀ | t₀)為子在父發病時間為

t

₀時，在時間

s

₀

的風險函數，



_s(s t₀ | t₀)則為子在父發病時間大於

t

₀時，在時間

s

₀的風險函數。同理，_f( |t₀ s s₀)為父在子發病時間為

s

₀時，在時間

t

₀的風險函數，_f( |t₀ s s₀)則為父在子發病時間大於

s

₀時，在時間

t

₀的風險函數。這個定義具有雙向的意義，在相關性測量上，是跟方向無關，

故採何種測量並無差別，但在因果關係上，卻是具有方向性的，故以父來看子是較有意義的運用。而此定義吸引的地方在於它具有良好的危險比的解釋，Day，Bryant 和 Lefkopoulou (1997)將其解釋為預測性

(25)

14

危險比(predictive hazard ratio)，且他們也發展出當標記時間少於終止事件時間時，若此交叉比函數為定值時的估計方法。Clayton copula 模型常用來估計這些交叉比函數，Clayton copula 模型具有以下的形式 C u v( , ) { u¹^^ v¹^^ 1}^1/(1^^，⁾  1， (2-2)

u

、

v

為雙變數存活函數，



為其 copula 變數。當雙變數存活函數屬於 Clayton copula 一族時，在(2-2)式中的



可表達成在(2-1)式中的

 (Clayton, 1978)， Oakes (Oakes, 1989) 提供了另一種方法測量局部相依性的方法，他定義

( ) ( ) ( )

{( , ) }

( ) ,

{( , ) }

a b ab

P T T concordant T t t P T T disconcordant T t

  ^





其中T^{( )}â (T₁^{( )}â ,T₂^{( )}â )和T^{( )}^b (T₁^{( )}^b ,T₂^{( )}^b )為二隨機配對組，

( ) ( ) ( )

min( , )

ab a b

T  T T ，則 ( ) t 為當T⁽^ab⁾ t時，一致配對的機率對上不一致配對的機率之比率，而這個比率{ ( ) 1} / { ( ) 1} t   t  則是 Kendall's tau 的條件式版本。而阿基米德 copula 家族(Archimedean copula family)中的其他成員也被用來測量雙變數存活函數模型的相關性(Shih and Louis, 1995)。在交叉比和 Kendall's tau 的條件式版本的基礎上，Fan，

Hsu 和 Prentice(2000)提出了兩種方法來估計在有限時間內的雙變數存活函數的相依性;Nan 等人(2006)則採用分段時間內交叉比為常數的假設去估計標記事件的年齡和停經年齡之間的關聯。而運用局部相依性的加權也可用來估計總體相依性，這方法稱為加權平均倒數交叉比 (weighted average reciprocal cross-ratio) (Fan et al., 2000)，而這種總體相依性的估計的重點在於要使用何種加權函數去加權局部相依性。

由上所述，交叉比函數、Kendall's tau 和 copula 為現今測量多變數函數之相依性之主要方向。

(26)

(Ⅱ) 邊際模型的分析

邊際模型主要的目的是根據依變數的邊際分布，去看其共變數對其邊際存活函數的影響，其事件或人之間的相依性並不是研究的重點 (Spiekerman and Lin, 1998)，在應用上，若是平行資料時，常使用獨立工作模式(independence working model, IWM)的假設來做參數的估計，

其結果雖為不偏，但其對變異數的估計卻因未考量其相依性而為有偏的，故在變異數的估計時，雖不考量相依性的特定分布，卻仍將相依性納入變異數的估計中，此時對變異數常用的穩健估計量為三明治式變異數估計量(sandwich variance estimator)。

若是復發事件資料，邊際迴歸模型已經被一些作者所採用，舉例來說，Li 和 Lagakos (1997)在對事件定義後，將死亡視為復發事件的受限變數，及每次復發的存活時間為復發事件時間或死亡的最小時間，

而採用 WLW 邊際模型(Wei, Lin and Weissfeld, 1989)的方法用在多變數事件存活資料。Cook 和 Lawless (1997)利用在某一特定時間內的存活者的復發事件的平均頻率/速率的函數用來分析復發事件。另外，Ghosh 和 Lin (2000)提出了復發事件的累計數目的邊際平均數的無母數估計法，他們(Ghosh and Lin, 2002)還開發了另外對於復發事件的累計數目的邊際平均數的兩種半母數法的估計方法，因估計法涉及右受限時間是累積機率，但右受限時間會有受終止時間受限的問題，一種是使用跟受限機率成反比的加權法(inverse probability of censoring weighting，

IPCW)來消除其干擾，另一種類似的技術，是以存活機率成反比的加權法（inverse probability of survival weighting ，IPSW）。Wang 和 Chang (1999)提出對間隔時間的無母數估計法，另外，Chang (2004)專注在間隔時間和其共變數的關係，雖然在其模式中，有利用到脆弱性變數，

但她利用期望值和 log-rank 的估計法去除脆弱性變數的影響，而得到

(27)

16

參數的估計值。在這些文章中，邊際模型並不特定或模式化事件之間的相依性。

(Ⅲ) 條件與聯合模型

如果我們想要模式化多變數事件的聯合機率，就應將事件之間的相依性考慮在模式中。在事件風險函數的假設中，脆弱性變數模型利用脆弱性變數來指定相依性，如利用未終止事件和終止事件的脆弱性變數去指定事件間相依性，或利用復發事件間的脆弱性變數去指定復發事件間的相依性，或人和人間的的脆弱性變數去指定人和人間的相依性; 條件在這些脆弱性變數上，未終止事件和終止事件是獨立的，復發事件間是獨立的，人和人間是獨立的，故群集中未終止事件和終止事件風險的聯合函數，可以利用觀察到的共變數和未觀察的脆弱性變數來呈現其事件風險函數。若是共同隨機效應模型，則用一個共同脆弱性變數(shared frailty)去指定上述的相依性，而不是用多個的脆弱性變數去指定個別的相依性，在應用上，如 Lancaster 和 Intrator (1998) 利用共同隨機效應模型透過一個共同的不可測的個人所特有的脆弱性變數，去模型化愛滋病毒感染的病人的住院和存活的聯合分布。

在脆弱性變數模型(Huang and Wang, 2004; Huang and Liu, 2007;

Lancaster and Intrator, 1998; Liu et al., 2004; Ye et al., 2007)中，若存在脆弱性變數下，事件歷程是一個非均質的 Poisson 過程(nonhomogeneous Poisson process)，這是此類模式在估計參數時的核心想法。而在處理脆弱性變數時，因為它為一隱性變數，是未知的，必須要像處理遺漏值 (missing value)一樣，故處理方式也有多種方法。像 Liu 等人(2004)使用一個共同脆弱性變數去指定復發事件間的相依性及復發事件和死亡間的相依性，他們使用一個平均值為 1，變異數為的 gamma frailty 來描述此共同脆弱性變數，而在估計時，是使用 E-M (expectation-maximum)

(28)

的方法。而 Huang 和 Liu (2007)也是用相同的概念，只是重點在於間隔時間(gap times)。

copula 模式常用於經濟上的分析，而其模式在存活上，是結合存活時間邊際分布和 copula 變數去分析多變數存活聯合函數的一種模式 (Day et al., 1997; Oakes, 1989)。但 copula 模式是一個非常強烈的假設，

在實際的資料應用上是否符合，仍是一個需要注意的重點。且 copula 模式是要用到存活時間的邊際分布，不同的存活時間之間彼此並不會被對方受限，彼此間也沒有方向性，故要應用在實際的資料應用上，

要先了解 copula 模式的限制，若存活時間彼此間有受限或存活時間的邊際分布存在的估計問題的資料，若使用 copula 模式，可能不太適合。

值得注意的是，在雙變數存活( , )T T 資料中，₁ ₂ T₁ T₂和T₁ T₂都可被直接觀察到。

(Ⅳ) 多階段模式

當被觀察者在觀察期間經歷不同的階段時，多階段模式會是一個自然發展出來的模式。在多階段模式中，必須要定義狀態空間(state

space)，狀態可以定義為事件的發生或某種生化值的變化，而狀態的變

化是一個隨機過程(stochastic process)，而時間可以是離散的或連續的。

當多階段模式用於臨床資料時，必須要定義狀態及路徑，透過事件發生的路徑的定義，可簡化並限制事件聯合機率化為條件機率的過程。

當事件為有序時，我們假設下一個事件的機率只根據上一個事件而決定，這樣的假設稱為馬可夫過程(Markov process)(Wu, Yen and Chen,

2004)。如將處在狀態的間隔時間的分布考慮在上述的模式中，則可稱

為半馬可夫模式(semi-Markov model)(Kang and Lagakos, 2007)。若所觀

(29)

18

察的事件是受看不見的狀態所支配，而狀態的變換仍依從馬可夫過程，這種模式則為隱藏式馬可夫模式(hidden Markov model)(Bartolomeo, Trerotoli and Serio, 2011; Titman and Sharples, 2010)。若將半馬可夫模式和隱藏式馬可夫模式結合而具有兩者特徵的模式稱為隱藏式半馬可夫模式(hidden semi-Markov model)(Aydin, Altunbasak and Borodovsky,

2006)。當下一個事件的機率不只根據上一個事件而決定，而是前二個

事件(含)以上而決定時，則稱為高階馬可夫模式(higher order Markov model)(Seifert et al., 2012)。因馬可夫模式常涉及多個參數的估計，在樣本數有限的狀況下，常是使用母數估計法。但多階段模式的路徑為人為定義，且多階段模式本身即為一非常強烈的假設，故模式檢定(model

checking)對此模式是重要的。

3．標誌歷程

在長期資料的研究中，我們會從個案的追蹤得到額外的訊息，此訊息涉及到個人的存活特性。此類訊息在醫學上往往可作為預後指標，我們可以稱它們為標誌。標誌可能是一個生物標誌，被觀察者目前的狀態，或多種因子(factor)的總和。標誌歷程(marker process)是一個隨機過程，它記錄著標誌在觀察時間內的變化(Whitmore et al., 1998)。標誌歷程的路徑可能會提供個案走向終止事件或其他事件的進展訊息。例如，免疫標誌可提供免疫性疾病的進展訊息，如血液中CD4細胞的數目，可以用在已感染愛滋病毒的人做為定期測量的工具，以提供愛滋病進展的訊息(Choi et al., 1993)，當CD4細胞數目少於每微升 200個，感染者便容易出現多種伺機性感染或一些不常見的腫瘤，此時稱為後天性免疫不全症候群(acquired immunodeficiency syndrome，

(30)

AIDS)，故治療的起點可以CD4細胞的數目當做參考的重點。CD4細胞數目的變化可做為一個標誌歷程，可用來預測感染愛滋病毒的人的病程。標誌也可能是追蹤觀察患有特定疾病的病人時，其在疾病的過程中多種非致命的疾病狀態的一種狀態，通常這種非致命的疾病狀態仍會影響最後的存活率。標誌過程是由被研究和觀察的個案所產生，

只有在個案仍存活和未受限的情況下，它才可被觀察(Fine et al., 2001)。 (Ⅰ) 標誌歷程的應用

有幾種可能的標誌歷程的統計應用。首先，它可以作為回歸模型

的時間依賴性共變數。Liao等人(2005)運用一組隨時間變化的生化指數做為共變量而形成的數值，作為小型肝細胞癌的預後指標。其次，標誌的過程可以視為輔助變量以估計邊際存活函數，Lagakos (1977)在可 觀察到 X  的區域，在Y (X，Y)具有某特定分布假設下，利用標誌歷程 (X)去改善存活函數(Y)的估計。第三，標誌歷程可以作為臨床試驗中的治療效果的替代終點。使用替代終點的主要動機之一是減少臨床研究的時間，如Flandre和O’Quigley (1995)在一個兩階段程序流程中，運用標誌歷程做為替代終點以減少追蹤的時間，且其結果也沒有損失太多的訊息。而在乳癌的研究中，Neri 等人(2007)發現，復發的時間似乎是遠端轉移和存活的顯著預後因素，此提供了復發的時間做為存活的替代終點的可能性。第四，標誌歷程可以用來做為在臨床試驗中的治療效果的主要結果。標誌歷程是無病存活分析(disease free survival

analysis)的主要終點之一，在這種分析中，它們是終止事件的競爭風

險。在一個匯集18個第三階段(phase III)的輔助治療結腸癌的試驗的資料分析中，相較於傳統的結果-因任何原因死亡，無病存活分析是一個合適的結果(Sargent et al., 2005)。第五，標誌歷程可以作為時間分層的依據，如在史丹佛心臟移植的研究中，心臟移植的時間被用來作為時

(31)

20

間分層的依據(Kalbfleisch and Prentice, 2002)。最後，標誌歷程可以作為多階段模型中的中介狀態，在以多次上消化道內視鏡檢查的結果的基礎上，從而建立起從正常到幽門螺旋桿菌感染後，到最後形成胃癌的多階段模式為例，這些上消化道內視鏡檢查的結果即是標誌歷程(Liu

et al., 2006)。而上面所述，即為標誌歷過程可能的實際應用。

(Ⅱ) 右受限的標誌歷程

標誌歷程易受到右受限的影響，包括標誌路徑的觀察被終止事件所終止、研究終止或觀察個案隨機的失去追蹤。如果受限是由於研究終止或觀察個案隨機的失去追蹤而發生，那麼它可以看作是一個標誌事件和終止事件的獨立性受限。相比之下，當受限時間取決於未觀測到的終止事件時間或終止事件的發生，此時便出現標誌事件的相依性受限。在臨床研究中，我們通常對標誌的進程和終止事件的關係感興趣，所以標誌歷程同時受到相依性受限和獨立性受限，故在處理標誌的進程和終止事件時，必須同時處理相依性受限和獨立性受限的問題。

(Ⅲ) 前進式三階段資料

標誌歷程可以轉化為事件過程，如果我們將標誌的變化定義為在時間域的事件，如此，終止事件合併標誌歷程可被視為雙變數或多變數存活資料。如我們僅考慮第一次非終止事件發生的時間，此在隨機模式(stochastic model)中被稱為首返時間(first return time)，此為標誌歷程應用上基本的模式，此模式Fine等人(2001)將此看作是一個競爭風險問題的一種變形，因終止事件的發生會使非終止事件的觀察停止，

故為非終止事件的受限事件，但反過來，非終止事件的發生，不會讓終止事件不會發生，故不為終止事件的受限事件，此與競爭風險不同，

故他們把它叫做半競爭風險資料。而另一種看法，此一進程可被看作

(32)

是一個病情惡化的自然過程中的多階段模式的一種特定變形。因疾病的侵略性質，我們可稱為前進性三階段資料。

(Ⅳ) 前進式三階段資料之統計分析

Cox (1972) 所提出之時間依賴性Cox模型可用來假設標誌歷程和

終止事件之間的關係，這是一個合理和自然的方式來解釋標誌歷程和終止事件的模式，這可能也是目前臨床醫師較為熟悉用於解釋標誌歷程和終止事件的關係的迴歸模式(Boberg et al., 2002; Hartmann et al., 2012; Williams et al., 2010)。時間依賴性Cox 模型從原型來看，它是利用即時的訊息去預測下一刻的風險，故為解釋，而不是預測。而Day

等人(1997) 所提出的預測性危險比，使得標誌歷程對於終止事件的發

生，不止只有具有解釋的意味，也具有預測的地位。Fine等人( 2001) 在這種資料結構中，他們所著重是在終止事件的相依性受限上，如何去做標誌歷程的標誌時間(或稱中介時間)的估計及其相依性的估計。相較於Fine等人使用 Clayton copula的假設下對相依性的估計，Wang

(2003)則擴大到其他copula的假設下，對其相依性的估計。Fine 和Peng

(2007)則將終止事件當做標誌歷程的相依性受限，其重點在於影響標誌

歷程的標誌時間的共變數的係數估計，其模式為一時間相依性之copula 模式，其估計法為一非線性估計方程式(nonlinear estimating

equations)。Hsieh，Wang 和Ding(2008)則採用 Chang (2000)的

Two-sample的做法的概念，他們利用 copula模式化標誌時間和終止時

間的關係，在第一階段時，先估計所謂的干擾參數(nuisance

parameters)，如標誌時間和終止時間的邊際分布及copula參數，在第

二階段時，再設定標誌時間和其共參數的不同模式關係，其重點亦在於影響標誌時間的參數的係數估計，之後他們用半參數轉換模式 (semiparametric transformation model)去設定標誌時間和終止時間和其

(33)

22

共變數間的關係，再提出了同時可估計影響標誌時間和終止時間的參數估計方法(Ding et al., 2009)，此方法是根據log-rank的方法。而Chen

(2012)稍後也提出了估計影響標誌時間和終止時間的參數估計方法，他

對標誌時間和終止時間和其共變數間的模式也是為半參數轉換模式，

而標誌時間和終止時間的聯合分布亦是用copula模式，但他用的是最

大概似法(maximum likelihood)估計。在標誌歷過程的應用上，我們提

到標誌歷程可以作為臨床試驗中的治療效果的替代終點，而如何評估此種替代性(surrogacy)是一個需要解決的問題，Ghosh (2009) 提出了在單一臨床實驗中，如何在這種資料結構中評估用標誌歷程做為終止事件的替代終點的方法，他對標誌時間和終止時間的模式為加速失效時間模型(accelerated failure time model)，之後他們利用同樣的模式又提出了在多個相近的臨床實驗中，如何評估用標誌歷程做為終止事件的替代終點的方法(Ghosh, Taylor and Sargent, 2012)。Lakhal，Rivest和

Abdous(2008)提出了標誌歷程和終止事件間相依性的估計方法，並提出

了標誌歷程和終止事件的聯合存活函數的估計方法，其方法的延伸固然讓標誌歷程對於終止事件的發生具有預測的地位，但其使用了copula 的假設，在實際的資料運用上是否符合是個問題。另外，當標誌事件未發生時，標誌歷程對於終止事件的發生的預測並無估計，也缺少其他影響標誌歷程及終止事件的共變數之係數估計。

在上述的標誌歷程的統計運用中，可看到前輩們研究的方向，一個方向是對於標誌歷程和終止事件間相依性的估計，主要是使用copula 家族的模式(Fine et al., 2001; Lakhal et al., 2008; Wang, 2003);有些人則著重在影響標誌歷程和終止事件的共變數的迴歸參數估計(Chen, 2012;

Ding et al., 2009; Hsieh et al., 2008; Peng and Fine, 2007);有些人則專注在標誌歷程做為終止事件的替代終點(Ghosh, 2009; Ghosh et al., 2012);

(34)

而標誌時間分布的估計也是另一個方向(Fine et al., 2001)。若將脆弱性模型運用在此，其重點也是在影響標誌歷程和終止事件的共變數的迴歸參數估計(Chang, 2004; Huang and Wang, 2004; Huang and Liu, 2007;

Liu et al., 2004)。唯終止事件往往是臨床上最重要的事件，故應是臨床

研究上最重要的目標，而標誌歷程往往跟終止事件有關，使得臨床醫師在患者的追蹤中，其重點在於標誌歷程，希望通過對標誌歷程和其他共變數的了解，能夠推估未來存活機率，Lakhal等人(2008)提出的方

法(Archimedean copula)雖能估計標誌歷程和終止事件的聯合存活函

數，但他們模式中並未探討其他共變數的影響。

臨床上常面臨的問題是假如發生了或尚未發生某種事件(標誌)，

此將對患者的預後產生什麼影響?而在不同臨床分級的患者，標誌事件的發生與否，是否其未來預後有差別，也是很重要的課題，如乳癌一期跟三期的患者，如發生復發，兩者在存活上有沒有差異，而復發的時間的早晚是不是跟其存活有關，這些例子都是患者跟臨床工作者很想知道的問題，且影響的程度也是他們息息相關所關注的問題。而目前的研究方法，從上面的方法，可知並無法完全解決大家的需求，故本研究試圖為上述的問題，提出解決方法，希望能針對同一種疾病但不同嚴重程度的患者，在追踨中出現或未出現某種徵兆，而能預測其後續的存活機率，如此可量化標誌事件對終止事件的影響。本研究提出了一個半參數模型，將利用某段時間內的標誌歷程的訊息，並將結合共變數的訊息，以用來估計未來某時間時終止事件的存活機率。本研究使用無偏的資料及利用時間依賴性Cox模型來解釋標誌歷程和終止事件的相依性結構，並推廣Xu和O'Quigley (2000)的方法，利用標誌歷程和共變數的條件式分布來預測未來存活機率。

(35)

24

4．不同 Cox 模式對時間依賴性變數之處理

過去使用 Cox 模式處理時間依賴性變數時，這些變數是當做不隨

時間變動的變數，即在追踨中有進行治療(如移植)或有遠處轉移者，

一開始便被當作有反應者或轉移者，因為在存活分析時會產生起點的誤差，會誇大治療的結果或低估轉移的後果，這樣的問題在 1970 年代開始被重視(Gail, 1972)，而癌症治療也有相同的問題，重大事件分析 (landmark analysis)便被提出來處理這個問題(Anderson, Cain and Gelber,

1983)，重大事件分析的方法是用重大事件的時間做分界，指在 Cox 模

式中，分在某個特定時間內有發生重大事件的族群及沒有發生重大事件的族群，再比較兩者存活的差別，此法必須要知道在特定時間時是否已發生重大事件，故必須將觀察時間小於特定時間的個案去除，故無法充分利用資料中所有之訊息。而相較於此，時間依賴性 Cox 模式則會充分利用訊息，故有平滑(smoothing)的效果，但時間依賴性 Cox 模式為一即時解釋模式，無法用過去標誌歷程直接預測未來存活機率，故如果要用標誌歷程預測終止事件，需要其他的轉變。

5．所用之甲狀腺乳突癌資料

甲狀腺癌為內分泌系統中發生率最高的癌症，而在台灣的甲狀腺

(36)

癌中，發生率最高的是甲狀腺乳突癌。為討探甲狀腺癌相關之預後因子，以台大醫院就診之甲狀腺癌患者為世代進行存活研究(相關台大論理委員會通過文件，見附錄 A)。此研究採醫院為基礎的回溯性研究，

其研究世代的構成為在台大醫院看診之甲狀腺癌患者。首先利用疾病診斷碼 193 收集疑似甲狀腺癌的住院或門診之台大醫院個案號碼，共 3319 個疑似案例。並利用病歷回顧的方法去確定這些案例是否為甲狀腺癌患者，其中在 1985 年至 2007 年，共有 2634 個甲狀腺癌的診斷案例。而甲狀腺乳突癌的案例為 2093 個(佔 79.5 %)。再去除 475 個病理報告不完整的乳突癌個案，最後留下 1636 個案例。我們收集個案的性別、出生年月日、臨床症狀、就醫時間、甲狀腺超音波的特徵、甲狀腺細針穿刺細胞學結果、開刀時間及手術發現、術後併發症、病理結果、術後放射線治療、就診時間及追踨結果。研究的成果刊登於Clinical Endocrinology(Su, Chang and Chang, 2015)。

我們以 2009 年年底為觀察終點，平均追踨時間為 97.3 ± 69.5 個月，(中位數為 84 個月，範圍為 1-299 個月)。在這些個案中，至少535 個案例(32.7 %)在開刀時已有淋巴結轉移，另外在觀察期間，有 90 個案例(5.5 %)有遠處轉移，其中 43 個在一開始的癌症分期評估中發現，

而另外的 47 個則是在追踨中出現遠處轉移。他們平均發現轉移的平均時間為 5.63 ± 5.14 年(中位數為 3.52 年)。此外，有 134 個案例(8.2%)

(37)

26

在追踨期間至少有一次局部復發，而發現局部復發的平均時間為 3.89

± 3.67 年(中位數為 3.02 年)。

在不分死亡原因的存活分析中，我們採用時間依賴性Cox模式來做相關預後因子的多因子分析，其結果顯示男性(風險比為 1.96，95%

信賴區間為 1.41~2.74)、較大的年紀(40-60 歲對小於 40 歲之風險比為 5.55，95% 信賴區間為 3.21~9.58 及大於 60 歲對小於 40 歲之風險比為 24.55，信賴區間為 14.10~42.74)、有遠處轉移(風險比為 6.83，

95% CI 信賴區間為 4.51~10.36)、局部復發(風險比為 1.98， 95%信賴區間為 1.30~3.02)、較大的腫瘤 (最大徑> 4 公分) (風險比為 2.20，95% 信賴區間為 1.43~3.39)、甲狀腺旁組織侵犯(風險比為 1.55，95%信賴區間為 1.11~2.16)和淋巴結轉移(風險比為 2.42，95%

信賴區間為 1.33~4.40)為其危險因子。唯一具保護作用的術後使用碘 -131 做甲狀腺組織的清除，使用較高的碘-131 劑量有較佳的保護作用(使用大於 30 mCi 的劑量對不使用的風險比為 0.41，95%信賴區間為 0.28~0.62 及小於 30 mCi 的劑量對不使用的風險比為 0.65，95%

信賴區間為 0.43~1.00)。我將以此甲狀腺乳突癌的患者為例，做為本論文之應用範例。

(38)

第三章．方法

方法將分四個小節進行，第一小節將先說明並定義符號，且說明

並定義所使用之完整資料結構及實際上的右受限資料型態。第二小節則說明所使用之時間依賴性Cox模式。第三節依不同的資料型態及不同的時間依賴性Cox模式依序推導估計方法，並解決實際上可能遇到之右受限問題及最後存活機率不為零的問題。第四節則為此估計量之一致性(consistence)及漸進常態性(normality)的特性。

1．符號及資料結構

本研究的資料結構為含標誌事件及終止事件的多變數存活資料，

為一長期追蹤資料，我們採用的原型為前進式三階段資料，或稱為半競爭風險資料，為上述資料結構之最簡單模式，以做為未來擴展至更複雜模式之基礎。進展疾病死亡模式(progressive illness death model)為前進式三階段資料典型的例子(Kalbfleisch and Prentice, 2002)，我們以甲狀腺乳突癌來說明進展疾病死亡模式，個體在診斷出疾病後進入研究，則診斷出疾病為階段0(啟始狀態)，如甲狀腺乳突癌患者進行甲狀腺切除手術時，即可稱為階段0，而在進入階段0後，個體的疾病發展過程可能為路徑一，即先發生標誌事件(階段 1，非終止狀態)，如甲狀腺乳突癌患者發生肺部轉移或局部復發，則肺部轉移或局部復發為階段1，而進入階段 1後再發生甲狀腺癌相關死亡(階段 2，終止狀態)；而另一疾病發展過程為路徑二，由疾病診斷(階段0)後，不經標誌事件而直接死亡(階段2，終止狀態)，如甲狀腺乳突癌直接侵襲氣管而造成

(39)

28

診斷出疾病(階段 0，

啟始事件)

發生標誌事件(階段 1，

非終止事件)

死亡(階段 2，終止事件) 個體死亡。所以個體可能的疾病發展過程如圖1。

圖一進展疾病死亡模式

在研究進行中，有時會因為個體在研究期間退出研究、失去聯絡，

或在研究終止前還沒有發生終止事件，而無法觀察到終止事件或標誌事件的發生，進而無法得到完整的存活時間或標誌時間，這種導致存活訊息不全的事件稱為右受限(right censoring)事件，而此種無法完全觀察到完整存活時間的資料為右受限資料。在我們的研究中，主要探討的是標誌過程對於終止事件發生的預測，所用之資料結構亦為右受限資料。以下先定義資料所需的符號及資料結構。

TD：從疾病診斷到發生終止事件的時間，為存活時間(survival time)，在

t

時間時，其機率密度函數(probability distribution function，pdf)為 f t ，累積分配函數(( ) cumulative distribution function，cdf) 為F t ，其存活函數為( ) S t( )P T( _D   t) 1 F t( )，另

( | )

f   為T 的條件機率密度函數。_D

TM：從疾病診斷到發生標誌事件的時間，為標誌時間(marker time) ，在

t

時間時，其機率密度函數為g t ，累積分配函數為( ) G t ，( ) 但T 會受到_M T 的發生而受限，故上述的密度函數為一假想存在的_D 函數，但可做為條件式機率密度函數之過渡函數，g( | )  為T 的條_M 件機率密度函數，因T 會受到_M T 的發生而受限之故，故在_D

T

_D

 u

條

標誌歷程之動態存活預測的統計分析

國立臺灣大學公衛學院流行病學與預防醫學所 生統組博士論文

National Taiwan University Doctoral Dissertation

標誌歷程之動態存活預測的統計分析

Statistical Analysis for Dynamic Survival Prediction Involving Marker Processes

蘇登煌

Deng-Huang Su

指導教授: 張淑惠 教授

Advisor : Shu-Hui Chang, Professor

中華民國 105 年 1 月

January, 2016

目錄

圖目錄

表目錄



t

s



t

s

s

t

s

t

u

v





t

t

T

 u

國立臺灣大學公衛學院流行病學與預防醫學所生統組博士論文

指導教授: 張淑惠教授