長期存活資料比率之統計分析
蘇秀媛
1*、蘇志雄
2、謝鑫能
1 1國立台灣大學農藝學系 2致理技術學院會計學系摘要
在 存 活 資 料 中 , 若 試 驗 期 間 能 無 限 延 長,有部份資料將能永久存活,故稱長期存 活資料。本文中長期存活資料為區間設限資 料型式,假設存活母體為指數分布與Weibull 分布,定義區間設限資料下的概度函數,並 導出長期存活資料比率之最大概度估計式及 概度比檢定,同時利用Kaplan-Meier 的估 計方法,提出無母數方法來估計「區間設限 長期存活資料」比率及其檢定方法。本文利 用蒙地卡羅統計模擬方法比較在最大概度法 及無母數方法不同情形下的表現狀況,結果 發現無母數方法在檢定「區間設限長期存活 資料」比率的表現優於最大概度法,此與長 期 存 活 資 料 為 右 方 設 限 資 料 型 式 之 結 果 一 致。 關鍵詞︰長期存活資料、區間設限、最大概 度估計、概度比檢定。Statistical Analysis of Proportion of
Long-term Survivor Data
Hsiu-Yuan Su1*, Chih-Hsiung Su2, and Hsin-Neng Hsieh1
1 Department of Agronomy, National Taiwan University, Taiperi 10617, Taiwan ROC
2 Department of Accounting, Chihlee Institute of Technology, Banciao, Taipei Hsien 22050, Taiwan ROC
ABSTRACT
The long-term survival data means some of the data can survive in definite time. The likelihood function with interval-censored data was defined when the survival population was assumed to be exponential or Weibull distribution. The MLE (maximum likelihood estimator) and LRT (likelihood ratio test) can be derived from long-term survival data. Furthermore, a nonparametric method for estimating proportion of long-term survival data was derived based on Kaplan-Meier’s estimation. In this paper, we compared the MLE and nonparametric method by Monte Carlo simulation method for long-term survival data. We found that the performance of nonparametric test was better than maximum likelihood ratio test, which was similar to the results obtained with right-censored data.
Key words: Long-term survivor data, Interval-
censored, Maximum likelihood estimator, Likelihood ratio test.
前言
統 計 上 對 於 不 完 整 資 料(incomplete data)的分析,大致上可以分為缺失值資料 (missing data)及設限資料(censoring data) 兩 大 類 。 對 觀 察 的 試 驗 資 料 記 錄 事 件 開 始 (time begin)及結束(time end)之試驗觀察時 間稱為存活時間(survival time)。若實際的存 活時間受到試驗時間的結束造成資料的不完 整,此類資料雖造成缺失,但仍會留下訊息, 稱具有此種資料之試驗觀察資料為設限資料 * 通信作者, [email protected] 投 稿 日 期:2006 年 5 月 10 日 接 受 日 期:2006 年 7 月 30 日 作 物 、 環境 與生 物 資 訊 3:337-344 (2006)
Crop, Environment & Bioinformatics 3:337-344 (2006) 189 Chung-Cheng Rd., Wufeng, Taichung Hsien 41301, Taiwan ROC
(censored data)。Kaplan and Meier (1958) 提 出 設 限 資 料 估 計 存 活 函 數(survival function) 之 無 母 數 方 法 。 Gehan (1965) 、 Mantel and Haenszel (1959)、Peto and Pike (1973) 、 Charkraborti and Desu (1991) 及 Chen (1994)相繼提出比較分析之統計方法。
長期存活資料(long-term survival data) 指在整個存活時間分布具有長久存活之個體 存在 (Maller and Zhou 1996),若F tT( )為存 活 時 間 之 累 積 分 布 函 數 (cumulated distribution function),則通常FT( ) 1∞ = ,但 若擁有長期存活資料時,則Fr(∞)=p, 0<p< 1,而1 p− 即為母群中之長期存活資料比率, 又稱免疫比例(immune proportion)。Boag (1949)是最早提出「長期存活資料」統計分析 的學者(Boag 稱「長期存活資料」為「治癒 資料」)。Boag 利用英國某醫院中自 1929 至 1938 年之 121 名乳癌病患,記錄這 9 年來接 受治療後的存活時間,但 9 年後仍有存活之 病患,Boag 認為此資料不能完全視為設限資 料,亦有可能屬於被完全治癒之病患。由於 Boag 利用卡方適合度檢定,認為存活時間 lognormal 分布較指數分布適合,提出一混 合模型(mixed model),並導出參數的最大概 度估計量。 Haybittle (1965)利 用 指 數 型 式 來 表 示 『 被 治 癒 』 之 比 率1− = =p c e−kβ , 推 導 出 Gompertz 模式,Haybittle 利用最大概度估 計法推估 c,β,但並沒有直接檢定 c 之值, 只 是 估 算 出 其 標 準 誤 差(standard error)。 Goldman (1984)引用指數分布作為存活時間 之分布,建立混合模式,並分析一組自1973 至 1979 年之 33 個攝護腺癌病患(1973-1979) 之存活時間,及利用蒙地卡羅模擬,發現其 最大概度估計量具有不偏的性質。 Farewell (1977)利用 Logistic 函數作為 共變數
X
v
之連結函數(link function),成為 Bernoulli 分布「發生」之機率,並假設存活 時 間 服 從 指 數 分 布 , 討 論 實 驗 設 限 時 間 及 Bernoulli 分布「發生」之機率大小對該混合 模式之效率。Farewell (1982)引用相同觀念, 考慮存活時間服從Weibull 分布,分析魚在不 同的鋅含量中其存活時間之差異。 Gordon (1990)提出一組資料中有兩種 可能的致命因素,觀察樣本資料中可以明確 判定是屬於何種因素致命,Gordon 做一假設 對某種特定因素來作分析時,將所有病人區 分為兩個部分,一部份為未治瘉組與另一部 份皆視為治瘉組。並提出混合式 Gompertz 分布,利用最大概度估計法估計參數並予以 分析。 Su et al. (2000, 2003)利用存活分析的概 念,將種子發芽時間視為存活資料來處理分 析,將溫度視為可解釋之變數時,引用加速 失 敗 時 間 模 式(accelerated failure time model)進行分析。Su et al. (2005)延用 Boag 的方法,透過存活分析(survival analysis)的 統計方法,建立種子發芽比率的統計推論, 將種子發芽時間視為統計上一組第 I 類型的 右 方 設 限 存 活 資 料(type I right censored survival data),定義在右方設限資料下概度 函數,並假設存活母體為指數分布與Weibull 分布,導出「右方設限長期存活資料」比率 之最大概度估計式及概度比檢定,同時利用 Kaplan-Meier 的估計方法,提出無母數方 法來估計「長期存活資料」比率及檢定方法。 本文是Su et al. (2005)的延伸,同樣嘗試 以存活分析的概念,將種子發芽資料視為存 活資料來處理。種子發芽的時間只知道介於 兩個時間點之內,實際上確切時間並無法觀 察到,故將每一顆種子之發芽時間視為區間 設 限 長 期 存 活 資 料 (interval censored long-term survivor data),建立種子發芽比 率的統計推論。透過存活分析的統計方法, 來建立種子長期存活資料的發芽比率之統計 推論。存活分析方法之數學函數及其估計
假設存活時間 T 為連續型之隨機變數, 則 可 定 義 以 下 數 個 重 要 存 活 分 析 之 數 學 函數: (1)存活機率密度函數(probability density function): 0 ( ) ( ) lim , 0 . T P t T t f t t ε ε ε → < < + = ≥ (2) 存 活 累 積 分 布 函 數 (accumulated distribution function): 0 ( ) ( ) t ( ) , 0 . T r T F t =P T t≤ =
∫
f u du t≥ (3)存活函數(survival function): ( ) ( ) ( ) 1 ( ), 0 . T r t T t S t =P T t≥ =∫
∞f u du= −F t t≥ (4)故障函數(hazard function): 0 ( | ) ( ) lim ( ) , 0 . ( ) r T T T P t T t T t h t f t t S t ε ε ε → < < + > = = ≥Kaplan and Meier (1958)利用 product limit 的無母數方法,提出存活函數S tT( )之估 計式為:
其中nj表示存活時間tj前確定存活之個數, j d 表示存活時間tj前之「發生」之個數,將 存活時間分成k個區間,並利用Greenwood 法則推導出Sˆ tT()之標準誤差:
{ }
ˆ . . T( ) S E S t = 1 ˆ ( ) ( ) k j T j k j j d S t n n d = −∑
長期存活資料比率之統計推論
假設存活時間為T
,其機率密度函數為 ( ), 0 T f t t≥ ,存活函數為S t tT( ), 0≥ ,長期存活 資料比率為ST( ) 1∞ = −p, 0< <p 1。 考 慮 由t0= < < <0 t1 t2 L< < ∞tk ,(k+1)個 時間點,將時間切割成k段,第i
段時間區間 為(ti−1, ) ,ti i=1, 2, ,L k;設n
i表示在第i段時間 區 間 內 發 生 之 個 體 總 數 , i=1, 2, ,L k , 1 k i u i n n = =∑
;n
表所有個數總體。則資料之概度 函數為[
1] [
]
1 ( ( ) ( )) i ( ) 1 u k n n n T i T i T k i p S t− S t p S t p − = ⎧ ⎫ =⎨ − ⎬⋅ ⋅ + − ⎩∏
⎭ l 故資料之對數概度函數為 且 其 參 數 向 量 為θv=(θ1,θ2,L,θs,p)′, 其 中 s 2 1,θ , ,θ θ L 為存活時間母體分布之參數,p為 總 發 生 率 參 數 。 求 出θv
之 最 大 概 度 估 計 量θ
ˆv,並導出其p之概度比檢定及(1−α
)100% 信賴區間。 1.有母數方法 (1) 當長期存活資料為區間設限資料且母體 為指數分布(exponential(λ
)) 其概度函數為 1 1 { [ ( i i) }[ k 1 ] u k t t n t n n i p e−λ− e−λ pe−λ p − = =∏
− + − l 對數概度函數為 1 1log [log log log( i i)]
k t t i i L n p λ e−λ− e−λ = = =
∑
+ + − l ( ) log( tk 1 ) u n n pe−λ p + − + − 參數向量為θ
=
(
λ
, p
)
'
(i)θv之點估計: 利用Newton-Raphson 數值方法可求得 近似解, 。(ii) θv之 共 變 數 矩 陣(covariance matrix)之 估計: ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ 2 2 2 2 ) ( ) ( ) ( ) ( ) ( p p p U l l l l λ λ λ 其中
令 則 ^ 1 ( ) ( , ) ( ) ( , ) ( ) Var Cov p Cov p Var
U
θ λ λ λ λ θ ∧ ∧ ∧ ∧ ∧ − ∧ ∧ ∧ ∧ ∧ ∧ ∧ ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ Σ = ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ = v ur 其中 (iii)p之(1-α
)100%信賴區間估計為: 由於最大概度估計量具有漸進常態之特性, 故(θ θ) n M N. .(0, θ) ∧ →∞ − ⎯⎯⎯→ Σv v v v ,其中 . . M N 表 示多變量常態分布(Multivariate Normal Distribution),因此p之(1−α)100%信賴 區間為(iv)p之概度比檢定(likelihood ratio test):
0: 1 H p= v.s. H p1: <1 若H0:p=1成立之下:(即無『長期存 活資料』),則概度函數為 u k i i i t nn k i n t t e e e H − − = − −
∏
− ={ ( − ) }( ) ) ( 1 0 1 λ λ λ l 對數概度函數為 1 0 0 1 ( ) log ( ) log( i i) ( ) k t t i u k i H H n e−λ− e−λ n n λt = = =∑
− − − l l 則λ
之最大概度估計量為 ( 0)=0 ∂ ∂ λ H l ,可得 方程式 0 ) ( 1 1 1 1 = − − ⎥⎦ ⎤ ⎢⎣ ⎡ − − − − − − − = − −∑
t t i k t i t i k i i t n e e e t e t n n i i i i λ λ λ λ 其根即為λ 之最大概度估計值,λH∧ 0。因 此, u k t H t H k i i t H n n e e n H i i ∧ − − = ∧ − − − = − ∧ ∧ ∑ 0 1 0) log( ) ( ) ( λ 0 1 λ 0 λ l 。若 1 0 H H ∪ 成立之下,對數概度函數值為: 1 0 1 ( ) [log log ( i i)] k t t i i i H H n p λ e λ∧− e λ∧ ∧ ∧ − − = ∪ =∑
+ + − l ) 1 log( ) ( − ∧ − + − ∧ + n n pe ∧tk p u λ 因此,檢定統計量為 ^ ^ 0) ( 0 ) 2[ ( ] E H H Hi IG = − l −l ∪ 其決策法則如下:當IGE >χ
α2(1),則拒 絕H0;若 2(1) α χ ≤ E IG ,則接受H0。 (2) 當長期存活資料為區間設限資料且母體 為Weibull(
α
,
λ
)
分布 概度函數: u k i i i t n n k i n t t p pe e e p − − = − − + − ∏ − ={ [ ( − − )] }[ 1 ] 1 1 1 α α α λ λ λ l 對數概度函數: 參數向量:θ =(
α,λ,p)
'(i)θv之點估計:
利用Newton-Raphson 數值方法可求得 近似解,θ=(α∧,λ∧,p∧)。
(ii) θv之 共 變 數 矩 陣(covariance matrix)之 估計: ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ = 2 2 2 2 2 2 ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( p p p p p U l l l l l l l l l λ α λ λ λ α α α λ α ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = = ∑ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ − ) ˆ ( ) ˆ , ˆ ( ) ˆ , ˆ ( ) ˆ , ˆ ( ) ˆ ( ) ˆ , ˆ ( ) ˆ , ˆ ( ) ˆ , ˆ ( ) ˆ ( ) ˆ ( ˆ 1 ˆ p Var p Cov p Cov p Cov Var Cov p Cov Cov Var U λ α λ λ α λ α λ α α θ θ v v ) ˆ , ˆ , ˆ ( ) ˆ , ˆ , ˆ ( ) ˆ , ˆ , ˆ ( ) ˆ , ˆ , ˆ ( ) ˆ , ˆ , ˆ ( ) ˆ , ˆ , ˆ ( ) ˆ , ˆ , ˆ ( ) ˆ , ˆ , ˆ ( ) ˆ , ˆ , ˆ ( 33 23 13 23 22 12 13 12 11 p B p B p B p B p B p B p B p B p B λ α λ α λ α λ α λ α λ α λ α λ α λ α = Δ 其中, (ˆ) 1( (ˆ) (ˆ) (ˆ,ˆ)2) ∧ ∧ ∧ ∧ − ⋅ Δ
= Varα Varλ Covαλ
p Var 。 (iii)
p
之(1-α
)100%信賴區間估計為: ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − ∧ + ∧ ) ˆ ( ˆ , ) ˆ ( ˆ 2 2 p Var z p p Var z p α α(iv) p之概度比檢定(likelihood ratio test):
1 : 0 p= H v.s. H1:p<1 檢定統計量為 )] ( ) ˆ ( [ 2 0 0 1 ∧ ∪ − − = H H H Gw l l 決 策 法 則 : 當 2(1) w G >χα 則 拒 絕H ; 若0 2(1) w G ≤χα 則接受H0。 2.無母數方法 由0= < < <t0 t1 t2 L< < ∞tk ,(k+1)個 時 間 點,將時間切割成 k 段時間區間,第
j
段時 間區間為[tj−1, ] ,tj j=1, 2, ,L k;若所觀察值之 資料並不確定其真正發生時間,但可以知道 在時間[
Li , Ri]
,i=1, 2, ,L n區間內發生,利用 指標函數α
ij表示: 1 ( ) ( ) j j j p =S t −S t− 為第 j段時間區間發生之機 率。 Turnbull (1976)對於此類區間設限資料,對 於存活函數提出一遞迴估算公式演算法,其步驟 摘要如下: 步驟1:給定S0(tj)之起始值j=1, 2, ,L k 步驟2:計算pj=S t0( j−1)−S t0( ) ,j j=1, 2, ,L k 步驟3:估算在tj時之發生之總個數:∑
= ∑ = = n i j k s isps j p ij d 1 1α α 步驟4:估算在t
j前尚未發生之總個數:∑
==
k j s s jd
r
步驟5:利用 product limit 公式重新估計S(t) ( ) j j n j r d S t r ⎛ − ⎞ = ⎜⎜ ⎟⎟ ⎝ ⎠∏
步驟6:若S
n(t
)
與S
0(
t
)
相近,則停止;否則 利用S
n(t
)
取代S
0(
t
)
,遞迴步驟1~ 步驟5,直到S(t)收斂為Stb∧(t)。 (1)p之點估計: 2 ˆn 1 Tb( )k p = −S t (2)p之假設檢定 0: 1 H p= v.s. H p1: <1 檢定統計量:pˆn2= −1 S tTb( )k決策法則: 當 pˆn2<Cα2 則 拒 絕 H0 ; 若 2 2 ˆn p >Cα 則接受H0。其中,當 0 H 成立之下P p(ˆn2>Cα2)≤α, 2 α C 選取由模擬方式產生。 2 α C 之決定的模擬方式如下: 我 們 利 用 有 界 樣 本 估 算 區 間 半 徑 (interval radius),並且利用有界樣本之組中 點及無界樣本之端點,再利用所求之區間半 徑估算平均數。產生
n
組之( , )L Ri i ;其中每組 ( , )L Ri i 產生方法如下: 首 先 產 生 獨 立 之Li~exponential(1λ ), 1i, 2i~ C C uniform (0, 區 間 半 徑 ) ; 令 i i i T C L = − 1 ; Ri= +T Ci 2i ; 若 Li<0 則 令 0 i L = 。計算pˆn2之值。反覆執行5000 次,可 得 5000 筆pˆn2值。計算第(100×α)個百分位 數,可得α
水準下之臨界值。統計模擬
1.模擬方法我們欲對總發生率(total occur rate)(亦
即 F(∞)=p 或是(1-長期存活比率))的最大概
度檢定法探討其檢定力的表現,故利用蒙地 卡羅方法(Monte Carlo Method)來模擬最大 概度檢定法之檢定力的表現情形,透過模擬 的結果來檢查在顯著水準上的維持(即 p=1 時 之犯型I 錯誤之比率)及各種 p<1 之檢定力(正 確拒絕
H
0之比率)表現。其模擬代號如下: MLE(IG):區間設限資料之最大概度檢定 法 NON(I):區間設限資料之無母數檢定法 模擬及分析步驟摘要如下: (1)MLE(IG)方法之模擬: (i) 此種方法是針對區間設限整群資料所提 之方法,因此在模擬上,只考慮存活時間 分布即可,故沿用指數分布及Weibull 分 布,[expornential(λ=1)及 Weibull(α=3, β=3)]
。 (ii)觀察時間採用固定時間模式,記錄落在此 區間之個數。 T~exponential(λ=1): 取0, 0.2, 0.4, 0.6, 0.8, 1.0, 1.2, 1.3, 1.4, 1.5, 2.0(10 段區間) T~Weibull(α=3,β=3): 取0, 0.4, 0.8, 1.1, 1.4, 1.7, 2.0, 2.4, 2.8, 3.2, 4.0(10 段區間) (iii)樣本數 n=20, 50, 100。 (iv)在檢定力之模擬方面,必須考慮 p 值,故先 產生U~uniform(0,1),若 U<1-p,則屬於永 久存活資料,令觀察時間Xi=10(一定不屬 於觀察區間內);若U≧1-p,則在取觀察時 間為Xi =Ti。 (v)重複 5000 次,計算其平均發生拒絕率,當 p=1 時,其值為顯著水準;當 p<1 時,則為 檢定力。 (2) NON(I)方法之模擬: (i) 由於本法是針對區間設限資料非整群資 料,因此考慮其存活時間分布為指數分 布及 Weibull 分布。對於觀察時間,在 此是利用 uniform 分布產生,而且區間 長度將會影響其樣本資料結構,故考慮 下列情形: i T~ exponential(λ=1/30) C1~uniform(0,2),C2~uniform(0,2) C1~uniform(0,4),C2~uniform(0,4) C1~uniform(0,8),C2~uniform(0,8) 則(L Ri, i]為區間資料,其中Li = −T Ci 1i, 2 i i i R = +T C i T~Weibull(α=0.000873,β=2) C1~uniform(0,2),C2~uniform(0,2) C1~uniform(0,4),C2~uniform(0,4) C1~uniform(0,8),C2~uniform(0,8) 則(L Ri, i)為區間資料,其中Li= −T Ci 1i,2 i i i R = +T C (ii) 樣本數 n=20, 50, 100。 (iii) 在 檢 定 力 之 模 擬 方 面 , 必 須 考 慮
p
值 , 故 先 產 生 U~uniform(0,1) , 若 U<1-p
, 則 屬於 永久存 活資 料,則令 i R=∞(設為 99),Li= −T Ci 1i;若 U ≧1-p
,則Li= −T Ci 1i,Ri = +T Ci 2i。但 由於起始時間不可能為負,故當 Li<0 則令成Li=0。 (iv) 重複 5000 次,計算其平均發生拒絕率, 當p
=1 時,其值為顯著水準;當p
<1 時,則為檢定力。 2.模擬結果 設T
為指數分布時,Table 1 及 Table 2 分 別 為 有 母 數 方 法 MLE(IG)及無母數方法 NON(I)之模擬結果。當p=1時,表中所示為 其顯著水準,當p<1時,則表中之結果為其 檢定力。不論 MLE(IG)或 NON(I)之檢定力 均不是很好,只有在n大時,且p=0.5時,檢 定力表現較佳,且NON(I)在區間半徑低、中 時的表現比大區間半徑的表現為佳。整體而 言,利用無母數方法來檢定「區間設限長期 存活資料」比率的表現較最大概度法為穩健。設T為Weibull 分布時,Table 3 及 Table 4 則分別為有母數方法及無母數方法之模擬 結 果 。 其 結 果 與
T
為 指 數 分 布 時 之 結 果 類 似,只有在n大時,且p=0.5時,檢定力較高。討論
本文利用種子發芽行為資料,將觀察等 待發芽成功的時間,解釋成存活時間,對於 未能在觀察時間內發芽之種子資料,則視為 一種設限資料。但種子發芽的確切時間無法 確實觀察到,只知道種子發芽的時間介於兩 個時間點之內,實際上確切時間並無法觀察 到,於是本文將每一顆種子發芽存活時間都 視作區間設限資料,比Su et al. (2005)視作右 設限資料較為合理。Table 1. Results of MLE(IG) when distribution of T is an exponential function.
Total occur rate p=1.0 p=0.9 p=0.8 p=0.5
20 0.011 0.216 0.296 0.592
50 0.028 0.312 0.348 0.880
n
100 0.029 0.366 0.448 0.922 Table 2. Results of NON(I) when distribution of T is an exponential function.
Total occur rate p=1.0 p=0.9 p=0.8 p=0.5
Interval radius 2 4 8 2 4 8 2 4 8 2 4 8 20 0.017 0.008 0.004 0.157 0.273 0.210 0.255 0.314 0.221 0.267 0.473 0.340 50 0.023 0.013 0.036 0.233 0.423 0.340 0.353 0.540 0.320 0.573 0.733 0.480 n
100 0.027 0.027 0.055 0.433 0.557 0.493 0.533 0.610 0.440 0.813 0.807 0.593 Table 3. Results of MLE(IG) when distribution of T is a Weibull function.
Total occur rate p=1.0 p=0.9 p=0.8 p=0.5
20 0.011 0.196 0.201 0.300
50 0.021 0.281 0.298 0.899
n
Table 4. Results of NON(I) when distribution of T is a Weibull function.
Total occur rate p=1.0 p=0.9 p=0.8 p=0.5
Interval radius 2 4 8 2 4 8 2 4 8 2 4 8 20 0.024 0.015 0.012 0.163 0.273 0.123 0.245 0.314 0.202 0.207 0.468 0.340 50 0.027 0.032 0.032 0.251 0.423 0.210 0.352 0.514 0.320 0.563 0.713 0.377 n 100 0.030 0.022 0.055 0.476 0.557 0.493 0.533 0.610 0.440 0.913 0.824 0.382 Su et al. (2005)指出右方設限資料的最 大概度檢定法其顯著水準相當小,尤其在 低設限率時,很容易接受虛無假設,其主 要 原 因 是 由 於 模 式 中 的 參 數 將 訊 息 吸 收 了。本文以區間設限取代右方設限,模擬 結果顯示,當n大且p=0.5時,區間設限 資料的最大概度檢定法 MLE(IG)及無母數 方法NON(I)之檢定力表現較佳,而 NON(I) 在區間半徑低、中時的表現比大區間半徑 的表現為佳,整體來看,無母數方法仍較 為穩健。
引用文獻
Boag JW (1949) Maximum likelihood estimates of the proportion of patients cured by cancer therapy. J. Royal Statist. Soc., Series B 11:15-44.
Chakraborti S, Desu MM (1991) Linear rank tests for comparing treatments with a control when data are subject to unequal patterns of censorship. Statist. Neerlandica. 45:227-254. Chen YI (1994) A generalized steel procedure for
comparing several treatments with a control under random right-censorship. Commun.
Statist. Simul. Comp. 23:1-16.
Farewell VT (1977) A model for a binary variable with time censored observations. Biometrika 64:43-46.
Farewell VT (1982) The use of mixture models for the analysis of survival data with long-term survivors. Biometrics 38:1041-1046.
Gehan, EA (1965) A generalized Wilcoxon test for comparing arbitrarily singly-censored samples.
Biometrika 52:203-223.
Goldman AI (1984) Survivorship analysis when
curve is a possibility: a Monte Carlo study.
Statist. Medicine 3:153-163.
Gordon NH (1990) Application of the theory of finite mixtures for the estimation of ‘cure’ rates of treated cancer patients. Statist. Medicine 9:397-407.
Haybittle L (1965) A two–parameter model for the survival curve of treated cancer patients. J.
Amer. Statist. Assoc. 60:16-26.
Kaplan EL, P Meier (1958) Nonparametric estimation from incomplete observations. J.
Amer. Statist. Assoc. 53:457-481.
Maller RA, S Zhou (1996) Survival Analysis with Long-time Survivors. p.67-79. p.97-104. Wiley, New York.
Mantel N, Haenszel W (1959) Statistical aspects of the analysis of data from retrospective studies of disease. J. Natl. Center Inst. 22:719-748. Peto R, NC Pike (1973) Conservatism of the
approximation ( )2
O E− E
∑ in the logrank test for survival data or tumor incidence data.
Biometrics 29:579-584.
Su HY, CH Su, HL Wang (2000) Survival Analysis of the Effect of Temperature on Germination of Seeds. (in Chinese) Chinese Agron. J. 10:71-82. Su HY, IC Huang, HN Hsieh (2003) The Interval
Censored Survival Analysis for the Effect of Temperature on Germination of Seeds. (in Chinese) Chinese Agron. J. 13:141-149.
Su HY, CH Su, HN Hsieh (2005) The proportion of long-term survivor data in right censored case. (in Chinese) Crop Environ. Bioinform. 2:95-104.
Turnbull BW (1976) The empirical distribution function with arbitrarily grouped, censored and truncated data. J. Royal Statist. Soc.,
Series B 38:290-295.