利用微晶片資料診斷疾病準確性測度量之研究

(1)

行政院國家科學委員會專題研究計畫成果報告 計畫中文名稱: 利用微晶片資料診斷疾病準確性測度量之研究

計畫英文名稱: On the accuracy of diagnosing disease for microarray data 計畫編號 : NSC93-2118-M006-005

執行期限 : 93 年 8 月 1 日至 94 年 7 月 31 日主持人: 馬瀰嘉國立成功大學統計學研究所碩士兼任助理: 蔡旻熹

中文摘要

對於一種診斷測量值的準確性，通常利用 ROC 曲線下面積來評估，而目前的醫學診斷中，利用多個診斷測量值同時評估某種疾病之方法是常見的，例如: 生物微晶片

(microarray)上數個基因的表現值，同時被用來診斷某種疾病。針對同時使用多種不同診斷測量值去評估某種疾病，本文提出一多變量 ROC 曲線下面積來評估準確性，並在隨機效應模型下導出其估計量及其信賴區間。另外一無母數估計方法也被提出並利用統計模擬比較兩估計方法。

關鍵字：ROC 曲線，無母數的估計量，多個診斷測量值

Abstract

A statistical tool which is popular for describing the accuracy of diagnostic is the receive operating characteristic (ROC) curve. In fact, it is possible that several diagnostic

markers are used to detect a disease, e.g.

microarray data, and how one can measure their simultaneous diagnostic accuracy. Based on the random effect model, we derive an estimate of the area under multivariate ROC curve. A model-based estimation and an approximated confidence interval are derived by combining the confidence intervals of two parameters using Bonferroni method. A nonparametric

estimation will also be proposed and compared to the model-based estimate by a simulation study.

Keywords: AUROC, nonparametric estimation, multiple markers.

1. 前言

假設 X 為一個診斷測量值，若 則判斷為

有病。敏感度(sensitivity)的定義為病人真有病經由診斷也為有病的機率，明確度(specificity) 的定義為病人沒有病經由診斷亦為沒病的機率，令給定

c X ≥

=1

Y 時隨機變數 X 為變數 ₁，給定

X

=0

Y 時為變數。令和為和

的累積分配函數(c.d.f.)，和

X2 G(⋅) F(⋅) X₁

X2 g(⋅) f(⋅)為

和的機率密度函數(p.d.f.)，c 為切斷點 (cutoff point)，由這些假設，敏感度和明確度可以被表示如下: 敏感度=

X1

X2

) ( 1 ) (

) 1

|

(X c Y P X₁ c G c

P ≥ = = ≥ = −

明確度=P(X <c|Y =2)=P(X₂ <c)=F(c). AUROC 的公式如下:

∫

≥

=

≥

=

−

=

1

0 1 1 2

1 0

) (

) ( ) (

)) ( 1 ( )) ( 1 (

X X P dc c f c X P

c F d c θ G

(1) 本文第二節針對同時使用種不同診斷測量值評估某種疾病時，提出多變量 ROC 曲線及其曲線下面積(AUMROC)；第三節介紹提出的兩種估計方法；第四節以模擬實驗來比較兩種估計方法；第五節為結論與討論。

l

1

(2)

2. 多變量 ROC 曲線下面積 假設Xr₁

為有病這群人所得的個診斷值，也就是

l

) , , , ( ) 1

|

( ₁₁ ₂₁ ₁

1 ≡ X Y = = X X X_l ′

Xr r L

和Xr₂

為健康這群人所得的個診斷值，也就是

l

) , , , ( ) 2

|

( ₁₂ ₂₂ ₂

2 ≡ X Y = = X X X_l ′

Xr r L

而Xr =(X₁,X₂,L,X_l)。假設Xr₁

的 c.d.f.為 )

(x

G v 和 p.d.f.為 g v ；(x) Xr₂

的 c.d.f.為 F v 和(x) p.d.f.為 f v 。如果(x) 或 …或

，則被檢驗者會被判定為有病的，意

即如果和和…和，則

被檢驗者會被判定為健康的。此時多變量敏感度和多變量明確度可表示如下:

1

1 c

X ≥ X₂ ≥c₂

l

l c

X ≥

1

1 c

X < X₂ <c₂ X_l <c_l

多變量敏感度= P(Xv₁>cv) =1−G(cr) 多變量明確度= P(Xv₂≤cv) =F(cr)

多變量 ROC 曲線可定義為從F(cr)至G(cr)的函數 R(．)，意即G(cr =) R(F(cr))，其中

l， cl

c c

cr =( ₁, ₂,L, )∈(−∞,∞) )

( 1 )

(c F c

F r = − r ，G(cr)=1−G(cr)。如果

和 …和，則被檢驗者

被判定為有病的，可令

和，

。因此，多變量敏感度和多變量明確度可以被表示成

1

1 c

X ≥ X₂ ≥c₂ X_l ≥c_l

l

l X

V X V X

V₁ =− ₁, ₂ =− ₂,L, =− ci^' =−ci

l i=1,L,

多變量敏感度

=P(V₁₁ ≤c₁^' andV₂₁ ≤c₂^' andLandV_l₁ ≤c_l^')

=G^*(cr^')

1-多變量明確度

=1−P(V₁₂ >c₁^' orV₂₂ >c₂^' orLorV_l₂ >c_l^')

=P(V₁₂ ≤c₁^' andV₂₂ ≤c₂^' andLandV_l₂ ≤c_l^')

=F^*(cr^')

其中G^* 和F^*分別是和的累積分配函數。

) , , (V₁₁ LV_l₁ )

, , (V₁₂ L V_l₂

那麼 AUMROC 的公式能被表示如下:

) (

) ( ) (

2 1 12

11

2 1 12

11

' 2 '

1 12 1

0

' 1 '

1 11 1 0

'

* '

*

l l

X X and and

X X P

V V and and

V V P

c V and and

c V dP

c V and and

c V P

c dF c G

≥

=

≤

=

≤

=

∫

L L

L L r θ r

(2)

令是有病這群人中第個病人

第

1

Xij i(i=1,K,n1) )

, , 1 (j l

j = K 個診斷測量值，是健康這

群人中第

'j2

Xi

) , , 1

( ^' ₂

' i n

i = K 個病人第

) , , 1 (j l

j = K 個診斷測量值，那麼 AUMROC 也能被表示為 θ = P[X_ij₁ > X_i'_j₂, j=1,K,l]。 3. AUMROC 的估計方法

本文提出兩種不同估計 AUMROC 的方法。第一種方法是假設在隨機效果模型下估計 AUMROC，第二種方法是使用無母數統計方法估計。介紹如下:

(1) 隨機效果模型下的估計

假設Xijk符合隨機效果模型，表示如下:

2 , 1

, , , 1 , , , 1 ,

=

= +

+ +

= k

l j

n i

e a t

X_ijk μ_k _ik _jk _ijk K _k K 其中μ 是第種健康狀況的母體平均，也就_k 是

k

μ 為有病這群人的總平均；1 μ 為健康這群2

人的總平均；是第種健康狀況下第個人

的隨機效應，意即；是第種

健康狀況下個體經由第

tik k i

) , 0 (

~ t²

iid

ik N

t σ ajk k

j 種診斷測量值的隨

2

(3)

機效應，意即；為誤差項，

假設；利用上面的假設，可以

計算此二因子隨機效果模型的變異數，令為病人的均方和，MSA為診斷測量值的

均方和，而為誤差均方和，公式如下:

) , 0 (

~ a² iid

jk N

a σ eijk

) , 0 (

~ e² iid

ijk N

e σ

MST

MSE

∑ ∑ ∑

= = = ⋅⋅ 2

k)

⋅ −X + −

= ²

1 1 1

2

1 2)

/(

(

k n

i l

j k i

k

n n X

MST

∑ ∑ ∑

= = = ⋅ − ⋅⋅ −

= ²

1 1 1

2 /2( 1) )

(

k n

i l

j

k jk

k

l X

X MSA

∑∑∑= = = − ⋅ − ⋅ + ⋅⋅ − + −

=

= ²

1 1 1

2 1 2

2 ( ) /( 1)( 2)

ˆ

k n

i l

j

k jk k i ijk e

k

n n l X X X X σ MSE

在上述模型假設下，AUMROCθ 如下:

[

^l

]

Z Zr

E ( ( ξ))

θ = Φ + , 及其估計量

[

^l

]

Z

m E ( (Zrˆ ˆ))

ˆ ξ

θ = Φ + , (3) 其中 Z 呈標準常態分配， 為標準常態分配的累積分配函數，而

Φ

2 2 2

ˆ ˆ ˆ ˆ

e a

r t

σ σ σ +

= ,

σe

μ ξ μ

2ˆ ˆ ˆ= ˆ¹− ² ,

l MSE MST

t

= − ˆ2

σ 和

2 / ) ˆ (

2 1 2

n n

MSE MSA

a +

= −

σ 。

由於θ 會隨增加而遞減，故將l θ 開次方,得到一個修正的測度量

l ϕ，其

估計量為 _m _m^l

1

ˆ θˆ

ϕ = 。 (4) 由 delta 方法(delta method)可推導出的變異數估計量如下:

θ^ˆm

ˆ), ˆ, ( ˆ)) ˆ, ( ˆ))(

ˆ, ( ( 2

ˆ) ( ˆ))

ˆ, ( ( ˆ) ( ˆ)) ˆ, ( ( ˆ ) (

' '

2 '

r Cov r g r g

r Var r g Var

r g Var

r

r m

ξ ξ

ξ

ξ ξ

ξ θ

ξ ξ

∧

+

=

{ }

∫^∞ ^Φ ⁺ ⁺ ⁻^Φ ⁻ ^Φ

=

= (ˆ,ˆ) 0 [ (ˆ ˆ)] [1 (ˆ ˆ)] ( )

ˆm g ξ r rZ ξ ^l rZ ξ ^l d Z

θ

, ) ( } ˆ) ˆ ( ˆ)]

ˆ ( 1 [

ˆ) (ˆ ˆ)]

(ˆ [ {

)| ,ˆ (ˆ ˆ)

ˆ, (

1 0

1 ) , ( ˆ) ˆ, ( '

dZ Z Z Z r Z

r l

Z Z r Z

r l

r r r g

g

l l

r r r

φ ξ φ

ξ

ξ φ

ξ

ξ ξ _ξ _ξ

−

− Φ

−

+ +

Φ

=

∂

= ∂

−

∞ −

=

∫

, ) ( ˆ)}

(ˆ ˆ)]

(ˆ 1 [

ˆ) (ˆ ˆ)]

(ˆ [ {

)| ,ˆ (ˆ ˆ)

ˆ, (

1 0

1 ) , ( ˆ) ˆ, ( '

dZ Z Z

r Z

r l

Z r Z

r l

r r g

g

l l

r r

φ ξ φ

ξ

ξ φ

ξ ξ

ξ ξ _ξ _ξ

ξ

−

− Φ

− +

+ +

Φ

=

∂

= ∂

−

∞ −

=

∫

而φ 是標準常態分配的機率密度函數,

⎪⎭

⎪⎬

⎫

⎪⎩

⎪⎨

⎧

⎥⎦

⎢ ⎤

⎣

⎡ Γ

− Γ

− +

= ⁻

∧ 2

2 2 1 2 2

2 2

) (

) ˆ (

) 2 1 ˆ 2( 2ˆ

ˆ ˆ)

( _υ

δ υ

δ υ υ

υ ξ σ

e

Var k

) 4 ( ) 2 ˆ (

) ˆ 2

( 2 2 ˆ

) 1 (ˆ

2 2 2 1

2 1 2 2 2

) ( 2

2 1

2

1 − −

− +

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

≈ −

+ + +

∧

m m

m

m m r m

Var

n n l

n n

ϕ l

) ˆ (

ˆ , ), 2 )(

1 (

2 1 2 2 2

2 1

1 ˆ 1

ˆ 2 ˆ

ˆ ˆ 2

1

n n l l

k

e t

k a

n n l

+

=

− +

−

=

+ +

− σ

σ σ

μ

δ μ

υ

2 2

1 2

2

2 2 2 2 1

)]

( [ 2

)]

( [ ) ( ) 1 (

ˆ ˆ ) ˆ

2( ) 1 ,ˆ (ˆ

υ υ υ

υ

σ υ σ σ μ μ ξ

Γ Γ

− Γ

+

−

=

−

∧ −

e a

r t

Cov

,

其中

) /(

)

ˆ₁ ( ₁ ₂ ² ₂ ₂²²₍ ₁₎²

2 1

2 2

1+ − + −

+

= d MST d MSA _n^d ^MST_n ^d ^MSA_l

m ,

) 2 )(

1

( ₁ ₂

2 = l− n +n −

m , 和

1 2

2 1 n

d = n⁺ ,d₂ =l,d₃ =l(n₁ +n₂)/2, 由 delta 方法可得到

ˆ ) ˆ (

ˆ )

( 2 ¹

1 2

m l m

m Var

Var^∧ ϕ = θ ^l⁻^l ^∧ θ (5) 由於θ 的信賴區間(confidence interval)可由兩

部分組成，一部份是ξ的信賴區間，另一部份 是 r 的信賴區間。ξ之100(1−α)%信賴區間為

⎟⎟⎠

⎜⎜ ⎞

⎝

⎛ ˆ± ^∧ (ˆ)

2

ξ ξ Zα Var

3

(4)

r 之100(1−α)%信賴區間如下:

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡

+ +

− + +

+

− +

− (

ˆ ( ) ;

(

) 2 ˆ (

2 1

2 1 ,

, 2 1

1 2 1 ,

, ₁ ₂

2 2 2 1

n n l

n n F

n n l

l n n

Fα _m _m α _m _m

ψ ψ

) ) 2l

其中 d MSE

MSA d MST d

3 2

ˆ 1 +

ψ = 。

利用 Bonferroni 方法計算聯合的信賴區間，

則(Zr+ξ)的100(1−α)%信賴區間表示如下:

) , (L U

ˆ) ˆ (

) (

) 2 ˆ (

4 2

4 1

2 1

2 1 ,

,

ξ ψ ξ

α α

− ∧

+ + +

− +

= Z Var

n n l

l n n Z F

L

m m

ˆ) ˆ (

) (

) 2 ˆ (

4 2

4 1 1 2

2 1 ,

, 1

ξ ψ ξ

α α

∧

−

+ + +

+

− +

= Z Var

n n l

l n n Z F

U

m m

則ϕ的100(1−α)%信賴區間如下:

[

^{Ê^[(^Φ⁽^L⁾⁾^l^]}¹^/^l^,^{Ê^[(^Φ⁽Û⁾⁾^l^]}¹^/^l

]

(6) (2)無母數方法估計

無母數估計是指不需要任何分配的假設，本文提出一無母數方法來估計θ (AUMROC)，

估計量表示如下:

∑∑∏

= = =

>

= ¹ ²

'

1 1 1

1 2 2

1

) 1 (

ˆ ⁿ

i n

i l

j

j ij i

s I X X

n

θ n (7)

估計公式如下:

ˆ ) ( _s Var θ

2 1

2 2

1 1)ˆ

ˆ ( ˆ ˆ )

( nn

n n

Var s ^s B ^s

θ θ =θ ⁺ ⁻ ⁺ ⁻

∧

其中

∑∑∑∏

∑ ∑∑∏

≠ =

= ≠ =

>

+

>

=

1 1 2

'

' '

1 2

' 2

'

' '

)

&

1 (

)

&

1 ( ˆ

1 2 1 2

2 1 1

1

1 2 1 2

2 1 1

n

i n

m n

i

j mj i

j ij i

l

j n

i n

m

j ij m

j ij i

l

j

X X

X X n I

n

X X X

X n I

B n

ˆ ) ( _s

Var^∧ θ 是動差的估計方法，因不具不偏性，

所以推導Var(θˆ_s)另一不偏估計量如下:

) 1 (

)ˆ 1 ˆ (

ˆ ˆ )

~(

2 1 2 1

2 2 1

− +

−

− +

−

= +

n n n n

n n

V s ^s B ^s

θ

θ θ (8) θ 的100(1−α)%信賴區間如下:

⎟⎠

⎜ ⎞

⎝⎛ ˆ − ~(ˆ ), ˆ + ~(ˆ )

2

2 s s s

s Z V θ θ Z V θ

θ α α

修正測度量ϕ =θ¹^l的無母數估計量及其變異數估計公式如下所示:

l

s s

ˆ1

ˆ θ

ϕ = , ~(ˆ )

ˆ ) (1 ˆ )

( ¹ ²

1

s s

s V

Var^∧ ϕ = lθ^l⁻ θ (9) ϕ的100(1−α)%信賴區間如下:

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛⎜⎝⎛ −_s Z V _s ⎟⎠⎞^l ⎜⎝⎛ +_s Z V _s ⎟⎠⎞^l

1 1

ˆ )

~( , ˆ

ˆ )

~( ˆ

2 2

θ θ

θ

θ α α

4.模擬結果

因篇幅關係省略模擬過程，模擬結果顯示，

以ϕˆ_m估計出的準確值較接近真正的ϕ值，亦即平均偏差是較小的，ϕˆ_m的變異數較ϕˆ_s的變異數小，信賴區間的涵蓋機率也較接近 95%。

5.結論與建議

假設隨機效果模型下估計方法的缺點是必須適用在有相同測度單位的診斷測量值上，而藉由無母數方法估計則無此缺點，綜合而言，藉由無母數方法估計準確性之方法ϕˆ_s雖然在模擬上其偏誤和均方誤都較ϕˆ_m稍大，但其不需要任何分配或模型的假設，又考量到不同診斷測量值在同一個體上測量的相關性。當同時使用多個診斷測量值去評估某種疾病時，本文推薦利用ϕˆ_s估計其準確性。

參考文獻

DeLong, E., DeLong, D., and Clarke-Pearson, D., “Comparing the areas under two or more correlated receiver operation characteristic curves : A nonparametric approach”, Biometrics, 44, 837-845, 1988.

Ma, M. C. and Ou, J. C., “The eatimation of the area under multivariate ROC Curve”, submitted, 2003.

4