03-01 非干擾性質的風險因子

(1)

非干擾性質的風險因子

鄭光甫主任/講座教授干擾因子的考量起因於簡單的分析邏輯；假設我們使用統計迴歸分析方法去探討風險因子x 對疾病結果₁ y的影響效應時，我們必須確認影響效應是因為曝露於這個研究的風險因子而不是因為曝露於其他沒考慮的風險因子。因此，應用迴歸模型探討因子x 對疾病結果₁ y的影響效應時，假如存有第三個變數x 也是疾病₂ 結果y的風險因子時，我們通常都會面臨是否要要將x 放入迴歸模型共同分析的₂ 困難抉擇。若是放x 進入迴歸模型的前後，發現₂ x 對疾病結果₁ y的影響效應的估計有明顯的差異，則我們稱變數x 是₂ x 及₁ y的干擾因子(confounding factor)。否則，我們稱變數x 是非干擾性質的因子(non-confounding factor)。若存在干擾因子，₂ 我們分析x -₁ y關聯時必須用干擾因子作調整，否則分析會產生錯誤的結論。很多人以為風險因子x 是否為干擾因子和因子₂ x -₁ x 間是否存在有關聯(非₂ 獨立)有莫大的干係。例如，在醫學的臨床實驗中，若是x =1 或 0 分別代表治療₁ 組或控制組，由於隨機分派治療組或控制組的作法使得任何風險因子x 和₂ x 顯得₁ 獨立無關；因為x -₁ x 間獨立互不存在影響，很多人就認定風險因子₂ x 是非干擾₂ 性質的風險因子。事實上，這種論點有部分是正確的有部分不是正確的。理論證明，若是風險因子x 和₂ x 獨立無關的話，且使用的迴歸模型是線性迴歸模型，則₁ 2 x 是非干擾性質的風險因子；若是使用的迴歸模型是邏輯斯迴歸模型，則x 仍有₂ 可能是干擾的風險因子。下面是一個研究抽菸x 對肺炎₁ y影響的案例，年齡x 是肺炎₂ y的風險因子 (勝算比為 7.86)，年齡-抽菸(x -₁ x )的勝算比為 1，顯示₂ x 和₁ x 不存在關聯。邏輯₂ 斯迴歸模型中只使用抽菸x 分析對肺炎₁ y的影響效應時發現x -₁ y勝算比為 7/3，但若同時使用x 和₁ x 分析對肺炎₂ y的影響效應時則發現x -₁ y勝算比提高為 9/3。這個例子指出，在邏輯斯迴歸分析中即使x 和₁ x 不存在關聯(獨立)，₂ x 仍然有可₂ 能是干擾因子。但是，理論也證明，在邏輯斯迴歸分析中若分別在y=0 (非肺炎的族群)及y=1 (肺炎的族群)下x 和₁ x 都不存在關聯(即條件獨立)時，則₂ x 一定是₂

(2)

非干擾性質的風險因子。高齡吸菸 非吸菸 肺炎 90 75 非肺炎 10 25 低齡吸菸 非吸菸 肺炎 50 25 非肺炎 50 75 高齡低齡吸菸 100 100 非吸菸 100 100 吸菸 非吸菸 肺炎 140 100 非肺炎 60 100 認定了x 是一個非干擾性質的風險因子後，₂ x 是否應該放在分析的迴歸模型₂ 和x 一同研究？通常的答案是應該放，因為這樣做會使得迴歸模型的“合適性₁ (goodness of fit)”更好，畢竟x 是一個風險因子。但是，若我們研究的主要重點是₂ 在探討x 對₁ y影響的效應時(例如醫學的臨床實驗)，檢定效應是否存在？或效應的估計有多少？就是我們要分析回答的問題，模型是否合適不是最重要。此時，我們必須問的應該是：放x 在分析的迴歸模型裡是否會加強檢定方法的檢定力？₂ 或降低估計方法的誤差？以下我們分二種迴歸模型來討論不同的代表性做法。 線性迴歸模型的情況： 假設下面的二種線性迴歸模型，且x 是一個非干擾性質的風險因子： ₂ 模型一，  E y( )₀*₁*x₁， 2 1 var( )y  ；模型二， E y( )₀_{1 1}x ₂x₂， 2 12 var( )y  。 y的期望值是E y( )，變異數是var( )y 。傳統上，我們用最小平方法(y為常態分配時即為最大槪似估計法)估計 * 1  及 ，估計量記為₁  及ˆ₁*  。由於模型二是 “正ˆ₁ 確”的模型， * 2 1 1 2 1 1 2 1 1 ˆ ( ) ( ( _i ) _i) /( ( _i ) ) E    E

_

x x x

_

x x ，又因為x 是一個非₂ 干擾性質的風險因子( ₂ 0)，所以x 和₂ x 必然是無任何的相關。惟，₁  及ˆ₁*  估ˆ₁ 計同樣的參數，但是他們的變異數不相同： 1 2 2 1 2 * , 1 2 , | 1 ˆ ₍₁ ₎ r ˆ ₍₁ ₎ x x y x x Va Var        ；

(3)

2 1 2 1 2 1 1 2 1 , , , 2 , | ₂ ₂ , , 1 1 x y x x x y y x x x x x y           ，是在給定 x 下₁ x 和₂ y 的部分相關係數 (partial correlation)， 1,2 x x  是x 和₁ x 的 Pearson 相關係數。因為₂ x 和₂ x 無任何的關聯，所₁ 以 1, 2 0 x x   ，導致 2 1 * 1 2 , | 1 ˆ r 1 1 ˆ ₍₁ ₎ y x x Va Var       。這解釋為何使用模型二有利的原因 (估計₁(₁*)的誤差較小，檢定 * 1( 1)=0   的檢定力較高)。 結論：若x 是非干擾性質的因子(₂   )，探討₂ 0 x -₁ y關聯的研究時使用模型二較好。 註：反過來， 2 1 , | 0 y x x   (等同於  )滿足時， ₂ 0 1 2 * 2 1 , 1 ˆ r (1 ) 1 ˆ x x Va Var       ；表示，若是有x 的模型中加入沒有解釋能力的因子時(₁   表示₂ 0 x 不是影響₂ y的風險因子)，可能會導致x 效應₁ 1(1*)的估計誤差增大或檢定 * 1( 1)=0   的檢定力下降。但若是x 和₂ ( , )x y 互相獨立的話則₁ 1,2 0 x x   ，和 2 1 , | 0 y x x   同時滿足，導致 * 1 1 ˆ r ˆ Va Var   =1，因此x -1 y關聯的研究中使用模型一或二並無不同。 邏輯斯廻歸模型的情況下： 我們討論下面的二種邏輯斯迴歸模型；模型二是 “正確”的模型：模型一， log



/(1)



₀*₁*x₁；模型二， log



/(1)



₀ ₁x₁₂x₂。理論上我們可證明，在邏輯斯廻歸模型的情況下，假如x 是非干擾性質的因子，₂ 則下面的條件之一會滿足或同步會滿足：(1)給定y時，x 和₁ x 獨立無關；(2)給定₂ 1 x 時，y和x 獨立無關(等同於₂ 2 0)。通常我們用最大槪似估計法估計 * 1  及 ，₁ 估計量記為 * 1 ˆ  及 。理論結果指出，若是僅有條件(1)滿足的話，則ˆ₁ * 1 1 ˆ r 1 ˆ Va Var    會成立，顯示模型二的作法會增加對 * 1  (= )估計的誤差，並且降低檢定₁ * 1 0   (= 1  )的檢定力。這個結果和線性迴歸的結果相反。 結論：x 是非干擾性質的風險因子的話，在邏輯斯廻歸模型的情況下使用模型一₂

(4)

較好。 註：若是僅有條件(2)滿足的話(₂ 0)，則 * 1 1 ˆ r 1 ˆ Va Var    也會成立，即放入無效應的 非干擾性質因子在邏輯斯迴歸分析中，對 * 1  (= )的估計誤差會增加，並且降低₁ 檢定 * 1 0   (= )的檢定力。 ₁ 請特別注意，條件(1)和線性迴歸模型假設的：“x 和₁ x 獨立無關”的條件是不同的。₂ 最後，(1)和(2)同步滿足的話，則條件等同於“x 和₂ ( , )x y 互相獨立”的條件，此時₁ 可證明 * 1 1 ˆ r 1 ˆ Va Var    ，即放或不放x 在邏輯斯廻歸模型中均不會改變2 * 1  (= )估計₁ 的誤差。前面針對x -₁ y關聯的研究，討論是否要放非干擾性質的風險因子x 進入廻₂ 歸模型中共同分析的優缺點。Neuhause 等人則特別額外考量x 和₁ x 是否相關的₂ 情形，強調在臨床實驗研究(x 和₁ x 獨立無關)時，₂ x -₁ y關聯迴歸(廣義線性迴歸) 分析中放入非干擾性質的風險因子x 作分析可以提高檢定力以及降低估計誤差；₂ 另外，在世代研究時(x 和₁ x 相關)，非干擾性質的風險因子₂ x 不應放入迴歸模型₂ 中分析。 在其他的研究方法中是否使用模型一或二較有利？結論是和取得分析資料 的抽樣方法有關：例如，邏輯斯廻歸模型的情況下，若是資料是病例-對照研究 的資料，x 和₁ x 獨立無關，且疾病盛行率高(>20%)時，則使用模型二有較高的檢₂ 定力，但疾病盛行率很低僅有些許百分比時，則使用模型一經常有較高的檢定力。 參考資料

1. McCullagh, Peter and Nelder, John. (1989). Generalized Linear Models, Second

Edition. Boca Raton: Chapman and Hall/CRC.

2. Henrik Madsen and Poul Thyregod. (2011). Introduction to General and

(5)

3. Dobson, AJ and Barnett, AG. (2008). Introduction to Generalized Linear

Models (3rd ed). Boca Raton, FL: Chapman and Hall/CRC.

4. Hardin, James and Hilbe, Joseph. (2007). Generalized Linear Models and

Extensions (2nd ed). College Station: Stata Press.

5. Robinson, LD and Jewell, NP. (1991). Some Surprising Results about Covariate Adjustment in Logistic Regression Model. International Statistical Review, 59, 227-240.

6. Neuhause, MJ. (1998).Estimation Efficiency with Omitted Covariates in Generalized Linear Models. J American Statistical Association , 93, 1124-1129. 7. Pirinen, M, Donnelly, P and Spencer, CCA. (2012). Including Known Covariates

can Reduce Power to Detect Genetic Effects in Case-Control Studies. Nature Genetics, 44, 848-851.