第一章、 緒論
第三節、 本文架構
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第三節 本文架構
本文共分為六章節。第一章為緒論,闡述研究動機與背景、研究目的以及本 文架構。第二章為文獻回顧,由相關文獻探討「配對」與「傾向分數」的歷史與 發展過程,以及過去學者使用傾向分數配對所進行的實證研究與模擬研究結果,
其內容包含處理效果、傾向分數之性質、傾向分數之估計,最後說明配對後之平 衡診斷。第三章為研究方法,說明本研究所使用的研究方法,以及模擬的假設情 境。本文考慮四種情境來進行模擬比較,欲了解在何種情境之下,結合傾向分數 配對與確切配對能得到較佳之估計結果。第四章為蒙地卡羅模擬研究的結果與分 析。第五章為實證研究,使用內政部「青少年身心狀況調查」資料進行傾向分數 配對與確切配對之實證分析。探討社會學與犯罪學領域之相關議題「家庭結構對 青少年偏差行為之影響」,目的是想要了解來自非完整家庭之青少年是否較完整 家庭之青少年出現較多的偏差行為,希望能了解單親家庭之青少年成長過程中面 臨之難題,以協助單親家庭青少年接受到更多社會資源之協助與關懷。 第六章 為結論,此章節將說明本研究之結論、研究方法之限制和相關建議。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第二章 文獻回顧
本章將針對因果效應、傾向分數之概念、配對方法的發展、估計方法與使用方式、
距離之定義,以及對配對後樣本進行平衡性檢查進行回顧。
第一節 處理效果
一、 平均處理效果
根據 Neyman(1923)提出的反事實分析架構(counterfactual framework)及 Rubin(1974)對因果效應或稱處理效果的定義,處理效果可被定義為「可觀測到 的潛在結果」與「無法觀測到的潛在結果」(也就是所謂的反事實的結果)之間的 比較,這可以是兩者的差異𝑌1− 𝑌0或兩者的比率𝑌1/𝑌0。
由於在反應變數上,我們只能觀測到受詴者兩個潛在反應中的其中一個,即 受詴者在實驗組之下的潛在結果𝑌𝑖1或在對照組之下的潛在結果𝑌𝑖0,令W 為一個 代表處理指派的二元變數,受詴者為實驗組時,W = 1,為對照組時,W = 0,
則
𝑌𝑖
=
{𝑌𝑖0
𝑖𝑓
𝑊𝑖 = 0𝑌𝑖1
𝑖𝑓
𝑊𝑖 = 1(2.1) 其中𝑌𝑖1表示為受詴者i 在實驗組之下的潛在結果,𝑌𝑖0為受詴者i 在對照組之下的 潛在結果。因此受詴者i 所能觀察到的潛在結果可表示為:
𝑌𝑖 = 𝑊𝑖𝑌𝑖1+ (1 − 𝑊𝑖) 𝑌𝑖0
(2.2) 而其處理效果(treatment effect)可表示為:
∆𝑖= 𝑌𝑖1− 𝑌𝑖0
(2.3)
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
再者,就一組樣本大小為N 的隨機樣本來說,其平均處理效果(average treatment effect)可定義為:
𝐴𝑇𝐸 = 𝐸,∆- = 𝐸,𝑌1− 𝑌0- = 𝐸,𝑌1- − 𝐸,𝑌0-
而實驗組的平均處理效果(average treatment effect for the treated group) 可定義為:
𝐴𝑇𝑇 = 𝐸,𝑌1− 𝑌0 | 𝑊 = 1- = 𝐸,𝑌1 | 𝑊 = 1- − 𝐸,𝑌0 | 𝑊 = 1-
然而,無論於觀察性研究或隨機詴驗,我們皆無法同時觀察到受詴者i 的兩種潛 在結果,使得ATE 與 ATT 皆無法經由觀察來得到。因此,本文所要探討的內容 即是針對觀察性研究中,如何使用傾向分數一對一配對的方式來處理這個問題。
二、 處理指派可忽略
Rosenbaum 與 Rubin(1983)認為在一個觀察性研究中,必須完整地觀察到所有會 造成選樣偏誤的變數,這些變數與處理指派或反應變數相關。在控制住這些變數 後,才能達到隨機詴驗的隨機指派特性。而控制住這些變數可等價於假設一。
假設一 :處理指派可忽略(strongly ignorable treatment assignment)
, (𝑌0 , 𝑌1) ⊥ 𝑊 - | 𝑋
(假設一)中,𝑋代表所有會造成選樣偏誤的變數,已被觀測到且控制住,受詴者 接受處理與否與反應變數潛在結果獨立。因此在控制住𝑋之下,便可以得到隨機 指派特性。
在處理指派可忽略之下,觀察性資料可以(2.4)式得到不偏的ATE 與 ATT,
(2.4)式為可觀察到的結果:
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
𝐸 ,𝑌1 | 𝑊 = 1 , 𝑋- − 𝐸 ,𝑌0 | 𝑊 = 0 , 𝑋-
(2.4) 對控制變數𝑋取期望值就可以得到不偏處理效果,如下兩式所得:
(1)由(2.4)式得不偏ATE
𝐸𝑋* 𝐸 ,𝑌1 | 𝑊 = 1 , 𝑋- − 𝐸 ,𝑌0 | 𝑊 = 0 , 𝑋- +
= 𝐸𝑋* 𝐸 ,𝑌1 | 𝑋- − 𝐸 ,𝑌0 | 𝑋- +
= 𝐸𝑋* 𝐸 ,𝑌1− 𝑌0 | 𝑋- +
= 𝐸 ,𝑌1− 𝑌0-
= 𝐸,𝑌1- − 𝐸,𝑌0-
(2.5) (2) 由(2.4)式得不偏ATT
𝐸𝑋* 𝐸 ,𝑌1 | 𝑊 = 1 , 𝑋- − 𝐸 ,𝑌0 | 𝑊 = 0 , 𝑋- +
= 𝐸𝑋* 𝐸 ,𝑌1 | 𝑊 = 1 , 𝑋- − 𝐸 ,𝑌0 | 𝑊 = 1 , 𝑋- +
= 𝐸𝑋* 𝐸 ,𝑌1− 𝑌0 | 𝑊 = 1 , 𝑋- +
= 𝐸 ,𝑌1− 𝑌0 | 𝑊 = 1-
= 𝐸,𝑌1 | 𝑊 = 1- − 𝐸,𝑌0 | 𝑊 = 1-
(2.6) 在滿足處理指派可忽略之下,𝐸 ,𝑌0 | 𝑊 = 1 , 𝑋-能取代 𝐸 ,𝑌0 | 𝑊 = 0 , 𝑋-。
此外,於觀察性研究中我們藉由配對來估計「無法觀測到的潛在結果」,本 文使用的傾向分數一對一配對以實驗組為主角,對實驗組受詴者進行𝑌0的估計,
故所估計的處理效果為發生在實驗組受詴者身上的效果,即ATT。最後,在處理 指派可忽略之下,經由(1)與(2)可知ATT 等價於 ATE。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第二節 傾向分數之基本概念
如何將觀察性研究的資料經過適當的設計與安排後,能夠視為隨機詴驗的方 式來客觀探討處理效果的相關研究相當多,其中傾向分數在過去的這一、二十年 來受到各領域學者廣泛使用。舉例來說,Rubin(2001)使用傾向分數配對,來評 估吸食菸草對罹患肺癌之影響;Hansen(2004)則藉由傾向分數配對,來評估不同 教學方式對學生 SAT 成績的成效;Austin 與 Mamdani(2006)則針對出院三年內的 死亡率,使用傾向分數配對,來評估心臟病患者服用處方藥物 Statin 的效果;
Rosenbaum、Ross 與 Silber(2007)針對病患出院後的存活率,使用傾向分數配對,
來評估不同科別的醫師對於腫瘤的治療成效;Yoon、Huskamp、Busch 與
Normand(2011)則依據心理衛生醫療服務的使用程度,透過傾向分數配對來評估 美國聯邦政府於 2000 年健保政策改變後之成效1 。
一、 何謂傾向分數
一般而言,研究群體間的系統性差異(system difference)主要來自受詴者 本身的差異(subject effect)。Rosenbaum 與 Rubin (1983)提出的傾向分數,主 要用途是調整群體間的系統性差異,是一種能夠有效平衡群體間差異的方法。受 詴者的傾向分數被定義為給定該受詴者所有觀察得到的控制變數的情況下,接受 某處理或被指派至某特定群體的條件機率。以一個病例對照研究(case-control study)來做說明。令𝑊代表處理指派的二元變數,𝑊 = 1代表實驗組、𝑊 = 0代 表對照組;令𝑋代表可觀察到之控制變數向量,則一位受詴者 i 的傾向分數可表 示為:
𝑒(𝑋𝑖) = 𝑝(𝑊𝑖 = 1 | 𝑋𝑖 = 𝑥𝑖)
(2.7) 即受詴者i 在其所觀察得到的控制變數之下,接受處理或被指派至實驗組的機 率。
1美國聯邦政府所提供之健保政策,於 2000 年增加心理衛生醫療服務方面的保障。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
二、 傾向分數的性質
依據 Rosenbaum 與 Rubin(1983)的論述,傾向分數具有兩項重要性質:
(i) 傾向分數為平衡分數、(ii) 給定傾向分數下,處理指派可忽略。
(i)平衡分數(balancing score)
平衡表示兩組群體控制變數的分配相似,任何具有平衡性質的配對依據即可稱為 平衡分數。Rosenbaum 與 Rubin(1983)的「定理 1」及「定理 2」證明傾向分數為 平衡分數且具有單一維度的優點。傾向分數的平衡性質可以表示為:
, 𝑋 ⊥ 𝑊 - | 𝑒(𝑋)
(2.8) 即給定傾向分數之下,處理指派與可觀察到的控制變數為獨立。表示若將傾向分 數e(X)定義為控制變數的函數,在給定傾向分數之下,實驗組和對照組控制變 數X 的分配為相同,即平衡之意義可表示為:
𝑝𝑟𝑜𝑏( 𝑋 | 𝑊 = 1 , 𝑒(𝑋) ) = 𝑝𝑟𝑜𝑏( 𝑋 | 𝑊 = 0 , 𝑒(𝑋) ) = 𝑝𝑟𝑜𝑏( 𝑋 | 𝑒(𝑋) ) (2.9) 因此,使用傾向分數作為配對依據能使兩組群體在控制變數分配達到平衡,即分 配相同。
(ii) 給定傾向分數下,處理指派可忽略
Rosenbaum 與 Rubin(1983)的「定理 3」依據「傾向分數具有平衡性質」與「假 設 1 處理指派可忽略: , (𝑌0 , 𝑌1) ⊥ W - | 𝑋」,證明在控制傾向分數之下,處理指 派與反應變數潛在結果獨立,使得在給定傾向分數之下,處理指派可忽略亦成立:
, (𝑌0 , 𝑌1) ⊥ W - | 𝑒(𝑋)
(2.10)
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
因此,若將(2.4)式中控制變數X 改以傾向分數𝑒(𝑋)取代,得下式:
𝐸 ,𝑌1 | 𝑊 = 1 , 𝑒(𝑋)- − 𝐸 ,𝑌0 | 𝑊 = 0 , 𝑒(𝑋)-
(2.11) 使用(2.10)和(2.11)式,同樣可推得不偏的ATE 與 ATT。
Rosenbaum 與 Rubin(1983)的「定理 4」,即是證明給定傾向分數之下,平 均處理效果為不偏的處理效果。
三、 如何估計傾向分數
在隨機詴驗中,處理指派變數𝑊為隨機指派,每位受詴者有相同機率被指派 至處理,然而在觀察性研究中,被指派至處理的機率未知,故可將傾向分數視為 一未知函數,需要進一步使用觀察資料進行估計。
估計傾向分數最常見的方法為 Rosenbaum 與 Rubin (1983)所使用之羅吉斯 迴歸(logistic regression),模型中反應變數為處理指派W、解釋變數為所觀 察到的控制變數X,令𝛽代表迴歸係數的向量,則對受詴者而言,其傾向分數可 由二元羅吉斯迴歸估計得到:
𝑒(𝑋) = 𝑃(𝑊 = 1 |
𝑋 = 𝑥) =
𝑒𝑋𝛽1+𝑒𝑋𝛽
=
11+𝑒−𝑋𝛽
(2.12) 從配適的模型中得到接受處理的預測機率即為傾向分數。由於此模型屬於非線性 模型,表示處理指派與控制變數非線性函數關係。
Rosenbaum 與 Rubin (1985b) 提出,在作傾向分數配對時可以使用線性傾向分 數(linear propensity score)取代原本的傾向分數。作法為使用 Logit function 對傾向分數𝑒(𝑋)做線性轉換,以便得到線性傾向分數:
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
𝑞(𝑋) = 𝐿𝑜𝑔( 𝑒(𝑋)
1 − 𝑒(𝑋)) = 𝐿𝑜𝑔( 𝑃
1 − 𝑃) = 𝑋𝛽
(2.13) 轉換過後的線性傾向分數𝑞(𝑋)與控制變數𝑋為線性函數關係,好處在於其分配近 似常態分配。此外,Rosenbaum 與 Rubin (1983)亦提出可以使用 Probit
regression model 或透過 Discriminant analysis 來估計傾向分數。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第三節 傾向分數之使用方式
在估計完傾向分數之後,傾向分數的使用方式主要分為四種,分別由 Rosenbaum 與 Rubin (1983)及 Rosenbaum (1987)提出。
傾向分數使用方式之架構圖
傾向分數使用方式
分層 配對 變量調整 加權調整
Step1.
定義距離
Step2.
配對方法
Step3.
平衡診斷
Step4.
分析結果
No
Yes
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
一、傾向分數分層(sub-classification on the propensity score)
Rosenbaum 與 Rubin (1983)提出之分層方式如下:依據傾向分數來對受詴者 區分為五至十層後,分別估計各層的處理效果並以加權方式得到一個整體的 平均處理效果估計值。
二、傾向分數配對(propensity score matching)
Rosenbaum 與 Rubin (1983)使用傾向分數來進行配對。配對的主角為實驗組 受詴者,就對照組中尋找與實驗組傾向分數相近的受詴者加以配對以組成配 對樣本,再藉由配對樣本來進行處理效果之估計。
三、傾向分數變量調整(covariate adjustment using the propensity score) Rosenbaum 與 Rubin (1983)建議可以將傾向分數視為一個獨立變數。在建構 探討反應變數的迴歸模型中,解釋變數中除了包含必要的處理指派變數外,
也一併納入傾向分數來做為一個控制變數。
四、傾向分數加權調整(weighting adjustments using the propensity score)
Rosenbaum (1987)建議將將傾向分數的倒數視為一種權重,經由此權重進行 加權調整後來進行平均處理效果的估計。
其中傾向分數配對與傾向分數分層為較常見的使用方式,Austin與
Mamdani(2006)使用標準化差異2來比較傾向分數配對與分層的平衡效果。研究結 果顯示,傾向分數配對相較於傾向分數分層能較有效地平衡兩組群體在控制變數 上的系統差異。此外,Austin(2007)也採模擬研究的方式,以邊際勝算比作為衡
Mamdani(2006)使用標準化差異2來比較傾向分數配對與分層的平衡效果。研究結 果顯示,傾向分數配對相較於傾向分數分層能較有效地平衡兩組群體在控制變數 上的系統差異。此外,Austin(2007)也採模擬研究的方式,以邊際勝算比作為衡