第五章 結論與討論
第一節 取樣設計的影響
在複雜、大規模的調查研究資料蒐集中,由於資料具有分層結構的特性,
因此通常多採用兩階段或多階段的取樣設計取代簡單隨機取樣(simple random sampling, SRS),即先抽取大的調查單位,之後再從大單位中抽小單位,如包含 有更小單位則再進行更小單位的抽取,這種取樣設計稱為多階段取樣(multi-stage sampling)。而本研究中的分層隨機取樣及等比例等機率取樣都屬於多階段取樣中 的一個取樣設計。以下簡單說明兩種取樣設計的方法,更詳細的取樣權重計算實 例將於重複取樣程序中說明。
壹、分層隨機取樣(Str. RS)
分層隨機取樣是先把母體資料依某些相異特徵或研究的需要分為不重複的 組別,也就是分層(蔡良庭、楊志堅,2008),然後於每分層中再進行獨立的簡 單隨機取樣,此方法稱為分層隨機取樣。此方法不但可以更經濟、而且可以提高 估計的精準度,且分層時以同層之內同質性為最大,異層之間同質性最小為原 則,可使層內的資料愈一致,估計的標準差愈小,則取樣誤差也愈小(蔡良庭、
楊志堅,2008;Scheaffer et al., 2006)。
貳、等比率等機率取樣(PPS)
等比率等機率取樣大多應用在大規模的調查研究,取樣目的在使母體中的個 體不論屬於哪一分層,其最終被抽取的機率相同。在取樣的過程中每一階段各單 位的抽中機率與該單位內的樣本數大小成比例,也就是單位內的樣本數愈多被抽 中機率愈高。經由此程序取樣後,母群體的每一個樣本最後都具有相等的被抽中 機率。
第二節 分層結構資料及SEM模式分析
大型資料庫的資料蒐集大多利用多階段取樣設計而非簡單隨機取樣。然而大 部分統計分析的執行,都架構在取樣樣本彼此不相關的假設之下,如果違反假 設,則易導致錯誤的估計標準誤(Lohr, 1999; Stapleton, 2008; Wolter, 2007; Rao, Wu,
& Yue, 1992)。然而複雜取樣設計的調查研究資料,通常將具有同質性的樣本區 分為同一分層,如此樣本間必然具有某些程度的相關存在(Kish, 1965; Stapleton, 2008; Skinner, Holt, & Smith, 1989)。若研究者將具有分層結構的資料直接進行估 計而忽略分層的架構,則易導致樣本變異數估計的偏誤(Lee et al., 1989)。Muthén 與Satorra(1995)的研究發現在SEM的分析模式中,將二階段隨機取樣的資料視為 簡單隨機取樣,結果證實會產生參數估計標準誤的偏誤。Asparouhov(2004)的研 究更顯示,忽略取樣設計資料中的分層架構,會導致參數估計標準誤的高估。如 果以集群取樣(cluster sampling)進行樣本抽取,但卻將資料視為簡單隨機取樣 進行分析,則會產生標準誤低估的現象(Asparouhov, 2005)。
儘管已有許多的統計程序,廣泛發展來解決取樣樣本之間具有相關的問題,
但大多侷限於平均數或迴歸分析的參數估計(Stapleton, 2008)。對於應用SEM模 式進行複雜取樣資料的估計,直到Asparouhov (2005)在PML(pseudo maximum likelihood)估算法架構下進行修正,使其適用於具有階層結構資料分析,並將此估 算法稱為QPML(quasi pseudo maximum likelihood)估算法。而此估算法目前已有 Mplus(Muthén & Muthén, 1998-2006)及LISREL(Jöreskog & Sörbom, 1996)等SEM
分析軟體可供使用。
QPML估算法允許研究者進行SEM模式估算時,包含權重的計算且容許資料 之間彼此具有相依(dependent)的特性(Asparouhov, 2005, 2006)。分層的複雜 取樣設計,常因個體被抽中的機率不相同,因此不論在SEM模式參數估算或競爭 模式比較時,都應適當使用取樣權重以反應母體的特性(楊志堅、蔡良庭,2008;
蔡良庭、楊志堅,2008; Asparouhov, 2005, 2006; Stapleton, 2002, 2006; Grilli &
Pratesi, 2004; Kaplan & Ferguson, 1999; Korn & Graubard, 1995; Patterson, Dayton,
& Graubard, 2002; Pfeffermann, Skinner, Holmes, Goldstein, & Rasbash, 1998; Yang
& Tsai, 2006, 2007)。而QPML估算法便容許包含權重的計算且允許資料間具有相 關。也就是說QPML估算法可應用於具有階層結構特性且來自相同分層的分析資 料。Asparouhov(2005)更進一步證實,應用SEM模式分析時,若分析資料包含重 複取樣的PSU,則QPML估算法能提供一個強韌性(robust)的參數估計。
除QPML估算法外,Stapleton(2008)的研究以重複取樣程序與QPML估算法,
探討複雜取樣設計資料的SEM模式參數估計標準誤偏誤。重複取樣程序的概念,
一般最常應用於樣本平均數或是迴歸係數等統計分析的估計(Lohr, 1999)。而 Stapleton(2008)首次採用JRR、BRR、Bootstrap等重複取樣的程序,探討SEM模式 估計的參數估計標準誤偏誤。研究中,母群體總計超過兩百萬個受試者,以三階 段分層取樣設計每次重複抽取14400個樣本,並以QPML估算法、及利用JRR、
BRR、Bootstrap重複取樣的三種方法及忽略分層架構等共五種分析方式,探討參 數估計標準誤的偏誤。研究發現五種方法中的參數估計值之偏誤都小到可直接忽 略。參數估計標準誤的偏誤部分,若忽略資料的分層架構逕行將資料視為簡單隨 機取樣,則有將近70%的低估,而QPML估算法及重複取樣的方法,會產生4%至 11%的參數估計標準誤偏誤。此外,BRR與Bootstrap重複取樣程序產生的偏誤較 為相近,但大於JRR取樣程序產生的偏誤。在Bootstrap重複取樣次數部分,參數 估計標準誤的偏誤在100次的重複取樣之內就達到穩定的狀態。此研究結果與 Kovar、Rao與Wu(1988)所建議的取樣次數相同。
第三節 Quasi Pseudo Maximum likelihood (QPML)
QPML估算法是由Asparouhov(2004, 2005)所提出,目的使適用於具有分層結 構特性的資料分析。QPML估算法主要是在PML估算法中進行修正,PML估算法 是由Skinner(1989)提出,主要應用於包含不相等機率取樣資料的統計模式估算
(Asparouhov, 2004, 2005),亦可應用於潛在變項模式的分析。PML估算法是從 ML(maximum likelihood)估算法延伸而來,主要是在ML估算法的對數概似函數
(log-likelihood)計算中,加入每一筆分析資料的權重計算,如公式(1)所示。
(asymptotic covariance matrix)是由公式(2)中的夾擠估計(sandwich estimate)
所推估得到。 正,使其估算能反應出取樣樣本與分層之間的相依性。因此,Asparouhov(2004, 2005)將公式(2)的變異數估計進行修正,以公式(3)取代。
第四節 重複取樣程序及其權重計算
以下分別說明本研究中採用的JRR、Bootstrap、ABB及RG重複取樣程序,並 以實際例子分別說明在Str. RS及PPS取樣設計下,取樣權重的計算。
壹、Jackknife Repeated Replication (JRR)
JRR是由Queneouille(1956)提出的一種重複取樣程序,目的用來減少複雜取 樣資料的參數估計偏誤(Lohr, 1999; Roy & Safiquzzaman, 2003)。JRR的資料蒐集 主要應用於多階段的取樣設計,取樣的過程是在相同資料中進行重複取樣,且每 一次的取樣中,掉落(dropping)一個PUS的樣本,直到每一個分層中的PSU都掉 落過一次(Lohr, 1999; Stapleton, 2008; Wolter, 2007)。因此JRR重複取樣的權重計 算方法為:當PSU j掉落時,則抽取的樣本取樣權重設定為0,而相同分層中保留 的其他PSU樣本取樣權重則必須乘以nh/(nh−1)的一個比例因子(scale factor),以 適當反應分層中的樣本,其中nh代表分層h中的PSU個數。取樣權重計算公式如 下所示(Lohr, 1999; Stapleton, 2008; Wolter, 2007):
⎪⎪
P23及P24,第二階段再從已抽取的4個PSU中各隨機抽取3個樣本。則每個樣本依
延續上述例子,分層S1中的PSU樣本數分別為60、30、30、30。因此第一階 的樣本數。因此分層S1中四個PSU被抽中的機率分別為0.4、0.2、0.2及0.2,而第 二階段以簡單隨機取樣方式進行PSU內的樣本抽取。因第一階段的取樣已修改為
表2 PPS 設計之 JRR 重複取樣權重計算實例 後的參數估計標準誤可由公式(7)計算得到(Lohr, 1999; Stapleton, 2008; Wolter, 2007): 是一個有彈性且有效的方法(Chernick, 2007; Lahiri, 2003; Stapleton, 2008; Davison
& Hinkley, 1998; Efron & Tibshirani, 1993)。許多研究(Kaufman, 1998, 2006; Lahiri, 2003; Stapleton, 2008; Davison, Hinkley, & Young, 2003; Li, Lync, Shimizu, &
Kaufman, 2004; Rust & Rao, 1996)證實複雜取樣設計的大型資料庫應用中,
Bootstrap程序可直接應用在多階段取樣中的任一階段。例如:具有J個PSU分層 中,可重複抽取J−1個PSU代表整個分層資料;或是在具有I 個樣本的PSU內,
抽取I −2個樣本代表PSU的資料。以Bootstrap進行取樣時,要抽取多少個PSU或 是樣本來代表整個分層的資料,才能得到最佳的參數估計,一直都是研究者所關 心的議題。根據Efron(1982)、Stapleton(2008)及Rust與Rao(1996)建議,以分層中 抽取J −1個PSU代表J 個PSU的分層資料或是抽取I−1個樣本取代I 個樣本的
表3呈現Str. RS設計下,6次Bootstrap取樣及權重計算結果。WBoot1一欄代表第 1次Bootstrap取樣的權重計算,分層S1及S2分別隨機抽取P12及P24代表分層的樣 本,因此重新計算的取樣權重為原始權重WR的2倍,其餘樣本權重則為0。同理,
表4為PPS設計下的Bootstrap重複取樣權重計算結果。從表3中可發現權重的總和
(240)並不等於母體總數,而表4以PPS設計的取樣權重總和(300)則會等於母
體總數。 數決定,而Bootstrap的取樣次數則由研究者自行決定。假設重複取樣R次,並經 由R次模式分析後,其參數估計的標準誤可由公式(9)計算得到(Stapleton, 2008;
Wolter, 2007):
1
參、Adjusted Balanced Bootstrap (ABB)
ABB取樣程序是從Balanced Bootstrap程序中進行修正。Balanced Bootstrap是 利用Bootstrap重複取樣時,修正其取樣程序讓每一PUS在重複B次取樣後,被抽 到的次數都能相同,使重複取樣方法對於每一個PSU都能達到公平的狀態,以增 加參數估計的準確性(Wu, 1991; Nigam & Rao, 1996)。Balanced Bootstrap取樣 方法僅針對取樣程序進行修正,因而具有與Bootstrap程序相同可直接應用在多階 層取樣中的任一階段取樣的優點(Wu, 1991; Booth et al., 1993; Saigo, Shao, &
Sitter, 2001),但相對在執行取樣程序時,需抽取多少個PSU或是樣本才能得到 最佳的參數估計仍舊沒有確定的標準。
Bootstrap重複取樣中,儘管已經使用簡單隨機取樣進行PSU或PSU內的樣本 抽取,但此方法僅代表取樣機率的相等而非實際取樣次數的相等(Booth et al., 1993; Davison & Hinkley, 1998; Efron & Tibahirani, 1993)。Balanced Bootstrap的 目的即修正相等機率取樣為次數相等的取樣。假設研究者欲從一組N 筆調查資料 的次數皆為B次,使得Balanced Bootstrap重複取樣對每一筆資料達到公平的狀態。
然而本研究中並未對分層中的所有PSU或是PSU內的所有樣本進行重複取
樣,而僅抽取其中一部份作為分析資料,因此必須將Balanced Bootstrap進行修正,
表5 Str. RS 設計之 ABB 重複取樣權重計算實例
肆、Random Group (RG)
RG重複取樣程序,主要是利用等分的概念,也就是從母群體中所抽取的樣
RG重複取樣程序,主要是利用等分的概念,也就是從母群體中所抽取的樣