運用重複取樣方法探究複雜資料的取樣設計及權重於CFA參數估計之效應

(1)

國立臺中教育大學教育測驗統計研究所理學博士論文

指導教授：楊志堅教授

運用重複取樣方法探究複雜資料的取樣設計及

權重於

CFA 參數估計之效應

The effect of using resampling methods to

sampling design and weight with complex

data on the parameter estimation in

confirmatory factor analysis

研究生：蔡良庭撰

(2)

摘要

調查研究中的資料分析必須搭配適當的取樣權重，才能正確的推論母體的統計模式參數。本研究主要延伸蔡良庭與楊志堅（2008）及 Yang 與 Tsai(2006)的確認性因素分析（confirmatory factor analysis, CFA）模型，以 JRR、Bootstrap、ABB

及RG 等不同重複取樣程序，評估分層簡單隨機取樣（Str. RS）及等比率等機率取樣（PPS）及其權重計算方式對於 CFA 分析的參數估計值及參數估計標準誤影響。但是當調查研究為包含多階層的複雜資料結構時，Str. RS 及 PPS 取樣設計最為研究者所使用，但卻也最常為研究者忽略這兩種設計的不同取樣權重計算方式對於參數估計的影響。本研究以數值模擬實驗方法，評估Str. RS 及 PPS 取樣設計及其權重計算對於參數估計的影響，並探討不同重複取樣程序的正確性及穩定性。實驗設計除了取樣設計之外，包含連續及類別資料型態、多種不同取樣數、PSU 異質性及重複取樣程序。研究結果顯示不論連續或類別資料，建議採用PPS 的取樣設計及其權重計算能提供較精準的參數估計。重複取樣程序部分，相較於 RG 方法，JRR、 Bootstrap 及 ABB 程序能提供更精準且穩定的參數估計。關鍵詞：取樣設計、重複取樣、確認性因素分析、取樣權重

(3)

Abstract

In large-scale survey, appropriate sampling weights have to be engaged to ensure proper statistical inferences for population parameters. A further extension factor analysis model based on Tsai and Yang (2008) and Yang and Tsai (2006) was proposed in this study. The model was used to evaluate the effect of different resampling procedure (JRR, Bootstrap, ABB, and RG), combined with stratified random sampling (Str. RS) and probability proportional to size (PPS), on the accuracy of parameter and standard error estimation. When complex sampling data were found in survey researches, the Str. RS and PPS sampling designs are often applied. However, the effects of different sampling weights within these two designs on the parameter estimation were often neglected.

The effects of parameter estimation by using Str. RS and PPS sampling design on the accuracy were investigated through a numerical simulation study. The accuracy and stability of parameter estimate under different resampling approaches were also discussed. Independent variables that manipulated in this study includes the sampling designs, data type (continuous or categorical), sampling size, variations of PSU, and resampling approaches. The results suggest the PPS sampling design and it’s sampling weight can provided more precise parameter estimate of CFA models in a stratified sampling survey, no matter for continuous or categorical data. In resampling approaches, the accuracies and stabilities of JRR, Bootstrap and ABB are much better than RG.

Keywords: sampling design, resampling, confirmatory factor analysis, sampling weight

(4)

目錄

第一章緒論...1 第一節研究動機 ...1 壹、重複取樣程序... 4 貳、PSU異質性... 6 參、取樣樣本數... 7 肆、母群體資料型態... 7 第二節研究問題 ...8 第二章文獻回顧與評述...9 第一節取樣設計 ...9 壹、分層隨機取樣（Str. RS）... 9 貳、等比率等機率取樣（PPS） ... 10 第二節分層結構資料及SEM模式分析 ...10

第三節 Quasi Pseudo Maximum likelihood (QPML)...12

第四節重複取樣程序及其權重計算 ...13

壹、Jackknife Repeated Replication (JRR)... 13

貳、Bootstrap... 16

參、Adjusted Balanced Bootstrap (ABB) ... 19

肆、Random Group (RG) ... 21

第三章研究方法與進行步驟...25

第一節模擬研究設計 ...25

第二節取樣設計 ...27

壹、Jackknife Repeated Replication (JRR)... 27

貳、Bootstrap... 28

參、Adjusted Balanced Bootstrap (ABB) ... 28

肆、Random Group (RG) ... 29

(5)

第四章研究結果...31 第一節連續資料 ...31 壹、取樣設計及不同重複取樣程序的影響... 31 貳、取樣數（n）的影響 ... 32 參、PSU異質性（d）的影響... 34 第二節類別資料 ...37 壹、取樣設計及不同重複取樣程序的影響... 37 貳、取樣數（n）的影響 ... 38 參、PSU異質性（d）的影響... 40 第五章結論與討論...43 第一節取樣設計的影響 ...43 第二節重複取樣程序的影響 ...44 第三節取樣樣本數的影響 ...45 第四節 PSU異質性的影響 ...47 第五節綜合討論 ...48 參考文獻 ...51 附錄 ...57 附錄一連續資料下之參數估計及參數估計標準誤偏誤與MSE...57 附錄二類別資料下之參數估計及參數估計標準誤偏誤與MSE表現...61 附錄三 PPS在連續資料之參數（λ₂）估計值分配...65 附錄四 Str. RS在連續資料之參數（λ₂）估計值分配...69 附錄五 PPS在連續資料之參數（λ₂）估計標準誤分配...73 附錄六 Str. RS在連續資料之參數（λ₂）估計標準誤分配...77 附錄七 PPS在類別資料之參數（λ₂）估計值分配...81 附錄八 Str. RS在類別資料之參數（λ₂）估計值分配...85 附錄九 PPS在類別資料之參數（λ₂）估計標準誤分配...89 附錄十 Str. RS在類別資料之參數（λ₂）估計標準誤分配...93

(6)

表目錄

表1 Str. RS設計之JRR重複取樣權重計算實例...14 表2 PPS設計之JRR重複取樣權重計算實例 ...16 表3 Str. RS設計之Bootstrap重複取樣權重計算實例 ...18 表4 PPS設計之Bootstrap重複取樣權重計算實例...18 表5 Str. RS設計之ABB重複取樣權重計算實例 ...21 表6 PPS設計之ABB重複取樣權重計算實例 ...21 表7 Str. RS設計之Random Group取樣權重計算實例...22 表8 PPS設計之Random Group取樣權重計算實例 ...23 表9 類別型資料之觀察變項閾值參數設定值...26 表10 各分群之λ₂設定值...27 表11 連續資料之不同取樣設計及重複取樣程序參數估算結果...31 表12 連續資料之不同取樣數參數估算結果...33 表13 連續資料之不同PSU異質性參數估算結果...35 表14 類別資料之不同取樣設計及重複取樣程序參數估算結果...37 表15 類別資料之不同取樣數參數估算結果...39 表16 類別資料之不同PSU異質性參數估算結果...41

(7)

圖目錄

圖一潛在變項模式路徑圖 ...26 圖二連續資料下不同取樣數之參數估計（λ₂）標準誤偏誤折線圖...34 圖三連續資料下不同PSU異質性之參數估計（λ₂）標準誤偏誤折線圖...36 圖四類別資料下不同取樣數之參數估計（λ2）標準誤偏誤折線圖...40 圖五類別資料下不同PSU異質性之參數估計（λ2）標準誤偏誤折線圖...42

(8)

第一章緒論

調查研究中，不論採用任何一種取樣設計進行樣本抽取，觀察變項的測量值估計能否精確的推論母群體特性，已成為調查研究必須具備的重要條件之一

（Lohr, 1999; Stapleton, 2008; Wolter, 2007）。觀察變項測量值的估計精確與否，除

了觀察變項統計量的估計之外，觀察變項估計的變異數也是探討的重要指標（Lohr, 1999; Stapleton, 2008; Wolter, 2007; Lee, Forthofer, & Lorimor, 1989; Rust &

Rao, 1996; Rao, Wu, & Yue, 1992）。影響調查研究資料能否正確推論母體特性的原

因眾多，包含取樣程序中，取樣方法的選擇、權重計算、取樣數多寡及其代表性、乃至最後資料分析的統計模式及參數估算法的選擇，都是影響調查研究結果的重要議題。

相關研究（楊志堅、蔡良庭，2008；蔡良庭、楊志堅，2008； Asparouhov, 2005,

2006; Stapleton, 2006, 2008; Grilli & Pratesi, 2004; Yang & Tsai, 2006）指出，調查研究中需因應樣本的取樣機率不均等而必須搭配使用「適當」的取樣權重資料，才能正確推論母體的統計模式參數。此外，若調查研究資料具有分層特性，則不同取樣設計的選擇需搭配不同的取樣權重計算，但此權重計算的不同卻容易被研

究者忽略。基於上述，本研究延續蔡良庭與楊志堅（2008）及Yang與Tsai (2006)

的確認性因素分析（confirmatory factor analysis, CFA）模型，分別在分層簡單隨機取樣（stratified random sampling, Str. RS）及等比率等機率取樣（probability

proportional to size, PPS）設計下，以Jackknife Repeated Replication (JRR)、

Bootstrap、Adjusted Balanced Bootstrap (ABB)及Random Group (RG)等不同重複取樣程序，評估權重計算對於CFA分析的參數估計值及參數估計標準誤影響。

第一節研究動機

調查研究的取樣過程中，常因遺失資料並非完全隨機遺失（例如：missing at random, MAR）等無法預期因素或是特殊的取樣設計，例如：美國進行的幼兒長

(9)

期追蹤研究（Early Childhood Longitudinal Study, ECLS）的取樣設計，依分層中不同樣本數採用分層不相同機率取樣方式進行資料抽取，且太平洋島上的學生被抽取的機率為其他地區學生三倍，以致各分層的取樣機率不相等（ECLS; U.S. Department of Education, 2001）。因此進行資料分析時必須適當考慮取樣權重，才

能有效推估母群體特性（楊志堅、蔡良庭，2008；蔡良庭、楊志堅，2008； Kaplan

& Ferguson, 1999; Yang & Tsai, 2006）。蔡良庭與楊志堅（2008）的研究指出，若研究者進行CFA模式分析時，忽略取樣權重將導致參數估算不精確，即使增加取樣的樣本數，相關情形並未獲得改善。同理，若忽略取樣權重且分層之間的異質性愈大，參數估計愈不準確；但若考慮權重於參數計算，則分層的差異對於估計的準確性影響並不大。此外，楊志堅與蔡良庭（2008）將取樣權重概念應用於

類別型資料的Likert (Likert, 1932)問卷測量恆等性（measurement equivalence/

invariance, ME/I）檢定，發現取樣權重對於檢定效果扮演相當重要的影響，例如：進行模式檢定時，若考慮權重的計算則檢定正確性隨取樣數增加而上升，且皆優於未考慮權重的檢定效果。Kaplan與Ferguson(1999)的研究結果亦顯示：若分析過程中忽略權重的計算，將導致CFA模式的參數估計偏誤（bias），且隨因素負荷量（factor loading）差距變大而偏誤增大。然而上述研究，僅就模式參數估計及模式檢定部分進行探討，並未更進一步探討取樣權重對於參數估計標準誤的影響，雖然後續Stapleton(2008)曾利用重複取樣程序於SEM的結構模式（structure model）參數估計標準誤探討，但研究中著重於不同重複取樣程序的比較，忽略了不同取樣設計中的權重計算、取樣人數及分層間的變異程度對於模式估計的影響。調查研究中為了使取樣樣本更有效代表階層在整個取樣設計中所扮演角色，常採用Str. RS及PPS等多階段的分層取樣設計取代簡單隨機抽樣（simple

random sampling, SRS）進行樣本的抽取。例如：TIMSS(Trends in International

Mathematics and Science Study) 、 PISA (Programme for International Student

(10)

的調查研究，常包含多個國家、地區或是學區；而國內的調查研究，例如：臺灣

教育長期追蹤資料庫研究（Taiwan Educational Panel Study, TEPS）、臺灣地區社會

變遷基本調查（Taiwan Social Change Surveys, TSCS）亦包含多個縣市，縣市內又包含鄉鎮或多個學區的複雜取樣設計（complex sampling designs）階層結構。在這些複雜資料結構的調查研究，Str. RS及PPS取樣設計為最常應用的方法之一，且取樣權重隨取樣設計不同而有不同計算方式（Scheaffer, Mendenhall III, & Ott, 2006），例如：多階段的複雜取樣設計中，基本取樣單位（primary sampling units, PSU）內的樣本總數常不相同，以Str. RS進行第一階段PSU取樣，則最後母體中的每一個樣本被抽取的機率並不相同，也導致取樣權重的總和與母體的總數不相同。同理，若以PPS進行分層資料抽取，不僅可使母體中每個樣本被抽取機率相同，且權重的總和與母體的總數相同（Scheaffer et al., 2006）。因此在進行資料分析時，極有可能因取樣設計及權重計算不同導致推估母體特性時產生錯誤的推論，然而此部分卻也最常為研究者所忽略，且目前有關取樣權重的相關文獻亦鮮少探討不同取樣設計所造成的取樣權重差異對參數估計的影響，尤其是應用於因素分析（factor analysis）、潛在變項模式（latent variable model）等高階統計分析亦尚付闕如。尤其因素分析常為調查研究的工作者應用來進行量表編製的項目分析與校度評量的建構，因此分析結果的精確性在量表的理論發展與測量上極為重要，顯見其更有探討必要性。衡量取樣資料的觀察變項測量值的參數估計精確與否，除了觀察變項統計量的估計之外，觀察變項估計的變異數也是探討的重要指標。取樣資料的變異數估計能協助研究者瞭解變項統計量的離散情形，但一般而言，研究者並無法確知觀測變項的估計變異數。目前較常為研究者用來進行估計變異數估計的有泰勒線性法（Taylor linearization method, TLM）的非重複取樣（non-resampling）方法及JRR、

Bootstrap、Balanced repeated replication(BRR)及RG等重複取樣（resampling）方法

兩類。對於非線性的統計分析，例如：參數比率（ratio）、迴歸係數（regression parameter）或是相關係數（correlation coefficients）等的參數變異數估計，除了TLM

(11)

估計方法之外，JRR、Bootstrap、BRR及RG等重複抽樣方法也已被廣泛使用於上述模式分析（Wu, 1986; Babu & Singh, 1983; Kovačević, Huang, & You, 2006; Rao, Wu, & Yue, 1992; Sahinler & Topuz, 2007）。雖然TLM法適用於一般性的取樣設計，但對於不同的參數變異數估算則必須採用不同的公式計算，相對於重複取樣方法只需利用單一的計算公式，即可對於不同的統計量進行估計變異數計算（Rao, Wu, & Yue, 1992），顯然TLM並不是一個便利的估算方法。此外，重複取樣程序的優點是無須特別對樣本所來自的母體作預先性的分配假設。且近年來因電腦強大的運算功能，使重複取樣程序取代了統計理論的分析，省去理論上的繁複推

論。根據Andersson、Forsman與Wretman(1987)及Kovačević、Huang與You(2006)

的研究指出JRR、Bootstrap、RG、等重複取樣方法比TLM的非重複取樣方法在多階層模式（Multi-level model）分析時，能提供更精確的參數估計。同時許多的大

型調查研究的資料庫，例如：TIMSS(Martin, 2005)、PISA(OECD, 2005)、PIRLS

(Gonzalez & Kennedy, 2003)等，都以重複取樣程序作為參數變異數估計的主要方法。據此，本研究選擇以重複取樣程序作為參數估計方法。

針對上述問題，為了探討Str. RS與PPS兩種取樣設計及其權重計算對於CFA

模式分析的影響，研究中擬以JRR、Bootstrap、Adjusted Balanced Bootstrap(ABB)

及RG等不同重複取樣程序，分別在連續及類別型資料設定之下，評估不同取樣設計及其權重對於CFA模式分析的參數估計及參數估計標準誤影響。本研究延續蔡良庭與楊志堅（2008）及Yang與Tsai(2006)的CFA模型，並參考其模式參數值設定，以電腦數值模擬方式進行研究。實驗設計中包含多種不同的取樣數、PSU異質性程度及不同母體資料類型等因素。以下分別以「重複取樣程序」、「PSU異質性」、「取樣數」及「母群體資料型態」等四部分，進行各探討變項說明：

壹、重複取樣程序

本研究除了以Str. RS及PPS兩種不同分層取樣設計進行分層取樣外，將採用

(12)

JRR、Bootstrap、ABB及RG四種重複取樣程序，在不同分層取樣設計及其取樣權重計算下，探討CFA模式的參數估計及參數估計標準誤表現。

根據Stapleton(2008)應用重複取樣程序於SEM的結構模式(structure model)參

數估計，以JRR的參數估計標準誤表現最佳，而BRR(balanced repeated replication)

與Bootstrap方法的參數估計標準誤偏誤相近但高於JRR的偏誤。利用BRR重複取樣程序時，僅適用於每一分層中只有2個PSU的複雜取樣設計，且取樣設計中包含

有 H 個分層時，最多會有_{2 種不同的重複取樣樣本形式(Lohr, 1999; McCarthy,}H

1969; Wolter, 2007)，因此對電腦的運算造成繁重的負擔且耗時甚多。儘管Lohr

(1999)、Stapleton(2008)及Wolter(2007)建議可使用Hadamard矩陣的設計方式讓重

複取樣的次數減低，但在使用上與Bootstrap相較仍顯不方便。Bootstrap取樣程序對於資料調查分析而言，是一個具有彈性且有效的方法(Lahiri, 2003; Stapleton, 2008)，且可直接應用於分層取樣中的任一階段，並可由研究者自行決定取樣的次數，因此本研究採用Stapleton (2008)研究中表現較佳的JRR及較具使用彈性的 Bootstrap取樣程序。除了上述兩種重複取樣程序之外，本研究也納入RG及ABB兩種方法。RG的優點與Bootstrap一樣，使用相當具有彈性且可應用於多階層取樣中的任一階段，並可允許分層中的PSU個數或PSU內樣本數的不相同(Lohr, 1999; Wolter, 2007)。缺點則為變異數估計的偏誤易受分群個數及取樣樣本數的多寡影響(Wolter, 2007)。Mulry與Wolter(1981)以重複取樣程序調查消費者每月的收入與實際消費之間的相關，研究結果發現RG重複取樣程序所估算的相關係數變異數的偏誤及均方差(mean square error, MSE)比BRR及JRR小，且參數估計的信賴區間覆蓋率

(confidence interval coverage rates)也優於其他取樣方法。Dippo與Wolter(1984)研究

亦證實，當RG的分群數大於8時，相關係數變異數的覆蓋率會優於BRR的覆蓋率。 ABB取樣程序主要是從Balanced Bootstrap進行修正。Balanced Bootstrap是由

Davison、Hinkley與Schechtman(1986)所提出，目的用來降低取樣的變異，後續

(13)

樣PUS相對較小而分層個數較大，使其應用上更為廣泛及方便(Nigam & Rao, 1996)。Balanced Bootstrap主要是修正Bootstrap取樣程序，讓每個PUS在重複 B 次的取樣中被抽到的次數相等，使得重複取樣程序對於每一個PSU都能達到公平的

狀態而非取樣機率值相等，以增加參數估計的準確性(Booth, Hall, & Wood,

1993)。然而本研究並未針對分層中的所有PSU或是PSU內的所有樣本數進行重複取樣，僅抽取其中一部份作為分析資料。因此必須將Balanced Bootstrap進行修正，

研究中稱為Adjusted Balanced Bootstrap(ABB)，詳細修正程序將於文獻回顧中說

明。雖然RG與ABB兩種重複取樣程序具有上述優點，但應用於高階的CFA統計模式分析，是否能提供正確且穩定的參數估計是一值得探討的問題。因此，本研究除了延續Stapleton(2008)所使用的JRR及Bootstrap方法之外，增加ABB及RG取樣程序，共計4種重複取樣程序，探討對於CFA模式參數估計的影響。

貳、PSU異質性

SEM模式的架構中包含結構模型及測量模型（measure model）兩部分，實徵資料分析中，除了結構模式的探討之外，測量模型中的觀測變項與潛在變項之間的因素分析就是所謂的CFA，更是一般研究的重點。例如：Meade與Lautenschlager (2004)的研究指出，應用SEM模式進行測驗的測量恆等性檢定時，主要是在測量模型中的觀測變項與潛在變項之間的因素負荷量被檢測出不同分群間具有差異性。楊志堅與蔡良庭（2008）、蔡良庭與楊志堅（2008）、Asparouhov(2005, 2006) 及Kaplan與Ferguson(1999)的研究結果證實取樣權重對於SEM模式分析的觀測變項與潛在變項之間的因素負荷量參數估計精確度有相當大的影響，且分層間的變異程度亦對因素負荷量的估計有影響力，尤其是在忽略取樣權重的情況之下更是明顯。

Stapleton(2008)的研究，以SEM結構模型的迴歸係數(γ )作為區分不同PSU之

(14)

並不大，因為在實際資料中，各分群間的迴歸係數差異極有可能大於0.1。因此本研究的實驗設計，以CFA分析中的因素負荷量作為區分不同PSU之間差異的變項，並探討不同PSU間因素負荷量差距對於因素負荷量參數估計及估計標準誤的影響。

參、取樣樣本數

應用統計模式進行資料分析時，樣本數愈多愈容易使模式估計趨於穩定。然而實際進行調查研究時，礙於時間及經費限制，往往僅能抽取少數的樣本進行統計的模式分析並推論母體特性。而實際調查中，究竟要抽取多少的樣本數才能同時符合經濟效益及統計模式分析穩定並正確推論母體。蔡良庭與楊志堅（2008）的研究顯示，應用CFA模式於調查研究資料分析時，若忽略取樣權重的計算，即使增加取樣數，參數估計的精確度反而下降，使得在推估母體特性時造成愈偏離正確的推論範圍。楊志堅與蔡良庭（2008）的研究更進一步顯示，取樣數的多寡對於CFA競爭模式檢定正確性具有影響力。跨國際的調查研究常包含多個國家或區域，因此取樣數或母體總數動輒數萬人或數十萬人以上。而Stapleton(2008)即模仿大樣本數的調查研究，設計母體總數超過兩百萬人，儘管只抽取母體的0.626%作為模式分析的樣本，但實際分析的樣本數14400已屬大樣本範圍。然而，除了跨國際或是大規模的調查之外，大部分的研究多屬於地區性的分層調查研究。據此，本研究設計較小的母體總數，而取樣數除了大樣本的取樣之外，並將取樣數減少，以探討不同取樣設計及其權重計算，在小樣本的情況之下對於CFA參數估計的影響。

肆、母群體資料型態

Likert (Likert, 1932)量表的問卷工具已廣泛應用於心理學、教育學等社會科學的國內外大型調查研究，例如：TEPS調查研究的問卷分別包含有三點至六點等不同計分的Likert量表（張笠雲、關秉寅、黃敏雄、王麗雲，2002）、TSCS則使用了

(15)

七點計分的Likert量表問卷（章英華、傅仰止，2004）；國際的大型資料庫調查研

究，則有使用四點及五點計分Likert問卷的TIMSS(Martin, 2005)及PIRLS (Kelly,

2003)。顯見Likert量表的應用不論在國內或國際上的大型調查研究，都是一種很普遍且重要的調查研究工具（楊志堅、蔡良庭，2008）。然而卻鮮少相關研究，將取樣權重的概念應用於Likert量表等類別型資料的分析。雖然楊志堅與蔡良庭（2008）的研究以五點量表計分方式的類別型資料為觀測變項，並加入取樣權重的概念於模式分析，但其研究目的僅以整體的SEM模式適配度探討競爭模式的檢測正確性，並無針對模式的參數估計精確度進行評估。據此，本研究除了連續型資料分析比較之外，亦加入常為研究者所使用的五點量表計分的類別型資料。探討不同資料類型時，不同取樣設計及其權重計算對於CFA參數估計標準誤的影響。

第二節研究問題

基於上述的說明且先前相關研究（楊志堅、蔡良庭，2008；蔡良庭、楊志堅，

2008；Asparouhov, 2005, 2006; Kaplan & Ferguson, 1999）皆已證實，進行CFA模式分析時，忽略取樣權重將導致參數估算不精確。因此本研究著重於探討不同取樣權重計算的Str. RS及PPS取樣設計對於CFA模式的參數估計及估計標準誤影響。研究中實驗的變項有取樣設計、取樣樣本數、PSU異質性及重複取樣程序。具體的研究問題如下： (一)不同的取樣設計及取樣權重對於 CFA 模式的參數估計及參數估計標準誤影響。 (二)透過模擬研究比較不同重複取樣程序於不同取樣設計下的效果。 (三)探討取樣樣本數及 PSU 異質性對於參數估計及參數估計標準誤的影響。

(16)

第二章文獻回顧與評述

影響調查研究資料能否正確推論母體特性的原因眾多，尤其是取樣程序中，取樣方法的選擇、權重計算、取樣數多寡及其代表性、乃至最後資料分析的統計模式及參數估算法等，都是影響調查研究結果的重要議題。然基於本研究之議題設定，以下僅針對取樣設計、分層結構資料及SEM模式分析、QPML估算法、重複取樣程序與權重計算進行文獻回顧。

第一節取樣設計

在複雜、大規模的調查研究資料蒐集中，由於資料具有分層結構的特性，因此通常多採用兩階段或多階段的取樣設計取代簡單隨機取樣（simple random sampling, SRS），即先抽取大的調查單位，之後再從大單位中抽小單位，如包含有更小單位則再進行更小單位的抽取，這種取樣設計稱為多階段取樣（multi-stage sampling）。而本研究中的分層隨機取樣及等比例等機率取樣都屬於多階段取樣中的一個取樣設計。以下簡單說明兩種取樣設計的方法，更詳細的取樣權重計算實例將於重複取樣程序中說明。

壹、分層隨機取樣（Str. RS）

分層隨機取樣是先把母體資料依某些相異特徵或研究的需要分為不重複的組別，也就是分層（蔡良庭、楊志堅，2008），然後於每分層中再進行獨立的簡單隨機取樣，此方法稱為分層隨機取樣。此方法不但可以更經濟、而且可以提高估計的精準度，且分層時以同層之內同質性為最大，異層之間同質性最小為原則，可使層內的資料愈一致，估計的標準差愈小，則取樣誤差也愈小（蔡良庭、楊志堅，2008；Scheaffer et al., 2006）。

(17)

貳、等比率等機率取樣（PPS）

等比率等機率取樣大多應用在大規模的調查研究，取樣目的在使母體中的個體不論屬於哪一分層，其最終被抽取的機率相同。在取樣的過程中每一階段各單位的抽中機率與該單位內的樣本數大小成比例，也就是單位內的樣本數愈多被抽中機率愈高。經由此程序取樣後，母群體的每一個樣本最後都具有相等的被抽中機率。

第二節分層結構資料及SEM模式分析

大型資料庫的資料蒐集大多利用多階段取樣設計而非簡單隨機取樣。然而大部分統計分析的執行，都架構在取樣樣本彼此不相關的假設之下，如果違反假設，則易導致錯誤的估計標準誤（Lohr, 1999; Stapleton, 2008; Wolter, 2007; Rao, Wu, & Yue, 1992）。然而複雜取樣設計的調查研究資料，通常將具有同質性的樣本區分為同一分層，如此樣本間必然具有某些程度的相關存在（Kish, 1965; Stapleton, 2008; Skinner, Holt, & Smith, 1989）。若研究者將具有分層結構的資料直接進行估

計而忽略分層的架構，則易導致樣本變異數估計的偏誤（Lee et al., 1989）。Muthén

與Satorra(1995)的研究發現在SEM的分析模式中，將二階段隨機取樣的資料視為簡單隨機取樣，結果證實會產生參數估計標準誤的偏誤。Asparouhov(2004)的研究更顯示，忽略取樣設計資料中的分層架構，會導致參數估計標準誤的高估。如果以集群取樣（cluster sampling）進行樣本抽取，但卻將資料視為簡單隨機取樣進行分析，則會產生標準誤低估的現象（Asparouhov, 2005）。儘管已有許多的統計程序，廣泛發展來解決取樣樣本之間具有相關的問題，但大多侷限於平均數或迴歸分析的參數估計（Stapleton, 2008）。對於應用SEM模

式進行複雜取樣資料的估計，直到Asparouhov (2005)在PML(pseudo maximum

likelihood)估算法架構下進行修正，使其適用於具有階層結構資料分析，並將此估

算法稱為QPML(quasi pseudo maximum likelihood)估算法。而此估算法目前已有

(18)

分析軟體可供使用。

QPML估算法允許研究者進行SEM模式估算時，包含權重的計算且容許資料之間彼此具有相依（dependent）的特性（Asparouhov, 2005, 2006）。分層的複雜取樣設計，常因個體被抽中的機率不相同，因此不論在SEM模式參數估算或競爭

模式比較時，都應適當使用取樣權重以反應母體的特性（楊志堅、蔡良庭，2008；

蔡良庭、楊志堅，2008； Asparouhov, 2005, 2006; Stapleton, 2002, 2006; Grilli & Pratesi, 2004; Kaplan & Ferguson, 1999; Korn & Graubard, 1995; Patterson, Dayton, & Graubard, 2002; Pfeffermann, Skinner, Holmes, Goldstein, & Rasbash, 1998; Yang

& Tsai, 2006, 2007）。而QPML估算法便容許包含權重的計算且允許資料間具有相關。也就是說QPML估算法可應用於具有階層結構特性且來自相同分層的分析資料。Asparouhov(2005)更進一步證實，應用SEM模式分析時，若分析資料包含重複取樣的PSU，則QPML估算法能提供一個強韌性（robust）的參數估計。除QPML估算法外，Stapleton(2008)的研究以重複取樣程序與QPML估算法，探討複雜取樣設計資料的SEM模式參數估計標準誤偏誤。重複取樣程序的概念，一般最常應用於樣本平均數或是迴歸係數等統計分析的估計（Lohr, 1999）。而 Stapleton(2008)首次採用JRR、BRR、Bootstrap等重複取樣的程序，探討SEM模式估計的參數估計標準誤偏誤。研究中，母群體總計超過兩百萬個受試者，以三階段分層取樣設計每次重複抽取14400個樣本，並以QPML估算法、及利用JRR、 BRR、Bootstrap重複取樣的三種方法及忽略分層架構等共五種分析方式，探討參數估計標準誤的偏誤。研究發現五種方法中的參數估計值之偏誤都小到可直接忽略。參數估計標準誤的偏誤部分，若忽略資料的分層架構逕行將資料視為簡單隨機取樣，則有將近70%的低估，而QPML估算法及重複取樣的方法，會產生4%至 11%的參數估計標準誤偏誤。此外，BRR與Bootstrap重複取樣程序產生的偏誤較為相近，但大於JRR取樣程序產生的偏誤。在Bootstrap重複取樣次數部分，參數估計標準誤的偏誤在100次的重複取樣之內就達到穩定的狀態。此研究結果與 Kovar、Rao與Wu(1988)所建議的取樣次數相同。

(19)

第三節 Quasi Pseudo Maximum likelihood (QPML)

QPML估算法是由Asparouhov(2004, 2005)所提出，目的使適用於具有分層結構特性的資料分析。QPML估算法主要是在PML估算法中進行修正，PML估算法是由Skinner(1989)提出，主要應用於包含不相等機率取樣資料的統計模式估算（Asparouhov, 2004, 2005），亦可應用於潛在變項模式的分析。PML估算法是從 ML(maximum likelihood)估算法延伸而來，主要是在ML估算法的對數概似函數（log-likelihood）計算中，加入每一筆分析資料的權重計算，如公式（1）所示。

∑

= i i i L w L) log( ) log( （1）其中，i代表所有分析樣本資料。此外，PML估算法所採用的漸進共變異數矩陣

（asymptotic covariance matrix）是由公式（2）中的夾擠估計（sandwich estimate）所推估得到。 1 ' 2 2 1 ' 2_(log( ₎₎_/ ₎ ₍ _(log( ₎₎_/ ₎ ( − _∂ _∂ _∂ − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ _Δ ∂ ∂ ∂ L θ θ

∑

w L θ θ i i （2） ' ) / )) (log( )( / )) (log( (∂ ∂θ ∂ ∂θ = Δ Li Li 其中，∂ /∂θ 及∂ /2 ∂θ _{分別代表一階及二階的微分，} i代表所有分析樣本資料。 QPML估算法的變異數估計主要是從上述Skinner(1989)所提出的PML進行校正，使其估算能反應出取樣樣本與分層之間的相依性。因此，Asparouhov(2004, 2005)將公式（2）的變異數估計進行修正，以公式（3）取代。 1 ' 2 1 ' 2 ₍ ₎₍ ₎ ₍ _(log( ₎₎_/ ₎ 1 ) / )) (log( ( − _∂ _∂ _∂ − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − − − ∂ ∂ ∂ θ θ

∑

z z z z L θ θ n n L h T h jh j h jh h h （3）其中，nh代表分層h中的PSU個數， =

∑

∂ ∂ i ijh ijh jh w L z (log( )) θ 是分層h中的第 j個 PSU內的所有樣本分數總和，zh為z_jh的平均。因本研究設計為多階段的複雜取樣設計，資料包含有分層的架構，因此研究在進行資料取樣後，將利用QPML估算法進行CFA模式分析，以探討不同取樣方法與權重計算對於參數估計及參數估計標準誤的影響。

(20)

第四節重複取樣程序及其權重計算

以下分別說明本研究中採用的JRR、Bootstrap、ABB及RG重複取樣程序，並以實際例子分別說明在Str. RS及PPS取樣設計下，取樣權重的計算。

壹、Jackknife Repeated Replication (JRR)

JRR是由Queneouille(1956)提出的一種重複取樣程序，目的用來減少複雜取

樣資料的參數估計偏誤（Lohr, 1999; Roy & Safiquzzaman, 2003）。JRR的資料蒐集

主要應用於多階段的取樣設計，取樣的過程是在相同資料中進行重複取樣，且每一次的取樣中，掉落（dropping）一個PUS的樣本，直到每一個分層中的PSU都掉落過一次（Lohr, 1999; Stapleton, 2008; Wolter, 2007）。因此JRR重複取樣的權重計

算方法為：當PSU j掉落時，則抽取的樣本取樣權重設定為0，而相同分層中保留

的其他PSU樣本取樣權重則必須乘以n_h/(n_h−1)的一個比例因子（scale factor），以

適當反應分層中的樣本，其中nh代表分層h中的PSU個數。取樣權重計算公式如

下所示（Lohr, 1999; Stapleton, 2008; Wolter, 2007）：

⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ × − = j h i w n n j h i h i w w hji h h hji JRR hji PSU 1 PSU 0 ，但不屬於屬於分層假如取樣樣本中的屬於分層假如取樣樣本不屬於分層假如取樣樣本 (4)

其中，whji為第h個分層中第 j個PSU內的第i個樣本原始權重（raw weight）。舉例

來說：若有2個分層(S₁ 及S₂)，每分層中各包含4個PSU(分別為P₁₁, P₁₂,P₁₃, P₁₄,P₂₁, 23 22, P P ,P24)，假設2個分層中各有一個PSU(P11及P21)樣本數為60，其餘為30個樣本，則母群體總數為300。取樣調查中，若第一階段預計從每分層中抽取2個PSU；第二階段從已抽取的4個PSU中各隨機抽取3個樣本，共計抽取12個樣本進行資料分析。假設第一階段採用Str. RS分別從分層S1中隨機抽中P12及P13，S2中隨機抽中

(21)

23 P 及P₂₄，第二階段再從已抽取的4個PSU中各隨機抽取3個樣本。則每個樣本依取樣機率的倒數計算樣本的原始權重，（例如：P₁₂中抽取的3個樣本，原始權重 20 30 3 4 2 1 × = = hji w ），而所有取樣樣本的原始權重總和應等於母體總樣本數。詳細結果如表1中WR一欄所示。 JRR重複取樣的權重計算，若依序從分層中掉落一個PSU，則會形成4次的重複取樣樣本權重計算（WJRR₁ ~WJRR₄）。第一次的權重計算，因第一層取樣的第一個PSU (P12)掉落，因此其樣本權重紀錄為0，而第一層其餘PSU(P13)內樣本權重依據公式（4）必須乘以2以反應分層的樣本數，第二層取樣資料的權重則維持不變。表1中，WJRR₁代表第一次JRR重複取樣權重計算結果，WJRR2 ~WJRR4則依此類推為第2至第4次的重複取樣計算權重。從表1中可以發現，取樣的12個樣本中，不論是原始權重或是JRR重複取樣權重總和皆為240，與母體總數300並不相符。表1 Str. RS 設計之 JRR 重複取樣權重計算實例

stratum PSU subject WR WJRR1 WJRR2 WJRR3 WJRR4

1 S P₁₂ 1 20 0 40 20 20 1 S P₁₂ 2 20 0 40 20 20 1 S P₁₂ 3 20 0 40 20 20 1 S P₁₃ 4 20 40 0 20 20 1 S P₁₃ 5 20 40 0 20 20 1 S P₁₃ 6 20 40 0 20 20 2 S P₂₃ 7 20 20 20 0 40 2 S P₂₃ 8 20 20 20 0 40 2 S P₂₃ 9 20 20 20 0 40 2 S P₂₄ 10 20 20 20 40 0 2 S P₂₄ 11 20 20 20 40 0 2 S P₂₄ 12 20 20 20 40 0 從上述發現，若第一階段取樣忽略了PSU內的樣本數差異，而採用Str. RS，則原始權重及JRR的重複取樣權重便無法真實反應母體總數。而PPS取樣設計則將第一階段修改為分層不相等機率取樣，第二階段仍維持簡單隨機取樣，其目的是使母體中的每個樣本被抽中的機會相等，而不受PSU的樣本數不相等影響。

(22)

延續上述例子，分層S1中的PSU樣本數分別為60、30、30、30。因此第一階段取樣中，以每個PSU中的樣本數除以S₁的總樣本數為取樣機率，可由公式（5）表示：

∑

= = _J j hj hj hj n n 1 π （5）其中π 為第hj h個分層中第 j個PSU被抽中的機率，nhj代表第h個分層中第 j個PSU 的樣本數。因此分層S₁中四個PSU被抽中的機率分別為0.4、0.2、0.2及0.2，而第二階段以簡單隨機取樣方式進行PSU內的樣本抽取。因第一階段的取樣已修改為不相等機率取樣，則原始權重的計算必須進行修正。假設π 代表第i|hj h個分層中第 j個PSU內樣本i的抽中機率，且Kh為分層h中取樣的PSU個數，則分層不相等機率取樣的原始樣本權重可修正為： h hj i hj hji K w × × = | 1 π π （6）分層不相等機率取樣的原始權重計算結果如表2所示，例如：P₁₂中抽取的3 個樣本，原始權重 2 25 30 3 150 30 1 × × = = hji w 。依據原始原權重，則JRR重複取樣權重計算結果如表2中WJRR₁～WJRR4所示。從表2中可發現，不論是原始權重或是重複取樣的權重總和都與母群體總數相同。

(23)

表2 PPS 設計之 JRR 重複取樣權重計算實例

stratum PSU subject WR WJRR1 WJRR2 WJRR3 WJRR4

1 S P₁₂ 1 25 0 50 25 25 1 S P₁₂ 2 25 0 50 25 25 1 S P₁₂ 3 25 0 50 25 25 1 S P₁₃ 4 25 50 0 25 25 1 S P₁₃ 5 25 50 0 25 25 1 S P₁₃ 6 25 50 0 25 25 2 S P₂₃ 7 25 25 25 0 50 2 S P₂₃ 8 25 25 25 0 50 2 S P₂₃ 9 25 25 25 0 50 2 S P₂₄ 10 25 25 25 50 0 2 S P₂₄ 11 25 25 25 50 0 2 S P₂₄ 12 25 25 25 50 0 經由重複取樣程序及權重計算後便進入分析階段。以上述為例，必須進行4 次的模式分析且每次分析分別採用不同重複取樣權重（WJRR₁～WJRR4）。模式估算

後的參數估計標準誤可由公式（7）計算得到（Lohr, 1999; Stapleton, 2008; Wolter, 2007）：

∑

= ∧ ∧ = − − = ∧ h JACK n j hj H h h h n n SE 1 2 1 ) ( 1 _θ _θ θ （7）其中，H代表分層個數，nh代表第h分層中PSU的個數， hj ∧ θ 則是第h個分層中，第j個PUS掉落時的模式參數估計值， ∧ θ 則為原始取樣資料的參數估計值。

貳、Bootstrap

Bootstrap是一個困難且不容易執行的重複取樣程序，但對於調查資料分析卻是一個有彈性且有效的方法（Chernick, 2007; Lahiri, 2003; Stapleton, 2008; Davison

& Hinkley, 1998; Efron & Tibshirani, 1993）。許多研究（Kaufman, 1998, 2006; Lahiri,

2003; Stapleton, 2008; Davison, Hinkley, & Young, 2003; Li, Lync, Shimizu, & Kaufman, 2004; Rust & Rao, 1996）證實複雜取樣設計的大型資料庫應用中，

(24)

Bootstrap程序可直接應用在多階段取樣中的任一階段。例如：具有J個PSU分層

中，可重複抽取J−1個PSU代表整個分層資料；或是在具有I 個樣本的PSU內，

抽取I −2個樣本代表PSU的資料。以Bootstrap進行取樣時，要抽取多少個PSU或

是樣本來代表整個分層的資料，才能得到最佳的參數估計，一直都是研究者所關

心的議題。根據Efron(1982)、Stapleton(2008)及Rust與Rao(1996)建議，以分層中

抽取J −1個PSU代表J 個PSU的分層資料或是抽取I−1個樣本取代I 個樣本的 PSU，都是一個有效的取樣方式。 Bootstrap如同JRR程序，每次取樣後必須調整資料的取樣權重以反應分層內的樣本數。以二階段取樣且抽取J−1個PSU為例，抽取樣本的取樣權重計算如公式（8）： ) ( 1 ) ( m r n n w r w _j h h hji hji = × ₋ （8）

其中，whji為第h個分層第 j個PSU內樣本i的原始權重，whji(r)則為第r次Bootstrap

取樣的樣本權重，nh為第h個分層中PSU的個數，mj(r)代表第r次Bootstrap取樣中，第 j個PSU被隨機抽中的次數。延續JRR中的實例，假設第一階段取樣，分層 1 S 中隨機抽中P₁₂及P₁₃，分層S₂隨機抽中P₂₃及P₂₄。為了與JRR取樣設計相似，在分層S₁中以Bootstrap方法反覆隨機抽取（2-1）個PSU代表分層S₁中的樣本。同理，分層S₂重複上述程序。因每分層中隨機抽取1個PSU代表分層資料，則抽中的PSU 內樣本權重必須將原始權重乘以2(whji 1 2whji 1 2 2 _× ₌ − × )倍。表3即為延續表1，在Str. RS設計下，以Bootstrap取樣程序分別在分層S₁及S₂中各隨機抽取一個PSU，而抽中的PSU內樣本權重必須將原始權重乘以2倍，其餘樣本權重則為0。表3呈現Str. RS設計下，6次Bootstrap取樣及權重計算結果。WBoot1一欄代表第 1次Bootstrap取樣的權重計算，分層S₁及S₂分別隨機抽取P₁₂及P₂₄代表分層的樣本，因此重新計算的取樣權重為原始權重WR的2倍，其餘樣本權重則為0。同理，表4為PPS設計下的Bootstrap重複取樣權重計算結果。從表3中可發現權重的總和（240）並不等於母體總數，而表4以PPS設計的取樣權重總和（300）則會等於母

(25)

體總數。

表3 Str. RS 設計之 Bootstrap 重複取樣權重計算實例

stratum PSU subject WR WBoot1 WBoot2 WBoot3 WBoot4 WBoot5 WBoot6

1 S P₁₂ 1 20 40 40 0 0 0 40 1 S P₁₂ 2 20 40 40 0 0 0 40 1 S P₁₂ 3 20 40 40 0 0 0 40 1 S P₁₃ 4 20 0 0 40 40 40 0 1 S P₁₃ 5 20 0 0 40 40 40 0 1 S P₁₃ 6 20 0 0 40 40 40 0 2 S P₂₃ 7 20 0 40 40 0 40 40 2 S P₂₃ 8 20 0 40 40 0 40 40 2 S P₂₃ 9 20 0 40 40 0 40 40 2 S P₂₄ 10 20 40 0 0 40 0 0 2 S P₂₄ 11 20 40 0 0 40 0 0 2 S P₂₄ 12 20 40 0 0 40 0 0 表4 PPS 設計之 Bootstrap 重複取樣權重計算實例

stratum PSU subject WR WBoot1 WBoot2 WBoot3 WBoot4 WBoot5 WBoot6

1 S P₁₂ 1 25 50 50 0 0 0 50 1 S P₁₂ 2 25 50 50 0 0 0 50 1 S P₁₂ 3 25 50 50 0 0 0 50 1 S P₁₃ 4 25 0 0 50 50 50 0 1 S P₁₃ 5 25 0 0 50 50 50 0 1 S P₁₃ 6 25 0 0 50 50 50 0 2 S P₂₃ 7 25 0 50 50 0 50 50 2 S P₂₃ 8 25 0 50 50 0 50 50 2 S P₂₃ 9 25 0 50 50 0 50 50 2 S P₂₄ 10 25 50 0 0 50 0 0 2 S P₂₄ 11 25 50 0 0 50 0 0 2 S P₂₄ 12 25 50 0 0 50 0 0 Bootstrap的重複取樣次數不同於JRR，JRR的取樣次數需依據分層中PSU的個數決定，而Bootstrap的取樣次數則由研究者自行決定。假設重複取樣R次，並經由R次模式分析後，其參數估計的標準誤可由公式（9）計算得到（Stapleton, 2008; Wolter, 2007）：

(26)

1 ) ( 1 2 − − =

∑

= ∧ ∧ ∧ R SE R r r BOOT θ θ θ （9）其中 r ∧ θ 為第r次重複取樣的參數估計值， ∧ θ 則為原始取樣資料參數估計值，R為重複取樣次數。

參、Adjusted Balanced Bootstrap (ABB)

ABB取樣程序是從Balanced Bootstrap程序中進行修正。Balanced Bootstrap是

利用Bootstrap重複取樣時，修正其取樣程序讓每一PUS在重複B次取樣後，被抽

到的次數都能相同，使重複取樣方法對於每一個PSU都能達到公平的狀態，以增加參數估計的準確性（Wu, 1991; Nigam & Rao, 1996）。Balanced Bootstrap取樣方法僅針對取樣程序進行修正，因而具有與Bootstrap程序相同可直接應用在多階層取樣中的任一階段取樣的優點（Wu, 1991; Booth et al., 1993; Saigo, Shao, & Sitter, 2001），但相對在執行取樣程序時，需抽取多少個PSU或是樣本才能得到最佳的參數估計仍舊沒有確定的標準。

Bootstrap重複取樣中，儘管已經使用簡單隨機取樣進行PSU或PSU內的樣本抽取，但此方法僅代表取樣機率的相等而非實際取樣次數的相等（Booth et al., 1993; Davison & Hinkley, 1998; Efron & Tibahirani, 1993）。Balanced Bootstrap的

目的即修正相等機率取樣為次數相等的取樣。假設研究者欲從一組N 筆調查資料 ) ,..., , (x₁ x₂ x_n X = 進行重複B次取樣，且使得每一筆資料被抽到的次數相同，則可將資料x1,x2,...,xn重複B次排成一列，即可獲得一N×B個數的數列（x1,x2,...,xn, x 1, , ,..., 2 xn x ...,x1,x2,...,xn），之後再將此一數列重新排列，取第1至第n個數視為第一次取樣的樣本，再取第n+1個數到第2n個數為第二次取樣的樣本。依此類推，共可取得B組的Balanced Bootstrap取樣樣本，而原始資料中每一筆資料x_i被抽到的次數皆為B次，使得Balanced Bootstrap重複取樣對每一筆資料達到公平的狀態。然而本研究中並未對分層中的所有PSU或是PSU內的所有樣本進行重複取

(27)

樣，而僅抽取其中一部份作為分析資料，因此必須將Balanced Bootstrap進行修正，研究中稱為ABB。假設欲從N 筆資料（x1,x2,...,xn）中，重複B次抽取k筆資料進行分析，則每筆資料平均被抽中的次數M ，可由公式（10）計算得知。 N k B M = × （10）公式（10）中的限制，必須假設B×k 為N 的整數倍數。取樣程序可將資料 n x x x₁, ₂_,..., 重複M 次排成一列，即可獲得一N×M 個數的數列，之後再將此一數重新排列，取第1至第k個數視為第一次取樣的樣本，再取第k+1個數到第2k個數為第二次取樣的樣本。依此類推，共可取得含有k個樣本的B組ABB取樣樣本。而每一組樣本中，抽取樣本的權重計算與Bootstrap程序的權重計算公式（8）相同。延續JRR及Bootstrap的實例。第一階段分層S₁抽中P₁₂及P₁₃，分層S₂抽中P₂₃及 24 P ，因此在分層S₁及S₂中以ABB取樣方式反覆抽取1個PSU。因每分層中只有2 個PSU，則隨機抽取的1個PSU中的樣本取樣權重為原始權重2倍。表5為延續表3，假設重複抽取6次，並依據公式（10）計算每分層中，每個PSU平均被抽中次數為 3次（ 3 2 1 6× ₌ = M ），表中呈現6次的ABB重複取樣及其權重的計算結果。W_ABB₁一欄代表第1次ABB取樣的權重計算，分別抽取P₁₂代表S₁的取樣樣本，P₂₄代表S₂的取樣樣本，因此重新計算的取樣權重分別為原始權重WR的2倍，而其餘樣本權重則為0。同理，表6為PPS設計下，ABB取樣權重計算結果。從表5及表6可以發現，兩個分層中的PSU皆被平均的重複抽取3次。而取樣後，參數估計的標準誤計算方式則與公式（9）相同。

(28)

表5 Str. RS 設計之 ABB 重複取樣權重計算實例

stratum PSU subject WR WABB1 WABB2 WABB3 WABB4 WABB5 WABB6

1 S P₁₂ 1 20 40 40 0 0 0 40 1 S P₁₂ 2 20 40 40 0 0 0 40 1 S P₁₂ 3 20 40 40 0 0 0 40 1 S P₁₃ 4 20 0 0 40 40 40 0 1 S P₁₃ 5 20 0 0 40 40 40 0 1 S P₁₃ 6 20 0 0 40 40 40 0 2 S P₂₃ 7 20 0 40 40 0 40 0 2 S P₂₃ 8 20 0 40 40 0 40 0 2 S P₂₃ 9 20 0 40 40 0 40 0 2 S P₂₄ 10 20 40 0 0 40 0 40 2 S P₂₄ 11 20 40 0 0 40 0 40 2 S P₂₄ 12 20 40 0 0 40 0 40 表6 PPS 設計之 ABB 重複取樣權重計算實例

stratum PSU subject WR WR WABB1 WABB2 WABB3 WABB4 WABB5

1 S P₁₂ 1 25 50 50 0 0 0 50 1 S P₁₂ 2 25 50 50 0 0 0 50 1 S P₁₂ 3 25 50 50 0 0 0 50 1 S P₁₃ 4 25 0 0 50 50 50 0 1 S P₁₃ 5 25 0 0 50 50 50 0 1 S P₁₃ 6 25 0 0 50 50 50 0 2 S P₂₃ 7 25 0 50 50 0 50 0 2 S P₂₃ 8 25 0 50 50 0 50 0 2 S P₂₃ 9 25 0 50 50 0 50 0 2 S P₂₄ 10 25 50 0 0 50 0 50 2 S P₂₄ 11 25 50 0 0 50 0 50 2 S P₂₄ 12 25 50 0 0 50 0 50

肆、Random Group (RG)

RG重複取樣程序，主要是利用等分的概念，也就是從母群體中所抽取的樣本，以不重複的方式將抽取的樣本等分為數個新的分群，並以此分群代表母體資料。而RG取樣的參數估計方法為分群完成後，再依序進行各分群的估計，並以各分群的估計結果計算估計參數變異數（Lohr, 1999; Wolter, 2007）。

(29)

複雜取樣設計的資料應用中，RG取樣程序是一個相當具有彈性的取樣方法，可應用於多階層取樣中的任一階段。例如：將每一分層中抽取的n個PSU以取後不放回的方式各隨機抽取一個PSU以形成一個新的分群代表整個母體的資料，若母體中包含有6個分層，則新形成的分群中包含有6個PSU；或是在每分層的PSU內，每次從每一PSU中抽取數個樣本形成新的分群。 RG重複取樣如同JRR及Bootstrap，在多階段的分層取樣設計架構下，利用每一次分群資料進行分析時，必須加入適當取樣權重以反應母體資料。與前述相同實例，若第一階段取樣採用Str. RS設計，分層S₁中隨機抽中P₁₂及P₁₃，分層S₂抽中 23 P 及P₂₄。假設研究者欲從2個分層中已抽取的PSU內的樣本區分為3個分群，因此可採用取後不放回的方式進行分群。表7為Str. RS設計下，若選取各分層PSU中的一個樣本以形成新的分群，則可形成3個新的分群，每一分群中各包含每個PSU 中的其中一個樣本，而此稱為一次的分群程序。表7中呈現一次的RG分群程序及其權重的計算結果。WRG₁一欄代表第一群的權重計算，分層中每一PSU的第一個樣本被分為第一個分群，因此重新計算的取樣權重分別為原始權重WR的3倍，而其餘樣本權重為0。同理，表8為PPS設計下的一次RG分群的權重計算結果。表7 Str. RS 設計之 Random Group 取樣權重計算實例

stratum PSU subject WR WRG1 WRG2 WRG3

1 S P₁₂ 1 20 60 0 0 1 S P₁₂ 2 20 0 60 0 1 S P₁₂ 3 20 0 0 60 1 S P₁₃ 4 20 60 0 0 1 S P₁₃ 5 20 0 60 0 1 S P₁₃ 6 20 0 0 60 2 S P₂₃ 7 20 60 0 0 2 S P₂₃ 8 20 0 60 0 2 S P₂₃ 9 20 0 0 60 2 S P₂₄ 10 20 60 0 0 2 S P₂₄ 11 20 0 60 0 2 S P₂₄ 12 20 0 0 60

(30)

表8 PPS 設計之 Random Group 取樣權重計算實例

stratum PSU subject WR WRG1 WRG2 WRG3

1 S P₁₂ 1 20 75 0 0 1 S P₁₂ 2 20 0 75 0 1 S P₁₂ 3 20 0 0 75 1 S P₁₃ 4 20 75 0 0 1 S P₁₃ 5 20 0 75 0 1 S P₁₃ 6 20 0 0 75 2 S P₂₃ 7 20 75 0 0 2 S P₂₃ 8 20 0 75 0 2 S P₂₃ 9 20 0 0 75 2 S P₂₄ 10 20 75 0 0 2 S P₂₄ 11 20 0 75 0 2 S P₂₄ 12 20 0 0 75 利用RG進行重複取樣，究竟要重複幾次的分群程序（M ），每次的程序中要將樣本區分為多少個分群才能得到最佳的參數估計，一直都是研究者所關心的議題，如果分群數太少，則容易產生參數變異數估計的不精確；分群數太多，則需耗費相當多取樣及估算時間（Lahiri, 2003; Wolter, 2007）。 RG取樣程序的分群個數可由研究者依取樣的PSU數或是樣本數所決定。假設研究中的一次取樣分群程序的分群數為G，並重複M次的RG分群程序，因此必須 進行M×G次的模式估計，模式估計後的參數估計標準誤，可由公式（11）及公式（12）計算（Lohr, 1999; Wolter, 2007）。 1 ) ( 1 1 2 ~ * ~ − − × =

∑

= ∧ G G SE G g g RG θ θ θ （11）其中， g ∧ θ 為第g個分群的參數估計值，

∑

= ∧ = G g g G 1 ~ θ θ 則為g個分群的參數估計值平均。從上述的公式中，一次的分群程序可計算得到一個估計標準誤，因此重複的 M 次的分群程序可計算得M 個估計標準誤（ m RG RG RG RG SE SE SE SE ~ 3 ~ 2 ~ 1 ~ , , ..., θ θ θ θ ），則最後的RG 程序估計標準誤為：

_∑

= = M m M SE SE RGm RG ₁ ~ ~ θ θ （12）

(31)

第三章研究方法與進行步驟

為使實驗符合調查資料庫的實徵資料分析情境，本研究第一步驟：以CFA模式為主要分析架構產生模擬資料，再依設定的二階段分層設計，以Str. Rs及PPS 取樣設計，進行分層間取樣並計算樣本原始權重。第二步驟：利用JRR、Bootstrap、 ABB及RG等重複取樣程序，從已抽取的分層PSU中進行重複取樣，並利用原始權重計算重複取樣的樣本權重。最後以QPML估算法進行模式估算，以探討不同權重計算的取樣設計在不同重複取樣程序，對於CFA模式的參數估計及參數估計標準誤影響。研究中以Matlab 7.1撰寫本研究探討的取樣程式及權重計算，模式估計則利用Mplus 4.21 (Muthén & Muthén, 1998-2006)軟體協助進行。

第一節模擬研究設計

研究的母體資料假設為一個包含二階層結構的複雜取樣設計。母體包含有6 個分層，每一分層內含有8個PSU (Ph1 ~ Ph8)，為了凸顯Str. RS及PPS兩種取樣設計的權重計算差異，其中Ph1 ~ Ph2的PSU樣本大小（sample size）相對較少，分別為 600及800；P_h₃ ~ P_h₆屬於大樣本，分別為3500、4000、4000及3500；P_h₇ ~P_h₈亦屬於小樣本人數，分別為800及600，合計每分層中包含17800筆樣本，而母體總計有106800筆資料。本研究的CFA模式主要延伸蔡良庭與楊志堅（2008）及Yang與Tsai(2006)的實驗，設計五個觀測變項及單一潛在變項的測量模式。架構中的模式可由公式（13）表示： i i i y =λη+ε （13） 其中i為觀察變項個數，η 為模式中設定的單一潛在變項，λ 為因素負荷量，i ε 為i

假設平均數0、標準差1的測量誤差（measurement errors）。研究中每一PSU的資料

都是設定五個觀測變項（y₁,..., y₅）的連續資料，但當觀測變項為類別型資料時，

(32)

連續資料轉換為五點計分之Liker問卷資料。表9 類別型資料之觀察變項閾值參數設定值閾值(threshold) 觀測變項 τ 1 τ 2 τ 3 τ 4 1 y -0.35 0.67 0.97 1.94 2 y 0.18 0.90 1.29 1.94 3 y -0.37 0.03 0.91 2.29 4 y -0.56 -0.13 0.80 2.22 5 y -0.38 0.49 1.04 2.33 依據上述，研究模型設定如圖一所示。為了探討PSU間變異的大小對於估計

的影響，根據研究（蔡良庭、楊志堅，2008；Kaplan & Ferguson, 1999; Yang & Tsai,

2006）指出，CFA模式的分析中，若不同分層中的觀測變項因素負荷量相同，則參數估計的精確度並不因分層中的權重不相同而受影響，因此本研究中僅以固定 PSU在第二個因素負荷量具有差異，其餘模式中所有PSU的第一個因素負荷量設定為1（λ₁=1），第三至第五設定為0.5（λ₃ =λ₄ =λ₅ =0.5）。研究設計有四種PSU 異質性實驗，以Ph1 ~ Ph2、Ph3 ~Ph6及Ph7 ~ Ph8的第二個因素負荷量分別為0.1、0.5 及0.9為變異最大，記錄為d = 0.4，另三種設計如表10所示，分別為（0.2、0.5、 0.8）、（0.3、0.5、0.7）及（0.4、0.5、0.6）。圖一潛在變項模式路徑圖

(33)

表10 各分群之λ 設定值 2 2 1 ~ h h P P P_h₃ ~ P_h₆ P_h₇ ~ P_h₈ d = 0.4 0.1 0.5 0.9 d = 0.3 0.2 0.5 0.8 d = 0.2 0.3 0.5 0.7 d = 0.1 0.4 0.5 0.6 註：各分群的其餘因素負荷量皆設定相同（λ₁ =1、λ₃ =λ₄ =λ₅ =0.5）

第二節取樣設計

本研究依據上述模式設定，以Mplus 4.21軟體協助進行資料產生。後續實驗中的取樣及權重計算則依以下二個步驟進行：步驟一：分層取樣的第一階段採用Str. RS 及 PPS 兩種取樣設計於每一分層抽取 4 個PSU，第二階段再從抽取的 4 個 PSU 中，分別隨機抽取樣本數 10、50、 100 及 200。因此當 PSU 中隨機抽 10 個樣本數時，總取樣數為 10×4×6 =240。其餘取樣數分別為 1200、2400 及 4800。取樣後依據不同取樣設計計算樣本原始權重。步驟二：利用JRR、Bootstrap、ABB 及 RG 等重複取樣程序，從已抽取的分層 PSU 中進行重複取樣，並利用原始權重計算重複取樣的樣本權重。依據上述的模式設計及取樣程序，本研究實驗共計有2(資料型態)× 2(分層第一階段取樣設計)× 4(PSU間變異)× 4(抽取樣本數)＝64種情境，每一種情境下都進行500次的重複實驗（replication），因此會有500個樣本點，以探討模式的參數估算及參數估計標準誤的準確性。以下針對本研究的重複取樣程序做進一步說明。

壹、Jackknife Repeated Replication (JRR)

研究母體中包含6個分層，第一階段取樣皆從每分層中抽取4個PSU，因此每次取樣都包含有24個PSU，第二階段再依設計的樣本數從抽取的PSU中隨機抽取

(34)

樣本。JRR重複取樣程序則從24個PSU中，每次遺漏一個PSU，以剩餘的23個PSU 進行模式估計，因此共計有24次的重複取樣權重計算及模式估計。假設第一次的 JRR重複取樣權重計算時，遺漏了第一個分層中的第一個PSU取樣樣本，則其取樣權重紀錄為0，而同一分層中的另3個PSU的取樣權重根據公式（4）計算，必須乘以4₃倍以反應該分層中的總樣本數，其餘分層PSU中的樣本權重維持原始權重。因此總計500次的重複實驗中，每一次的樣本抽取都必須進行24次的模式估計，每一次的估算都採用不同的JRR取樣權重。

貳、Bootstrap

Bootstrap程序在每一次的取樣時，於每一分層中皆以取後放回的方式，一次隨機抽取1個PSU，反覆抽取3次共計抽取3個PSU，抽取的PSU則依公式（8）計算重複取樣權重反應分層中的總樣本數。本研究根據Kovar等人（1988）的建議，在每一次的分層取樣中重複100次Bootstrap的重複取樣及權重計算。因此總計500 次的重複實驗中，每一次的分層樣本抽取都必須進行100次的模式估計，每一次的估算採用不同的Bootstrap樣本及其取樣權重。

參、Adjusted Balanced Bootstrap (ABB)

依據Bootstrap的取樣程序設定，ABB的重複取樣次數相同設定為100次。根據公式（10）的計算，每一分層的取樣PSU必須平均被抽取75次。取樣程序則將每一分層中，已取樣的4個PSU分別重複75次的排成一列，共計6個數列，之後再將每一數列重新排列。完成排序後，以6個數列的前3個PSU視為第一組被抽取的 PSU，PSU內的樣本權重依據公式（8）計算，而分層中未被抽取的PSU樣本權重則為0。依此將數列中第4-6個PSU視為ABB第二組重複取樣抽取的PUS，依序即可得100組的ABB重複取樣樣本。

(35)

肆、Random Group (RG)

以RG程序進行重複取樣時，本研究設計從已抽取的分層PSU內的樣本，以樣本不重複的隨機分成5個分群，因此每一分群中各只包含每一PSU的1₅個樣本。而每一次的取樣再分別進行10次的分群程序並進行模式的參數估計。據此，本研究總計500次的取樣中，每一次的取樣資料皆隨機依每一分層中已取樣的4個PSU 內的樣本區分為5個分群，並重複進行10次的分群，因此每一次的取樣必須進行 50次的模式估算並利用公式（11）及公式（12）計算參數估計標準誤。

第三節結果分析

經由取樣程序及模式估算後，依據公式（14）至公式（17）的定義計算參數

估計值及參數估計標準誤的偏誤及MSE(Stapleton, 2008; Wolter, 2007)，以衡量參

數估計及估計標準誤的準確性。

∑

= ∧ ∧ ∧ ∧ − = 500 1 500 1 ) ( i p p p p i B θ θ θ θ （14）

∑

= ∧ ∧ ∧ − = 500 1 2 ) ( 500 1 ) ( i p p p _i MSE θ θ θ （15）

∑

= ∧ ∧ ∧ ∧ − = ∧ ∧ 500 1 500 1 ) ( i p p i p se se se se B θ θ θ θ （16）

∑

= ∧ ∧ ∧ − = ∧ ∧ 500 1 2 ) ( 500 1 ) ( i p i p se se se MSE _θ θ θ （17）其中θ∧p_i 代表第i次取樣估計後的第p個參數估計值， ∧ p θ 為500次重複取樣樣本點的 第p個參數估計平均值。 ∧∧ i p se θ 代表i次取樣估計後的第p個參數估計標準誤， ∧ p se_θ 為 500個樣本點的第p個參數的估計標準誤。

(36)

第四章研究結果

本節主要將模擬實驗的結果以圖、表呈現整體的趨勢，並依連續資料及類別資料分別說明本研究之結果。

第一節連續資料

在連續資料的設定下，本研究探討的變項有「取樣設計」、「重複取樣程序」、「取樣樣本數」及「PSU異質性」等四種，主要的比較基準為CFA模式估算後的因素負荷量估計值及估計標準誤的偏誤，數值愈接近0表示估計正確性愈高，並輔以MSE補充說明，最後將500次重複實驗所估算的參數估計值及估計標準誤繪製其分配圖，探討其分配對於估計結果的影響。實際的數值模擬結果記錄於附錄一及附錄二各附表中。以下分別依取樣設計、重複取樣程序、取樣數及PSU 異質性等因子進行結果說明。

壹、取樣設計及不同重複取樣程序的影響

分別依不同取樣設計計算在不同重複取樣程序的各條件下的綜合平均值，如表11。表中每個數值的計算都是由4種取樣數×4種PSU異質性平均而來，亦即分別為不同取樣設計在不同重複取樣程序下，參數估計及參數估計標準誤的平均偏誤及MSE。表11 連續資料之不同取樣設計及重複取樣程序參數估算結果

Parameter (λ₂) Stand Error of λ₂

Bias MSE Bias MSE

PPS Str.RS PPS Str.RS PPS Str.RS PPS Str.RS

JRR .0001 .0001 .0010 .0008 .0182 -.2030 .0006 .0010

Bootstrap .0006 .0008 .0011 .0009 .0155 -.1846 .0001 .0002

ABB .0005 .0008 .0011 .0008 .0194 -.1814 .0007 .0002

(37)

參數估計部分，在PPS及Str. RS取樣設計之下，四種重複取樣的估計值偏誤及MSE雖有不同但差異極小且都趨近於0，顯示不同取樣設計對於參數估計影響極小。參數估計標準誤部分，JRR、Bootstrap及ABB的程序於PPS取樣設計時，偏誤分別為1.82%、1.55%及1.94%，若依據Stapleton(2002)及Hoogland與Boomsma (1998)建議的參數估計及參數估計標準誤偏誤絕對值應分別小於5%及10%為標準，則三種取樣程序都在設定的標準之內。然而在Str. RS的取樣設計下參數估計標準誤約有將近兩成的低估並超過設定標準。在參數估計標準誤的MSE方面，不同取樣設計下的重複取樣方法雖略有差異，但差距不大。而RG取樣程序，雖然參數估計的部分在兩種取樣設計上都在設定標準內，但參數估計標準誤的偏誤部分，不論何種取樣設計都明顯的表現不佳，甚至達到30%以上的參數估計標準誤低估。

貳、取樣數（n）的影響

表12中的參數估計及估計標準誤的偏誤及MSE是由4種不同PSU異質性條件下的平均值。表中呈現JRR、Bootstrap、ABB及RG四種方法不論是在PPS或Str. RS 取樣設計，參數估計的偏誤並不受取樣數的影響，約略介於-0.19%~1.22%之間，都相當趨近於0，也就是不論取樣設計為何，經由四種重複取樣的程序後，CFA 模式的因素負荷量參數估算偏誤受取樣數影響不大。參數估算MSE部分，隨取樣數增加MSE愈小，且取樣數240時的MSE明顯的高於其他情境的結果，但彼此之間的差異並不大。依據上述的參數估計偏誤及MSE說明，取樣數的多寡在本研究的不同取樣設計及重複取樣程序中雖略有些微差異，但幾乎不影響因素負荷量的參數估計。參數估計標準誤的偏誤部分，如將偏誤繪製成圖二所示，圖中之X軸為取樣數，Y軸為參數估計標準誤偏誤，圖中每一條折線分別代表不同取樣設計的表現。在PPS取樣設計下，JRR、Bootstrap、ABB三種重複取樣程序的標準誤偏誤對於不同取樣數雖無一定的趨勢或是規則可尋，但都能維持在約-1.27%~5.28%之間；而

(38)

RG則隨著取樣數增加，參數估計標準誤偏誤愈嚴重，最大達55.61%的低估。而在Str. RS設計時，四種取樣程序皆隨取樣數增加而低估愈嚴重。參數估計標準誤的MSE，除了Bootstrap及ABB在PPS的設計之外，參數估計標準誤的MSE大致隨取樣數增加而遞減。

表12 連續資料之不同取樣數參數估算結果

Parameter (λ₂) Stand Error of λ2

Bias MSE Bias MSE n PPS Str. RS PPS Str. RS PPS Str. RS PPS Str. RS 240 .0001 -.0019 .0024 .0025 .0037 -.0032 .0013 .0017 1200 .0001 .0042 .0006 .0006 .0208 -.2177 .0005 .0010 2400 .0000 -.0012 .0003 .0003 .0528 -.2506 .0003 .0008 JRR 4800 .0000 -.0006 .0002 .0002 -.0044 -.3405 .0003 .0007 240 .0017 .0002 .0025 .0025 .0086 .0137 .0001 .0003 1200 .0007 .0044 .0006 .0007 .0220 -.2073 .0000 .0002 2400 .0001 -.0008 .0003 .0004 .0441 -.2394 .0000 .0002 Bootstrap 4800 -.0001 -.0006 .0002 .0002 -.0127 -.3056 .0000 .0001 240 .0015 .0004 .0024 .0025 .0078 .0244 .0001 .0003 1200 .0003 .0043 .0006 .0007 .0217 -.2056 .0000 .0002 2400 .0002 -.0010 .0003 .0004 .0524 -.2380 .0000 .0002 ABB 4800 .0001 -.0005 .0002 .0002 -.0045 -.3062 .0000 .0002 240 .0111 .0122 .0023 .0024 -.0989 .0061 .0017 .0014 1200 .0020 .0047 .0006 .0007 -.3449 -.3339 .0007 .0005 2400 .0004 -.0010 .0004 .0005 -.4320 -.4128 .0004 .0003 RG 4800 .0017 .0000 .0002 .0002 -.5561 -.5423 .0003 .0001

運用重複取樣方法探究複雜資料的取樣設計及權重於CFA參數估計之效應

國立臺中教育大學教育測驗統計研究所理學博士論文

指 導 教 授：楊志堅 教授

運用重複取樣方法探究複雜資料的取樣設計及

權重於

CFA 參數估計之效應

The effect of using resampling methods to

sampling design and weight with complex

data on the parameter estimation in

confirmatory factor analysis

研 究 生：蔡良庭 撰

摘要

Abstract

目錄

表目錄

圖目錄

第一章 緒論

第一節 研究動機

壹、重複取樣程序

貳、PSU異質性

參、取樣樣本數

肆、母群體資料型態

第二節 研究問題

第二章 文獻回顧與評述

第一節 取樣設計

壹、分層隨機取樣（Str. RS）

貳、等比率等機率取樣（PPS）

第二節 分層結構資料及SEM模式分析

第三節 Quasi Pseudo Maximum likelihood (QPML)

∑

∑

∑

∑

∑

第四節 重複取樣程序及其權重計算

壹、Jackknife Repeated Replication (JRR)

∑

∑

∑

貳、Bootstrap

∑

參、Adjusted Balanced Bootstrap (ABB)

肆、Random Group (RG)

∑

∑

∑

第三章 研究方法與進行步驟

第一節 模擬研究設計

第二節 取樣設計

壹、Jackknife Repeated Replication (JRR)

貳、Bootstrap

參、Adjusted Balanced Bootstrap (ABB)

肆、Random Group (RG)

第三節 結果分析

∑

∑

∑

∑

第四章 研究結果

第一節 連續資料

壹、取樣設計及不同重複取樣程序的影響

貳、取樣數（n）的影響

指導教授：楊志堅教授

研究生：蔡良庭撰

第一章緒論

第一節研究動機

第二節研究問題

第二章文獻回顧與評述

第一節取樣設計

第二節分層結構資料及SEM模式分析

第四節重複取樣程序及其權重計算

_∑

第三章研究方法與進行步驟

第一節模擬研究設計

第二節取樣設計

第三節結果分析

第四章研究結果

第一節連續資料