研究動機

第一章緒論

第一節研究動機

調查研究中，不論採用任何一種取樣設計進行樣本抽取，觀察變項的測量值估計能否精確的推論母群體特性，已成為調查研究必須具備的重要條件之一

（Lohr, 1999; Stapleton, 2008; Wolter, 2007）。觀察變項測量值的估計精確與否，除了觀察變項統計量的估計之外，觀察變項估計的變異數也是探討的重要指標

（Lohr, 1999; Stapleton, 2008; Wolter, 2007; Lee, Forthofer, & Lorimor, 1989; Rust &

Rao, 1996; Rao, Wu, & Yue, 1992）。影響調查研究資料能否正確推論母體特性的原因眾多，包含取樣程序中，取樣方法的選擇、權重計算、取樣數多寡及其代表性、

乃至最後資料分析的統計模式及參數估算法的選擇，都是影響調查研究結果的重要議題。

相關研究（楊志堅、蔡良庭，2008；蔡良庭、楊志堅，2008； Asparouhov, 2005, 2006; Stapleton, 2006, 2008; Grilli & Pratesi, 2004; Yang & Tsai, 2006）指出，調查研究中需因應樣本的取樣機率不均等而必須搭配使用「適當」的取樣權重資料，

才能正確推論母體的統計模式參數。此外，若調查研究資料具有分層特性，則不同取樣設計的選擇需搭配不同的取樣權重計算，但此權重計算的不同卻容易被研究者忽略。基於上述，本研究延續蔡良庭與楊志堅（2008）及Yang與Tsai (2006) 的確認性因素分析（confirmatory factor analysis, CFA）模型，分別在分層簡單隨機取樣（stratified random sampling, Str. RS）及等比率等機率取樣（probability proportional to size, PPS）設計下，以Jackknife Repeated Replication (JRR)、

Bootstrap、Adjusted Balanced Bootstrap (ABB)及Random Group (RG)等不同重複取樣程序，評估權重計算對於CFA分析的參數估計值及參數估計標準誤影響。

第一節研究動機

調查研究的取樣過程中，常因遺失資料並非完全隨機遺失（例如：missing at random, MAR）等無法預期因素或是特殊的取樣設計，例如：美國進行的幼兒長

期追蹤研究（Early Childhood Longitudinal Study, ECLS）的取樣設計，依分層中不同樣本數採用分層不相同機率取樣方式進行資料抽取，且太平洋島上的學生被抽取的機率為其他地區學生三倍，以致各分層的取樣機率不相等（ECLS; U.S.

Department of Education, 2001）。因此進行資料分析時必須適當考慮取樣權重，才能有效推估母群體特性（楊志堅、蔡良庭，2008；蔡良庭、楊志堅，2008； Kaplan

& Ferguson, 1999; Yang & Tsai, 2006）。蔡良庭與楊志堅（2008）的研究指出，

若研究者進行CFA模式分析時，忽略取樣權重將導致參數估算不精確，即使增加取樣的樣本數，相關情形並未獲得改善。同理，若忽略取樣權重且分層之間的異質性愈大，參數估計愈不準確；但若考慮權重於參數計算，則分層的差異對於估計的準確性影響並不大。此外，楊志堅與蔡良庭（2008）將取樣權重概念應用於類別型資料的Likert (Likert, 1932)問卷測量恆等性（measurement equivalence/

invariance, ME/I）檢定，發現取樣權重對於檢定效果扮演相當重要的影響，例如：

進行模式檢定時，若考慮權重的計算則檢定正確性隨取樣數增加而上升，且皆優於未考慮權重的檢定效果。Kaplan與Ferguson(1999)的研究結果亦顯示：若分析過程中忽略權重的計算，將導致CFA模式的參數估計偏誤（bias），且隨因素負荷量（factor loading）差距變大而偏誤增大。然而上述研究，僅就模式參數估計及模式檢定部分進行探討，並未更進一步探討取樣權重對於參數估計標準誤的影響，雖然後續Stapleton(2008)曾利用重複取樣程序於SEM的結構模式（structure model）參數估計標準誤探討，但研究中著重於不同重複取樣程序的比較，忽略了不同取樣設計中的權重計算、取樣人數及分層間的變異程度對於模式估計的影響。

調查研究中為了使取樣樣本更有效代表階層在整個取樣設計中所扮演角色，常採用Str. RS及PPS等多階段的分層取樣設計取代簡單隨機抽樣（simple random sampling, SRS）進行樣本的抽取。例如：TIMSS(Trends in International Mathematics and Science Study) 、 PISA (Programme for International Student Assessment)、PIRLS(Progress in International Reading Literacy Study)等大型跨國際

的調查研究，常包含多個國家、地區或是學區；而國內的調查研究，例如：臺灣教育長期追蹤資料庫研究（Taiwan Educational Panel Study, TEPS）、臺灣地區社會變遷基本調查（Taiwan Social Change Surveys, TSCS）亦包含多個縣市，縣市內又包含鄉鎮或多個學區的複雜取樣設計（complex sampling designs）階層結構。在這些複雜資料結構的調查研究，Str. RS及PPS取樣設計為最常應用的方法之一，

且取樣權重隨取樣設計不同而有不同計算方式（Scheaffer, Mendenhall III, & Ott, 2006），例如：多階段的複雜取樣設計中，基本取樣單位（primary sampling units, PSU）內的樣本總數常不相同，以Str. RS進行第一階段PSU取樣，則最後母體中的每一個樣本被抽取的機率並不相同，也導致取樣權重的總和與母體的總數不相同。同理，若以PPS進行分層資料抽取，不僅可使母體中每個樣本被抽取機率相同，且權重的總和與母體的總數相同（Scheaffer et al., 2006）。因此在進行資料分析時，極有可能因取樣設計及權重計算不同導致推估母體特性時產生錯誤的推論，然而此部分卻也最常為研究者所忽略，且目前有關取樣權重的相關文獻亦鮮少探討不同取樣設計所造成的取樣權重差異對參數估計的影響，尤其是應用於因素分析（factor analysis）、潛在變項模式（latent variable model）等高階統計分析亦尚付闕如。尤其因素分析常為調查研究的工作者應用來進行量表編製的項目分析與校度評量的建構，因此分析結果的精確性在量表的理論發展與測量上極為重要，顯見其更有探討必要性。

衡量取樣資料的觀察變項測量值的參數估計精確與否，除了觀察變項統計量的估計之外，觀察變項估計的變異數也是探討的重要指標。取樣資料的變異數估計能協助研究者瞭解變項統計量的離散情形，但一般而言，研究者並無法確知觀測變項的估計變異數。目前較常為研究者用來進行估計變異數估計的有泰勒線性法（Taylor linearization method, TLM）的非重複取樣（non-resampling）方法及JRR、

Bootstrap、Balanced repeated replication(BRR)及RG等重複取樣（resampling）方法兩類。對於非線性的統計分析，例如：參數比率（ratio）、迴歸係數（regression parameter）或是相關係數（correlation coefficients）等的參數變異數估計，除了TLM

估計方法之外，JRR、Bootstrap、BRR及RG等重複抽樣方法也已被廣泛使用於上述模式分析（Wu, 1986; Babu & Singh, 1983; Kovačević, Huang, & You, 2006; Rao, Wu, & Yue, 1992; Sahinler & Topuz, 2007）。雖然TLM法適用於一般性的取樣設計，但對於不同的參數變異數估算則必須採用不同的公式計算，相對於重複取樣方法只需利用單一的計算公式，即可對於不同的統計量進行估計變異數計算（Rao, Wu, & Yue, 1992），顯然TLM並不是一個便利的估算方法。此外，重複取樣程序的優點是無須特別對樣本所來自的母體作預先性的分配假設。且近年來因電腦強大的運算功能，使重複取樣程序取代了統計理論的分析，省去理論上的繁複推論。根據Andersson、Forsman與Wretman(1987)及Kovačević、Huang與You(2006) 的研究指出JRR、Bootstrap、RG、等重複取樣方法比TLM的非重複取樣方法在多階層模式（Multi-level model）分析時，能提供更精確的參數估計。同時許多的大型調查研究的資料庫，例如：TIMSS(Martin, 2005)、PISA(OECD, 2005)、PIRLS (Gonzalez & Kennedy, 2003)等，都以重複取樣程序作為參數變異數估計的主要方法。據此，本研究選擇以重複取樣程序作為參數估計方法。

針對上述問題，為了探討Str. RS與PPS兩種取樣設計及其權重計算對於CFA 模式分析的影響，研究中擬以JRR、Bootstrap、Adjusted Balanced Bootstrap(ABB) 及RG等不同重複取樣程序，分別在連續及類別型資料設定之下，評估不同取樣設計及其權重對於CFA模式分析的參數估計及參數估計標準誤影響。本研究延續蔡良庭與楊志堅（2008）及Yang與Tsai(2006)的CFA模型，並參考其模式參數值設定，以電腦數值模擬方式進行研究。實驗設計中包含多種不同的取樣數、PSU異質性程度及不同母體資料類型等因素。

以下分別以「重複取樣程序」、「PSU異質性」、「取樣數」及「母群體資料型態」等四部分，進行各探討變項說明：

壹、重複取樣程序

本研究除了以Str. RS及PPS兩種不同分層取樣設計進行分層取樣外，將採用

JRR、Bootstrap、ABB及RG四種重複取樣程序，在不同分層取樣設計及其取樣權重計算下，探討CFA模式的參數估計及參數估計標準誤表現。

根據Stapleton(2008)應用重複取樣程序於SEM的結構模式(structure model)參數估計，以JRR的參數估計標準誤表現最佳，而BRR(balanced repeated replication) 與Bootstrap方法的參數估計標準誤偏誤相近但高於JRR的偏誤。利用BRR重複取樣程序時，僅適用於每一分層中只有2個PSU的複雜取樣設計，且取樣設計中包含 有 H 個分層時，最多會有2 種不同的重複取樣樣本形式(Lohr, 1999; McCarthy, ^H 1969; Wolter, 2007)，因此對電腦的運算造成繁重的負擔且耗時甚多。儘管Lohr (1999)、Stapleton(2008)及Wolter(2007)建議可使用Hadamard矩陣的設計方式讓重複取樣的次數減低，但在使用上與Bootstrap相較仍顯不方便。Bootstrap取樣程序對於資料調查分析而言，是一個具有彈性且有效的方法(Lahiri, 2003; Stapleton, 2008)，且可直接應用於分層取樣中的任一階段，並可由研究者自行決定取樣的次數，因此本研究採用Stapleton (2008)研究中表現較佳的JRR及較具使用彈性的 Bootstrap取樣程序。

除了上述兩種重複取樣程序之外，本研究也納入RG及ABB兩種方法。RG的優點與Bootstrap一樣，使用相當具有彈性且可應用於多階層取樣中的任一階段，

並可允許分層中的PSU個數或PSU內樣本數的不相同(Lohr, 1999; Wolter, 2007)。

缺點則為變異數估計的偏誤易受分群個數及取樣樣本數的多寡影響(Wolter, 2007)。Mulry與Wolter(1981)以重複取樣程序調查消費者每月的收入與實際消費之間的相關，研究結果發現RG重複取樣程序所估算的相關係數變異數的偏誤及均方差(mean square error, MSE)比BRR及JRR小，且參數估計的信賴區間覆蓋率 (confidence interval coverage rates)也優於其他取樣方法。Dippo與Wolter(1984)研究亦證實，當RG的分群數大於8時，相關係數變異數的覆蓋率會優於BRR的覆蓋率。

ABB取樣程序主要是從Balanced Bootstrap進行修正。Balanced Bootstrap是由 Davison、Hinkley與Schechtman(1986)所提出，目的用來降低取樣的變異，後續

在文檔中運用重複取樣方法探究複雜資料的取樣設計及權重於CFA參數估計之效應 (頁 8-15)

第一章 緒論

第一節 研究動機

第一節 研究動機

壹、重複取樣程序

第一章緒論

第一節研究動機

第一節研究動機