進行多層次建模最小可行的樣本數建議:
貝氏模擬取向
曾明基
國立東華大學師資培育中心兼任助理教授摘 要
本研究經由模擬研究的方式同時比較貝氏方法和ML 估計法在多層次模型以 及成長模型建構時,最小可行的分析樣本單位數,並同時考慮存在隨機遺漏下,
在多層次模型以及成長模型建構所需的樣本數調整。研究發現,使用貝氏方法進 行多層次模型以及成長模型建構,所需的樣本數較小且可以獲得穩定的參數覆蓋 率以及統計考驗力,值得加以推廣。
關鍵詞:貝氏方法、多層次模型、成長模型
曾明基電子郵件: [email protected]
Sample Size Requirements of Using Multilevel Models: Bayesian Simulation Study
Ming-Chi Tseng
Adjunct Assistant Professor, Center for Teacher Education, National Dong Hwa University
Abstract
This paper shows practical guidelines of sample size requirements when results are analyzed by multilevel models. The study found that when Bayesian method is used for multilevel model,stable parameters and power are attained through fewer samples.
Keywords: Bayesian method, multilevel model, growth model
Ming-Chi Tseng’s E-mail: [email protected]
壹、緒論
多層次研究由於涉及到不同層次的分析,因此要考慮到複雜的抽樣問題,若 以兩層次模型為例,在橫斷性研究中,多層次模型的兩個不同層次主要可區分為 個體層次與總體層次,而在縱貫性研究中,多層次模型一般以成長模型表示,成 長模型的兩個不同層次主要可區分為個體內層次與個體間層次。雖然多層次研究 在橫斷性與縱貫性的名稱不同,但是概念一致。以教育學門為例,在橫斷性研究 的兩層結構中就必須同時考慮從個體(學生)層次和總體(學校)層次抽多少樣 本數,而在縱貫性研究的兩層結構中就必須同時考慮個體內(時間)層次和個體 間(學生)層次的樣本數。
在橫斷性研究中,多層次模型可以下式表示:
yi j=B0 j+ri j
B0 j=r00+u0 j (1)
其中yij代表個體(學生)層次i 巢套在總體(學校)層次 j,B0j是隨機截距,
rij和u0j分別是個體層次和總體層次的誤差。
在縱貫性研究中,多層次模型可以下式表示:
yt i=B0 i+rt i
B0 i=r00+u0 i (2)
其中yti代表個體內(時間)層次t 巢套在個體間(學生)層次 i,B0i是隨機 截距,rti和u0i分別是個體內層次和個體間層次的誤差。由公式(1)和公式(2)
可知,多層次模型在橫斷性研究和縱貫性研究雖然所探討的議題不同,但在公式 的表答上沒有差異。
在多層次研究中,由於資料分析牽涉到跨層級的數據,因此樣本規模的決定 相較於單一層次的分析更為複雜,畢竟樣本大小影響到統計推論的有效性。對於 多層次模型的兩層結構而言,Kreft 與 Leeuw(1998)曾建議採用 30/30 準則,也 就是總體層次不少於30 組(如:30 間學校數),且每組不少於 30 人(如:30 個 學生)來決定樣本規模。基本上Kreft 等人所提出的 30 / 30 準則並不適用於縱貫 性研究,畢竟在進行縱貫性研究時,研究者要重複蒐集每位受試者30 次的觀測資 料是相當困難的事,因此,前述原則基本上僅適用於橫斷性研究的多層次模型。
此外,一般在大型資料庫中,可以蒐集3 波到 4 波的資料已經相當不容易,因此
這個準則並不適用在縱貫性研究,在縱貫性研究中,由於個體內層次觀察的時間 點不多,考慮到檢定力和參數估計穩定性,一般會將個體間層次的樣本數增大,
也就是蒐集的學生數要多。可見,不論是進行多層次模型或是成長模型,合理的 分析樣本數是需要加以考量的。
在多層次模型或是成長模型建構時,最大概似法(Maximum Likelihood, ML)
是經常使用的方法,在充分大的樣本數時,ML 估計可以產生漸進有效性和一致性 的估計值(Stoel & Garre, 2011)。然而在實證上,受限於研究經費及研究場域或 樣本的特殊性,在橫斷性的多層次模型或縱貫性的成長模型建構上,研究者在進 行多層次分析時常常無法收集到足夠的樣本數進行跨層級的模型建構。
有別於ML 估計法所需要的大樣本數要求,近來,貝氏估計法極受矚目,研 究人員若有先前的文獻或既得的研究結果可供參閱,在貝氏架構下可以將這些資 料透過先驗分配使其後驗分配更符合實際的研究情況,一般認為這樣的估計方式 可以在較小樣本數的多層次模型或是成長模型建構中獲得穩定的參數估計(Hox, van de Schoo, & Matthijsse, 2012; Muthén & Asparouhov, 2012)。
基於此,本研究旨在探討進行多層次模型以及成長模型建構時,所需的樣本 數與檢定力的關係,並同時比較ML 估計法和貝氏估計法在模型建構上所需合理 樣本數的差異,供實證研究者進行多層次模型以及成長模型建構時合理樣本數的 參考。
貳、文獻探討
本研究在多層次分析的樣本數決定上,主要聚焦於兩個議題,其中一個是參 數估計正確性(accuracy)的考量,也就是需要多大的樣本數才可以估計出不偏 的參數,而另一個為達成研究者所期望的檢定力時,需要多大的樣本數(Heck &
Thomas, 2009),因此,對於多層次分析各層所需的樣本數如何配置,其重要性不 言可喻。目前在國內、外多層次分析的實證以及模擬研究探討上(溫福星、邱皓 政,2011;楊志堅、劉心筠、楊志強,2004;Hox, 2010; Maas & Hox, 2004, 2005;
Kreft & De leeuw, 1998; Raudenbush & Bryk, 2002; Snijders, 2005),已有相關研究 探討進行模型建構時,合理或可行的分析樣本單位數為何,供實證研究者參閱。
然而,上述的模擬以及實證研究皆使用ML 估計法進行說明,忽略了進行多層次
分析時,研究者可能在實證上會有樣本數不足的問題,而導致參數估計偏誤,模 式無法收斂等。有別於ML 估計法,本研究在後續也將介紹貝氏估計法供實證研 究者參閱,並同時比較兩種不同估計法在進行多層次分析時,所需樣本數的差異。
一、多層次分析的合理樣本數決定
對於使用多層次模型進行橫斷性或是縱貫性研究,各層所需的樣本數如何 配置,向為研究的重大挑戰。有關不同樣本規模對參數估計正確性的影響,在 模擬研究部分,Maas 與 Hox(2005)在一系列條件下探討對於兩層結構的多層 次模型參數估計正確性的影響,其在模擬研究中操弄總體層次個數(N = 30、
50、100)、個體層次大小(N = 5、30、50)以及組內相關(Intraclass correlation coefficient, ICC)(ICC = .1, .2, .3),模擬結果顯示固定參數估計值(截距與斜率)
的偏誤微不足道。其次,就總體層次樣本數對標準誤的影響而言,Maas 與 Hox 發 現總體層次樣本數對於固定效果的迴歸係數的標準誤的影響是小的,當總體層次 樣本數為30 時,斜率的未覆蓋率(Coverage)為 6.0%,而截距的未覆蓋率為 6.4%,
與常用的未覆蓋率5% 相差不大,這樣的差異是可以接受的。此外,個體層次大小 在三種不同條件下的95% 信賴區間覆蓋率都有良好的表現。當個體層次樣本數變 大時,對於參數覆蓋率會有所改善,但增加總體層次樣本數改善幅度較佳,而在 三種不同ICC 條件下,固定參數的覆蓋率明顯優於變異數的覆蓋率。此外,Maas 與Hox(2004)也指出,當總體層次常態分配的誤差假設違反時,非常態的殘差 會對固定效果的參數估計產生影響,當總體層次的群組個數越多時,則會有較穩 定的參數估計,但若增加個體層次的樣本數並不能改善估計結果,為了得到不偏 的固定參數估計值,合理的總體層次樣本數應為50 組。Hox(2010)進一步指出,
在多層次分析中針對總體層次以及跨層級的交互效果進行分析時,統計檢定力主 要依賴於總體層次樣本數而非總樣本數。此外,Snijders(2005)也指出對於固定 參數的估計檢驗,使用較小的個體層次樣本並不會帶來負面的影響。Raudenbush 與Bryk(2002)也認為無論個體層次樣本規模的大小為何,固定效果的估計是不 偏的。
而在實証研究方面,溫福星、邱皓政(2011)使用 1988 年美國教育追蹤統計 資料庫(NELS88)進行多層次模型建構,指出當總體層次學校數分成 1003、23 及10 間時,固定效果的參數估計穩定,但隨機效果的估計受到總體層次樣本數影
響頗大,估計標準誤的顯著性在總體層次樣本數為1003 間學校時顯著,其餘的不 顯著。Mok(1995)也使用真實教育資料探討不同樣本規模對多層次模型固定參 數、變異數以及共變數的多種參數估計值的影響,其研究發現在總樣本數固定的 前提下,使用較多學校搭配每校內較少的學生會比使用較少的學校搭配較多的學 生較有統計檢定力,且參數估計偏誤較小。
從上述模擬以及實証研究結果可知,影響多層次模型固定參數估計正確性以 及統計檢定力的主要因素為總體層次樣本數的多寡,在估計模型時,增加總體層 次樣本數比增加個體層次樣本數較有統計檢定力,因此在後續的模擬分析時,將 固定個體層次的樣本數,僅著重在操作總體層次樣本數的大小。
在多層次分析中,除了固定參數的估計外,對於總體層次以及個體層次的隨 機效果變異數估計也是很重要的議題(Cohen, 1998)。在 Maas 與 Hox(2005)的 模擬研究中,許多實驗情況下的隨機參數估計值的偏誤很小,而最大偏誤是發生 在最小樣本數與最大ICC 時。而且總體層次的樣本數對於變異數估計值的標準誤 影響很大,當總體層次樣本數為30 時,總體層次截距變異以及斜率變異的參數未 覆蓋率為8.9% 以及 8.8%。儘管當總體層次樣本數增加為 50 時有所改善,但在三 種不同總體層次樣本數下,變異數標準誤的估計正確性皆相對固定參數標準誤差。
此外,溫福星、邱皓政(2011)的實證研究也指出隨機效果的估計受到總體層次 樣本數影響頗大,估計標準誤的顯著性在不同總體層次樣本中出現相異的結果,
跨層級的交互作用在大樣本上顯著但在中、小樣本卻未顯著,得到相反的結論,
在隨機部分有明顯的變化,顯示總體層次樣本數所影響的是標準誤,連帶影響統 計檢定力,使得顯著性考驗結果受到影響。而Kreft 與 De Leeuw(1998)認為,
一般來說為了獲得研究者所需的檢定力,觀察值要多,除非研究者所探究的議題 有非常強且容易被偵測到的效果,當總體層次樣本數很少時,隨機成分會被低估,
或有較大的標準誤出現,對於跨層級效果要有足夠檢定力,總體層次樣本數不能 太少,需大於20。而 Maas 與 Hox(2005)也指出為了得到固定效果標準誤的估 計值不偏,總體層次樣本數至少要50 組。此外,Hox(2010)也提出多層次模型 樣本數的配置經驗法則,當研究者關注跨層級交互作用時,總體層次樣本數要大 一些,至少要有50 個總體層次樣本,而每個總體的個體層次樣本數為 20 人,但 若關注的焦點是隨機效果參數,如變異數、共變數以及標準誤,則總體層次樣本 需改為100 個,而每個總體層次的個體層次樣本數為 10 人。
值得注意的是,上述多層次模型的模擬以及實證研究結果,都是在既有的設 定下以模擬或是實證的方式所進行的結果推論,都是在不同研究目的下,例如固 定效果、隨機效果或是標準誤不偏情況的檢定力要求,必須有樣本數限制,因此 並沒有統一的標準。且過去有關多層次模型不同層次樣本數配置的研究,均建立 在橫斷性的多層次模型上,無論是總體層次或是個體層次的樣本數規劃,均難以 應用到二階層的縱貫性成長模型研究設計上,畢竟成長模型的個體內層次(相當 於多層次模型的個體層次)為時間點,在教育學門縱貫性研究設計上很難收集超 過5 個波次的測量。雖然楊志堅等人(2004)針對成長模型進行模擬研究,探討 樣本數與檢定力的關係,並指出當樣本數為300 個以上有效樣本時,檢定力幾乎 可以得到.8 以上合適的結果,而當樣本數增加至 600 個以上時,即便在比較嚴苛 的情況下,成長模型平均成長率的檢定力也可以得到合適的結果。此外,巫博瀚
(2012)的模擬研究發現,無論是無條件成長模式或條件成長模式,當第二層分 析單位數達100 或 100 人以上時,第一層的分析單位數(波數)為三波、四波、
五波或六波,對於迴歸係數的估計都是不偏的。但當第二層的樣本規模(人數)
較小時,隨機效果的估計會有嚴重的偏誤,而當提高第二層分析單位的樣本規模 時,則隨機效果參數的估計將會愈正確。如果研究者只關心模式中的固定效果時,
使用小規模樣本(100 人)即能獲得良好的估計,當關注模式中的隨機效果時,必 須使用較大規模的樣本,方能滿足參數估計正確性的要求。
然而,實證上個體間層次的樣本數在多波次測量時,常面臨樣本數流失的問 題,很難與上述多層次模型與成長模型的模擬與實証研究的完全平衡資料相提並 論,可知過去多層次模型與成長模型的研究結果仍有其應用上的限制。基於此,
本研究後續的模擬研究設計除了考量多層次模型與成長模型外,也將進一步考量 包含隨機遺漏值時,在多層次模型與成長模型分析合理的樣本數調整,並探討樣 本數的差異對於參數估計正確性與統計考驗力(power)的影響。
二、貝氏估計法在多層次分析的應用
傳統的多層次分析主要使用ML 進行估計,然而 ML 方法在符合大樣本的前 提下,參數估計具有一致性,並且具有漸進不偏性和有效性。但在實證的多層次 模型或是成長模型建構時,多層次模型總體層次或是成長模型個體內以及個體間 層次的樣本數常常無法符合大樣本數的要求。此外,多層次模型個體層次觀察樣
本數也常呈現不平衡狀況(例如各校內的學生數可能不相同)或是成長模型的個 體內層次蒐集波次過少,此時不平衡的程度以及測量波次過少的問題會影響到ML 估計的正確性,而貝氏方法恰好能夠補足其缺點(Kaplan & Depaoli, 2012; Lee, 2007; Muthén & Asparouhov, 2012)。
貝氏方法與ML 頻率統計取向差異頗大,其建立在局部限制的情境下,透過 不斷重複抽取樣本以形成參數的後驗分配,並進一步估計此部分的平均數與標準 差,做為參數的點估計值與分散程度的指標,在每一個參數自成一個維度估計的 情況下,無需經由複雜的積分計算,便能獲得準確的參數估計值,因此,貝氏方 法特別適合應用在多層次模型或是成長模型這類複雜模型的參數估計上,可有效 降低模型估計時樣本數的要求(Hox, van de Schoo, & Matthijsse, 2012; Muthén &
Asparouhov, 2012)。
Hox、van de Schoot 與 Matthijsse(2012)將貝氏估計法使用在多層次結構方 程模型的總體層次樣本數估計上,並透過模擬研究的方式與Meuleman 與 Billiet
(2009) 使 用 ML 估 計 法 進 行 多 層 次 結 構 方 程 模 型 的 模 擬 研 究 比 較, 相 較 於 Meuleman 與 Billiet 使用 ML 的模擬研究指出進行多層次結構方程模型的總體層次 合理樣本數應為50 到 100 個樣本,Hox 等人發現在相同的估計參數情況下,使用 貝氏方法所需要的樣本數僅為20 個便可以達到穩定與有效的參數估計值,可見貝 氏方法可有效的降低估計複雜模型時所需的樣本數要求。惟目前在多層次模型或 是成長模型的模擬與實證研究上,並未有相關的研究同時比較貝氏方法與ML 法 在模型估計時,所需合理樣本數的差異,此一不足正是本研究極欲補足之處,企 盼後續分析結果可供實證研究者進行多層次模型或是成長模型建構時決定樣本數 的參考。
貝 氏 方 法 相 較 於 傳 統 頻 率 學 派 的ML 估計法在本質上有很大的差異,因 此, 以 下 簡 介 貝 氏 方 法 的 特 點(Kaplan & Depaoli, 2012; Lee, 2007; Muthén &
Asparouhov, 2012)供讀者參考。首先,貝氏學派認為任何一個未知變量都具有不 確定性,既然未知變量可以看作隨機變量,那麼將未知參數看作隨機變量也是合 理的,用一個機率分布來描述。因此,貝氏方法視未知參數為隨機變量,有自己 的分布,而傳統的頻率學派僅把未知參數看作普通的未知變量而不是隨機變量,
因此在進行參數估計時,ML 估計結果僅會得到一個固定參數,而貝氏方法除了固 定參數外,還會增加估計參數的一個後驗機率區間。
其次,貝氏方法除了同頻率學派一樣利用樣本訊息進行參數估計外,也會利 用先驗訊息,利用先驗訊息使其數量化以形成先驗分布並加入到統計推斷中,進 而提高統計推斷的品質。若忽視先驗訊息,有時會得出不合理的結論,但若研究 者對於先驗訊息瞭解不多,在貝氏方法下可以使用無訊息的先驗分布進行參數估 計。
貝氏方法主要利用樣本訊息和先驗訊息導出未知參數的後驗分布並進行各種 統計推斷,後驗分布的機率融合了樣本訊息和先驗訊息,比傳統的抽樣理論有著 更佳的合理性和靈活性。若以貝氏公式表示,可得P(θ | y)= P(y | θ)P(θ)/P
(y),其中 P(θ)為參數 θ 的先驗分布,P(y | θ)就是傳統頻率學派所求得的概 似函數,P(y)是 y 的邊際分布,P(θ | y)稱為 θ 的後驗分布,從貝氏公式可以 清楚知道後驗分布綜合了數據的樣本訊息和先驗訊息,也就是融合了全部的訊息 在裡面,比傳統頻率學派僅考慮樣本訊息更為合理,充分利用了所有已知的訊息,
避免了訊息浪費,由此可知貝氏方法的研究主要利基於這個後驗分布P(θ | y)。
貝氏方法分析流程可以圖1 表示。
⚾
⃰槿↮ⶫ
㤪Ụ↥㔠 㧉✳⺢㥳
居㮷㕡㱽 ⼴槿↮ⶫ 䳸㝄妶婾
⃰槿妲〗
㧋㛔妲〗
圖 1 貝氏方法分析流程
參、研究方法
本研究目的主要經由模擬研究方式同時比較貝氏方法和ML 估計法在多層次 模型以及成長模型建構時,最小可行的分析樣本單位數,並同時考慮存在隨機遺 漏下,貝氏方法和ML 估計法在多層次模型以及成長模型建構所需的樣本數調整。
依據研究設計,利用蒙地卡羅法產生本研究所需的模擬資料,進一步透過貝氏方
法以及ML 法估計參數,並透過 90% 信賴區間覆蓋率以及 80% 的統計考驗力比較 兩種估計方法在多層次模型以及成長模型建構時,所需最小可行樣本數的差異。
一、模擬研究設計
本研究所假設的理論模式僅聚焦於多層次模型以及成長模型的非條件化模 型,並未考量非線性模型,以下分別就多層次模型以及成長模型的模擬設計進行 說明。
(一)多層次模型
從上述模擬以及實証研究結果可知,影響多層次模型固定參數、變異數估計 正確性以及統計檢定力的主要因素為總體層次樣本數的多寡,在估計多層次模型 時,增加總體層次樣本數比增加個體層次樣本數更具有統計檢定力,因此在後續 的模擬分析時,將固定個體層次的樣本數為20,僅操作總體層次樣本數的大小。
在國內教育學門,無論在國小、國中、高中以及大學,在同一間學校裡收集到20 個樣本數應是可行的。
此外,在多層次模型中主要透過檢視零模型的ICC 來判斷是否必須以多層次 的統計技術來分析多層次的資料。Cohen(1988)認為 ICC 在不同的研究領域差異 很大,因此在不同的研究領域有不同的ICC 判斷標準。不過,Cohen 提出了 3 種 可供參閱的ICC 標準,這 3 種數字反應出 ICC 的效果大小,他認為當 ICC 小於 .059 時,算是相當小的,其效果可以略而不計,相當於虛無假設的零相關無法被拒絕,
而ICC 介於 .059 到 .138 時,這樣的大小算是中度相關,至於 ICC 大於 .138 時則 為高度組內相關,Cohen 認為 ICC 在中度相關以上時就不能忽略相似性的存在,
其對迴歸係數估計標準誤與統計檢定力的影響就不能被忽視,因此當ICC 大於 .059 時,則必須考慮多層次模型的統計分析。
基於此,本研究在ICC 的參數設定上主要參照 Cohen(1988)的 ICC 標準,
將模式的ICC 設定為 .059 以及 .138 兩種進行後續的多層次模型模擬比較。
在模型設定上,設定隨機截距平均數為0,組內層次變異數為 10,當組間層 次變異數設定為.627 時,ICC 為 .059(.627/(10+.627)= .059),當組間層次變 異數設定為1.601 時,ICC 為 .138(1.601/(10+1.601)= .138)。設定個體層次的 樣本數均為20 人,僅改變組間層次樣本數的大小。
此外,目前國內外在多層次模擬研究設計時並沒有考慮隨機遺漏機率,因此
本研究在後續模擬比較上,除了進行完整資料的模擬比較外,有別於過往的模擬 研究,也將同時考量隨機遺漏機率為25%、35% 以及 50% 時進行多層次模型建構 所需合理樣本數的調整。
(二)成長模型
國內外在探討多層次模型的合理樣本數需求上,無論是模擬或實證研究,主 要集中於橫斷性的多層次模型,相較於縱貫性的成長模型合理樣本數需求,較少 探討。Muthén 與 Muthén(2002)歸納過往的模擬以及實證研究,認為在非條件化 的成長模型架構下,可將成長模型的截距設定為0,斜率設定為 .2,截距與斜率的 相關設定為0,截距變異數設定為 .5,斜率變異數設定為 .1,各題項的殘差設定 為.5,以進行後續成長模型的樣本數或是效果值差異分析。基於此,本研究在後 續成長模型的模擬研究母群參數設定上,主要參考Muthén 與 Muthén(2002)的 模型設定。
在 成 長 模 型 的 模 擬 研 究 設 定 上, 主 要 依 據Muthén 與 Muthén(2002)的模 型設定測量時間點4 個,此外,也加入測量時間點為 3 個的成長模型,並比較其 在合理樣本數需求上的差異。而在成長模型的樣本數隨機遺漏設定上,主要參閱 Muthén 與 Muthén(2002)以及 Wang 與 Wang(2012)的成長模型模擬研究設計,
將4 個測量波次的樣本遺漏機率分別設定為 0%、10%、20%、30%。
二、貝氏方法
在 貝 氏 方 法 中, 先 驗 訊 息 的 設 定 至 關 重 要, 若 以 人 為 的 方 式 操 弄 先 驗 訊 息,將可能使不適配的模型適配,或是得出完全相反的結果(Kaplan & Depaoli, 2012),因此在先驗訊息的設定上需要謹慎處理。先驗訊息主要可以區分為兩 種,一是有訊息先驗,一是無訊息先驗(Lee, 2007)。如果所選擇的先驗分布使 得後驗分布和他是同一族分布,這種先驗稱為共軛先驗,這種先驗分布常被採 用,主要是因為計算簡單,但在實證研究中需考量先驗分布的合理性。若研究者 對模型的參數知道很少或是一無所知,在這種情況下則使用無訊息先驗。在多層 次模形架構下,一般常將變異數的無訊息先驗設定為變異數的倒數服從Gamma
(.001, .001)或是 Gamma(0, 0)(Browne & Draper, 2006; Gelman, 2006; Kaplan
& Depaoli, 2012),這樣的設定並不會對參數估計的結果產生重大影響。基於此,
本研究在後續的貝氏方法模擬研究上,在多層次模型主要設定變異數的倒數服從
Gamma(.001, .001),而設定成長模型截距以及斜率變異數的倒數服從 Gamma(0, 0),無論設定哪一種,並不會對後續與 ML 方法的比較分析結果產生差異。
此外,貝氏方法的推論主要基於後驗分布,因此,如何得到未知參數複雜的 後驗分布對貝氏方法的估計至關重要,在一般情況下後驗分布常常沒有明顯的表 達式,也不是常見的分布,這些複雜的非標準形式的後驗分布估計維度數常常很 高,因此在估算上是一大問題,在本研究的貝氏方法模擬估算上主要使用馬可夫 鍊蒙地卡羅法(Markov chain Monta Carlo, MCMC)的方式,結合資料本身的資訊 與參數先驗分布,構成聯合後驗分布來處理高維、複雜的積分運算問題,MCMC 方法將複雜的抽樣問題轉化為一系列簡單的抽樣,而不是直接從複雜的後驗分布 抽取樣本,一般常見的MCMC 方法為 Metropolis-Hastings 取樣法(M-H; Chib &
Greenberg, 1995)與 Gibbs 取樣法(Gelfand & Smith, 1990; Geman & Geman, 1984;
Tanner & Wong, 1987),本研究主要使用 Gibbs 取樣法。Gibbs 取樣法以各參數形 成的限制後驗分布來逼進聯合後驗分布,透過不斷的取樣以及更新參數,以其最 後的結果能逼近真正的參數值(Chib & Greenberg, 1995; Gelman, Carlin, Stern, &
Rubin, 2003)。Gibbs 取樣法具體步驟如下,假設 y 是數據,θ 是未知參數,把參 數向量θ 分塊為 θ =(θ(1),..., θ(k))。選取參數θ 的一個初始值 θ (0),假定第i 次疊代 開始時參數θ 的值是 θ (i-1),則第i 次疊代為:
第一步:從滿足條件分布的p(θ(1)| y,T(2)( 1)i ,...,T( )( 1)ki )中抽取一個樣本 T(1)( )i 。 第二步:從滿足條件分布的p(θ(2)| y,T(1)( )i ,T(3)( 1)i ...,T( )( 1)ki )中抽取一個樣本 (2)( )
Ti。
...
第K 步:從滿足條件分布的 p(θ(K)| y,T(1)( )i ,T(2)( )i ...,T(( )ki1))中抽取一個樣本 T( )( )ki 。 對i = 1,...,n 重複以上各步驟,從而得到樣本 θ (1),θ (2),...,θ (n)。有了後驗分 布的分配後,便可以進行統計推斷了。貝氏方法透過不斷重複抽取樣本(如上述 第一步到第K 步的 Gibbs 取樣法)以形成參數的後驗分布,再估計此分布的平均 數與標準差,作為參數的點估計值與離散程度的指標。
本研究後續在多層次模型以及成長模型的合理樣本數探討上,將利用貝氏方 法進行參數估計並與ML 方法比較,期望透過貝氏方法在處理複雜模型估計上的 優點,有效降低模型建構時所需的樣本數要求,供實證研究者參考。
三、研究因子
本模擬研究主要同時比較貝氏方法和ML 估計法在多層次模型以及成長模型 建構時,最小可行的分析樣本單位數,並同時考慮存在隨機遺漏下,貝氏方法和 ML 估計法在多層次模型以及成長模型建構所需的樣本數調整,以下分別說明在多 層次模型和成長模型中的研究因子。
無 論 是 貝 氏 方 法 或 是ML 法在多層次模型以及成長模型的建構,均使用 MPLUS 軟體進行分析,每個研究均模擬 10,000 次,藉以獲得穩定的估計(Muthén
& Muthén, 2002)。此外,受限於研究資源以及時間,在貝氏方法的 10,000 次模 擬中均設定每一個模擬的MCMC 迭代次數為 1,000 次,而前 500 次的抽樣捨棄不 用,以最後500 次的後驗分布期望做為參數估計的結果。
(一)多層次模型
在多層次模型中主要設定ICC 為兩種,分別為 .059 與 .138,代表組內相關係 數的差異(Cohen, 1988)。在模型設定上,設定隨機截距平均數為 0,組內層次變 異數為10,當組間層次變異數設定為 .627 時,ICC 為 .059,當組間層次變異數設 定為1.601 時,ICC 為 .138。此外,遺漏值設定為 0%、25%、35%、50%,代表實 證樣本收集上存在的隨機遺漏。
(二)成長模型
在成長模型中主要設定截距為0,斜率為 .2,截距與斜率的相關設定為 0,截 距變異數為.5,斜率變異數為 .1,各題項的殘差設定為 .5。在測量波次上設定為 3、4 兩種(Muthén & Muthén, 2002)。遺漏值在四個不同時間點分別設定為 0%、
10%、20%、30% 四種(Muthén & Muthén, 2002; Wang & Wang, 2012)。
有關貝氏方法和ML 估計法在多層次模型以及成長模型參數估計正確性的判 斷,主要是以90% 的參數覆蓋率(Wang & Wang, 2012)進行檢核標準,本研究所 使用的MPLUS 軟體在進行模擬研究的參數覆蓋率檢定自動以 95% 的參數覆蓋率 作為分析,當MPLUS 軟體參數覆蓋率分析結果達到 90% 以上即符合可接受的標 準,兩種不同估計法的統計考驗力標準均為.8(Muthén & Muthén, 2002)。此外,
在本研究引註關於樣本數以及統計考驗力的文獻中,Muthén 與 Muthén(2002)呈 現統計考驗力和參數覆蓋率, Hox、van de Schoo 與 Matthijsse( 2012)呈現估計參 數偏誤與參數覆蓋率,Meuleman 與 Billie(2009)呈現估計參數偏誤、標準誤偏誤、
統計考驗力和參數覆蓋率。上列研究所使用指標將一併列出在本研究中,但主要 著重在統計考驗力和參數覆蓋率的說明上。
肆、研究結果與討論
本研究同時比較貝氏方法以及ML 估計法合理樣本數的需求,屬於探索性質,
在總體層次樣本數的設定上,雖然參考過去相關研究(溫福星、邱皓政,2011;
楊志堅、劉心筠、楊志強,2004;Hox, 2010; Kreft & De leeuw, 1998; Maas & Hox, 2004, 2005; Raudenbush & Bryk, 2002; Snijders, 2005)進行樣本數設定,但為了更 細緻比較貝氏方法以及ML 估計法合理樣本數的差異,因此在樣本數的間距設定 上,在多層次模型主要設定以20 人為單位,在成長模型主要設定以 10 人為單位。
一、多層次模型合理樣本數差異:貝氏 VS ML
首先進行貝氏方法以及ML 估計法在橫斷性的多層次模型建構時,當 ICC 大 於.059 以上時,合理的樣本數比較。
由表1 至表 2 可知,需使用多層次模型進行建構時,無論模型是否存在隨機 遺漏,當個體層次樣本數為20 人情況下,貝氏方法在總體層次需要 31 個樣本進 行多層次模型建構以及分析,此時模型的參數估計以及統計考驗力才穩定,當總 體層次低於31 個樣本時,參數覆蓋率因總體層次樣本數過小而逐漸低於 90% 的參 照值。當ICC 增加至 .138 時,使用貝氏方法在總體層次樣本僅需要 10 個,即可 以獲得穩定的參數估計結果以及統計考驗力。
但若使用傳統的ML 方法進行模型建構,當 ICC 接近 .059 時,總體層次最 少需要42 個樣本才可獲得相對穩定的參數估計以及統計考驗力,與 Maas 與 Hox
(2004)所建議的合理的總體層次樣本數為 50 組相近。此外,最大偏誤是發生在 最小樣本數與最大ICC 時,也與 Maas 與 Hox(2005)的模擬研究相似。即便 ICC 增加至.138,總體層次樣本依舊需要 31 個,與貝氏方法相比,ML 方法所需要的 樣本數相對較大,對於實證研究者而言,需考量研究經費以及樣本數的增加。
(續下頁)
表 1 多層次模型下 ICC = .059 時隨機截距變異數的模擬參數估計
貝氏 ML
ICC = .059 Coverage Power Parameter bias
Standard
error bias Coverage Power Parameter bias
Standard error bias no missing
620 (31) .905 1.000 .113 .022 820 (41) .916 .802 .042 .004 600 (30) .897 1.000 .114 .028 800 (40) .918 .791 .042 .004 missing = 25%
620 (31) .906 1.000 .122 .031 840 (42) .906 .808 .050 .017 600 (30) .893 1.000 .124 .046 820 (41) .909 .790 .052 .012 missing = 35%
620 (31) .907 1.000 .106 .012 840 (42) .913 .804 .045 .008 600 (30) .900 1.000 .112 .037 820 (41) .915 .792 .045 .008 missing = 50%
620 (31) .901 1.000 .118 .028 840 (42) .913 .815 .042 .008 600 (30) .899 1.000 .124 .028 820 (41) .911 .799 .042 .008 註:1. 當總樣本數為 100 (5) 時,100 表示總樣本數,(5) 表示組間層次樣本數。若遺漏值 = 25% 則最後的
估計總樣本數為75 (5),若遺漏值 = 35% 則最後的估計總樣本數為 65 (5),若遺漏值 = 50% 則最後 的估計總樣本數為50 (5),其餘依此類推。
2. 隨機截距變異數的模擬參數估計結果與 ICC 的參數估計結果相近,在此僅呈現隨機截距變異數的 模擬參數估計結果。
表 2 多層次模型下 ICC = .138 時隨機截距變異數的模擬參數估計
貝氏 ML
ICC = .138 Coverage Power Parameter bias
Standard
error bias Coverage Power Parameter bias
Standard error bias no missing
200 (10) .902 1.000 .097 .770 560 (28) .902 .979 .121 .013 180 (90) .897 1.000 .115 .749 540 (27) .896 .972 .125 .014 missing = 25%
200 (10) .904 1.000 .091 .807 620 (31) .900 .987 .130 .006 180 (9) .897 1.000 .121 .766 600 (30) .896 .984 .134 .019
表 2 多層次模型下 ICC = .138 時隨機截距變異數的模擬參數估計(續)
貝氏 ML
missing = 35%
200 (10) .903 1.000 .105 .795 600 (30) .901 .989 .123 .008 180 (9) .899 1.000 .130 .753 580 (29) .895 .985 .132 .019 missing = 50%
200 (10) .902 1.000 .105 .782 580 (29) .902 .982 .113 .004 180 (9) .898 1.000 .103 .751 560 (28) .899 .979 .115 .015
二、成長模型合理樣本數差異:貝氏 VS ML
進一步在縱貫性的成長模型架構下,比較貝氏方法以及ML 估計法合理樣本 數的差異。由表3 及表 4 可知,當測量時間點為 3 個,無論模型是否存在隨機遺漏,
貝氏方法在個體間層次僅需要90 個樣本即可進行成長模型建構以及分析,且模型 的參數估計以及統計考驗力穩定,但若使用傳統的ML 方法進行成長模型建構,
當測量時間點為3 個時,個體間層次最少需要 310 個樣本才可獲得相對穩定的參 數估計以及統計考驗力,與楊志堅等人(2004)針對成長模型進行的模擬研究相 似,當樣本數為300 個以上有效樣本時,檢定力幾乎可以得到 .8 以上合適的結果。
當測量時間點進一步增加至4 個時,貝氏方法與 ML 方法相比所需要的樣本 數差異不大,貝氏方法需要60 個,而 ML 方法需要 70 個,可見在成長模型架構下,
當研究者無法收集較大的樣本數時,或許可考慮增加測量波次以獲得相對穩定的 參數估計以及統計考驗力。但若受限於樣本特殊性、研究經費以及測量波次的侷 限時,可以考慮使用貝氏方法藉以有效降低合理樣本數的需求。
表 3 成長模型,3 個時間點
no
missing Mean Slope Var
Mean
Var Slope Sample
Size Coverage Type
I error
P bias Se
bias Coverage Power P bias
Se
bias Coverage Power P bias Se
bias Coverage Power P bias
Se bias 貝氏
80 .948 .052 .000 .011 .950 .830 .003 .016 .952 1.000 .045 .064 .959 1.000 .154 .095
(續下頁)
表 3 成長模型,3 個時間點(續)
no
missing Mean Slope Var
Mean
Var Slope
70 .948 .052 .000 .014 .952 .775 .002 .026 .949 1.000 .050 .072 .946 1.000 .174 .125 ML
250 .949 .051 .002 .003 .950 1.000 .003 .000 .943 1.000 .005 .006 .945 .810 .005 .019 240 .950 .050 .002 .003 .949 1.000 .003 .000 .943 1.000 .006 .009 .946 .794 .006 .016
missing Mean Slope Var
Mean
Var Slope Sample
Size Coverage Type I error P bias Se
bias Coverage Power P bias Se
bias Coverage Power P bias Se
bias Coverage Power P bias Se bias 貝氏
90 .948 .052 .000 .010 .949 .821 .004 .007 .948 1.000 .041 .044 .963 1.000 .148 .100 80 .949 .051 .000 .012 .950 .772 .005 .020 .949 1.000 .046 .059 .962 1.000 .169 .119
ML
310 .950 .050 .001 .002 .949 1.000 .003 .006 .947 1.000 .005 .000 .946 .810 .005 .011 300 .946 .054 .001 .005 .953 1.000 .003 .011 .946 1.000 .004 .002 .948 .799 .005 .005 註:1. Muthén 與 Muthén(2002)指出,使用 MPLUS 軟體進行 Monte Carlo 模擬研究時,研究者所設定
的母群參數將假定為真並作為虛無假設,而MPLUS 所檢定的假設為當母群參數顯著不為 0 的對立
假設。因此,當所設定的參數不為0 時,軟體所呈現的為統計檢定力,當所設定的參數為 0 時,
軟體所呈現的是第一類型錯誤率。本研究假定成長模型的截距平均為0,所呈現的結果為第一類型
錯誤率,而其他參數所呈現的為統計考驗力。
2. P bias 為 Parameter bias 縮寫,Se bias 為 Standard error bias 縮寫。
表 4 成長模型,4 個時間點
no
missing Mean Slope Var
Mean
Var Slope Sample
Size Coverage Type
I error
P bias Se
bias Coverage Power P bias Se
bias Coverage Power P bias Se
bias Coverage Power P bias Se bias
貝氏
50 .958 .042 .002 .026 .956 .851 .003 .038 .947 1.000 .082 .088 .948 1.000 .099 .096 40 .956 .044 .003 .050 .956 .749 .004 .054 .949 1.000 .099 .116 .955 1.000 .121 .134
(續下頁)
no
missing Mean Slope Var
Mean
Var Slope ML
50 .940 .060 .003 .028 .944 .886 .003 .018 .923 .978 .028 .029 .926 .810 .021 .029 40 .940 .060 .003 .028 .937 .806 .003 .029 .912 .935 .034 .036 .920 .693 .024 .038
missing Mean Slope Var
Mean
Var Slope Sample
Size CoverageType I error P bias Se
bias Coverage Power P bias Se
bias Coverage Power P bias Se
bias Coverage Power P bias Se bias 貝氏
60 .955 .045 .001 .032 .955 .857 .002 .038 .947 1.000 .068 .075 .952 1.000 .083 .092 50 .957 .043 .001 .037 .953 .775 .000 .037 .946 1.000 .082 .091 .958 1.000 .099 .119 ML
70 .942 .058 .003 .015 .942 .926 .003 .023 .927 .994 .022 .028 .932 .808 .026 .027 60 .943 .057 .003 .015 .939 .882 .004 .029 .926 .987 .025 .026 .930 .736 .030 .030
茲將本研究在多層次模型以及成長模型中貝氏方法與ML 法模擬合理樣本數 的最小需求摘錄如下,供實證研究者參閱:
表 5 多層次模型以及成長模型在貝氏方法與 ML 法最小可行樣本數摘要
貝氏方法 ML 方法
多層次模型 no missing missing no missing missing
ICC =.059 620(31) 620(31) 820(41) 840(42)
ICC =.138 200(10) 200(10) 560(28) 620(31)
成長模型 no missing missing no missing missing
Time = 3 80 90 250 310
Time = 4 50 60 50 70
註:當總樣本數為620(31)時,620 表示總樣本數,(31)表示組間層次樣本數。
表 4 成長模型,4 個時間點(續)
伍、建議
本研究主要經由模擬研究方式,同時比較貝氏方法和ML 估計法在多層次模 型以及成長模型建構時,最小可行的分析樣本單位數,並同時考慮存在隨機遺漏 下,貝氏方法和ML 估計法在多層次模型以及成長模型建構所需的樣本數調整。
研究發現,無論是否存在隨機遺漏,使用貝氏方法進行多層次模型以及成長模型 建構時所需的合理樣本數較小,且可以獲得穩定的參數覆蓋率以及統計考驗力,
值得加以推廣。
此外,貝氏方法除了可有效降低複雜模型樣本數的估計需求外,也被進一步 應用在處理高維的複雜數據,如含二分或有序的潛變量模型、多層次模型、非線 性模型以及混合模型等,不僅提供了應用貝氏方法的理論依據,還具有顯著的實 用價值。
雖然本研究企圖透過模擬研究,探討貝氏方法相較於ML 估計法,在多層次 模型以及成長模型建構時,使用較小的樣本數下可獲得穩定的參數估計。但受限 於研究者能力,並無法以更深入淺出的方式說明多層次模型、成長模型建構,以 及貝氏方法的估計過程,因此提供本研究的語法於附錄供實證研究者參閱。新近 國內已有專書(邱皓政,2017)詳細探討多層次模型、成長模型的建構,可讀性佳,
實證研究者在詳閱該書後,若欲建構多層次模型或成長模型,可配合文末語法帶 入所估計實證模型的參數,進一步做為修訂樣本數的參考。
謝誌
感謝3 位審稿者細緻且嚴謹的審查,明基要在此致上最高的敬意與謝意!雖 然文章刊登,但並不表示現階段有能力可以完整回答以及修訂審稿者的提問和要 求。期許自己不斷精進專業,10 年後,能提出更令大家滿意的答案!
也感謝期刊小編棄而不捨的來電,和適時打氣,讓這篇研究經歷了兩年,可 以重見天日!千言萬語,除了感謝,還是感謝!
參考文獻
巫博瀚(2012)。成長曲線模式之樣本單位數決定研究:蒙地卡羅模擬(未出版 之博士論文)。國立成功大學教育研究所,臺南市。
邱皓政(2017)。多層次模式與縱貫資料分析:Mplus 8 解析應用。臺北市 : 五南。
溫福星、邱皓政(2011)。多層次模型方法論:階層線性模式的關鍵問題與試解。
臺北市:αβγ 實驗室。
楊志堅、劉心筠、楊志強(2004)。縱貫研究以潛在成長模式分析之樣本數與檢 定力研究。教育與心理研究,27(3),603-626。
Browne, W. J., & Draper, D. (2006). A comparison of Bayesian and likelihood-based methods for fi ting multilevel models. Bayesian Analysis, 1, 473-514.
Gelfand, A. E., & Smith, A. F. M. (1990). Sampling-based approaches to calculating marginal densities. Journalof the American Statistical Association, 85, 398-409.
Gelman, A., Carlin, J. B., Stern, H. S., & Rubin, D. B. (2003). Bayesian data analysis.
New York, NY: Chapman & Hall.
Geman, S., & Geman, D. (1984). Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images. IEEE Trans. on Pattern Analysis and Machine Intelligence, 6, 721-741.
Chib, S., & Greenberg, E. (1995). Understanding the Metropolis-Hastings algorithm.
American Statistician, 49, 327-335.
Cohen, J. (1998). Determining sample sizes for surveys with data analyzed by hierarchical linear models. Journal of Offi cial Statistics, 14, 267-275.
Gelman A. (2006) Prior distributions for variance parameters in hierarchical models.
Bayesian Analysis, 1, 515-533.
Heck, R. H., & Thomas, S. L. (2009). An introduction to multilevel modeling techniques (2nd ed.). New York, NY: Routledge.
Hox, J. J. (2010). Multilevel analysis: Techniques and applications (2nd ed.). New York, NY: Routledge.
Hox, J. J., van de Schoot, R., & Matthijsse, S. (2012). How few countries will do?
Comparative survey analysis from a Bayesian perspective. Survey Research
Methods, 6, 87-93.
Kaplan, D., & Depaoli, S. (2012). Bayesian structural equation modeling. In R. Hoyle (Ed.), Handbook of structural equation modeling (pp. 650-673). New York, NY:
Guilford.
Kreft, I., & Leeuw, J. D. (1998). Introducing multilevel modeling. Thousand Oaks, CA:
Sage.
Lee, S.Y. (2007). Structural equation modelng: A Bayesian approach. Chichester: John Wiley & Sons.
Maas, C. J. M., & Hox, J. J. (2004). Robustness issues in multilevel regression analysis.
Statistica Neerlandica, 58, 127-137.
Maas, C. J. M., & Hox, J. J. (2005). Sufficient sample sizes for multilevel modeling.
Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 1, 86-92.
Meuleman, B., & Billiet, J. (2009). A Monte Carlo sample size study: How many countries are needed for accurate multilevel SEM? Survey Research Methods, 3, 45- 58.
Mok, M. (1995). Sample size requirements for 2-level designs in educational research.
Multilevel Modelling Newsletter, 7, 11-15.
Muthén, B. O., & Asparouhov, T. (2012). Bayesian SEM: A more fl exible representation of substantive theory. Psychological Methods, 17, 313-335.
Muthén, L. K., & Muthén, B. O. (2002). How to use a Monte Carlo study to decide on sample size and determine power. Structural Equation Modeling, 4, 599-620.
Raudenbush, S. W., & Bryk, A. S. (2002). Hierarchical linear models: Applications and data analysis methods (2nd ed.). Thousand Oaks, CA: Sage.
Snijders, T. A. (2005). Power and sample size in multilevel linear models. In B. S. Everitt
& D. C. Howell (Eds.), Encyclopedia of Statistics in Behavioral Sciences (Vol. 3, pp. 1570-1573). Chicester, England: Wiley.
Stoel, R. D., & Garre, F. G. (2011). Growth curve analysis using multilevel regression and structural equation modeling. In J. J. Hox & J. K. Roberts (Eds.), Handbook of advanced multilevel analysis (pp. 97-111). New York, NY: Routledge.
Tanner, M. A., & Wong, W. H. (1987). The calculation of posterior distributions by data augmentation (with discussion). Journal of the American Statistical Association, 82, 528-550.
Wang, J., & Wang, X. (2012). Structural Equation Modeling: Applications using Mplus.
Hoboken, NJ: John Wiley & Sons.
附錄一:
title: HLM, ML, ICC=.138, N=560, Missing=25%
montecarlo:
names are y;
nobs = 560;
seed = 3454367;
nrep = 10000;
ncsizes = 1;
csizes = 28 (20);
missing = y;
analysis:
type = twolevel;
estimator = ML;
process = 2;
model population:
%within%
y*10;
%between%
y*1.601; !icc = 1.601/11.601 = .138 model missing:
[y*-1.099]; !missing = 25%
model:
%within%
y*10 (w);
%between%
y*1.601 (b);
model constraint:
new(icc*.138);
icc = b/(w+b);
output:
tech9;
附錄二:
title: HLM, Bayes, ICC=.138, N=100, Missing=50%
montecarlo:
names are y;
nobs = 100;
seed = 3454367;
nrep = 10000;
ncsizes = 1;
csizes = 5 (20);
missing = y;
analysis:
type = twolevel;
estimator = BAYES;
process = 2;
fbiter = 1000;
model population:
%within%
y*10;
%between%
y*1.601;
model missing:
[y*0];
model:
%within%
y*10 (w);
%between%
y*1.601 (b);
model priors:
b~IG (.001,.001);
model constraint:
new(icc*.138);
icc = b/(w+b);
output:
tech9;
附錄三:
title: GLM, ML, N=70, Missing = 0, 10, 20, 30%
montecarlo:
names are y1-y4;
nobs = 70;
seed = 3454367;
nrep = 10000;
missing = y1-y4;
analysis:
estimator = ML;
process = 2;
model population:
i s | y1@0 y2@1 y3@2 y4@3;
[i*0 s*.2];
i*.5;
s*.1;
i with s@0;
y1-y4*.5;
model missing:
[y1*-15 y2*-2.20 y3*-1.39 y4*-.85]; !missing = 0,10,20,30%
model:
i s | y1@0 y2@1 y3@2 y4@3;
[i*0 s*.2];
i*.5;
s*.1;
i with s@0;
y1-y4*.5;
output:
tech9;
附錄四:
title: GLM, Bayes, N=80, Missing = 0,10,20%
montecarlo:
names are y1-y3;
nobs = 80;
seed = 3454367;
nrep = 10000;
missing = y1-y3;
analysis:
estimator = BAYES;
process = 2;
fbiter = 1000;
model population:
i s | y1@0 y2@1 y3@2;
[i*0 s*.2];
i*.5;
s*.1;
i with s@0;
y1-y3*.5;
model missing:
[y1*-15 y2*-2.20 y3*-1.39];
model:
i s | y1@0 y2@1 y3@2;
[i*0 s*.2];
i*.5;
s*.1;
i with s@0;
y1-y3*.5;
output:
tech9;