不平衡資料對多層次結構方程模式之估算正確性影響研究

全文

(1)國立臺中教育大學教育測驗統計研究所理學碩士論文. 指導教授：楊志堅教授. 不平衡資料對多層次結構方程模式之估算正確性影響研究. 研究生：周佳瑩撰. 中華民國九十六年六月.

(2) 摘要 MUML 這個忽略不平衡事實的假平衡 (pseudobalance)估算方法，由 Muthén 在 1990 年的文章中提出，目的在估算資料不平衡的情況下其二階共變數結構模型。Hox 與 Maas (2000)、Hox (2001)、Lawrence (2000)與 Yuan (2005)都在文章中使用 MUML 估算法做相關研究。但至今尚未有研究明確地指出 MUML 估算法在樣本數不同與資料平衡或不平衡的條件下，對於估算正確性的影響或是趨勢。本研究以包含組間部分與組內部份的二階層結構方程模式為基礎、Mplus3.1 (Muthén & Muthén, 1998-2004)為分析工具，將資料分為平衡或不平衡，探討 MUML 估算法在取樣總樣本數、群數以及資料不平衡程度影響下之估算正確性為何，並提出不平衡指標 CUI 值；本研究之研究結果條列如下： 1. 若使用 MUML 估算法分析平衡資料，正確性會隨著取樣的總樣本數遞減而降低，而取樣的群數多寡並不會明顯地影響其估算正確性。 2. 欲得到較高 MUML 估算法之正確性，對於平衡資料其取樣總樣本數應大於 400 較為妥當。 3. 若使用 MUML 估算法分析不平衡資料，正確性會隨著取樣的總樣本數遞減、資料不平衡程度越大而降低。且總樣本數越小，MUML 估算完成次數會遞減地越劇烈。 4. 欲得到較高 MUML 估算法之正確性，對於不平衡資料其 CUI 值應小於 6。關鍵字：多階層結構方程模式、不平衡資料、MUML 估算法、CUI 值. I.

(3) Abstract MUML (an estimation of ignoring unbalanced facts; so called pseudobalanced procedure) was proposed by Muthén in 1990. It aimed to estimate the two-level covariance structure model for unbalanced data. Hox and Maas (2000), Hox (2001), Lawrence (2000) and Yuan (2005) all studied MUML estimation. So far, there was no study which indicates explicitly on how is sample size and either balanced or unbalanced datasets influence the accuracy of MUML estimation. This study used two-level structural equation model (SEM) of Muthén & Muthén (1998) as the base model of the study, which includes between part and within part. Datasets are divided into balance and unbalance sets, and Mplus3.1 (Muthén & Muthén, 1998-2004) as the analyze tool. We explored on how is sample size, number of groups and unbalance level influence the accuracy of MUML estimation, and proposed a unbalanced index “CUI”. According to this research, the major findings included: 1. Using MUML estimation to analyze balanced datasets, the accuracy will decrease as the sample size decreases, but the numbers of groups have no obvious influence on the accuracy. 2. In order to obtain higher accuracy on MUML estimation with balanced datasets, the sample size should be greater than 400. 3. Using MUML estimation to analyze unbalanced datasets, the accuracy will decrease as the sample size decreases and the accuracy will decrease as the unbalance level increases. Moreover, as the sample size becomes smaller, it decreases the accuracy of MUML estimation rapidly. 4. In order to obtain higher accuracy on MUML estimation, for unbalanced datasets, the CUI should be less than 6. Keyword: multilevel SEM, unbalanced data, MUML estimation, CUI. II.

(4) 目錄壹、緒論...........................................................................................................................1 貳、多階層模式與其估算法...........................................................................................3 一、多階層結構方程模式與 MUML 估算法.................................................................3 2.1.1 多階層結構方程模式.....................................................................................3 2.1.2 MUML 估算法...............................................................................................4 二、階層線性模式與其估算法.......................................................................................6 2.2.1 階層線性模式(Hierarchical Linear Models ; HLM)....................................6 2.2.2 階層線性模式中的三種估算法...................................................................7 參、模擬研究...................................................................................................................8 ㄧ、模擬研究工具與方法.............................................................................................10 3.1.1 模擬研究工具...............................................................................................10 3.1.2 蒙地卡羅研究法...........................................................................................10 二、模擬研究設計.........................................................................................................11 3.2.1 平衡資料的實驗設計...................................................................................13 3.2.2 不平衡資料的實驗設計...............................................................................13 肆、模擬研究結果.........................................................................................................16 ㄧ、資料平衡的 MUML 估算結果................................................................................16 二、資料不平衡的 MUML 估算結果............................................................................19 伍、結論與建議.............................................................................................................26 參考文獻.......................................................................................................................28 附錄...............................................................................................................................30. III.

(5) 圖目錄圖 1 二階層結構方程模式.............................................................................................9 圖 2 因素負荷量設定值之架構圖...............................................................................12 圖 3 CUI 值影響 MUML 估算完成次數百分比折線圖...............................................15 圖 4 平衡資料 MUML 估算完成次數百分比折線圖.................................................18 圖 5 CUI 值影響 MUML 估算完成次數百分比折線圖(總樣本數 1000)....................20 圖 6 CUI 值影響 MUML 估算完成次數百分比折線圖(總樣本數 800)......................22 圖 7 CUI 值影響 MUML 估算完成次數百分比折線圖(總樣本數 600)......................23 圖 8 總樣本數與 CUI 值影響 MUML 估算完成次數百分比折線圖.........................25. IV.

(6) 表目錄表 1 平衡資料之 MUML 估算完成次數百分比表.....................................................16 表 2 CUI 值影響 MUML 估算完成次數百分比表(總樣本數 1000)...........................19 表 3 CUI 值影響 MUML 估算完成次數百分比表(總樣本數 800).............................21 表 4 CUI 值影響 MUML 估算完成次數百分比表(總樣本數 600)..............................23 表 5 總樣本數與 CUI 值影響估算完成次數百分比表...............................................24. V.

(7) 壹、緒論 Hox 與 Mass (2000)、Hox (2001)與 Lawrence (2000)都在討論 Muthén (1989, 1990, 1994) 所提出，為了處理在多層次多變量結構方程模式 (Multilevel Multivariate Structural Equation Model)中，樣本資料不平衡的情況下，忽略不平衡事實的假平衡 (pseudo-balance)估算方法，現在ㄧ般稱為 MUML (Muthén’s Maximum Likelihood)法。MUML 法可追朔到 Muthén 於 1989 年發現，在使用平衡資料的分析中，一個二階共變數結構模型，可以簡單地使用 SEM (Structural Equation Model)架構來分析估算；但處理不平衡的資料，就複雜多了。於是 Muthén 在 1990 年的文章中便提出此特殊的程序，來估算在資料不平衡的情況下其二階共變數結構模型。同時也使用實徵資料證明此研究成果在本質上與 Maximum Likelihood (ML)估算法相同。近幾年討論多層次 SEM 的文章中，由於資料常為不平衡狀態，MUML 估算法被應用與討論的比例越來越重。Hox 與 Mass 在 2000 年發表的文章中，運用多層次結構方程模式輔以忽略群樣本數不平衡的設計，探討個體層次與群層次均為小樣本數時，其影響估算正確性為何；並發現取樣群數小於 50 而內部相關係數(Intraclass Correlation Coefficients: ICC )低時，在組間群的部份發生不允許解的估計值次數較多。而 Hox (2001)的文章中，同樣以群樣本數不平衡的設計，來討論多層次 SEM 的兩種不同方法:一個為 Muthén 提出的 MUML 法，另一個為 Goldstein (1987, 1995)所提出的方法；並以一筆實徵資料來檢查兩個方法的優缺點。其研究結果呈現了縱使 MUML 估算法在使用樣本組間群共變異數矩陣估算母群體共變異數矩陣時，導致高估了母群體共變異數矩陣；但在估算流程上卻比 Goldstein 的方法簡單。Yuan (2005)則研究 MUML 估算法的估計量、標準誤差與檢定統計量，並以實例說明；而在文章的最後，對於改善 MUML 估算法的偏誤. 1.

(8) 與將其擴充到非常態的資料也有ㄧ些簡短討論。由於 MUML 估算法在計算上的優勢，它已經在普遍的軟體中執行 (如 Mplus) 而且已在正規的教科書中介紹。但以上的文章中，較著重在 MUML 估算法的原理以及與其他方法的比較；卻沒有一篇研究明確地指出 MUML 估算法在樣本數不同與資料平衡與否的條件下，對於估算正確性的影響評估趨勢，意即若樣本數小於某一個值，其估算正確性是否降低。故本研究係以模擬研究的方式，將多層次多變量結構方程模式作為主要架構，深入探討在資料平衡與否或樣本數大小不同這兩種條件下，影響 MUML 估算法正確性的情況。期望能提出使用此方法之準則，以利實徵研究者在進行相關研究時，能有所參考。本文呈現結構如下，第一部份說明本研究之研究背景與動機，第二部份回顧應用在多層次結構方程模式下的 MUML 估算法及簡介階層線性模式與其所使用之估算法，第三部份與第四部份將分別呈現本研究之研究設計與結果，第五部份為本研究總結及提出未來可能的研究方向。本研究目的條列如下： 1.探討當資料平衡時，小樣本數與群數個數，如何影響 MUML 估算法正確性。 2.探討當資料不平衡，樣本數大小與資料不平衡程度如何影響 MUML 估算法正確性，並提出不平衡指標 CUI (Chou Unbalanced Index)。. 2.

(9) 貳、多層次模式及其估算法本章闡述常見的兩種多層次模式，於第一節介紹多層次結構方程模式，及其應用在二階層結構方程模式中的 MUML 估算法。第二節將引述 Goldstein 在 1987 與 1995 所提出的階層線性模式 (Hierarchical Linear Models ; HLM)，以及模式中所使用的三種估算法。. 一、多層次結構方程模式與 MUML 估算法. 至今，多層次結構方程模式常被許多研究者提及，模式也有不同的變化。本節先敘述 Muthén 所提出的二階結構方程模式，再介紹模式中特殊的 MUML 估算法。. 2.1.1 多層次結構方程模式. 多層次結構方程模式自 Goldstein 與 MacDonald (1988)、MacDonald 與 Goldstein (1989)以及 Muthén (1990)都有提出模式的說明。本研究以 Muthén (1990) 提出的模式為例，將多層次結構方程模式做一個簡單的介紹。此為二階結構方程模式， ygi 是每一個個體 i 觀測 p 個變量而組成的 p ×1 向量，通常為多元常態分配且變數間獨立 (independently and identically; i.i.d.)，並將 y gi 分為 G 個群。其中 i = 1, 2,. , ng ， g = 1, 2,. , G 。ν 代表可觀測的截距向量、 λ 為各因素負荷量 (factor. 3.

(10) loadings)組成的向量、η 代表因子，而 ε 為殘差組成的向量。見公式 (2-1)與公式 (2-2)。 ygi = ν + λη gi + ε gi. (2-1). η gi = α + η Bg + ηWgi. (2-2). 在公式 (2-2)中，我們不難發現，多階層的結構方程模式，將會考慮群層次影響個體層次的情況。公式中的 α 為 η gi 的期望值、 η Bg 為組間群的隨機因子 (random factor)。若將公式 (2-1)與公式 (2-2)合併之後，可得公式 (2-3)： ygi = ν + Λ Bη Bg + ε Bg + ΛWηWgi + ε Wgi. (2-3). 其中， Λ B 與 ΛW 代表組間與組內隨機因子的斜率；其詳細證明，於附錄中說明。. 2.1.2 MUML 估算法. Muthén (1989)在文章中指出，當一個母群體中群大小為平衡時，估算法較容易執行。如果我們假設平衡群的個數為 G，其群的大小均為 n，總樣本數即為 N = nG。可定義兩個樣本共變異數矩陣:分別為樣本組內群共變異數矩陣 S PW 與樣. 本組間群共變異數矩陣 S B* 。 Muthén 在文章中也證明 S PW 為母群體組內群共變異數矩陣 Σ W 的不偏估計量，其利用樣本計算的公式如下:. ∑∑ (Y G. n. gi. SW =. g. )(. − Y g Ygi − Y g. i. N −G. 4. )′ (2-4).

(11) 公式 (2-4)使用熟悉的共變異數矩陣方程式，意即樣本的離均差平方和，再以 N − G 取代常用的 N − 1 作為分母。而 S B* 利用樣本計算的公式如下: ′ ∑ n ⋅ (Y − Y )(Y − Y ) G. g. S = * B. g. g. G −1. (2-5). Muthén (1989, 1990)證明 S PW 是 Σ W 的最大概似估計值，樣本個數為 N − G ，而 S B* 是 Σ W + cΣ B 的最大概似估計值，其中 c 值等於平衡群的群大小 n。 SW = Σ W. (2-6). S B* = Σ W + cΣ B. (2-7). 以上的公式，只適用於平衡的情況。在不平衡的情況中，有著大小不同的群且個數為 G，會使得模式變得比較複雜。而在這樣的情況中， S PW 依然為 Σ W 的最大概似估計量；但 S B* 對於不平衡的情況，基於每ㄧ個群有著各自的大小 d ；進而修正了 c 值，改以 cd 來表現。其中， cd 等於共同群大小的群數 nd ，(Muthén, 1994): * S Bd = Σ W + cd Σ B. (2-8). 對於不平衡的情況，若使用 Full Information Maximum Likelihood (FIML)估計法，會因為群大小不同而有不同的測量參數 cd ，進而導致需要一個複雜的模式系統，更可能發生錯誤。因此 Muthén 在 1989 與 1990 年的文章中，提出一個忽略不平衡的方法，此方法以一個類似平均樣本大小的 c* 值取代原本的 c 值: G. c* =. N 2 − ∑ ng2 g. N (G − 1). (2-9). 這方法後來稱為 Limited Information Maximum Likelihood (LIML)估計法，. 5.

(12) McDonald (1994)更稱它為 MUML 法。Muthén (1989,1990)也証明了 S B* 是 ∑W + c* ∑ B 的ㄧ致且不偏的估計量。詳細證明，請參照附錄。. 二、階層線性模式及其估算法. 本節介紹 Goldstein 提出的階層線性模式，並對模式中幾種不同的估算法，做一個簡單的介紹。. 2.2.1 階層線性模式 (Hierarchical Linear Models ; HLM). 異於 Muthén 所使用的方法，Goldstein 在 1987 與 1995 的文章中，提出直接在各自的層次估算共變異數矩陣的作法。本文以兩階層為例，將 Goldstein (1987, 1995)的模式也作一個簡單的說明。 Yij = β 0 j + β1 j X 1ij + β 2 j X 2ij +. βQj X Qij + rij. Q. = β 0 j + ∑ β qj X qij + rij. (2-10). q =1. β qj = γ q 0 + γ q1W1 j + γ q 2W2 j +. + γ qSq WSq j + uqj. Sq. = γ q 0 + ∑ γ qsWsj + uqj. (2-11). s =1. 在公式 (2-10)及公式 (2-11)中，分別代表階層一與階層二的模式。其中 β qj. ( q = 0,1,… , Q ) 與 γ qs ( s = 0,1,… , Sq ) 為階層一與階層二的係數、 X qij 與 Wsj 為階層一與階層二的預測變項、 rij 與 uqj 為階層一與階層二的隨機效果，且為常態分配。. 6.

(13) 其他假設如下： E (rij ) = 0. (2-12). Var (rij ) = σ 2. (2-13). ⎡ u0 j ⎤ ⎡ 0 ⎤ ⎢ ⎥ ⎢ ⎥ E⎢ ⎥=⎢ ⎥ ⎢ uqj ⎥ ⎢⎣0 ⎥⎦ ⎣ ⎦. (2-14). ⎡τ 00 τ 01 ⎡ u0 j ⎤ ⎢ ⎢ ⎥ τ 10 τ 11 Var ⎢ ⎥ = ⎢ ⎢ ⎢ uqj ⎥ ⎢ ⎣ ⎦ τ ⎣⎢ q 0 τ q1. Cov(uqj , rij ) = 0. τ 0q ⎤ τ 1q ⎥⎥. ⎥ ⎥ τ qq ⎦⎥. =T. (2-15). (2-16). 2.2.2 階層線性模式中的三種估算法. 由於在 Goldstein 所提出的模式中，主張直接在各自的層次估算共變異數矩陣，所以每一種估算法各司其職，分別估算不同的參數。模式中以 EB (Empirical Bayes)估算法，估算層一係數；一般最小平方法 (Generalized Least Squares; GLS)，估算層二係數；最大概似 (Maximum Likelihood; ML)估算法，估算層一變異數 σ 與層二共變異數 T 。 2. 7.

(14) 參、模擬研究本研究係以隨機的數值模擬方式進行，探討資料平衡與否，對於 MUML 估算法在二階結構方程模式架構中，其影響正確性情況為何。圖 1 為本研究之研究架構；在這個二階結構方程模式中，分為組間部分與組內部分。在組內部份含有兩個潛藏變項 fw1 與 fw2，六個觀測變項 y1 ,… , y6 ；λ1 ,… , λ6 為潛藏變項與 y1 ,… , y6 分別對應之因素負荷量， ε1 , , ε 6 為誤差項。而組內部份除了 y1 ,… , y6 這原本在組間部分的六個觀測變項變成潛藏變項之外，另有一個潛藏變項 fb 。 w 為只存在組間部分的觀測變項，與 f B 為迴歸關係， β 為其迴歸係數。本章將說明本研究之實驗設計；第一節介紹所使用的研究方法與工具，第二節則說明本模擬實驗之研究設計，並分為平衡資料的實驗設計與不平衡資料的實驗設計。. 8.

(15) ε1. y1. ε2. y2. ε3. y3. y4. ε4. y5. ε5. y6. ε6. λ4. λ1 λ2. λ3. λ5. fw2. fw1. λ6. 組內部份. w. β. fb. λ1 λ2 λ3 λ4 λ5 λ6. y1. ε1. y2. ε2. y3. ε3. y4. ε4. y5. ε5. y6. ε6. 組間部份圖 1 二階層結構方程模式. 9.

(16) 一、模擬研究工具與方法. 本節將先說明本研究之模擬研究工具，再簡述蒙地卡羅研究法。. 3.1.1 模擬研究工具. 本模擬研究，以二階層結構方程模式為架構，重複試驗 1000 次，收斂值為 10−6 ；並以資料平衡與資料不平衡作為主要研究方向。在每一個試驗中，皆以. Mplus3.1.1 (Muthén & Muthén, 1998-2004) 的 MUML 估算法進行估算。而依據 Muthén (1994)定義 MUML 估算法之適配函數數學式，如下：. {. }. FMUML = G ln ∑W + c ∑ B + trace ⎡⎣ (∑W + c ∑ B ) −1 S B ⎤⎦ − ln S B − p. {. }. −1 + ( N − G ) ln ∑W + trace ⎡⎣ ∑W SW ⎤⎦ − ln SW − p. (3-1). 公式中的矩陣皆為 p × p 大小之方陣，總樣本數 N，群數個數為 G；且 ∑ B 、∑W 分別為母群體組間群與組內共變異數 p × p 方陣。 c 為一常數，目的為調整資料不平衡的狀況。 S B 與 SW 為樣本組間群與組內共變異數 p × p 方陣， p 為變數個數。. 3.1.2 蒙地卡羅研究法. 蒙地卡羅研究 (The Monte Carlo method)常用於方法學的研究，有時也視為是. 10.

(17) 模擬研究；Mplus 擴大蒙地卡羅研究法使其可用來產生資料與數據分析，更可處理分析模式與資料產生模式不同時的模式分析。它也可以被用在決定研究所需的樣本數或是檢定力的判定(Muthén & Muthén, 2002)。資料生成的模式可以包含隨機效果、連續潛藏變項間的交互作用、連續潛藏變項與觀測變項間的交互作用以及類別潛藏變項間的交互作用。在處理分析模式與資料產生模式不同時的模式分析方面，生成資料可以為類別的而分析時模式為連續；或是資料生成時模式為二階，資料分析時為三階模式。 Mplus3.1.1 (Muthén & Muthén, 1998-2004)中的蒙地卡羅研究在產生資料與模式分析方面有下列步驟，本研究中設定最大疊代次數為 1000，收斂值為 10−6 ： 1. 由資料生成模式中的觀測變項與潛藏變項間的設定產生多變量常態資料 (資料也可為類別型態)。 2. 再以資料分析模式中之設定，反覆疊代，估算模式中的參數。. 二、模擬研究設計. 本節將先說明實驗的整體模式設計，再分述平衡資料與不平衡資料其不同的操弄條件設計。如圖 2 的架構所示，本研究設定在組內部份 y1 , y2 , y3 對於 fw1 以及 y4 , y5 , y6 對於 fw2 的因素負荷量皆為 1， fw1 與 fw2 之相關係數設定為 1；組間部分 y1 , , y6 對於 fb 的因素負荷量也設定為 1。其觀測變項 w 與潛藏變項 fb 為迴歸關係，迴歸係數為 1，並設定 w 之平均數為 0、變異數為 1。在此二階層結構方程模式中， fw1 對於 y1 、 fw2 對於 y4 、 fb 對於 y1 其因素負荷量皆固定為 1；目的是做為估計的基準，以方便與其他因素負荷量估計值比較。. 11.

(18) 符號 ∗ 代表只設定起始值，由軟體自由估算。. ε1. 1*. y1 1*. y2. 1*. fw2. fw1. y5. ε5. y6. ε6. *. 1. 1*. ε3. ε4. 1. 1. ε2. y4. y3. 組內部份. *. w. 1. fb. 1 1* 1* 1* 1* 1*. y1. ε1. y2. ε2. y3. ε3. y4. ε4. y5. ε5. y6. ε6. 組間部份圖 2 因素負荷量設定值之架構圖. 12.

(19) 3.2.1 平衡資料的實驗設計. 在資料平衡的實驗設計下，各組群之群大小皆相同；並分別以 MUML 估算法估計。實驗設計延續 Hox 與 Maas(2000)文章中，對小樣本數與群數的設計。本研究樣本數設定從 100、150、200、400、600、800 到 1000 等 7 種，群數為 25、 30、35、40、45、50 等 6 種；互相搭配下共 42 種模式條件。而每一種模式皆重複試驗 1000 次，收斂值為 10−6 。. 3.2.2 不平衡資料的實驗設計. 在資料不平衡的實驗設計下，各組群之群大小不盡相同。但為了解其差異程度如何影響 MUML 估算法之估算情況，本研究設計一個不平衡指標 CUI 值 (Chou Unbalance Index; CUI) ，見公式 3- 3。其中 n 為同一樣本數中群大小之平均值 (公式 3- 2) ，CUI 值為各群數大小之離均平均值。. G. n=. ∑n g =1. G. CUI =. (3-2). G. ∑n g =1. g. g. G. −n (3-3). 為了與平衡資料比較，不平衡資料的實驗設計以平衡資料的實驗設計為基礎，取其中三種樣本數以比較估算結果；並參考 Hox (2001)文獻中使用群數 37 (約 40)、總樣本數 873 的實徵資料；本研究設計總群數即為 40、總樣本數設定為 600、. 13.

(20) 800 與 1000 三種，CUI 值為 0、2、4、6、8、10、12、14、16、18 等十種，組合出 30 種模式，且每一種模式之群數總數皆為 40。本研究將探討在不同的 CUI 值下，其影響 MUML 估算法估算結果之情形為何；並期望能找出對於不平衡的實驗設計，使用 MUML 估算法的適當範圍。而每一種模式皆重複試驗 1000 次，收斂值為 10−6 。由於本研究提出影響 MUML 估算法之不平衡指標的 CUI (Chou Unbalanced Index)值，於本文章中並未提出統計證明；故以模擬研究所得結果，來說明。圖 3 為群數 40、總樣本數 800 下，代表資料不平衡程度的 CUI 值，在重複試驗 1000 之下，MUML 估算法之估算完成次數百分比的情形；其詳細研究結果將在第四、第五章討論。由圖 3 可觀察出當 CUI 值越大 (代表資料不平衡程度越嚴重)，其 MUML 估算完成次數越低，可推論資料不平衡程度將會影響 MUML 估算法進行估算的正確性。. 14.

(21) 100 99.5 99. 估算完成次數百分比 (%). 98.5 98 97.5 97 96.5 96 95.5 95 94.5 94 93.5 93 92.5 92 91.5 91 90.5 90 0. 2. 4. 6. 8. 10. 12. 14. 16. CUI值. 圖 3 CUI 值影響 MUML 估算完成次數百分比折線圖. 15. 18.

(22) 肆、模擬研究結果本章依照前述架構進行模擬研究，目的在呈現 MUML 估算法在資料平衡與不平衡的情況下，其樣本數限制與趨勢為主。第一節將說明 MUML 估算法在資料平衡的情況下，其估算正確性受樣本數影響之結果。第二節說明 MUML 估算法在不同樣本數與不同 CUI 值的設定下，其影響估算正確性上的情形為何。. 一、資料平衡的 MUML 估算研究結果. 依照圖 2 (第 11 頁)的模式架構進行模擬研究，如前文所述樣本數為 100、150、 200、400、600、800、1000 等 7 種，群數有 25、30、35、40、45、50 等 6 種；一共有 42 個不同的試驗組合；每一個試驗皆重覆模擬 1000 次，收斂值為 10−6 。下表 1 為重覆模擬 1000 次後，每一個不同的試驗其 MUML 估算完成次數百分比表。. 表 1 平衡資料之 MUML 估算完成次數百分比表. 群數 (群). 50 45 40 35 30 25. 1000 100 100 100 100 100 100. 800 100 100 100 100 100 100. 600 100 100 100 100 100 100. 總樣本數 400 200 100 99.5 99.9 98.4 100 98.9 100 99.1 100 98.9 100 98.7. 150 96.3 94.8 97.9 96.8 93.5 95.0. 100 84.4 84.1 78.9 88.7 85.1 87.2. 表 1 代表平衡資料於不同群數與不同樣本數條件下，其中 MUML 估算法在. 16.

(23) 進行估算時，每個不同試驗重複 1000 次，其估算完成次數的百分比。表中橫列代表的是相同群數下，MUML 估算法在不同樣本數的估算完成次數百分比；直行為相同樣本數下，MUML 估算法在不同群數的估算完成次數百分比的表現。以樣本數 200 為例，在群數依序為 50、45、40、35、30、25 下，其 MUML 估算完成次數之百分比分別為 99.5、98.4、98.9、99.1、98.9、98.7：也就是估算 1000 次當中，完成次數依序為 995、984、989、991、989 與 987 次。又以群數 45 為例，在樣本數大小依序為 1000、800、600、400、200、150、100 下，其 MUML 估算完成次數之百分比分別為 100、100、100、99.9、98.4、94.8 與 84.1。然而由表 1 可以發現，在本研究中無論群數為何，當總樣本數低於 400 時， MUML 估算法的估算完成次數即開始降低。且在固定群數不變的情況下，樣本數越小其 MUML 估算完成次數之比例也有遞減的趨勢。對於平衡資料，樣本數大於等於 400 時，使用 MUML 估算法進行估算較能有穩定地表現。圖 4 為表 1 所得之結果折線圖。. 17.

(24) 估算完成次數百分比 (%). 100 98 96 94 92 90 88 86 84 82 80 78 76 74 72 70 1000. 800. 600. 400. 200. 150. 總樣本數 50. 45. 40. 35. 30. 25. 圖 4 平衡資料之 MUML 估算完成次數百分比折線圖。. 18. 100.

(25) 二、資料不平衡的 MUML 估算研究結果. 依照圖 2 (第 11 頁)的模式架構進行模擬研究，如前文所述均固定群數為 40，樣本數為 1000、800、600 等三種，CUI 值為 0、2、4、6、8、10、12、14、16、 18 等十種；組合搭配之下，共有 30 種不同的試驗，每一個試驗皆重覆模擬 1000 次，收斂值為 10−6 。表 2 代表樣本數 1000 時，不同 CUI 值對於 MUML 估算法估算完成次數百分比的影響情形。在本模擬研究中，若組間樣本共變異數矩陣與組間殘差共變異數矩陣不正定、不可逆或是估算不收斂，皆會導致估算未完成，均計入估算不完成次數。表 2 中，CUI 值下方之方格內數字為列舉其中一種符合所對應 CUI 值之正整數解，方便讀者參考其資料不平衡程度。舉例來說，CUI 值為 14，總樣本數為 1000，群大小(群內樣本數)分別為 1、21、28 與 50。表格最後ㄧ列為重複試驗 1000 次之下，MUML 之估算完成次數百分比；分別為 100、100、100、100、99.9、99.9、 99.1、99.5、99.0、98.6。這代表在本研究重複試驗 1000 次下，其 MUML 估算法由不平衡資料之 CUI 值 0 到 18，其估算完成次數分別為 1000、1000、1000、1000、 999、999、991、995、990 與 986 次。圖 5 為表 2 之折線圖。. 表 2 CUI 值影響 MUML 估算完成次數百分比表(總樣本數 1000). 10 群數 10 10 (群) 10 估算完成次數百分比(%). 0 25 25 25 25. 2 21 25 25 29. 4 17 25 25 33. 100. 100. 100. CUI (Chou Unbalanced Index) 6 8 10 12 13 9 5 1 25 25 25 25 25 25 25 25 37 41 45 49 100. 99.9. 19. 99.9. 99.1. 14 1 21 28 50. 16 1 17 32 50. 18 1 13 36 50. 99.5. 99.0. 98.6.

(26) 100 99.5 99 98.5 98. 估算完成次數百分比 (%). 97.5 97 96.5 96 95.5 95 94.5 94 93.5 93 92.5 92 91.5 91 90.5 90 0. 2. 4. 6. 8. 10. 12. 14. 16. 18. CUI值. 圖 5 CUI 值影響 MUML 估算完成次數百分比折線圖(總樣本數 1000). 由表 2 可以發現，CUI 值越大 (即其資料不平衡的程度越嚴重)，MUML 估算完成次數百分比由 100%降低到 98.6%。表示 CUI 值越大，MUML 估算法在進行估算時之正確性將會降低。表 3 代表樣本數 800 時，不同 CUI 值對於 MUML 估算法估算完成次數百分比的影響情形。表格最後ㄧ列為重複試驗 1000 次之下，MUML 之估算完成次數. 20.

(27) 百分比；分別為 100、100、100、99.9、99.5、99.5、99.1、97.3、96.1、94.2。這代表在本研究重複試驗 1000 次下，其 MUML 估算法由不平衡資料之 CUI 值 0 到 18，其估算完成次數分別為 1000、1000、1000、999、995、995、991、973、 961 與 942 次。如同總樣本數 1000 的趨勢，CUI 值由 0 遞增到 18，其 MUML 估算完成次數百分比由 100%降低到 94.2%。圖 6 為表 3 之折線圖。. 表 3 CUI 值影響 MUML 估算完成次數百分比表(總樣本數 800). 10 10 群數 10 (群) 10 估算完成次數百分比(%). 0 20 20 20 20. 2 16 20 20 24. 4 12 20 20 28. 100. 100. 100. CUI (Chou Unbalanced Index) 6 8 10 12 8 4 1 1 20 20 19 15 20 20 20 20 32 36 40 44 99.9. 99.5. 21. 99.5. 99.1. 14 1 11 20 48. 16 1 7 20 52. 18 1 3 20 56. 97.3. 96.1. 94.2.

(28) 100 99.5 99 98.5 98 97.5. 估算完成次數百分比 (%). 97 96.5 96 95.5 95 94.5 94 93.5 93 92.5 92 91.5 91 90.5 90 0. 2. 4. 6. 8. 10. 12. 14. 16. 18. CUI值. 圖 6 CUI 值影響 MUML 估算完成次數百分比折線圖(總樣本數 800). 表 4 代表樣本數 600 時，不同 CUI 值對於 MUML 估算法估算完成次數百分比的影響情形。表格最後ㄧ列為重複試驗 1000 次之下，MUML 之估算完成次數百分比；分別為 100、100、100、99.8、99.3、98.5、96.4、93.9、92.5 與 90.2。這代表在本研究重複試驗 1000 次下，其 MUML 估算法由不平衡資料之 CUI 值 0 到 18，其估算完成次數分別為 1000、1000、1000、998、993、985、964、939、 925 與 902 次。如同總樣本數 1000 的趨勢，CUI 值由 0 遞增到 18，其 MUML 估. 22.

(29) 算完成次數百分比由 100%降低到 90.2%。圖 7 為表 4 之折線圖。. 表 4 CUI 值影響 MUML 估算完成次數百分比表(總樣本數 600). 10 群數 10 (群) 10 10 估算完成次數百分比(%). 0 15 15 15 15. 2 11 15 15 19. 4 7 15 15 23. 100. 100. 100. CUI (Chou Unbalanced Index) 6 8 10 12 3 1 1 1 15 13 9 5 15 15 15 15 27 31 35 39 99.8. 99.3. 98.5. 8. 10. 12. 14 1 1 15 43. 16 1 1 11 47. 18 1 1 7 51. 96.4. 93.9. 92.5. 90.2. 14. 16. 18. 100. 估算完成次數百分比 (%). 99.5 99 98.5 98 97.5 97 96.5 96 95.5 95 94.5 94 93.5 93 92.5 92 91.5 91 90.5 90 0. 2. 4. 6. CUI值. 圖 7 CUI 值影響 MUML 估算完成次數百分比折線圖(總樣本數 600). 23.

(30) 下表 5 綜合說明總樣本數與 CUI 值如何影響 MUML 估算法之估算完成次數百分比的情況。直行代表固定 CUI 值時，不同的總樣本數對 MUML 估算法之估算完成次數百分比的影響；橫列代表固定總樣本數時，不同的 CUI 值對於 MUML 估算法之估算完成次數百分比的影響情況。舉例來說，固定 CUI 值為 8，樣本數分別為 1000、800、600 時，其 MUML 估算法之估算完成次數百分比分別為 99.9、 99.5 以及 99.3；固定總樣本數為 800，CUI 值從 0 到 18 時，其 MUML 估算法之估算完成次數百分比分別為 100、100、100、99.9、99.5、99.5、99.1、97.3、96.1 以及 94.2。由表 5 可清楚發現，MUML 估算法之估算完成次數百分比隨著總樣本數越小、CUI 值越大而有遞減的趨勢。換言之，重複試驗 1000 次下、總樣本數越小且資料不平衡程度越嚴重時，MUML 估算法的正確性就越低。本研究也發現，在本模擬研究設計的總樣本數範圍 600 到 1000 之間， CUI 值為 0(即資料為平衡)、CUI 值為 2 與 CUI 值為 4，無論總樣本數為何其 MUML 估算法皆能完全估算。而 CUI 值高於 6，MUML 估算法出現不收斂情況則開始增加，意即估算完成次數便開始降低，正確性亦開始降低。圖 8 為表 5 之折線圖。. 表 5 總樣本數與 CUI 值影響估算完成次數百分比表. 總樣本數. CUI (Chou Unbalanced Index) 6 8 10 12 14. 0. 2. 4. 1000. 100. 100. 100. 100. 99.9. 99.9. 99.1. 800. 100. 100. 100. 99.9. 99.5. 99.5. 600. 100. 100. 100. 99.8. 99.3. 98.5. 24. 16. 18. 99.5. 99.0. 98.6. 99.1. 97.3. 96.1. 94.2. 96.4. 93.9. 92.5. 90.2.

(31) 100 99.5 99 98.5 98. 估算完成次數百分比 (%). 97.5 97 96.5 96 95.5 95 94.5 94 93.5 93 92.5 92 91.5 91 90.5 90 0. 2. 4. 6. 8. 10. 12. 14. 16. 18. CUI值 1000. 800. 600. 圖 8 總樣本數與 CUI 值影響 MUML 估算完成次數百分比折線圖. 25.

(32) 伍、結論與建議 MUML 估算法自 Muthén 於 1989 年提出之後，在估算資料不平衡情況下的二階共變數結構變得容易許多；同時也指出只要樣本數夠大，估算結果在本質上與 ML 估算法是相同的。Hox 與 Maas 在 2000 年發表的文章中，發現 MUML 法在個體層次與群層次均為小樣本數，取樣群數小於 50 而內部相關係數(Intraclass Correlation Coefficients: ICC )低時，在組間群的部份發生不允許解的估計值次數較多。本研究延續 Muthén (1989)與 Hox(2001)的研究，並提出 MUML 估算法在樣本數以及資料不平衡程度上的限制；也延續 Hox 與 Mass (2000)的研究，針對小樣本數與取樣群數影響 MUML 估算法之情況作進ㄧ步的推論。本研究目的在於若以 MUML 估算法分析平衡資料，樣本數大小與群數個數，對於 MUML 估算法正確性之影響以及分析不平衡資料，樣本數大小與資料不平衡程度對於 MUML 估算法正確性的影響為何，並提出一個可代表不平衡程度的不平衡指標 CUI 值。因此綜合上述研究結果，本研究提出以下結論，以供實徵研究者作為參考。根據第四章的研究結果，我們可以發現，若以 MUML 估算法分析總樣本數介於 1000 與 100 之間、群數在 50 與 25 之間的平衡資料，當取樣的總樣本數低於 400 時估算完成次數將會明顯降低，意即 MUML 估算法之正確性會在總樣本數小於 400 時開始降低。而 MUML 估算法之正確性，也隨取樣的總樣本數越小而有遞減的趨勢；在本研究限制的取樣的群數，沒有明顯影響 MUML 估算法的正確性。總結平衡資料的研究結果可得知，MUML 估算法正確性會隨著取樣的總樣本數遞減而降低，而取樣的群數多寡並不會明顯地影響估算正確性。如欲得到較高 MUML 估算法之正確性，對於平衡資料其取樣總樣本數應大於 400 較為妥當。. 26.

(33) 若以 MUML 估算法分析總樣本數介於 1000 與 600 之間、取樣總群數個數為 40 的不平衡資料，其取樣總樣本數越小，估算完成次數越低。並藉由本研究提出的 CUI (Chou Unbalanced Index)值，我們可以發現，在 CUI 值為 0 (即平衡)、CUI 值為 2 與 CUI 值為 4 時，無論取樣的總樣本數為 1000、800 或 600，MUML 估算法皆能完全估算。但 CUI 值高於 6 之後，MUML 估算法的估算完成次數便開始降低。總結不平衡資料的研究結果可得知，MUML 估算法正確性會隨著取樣的總樣本數遞減、資料不平衡程度越大而降低。且總樣本數越小，MUML 估算完成次數從 CUI 值為 0 到 CUI 值為 18 的下降速度越快。如不考慮取樣的總樣本數影響，欲得到較高 MUML 估算法之正確性，對於不平衡資料其 CUI 值應小於 6。以上之研究，主要是針對本研究中的模式設計作深入討論；本研究模式為二階層結構方程模式，分為組內部分與組間部份，且分別有兩個潛藏因子與六個觀測變項以及一個潛藏因子與一個組間觀測變項；故本研究結論，為依據此模式設計下所得，對於推論到其他二階層結構方程模式仍需進ㄧ步驗證。至於本研究對後續相關研究，有以下幾點建議： 1、本研究是以二階層結構方程模式中較基本、易理解的模式為主；故後續研究可針對較複雜且具階層性的結構方程模式做進ㄧ步研究。例如，多組群二階層結構方程模式。 2、在不平衡資料的模擬研究中，取樣之總樣本數與群數為依照文獻所使用實徵資料為例，後續研究可針對其餘總樣本數與群數做更進ㄧ步的推論。 3、本研究提出之 CUI 值，僅提出數據證明，未來可推導其統計證明，使其具有常模。. 27.

(34) 參考文獻 Bollen, (1989). Structural equations with latent variables. New York: Wiley. Farmer, G. L (2000). Use of multilevel covariance structure analysis to evaluate the multilevel nature of theoretical constructs. Social Work Research, 24, 180-192. Goldstein, H. (1987). Multilevel models in educational and social research. London: Griffin. Goldstein, H. (1995). Multilevel statistical models. London: Edward Arnold/New York: Halsted. Hox, J. J. & Mass, C. J. M. (2001). The accuracy of multilevel structure equation modeling with pseudobalanced groups and small samples. Structural Equations Modeling, in press. McDonald, R. P. & Goldstein, H. (1988). Balanced versus unbalanced designs for linear structural relations in two level data. British Journal of Mathematical and Statistical Psychology, 42, 215-32. Muthén, B. (1989). Latent variable modeling in heterogeneous populations. Psychometrika, 54, 557-585. Muthén, B. O., & Satorra, A. (1989). Multilevel aspects of varying parameters in structural models. In: Bock, R.D (ed.). Multilevel analysis of educational data. San Diego, CA: Academic Press. Muthén, B. (1990). Mean and covariance structure analysis of hierarchical data. Los Angeles: UCLA Statistics series, #62. Muthén, B. O. (1994). Multilevel covariance structure analysis. Sociological Methods & Research, 22, 376-398.. 28.

(35) Muthén, L. K., & Muthén, B.O. (1998). Mplus. The comprehensive modeling program for applied researchers. Los Angeles: Muthén & Muthén. Raudenbush, S. W., & Bryk, A. S., (2002). Hierarchical linear models: Applications and data analysis methods. Thousand Oaks, CA: Sage. Skrondal, A., & Rabe-Hesketh, S. (2004). Generalized latent variable modeling: multilevel, longitudinal, and structural equation models. CRC Press. Yuan. K. H. (2005). On Muthén’s maximum likelihood for two-level covariance structure models. Psychometrika, 70, 147-167.. 29.

(36) 附錄. 本附錄節錄自 Muthén (1994) 的文章，Muthén (1994)對多階層結構方程模式的定義如下： y gi = ν + λη gi + ε gi. (6-17). η gi = α + η Bg + ηWgi. (6-18). 其中 i = 1, 2, , ng ， g = 1, 2, , G 。Muthén (1994)的其它假設如下： E (η gi ) = α. (6-19). E (η Bg ) = E (ηWgi ) = 0. (6-20). Muthén (1994)證明以下參數： V (η gi ) = ψ T = V (η Bg ) + V (ηWgi ) = ψ B +ψ W. (6-21). Cov(η gi ,η gi′ ) = Cov(η Bg ,η Bg ) + Cov(ηWgi ,ηWgi′ ) ， =ψ B. +0。. (6-22). 由公式(6-21)可得知，樣本變異數可拆解為樣本組內共變異數與樣本組間群共變異數之和，Muthén (1994)繼續推得殘差變異數與母群體共變異數的公式： V (ε gi ) = Θ B + ΘW. (6-23). V ( y gi ) = ∑T = ∑W + ∑ B. (6-24). 其中 ∑ B = λψ B λ ′ + Θ B. (6-25). ∑W = λψ W λ ′ + ΘW. (6-26). Muthén (1994)將公式合併之後得到新的公式，如下：. 30.

(37) y gi = ν + Λ Bη Bg + ε Bg + ΛWηWgi + ε Wgi. (6-27). Muthén (1994)對於多階層結構方程模式的定義與公式，是以樣本共變異數估算母群體共變異數為主；所以，樣本共變異數之定義非常重要。Muthén (1994)對於樣本共變異數之假設如下，分別為母群體共變異數以及組內、組間樣本共變異數： Ng. G. ST = ( N − 1) −1 ∑∑ ( y gi − y )( ygi − y )′. (6-28). g =1 i =1. SW = ( N − G ). −1. Ng. G. ∑∑ ( y g =1 i =1. gi. − yg )( ygi − y g )′. (6-29). G. S B = (G − 1) −1 ∑ ( y g − y )( y g − y )′. (6-30). g =1. 其中， SW 為 Σ W 的最大概似估計值， S B 是 Σ W +cΣ B 的最大概似估計值。 SW = Σ W. (6-31). S B = Σ W + cΣ B. (6-32). G ⎡ −1 2⎤ c = ⎢ N 2 − ∑ N g ⎥ [ N (G − 1) ] g =1 ⎣ ⎦. (6-33). Muthén (1994)定義資料在平衡的條件下， c 值為共同的樣本大小；若為不平衡資料 c 值則非常接近群大小之平均數。由公式(6-31)與(6-32)可推得公式(6-34)： Σ B = c −1 ( S B − SW ). (6-34). Muthén (1994)對於 MUML 估算法之適配函數數學式，如下：. {. }. FMUML = G ln ∑W +c ∑ B + trace ⎡⎣(∑W + c ∑ B ) −1 S B ⎤⎦ − ln S B − p. {. }. −1 + ( N − G ) ln ∑W + trace ⎡⎣ ∑W SW ⎤⎦ − ln SW − p. 31. (6-35).

(38)