多群組離散型驗證性因素分析模型在多元計分試題差異功能檢定之研究

全文

(1)國立臺灣師範大學數學系碩士班碩士論文. 指導教授：蔡蓉青博士. 多群組離散型驗證性因素分析模型在多元計分試題差異功能檢定之研究. 研究生：黃維綱. 中華民國一百零一年八月.

(2) 誌謝能完成這篇論文，最感謝的是蔡蓉青老師長期的耐心指導，除了分析事情的精準度外，還有做事的態度、時間點的把握。也感謝李信宏老師、蔡碧紋老師願意擔任我的口試委員，在口試期間指正許多我的論文應該改善之處。過程中，育瑋學長的建議使我獲益良多，在此也表示深深的感謝；也感謝應老師邀請，工作百忙中回來為我們講解論文相關主題的明錦學長，讓我對論文的主題有了清楚的輪廓。最後要感謝爸媽、弟弟與親友一直以來對我的支持與鼓勵，我終於畢業了！謝謝你們！我愛你們！. i.

(3) 摘要本研究在探討在多群組離散型驗證性因素分析模型下，利用強韌性卡方差異檢定，並且配合基線模式開放法來檢測多元計分題之試題差異功能 (DIF) 的有效性。我們利用模擬實驗來調查在不同的樣本數、群組之平均潛在能力差異、 DIF 比例、DIF 強度、DIF 類型以及顯著水準類型等因素條件下，該檢測之型一. 誤差和檢定力的表現，以了解這些因素對檢測有效性的影響。研究結果發現：整體而言，強韌性卡方差異檢定能有效的檢測出 DIF 試題；在以下的情境檢定力較高：大樣本數、重度 DIF、DIF 類型為僅因素負荷量上有 DIF 和因素負荷量和閾值均有 DIF 時檢定力較高；是否有群組之平均潛在能力差異、DIF 比例二者則對檢定力影響不顯著； Bonferroni 修正由於過度保守，建議無須特別採用。另外，與過去文獻比較時發現：使用基線模式開放法比基線模式限制法有明顯較低的型一誤差，而基線模式限制法在經過 Oort 調整過顯著水準後則有可接受的型一誤差。但不論調整與否，基線模式限制法比基線模式開放法平均來講有較佳的檢定力。再者，分析時視多元計分試題資料為離散型、檢測 DIF 前先篩選出不配適的模型並不會使檢定力增加。. 關鍵字：試題差異功能、多群組離散型驗證性因素分析模型、強韌性卡方差異檢定、基線模式開放法、Bonferroni 修正。. ii.

(4) Abstract The aim of this study is to assess the efficiency of using multiple group categorical CFA and robust chi-square difference test in DIF detection for polytomous items under the free baseline strategy. Simulation studies are conducted to examine the empirical type I error and power of DIF detection and the effects of five factors are investigated, including sample sizes, impacts, DIF percentages, DIF sizes, and types of DIF. Based on our results, robust chi-square difference test is shown to be efficient in detecting DIF for polytomous items, especially under the conditions of large sample size, large DIF size, and either factor loadings or both factor loadings and thresholds having DIF. Moreover, impact and DIF percentages do not seem to make significant difference in power for DIF detection. Bonferroni correction appears to be too conservative and therefore is not recommended for use. Compared to past studies with constrained baseline strategy, free baseline strategy seems to result in smaller type I errors. However, correcting the significance level of the former strategy using Oort’s approach will result in acceptable type I error. On average, higher powers are usually obtained for constrained-baseline than free-baseline strategy no matter whether Oort’s correction is applied. Furthermore, regarding polytomous data as discrete rather than continuous and adding the process of examining model fit before DIF detection do not seem to increase power in DIF detection.. Key words: DIF, multiple-group categorical CFA, robust chi-square difference test, free baseline strategy, Bonferroni correction. iii.

(5) 目次誌謝..................................................................................................................................i 中文摘要.........................................................................................................................ii 英文摘要........................................................................................................................iii 目次................................................................................................................................iv 表次.................................................................................................................................v 圖次................................................................................................................................vi 第一章緒論..................................................................................................................1 第二章 MCCFA 模型下的 DIF....................................................................................6 第一節 DIF 的定義..............................................................................................6 第二節 MCCFA 模型...........................................................................................7 第三節 MCCFA 模型的模型辨識議題...............................................................9 第三章 DIF 檢測方法.................................................................................................11 第一節基線模式................................................................................................11 第二節二階段分析程序....................................................................................12 第三節本研究的 MCCFA 模型的基線模式策略及參數限制.........................15 第四章模擬研究設計................................................................................................18 第五章模擬研究結果................................................................................................22 第一節錯誤率....................................................................................................22 第二節正確率....................................................................................................23 第三節多因子變異數分析................................................................................24 第六章討論與結論.....................................................................................................36 參考文獻.......................................................................................................................40. iv.

(6) 表次表 1 文獻比較－情境...................................................................................................5 表 2 生成資料的參數設定 (Stark 等人的)................................................................21 表 3 無 DIF 情境下的錯誤率.....................................................................................27 表 4 有 DIF 情境下的錯誤率.....................................................................................28 表 5 有 DIF 情境下的正確率.....................................................................................30 表 6 有 DIF 情境下錯誤率與正確率的平均數.........................................................32 表 7 錯誤率的多因子變異數分析表..........................................................................33 表 8 正確率的多因子變異數分析表..........................................................................34. v.

(7) 圖次圖 1 錯誤率（轉換過的）的折線圖..........................................................................35 圖 2 正確率（轉換過的）的折線圖..........................................................................35. vi.

(8) 1. 緒論在教育測驗上，公平性的問題一直以來都是社會大眾與教育研究者相當關. 注的議題，例如，在全國性的統一考試中，選擇不偏袒任何特定地理區域的學生之試題是絕對必要的。試題差異功能（Differential Item Functioning, DIF）表示對於具有相同能力但來自不同群體的學生，在試題之作答表現會有所差異。換句話說，除了測驗欲量測的能力會影響學生在該題之答題表現外，還有其他的因素使得學生會因所來自的群體不同而有不同的答題表現或答對率，而這是大眾及教育研究者所不樂見的，因此，對於試題進行 DIF 檢測並且刪除 DIF 試題對於測驗之公平性有其重要及必要性。為了找出並排除 DIF 試題，過去較常用的方法有試題反應理論（Item Response Theory, IRT）、驗證性因素分析（Confirmatory Factor Analysis, CFA）兩大類。本研究主要探討的是後者中之多群組離散型驗證性因素分析（Multiple-group Categorical Confirmatory Factor Analysis, 以下簡稱 MCCFA）模型在多元計分題 DIF 檢定的效能。試題差異功能之概念主要是在 IRT 的架構下去討論對於不同群體而言，試題之反應函數或特徵曲線有所差異。而 CFA 乃結構方程模式（Structural Equation Modeling,SEM）中僅考慮測量模型（measurement model）而無結構模型. （structure model）之特例，而利用 CFA 取向之 DIF 檢測法，乃是透過針對不同群體間之測量不變性（measurement invariance）檢驗來達成 DIF 試題之檢測（洪秀玉，2007；陳冠志，2006；Drasgow & Kanfer, 1985；Meade & Lautenschlager, 2004）。如此之作法，是建構在 Muthén（1985）所提出的 SEM 和 IRT 間參數的. 轉換關係，進一步發現某些情況下討論 SEM 中的測量恆等性和 IRT 中的 DIF 的議題其實是探討相同的概念，因此近年來 CFA 也常被用來檢測 DIF 試題。以 SEM 進行測量不變性的檢定時，主要有多群組驗證性因素分析模型 (Multiple-group Confirmatory Factor Analysis, MG-CFA) 以及 MIMIC 模型兩種方 1.

(9) 法。MIMIC 模型因僅需多考慮群組變數加入模型後其與試題之路徑的顯著性，所以在估計上比 MG-CFA 模型相對簡單很多，所以被廣泛應用於檢測二元計分試題之難度參數或多元計分試題之閾值（threshold）參數是否存在群體差異而有 DIF，例如：蔡良庭、楊志堅、王文中、施慶麟（2008）、Finch（2005）、 MacIntosh 和 Hashim（2003），以及 Yang（2005）等篇。相對地，多群組驗證性. 因素分析模型在進行測量不變性的檢定時，不僅僅能考慮在難度或閾值參數上是否有 DIF，而能更進一步考慮不同群組在 CFA 模型中的所有參數是否都有差異。例如它可以方便用於檢測試題之鑑別度或難度參數之 DIF，或者考慮鑑別度與難度同時存在 DIF。這樣在檢驗測量不變性及 DIF 上的彈性使得多群組驗證性因素分析模型應用的範圍更為廣泛（Cheung & Rensvold, 2002；Byrne, Shavelson & Muthén, 1989；Joreskog & Sörbom, 1996；Raju, Laffitte & Byrne, 2002； Vandenberg & Lance, 2000）。尤其針對多元計分題而言，Ke（2010）研究中顯示. 利用 MG-CFA 可檢測出更多不同型式的 DIF，故本研究將著重在多群組驗證性因素分析模型。. 在利用 MG-CFA 於多元計分題的 DIF 檢測文獻中， Stark、 Chernyshenko 與 Drasgow （2006）分別及同時考慮試題在截距（intercept）和因素負荷量（loading）的 DIF。其結果顯示 MG-CFA 和 IRT 方法在大部分模擬條件下利用最大概度卡方差異性檢定所做的 DIF 檢測表現接近，MG-CFA 僅在二元計分題之表現略不如 IRT，但相反地，尤其在小樣本的狀況下，MG-CFA 在多元計分題之表現優於 IRT。總的來說，MG-CFA 模型在多元計分題的 DIF 檢測有相當程度的有效性。然而 Elosua 與 Wells（2008）和 Meade 與 Lautenschlager（2004）的研究結果則顯示 IRT 在閾值之 DIF 檢測較 MG-CFA 表現為佳。換句話說，在多元計分題的 DIF 檢測上，MG-CFA 和 IRT 的勝劣並無定論，原因可能在模擬資料生成所使用的模型之不同所致（Elosua, 2011）。然而這些研究共同的美中不足 2.

(10) 處在於將多元計分題之得分視為連續型資料來進行分析，並利用最大概度所定義之卡方差異來作檢定，研究結果可能會受到資料變數之分配假設是否符合的限制。不同於 Stark 等人（2006），Kim 和 Yoon（2011）以及 Elosua（2011）將多元計分題的作答反應視為離散型資料來進行試題之 DIF 檢測，因此在模型參數估計上都採用加權最小平方法。為了與將得分視為連續資料的情況做區別，所以特別強調將反應視為離散型的 CFA 為多群組 “離散型” 驗證性因素分析（Multiple-group Categorical Confirmatory Factor Analysis，以下簡稱 MCCFA）模型。 Kim 和 Yoon（2011）和 Elosua（2011）的模擬研究中，分別考慮六題及九題. 試題的考卷或問卷中恰有一題 DIF 試題的設計，而在基線模式（baseline model）同樣都選擇了 Stark 等人（2006）研究中發現表現較差的限制法（constrained）。 Kim 和 Yoon（2011）發現，利用 RMSEA、WRMR 與卡方差異等方法來檢測 DIF. 時，MCCFA 和 IRT 兩種方法在檢測上都有一定的檢定力，但也同時有過高的型一誤差。換句話說，沒有 DIF 的題目會被錯判為存在 DIF。原因是由於選擇了基線模式限制法，所以在有 DIF 的情境下來檢查其他沒有 DIF 的試題時，基線模式先假設其他所有題目都沒有 DIF 已經並非事實，亦即基線模式已被錯誤設定（misspecified）。 Oort （1998）建議在這種情境下對檢定之臨界值（critical value）進行調整，以降低因模型之錯誤設定被膨脹之型一誤差。總的來說，Kim. 和 Yoon （2011）研究發現此調整可在維持原有的檢定力的條件下，有效地降低型一誤差。Elosua（2011）則利用卡方差異、比較適配指標（Comparative Fit Index, CFI）差異、以及 Bonferroni 修正來做 MCCFA 模型下的 DIF 檢測，結果. 發現經 Bonferroni 修正之卡方差異及 CFI 差異均有良好的檢定力及型一誤差。雖然分析試題資料時 Kim 和 Yoon（2011）和 Elosua（2011）皆使用 MCCFA 3.

(11) 模型，補充了 Stark 等人（2006）將多元計分視為連續資料之不足，但此二研究卻也因為在基線模式上選擇了表現較差的限制法，造成檢測型一誤差過高而需要進行臨界值之調整，又相較起 Stark 等人（2006）使用基線模式開放法來說較為限制。尤其恰有一題 DIF 試題的設計即因為基線模式限制法而會導致膨脹之型一誤差，對於這些適配指標在具有更多 DIF 試題的情境下之檢測表現，恐會對檢測結果有更多的扭曲，導致更為膨脹之型一誤差。實際上，這種恰有一題 DIF 試題的設計雖然在檢視多元計分題的 DIF 檢測之相關研究中頗為常見，但. 在實務上較無法適用普遍情況（Elosua, 2011）。所以本研究希望能考慮更一般化的情境，也就是不只有一題 DIF 試題的設計，詳細情境的設定與比較整理如表 1。另一方面，為了避免增加 DIF 試題會造成型一誤差更大幅度的膨脹，本研究. 對基線模式將採用開放法。事實上，Maydeu-Olivares 和 Cai（2006）指出基線模式為開放法時，所進行之 DIF 檢測才不會有基線模式錯誤設定的問題，故才是統計上較為正確的 DIF 檢測法。更進一步，龐大的 DIF 相關之模擬研究之文獻中大致可發現，樣本數、不同組群間的因素負荷量或截距和閾值之差距大小 (DIF 強度)、不具測量不變性的觀測變項個數 (DIF 比例)、群組間是否存在能力差異等因素，對於相關指標或檢定法在測量不變性的檢測有效性都可能有影響。因此，本研究希望能探討在 MCCFA 模型下，並且基線模式為開放法時，利用強韌性卡方差異檢定來檢測多. 元計分題之 DIF 的有效性。利用模擬研究方式來調查在不同的樣本數、群組間能力差異、DIF 比例、DIF 強度、DIF 類型、以及是否進行 Bonferroni 修正等因素條件下，檢測之型一誤差和檢定力的表現，以了解這些因素對 DIF 檢測之有效性的影響。以下將介紹本研究使用的 MCCFA 模型與其中 DIF 試題的定義。. 4.

(12) 5. (500,500)/(同左) (1000,1000)/(同左) η r ∼N(0,1) η f ∼N(0,1). (500,500) (1000,1000) η r ∼N(0,4.26) η f ∼N(0,4.26). 無 impact. . η f ∼N(-0.5,1). η f ∼N(-1.03,4.26) 0/15, 1/15∼4/15. . DIF%. (τ =(τ1 ,..,τ4 )). λ, τ , both (τ =(τ1 ,..,τ4 )). DIF 類型. replication. 幾分題. λ, τ , both. (由 Stark 轉換). 大 DIF. 2 分/5 分 50 次. 5分 100 次. λ-0.40, τ +0.50. λ-0.15, τ +0.25. (由 Stark 轉換). 小 DIF. (15). (15). (總題數). 0/15, 4/15. η r ∼N(0,1). η r ∼N(0,4.26). 有 impact. (250,250)/(無探討). MACS/IRT. Stark 等人（2006）. (250,250). 樣本數. 本研究. 500 次. 2 分/5 分. (τ =(τ1 ,..,τ4 )). λ, τ , both. λ-0.4, τ +0.6. λ-0.2, τ +0.3. (6). 1/6. η f ∼N(0.5,1.3). η r ∼N(0,1). (無探討). (無探討). (1000,1000). (500,500). (200,200). (100,100). Kim 等人（2011）. 文獻. 表 1: 文獻比較－情境. 100 次. 3分. (τ =(τ1 ,τ2 )). λ, τ. λ-0.40, τ +0.40. λ-0.25, τ +0.25. (9). 0/9, 1/9. η f ∼N(-0.5,1). η r ∼N(0,1). η f ∼N(0,1). η r ∼N(0,1). (1000,1000). (500,500). (300,300). Elosua（2011）. 200 次. 2分. 難度參數 b. , 0.4, 0.6, 1. ∆b=0.0, 0.2. (10,20). 10%,20%,30%. (無探討). (無探討). η f ∼N(0,1). η r ∼N(0,1). (500,500). (300,700). (100,900). 蔡良庭等人（2008）.

(13) 2 MCCFA 模型下的 DIF 2.1. DIF 的定義. 對具公平性的測驗而言，凡是相同能力的受試者，不論其性別、種族或區域之差異，他們在該測驗的試題中應該會有相同的表現。倘若來自不同群體、但具有相同能力的受試者在特定試題具有不相等的答對率，則表示還有其他的因素使得學生會因所來自的群體不同而影響其答題表現，對於這樣的試題，我們通常稱該試題具有偏誤（bias）。但是由於偏誤就字面意思容易給人負面的觀感，因此後來多以「試題差異功能」（differential item functioning，DIF）一詞來代替（Holland & Thayer, 1988），意指具有相同能力但來自不同群體的學生，在試題之作答表現會有所差異。在 DIF 試題的檢測，IRT 雖有許多不同之指標或檢定法，但對二元計分的試題的 DIF 之定義皆為：來自不同群體、具有相同能力的受試者，對於特定試題具有不相等的答對率（Dorans & Holland, 1993）。也就是說，DIF 試題的反應變項 Y 具有以下性質： Pf (Y = 1|θ) ̸= Pr (Y = 1|θ),. (1). 其中 Pf (Y = 1|θ) 和 Pr (Y = 1|θ) 分別是能力同為 θ 的焦點組（focal group, f）和參照組（reference group, r）答對該試題的機率，由二者是否存在差異即可判斷 DIF 是否存在（Camilli & Shepard, 1994）。對二元計分的試題而言，(1) 相當於考. 慮以受試者答題的得分期望值時， Ef (Y |θ) ̸= Er (Y |θ),. (2). 其中 Ef (Y |θ) 和 Er (Y |θ) 分別代表能力同為 θ 的焦點組（f）和參照組（r）之受試者在該題之得分的條件期望值。兩群相同能力的受試者得分的期望值有所差 6.

(14) 異，就表示試題對此二群組存在 DIF。像 (2) 這樣的 DIF 定義可以很直覺地延伸到多元計分題。意即對於不存在 DIF 的多元計分的試題而言，能力相同的受試者答題的得分期望值均相等，不隨其性別、種族或區域之不同而有差異。在 SEM 的模型架構下，Mellenbergh(1989) 對於測量不變性的定義如下：給定潛在特質 η ，所有連續型的反應變數的條件分配在是否給定群體變數 g 時皆相等，意即 f (Y|η, g) = f (Y|η),. (3). 其中 Y = (Y1 , · · · , YJ ) 為對於 J 題的測驗之作答反應變數，f 則為 Y 的聯合機率函數。換句話說，給定潛在特質 (latent trait)η ，反應變數的條件分配不因群組之不同而有所不同。建立在如此之意涵下，測量不變性經常被使用欲將測驗工具延伸至不同文化背景或年齡層時的效度研究，去檢定當將此測驗工具施測於兩個不同組群的受試者時，若在受試者具有相同潛在能力的條件下，其測驗結果是否一致。倘若測驗結果不會因受試者之群組不同而受影響，則表示該測驗工具可被延伸使用於新的群組。這樣的定義也可以被用來探討對於不同群組，試題是否具有試題差異功能（Oort, 1992；Mellenbergh, 1985 1989）。. 2.2. MCCFA 模型. 近年來 SEM 架構下的驗證性因素分析（CFA）常被用來檢測 DIF 試題，除了將資料視為連續型而利用 CFA 所考慮的共變結構外、若再加上平均數結構，即形成平均數與共變結構模型（mean and covariance structure, MACS； Sörbom, 1974； González-Romá, Hernández, & Gómez-Benito, 2006； Stark、 Chernyshenko, & Drasgow, 2006）。離散型驗證性因素分析（Category CFA， CCFA）則是以閾值. （threshold）參數來代替原平均數結構的截距項（intercept）參數的 CFA，以處理資料是離散型的狀況。 7.

(15) 在討論多元計分的測驗中之試題是否存在 DIF 時，本研究利用的是多群組離散型驗證性因素分析（Multiple-group Categorical Confirmatory Factor Analysis，以下簡稱 MCCFA）模型。考慮一個 J 題、N 個受試者的情境，令 Yij 為受試者 i 對第 j 題多元計分試題之反應變數，假設受試者 i 屬於第 g 個群組，那麼根據 MCCFA 模型，他或她的反應變數 Yij g 滿足以下性質： Yij∗ g = λj g ηig + εij ,. (4). Yij g = c, if τj,c g < Yij∗ g ≤ τj,c+1 g ,. (5). j = 1, 2, · · · , J, i = 1, 2, · · · , N, 其中 Yij∗ g 為第 g 群組之受試者 i 對第 j 題的連續. 潛在反應變數、 λj g 為第 g 群組在第 j 題之因素負荷量（loading）、 ηig 為第 g 群組之受試者 i 之潛在特質、而 εij 則反應出非該潛在特質所能解釋的殘差部分，進一步假設此殘差不受群體變數 g 的影響且期望值為 0 （Muthén, 1985 1988）。另外 τj,c g 為第 g 群組在第 j 題之閾值，其中 τj,0 g = −∞、 τi,C g = ∞、 c = 0, 1, . . . , C − 1，C 為離散型變數 Yij 的可能取值或得分個數。舉例來說，當連. 續潛在反應變數 Yij∗ g 的值介於 τj,0 g 和 τj,1 g 之間時，根據 MCCFA 模型屬於第 g 個群組的受試者 i 在第 j 題之得分或反應 Yij 值即為 1。而 ηig 和 εij 皆假設為常態分配，且 ηig 和每個 εij 都互相獨立、εij 之間也都互相獨立且對每個受試者 i 其分配相同（Stark, Chernyshenko, & Drasgow, 2006）。特別值得一提的是模型中允許不同群組的受試者有不同的一套閾值，換言之，對於能力相同卻來自不同群組的受試者，他們的得分將會因閾值不同而有所不同。如此一來，就代表該試題存在有 DIF 的現象。更完整的說，在 MCCFA g 模型中，λgj 或 τj,c 在不同群體間不相等皆會導致 (3) 式的等號不成立，也就是測. 量不變性不成立（Kim & Yoon, 2011）。舉例來說，如果焦點組 (f) 和參照組 (r) g 兩群人在第 j 題的第一個閾值 τj,1 和因素負荷量 λgj 有所不同，則兩群人中能力. 8.

(16) 同為 η 的受試者在第 j 題會得分為 1 的機率關係如下： f f f Pf (Yij = 1|η) = P (Yij∗ f ≤ τj,1 |η) = P (λfj η + εij ≤ τj,1 |η) = P (εij ≤ τj,1 − λfj η|η) r r r ̸= Pr (Yij = 1|η) = P (Yi∗′ j r ≤ τj,1 − λrj η|η), |η) = P (εi′ j ≤ τj,1 |η) = P (λrj η + εi′ j ≤ τj,1. 雖然上式中 εij 和 εi′ j 之分配也可能因群組不同而有所不同，但在本研究所考慮 g 的 MCCFA 模型中，它們的分配假設為相同，故 λgj 或 τj,c 在不同群體間不相等 f r − λr η 的值也不相同，更進而導致兩群人中能力同為 η 的 − λfj η 和 τj,1 會造成 τj,1 j. 受試者在第 j 題會得分為 1 的機率有所不同。如此一來，至少由於第 j 題之緣故，(3) 之等式無法成立，也就是對此二群組而言測驗不具測量不變性。由上例可見，研究者可以透由 SEM 架構下對於測量不變性的檢定來檢測試題是否具有 DIF 之現象。換言之，探討一試題是否有 DIF 可換為在 MCCFA 模型下檢定多群體參數的估計值是否相等的問題。本研究會分別針對閾值和因素負荷量單獨或同時存在 DIF 的情境來探索 MCCFA 模型在檢測多元計分題之 DIF 的有效性。. 2.3. MCCFA 模型的模型辨識議題. 由於觀測到的僅為答題之離散型資料，(4)、(5) 式所述之 MCCFA 模型因參數個數過多，有模型辨識的問題。也就是說，我們可以找到無限多組的參數組 g (λgj 、η g 的期望值與變異數、εij 的期望值和變異數，τj,c 等)，使得他們所得到的. Yij 的分配都相同。所以根據所觀測到的資料，無法辨識 MCCFA 模型的所有參. 數。因此 MCCFA 模型在做參數估計的時候，必須要對模型中的某些參數做限制。要注意的是，若給了太多的參數限制，可能會讓參數解無解；若給的參數限制過少，會讓參數有無限多組解，則仍會存在無法辨識的問題，所以在選擇參數限制時，希望給定的參數限制剛剛好，讓模型恰好可以只有一組參數解。 9.

(17) 由於在此想要用 MCCFA 模型來檢驗 DIF，因此除了讓模型可以辨識的參數限制外，還有檢驗 DIF 所需的參數限制需要一併考慮，將在第 3.3 節寫出在同時考慮兩種參數限制的情況下，詳細的限制式如何。. 10.

(18) 3 DIF 檢測方法 3.1. 基線模式. 現有檢定某一試題是否有 DIF 的想法大致上為：將數據分別配適一該題有 DIF 的模型，與一該題沒有 DIF 的模型，比較兩者的配適好壞來決定該試題是. 否有 DIF。根據這兩個配適模型對於其他題的假設，可以將這些檢測 DIF 的方法分成兩類：基線模式開放法（free baseline）和基線模式限制法（constrained baseline）。. 在檢定其中一題是否有 DIF 時，其他試題若不限制是否有 DIF，意即不限 g 制其他題的因素負荷量參數 λgj 和閾值參數 τj,c 在群體變數 g 不同時是否相等，. 讓他們可被自由估計，則為基線模式開放法（Stark, Chernyshenko, & Drasgow, 2006）；反之若檢測一試題是否有 DIF 時，限制其他試題都沒有 DIF，則為基線. 模式限制法，此方法普遍應用於檢定測量不變性（Drasgow & Kanfer, 1985）。由於在實際應用上，在進行某題的 DIF 檢驗前，並不會知道其他題是否有 DIF，因此基線模式開放法比起基線模式限制法，為一較具彈性且符合實際情況的方法，故本文採用基線模式開放法。然而在進行 DIF 檢測前，必須對不同群體先建立試題或問卷的共同量尺（common metric），沒有共同量尺就無從比較不同群體對於試題之反應（何宗岳，2011）。因此基線模式開放法在估計之初，必須先設定參照（reference），假設參照試題對不同群體的受試者不存在 DIF，這些題目就是所謂的配對或定錨題（Lubke & Muthén, 2004）。然而如果指定的定錨題是具有 DIF 的試題，自然將影響後續 DIF 檢測的結果。由於此種先行設定參照作為定錨之方式，往往無法完全確定該參照並非 DIF 試題，目前部分研究採最高因素負荷量定錨法，亦即認為試題在潛在因素上具有最高因素負荷量者，DIF 之可能性最低（Sörbom, 11.

(19) 1982）。Wang 和 Shih（2009）與 Shih 和 Wang（2009）則認為在使用 DIF 檢測方. 法之前，應該先找出無 DIF 的試題作為定錨題，以確保 DIF 檢測的效果。由於調查不同參照試題之選擇對 DIF 檢測的影響並非本研究之重點，故僅考慮在利用基線模式開放法來檢測 DIF 試題時，正確挑選到參照試題的情境。. 3.2. 二階段分析程序. 過去在檢測一個試題是否有 DIF 時，會直接針對資料分別配適有 DIF 和無 DIF 的模型，比較兩者的適配程度，若結果未達顯著則認為該題有 DIF。但是若. 一開始資料就不符合允許不同群體有不同試題參數所配適之模型，直接用上述的程序檢驗看該題是否有 DIF 未必非常恰當。為了改善此缺點，本研究的 DIF 檢測方法採兩階段分析：第一階段先檢驗模型是否配適資料；對於第一階段通過配適度檢驗的數據才進行第二階段的 DIF 檢驗。以下依次介紹兩階段分析的步驟。在第一階段的分析，考慮檢測模型是否配適資料。常用的適配度指標有卡方統計量（Chi-P）、近似誤差均方根（RMSEA, root-mean-square error of approximation）、加權均方根殘差（WRMR, weighted root-mean-square residual）、. 比較適配指標（CFI）等，每個配適度指標都有相對應的適配標準。本研究所使用之適配標準參考 Kim 與 Yoon（2011）的設定，各適配度指標的接受域如下：（1）Chi-P ≥ 0.05，（2）RMSEA ≤ 0.05，（3）WRMR ≤ 0.95，（4）CFI ≥ 0.96。在本階段的分析中，當四個配適度指標的值都落於接受域內，才不拒絕模型配適資料的假設；亦即只要有一個檢定統計量的值落於接受域外，則拒絕模型配適資料的假設。對於該筆資料將不進行第二階段的分析。換句話說，在進行分析時，我們只考慮通過第一階段分析之資料，意即在允許不同群體有不同試題參數所配適之模型配適該筆資料時，我們才對個別的試題進行 DIF 檢測。故本研 12.

(20) 究之結論考慮及適用於通過第一階段分析的資料。在第二階段的分析，檢測某試題是否存在 DIF。常用的檢定 DIF 試題的方法有：卡方差異檢定、近似誤差均方根 (RMSEA)、訊息標準法（information criteria，如 AIC、BIC 等）、概度比檢定（LRT，likelihood-ratio test）。其中卡方. 差異檢定及概度比檢定，其概念分別為比較兩個互為巢套（nested）關係的模型的配適度差異或概度之比值是否達到顯著。倘若將多元計分試題之作答視為連續型資料，忽略其為離散之特性，可假設資料遵從多維常態以進行參數估計及後續之檢定。大部分文獻中使用卡方差異檢定及概度比檢定來做多分題之 DIF 檢測時，多利用將資料視為連續之假設（Stark, Chernyshenko, & Drasgow, 2006）。而 MCCFA 為結構方程模式的特例，在結構方程模式中處理離散型資料. 較常用的估計法時，加權最小平方法（weighted least square, WLS）不需多元常態分配的假設（蔡良庭，楊志堅，王文中，施慶麟，2008）。但一般 WLS 法需要相當多的樣本數才能讓估計穩定，Muthén、du Toit 和 Spisic（1997）發現樣本數大於 400 時，使用較省時的 WLSMV（weighted least squares mean and variance adjusted）估計方法和一般 WLS 法的估計效果差不多，故本研究使用 WLSMV. 估計法。一般而言，WLS 法在進行估計時，其離差函數為 F = [S − Σ(ˆ κ)]′ W−1 [S − Σ(ˆ κ)],. (6). 其中 S 是由樣本所得到的共變異數矩陣元素組成的向量，Σ(ˆ κ) 則是由模型的 ˆ 所形成的變異數矩陣元素組成的向量。當處理資料為離散型參數估計值向量 κ. 時，共變異數矩陣則由閾值及二分變項四分相關（tetrachoric correlation）或多序類相關（polychoric correlation）所取代。在本研究中，κ 包括 MCCFA 模型 (4)、 (5) 中所有參數，意即 κ = (λj , τj,c , E(η g ), Var(η g ), E(ε), Var(ε))′ 。而 WLSMV 所考. 慮之加權矩陣 W（weight matrix, Asparouhov & Muthén, 2006）則是特別針對平均數及變異數進行過修正（mean and variance adjusted），而非一般利用參數估計值 13.

(21) 之漸近共變矩陣（asymptotic variance-covariance matrix）為 W−1 的 WLS 法。 Satorra 和 Bentler （1994）與 Muthén （1993）指出在 WLSMV 法下的統計量 T = N F ，在經過平均數修正或平均數及變異數修正之後，可以被利用來做模型. 之比較檢定。更確切地說，利用 cˆ 這個調整因數（scaling factor）進行修正後， Satorra-Bentler（SB）統計量 T¯ = T /ˆ c 可以用來做 WLSMV 模型下的配適度檢定 (Satorra & Bentler， 1994 )。而可利用 T 來定義的強韌性卡方差異檢定統計量. （Robust χ2 -difference test statistic）則可以用來進行巢套模型的比較檢定（Satorra & Bentler, 2001）。以下介紹強韌性卡方差異檢定統計量及其漸近分布。. 首先令 M0 和 M1 為巢套關係的模型，其自由度分別為 r0 和 r1 （r0 > r1 ），而在虛無假設模型 M0 和對立假設模型 M1 下的 WLSMV 之離差函數分別為 T0 = [S − Σ(κˆ0 )]′ W−1 [S − Σ(κˆ0 )]��. (7). T1 = [S − Σ(κˆ1 )]′ W−1 [S − Σ(κˆ1 )],. (8). ˆ i 是 Hi 模型中的所有參數估計值所形成的向量。其中 κ. 第二階段分析所使用的強韌性卡方差異檢定統計量 T¯d 為 Td r0 cˆ0 − r1 cˆ1 T¯d := , c¯d := , c¯d r0 − r1. 其中 cˆ0 和 cˆ1 分別是 T0 和 T1 的調整因數，以及 Td = T0 − T1 , T0 = cˆ0 T¯0 , 和T1 = cˆ1 T¯1 �. 在虛無假設成立的情形下， T¯d 的漸近分配為自由度是 r0 − r1 的卡方分配（Satorra & Bentler, 2001）。 Mplus 軟體中的 Difftest 函數可以被用來進行上述巢套模型之強韌性卡方差異檢定（Asparouhov & Muthén, 2006； Kim & Yoon, 2011），所以本研究在第二階段即利用 Mplus 軟體來來檢測一試題是否有 DIF。 14.

(22) 在檢測試題是否有 DIF 時，所利用的巢套模型 M0 和 M1 僅在欲檢測是否有 DIF 的試題參數的限制上有所不同，其中限制較多的模型假設 M0 該試題參數在. 多群體間必須相同（即該題無 DIF），模型 M1 則允許該試題之參數在不同群體間均可以任意估計 (即容許該題有 DIF)。由第二章 MCCFA 模型中 DIF 的定義，研究者可以分別針對閾值和因素負荷量單獨或同時存在 DIF 的情境，考慮第 j 題是否有 DIF。也就相當於考慮以下三種檢定： 1. 因素負荷量 DIF-λ：H0 : λrj = λfj 相對於 H1 : λrj , λfj 自由估計 2. 閾值 DIF-τ ：H0 : τj,c r = τj,c f 相對於 H1 : τj,c r , τj,c f 自由估計 3. 因素負荷量或閾值 DIF：H0 : (λj r , τj,c r ) = (λj f , τj,c f ) 相對於 H1 : λgj , τi,c g 自. 由估計雖然本研究考慮在多元計分題資料單獨或同時存在閾值和因素負荷量的 DIF 的情境下，利用強韌性卡方差異檢定去檢測 DIF 的有效性，所以在生成模擬資料時，允許各種不同的 DIF 形式。但是在進行檢測 DIF 時，我們參考 Stark 等人（2006）的作法，僅進行上面的同時考慮閾值和因素負荷量的第三種檢定，原因是不管是閾值還是因素負荷量存在 DIF，我們都希望能偵測出具有 DIF 的試題，故只要兩者之一具有 DIF，都可以由第三種檢定檢測出來，故本研究採用該法。. 3.3. 本研究的 MCCFA 模型的基線模式策略及參數限制. 由於觀測到的僅為答題之離散型資料，MCCFA 模型因參數個數過多，有模型辨識的問題。換句話說，不同的參數組 κ 可以得到相同的 Yij 的分配，故為了讓模型之參數可辨識，需要加入參數限制才能使模型恰可辨識。在只有單一群體的 CCFA 模型中，常用的參數限制是對所有的 j = 1, 2, · · · , J ，令 (4) 式的 Var(Yjg ) = 1，或者 Var(εj ) = 1。前面的限制式法稱為 ∆ 參數化表示法（∆ 15.

(23) parameterization），後面的限制式法稱為 θ 參數化表示法（θ parameterization）。. 在 Mplus 軟體中，特別區分出這兩種不同的參數化方法（Muthén & Muthén， 1998-2012）。從參數化的角度來看，這兩種設定只是參數化表示法不同，讓模型. 在不同的量尺上做運算，兩者間有一轉換關係式。舉例來說，Stark 等人（2006）利用以下參數來生成多元計分題資料： E(εij g ) = 0, ∀j = 1, · · · , J, ∀i = 1, · · · , N , ∀g = r, f ,. (9). E(ηi r ) = 0, ∀i = 1, · · · , N. (10). Var(εij g ) = 1 − λj g 2 , ∀j = 1, · · · , J, ∀i = 1, · · · , N , ∀g = r, f ,. (11). Var(ηi g ) = 1, ∀i = 1, · · · , N , ∀g = r, f .. (12). 值得注意的是，其中由 (11) 式，可以得到 Var(Yjg ) = 1，換句話說，這些參數為 ∆ 參數化表示法。但是，雖然資料是利用 ∆ 參數化表示法下的參數來生成，在. 實際分析資料時，Stark 等人（2006）將資料視為連續型資料，利用 MG-MACS 模型、而非 MCCFA 來進行試題之 DIF 檢測。為了方便比較研究之結果，本模擬使用與 Stark 等人（2006）相同的參數設定來生成資料。相較起只有單一群體的 CCFA 模型模型，MCCFA 模型為一較複雜的結構方程模式，除了引入閾值參數 τ 來描述可觀測到的離散型變數 Y 和潛在的連續型變數 η 的關係外，還需要讓各群體有各自的參數來描述群體間的不同。如此一來，會有引入過多參數的問題。單純只限制 Var(Yjg ) = 1 或 Var(εj ) = 1，顯然不足以讓 MCCFA 模型達到恰可辨識。延續 2.3 節的討論，在 MCCFA 模型中，除了 ∆ 法或 θ 法之外，還要再對模型參數進行更多限制，以讓模型可以辨識。另外由於本研究利用基線模式開放 16.

(24) 法，故需要限定參照試題，意即該試題在不同群體之試題參數相同，才能建立試題的共同量尺以對不同群體的試題反應進行比較。首先由於 Mplus 軟體在利用 WLSMV 進行參數估計及後續的強韌性卡方差異檢定時，皆是採用 θ 參數化表示法，也就是說，對所有的 j = 1, 2, · · · , J ，限制 Var(εj ) = 1，所以本文考慮 θ 參數化表示法的 MCCFA 模型來做估計和檢定。另外配合 DIF 檢測時的基線模式開放法所需的參數限制。本研究所使用的參數限制為 E(εij g ) = 0, ∀j = 1, · · · , J, ∀i = 1, · · · , N , ∀g = r, f ,. (13). E(ηi r ) = 0, ∀i = 1, · · · , N. (14). Var(εij g ) = 1, ∀j = 1, · · · , J, ∀i = 1, · · · , N , ∀g = r, f ,. (15). λ1 g = 1, ∀g = r, f,. (16). τ1,1 r = τ1,1 f .. (17). 其中 (15) 式即 θ 參數化表示法。由 (16) 及 (17) 可知，我們限制第一題為參照試題，假設對該題而言，不同群體之因素負荷量及第一個閾值參數相等。而在生成資料時，第一題為無 DIF 之試題，意即考慮在利用基線模式開放法來檢測 DIF 試題時，正確挑選到沒有 DIF 的參照試題的情境。. 接下來的章節，我們採用這樣的參數限制進行模擬研究，以了解在各種情境下強韌性卡方差異檢定在 DIF 檢測的表現。. 17.

(25) 4. 模擬研究設計本模擬研究主要在探討在多群組離散型驗證性因素分析模型下，利用強韌. 性卡方差異檢定來檢測多元計分題之 DIF 時之檢定力和型一誤差的狀況。所考慮及操弄的可能影響檢測有效性的因素分別有樣本數、群組之平均潛在能力差異、DIF 類型、DIF 強度、DIF 比例等五種，並考慮在檢測 DIF 時是否需採用 Bonferroni 修正，以了解在各種情境下強韌性卡方差異檢定在 DIF 檢測之正確率. 和錯誤率的表現。因為在目的及討論之影響檢測之因素與 Stark 等人（2006）極為相似，最大不同僅在分析時將資料視為連續（MACS）和離散上（CCFA）的差別，故生成資料的試題參數值直接採用該研究中的參數值（參考表 (2)），測驗長度固定為 15 題，且為 C = 5 之多元計分題。以下分別就各因素之研究設定進行說明： 1. 樣本數. 分別針對焦點組（f）和參照組（r），各有 250、500、和 1000 三種不同的樣本數，這些樣本數的選擇是希望分別能代表或模擬實務應用上小樣本、中樣本、和大樣本的情形。 2. 群組之平均潛在能力差異. 群組之平均潛在能力之差異（impact）有無之情形皆將考慮，無 impact 條件下，η r 和 η f 之分配都假設為標準常態，意即 η ∼ N (0, 1)；而存在 impact 條件下，則設定 η r ∼ N (0, 1), η f ∼ N (−0.5, 1)，換句話說，兩群組之平均潛在能力差異為 0.5，且焦點組之平均潛在能力較差。 3. DIF 類型. 將考慮三種不同的 DIF 類型，包括只有因素負荷量 λ 有 DIF、只有閾值 τ 18.

(26) 有 DIF、以及因素負荷量和閾值都有 DIF，此設定與 Stark 等人（2006）相同。在只有 λ 有 DIF 的條件下，是將參照組的 DIF 試題之 λr 減去一正數來當作焦點組之 λf ；在只有閾值 τ 有 DIF 的條件下，則是將參照組的 DIF 試題之閾值 τ r 的加上一正數來當作焦點組之閾值 τ f ，換言之，在兩群組無 impact 的條件下，在閾值有 DIF 的試題之得分，焦點組平均較參照組為低，也就是試題較有利或偏袒於參照組，不利於焦點組；而在因素負荷量和閾值都有 DIF 的條件下，則是同時進行上面所提之設定。 4. DIF 強度. 參考 Stark 等人（2006）在 DIF 強度之設定，我們操弄兩種不同的 DIF 強度，分別為小 DIF 以及大 DIF。其中小 DIF 指的是兩群組因素負荷量之差 f r = 0.25, ∀c；而異設定為 λf − λr = −0.15、對所有閾值之差異均為 τj,c − τj,c. 大 DIF 指的則是兩群組因素負荷量之差異設定為 λf − λr = −0.40、閾值之差異為 τ f − τ r = 0.50。由此可知在 DIF 設定上，焦點組之因素負荷量較參照組小，而它的閾值則較大。 5. DIF 比例 Stark 等人（2006）在 15 題中固定有 4 題有 DIF（第 3,7,11,15 題），而 Kim. 和 Yoon（2011）與 Elosua（2011）則僅考慮恰有一 DIF 試題之情境，這些研究皆未在 DIF 比例之設定進行操弄。事實上， Kim 和 Yoon （2011）與 Elosua（2011）未考慮增加 DIF 試題或許是顧慮到在基線模式限制法的設. 定下，增加 DIF 試題可能會對檢測之有效性產生很大影響。本研究所採用的基線模式開放法與 Stark 等人（2006）相同，我們預測在此設定下增加測驗中 DIF 試題的比例應該對檢測之有效性不會產生太大影響，但仍值得對此進行調查。故考慮四種不同的 DIF 試題數目，也就是說在 15 題中分別 19.

(27) 有 1 題、2 題、3 題、4 題有 DIF，換言之，DIF 比例分別為 1/15、2/15、 3/15、和 4/15。舉例來說，當 DIF 比例為 1/15 時，只有第 3 題有 DIF；而. 當 DIF 比例為 2/15 時，第 3 題、第 7 題是 DIF 試題，依此類推。綜合上述設定，存在 DIF 情境下共有 3 × 2 × 3 × 2 × 4 = 144 種不同的條件來生成受試者之作答資料，以用來探討各種情境下強韌性卡方差異檢定在 DIF 檢測之正確率和錯誤率的表現。這種情境下的正確率指的是能正確檢測出具有 DIF 之試題，此將反應應用強韌性卡方差異於 DIF 檢定之檢定力。而錯誤率則. 是將沒有 DIF 之試題誤判為具有 DIF，在基線模式開放法設定下，這可以反應出在測驗中有 DIF 試題的情境下，對於沒有 DIF 之試題在利用強韌性卡方差異於 DIF 檢定之型一誤差。倘若在基線模式限制法下，此錯誤率則不適合當作型一誤差之估計來看，因為已有 Kim 和 Yoon（2011）和 Elosua（2011）中的基線模式被錯誤設定（misspecified）的問題。為了進一步了解利用多群組離散型驗證性因素分析模型下，利用強韌性卡方差異檢定來檢測多元計分題之 DIF 的型一誤差，另外也利用在不同之樣本數和群組之平均潛在能力差異的情境下之 3 × 2 = 6 種沒有 DIF 試題之條件組合來生成資料，調查這種情境下的檢測錯誤率，以作為實務上此法可能之型一誤差大小的參考。對於上述不論是有無 DIF 試題的情境下的每種條件組合，都重複作 100 次試驗。而在檢測 DIF 時，再考慮是否需要經 Bonferroni 調整，意即直接使用顯著水準 α = 0.05 來當作強韌性卡方差異檢定下試題是否有 DIF 的標準，或者是使用對題數調整過的 Bonferroni 顯著水準 α = 0.05/14 來當作 DIF 檢測標準。其中 Bonferroni 調整是因為每筆多元計分資料扣掉當參照的第一題，共檢測 14 題試題，希望能控制整筆資料檢定 DIF 的型一誤差。比較這兩種不同的顯著水準下，強韌性卡方差異檢定來檢測多元計分題之 DIF 表現，以了解未來在檢測 DIF 之實務上是否有進行 Bonferroni 修正之必要。 20.

(28) 21. 0.66 -1.42. 0.83 -1.69. 2. 3. all. 0/15. 6. 7. 0 ~ 1/15. 11. -0.27. 0.48. 0.80 0.86. 0.84. 0.85. -1.32. -1.35. -1.19. -0.62. -0.54. -0.38. -0.63. -0.27. -0.14. -0.03. -0.26. 0.48. 0.80. 0.86. 0.56. 0.86. 0.84. 0.85. 0.80. -1.32. -1.35. -1.19. -1.51. (-1.27). [-1.02]. -1.52. -1.54. -1.57. -1.18. (-1.48). [-1.23]. -1.73. -1.72. -1.56. -1.28. (-1.44). [-1.19]. -1.69. -1.42. -1.21. (-0.37). [-0.12]. -0.62. -0.54. -0.38. -0.63. (-0.48). [-0.23]. -0.73. -0.91. -0.78. -0.42. (-0.69). [-0.44]. -0.94. -0.84. -0.82. -0.46. (-0.73). [-0.48]. -0.98. -0.50. -0.57. τ2. (-0.02). [0.23]. -0.27. -0.14. -0.03. -0.26. (-0.02). [0.23]. -0.27. -0.48. -0.30. -0.07. (-0.23). [0.02]. -0.48. -0.34. -0.37. -0.14. (-0.17). [0.08]. -0.42. -0.06. -0.26. τ3. (0.73). [0.98]. 0.48. 0.80. 0.86. 0.56. (0.97). [1.22]. 0.72. 0.33. 0.71. 0.77. (0.61). [0.86]. 0.36. 0.70. 0.54. 0.61. (0.89). [1.14]. 0.64. 1.11. 0.42. τ4. [-1.19]. -1.69. -1.42. -1.21. τ1. [-1.23]. -1.73. -1.72. -1.56. -1.28. [-1.02]. -1.52. -1.54. -1.57. -1.18. [-0.82]. -1.32. -1.35. -1.19. -1.51. (0.71) (-1.07). [0.46]. 0.86. 0.84. 0.85. 0.80. (0.67) (-1.27). [0.42]. 0.82. 0.85. 0.85. 0.80. (0.43) (-1.48). [0.18]. 0.58. 0.68. 0.77. 0.71. (0.68) (-1.44). [0.43]. 0.83. 0.66. 0.90. λ. (-0.37). [-0.12]. -0.62. -0.54. -0.38. -0.63. (-0.48). [-0.23]. -0.73. -0.91. -0.78. -0.42. (-0.69). [-0.44]. -0.94. -0.84. -0.82. -0.46. (-0.73). [-0.48]. -0.98. -0.50. -0.57. τ2. (-0.02). [0.23]. -0.27. -0.14. -0.03. -0.26. (-0.02). [0.23]. -0.27. -0.48. -0.30. -0.07. (-0.23). [0.02]. -0.48. -0.34. -0.37. -0.14. (-0.17). [0.08]. -0.42. -0.06. -0.26. τ3. λ 和 τ 都有 DIF. focal group. τ4. (0.73). [0.98]. 0.48. 0.80. 0.86. 0.56. (0.97). [1.22]. 0.72. 0.33. 0.71. 0.77. (0.61). [0.86]. 0.36. 0.70. 0.54. 0.61. (0.89). [1.14]. 0.64. 1.11. 0.42. all 代表所有 DIF% 的狀況 (DIF% 為 0 ~ 4/15)，其中 DIF%=0% 即沒有 DIF 的狀況；中括弧 [ ] 代表大 DIF 時的參數值、小括弧 ( ) 代表小 DIF 時的參數值。. (-1.07). -0.62. -0.14. 0.86. -1.51. 0.82. 0.85. 0.85. 0.80. 0.58. 0.68. 0.77. 0.71. 0.83. 0.66. 0.90. τ1. (0.71). 0.86 -1.32. -0.54. -0.03. 0.80. 0.72. 0.33. 0.71. 0.77. 0.36. 0.70. 0.54. 0.61. 0.64. 1.11. 0.42. λ. 4/15. 15. 0 ~ 3/15. 0.84 -1.35. -0.38. 0.56. -0.27. -0.48. -0.30. -0.07. -0.48. -0.34. -0.37. -0.14. -0.42. -0.06. -0.26. τ4. [-0.82]. 14. all. 0.85 -1.19. -0.26. -0.73. -0.91. -0.78. -0.42. -0.94. -0.84. -0.82. -0.46. -0.98. -0.50. -0.57. τ3. [0.46]. 13. all. -0.63. -1.52. -1.54. -1.57. -1.18. -1.73. -1.72. -1.56. -1.28. -1.69. -1.42. -1.21. τ2. 只有 τ 有 DIF. 只有 λ 有 DIF τ1. focal group. focal group. 4/15. 12. all. 0.80 -1.51. 0.82. (0.67). 0.72. 0.85. 3 ~ 4/15. -0.27. 0.33. [0.42]. -0.73. -0.48. 3 ~ 4/15. 0.82 -1.52. -0.91. 0.85. 0 ~ 2/15. 0.85 -1.54. 0.71. 10. -0.30. all. -0.78. 9. all. 0.85 -1.57. 0.80. 8. all. 0.58. 0.68. (0.43) 0.77. 0.36. 0.70. 2 ~ 4/15 -0.07. -0.48. -0.34. 0.54. [0.18]. -0.42. -0.94. -0.84. -0.37. 2 ~ 4/15. 0.80 -1.18. 0.58 -1.73. 0.68 -1.72. -0.82. 0.77. all. 0.77 -1.56. 0.61. 5. -0.14. all. -0.46. 0.71. 0.71 -1.28. 4. all. 0.83. 0.66. 0.90. λ. (0.68). 0.64. 1.11. 0.42. τ4. 1 ~ 4/15. -0.42. -0.06. -0.26. τ3. [0.43]. -0.98. -0.50. -0.57. τ2. 1 ~ 4/15. 0.90 -1.21. 1. τ1. all. λ. 題號. DIF%. reference group. 表 2: 生成資料的參數設定 (Stark 等人的).

(29) 模擬研究結果. 5. 本章呈現在第四章所述的情境下的模擬結果，目的為探討樣本數、群組之潛在能力變異、DIF 類型、DIF 強度、DIF 比例共五個因子改變時，哪些因子的水準 (level) 下，能有較好的 DIF 檢驗效果；亦即希望無 DIF 試題被錯誤檢測為 DIF 試題的比例低、DIF 試題被正確檢測為 DIF 試題的比例高。將先以表格觀. 察錯誤率與正確率在各因子下的整體表現，再利用多因子變異數分析搭配折線圖，更明確的呈現各因子間交互作用項或主要因子的統計顯著性。操作方式依照第四章所述的 6+144 種情境生成 100 筆以上的數據，經過第一階段的分析後留下 100 筆通過模型適合度檢驗的數據進行第二階段的 DIF 檢驗，兩階段的分析皆使用 Mplus 軟體。. 5.1. 錯誤率. 錯誤率的定義為無 DIF 試題被錯誤檢測為 DIF 試題的比例。對 6+144 種情境的每種情境，皆計算 100 筆數據的所有無 DIF 試題被檢測為 DIF 試題的比率。舉例來說，在 DIF 比例為 0/15 的情境下，扣除在基線模式開放法中限制第一題的因素負荷量在兩群要相等 (見 (16) 式) 後，共有 14 題無 DIF 試題，綜合 100 筆模擬數據，共有 1400 題，若這 1400 題的結果中共有 97 題檢定為有 DIF，則錯誤率為 97/1400 = 0.069。同理，若在 DIF 比例為 4/15 的情境下，扣除第一題與 4 題 DIF 試題後，共有 10 題無 DIF 試題，經 100 筆模擬數據共有 1000 題，若其中有 73 次檢定為有 DIF，則錯誤率為 73/1000 = 0.073。本研究令第二階段的強韌性卡方差異檢定法之顯著水準 α = 0.05，在決定單一試題是否有 DIF 的時候，採取直接利用 α = 0.05 以及經 Bonferroni 調整兩種做法來做決策。以下分成 DIF 比例為 0(無 DIF 情境) 和 DIF 比例不為 0(有 DIF 情境) 兩種情況，來探討哪些因子會影響錯誤率的大小。 22.

(30) 表 3列出在樣本數和群組之平均潛在能力差異這兩個因子的六種因子水準組合下的各自 100 筆模擬數據的錯誤率平均，並且同時呈現未調整的、和經 Bonferroni 調整的結果。當 DIF 比例為 0 時，所有的試題都沒有 DIF，因此不需. 探討 DIF 類型和 DIF 強度這兩個因子。在未經 Bonferroni 調整的情境下，錯誤率皆在 0.059 和 0.069 之間；在經 Bonferroni 調整的情境下，錯誤率也皆在 0.004 和 0.010 之間。大致上看來錯誤率並不隨樣本數多寡與是否有群組之平均潛在能力差異而改變，當實際資料的 DIF 比例不為 0 時，未經 Bonferroni 調整、和經 Bonferroni 調整的情況下，第四章所述的五個因子的 144*2 個因子水準組合下的錯誤率見表 4。表 4顯示，在未經 Bonferroni 調整時，錯誤率大致上介於 0.05 至 0.08 之間，. 值皆稍微超過 0.05。經 Bonferroni 調整後錯誤率則介於 0.00 至 0.01 之間。進一步將上述 144 個因子水準組合依照因子做分類，將分到同一類的錯誤率再進行平均，結果如表 6，發現未經 Bonferroni 調整的情況下，錯誤率在單因子下的平均皆在 0.06 至 0.07 之間；經 Bonferroni 調整的情況下，錯誤率在單因子下的平均皆在 0.01 左右。. 5.2. 正確率. 正確率的定義為實際上有 DIF 的試題真的被檢測為 DIF 試題的比例。在第四章所述的 6+144 種情境中，只對後 144 種情境，即生成資料時至少有一題有 DIF 的情況探討正確率：對每種情境下的 100 筆數據，計算所有 DIF 試題被檢. 測為 DIF 試題的比率。舉例來說，若在 DIF 比例為 2/15 的情境下，第 3 題、第 7 題為 DIF 試題，經 100 次模擬數據共有 200 題，若其中有 130 題被檢定為有 DIF，則正確率為 130/200 = 0.65。. 表 5包含未經 Bonferroni 調整、和經 Bonferroni 調整的情況下，144 個因子水 23.

(31) 準組合下的正確率。進一步依照因子做分類，將分到同一類的正確率再進行平均，結果也放在表 6。比較表 5或觀察表 6，可發現各因子下，以「經 Bonferroni 調整的顯著水準 α」算出的正確率皆明顯低於以「未經 Bonferroni 調整的顯著水準 α」算出的正確率。而且在部分條件下，後者之正確率顯得太低，例如在樣本數為 (250,250)、impact 類型為無 impact、DIF% 為 2/15、DIF 大小為小 DIF、 DIF 類型為只有 λ 有 DIF 的情境下，未經 Bonferroni 調整下之正確率為 0.87，而. 經 Bonferroni 調整後的正確率卻只有 0.59。實際上，Bonferroni 調整本來就會造成錯誤率與正確率同時降低，但是因以「未經 Bonferroni 調整的顯著水準 α」算出的錯誤率不會超出 0.05 過多，但「經 Bonferroni 調整的顯著水準 α」算出的正確率卻有明顯降低的情況，故使用 Bonferroni 調整似乎過度保守。故本研究為了獲得更高的正確率，會先剔除「經 Bonferroni 調整」的所有狀況後才做多因子變異數分析。. 5.3. 多因子變異數分析. 以下將分別針對 DIF 比例不為 0 狀況下的錯誤率與正確率，進行本模擬研究的五個因子的多因子變異數分析，希望了解五個因子、或更高階的因子間的交互作用對於錯誤率和正確率的大小的影響。為方便起見，將以下因子搭配相應代號來解釋：樣本數 (N)、群組之平均潛在能力差異 (I)、 DIF 類型 (T)、 DIF 強度 (A)、DIF 比例 (P)。另外因錯誤率、正確率的分配為二項分配，與多. 因子變異數分析中期望值與變異數必須獨立的假設矛盾，本研究先將正確率和錯誤率進行 arcsin 轉換方式，也就是說，若原錯誤率或正確率為 p， arcsin 轉 √. 換過的錯誤率或正確率則為 arcsin( p)。換言之，變異數分析中的相依變數為 √. arcsin( p)，如此一來，就能更符合進行變異數分析時所需要的假設。在各因子對錯誤率的影響的部份，放入所有高階交互作用項的多因子變異數 24.

(32) 分析結果如表 7，結果顯示僅二階交互作用項 N:T 與一階項 N、I 為顯著，再利用做因子 N 與 T 的交互作用項、與主因子 I 的效果呈現在在折線圖 1上來顯示它們對錯誤率的影響。由圖 1左邊的 N:T 交互作用圖可以看出在任一 DIF 類型 (T) 下，錯誤率皆隨樣本數 (N) 提升而降低 (但不明顯)。樣本數為 (250,250) 時， DIF 類型的變化不會對錯誤率有明顯影響；樣本數為 (500,500) 時，DIF 類型為. 「只有 λ」有 DIF 和「λ 和 τ 皆有 DIF」的錯誤率相近，「只有 τ 有 DIF」的錯誤率則略低於此兩者；樣本數為 (1000,1000) 時，DIF 類型為「只有 λ」有 DIF 和「λ 和 τ 皆有 DIF」的錯誤率仍相近，「只有 τ 有 DIF」的錯誤率則略高於此兩者。圖 1右邊的因子 I 的主效果圖則顯示「有群組之平均潛在能力差異」的錯誤率比「無群組之平均潛在能力差異」的錯誤率略高。以上錯誤率隨樣本數增加而降低的狀況正如預期；錯誤率不隨群組之平均潛在能力差異有明顯改變的特性則與 Stark 等人（2006）的研究結果類似。在各因子對正確率的影響的部份，因各因子正確率計算方式與錯誤率不同，將各因子代號重新命名為：樣本數 (Np)、群組之平均潛在能力差異 (Ip)、DIF 類型 (Tp)、DIF 強度 (Ap)、DIF 比例 (Pp)。放入所有高階交互作用項的多因子變異數分析結果如表 8，其中顯示三階交互作用項 Np:TP:Ap、二階交互作用項 Np:TP、 Np:Ap、 TP:Ap、一階項 Np、 Tp、 Ap 皆顯著，故只觀察 Np:TP:Ap 折線圖 (如圖 2) 下各因子表現。首先可發現轉換過的正確率的值大於 1，上界約為 1.6 左右。這是因為正確率的最大值（1.000）經過 arcsin 轉換後的值即為 1.570796。圖 2的左圖為 Ap 是小 DIF 時，Tp 和 Np 的交互作用圖，由此可以看. 出無論 Tp 如何變化，正確率皆隨 Np 加而上升。圖 2的右圖為 Ap 是大 DIF 時， Tp 和 Np 的交互作用圖，雖然只有 Tp 為「只有 τ 有 DIF」、且 Np 由 (250,250). 增加至 (500,500) 時正確率提升，但這是因為已觸碰到經 arcsin 轉換過的正確率的最大值 1.570796 所致，故可預期在任一 Ap、Tp 組合下，正確率均會隨 Np 增 25.

(33) 加而上升。同理可發現，Tp 為「只有 λ 有 DIF」和「λ 和 τ 都有 DIF」的正確率在每個 Np 下幾乎相等，唯「只有 τ 有 DIF」的正確率在 Tp 為大 DIF、Np 為 (500,500)、(1000,1000) 以外才明顯低於其他兩個 DIF 類型的正確率，可預期此時. 也是因正確率已達最大值所致。最後比較圖 2的左右兩圖，即 Ap 由小 DIF 改變為大 DIF 時，可發現任一 Np、Tp 組合下正確率均明顯上升。以上正確率在其他因子固定下，隨樣本數（Np）增加而上升、隨 DIF 強度（Ap）增強而上升的狀況亦如預期。若直接觀察表 5，並搭配表 6可看出正確率會隨 DIF 大小、樣本數增加而增加、受 impact 影響不大、會隨 DIF% 不同變動卻無特別趨勢，而 DIF 種類中因素負荷量 λ 和閾值 τ 都有 DIF 的正確率通常會略高於只有因素負荷量 λ 有 DIF 的正確率。僅在小 DIF、有 impact、樣本數為 (250,250) 的 4 個情況，前者才略低於後者，兩者的正確率皆明顯高過只有閾值 τ 有 DIF 的正確率。. 26.

(34) 表 3: 無 DIF 情境下的錯誤率顯著水準 (α) 類型 impact. 樣本數. 未調整的 α 值經 Bonferroni 調整的 α 值. 無. (250,250). 0.069. 0.006. 無. (500,500). 0.068. 0.006. 無. (1000,1000). 0.059. 0.010. 0.5 SD. (250,250). 0.064. 0.008. 0.5 SD. (500,500). 0.064. 0.007. 0.064. 0.004. 0.5 SD (1000,1000). 27.

(35) 表 4: 有 DIF 情境下的錯誤率. α 值未經 Bonferroni 調整 α 值經 Bonferroni 調整 DIF 類型 DIF% 1/15. 2/15. 3/15. DIF 大小. Impact. 人數. 小 DIF. 無. (250,250). 小 DIF. 無. 小 DIF. DIF 類型. λ和τ. λ. τ. λ和τ. 0.07 0.07. 0.08. 0.01. 0.01. 0.01. (500,500). 0.07 0.06. 0.07. 0.01. 0.01. 0.01. 無. (1000,1000). 0.06 0.06. 0.06. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (250,250). 0.06 0.06. 0.06. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (500,500). 0.06 0.06. 0.06. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (1000,1000). 0.06 0.06. 0.06. 0.00. 0.01. 0.00. 大 DIF. 無. (250,250). 0.07 0.07. 0.07. 0.01. 0.01. 0.01. 大 DIF. 無. (500,500). 0.07 0.06. 0.07. 0.01. 0.01. 0.01. 大 DIF. 無. (1000,1000). 0.06 0.06. 0.06. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (250,250). 0.07 0.06. 0.07. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (500,500). 0.07 0.07. 0.07. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (1000,1000). 0.06 0.06. 0.06. 0.00. 0.00. 0.00. 小 DIF. 無. (250,250). 0.07 0.07. 0.07. 0.01. 0.01. 0.01. 小 DIF. 無. (500,500). 0.07 0.06. 0.07. 0.01. 0.01. 0.01. 小 DIF. 無. (1000,1000). 0.06 0.06. 0.06. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (250,250). 0.07 0.07. 0.07. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (500,500). 0.07 0.06. 0.07. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (1000,1000). 0.06 0.07. 0.05. 0.01. 0.01. 0.01. 大 DIF. 無. (250,250). 0.08 0.07. 0.08. 0.01. 0.01. 0.01. 大 DIF. 無. (500,500). 0.07 0.06. 0.07. 0.01. 0.01. 0.01. 大 DIF. 無. (1000,1000). 0.06 0.06. 0.06. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (250,250). 0.06 0.07. 0.07. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (500,500). 0.06 0.07. 0.06. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (1000,1000). 0.06 0.06. 0.06. 0.00. 0.00. 0.00. 小 DIF. 無. (250,250). 0.07 0.08. 0.07. 0.01. 0.01. 0.01. 小 DIF. 無. (500,500). 0.07 0.06. 0.07. 0.01. 0.01. 0.01. 小 DIF. 無. (1000,1000). 0.06 0.06. 0.06. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (250,250). 0.07 0.07. 0.07. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (500,500). 0.06 0.06. 0.06. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (1000,1000). 0.05 0.06. 0.05. 0.00. 0.00. 0.00. λ. τ. 續接下頁. 28.

(36) 承接上頁 α 值未經 Bonferroni 調整 α 值經 Bonferroni 調整 DIF 類型 DIF%. 4/15. DIF 大小. Impact. 人數. 大 DIF. 無. (250,250). 大 DIF. 無. 大 DIF. DIF 類型. λ和τ. λ. τ. λ和τ. 0.08 0.07. 0.07. 0.01. 0.01. 0.01. (500,500). 0.07 0.07. 0.07. 0.01. 0.01. 0.01. 無. (1000,1000). 0.06 0.06. 0.05. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (250,250). 0.07 0.07. 0.07. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (500,500). 0.06 0.06. 0.06. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (1000,1000). 0.05 0.06. 0.05. 0.01. 0.00. 0.01. 小 DIF. 無. (250,250). 0.07 0.08. 0.07. 0.01. 0.01. 0.01. 小 DIF. 無. (500,500). 0.07 0.06. 0.07. 0.01. 0.01. 0.01. 小 DIF. 無. (1000,1000). 0.05 0.06. 0.06. 0.01. 0.01. 0.00. 小 DIF. 0.5 SD. (250,250). 0.07 0.06. 0.06. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (500,500). 0.06 0.07. 0.06. 0.01. 0.01. 0.01. 小 DIF. 0.5 SD. (1000,1000). 0.05 0.06. 0.06. 0.00. 0.00. 0.00. 大 DIF. 無. (250,250). 0.08 0.07. 0.08. 0.00. 0.01. 0.01. 大 DIF. 無. (500,500). 0.07 0.06. 0.07. 0.01. 0.01. 0.01. 大 DIF. 無. (1000,1000). 0.05 0.06. 0.06. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (250,250). 0.07 0.06. 0.06. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (500,500). 0.06 0.06. 0.06. 0.01. 0.01. 0.01. 大 DIF. 0.5 SD. (1000,1000). 0.05 0.06. 0.05. 0.00. 0.00. 0.00. λ. 29. τ.

(37) 表 5: 有 DIF 情境下的正確率. α 值未經 Bonferroni 調整 α 值經 Bonferroni 調整 DIF 類型 DIF% 1/15. 2/15. 3/15. DIF 大小. Impact. 人數. 小 DIF. 無. (250,250). 小 DIF. 無. 小 DIF. DIF 類型. λ和τ. λ. τ. λ和τ. 0.87 0.21. 0.89. 0.59. 0.04. 0.52. (500,500). 0.98 0.44. 1.00. 0.93. 0.13. 0.94. 無. (1000,1000). 1.00 0.78. 1.00. 1.00. 0.35. 1.00. 小 DIF. 0.5 SD. (250,250). 0.91 0.24. 0.86. 0.70. 0.03. 0.62. 小 DIF. 0.5 SD. (500,500). 1.00 0.52. 1.00. 0.96. 0.12. 0.93. 小 DIF. 0.5 SD. (1000,1000). 1.00 0.84. 1.00. 1.00. 0.44. 1.00. 大 DIF. 無. (250,250). 1.00 0.78. 1.00. 1.00. 0.35. 1.00. 大 DIF. 無. (500,500). 1.00 0.99. 1.00. 1.00. 0.87. 1.00. 大 DIF. 無. (1000,1000). 1.00 1.00. 1.00. 1.00. 1.00. 1.00. 大 DIF. 0.5 SD. (250,250). 1.00 0.86. 1.00. 1.00. 0.42. 1.00. 大 DIF. 0.5 SD. (500,500). 1.00 0.99. 1.00. 1.00. 0.94. 1.00. 大 DIF. 0.5 SD. (1000,1000). 1.00 1.00. 1.00. 1.00. 1.00. 1.00. 小 DIF. 無. (250,250). 0.65 0.23. 0.70. 0.41. 0.05. 0.38. 小 DIF. 無. (500,500). 0.77 0.50. 0.87. 0.63. 0.15. 0.67. 小 DIF. 無. (1000,1000). 0.98 0.80. 1.00. 0.88. 0.37. 0.95. 小 DIF. 0.5 SD. (250,250). 0.71 0.26. 0.69. 0.48. 0.04. 0.39. 小 DIF. 0.5 SD. (500,500). 0.79 0.56. 0.87. 0.66. 0.14. 0.68. 小 DIF. 0.5 SD. (1000,1000). 0.99 0.84. 1.00. 0.94. 0.43. 0.97. 大 DIF. 無. (250,250). 1.00 0.77. 1.00. 0.98. 0.39. 0.99. 大 DIF. 無. (500,500). 1.00 1.00. 1.00. 1.00. 0.92. 1.00. 大 DIF. 無. (1000,1000). 1.00 1.00. 1.00. 1.00. 1.00. 1.00. 大 DIF. 0.5 SD. (250,250). 1.00 0.85. 1.00. 0.98. 0.43. 1.00. 大 DIF. 0.5 SD. (500,500). 1.00 1.00. 1.00. 1.00. 0.95. 1.00. 大 DIF. 0.5 SD. (1000,1000). 1.00 1.00. 1.00. 1.00. 1.00. 1.00. 小 DIF. 無. (250,250). 0.71 0.21. 0.73. 0.46. 0.05. 0.43. 小 DIF. 無. (500,500). 0.83 0.48. 0.91. 0.71. 0.14. 0.75. 小 DIF. 無. (1000,1000). 0.99 0.79. 1.00. 0.92. 0.37. 0.96. 小 DIF. 0.5 SD. (250,250). 0.77 0.24. 0.75. 0.57. 0.03. 0.44. 小 DIF. 0.5 SD. (500,500). 0.85 0.51. 0.90. 0.74. 0.14. 0.75. 小 DIF. 0.5 SD. (1000,1000). 0.98 0.84. 1.00. 0.96. 0.47. 0.97. λ. τ. 續接下頁. 30.

(38) 承接上頁 α 值未經 Bonferroni 調整 α 值經 Bonferroni 調整 DIF 類型 DIF%. 4/15. DIF 大小. Impact. 人數. 大 DIF. 無. (250,250). 大 DIF. 無. 大 DIF. DIF 類型. λ和τ. λ. τ. λ和τ. 1.00 0.77. 1.00. 0.99. 0.38. 0.99. (500,500). 1.00 1.00. 1.00. 1.00. 0.90. 1.00. 無. (1000,1000). 1.00 1.00. 1.00. 1.00. 1.00. 1.00. 大 DIF. 0.5 SD. (250,250). 1.00 0.83. 1.00. 0.99. 0.42. 1.00. 大 DIF. 0.5 SD. (500,500). 1.00 1.00. 1.00. 1.00. 0.94. 1.00. 大 DIF. 0.5 SD. (1000,1000). 1.00 1.00. 1.00. 1.00. 1.00. 1.00. 小 DIF. 無. (250,250). 0.77 0.20. 0.78. 0.52. 0.04. 0.49. 小 DIF. 無. (500,500). 0.87 0.48. 0.93. 0.77. 0.16. 0.79. 小 DIF. 無. (1000,1000). 0.99 0.77. 1.00. 0.94. 0.36. 0.97. 小 DIF. 0.5 SD. (250,250). 0.82 0.24. 0.80. 0.62. 0.04. 0.52. 小 DIF. 0.5 SD. (500,500). 0.89 0.51. 0.93. 0.80. 0.15. 0.80. 小 DIF. 0.5 SD. (1000,1000). 0.99 0.84. 1.00. 0.97. 0.48. 0.98. 大 DIF. 無. (250,250). 1.00 0.78. 1.00. 0.99. 0.39. 1.00. 大 DIF. 無. (500,500). 1.00 1.00. 1.00. 1.00. 0.88. 1.00. 大 DIF. 無. (1000,1000). 1.00 1.00. 1.00. 1.00. 1.00. 1.00. 大 DIF. 0.5 SD. (250,250). 1.00 0.84. 1.00. 0.99. 0.43. 1.00. 大 DIF. 0.5 SD. (500,500). 1.00 1.00. 1.00. 1.00. 0.94. 1.00. 大 DIF. 0.5 SD. (1000,1000). 1.00 1.00. 1.00. 1.00. 1.00. 1.00. λ. 31. τ.

(39) 表 6: 有 DIF 情境下錯誤率與正確率的平均數錯誤率 α 值未經調整 DIF 大小. Impact. 樣本數. DIF 類型. DIF%. 正確率. α 值經 Bonferroni 調整 α 值未經調整 α 值經 Bonferroni 調整. 小 DIF. 0.06. 0.01. 0.76. 0.57. 大 DIF. 0.06. 0.01. 0.98. 0.92. 無. 0.07. 0.01. 0.86. 0.73. 0.5 SD. 0.06. 0.01. 0.88. 0.75. (250,250). 0.07. 0.01. 0.76. 0.57. (500,500). 0.07. 0.01. 0.88. 0.77. (1000,1000). 0.06. 0.01. 0.97. 0.89. λ. 0.06. 0.01. 0.94. 0.88. τ. 0.06. 0.01. 0.72. 0.48. λ和τ. 0.06. 0.01. 0.95. 0.87. 1/15. 0.06. 0.01. 0.89. 0.77. 2/15. 0.07. 0.01. 0.85. 0.72. 3/15. 0.06. 0.01. 0.86. 0.74. 4/15. 0.06. 0.01. 0.87. 0.75. 32.

(40) 表 7: 錯誤率的多因子變異數分析表 Source. SS. df. MS. F. 樣本數 (N). 0.19572. 2. 0.097862 54.9398. impact(I). 0.03690. 1. 0.036897 20.7138 5.76e-06 ***. 0.01352. DIF 比例 (P). 0.01038. 3. 0.003460 1.9423. 0.12083. 0.00384. DIF 類型 (T). 0.00171. 2. 0.000856 0.4805. 0.61857. 0.00063. DIF 大小 (A) 0.00023. 1. 0.000233 0.1310. 0.71746. 0.00009. N:I. 0.00392 2. 0.001958 1.0989. 0.33349. 0.00145. N:P. 0.01511 6. 0.002518 1.4136. 0.20571. 0.00558. I:P. 0.00207 3. 0.000691 0.3879. 0.76177. 0.00077. N:T. 0.01891 4. 0.004727 2.6538. 0.03165 *. 0.00697. I:T. 0.00574 2. 0.002872 1.6124. 0.19976. 0.00213. P:T. 0.00167 6. 0.000278 0.1560. 0.98789. 0.00062. N:A. 0.00059 2. 0.000294 0.1648. 0.84807. 0.00022. I:A. 0.00012 1. 0.000118 0.0660. 0.79730. 0.00004. P:A. 0.00184 3. 0.000614 0.3449. 0.79286. 0.00068. T:A. 0.00006 2. 0.000029 0.0162. 0.98397. 0.00002. N:I:P. 0.00383 6. 0.000639 0.3585. 0.90516. 0.00142. N:I:T. 0.00870 4. 0.002174 1.2204. 0.30015. 0.00322. N:P:T. 0.00137 12. 0.000114. 0.0640. 1.00000. 0.00051. I:P:T. 0.00045 6. 0.000074 0.0417. 0.99970. 0.00017. N:I:A. 0.00062 2. 0.000309 0.1737. 0.84059. 0.00023. N:P:A. 0.00048 6. 0.000080 0.0448. 0.99963. 0.00018. I:P:A. 0.00151 3. 0.000504 0.2828. 0.83783. 0.00056. N:T:A. 0.00065 4. 0.000163 0.0915. 0.98514. 0.00024. I:T:A. 0.00010 2. 0.000050 0.0282. 0.97224. 0.00004. P:T:A. 0.00132 6. 0.000220 0.1233. 0.99357. 0.00049. N:I:P:T. 0.00339 12. 0.000283. 0.1586. 0.99953. 0.00126. N:I:P:A. 0.00175 6. 0.000291 0.1634. 0.98630. 0.00065. N:I:T:A. 0.00238 4. 0.000596 0.3344. 0.85493. 0.00088. N:P:T:A. 0.00359 12. 0.000300. 0.1681. 0.99937. 0.00133. I:P:T:A. 0.00241 6. 0.000402 0.2256. 0.96855. 0.00089. N:I:P:T:A. 0.00283. 12. 0.000236. 0.99982. 0.00105. Residuals. 2.69325. 1512. 0.001781. Total. 3.0236. 1655. 0.1322. Pr(>F). effect size. < 2.2e-16 ***. 0.06775. Signif. codes: 0 ‘***’0.001 ‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1. 33.

(41) 表 8: 正確率的多因子變異數分析表 Source. SS. df. MS. F. Pr(>F). effect size. 樣本數 (Np). 6.6502. 2. 3.3251. 161.6278. < 2.2e-16 ***. 0.59945. impact(Ip). 0.0439. 1. 0.0439. 2.1337. 0.1455458. 0.00978. DIF 比例 (Pp). 0.1102. 3. 0.0367. 1.7854. 0.1509120. 0.02420. DIF 類型 (Tp). 9.1839. 2. 4.5919. 223.2078. < 2.2e-16 ***. 0.67392. DIF 大小 (Ap). 12.2729. 1. 12.2729 596.5691. < 2.2e-16 ***. 0.73417. Np:Ip. 0.0086. 2. 0.0043. 0.2096. 0.8110697. 0.00193. Np:Pp. 0.0272. 6. 0.0045. 0.2205. 0.9699069. 0.00608. Ip:Pp. 0.0003. 3. 0.0001. 0.0043. 0.9996135. 0.00007. Np:Tp. 1.4076. 4. 0.3519. 17.1057. 3.342e-12 ***. 0.24056. Ip:Tp. 0.0113. 2. 0.0056. 0.2735. 0.7610118. 0.00254. Pp:Tp. 0.0938. 6. 0.0156. 0.7597. 0.6023489. 0.02067. Np:Ap. 1.7753. 2. 0.8876. 43.1468. < 2.2e-16 ***. 0.28546. Ip:Ap. 0.0176. 1. 0.0176. 0.8571. 0.3555912. 0.00395. Pp:Ap. 0.1028. 3. 0.0343. 1.6664. 0.1752141. 0.02261. Tp:Ap. 2.5169. 2. 1.2585. 61.1718. < 2.2e-16 ***. 0.36159. Np:Ip:Pp. 0.0027. 6. 0.0004. 0.0215. 0.9999563. 0.00061. Np:Ip:Tp. 0.0099. 4. 0.0025. 0.1208. 0.9749365. 0.00222. Np:Pp:Tp. 0.0279. 12. 0.0023. 0.1129. 0.9999161. 0.00624. Ip:Pp:Tp. 0.0026. 6. 0.0004. 0.0209. 0.9999598. 0.00058. Np:Ip:Ap. 0.0031. 2. 0.0016. 0.0764. 0.9265103. 0.00070. Np:Pp:Ap. 0.0339. 6. 0.0056. 0.2743. 0.9485725. 0.00757. Ip:Pp:Ap. 0.0001. 3. 0.0000. 0.0019. 0.9998880. 0.00002. Np:Tp:Ap. 0.4562. 4. 0.1141. 5.5441. 0.0002881 ***. 0.09310. Ip:Tp:Ap. 0.0022. 2. 0.0011. 0.0532. 0.9481744. 0.00049. Pp:Tp:Ap. 0.0694. 6. 0.0116. 0.5625. 0.7599288. 0.01538. Np:Ip:Pp:Tp. 0.0022. 12. 0.0002. 0.0088. 1.0000000. 0.00049. Np:Ip:Pp:Ap. 0.0028. 6. 0.0005. 0.0229. 0.9999472. 0.00063. Np:Ip:Tp:Ap. 0.0226. 4. 0.0057. 0.2747. 0.8941063. 0.00506. Np:Pp:Tp:Ap. 0.0140. 12. 0.0012. 0.0568. 0.9999982. 0.00314. Ip:Pp:Tp:Ap. 0.0022. 6. 0.0004. 0.0179. 0.9999746. 0.00049. Np:Ip:Pp:Tp:Ap 0.0014. 12. 0.0001. 0.0058. 1.0000000. 0.00031. Residuals. 4.4437. 216. 0.0206. Total. 39.3194 359 Signif. codes: 0 ‘***’0.001 ‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1. 34.

(42) 圖 1: 錯誤率（轉換過的）的折線圖. 圖 2: 正確率（轉換過的）的折線圖. 35.

(43) 6. 討論與結論本研究旨在了解：在實際情況為 MCCFA 模型時，使用強韌性卡方差異檢定. 統計量來進行 DIF 試題檢測，是否為一有效並且合適的方法。過去的文獻已經有些類似的討論。本文與文獻上相似的模擬研究，大致上有以下三個面向的不同：分析時將資料視為離散型、使用基線模式開放法與使用二階段分析程序。也就是說，本文同時考慮這三個面向，這是過去文獻未曾討論過的。接下來將分就這三方面進行討論。大部分的問卷資料均為離散型，故分析此類型資料時，用離散型的模型較為恰當。 Stark 等人（2006）對於此類離散型的數據，採用視資料為連續型的 MG-MACS 模型進行 DIF 分析。本研究想了解：若改善實際數據的資料型態和. 分析時所假設的資料型態不一致的情況，是否造成正確率和錯誤率的改變。為了和 Stark 等人的分析結果做比較，使用和他們相同的基線模式開放法，並且用完全相同的模型參數及模擬因子來生成資料。研究結果顯示，在 DIF 比例為 0 時，本研究的錯誤率在 0.06 至 0.07 之間，平均為 0.065；Stark 等人的錯誤率. 則在 0.03 至 0.08 之間，平均為 0.048。DIF 比例為 4/15 時，本研究的錯誤率在 0.05 至 0.08 之間，平均為 0.063；Stark 等人的錯誤率在 0.03 至 0.12 之間，平均. 為 0.045；本研究的正確率在 0.20 至 1.00 之間，平均為 0.871；Stark 等人的正確率在 0.36 至 1.00 之間，平均為 0.924。由此可見，與 Stark 等人比較時，本研究有略高的錯誤率及較低的正確率，與分析時視資料為離散會有較低的錯誤率、較高的正確率的預期恰好相反。換句話說，進行 DIF 分析時視資料為離散型並不會使檢定力增加。將多元計分題視為連續型資料時，Stark 等人所使用的 DIF 檢測方法為最大概度卡方差異性檢定，與本研究所使用的強韌性卡方差異檢定不同，推測可能是因為視多元計分題為離散型資料時，檢定時會牽涉到較多的閾值參數，需要有較大的卡方差異才會達到顯著，不過真正原因有待進一步的 36.