實徵資料結果 - 混合試題與受試者模型於試題差異功能分析之研究

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

而在分成 4 群的情形下，研究者並無偵測出試題有 DIF 的情形。研究者進一步去了解新北市學力檢測的題庫建置流程，發現當初在建立題庫時，

每一道試題均先經過預試，每道試題預試人數約 300 人，預試完之後，會將鑑別度差、可能具 DIF 效應的試題剔除，並經數學科輔導團加以檢視後，

才確立正式試題。故本研究以 MIE 模型分析本資料時，很有可能發現試題均沒有 DIF 的現象。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第伍章結論與建議

本文根據「多層次混合試題反應理論」與「隨機試題混合模型」，提出 MIE 模型。本研究旨在探討 MIE 模型在不同試題數、樣本數、DIF 試題數的情境下，偵測 DIF 的效果如何，以及其參數回復性表現。而為了有一對照標準，本研究提出的 MIE 模型，將和 RIM 模型的結果相互對照。

研究結果發現，RIM 模型在各種模擬情境下，在試題參數回復性、判斷試題的正確率均表現良好。本研究提出之 MIE 模型，則在樣本數大、

DIF 試題數較多的情境下，能正確判斷出試題是否存在 DIF 情形，且具良好的難度估計值，並將樣本進行正確的分群。而將 MIE 模型應用在實徵資料上，也具有合理的結果。根據以上成果，本研究提出幾點結論與建議，

茲一一分述如下：

一、結論

本研究分析結論茲彙整如下：

（一）「混合試題與受試者模型（MIE）」改善偵測 DIF 的方式

過去有關混合模式在 DIF 上的研究，多半是先找出受試者的潛在類別，

進而比較試題在不同潛在類別間是否有 DIF 情形。而偵測 DIF 試題的其中一個步驟，是要將不同群的學生進行能力配對，已往混合模式的配對方式是將所有題目均當成定錨題，連結不同群受試者的能力，亦即表示具有 DIF 情形的試題也被當成能力配對的依據，干擾著學生配對結果，影響偵測 DIF 試題的準確性。若為避免 DIF 試題當成定錨題而影響配對，則可以利用純化程序，第一步先找出沒有 DIF 的試題，第二步再重新判斷試題是否存在 DIF，但這種兩步驟的方式相當耗時，可能會大幅增加估計的時間。

而本研究提出之 MIE 模型，在估計的過程中，將學生分成不同潛在類別時，

也同時偵測試題是否具有 DIF 情形，若發現試題沒有 DIF，會自動將它當成定錨題連結群群之間的能力，若試題有 DIF 情形，在估計試題難度時，

就會將不同群人分開估計，換言之，MIE 模型以一步驟的方式，同時判斷試題否具有 DIF，也同時找出了定錨題，這種作法既不像純化方式耗時耗工，定錨題也不會包含具有 DIF 的試題，MIE 模型的確改善一些 DIF 偵測方法的缺點。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

（二）「混合試題與受試者模型（MIE）」估計表現精準

過去提出的混合模型裡，若能將受試者進行潛在分群，就不能將試題進行潛在分群，若能將試題進行潛在分群，就不能將受試者進行潛在分群，

以 RIM 模型為例，它只能試題進行潛在分群。而本研究提出的 MIE 模型，

將受試者進行潛在分群的同時，也可以將試題進行潛在分群，且 MIE 模型應用在大樣本時，在分群受試者的精準度、偵測 DIF 的能力、試題難度回復性等表現上堪稱良好，研究者建議未來可將 MIE 模型應用教育大型資料庫的調查上。

二、建議

本研究提出幾點建議，供未來研究者參考，茲一一說明如下：

（一）增加模型的模擬情境

檢測 DIF 時，常常將受試者分為焦點組和對照組，而這兩組的能力分配是否相同，則視不同議題而定。例如：男生、女生在科學素養的表現上，

有相近的能力分配（no impact），但男生、女生在美感素養的表現上，則有不同的能力分配。本研究是設定在各群人能力分配相同的情況下探討 DIF 情形，建議未來可延伸至各群人能力不同時的情境。而除了能力分配外，未來也可操弄更多模擬因子，例如：試題 DIF 的程度、樣本數、試題數、試題難度…等等。過去研究即已發現，當受試者的外顯變項（共變數）

對潛在類群的預測力越高時，其模型在分群的表現結果愈佳，建議未來在模型裡可加入單一階層的共變數，了解共變數在 MIE 模型裡，能提高多少的分群精準度。另外，除了加入受試者的變項之外，也可考慮加入試題的相關變項，以便對 MIE 模型有更深的瞭解。

（二）「多層次混合試題與受試者模型（MMIE）」之建立

現行許多大型測驗或評量的抽樣方式，鮮少是直接抽取學生，多半會以多階段抽樣方式進行，亦即研究者會先抽取如地區（或學校），進而再選取受試者，但這種巢套設計（nested design）的多層次（multilevel）資料，往往會使得來自同一地區（或學校）內的受試者同質性較高、組間異

‧

質性高，使得殘差檢定結果容易違反獨立性假設（Snijders & Bosker, 2011）。然而，一般DIF檢測方法卻往往會忽略此資料特性。且在一般檢測DIF的方

Cho 和 Cohen（2010）提出的MMixIRTM是少數將資料階層性考慮進去的混合受試者模型，在該研究裡，探討試題在學生潛在階層、學校潛在階層的DIF情形，但MMixIRTM模型將所有試題均視為配對變項，且在探討學校潛在階層的DIF時，試題難度參數的設定仍有許多討論的空間，且因為試題難度被視為固定變數，就某些部份而言，不像MIE模型來的有彈性。建議未來可將MIE模型應用至多層次資料，提出「多層次混合試題與受試者模型（multilevel mixture items and examinees model, MMIE）」。

MMIE的概似函數，可以由MIE模型的概似函數延伸而得，本研究建

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

模型相比，在MMIE模型裡多了_k和_{g |}_k兩個機率，以捕捉資料的階層性。

建立後驗分配後，可進一步探討MMIIE模型在試題數、樣本數、混合比例、

群間能力分配、DIF試題數、DIF程度…等因子上的表現情形，以了解MMIE 模型的估計表現。

另外，本研究認為混合模型應用在探討多階層資料的DIF情況時，研究者往往不容易解釋高階層層次的DIF原因和情形，本研究建議未來建立

「多層次混合試題與受試者模型」時，亟需探討共變項對分群機率的影響，

了解每一個高階層潛在類別學生的組成特性為何，以便解釋高階層層次的 DIF原因和情形。

（三）「混合試題與受試者模型（MIE）」延伸至 Rasch 以外的架構

MIE 模型是在 Rasch 架構下發展而來，建議未來可延伸至二參數模式、

三參數模式、多元計分模式、題組模式、多向度模式…等等，讓 MIE 模型的延伸範圍更廣。

（四）「混合試題與受試者模型（MIE）」的相關應用

混合模式的應用範疇不僅限於 DIF 檢測，例如：Bolt、Cohen 與 Wollack

（2002）曾利用混合試題反應模式於檢測試題是否屬於速度測驗（test speededness）。Jiao、Lissitz、Macready、Wang 與 Liang（2011）則將混合試題反應模式應用於標準設定（standard setting）。這兩種研究取向皆將受試者進行潛在分群，並未對試題有過多的探討，而本研究所提出之 MIE 模型也許可補足過去研究之不足。例如：Jiao 等人（2011）根據作答反應將受試者進行潛在類群的分類，再以各群的平均能力進行通過分數的訂立，

此即為以受試者為中心（examinee centered）的標準設定模式。而本研究提出之 MIE 模型可同時將試題進行分群，也許能利用試題的分類結果進行通過分數的訂定，和以受試者為中心的通過分數相互對照，進行效度驗證。

另外，在電腦化適性測驗裡（computerized adaptive testing, CAT），多以訊息量大小作為選擇下一題的依據，而 MIE 模型能將受試者和試題分類的特性，也許可應用在 CAT 的選題模式上。簡而言之，未來可將 MIE 模型應用於 DIF 之外的領域。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

（五）「混合試題與受試者模型（MIE）」在實務資料的應用

測驗的總分有時無法良好解釋學生的表現，而要進一步去檢視學生在 幾個子向度的表現情形，以便合理詮釋學生的表現特性。MIE 模型可將學生分成幾個潛在類別，若進一步結合學生的背景變項、試題資料，了解各個潛在類別的學生組成特性，並檢視各群學生在各個子概念上的表現狀況，

也許可以針對各個潛在類別的學生進行較為適性的教學，應用在補救教學上。

（六）縮短估計時間

本研究在 CPU 為 i5、3.10 GHz 的配備下，一個模型在一個模擬情境下要跑 18~90 小時不等，估計相當耗時，建議未來研發更迅速的演算法或估計程式，以利混合模型的運用與推廣。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

參考文獻

Bolt, D. M., Cohen, A. S., & Wollack, J. A. (2001). A mixture item response for multiple choice data. Journal of Educational and Behavioral Statistics, 26, 381-409.

Bolt, D. M., Cohen, A. S., & Wollack, J. A. (2002). Item parameter estimation under conditions of test speededness: Application of a mixture Rasch model with ordinal constraints. Journal of Educational Measurement, 39, 331-348.

Camilli, G. (1992). A conceptual analysis of differential item functioning in terms of a multidimensional item response model. Applied Psychological Measurement, 16, 129-147.

Chaimongkol, S. (2005). Modeling differential item functioning (DIF) using multilevel logistic regression models: A Bayesian perspective.

(Unpublished doctoral dissertation). Florida State University, Tallahassee, FL.

Chaimongkol, S., Huffer, F. W., & Kamata, A. (2007). An explanatory differential item functioning (DIF) model by the WinBUG 1.4.

Songklanakarin Journal of Science and Technology, 29(2), 449-459.

Cheong, Y. F. (2006). Analysis of school context effects on differential item functioning using hierarchical generalized linear models. International Journal of Testing, 6(1), 57-79.

Cho, S. J., & Cohen, A. S. (2010). Multilevel mixture IRT model with an application to DIF. Journal of Educational and Behavioral Statistics, 35, 336-370.

Cho, S. J., Cohen, A. S., & Kim, S. H. (2006, June). An investigation of priors on the probabilities of mixtures in the mixture Rasch model. Paper presented at the International Meeting of the Psychometric Society: The 71st annual meeting of the Psychometric Society, Montreal, Canada.

Cohen, A. S., & Bolt, D. M. (2005). A mixture model analysis of differential item functioning. Journal of Educational Measurement, 42, 133-148.

Cohen, A. S., Cho, S. J., & Kim, S. H. (2005, April). A mixture testlet model for

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

educational tests. Paper presented at the annual meeting of the American Educational Research Association, Montreal, Canada.

Cohen, A. S., Gregg, N., & Deng, M. (2005). The role of extended time and item content on a high-stakes mathematics test. Learning Disabilities Research & Practice, 20, 225-233.

Dai, Y. (2013). A mixture Rasch model with a covariate a simulation study via Bayesian Markov Chain Monte Carlo estimation. Applied Psychological Measurement, 37(5), 375-396.

De Boeck, P. (2008). Random item IRT models. Psychometrika, 73, 533–559.

De Boeck, P., Cho, S. J., & Wilson, M. (2011). Explanatory secondary dimension modeling of latent differential item functioning. Applied Psychological Measurement, 35, 583-603.

DeAyala, R. J., Kim, S. H., Stapleton, L. M., & Dayton, C. M. (2002).

Differential item functioning: A mixture distribution conceptualization.

International Journal of Testing, 2, 243-276.

Demar, C. E., & Lau, A. (2011). Differential item functioning detection with latent classes: How accurately can we detect who is responding differentially? Educational and Psychological Measurement, 71(4), 597-616.

Dorans, N. J., & Kulick, E. (1986). Demonstrating the utility of the standardization approach to assessing unexpected differential item performance on the scholastic aptitude test. Journal of Educational Measurement, 23(4), 355-368.

Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists.

Mahwah, NJ: Lawrence-Erlbaum.

Finch, W. H. (2005). The MIMIC model as a method for detecting DIF:

Comparison with Mantel-Haenszel, SIBTEST, and the IRT Likelihood Ratio. Applied Psychological Measurement, 29, 278-295

Finch, W. H. (2012).The MIMIC model as a tool for differential bundle functioning detection. Applied Psychological Measurement, 36, 40-59.

Fox, J. P. (2005). Multilevel IRT using dichotomous and polytomous response

在文檔中混合試題與受試者模型於試題差異功能分析之研究 - 政大學術集成 (頁 51-65)

實徵資料結果

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第伍章 結論與建議

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

參考文獻

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學

第伍章結論與建議

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學