• 沒有找到結果。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

40

而在分成 4 群的情形下,研究者並無偵測出試題有 DIF 的情形。研究 者進一步去了解新北市學力檢測的題庫建置流程,發現當初在建立題庫時,

每一道試題均先經過預試,每道試題預試人數約 300 人,預試完之後,會 將鑑別度差、可能具 DIF 效應的試題剔除,並經數學科輔導團加以檢視後,

才確立正式試題。故本研究以 MIE 模型分析本資料時,很有可能發現試題 均沒有 DIF 的現象。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

41

第伍章 結論與建議

本文根據「多層次混合試題反應理論」與「隨機試題混合模型」,提 出 MIE 模型。本研究旨在探討 MIE 模型在不同試題數、樣本數、DIF 試 題數的情境下,偵測 DIF 的效果如何,以及其參數回復性表現。而為了有 一對照標準,本研究提出的 MIE 模型,將和 RIM 模型的結果相互對照。

研究結果發現,RIM 模型在各種模擬情境下,在試題參數回復性、判 斷試題的正確率均表現良好。本研究提出之 MIE 模型,則在樣本數大、

DIF 試題數較多的情境下,能正確判斷出試題是否存在 DIF 情形,且具良 好的難度估計值,並將樣本進行正確的分群。而將 MIE 模型應用在實徵資 料上,也具有合理的結果。根據以上成果,本研究提出幾點結論與建議,

茲一一分述如下:

一、結論

本研究分析結論茲彙整如下:

(一)「混合試題與受試者模型(MIE)」改善偵測 DIF 的方式

過去有關混合模式在 DIF 上的研究,多半是先找出受試者的潛在類別,

進而比較試題在不同潛在類別間是否有 DIF 情形。而偵測 DIF 試題的其中 一個步驟,是要將不同群的學生進行能力配對,已往混合模式的配對方式 是將所有題目均當成定錨題,連結不同群受試者的能力,亦即表示具有 DIF 情形的試題也被當成能力配對的依據,干擾著學生配對結果,影響偵 測 DIF 試題的準確性。若為避免 DIF 試題當成定錨題而影響配對,則可以 利用純化程序,第一步先找出沒有 DIF 的試題,第二步再重新判斷試題是 否存在 DIF,但這種兩步驟的方式相當耗時,可能會大幅增加估計的時間。

而本研究提出之 MIE 模型,在估計的過程中,將學生分成不同潛在類別時,

也同時偵測試題是否具有 DIF 情形,若發現試題沒有 DIF,會自動將它當 成定錨題連結群群之間的能力,若試題有 DIF 情形,在估計試題難度時,

就會將不同群人分開估計,換言之,MIE 模型以一步驟的方式,同時判斷 試題否具有 DIF,也同時找出了定錨題,這種作法既不像純化方式耗時耗 工,定錨題也不會包含具有 DIF 的試題,MIE 模型的確改善一些 DIF 偵測 方法的缺點。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

42

(二)「混合試題與受試者模型(MIE)」估計表現精準

過去提出的混合模型裡,若能將受試者進行潛在分群,就不能將試題 進行潛在分群,若能將試題進行潛在分群,就不能將受試者進行潛在分群,

以 RIM 模型為例,它只能試題進行潛在分群。而本研究提出的 MIE 模型,

將受試者進行潛在分群的同時,也可以將試題進行潛在分群,且 MIE 模型 應用在大樣本時,在分群受試者的精準度、偵測 DIF 的能力、試題難度回 復性等表現上堪稱良好,研究者建議未來可將 MIE 模型應用教育大型資料 庫的調查上。

二、建議

本研究提出幾點建議,供未來研究者參考,茲一一說明如下:

(一)增加模型的模擬情境

檢測 DIF 時,常常將受試者分為焦點組和對照組,而這兩組的能力分 配是否相同,則視不同議題而定。例如:男生、女生在科學素養的表現上,

有相近的能力分配(no impact),但男生、女生在美感素養的表現上,則 有不同的能力分配。本研究是設定在各群人能力分配相同的情況下探討 DIF 情形,建議未來可延伸至各群人能力不同時的情境。而除了能力分配 外,未來也可操弄更多模擬因子,例如:試題 DIF 的程度、樣本數、試題 數、試題難度…等等。過去研究即已發現,當受試者的外顯變項(共變數)

對潛在類群的預測力越高時,其模型在分群的表現結果愈佳,建議未來在 模型裡可加入單一階層的共變數,了解共變數在 MIE 模型裡,能提高多少 的分群精準度。另外,除了加入受試者的變項之外,也可考慮加入試題的 相關變項,以便對 MIE 模型有更深的瞭解。

(二)「多層次混合試題與受試者模型(MMIE)」之建立

現行許多大型測驗或評量的抽樣方式,鮮少是直接抽取學生,多半會 以多階段抽樣方式進行,亦即研究者會先抽取如地區(或學校),進而再 選取受試者,但這種巢套設計(nested design)的多層次(multilevel)資 料,往往會使得來自同一地區(或學校)內的受試者同質性較高、組間異

質性高,使得殘差檢定結果容易違反獨立性假設(Snijders & Bosker, 2011)。 然而,一般DIF檢測方法卻往往會忽略此資料特性。且在一般檢測DIF的方

Cho 和 Cohen(2010)提出的MMixIRTM是少數將資料階層性考慮進 去的混合受試者模型,在該研究裡,探討試題在學生潛在階層、學校潛在 階層的DIF情形,但MMixIRTM模型將所有試題均視為配對變項,且在探 討學校潛在階層的DIF時,試題難度參數的設定仍有許多討論的空間,且 因為試題難度被視為固定變數,就某些部份而言,不像MIE模型來的有彈 性。建議未來可將MIE模型應用至多層次資料,提出「多層次混合試題與 受試者模型(multilevel mixture items and examinees model, MMIE)」。

MMIE的概似函數,可以由MIE模型的概似函數延伸而得,本研究建

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

44

模型相比,在MMIE模型裡多了k和g |k兩個機率,以捕捉資料的階層性。

建立後驗分配後,可進一步探討MMIIE模型在試題數、樣本數、混合比例、

群間能力分配、DIF試題數、DIF程度…等因子上的表現情形,以了解MMIE 模型的估計表現。

另外,本研究認為混合模型應用在探討多階層資料的DIF情況時,研 究者往往不容易解釋高階層層次的DIF原因和情形,本研究建議未來建立

「多層次混合試題與受試者模型」時,亟需探討共變項對分群機率的影響,

了解每一個高階層潛在類別學生的組成特性為何,以便解釋高階層層次的 DIF原因和情形。

(三)「混合試題與受試者模型(MIE)」延伸至 Rasch 以外的架構

MIE 模型是在 Rasch 架構下發展而來,建議未來可延伸至二參數模式、

三參數模式、多元計分模式、題組模式、多向度模式…等等,讓 MIE 模型 的延伸範圍更廣。

(四)「混合試題與受試者模型(MIE)」的相關應用

混合模式的應用範疇不僅限於 DIF 檢測,例如:Bolt、Cohen 與 Wollack

(2002)曾利用混合試題反應模式於檢測試題是否屬於速度測驗(test speededness)。Jiao、Lissitz、Macready、Wang 與 Liang(2011)則將混合 試題反應模式應用於標準設定(standard setting)。這兩種研究取向皆將受 試者進行潛在分群,並未對試題有過多的探討,而本研究所提出之 MIE 模 型也許可補足過去研究之不足。例如:Jiao 等人(2011)根據作答反應將 受試者進行潛在類群的分類,再以各群的平均能力進行通過分數的訂立,

此即為以受試者為中心(examinee centered)的標準設定模式。而本研究 提出之 MIE 模型可同時將試題進行分群,也許能利用試題的分類結果進行 通過分數的訂定,和以受試者為中心的通過分數相互對照,進行效度驗證。

另外,在電腦化適性測驗裡(computerized adaptive testing, CAT),多以訊 息量大小作為選擇下一題的依據,而 MIE 模型能將受試者和試題分類的特 性,也許可應用在 CAT 的選題模式上。簡而言之,未來可將 MIE 模型應 用於 DIF 之外的領域。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

45

(五)「混合試題與受試者模型(MIE)」在實務資料的應用

測驗的總分有時無法良好解釋學生的表現,而要進一步去檢視學生在 幾個子向度的表現情形,以便合理詮釋學生的表現特性。MIE 模型可將學 生分成幾個潛在類別,若進一步結合學生的背景變項、試題資料,了解各 個潛在類別的學生組成特性,並檢視各群學生在各個子概念上的表現狀況,

也許可以針對各個潛在類別的學生進行較為適性的教學,應用在補救教學 上。

(六) 縮短估計時間

本研究在 CPU 為 i5、3.10 GHz 的配備下,一個模型在一個模擬情境 下要跑 18~90 小時不等,估計相當耗時,建議未來研發更迅速的演算法或 估計程式,以利混合模型的運用與推廣。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

46

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

47

參考文獻

Bolt, D. M., Cohen, A. S., & Wollack, J. A. (2001). A mixture item response for multiple choice data. Journal of Educational and Behavioral Statistics, 26, 381-409.

Bolt, D. M., Cohen, A. S., & Wollack, J. A. (2002). Item parameter estimation under conditions of test speededness: Application of a mixture Rasch model with ordinal constraints. Journal of Educational Measurement, 39, 331-348.

Camilli, G. (1992). A conceptual analysis of differential item functioning in terms of a multidimensional item response model. Applied Psychological Measurement, 16, 129-147.

Chaimongkol, S. (2005). Modeling differential item functioning (DIF) using multilevel logistic regression models: A Bayesian perspective.

(Unpublished doctoral dissertation). Florida State University, Tallahassee, FL.

Chaimongkol, S., Huffer, F. W., & Kamata, A. (2007). An explanatory differential item functioning (DIF) model by the WinBUG 1.4.

Songklanakarin Journal of Science and Technology, 29(2), 449-459.

Cheong, Y. F. (2006). Analysis of school context effects on differential item functioning using hierarchical generalized linear models. International Journal of Testing, 6(1), 57-79.

Cho, S. J., & Cohen, A. S. (2010). Multilevel mixture IRT model with an application to DIF. Journal of Educational and Behavioral Statistics, 35, 336-370.

Cho, S. J., Cohen, A. S., & Kim, S. H. (2006, June). An investigation of priors on the probabilities of mixtures in the mixture Rasch model. Paper presented at the International Meeting of the Psychometric Society: The 71st annual meeting of the Psychometric Society, Montreal, Canada.

Cohen, A. S., & Bolt, D. M. (2005). A mixture model analysis of differential item functioning. Journal of Educational Measurement, 42, 133-148.

Cohen, A. S., Cho, S. J., & Kim, S. H. (2005, April). A mixture testlet model for

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

48

educational tests. Paper presented at the annual meeting of the American Educational Research Association, Montreal, Canada.

Cohen, A. S., Gregg, N., & Deng, M. (2005). The role of extended time and item content on a high-stakes mathematics test. Learning Disabilities Research & Practice, 20, 225-233.

Dai, Y. (2013). A mixture Rasch model with a covariate a simulation study via Bayesian Markov Chain Monte Carlo estimation. Applied Psychological Measurement, 37(5), 375-396.

De Boeck, P. (2008). Random item IRT models. Psychometrika, 73, 533–559.

De Boeck, P., Cho, S. J., & Wilson, M. (2011). Explanatory secondary dimension modeling of latent differential item functioning. Applied Psychological Measurement, 35, 583-603.

DeAyala, R. J., Kim, S. H., Stapleton, L. M., & Dayton, C. M. (2002).

Differential item functioning: A mixture distribution conceptualization.

International Journal of Testing, 2, 243-276.

Demar, C. E., & Lau, A. (2011). Differential item functioning detection with latent classes: How accurately can we detect who is responding differentially? Educational and Psychological Measurement, 71(4), 597-616.

Dorans, N. J., & Kulick, E. (1986). Demonstrating the utility of the standardization approach to assessing unexpected differential item performance on the scholastic aptitude test. Journal of Educational Measurement, 23(4), 355-368.

Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists.

Mahwah, NJ: Lawrence-Erlbaum.

Finch, W. H. (2005). The MIMIC model as a method for detecting DIF:

Comparison with Mantel-Haenszel, SIBTEST, and the IRT Likelihood Ratio. Applied Psychological Measurement, 29, 278-295

Finch, W. H. (2012).The MIMIC model as a tool for differential bundle functioning detection. Applied Psychological Measurement, 36, 40-59.

Fox, J. P. (2005). Multilevel IRT using dichotomous and polytomous response

相關文件