• 沒有找到結果。

混合試題與受試者模型於試題差異功能分析之研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "混合試題與受試者模型於試題差異功能分析之研究 - 政大學術集成"

Copied!
65
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學教育學系教育心理與輔導組博士論文. 指導教授:余民寧、溫福星 博士. 立. 政 治 大. ‧ 國. 學. ‧. 混合試題與受試者模型於 試題差異功能分析之研究 n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 研究生:黃馨瑩 中華民國 103 年 5 月.  . v.

(2) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(3) 謝詞 當初唸書是一份衝動,現在則是一份執著,花了五年,我終於走完這 條路。感謝指導教授余民寧老師和溫福星老師,您們不疾不徐卻給我堅毅 的力量,感謝溫老師總面帶微笑接受我的叨擾,把我當女兒看待。也謝謝 三位口委給我許多指導,陪我畫下句點。 這五年的風景,大概是由政大、國教院、臺師大、UGA…等交織而成。 感謝政大的夥伴們,雖然我不常回去,但你們總記得我。感謝國教院的師 長和夥伴,你們給我滿滿的打氣和鼓勵,很開心和你們一起共事和成長。 感謝柏熹老師和世華老師領軍的師大回憶,老師給我滿滿的溫暖和包容,. 政 治 大. 夥伴也很貼心搞笑,你們真是太可愛啦!感謝 UGA 的 Dr. Cohen 和夥伴們, 謝謝你們的照顧,我也會繼續向你們學習。感謝如家人一般的 PJ 和 Jin,. 立. 謝謝你們為我操心和餵食我,一路相挺。最後,感謝家人對我的支持和包. ‧ 國. 學. 容,尤其在我忙碌時,肥肥獸化身為家事獸,讓我回家可以稍微喘一口氣。 博士的風景告一段落,更大的挑戰才正要開始,希望這五年來我有所. ‧. 成長,也希望我能保有我原來的個性,並和大家一起為教育努力,回饋社. sit. y. Nat. 會。. er. al. n. 跳人生之舞吧!. io. 感謝大家,你們讓我的生命充滿微笑。我們繼續攜手向前,開懷大笑. Ch. engchi. i. i n U. v.

(4) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. ii. i n U. v.

(5) 混合試題與受試者模型於試題差異功能分析之研究 摘要 依據「多層次混合試題反應理論」與「隨機試題混合模型」,本研究 提出「混合試題與受試者模型」。本研究旨在評估此模型在不同樣本數、 不同試題差異功能的試題數下,偵測試題差異功能的表現,以及其參數回 復性情形。研究結果顯示,「混合試題與受試者模型」在樣本數大、試題 差異功能試題數較多之情境下,具有正確的參數回復性,能正確判斷出試 題是否存在試題差異功能,且具有良好的難度估計值,並能將樣本正確地 分群,其也與「隨機試題混合模型」的估計表現頗為相近。建議未來可將. 政 治 大. 「混合試題與受試者模型」應用於大型教育資料庫相關研究上,並加入其. 立. 他變項後進一步探討。. ‧ 國. 學. 關鍵詞:混合試題反應理論、隨機試題、試題差異功能. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. iii. i n U. v.

(6) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. iv. i n U. v.

(7) A Mixture Items-and-Examinees Model Analysis on Differential Item Functioning Abstract Drawing upon the framework of the multilevel mixture item response theory model and the random item mixture model, the study attempts to propose one model, called the mixture items and examinees model(MIE model). The purpose of this study was to assess the respective performances of the model on different sample-sizes and differential item functioning (DIF) items.. 政 治 大. Particularly, the study assessed the model performances in the detection of DIF. 立. items, and the accurate parameters recovery. The results of the study revealed. ‧ 國. 學. that with large sample-sizes and more DIF items, the MIE model had the good parameters recovery, the accurate detection of the DIF items, the good estimate. ‧. of the item difficulty, and the accurate classifications of the sub-samples. These model performances appeared similar to those of the random item mixture. Nat. sit. y. model. The findings suggest that future studies should apply the MIE model to. io. al. n. to the MIE model.. er. the analyses on large-scale education databases, and should add more variables. i n U. Ch. v. i e ntheory, Keywords: mixture item response item, differential item g c h random functioning. v.

(8) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. vi. i n U. v.

(9) 目次 第壹章 緒論..………………………………………………....... 1. 第一節 研究緣起與特點………………………………………... 1. 第二節 研究特色與待答問題…………………………………... 3. 第三節 名詞解釋………………………………………………... 7. 第四節 研究範圍………………………………………………... 8. 第貳章 文獻探討..……………………………………….……. 9. 第一節 第二節. 政 治 大 多層次混合試題反應理論模型………….................... 立. 偵測 DIF 的方法……………………………….…........ 9 16. 隨機試題混合模型......................................................... 18. 第四節. 小結................................................................................. 20. ‧ 國. 學. 第三節. y. sit. 模擬因子與估計精準度……………………………..... io. er. 第二節. 理論基礎與模型…………….…………………..…...... Nat. 第一節. ‧. 第參章 研究方法.....……………………......………………... 21 21 26. 第三節. 研究工具......................................................................... 32. 第四節. n 實徵資料........................................................................ C. 33. n. al. hengchi U. iv. 第肆章 研究結果.....……………………......………………... 35 第一節. 模擬研究結果………………………………………..... 35. 第二節. 實徵資料結果………….…………………………….... 39. 第伍章 結論與建議..……………………......……………….. 41 參考文獻….................................................................... 47. vii.

(10) 表次 表 1 混合模式偵測 DIF 的相關研究整理表..…………………....... 13 表 2 RIM 答對機率分配和試題難度分配………………………….. 20 表 3 本研究答對機率分配和試題難度分配..…………………........ 22 表 4 模擬研究因子設計……………………………………………... 27 表 5 試題難度值(DIF 試題數為 6 題)..………………….................. 29. 表 6 試題難度值(DIF 試題數為 10 題)……………………………. 30 表 7 試題難度值(DIF 試題數為 20 題)…………………………….. 政 治 大 表 8 模擬研究試題參數結果…………………………………….…. 立 表 9 模擬研究分群結果..……………………………………............. 學. ‧ 國. 31 37 37. 表 10 分群指標摘要表....……………………………………............ 39. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. viii. i n U. v.

(11) 圖次 圖 1 資料結構圖……………………………..…………………....... 16 圖 2 機率密度函數圖形與 Gibbs 抽樣軌跡圖.…………………...... 35 圖 3 MIE 模型在樣本數 900 時的分群情形……………………...... 38 圖 4 MIE 模型在樣本數 900 時的分群情形.………………….......... 38 圖 5 各潛在類群在五個向度的表現情形…….…………………...... 39. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. ix. i n U. v.

(12) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. x. i n U. v.

(13) 第壹章 緒論 測驗評量工具的使用為能力檢核、升學、就業選才的慣用策略之一, 測驗試題品質的優劣則關係到測驗工具能否獲得公眾的信賴,試題的公平 性(fairness)即為其中之重要議題。據此,本研究將深入探討試題公平性 中,廣泛受到關注的議題:試題差異功能(differential item functioning, DIF) , 以下茲就研究緣起與特點、研究特色與待答問題、名詞解釋等說明如下。. 第一節 研究緣起與特點 茲就試題差異功能的重要性及過去偵測 DIF 所發展的方法可能存在的 缺點,說明如下,作為本研究所提模式發展的立基點。. 政 治 大. 一、試題差異功能檢測的重要性. 立. 當相同能力的考生,因其不同背景差異而對同一試題或刺激物(stimuli). ‧ 國. 學. 有 不 同 答 對 比 率 時 , 則 研 究 者 會 稱 該試 題 可 能 有 試 題 差 異 功 能 情 形 (Shepard, Camilli, & Averill, 1981) ,此代表除了考生本身的能力會影響答. ‧. 題表現外,可能還有其它干擾向度(nuisance dimensions)影響學生的作答. y. Nat. 表現(Camilli, 1992; Rossos & Stout, 1996) 。儘管 DIF 的概念不等同「試題. sit. 偏誤(item bias)」這個負面的觀點,也未必表示試題品質不佳,但當題. er. io. 目存在 DIF 時,即反應出該題有利於某群體的作答而不利於其他群體,這. n. a l (Thissen, Steinberg, &i vWainer, 1988, 1993)。 種情形對測驗效度已造成威脅 C. n. hen hi U 一般高風險性(high stake)的考試,例如:升學考試、資格檢定考試、證 gc. 照考試等,一分之差就有可能決定考生通過與否,對考試公平性的要求則 十分嚴格,因此,題目是否存在 DIF 試題、存在多少比例的 DIF 試題,就 顯得格外重要(Shepard, 1982; Wiberg, 2007)。 國內外許多研究機構或組織也特別針對大型測驗、證照評量或升學考 試,進行 DIF 現象的檢測,某些也許是低風險的測驗,諸如國家教育研究 院執行之臺灣學生學習成就評量資料庫(Taiwan Assessment of Student Achievement, TASA),其在於釋出資料前,會預先將具 DIF 的試題刪除, 以提高未來其它學者進行次級資料分析(secondary data analysis)的可信度。 另一方面,對於高風險測驗,更是需要謹慎審視 DIF 現象存在與否,例如: 美國教育測驗服務社(Educational testing service, ETS)早自 26 年前開始 1.

(14) 便進行 DIF 試題的檢測,在 ETS 標準化測驗的建置流程裡,DIF 檢測已納 入建置流程的一環,每年皆有近上千的試題接受 DIF 檢測(Zwick, 2012)。 綜合以上所言,不論是低風險或高風險測驗,DIF 試題的檢測是極為重要 的。. 二、現今偵測 DIF 方法的缺點 許多方法均可檢測出DIF試題,一般會將檢測DIF的方法區分為:試題 反應理論(Item response theory, IRT)取向與非IRT取向。IRT取向的方法 包含:Lord所發展的卡方考驗法(Lord, 1980)、Raju’s的IRF或ICC區域面 積法(Raju, 1990)、概率比檢定法(Likelihood-ratio test, LR-IRT)等等;. 政 治 大. 非IRT取向的方法包含:SIBTEST法(simultaneous item bias test) (Shealy & Stout, 1993) 、Mantel-Haenszel法(Holland & Thayer, 1988) 、羅吉斯迴歸分. 立. 析 (logistic regression, LR) (Swaminathan & Rogers, 1990)等等。另一方. ‧ 國. 學. 面,以結構方程式模型(structural equation model)為概念,檢測多群組是 否滿足測量恆等性(measurement invariance) ,亦可檢測出DIF試題,MIMIC. ‧. 模型(multiple indicators multiple cause)即為此一方式的代表(Finch, 2005, 2012; Shin & Wang, 2009)。. y. Nat. sit. 過去發展出的DIF檢測方法十分多元,但這些方法仍有幾個可再精進. n. a. er. io. 之處,分別說明如下: (一)多以外顯變項作為DIF檢測的依據 l. Ch. en. hi. i n U. v. gc 任何DIF偵測的執行,都必須先將學生分群,才能偵測同一試題在各 群學生間是否有DIF情形,過去學者通常是以學生的背景變項作為將學生 分群的依據,例如性別、種族…等等,皆是學者探討DIF時常用的變項, 而這類可經觀察得到的變項,我們稱為外顯變項(manifest variable)。在 DIF變項的選取上,學者們認為來自於同一背景變項的考生,表現的同質 性應會較高,進而推論該背景變項可能是造成DIF的主要原因。但近年來 的研究發現,即便是相同背景變項的學生,也沒有相近的作答反應組型 (response pattern) ,學生的表現同質性並不如我們想像中的高,用外顯變 項探討試題的DIF情形,很可能會忽略真正造成DIF的潛在因素(latent variable)(Cohen & Bolt, 2005; Cohen, Gregg, & Deng, 2005; De Ayala, Kim, Stapleton, & Dayton, 2002; Samuelsen, 2005, 2008)。 2.

(15) (二)試題參數被視為固定變數 IRT取向的DIF檢測方法,多將試題參數視為固定變數,但此舉會造成 試題無法推論至整個題庫的試題。現今大型評量考試,例如:托福、多益 等等,往往建立一龐大的題庫,試題均是從題庫擷取出來,若研究者將試 題難度視為隨機變數,會較符合現實情境。 (三)配對變項的選取 在考生能力相同的基礎下,檢測DIF試題才有意義,故用來配對考生 能力的配對變項(matching variable)即顯得格外重要,一般而言,會以測 驗總分或某些試題的得分當作配對變項,但此會延伸出一問題,也就是某. 政 治 大 能力估計值產生偏誤。因此,Holland 和 Thayer(1988)建議採淨化 立 些當作能力配對的試題,可能有DIF情形,在這種情況下,會導致學生的. (purification)程序,先將有DIF的試題從配對變項中排除,進行兩階段的. ‧ 國. 學. DIF試題檢定。然而,若能估計試題的DIF情形,又能同時將非DIF試題自 動當作配對變項,這種一階段的DIF檢測方法,將提昇估計準確性。. ‧ sit. y. Nat. er. io. 第二節 研究特色與待答問題. n. a l 方法的限制,本研究希冀能改善過去 前一節說明過去 DIF DIF 偵測方 iv C. n. h e n (mixture 式的缺點,提出「混合試題及受試者模型 h i Uitems and examinees model, gc. MIE)」 ,此模型將試題參數視為隨機變數,並可偵測潛在類別(latent class) 造成的 DIF 情形。以下茲就本研究焦點、估計方法及待答問題,逐一說明 如下:. 一、本研究焦點 本研究提出之混合受試者及試題模型,除具有一般DIF檢測方法功能外, 其優點將聚焦於兩大重點,分別說明如下: (一)偵測潛在變項可能造成的DIF 過去研究指出,若使用外顯變項作為DIF偵測的依據,可能有幾項缺 點(Cohen & Bolt, 2005; Samuelsen, 2005, 2008): 3.

(16) 1.. 以外顯變項分類出來的學生,其作答反應的同質性往往不如預期的高。 例如:即使是住在美國的西班牙人,他們所擁有的血統、種族地位也 相當不同,歧異度相當高,因此,若將他們視為同一群體以進行DIF 現象分析,往往無法得到適宜的結果。. 2.. 研究者對於使用外顯變項作為DIF的依據,往往只是為了分析方便, 但此舉反而會使得分析結果無法直接連結到教育實質關注的議題,例 如:對於教學回饋,提供性別的檢測結果往往不如提供不同作答策略 的檢測結果。. 3.. 當外顯變項組別與潛在類別不同時,研究者若以外顯變項變項作為 DIF偵測,往往會降低統計檢定力並使得型一誤差(type I error)膨脹,. 治 政 大 越大或相關愈低時,則越難正確偵測出DIF試題。 立. 得到低估DIF程度的結果。同時,隨著外顯變項組別與潛在類別相差. ‧ 國. 學. 過去研究指出,以潛在變項將學生分類後,發現題目類型、學生的課 程經驗,才是造成試題具有 DIF 的原因,反而和學生的背景變項相關不大。. ‧. 同時,當學生的潛在類別和背景變項相關越低時,以背景變項當作探討. y. Nat. DIF 的依據,將會造成 DIF 試題的誤判(Cohen, Gregg, & Deng, 2005; Kang. sit. & Cohen, 2003)。. er. io. 現行DIF研究趨勢已不再只是找出DIF可能存在於哪些外顯背景變項,. n. al 而是試圖找出不同潛在類別學生間,是否對於某些試題產生DIF,另一方 iv C. n. hen hi U 面,有些研究者企圖將外顯變項視同潛在類別的預測變項,兩者相結合, gc. 以期找出發生DIF的可能原因,提供教育現場更多實質的意義與回饋(Cho & Cohen, 2010; De Boeck, Cho, & Wilson, 2011; Penfield, 2010; Zumbo &. Gelin, 2005)。舉例來說,研究者會執行潛在類別分析(或稱混合受試者 模式),預先將學生分類,將相同作答反應的學生歸為一類,同時,再配 合教師或教學問卷的結果,可能會發現某群學生是接受相似教法且擁有同 樣的解題思維,而此舉是相較於單以外顯背景變項進行群體分類,更能符 合同質性及找出造成DIF的原因。此外,在心理計量領域的技術發展趨勢, 此舉也能突破以往只關注外顯變項的影響,試圖找出學生的潛在類別,針 對各潛在類別間的學生特性並加以應用。. 4.

(17) (二)非DIF定錨題的尋找 現行常用的DIF偵測方法,例如:Mantel-Haenszel法、LR法,研究者 多會把總分相同的學生視為相同能力,亦即將所有題目皆視為配對變項 (或稱為定錨題) ,但當配對變項含有DIF題目時,會導致型一誤差增加、 檢定力變小(Finch, 2005),能力估計值也會出現偏誤(Navas-Ara & Gomez-Benito, 2002 )。 為 改 善 此 缺 點 , 有 研 究 提 出 淨 化 程 序 (DIF-free-then-DIF) ,利用輪流反覆的測試,找出非DIF的試題當定錨題, 並建議傳統DIF方法搭配淨化程序來增進估計精準度(Shin, & Wang, 2009)。 淨化程序的立意良好,但找出非DIF題目往往相當耗時。另外,界定出非 DIF試題後,才得以用這些定錨題作為能力相同的配對變項,進而重新檢. 政 治 大 當耗費時間。Frederickx、Tuerlinckx、De Boeck與Magis(2010)則提出另 立. 測哪些題目為DIF題,這種兩步驟的DIF檢測方法雖比傳統方法準確,但相. ‧ 國. 學. 一個選擇定錨題的方法,其將試題難度視為隨機變數,並搭配貝氏估計法, 利用隨機試題混合模型(random item mixture model, RIM) ,以自動化、一. ‧. 步驟的方式,將題目分成DIF與非DIF兩群,且當題目被分到非DIF那一組 時,即會自動被分派做為定錨題使用,此方法較不耗時,且能同時估計試. sit. y. Nat. 題參數和能力參數。. io. er. 整體而言,本研究結合Frederickx、Tuerlinckx、De Boeck與Magis(2010) 所提出的隨機試題混合模型(random item mixture model, RIM)及混合受. n. a. v. l (Cohen, 試者模型(mixture Rasch) & Bolt, 2005; n iRost, 1990; Samuelsen, C. 2005),以進行DIF的檢測。. hengchi U. 二、估計方法 對於混合模式估計方法的使用或選擇,過去研究者大致提出兩個趨向, 一是最大概似估計法(maximum likelihood method, ML) ,另一則是貝氏估 計法(Bayesian approach) 。比較這兩種估計方法,以 ML 法得到的估計量 雖具有不偏性的優點,但使用 ML 估計法的前提是,資料服從常態分配較 好,且 ML 估計結果可能找到多個局部最大值(multiple local maximum), 也可能產生沒有界限的概似函數(unbounded likelihood function),導致找 不到適合的解。另外,使用 ML 法估計多層次資料時,若階層二的資料 (例: 學生巢套於學校,學校是第二層)樣本不夠大、各群內的觀察樣本數不均 5.

(18) 等時,也會降低估計精準度。反觀貝氏估計法,其不但沒有上述問題,且 貝氏估計法利用先驗分配訊息(prior information) 不斷更新參數估計,面 對複雜的模型往往也能順利求解,故越來越多研究將貝氏估計法應用在混 合模式上(Cohen, & Bolt, 2005; Dai, 2009) ,本研究也將採用貝氏估計法進 行參數估計。. 三、待答問題 綜合以上論述,本研究有三個特色: (1)結合 IRT、潛在類別模式(latent class model)並採用 Frederickx、 Tuerlinckx、De Boeck 與 Magis(2010)之 RIM 定錨尋找機制,將受. 政 治 大. 試者能力和試題參數同時視為潛在隨機變數,提出一步驟找出 DIF 試 題的估計模式,本研究稱為「混合試題與受試者模型」。. 立. (2)使用貝氏估計法搭配蒙地卡羅馬可夫鏈(Markov Chain Monte Carlo,. ‧ 國. 學. MCMC)與 Gibbs 抽樣(Gibbs sampling),以期獲得更接近實際情況 的參數估計值與標準誤。. ‧. 本研究將運用模擬研究和實徵資料的分析,以確定模式的適用性。本 研究的待答問題包含 2 個:. y. Nat. er. io. 現如何?. sit. (1) 「混合試題與受試者模型」在不同操弄因子情境下,各參數的估計表. n. (2)「混合試題與受試者模型」是否能運用在實徵資料的分析上? a v. i l C n hengchi U. 6.

(19) 第三節 名詞解釋 在名詞解釋部分,以下茲就「混合試題與受試者模式」說明如下:. 一、混合試題與受試者模式 Frederickx、Tuerlinckx、De Boeck 與 Magis(2010)提出隨機試題混 合模型(random item mixture model, RIM) ,RIM 的特色在於將試題難度視 為隨機分配,先以自動化、一步驟的將題目分成 DIF 與非 DIF 兩群(即本 研究指的混合試題(mixture items)),當題目被分到非 DIF 那一組,就將 這些題目當作定錨題,連結(linking)焦點組和參照組的學生,但 RIM 僅 限於偵測試題在外顯變項是否有產生 DIF。換言之,RIM 模型是一種混合. 政 治 大 examinee)的觀點角度出發,檢測試題在不同潛在類別學生的 DIF 情形, 立. 試題的模型,但無法混合受試者。Rost(1990)則從混合受試者(mixture. 但其僅限於混合受試者,而沒有混合試題。本研究則融合兩者觀點,提出. ‧ 國. 學. 新的模型,稱為「混合試題與受試者模型」 (mixture items and examinees model, MIE)。. ‧ y. Nat. er. io. sit. 二、多層次混合試題反應理論模型. 多層次混合試題反應理論模型(multilevel mixture item response theory. n. a. v. l C與 Cohen(2010)所提出,其結合了三種模式: model, MMixIRTM)為 Cho ni. i U. h. h ,融合了三種模式的特點。 n次g模c型 IRT 模 式 、 潛 在 類 別 模 式 與 多e層. MMixIRTM 在多層次資料架構下,將學生進行潛在類別分群,每個學生皆 會分屬特定學生潛在類別及特定學校潛在類別,學生的組別不再以外顯變 項來區分,而是用潛在變項將學生分群,並根據學生的反應組型,在 Rasch 模式下估計出各群能力值與試題難度。若模式簡化為單一階層,則為混合 試題反應理論模型 MixIRTM(mixture item response theory model)。. 7.

(20) 第四節 研究範圍 本研究礙於時間與人力,本研究所提模型以 Rasch 模式為基礎,不推 論至二參數或其它多元計分模式;此外,研究者所提模式,較適用於大樣 本的情況,模型運用在小樣本的情形不在本研究探討範圍。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 8. i n U. v.

(21) 第貳章 文獻探討 DIF 檢測的方式很多元,本章將簡介 DIF 的演進概述,也試著以不同 理論觀點說明偵測 DIF 的方式,並介紹本文應用的理論模型基礎:RIM 模 型與 MMixIRTM,茲說明如下:. 第一節 偵測 DIF 的方法 有關本節偵測 DIF 的方法,茲就 DIF 演進進行簡要論述,也進而說明 混合模式運用在 DIF 的發展情形,現分別說明如下:. 一、DIF 演進概述. 政 治 大 和 IRT 取向,其中,非 IRT 取向如: (1) Mantel-Haenszel 法(Holland & Thayer, 立 1988); (2)標準化法(standardization)(Dorans & Kulick, 1986); (3) 過去偵測 DIF 的方法很多元,常用的檢測方法一般可分為非 IRT 取向. ‧ 國. 學. 羅吉斯迴歸法(logistic regression, LR) (Swaminathan & Rogers, 1990) ; (4) SIBTEST(simultaneous item bias test) (Shealy & Stout, 1993) 。IRT 取向則. ‧. 如: (1)比較試題特徵曲線參數(Rudner, Getson, & Knight, 1980) ; (2)ICC. y. Nat. 區間面積法(Raju, 1990);(3)Likelihood-ratio test(Thissen, Steinberg, &. sit. Gerrard, 1986)。. er. io. 以上方法多半只能偵測兩群組間的一致性 DIF,而無法探討連續變項. n. al 對 DIF 所造成的影響,也只能考慮到受試者變項層次可能造成的 DIF,無 iv C. n. hen hi U 法測得組織變項 (例如:學校氣氛、學校資源)造成 DIF 的情形。加上, gc. 部分方法多以「總分相同」當作能力一致的標準,當定錨題不佳,即會影 響 DIF 偵測結果。故相關研究建議在偵測 DIF 時搭配淨化程序,找出沒有 DIF 的試題當作定錨題,以增加偵測 DIF 的準確度,但淨化程序往往需耗 費不少時間。 在因素分析的架構之下,研究者會以多群組測量等價性(measurement equivalence)的觀點闡述 DIF,例如:應用 MIMIC 模型(multiple indicators multiple cause)以檢測 DIF,讓 SEM 與 IRT 有逐漸結合之勢,也較方便搭 配淨化程序,儘管能應用於 IRT 中的 Rasch 模式與二參數的 IRT 模式,該 方法仍只能偵測一致性 DIF,且只可估得試題參數,仍無法估出學生能力 值(Finch, 2005, 2012; Shin &Wang, 2009; Wang & Shin, 2010; Wang, Shin, & 9.

(22) Yang, 2009; Woods, Oltmanns, & Turkheimer, 2009)。這幾年 DIF 研究擴展 到以隨機效果的觀點進行,換言之,該類研究延伸傳統 LR 技術,將學生 的能力視為不同分配,稱為混合分配(mixture distribution),進而改善試 題參數估計精準度。另外,該類研究亦試圖因應階層巢套資料組內相依的 特性,延伸至多層次模型(Chaimongkol, 2005; Chaimongkol, Huffer, & Kamata, 2007) ;值得一提的是,有相關研究跳脫 IRT 試題參數為固定係數 的觀點,將試題難度視為隨機變數,以隨機分配將題目分為 DIF、非 DIF (Frederickx, Tuerlinckx, De Boeck, & Magis, 2010)。 現今教育研究的抽樣方式,往往因成本考量與母體特性,鮮少直接抽 取學生,多半以多階段抽樣方式,先抽地區(或學校)再抽受試者,同一. 治 政 大 design)的多層次(multilevel)資料,殘差違反獨立性假設,而使用傳統 立 迴歸分析方法將資料視為同一層,在參數估計時會使型一誤差膨脹,並得 地區(或學校)內的受試者同質性高,組間異質性高。這種巢套設計(nested. ‧ 國. 學. 到偏誤的參數,且忽略組織脈絡提供的訊息與造成的影響(Snijders & Bosker, 2011) 。. ‧. 基於巢套資料結構對試題參數估計的影響,近代研究嘗試將階層線性. y. Nat. 模式(hierarchical linear model)與 IRT 結合。Kamata(1998, 2001)首先. sit. 以二階層的階層廣義線性模式(hierarchical generalized linear model, HGLM). er. io. 解釋單參數對數模式(即 Rasch 模式) ,將 Rasch 模式視為 HGLM 的特例,. n. al 也進一步在學生階層加入學生背景變項,把試題難度分解成兩個以上的參 iv C. n. 數以解釋 DIF 情形。此方法與hRasch e n 模式偵測 h i UDIF 的方式相比,兩者在代. gc. 數上有等價關係,但因前者估計參數時將學生的因素一併考慮,因而增加 試題的估計精準度(Fox, 2005; Maier, 2002; Rabe-Hesketh, Skrondal, & Pickles, 2004) 。French 和 Finch(2010)則考量資料為多層次的特性,將傳 統 LR 檢定 DIF 的模式,擴充至能將組間變項同時考慮進去的 HLR (hierarchical logistic regression) 。Cheong(2006)也認為應以 HGLM 檢測 PISA(Programme for International Student Assessment)試題的 DIF 現象。 HGLM 無須將學生分成參照組與焦點組,即可檢定連續變項的 DIF 情形, 不像以卡方考驗為基礎偵測 DIF 的模式,還需進一步連結 (linking)才可 比較不同群體間的差異(Tay, Newman, & Vermunt, 2011)。 傳統偵測 DIF 的方式,往往忽略探就造成 DIF 的因素,近代學者開始 10.

(23) 重視此一議題,找出造成 DIF 的干擾向度。從潛在變項的觀點切入,學生 可以依其試題反應型態之同質高低進行分類,因為同一類別學生,有相近 的作答反應、相似的作答策略,故能較精確的找出造成 DIF 的原因(Mislevy & Verhelst, 1990; Rost, 1990) 。有鑑於外顯變項偵測 DIF 的侷限,近代學者 以潛在類別模式(latent class model)分析 DIF,換言之模型中置入潛在類 別變項,進而偵測潛在變項以評估 DIF 的影響;或是以混合模式(mixture model) ,先估算出學生的潛在組別,再考量潛在組別間是否存在 DIF 現象 (Cohen & Bolt, 2005; Samuelsen, 2005)。. 二、以混合模式偵測 DIF. 政 治 大. Rost(1990, 1997)提出混合 Rasch 模式(mixture Rasch model) ,並將 其應用在偵測試題的 DIF 情形。該研究先確定學生應該被歸類為幾群後,. 立. 再進行 DIF 試題偵測。Rost(1990, 1997)的研究只有 10 道試題,但對每. ‧ 國. 學. 群學生所屬潛在類別預測良好,能準確的估計試題參數,但他的研究是假 設在每一題都有 DIF 的前提下,這個假設較不符合實際教育現場。. ‧. Samuelsen(2005)則延伸 Rost(1990, 1997)的研究,以模擬研究找出影 響混合 Rasch 模式估計的因子,例如:當潛在類別和外顯變項分類高達 0.9. y. Nat. sit. 相關時,即便是小樣本的情況(250 人) ,也可正確偵測試題 DIF 情形。但 增多而減少,樣本數仍嚴重影響估計精準度。 a. er. io. 當潛在類別和外顯變項分類有中度相關時(相關係數 0.6) ,標準誤隨樣本. n. iv l C n 另一方面,Lu 和 Jiao(2009)的模擬研究加入更多模擬因子,包括: hengchi U. 潛在類別的受試者差異、混合比例(mixing proportion)、DIF 題數、DIF. 程度等,探討當不同潛在類別的受試者的能力分配不同時,DIF 的表現情 形如何,研究指出當試題 DIF 較大、較多 DIF 試題數、潛在類別之間的能 力分配差異大時,越容易偵測出 DIF 試題。但在 Demar 和 Lau(2011)的 研究則指出以混合 IRT 模型(mixture IRT)偵測非一致性 DIF 時,當兩群 人的能力值沒有差異存在時,可以將受試者分群分的比較好,也能良好地 估計試題鑑別度參數,但當兩群人的能力值有差異存在時,則會高估試題 鑑別度。但整體來說,以混合 IRT 模型估計不一致 DIF 情形的研究並不多。 Dai(2013)則將焦點放在加入共變數時,混合 Rasch 模式偵測 DIF 的情 形,其研究發現當共變數越能反應外顯變項,且外顯變項和潛在類別相關 11.

(24) 越高時,加入共變數是有助於提升參數估計精準度。 本研究將近年以混合模式偵測 DIF 的相關研究整理如表 1 所示,整體 而言,過去混合模式研究,多半僅將試題視為混合分配、亦或是僅將受試 者視為混合分配,尚未將兩者模式加以結合,因此,本研究即根據過去研 究的不足,提出「混合試題與受試者模型」。而在後續模擬研究中的研究 設計,也將參考表 1 整理之文獻。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 12. i n U. v.

(25) 表 1 混合模式偵測 DIF 的相關研究整理表. 1000、 5000、 25000. 立. 質(homogeneous)受試 者. 27. 未說明. a40l. n. 4000. 9題. DIF 程度: 0.3,0.4,0.5…1.1. 28 題. 隨機從常態分配中選 取,實際估出結果是 0.06~0.58 之間. sit. io. V. 群間的 DIF 試題難度 值差一個負號. y. Nat. Soares、 Goncalves 與 Gamerman (2009). 10. ‧ 國. Maij-de Meij、 Kelderman V 與 van der Flier(2008). 100%. 治 文中僅表示各組皆是同 政 大. ‧. 1800. DIF 程度. 學. Rost(1990) V. DIF 試題比例 或 DIF 試題數. 兩群能力分配為 N(0,1)、 i v n C h N(-0.25, 1.2) i U e. er. 作者. 群間能力值分配設為相 混合 混合 多層次 樣本數 試題數 等(no impact)或不等 受試者 試題 (impact ). ngch. 註:依年代排序. 13.

(26) 表 1 混合模式偵測 DIF 的相關研究整理表(續). 立. 1. 相等 20、50 2. 兩群能力分配的平均 數相差 0.5. 6000. io. 28. al. 1. 相等 2. 兩群能力分配為 N(-0.5, 1)、(0.5, 1). n. Frick、Strobl 與 Zeileis (2013). V. 500. DIF 比例: 10%、30%. DIF 程度:: 0.4,0.6,0.8,1.2. 0 題、5 題. DIF 程度: 0.4,0.6,0.8,-0.8,-1. 4 題、8 題. DIF 程度皆為 0.6. 2題. DIF 程度:0,0.2,0.4...4. y. 500、 1000. 政 治 相等 大. ‧. V. 40. sit. V. 8000. DIF 程度. er. V. Nat. DeMar 與 Lau(2011). V. DIF 試題比例 或 DIF 試題數. 學. Cho 與 Cohen (2010) Frederickx、 Tuerlinckx 、Boeck 與 Magis (2010). ‧ 國. 作者. 群間能力值分配設為相 混合 混合 多層次 樣本數 試題數 等(no impact)或不等 受試者 試題 (impact ). i n C 1.h 相等 2. e 群內有 hi U n g cimpact 20. v. 3. 群間有 impact,impact 增幅為 0, 0.4,…4. 14.

(27) 表 1 混合模式偵測 DIF 的相關研究整理表(續). 立. DIF 比例: 20%,40% (作者將把 DIF 程度 比較大的題目當作有 兩群能力分配為 DIF 程度:介於 0.3 ~ DIF,其餘試題也都具 N(0, 1)、N(1, 1) 1.3 不等 有小幅度 DIF,因 此,嚴格來說每一題 都有 DIF). y 相等. 30. io. n. al. sit. 900、 2500. ‧ 國. V. 30. 政 治 大. ‧. V. 1000. Nat. 本研究:混 合試題與受 試者模式. X. DIF 程度. 學. Dai(2013). DIF 試題比例 或 DIF 試題數. 6 題、10 題、20 題. er. 作者. 群間能力值分配設為相 混合 混合 多層次 樣本數 試題數 等(no impact)或不等 受試者 試題 (impact ). Ch. engchi. 15. i n U. v. 群間的 DIF 試題難度 值差一個負號.

(28) 第二節 多層次混合試題反應理論模型 茲就模式理論基礎與應用、模式說明等說明如下:. 一、理論基礎與應用 多層次混合試題反應理論模型(multilevel mixture item response theory model, MMixIRTM)結合IRT模式、潛在類別模式、多層次模型等三種模 式的特點。以學生巢套於學校的資料為例,MMixIRTM讓學生分屬兩種階 層的潛在類別:學生階層潛在類別及學校階層潛在類別,其可以解釋在多 層次資料中,隱含的巢套情形。若學生有相同學生階層潛在類別,表示學 生的反應組型(response pattern)較相似,在解題策略上有某種程度的同. 政 治 大 學校有相似的特性(Vermunt & Magidson, 2005) 。MMixIRTM更可在各階 立. 質(Mislevy & Verhelst, 1990) ;倘學校有相同的學校階層潛在類別,表示 層放入分屬的共變數,以解釋各群的組成情形,例如把性別、種族放在學. ‧ 國. 學. 生階層,學校都市化程度放在學校階層,此模型即為可偵測DIF(Cohen & Bolt, 2005) 。而MMixIRTM因融合IRT,還可提供不同潛在類別間的試題資. ‧. 訊,可比較各潛在類別間的試題難度是否相同。MixIRTM(mixture item. y. Nat. response theory model)已在教育測驗中廣為應用,可用來偵測試題或題組. io. sit. 中的DIF情形,也可應用於速度測驗(Cohen & Bolt, 2005; Cohen, Gregg, &. a. er. Deng, 2005; Samuelsen, 2005; von Davier & Yamamoto, 2004) ,Embretson和. n. iv Reise(2000)也指出學生的潛在類別的分布情形 ,是效度的重要參酌之一。 l. Ch. n U engchi jt. 1. 2. jtg1.  1|1 jt11.  2|1 jt21. .... K. jtg2. jtgK. ....  G|1 jtG1. jt12. jt22. ... jtG2. 圖 1 資料結構圖 16. jt1K. jt2K .... jtGK.

(29) 二、模式說明 以  jtgk 表示 t 校中的第 j 學生、學生層級的潛在類別為 g 、學校層級的 潛在類別為 k 的能力值,假設其服從常態分配: jtgk ~ N ( gk ,  gk2 ) ,由此分 配可知學生的能力值是在各個潛在類別產生變異,各潛在類別有自己的平 。學生在各層的潛在類別機率可表示成圖 1。 均數(  gk )、變異數(  gk2 ) 由圖 1 可知, t 校中的第 j 學生,被分到學校潛在類別為 k 的機率為  k , 而在學校潛在類別為 k 裡,被分到學生潛在類別為 g 的機率為  g|k 。 一般而言,潛在類別模式通常用來將受試者分類,將同質性高的人分 為同一類,若學生能力值可表示為式(1):. 政 治 大      G. 立. j. g 1. g. (1). g. ‧ 國. 學. j 表示第 j 個學生的能力值,若潛在類別共有 G ( g  1, 2... G )類,  g. 表示第 g 類潛在類別學生的平均能力, g 代表學生被歸類到第 g 類的機率,. ‧. 也可將  g 視為權數,加總起來要為 1。. sit. n. al. K. G. i n U.  jt   k   g|k   gk. Ch. k 1 g 1. engchi. er. io. 表示為式(2):. y. Nat. 若延伸至多層次模式,階層一為學生,階層二為學校,潛在變項可被. v. (2).  jt 表示第 t 個學校中第 j 個學生的能力值, g 表示學生層級的潛在類. 別, g  1, 2... G 類,k 表示學校層級的潛在類別, k  1, 2... K 類,  k 代表學 生所屬的學校被歸類到學校潛在類別為 k 的機率, g|k 表示給定學校類別 k G. 之下,學生潛在類別為 g 的機率,  g|k  1 。 g 1. 而在 MMixIRTM 模式中, yijtgk 表示 t 校中的第 j 學生、學生層級的潛 在類別為 g 、學校層級的潛在類別為 k 在第 i 題的作答反應,在此為 0、1 17.

(30) 二元計分;t 校中的第 j 學生在第 i 題的答對機率 Pijt 可表示如公式 (3) 、 (4) ,  igk 即為第 i 題在學生層級的潛在類別為 g 、學校層級的潛在類別為 k 的試. 題難度。 K. G. Pijt   k   g|k  P( yijtgk  1| g, k ,  jtgk ). (3). k 1 g 1. P( yijtgk  1 | g , k ,  jtgk ) . 1 1  exp[( jtgk   igk )]. (4). 而若要進一步探討學生、學校被分到各群的解釋情形,可在  g|k 放入 學生層級、學校層級的共變數,數學式如公式(5), W jt 表示學生層級的 變項, g |k , W jt 為多類別羅吉斯迴歸 (multinomial logistic regression) ,試圖. 治 政 大 以共變數預測學生被分到該潛在類別的機率。若改成放入學校層級的變項 立 W ,即是試圖預測學校被分到某學校潛在類別的機率。  g |k , W  jt. 學. P. exp( 0 gk    pgW jtp ) p 1 P. G.  exp( g 1. 0 gk.    pgW jtp ). ,  0 gK  0. (5). ‧. ‧ 國. t. p 1. Nat. sit. y. 儘管 MMixIRTM 模式有許多優點,但在各潛在類別的連結上,是將. er. io. 所有題目當成定錨題,亦即有 DIF 的試題也作為定錨題之用,這種定錨方. n. 式為此模式的缺點。另外,本研究將學校潛在類別群數設為 1,不討論多 a v 階層的情況。. i l C n hengchi U. 第三節 隨機試題混合模型 De Boeck (2008)將試題難度參數視為隨機效果用在偵測 DIF 試題上, 經由 Frederickx 等人(2010)延伸後,檢測 DIF 可不需事前找出沒 DIF 的 試題為定錨題,而是可以根據學生的作答反應,用一步驟的方式區別出試 題有無 DIF,進而將試題分為有 DIF、無 DIF 兩群,無 DIF 的題目才會被 當成定錨題,連結試題間的量尺。以下敘述 RIM 相關數學式,但要特別說 明的是,RIM 並未延伸至多層次模型,且仍是以外顯變項偵測試題的 DIF 情形。 18.

(31) 令 yij 為第 j 學生在第 i 題的作答反應,服從伯努力分配(Bernoulli , j 代表第 j 學生 distribution) : yij ~ Ber( pij ) ,表示成 IRT 模式為公式(6) 的能力值, i 為第 i 題的試題難度。一般假設  j ~ N ( , 2 ) ,多數研究常將 u 令等於 0。在 De Boeck(2008)中,更進一步將試題難度也視為一個分. 配: i ~ N ( ,  2 ) ,讓學生能力值和試題難度參數同時為隨機係數。 pij . 1 1  exp[ ( j   i )]. (6). 現假設以外顯變項將學生分成 g  1, 2, ...G 共 G 群,將此放入模式內可 表示成公式(7):. 立. 治 政 p 大 )   ijg. log( 1  pijg. jg. (7). ig. ‧ 國. 學.  jg 代表第 g 群中 j 生的能力值,  jg 服從常態分配:  jg  N (  ,  2 ) ,各群 g. g. ‧. 學生有自己的平均數、變異數,而為能讓公式(7)可辨認(identify) ,且 能讓所有學生在相同量尺,必須對  jg 或  ig 給定條件限制,Cho 和 Cohen. sit. y. Nat. er. io. (2010)將  1 令為 0, 2 ,  3 ....G 則為相對於第一群學生之下的平均數。. n. 對於試題的 DIF 與否,RIM 將試題分為兩個潛在類別,一群為 DIF a v. i l C n C 表示試題 i 的 試題,另一群為非 DIF 試題。在模式中將以潛在指標變項 hengchi U i. DIF 情形,如公式(8)所示,Ci 並服從伯努力分配(Bernoulli distribution): Ci ~ Ber( DIF ) 。 0 試題 i 非DIF Ci   1 試題 i 為DIF. (8). 在給定試題潛在類別的條件下,學生的答對機率和試題難度將視試題 是否 DIF 而有不同的情形,如表 2 所示。當試題沒有 DIF(亦即 Ci  0) , 對各群學生而言試題難度一樣,故所有學生在同一題的試題難度值相同, 19.

(32) 同為 i 。也因試題無 DIF,試題難度皆來自同一常態分配,平均數和標準 差皆為常數。而當試題有 DIF(亦即 Ci  1) ,表示同一試題對不同群學生 會有不同的試題難度,試題難度值  ig 來自一多變量常態分配,各群學生 的試題難度各有其對應的平均數和標準差,但為了同時讓 DIF 試題和非 DIF 試 題 的 公 式 可 辨 識 , 有 研 究 假 設 各 試 題 的 平 均 數 相 同 (    1   G )。 表 2 RIM 答對機率分配和試題難度分配 試題非 DIF ( Ci  0). | Ci  1)   jg   ig. ijg. i. jg. i. ijg. 學. ‧.    1     i1     C  1 ~ N    ,        j       iG    G  . i | Ci  0 ~ N ( ,  2 ).   21   1 G            2     G 1    G . n. al. er. io. sit. y. Nat. 試題難度 分配. log( 1  pijg. 治 p 政 | C  0)     log(大 1 p 立. ‧ 國. 答對機率. pijg. 試題為 DIF ( Ci  1). Ch. engchi. 第四節 小結. i n U. v. 自 Rost(1990)開始,陸續有學者以混合 Rasch 模式探討潛在變項間 的 DIF 情形,並探討哪些因素會影響模式估計精準度,但過去的研究裡, 不管試題有無 DIF,均將所有試題當成定錨題,即便 RIM 模式可以將先將 試題分為有 DIF、沒 DIF 兩群,但它只能探討外顯變項的 DIF 情形,並未 納入潛在變項的觀點。MMixIRTM 能處理混合受試者的情形,探討學生和 學校的潛在類別,但此模式是將所有試題皆視為定錨題,即便是 DIF 試題, 也將之視為定錨題。反觀 RIM 模式,其先自動偵測試題是否為 DIF 後, 再進一步進行定錨題的界定,恰巧彌補 MMixIRTM 的不足,故本研究提 出「混合試題與受試者模型」 ,詳細模式及其設定,將闡述於下一章。 20.

(33) 第参章 研究方法 研究者參閱相關文獻後,提出運用在單一層次資料的「混合試題與受 試者模型」,為了解模式的可行性,本文將以模擬研究比較「混合試題與 受試者模型(以下稱 MIE 模型)」與 RIM 模型,在不同模擬情境下估計參 數的表現,同時,並進一步檢視「混合試題與受試者模型」應用於實徵資 料分析之可能情況。本章就理論基礎與模型、模擬因子與估計精準度、研 究工具、實徵資料,茲逐一分述如下:. 第一節 理論基礎與模型 茲就理論模式、先驗分配和後驗分配與收斂監控與模式選擇等,分別 說明如下:. 立. 一、理論模式. 政 治 大. ‧ 國. 學. 本研究結合 MMixIRTM 和 RIM 模型,將學生能力值和試題參數同時 視為隨機效果之下,以處理單層次形態的資料。在單一層次的資料內,相. ‧. 似反應組型的學生會被視為同一群;. sit. y. Nat. 在 MMixIRTM 模型中,著重在於如何有效分類受試者,因此,概念 上稱為混合受試者模式,然而,將類似概念應用在偵測 DIF 試題時,研究. io. a. er. 者可能將試題區分成 DIF、非 DIF 兩類,稱為混合試題模式,其中,非 DIF. n. v l 的試題將作為定錨題,以作為受試者能力的配對 ,而全部試題進行檢測後, ni Ch. U. engchi 有 DIF 的試題,在不同潛在類別中將呈現出不同的難度。. 表 3 是以數學公式表達本研究模型,其中,表格中英文字母代表意義 同前述,而下標的 ijg 表示試題為第 i 題、第 j 個學生,該生屬於學生潛在 類別 g 。. 21.

(34) 表 3 本研究答對機率分配和試題難度分配. 答對機率. 試題非 DIF ( Ci  0). 試題為 DIF ( Ci  1). pijg log( | Ci  0)   jg   i 1  pijg. pijg log( | Ci  1)   jg   ig 1  pijg. 試題難度 分配.    1     i1     C  1 ~ N    ,        j       iG    G  . i | Ci  0 ~ N ( ,  2 ). 立. 試題 DIF 分類.   21   1 G            2     G 1    G . 政 治 大. Ci ~ Ber (1   DIF ). Ci ~ Ber( DIF ). ‧. ‧ 國. 學. 在執行分析時,研究者為了要讓不同類別間學生可以互相比較特性,. y. Nat. n. al. er. io. 其中,參數分配的設定是如公式(9) 、(10)所示。. sit. 要將不同類別的參數連結 (linking)至同一量尺上,故將  jg 轉換為  g2  jg ,.  jg ~ N (  g ,  g2 ). Ch. engchi. i n U. v.  jg ~ N (  g , 1) , 11  0,  g ~ N (  g , 1), g  1,2,3,...G. (9) (10). 由公式(10)可知,在能力值上,研究者是以第 1 群潛在類別的學生當作 參照組,將平均數設為 0( 1  0 ),以此視為基準量尺進行參照,而其他 潛在類別的學生平均數則自由開放估計,其中,此程序執行目的是為讓其 他潛在類群學生能力值的平均數和變異數,是相較於 N (0, 1) 這個參照組的 量尺。經等化之後,才進一步比較不同潛在類別的學生間,其試題是否存 在 DIF 情形。. 22.

(35) 二、先驗分配和後驗分配 茲分別說明研究者於執行貝氏分析時,所使用先驗及後驗分配的界定 如下: (一)先驗分配 本研究是以貝氏估計法進行試題參數、能力值、學生與學校所屬潛在 類別的估計,而貝氏估計是利用先驗分配去限制或引導整個參數估計,正 確的先驗分配可提供合理的估計結果,讓演算結果落在合理的範圍並遠離 極端值。由於本研究的模型較為複雜,故在先驗分配選取需更加注意。其 中,若使用過度訊息(over information)的先驗分配對演算法的牽制程度. 政 治 大 合適,但其估計結果和非貝氏的估計方法(如 ML 估計法)相同,有失貝 立. 較大,會影響估計精準度,若選取無訊息的先驗分配,在某些情況下雖然 氏估計法的精神,故研究者是選取中等訊息的分配。以下茲逐一羅列本研. ‧ 國. 學. 究所使用各個參數、超參數(hyper-parameter)的先驗分配: g ~ categorica l ( g [1 : G ]). (11). ‧. (12). n. a l. (13). er. io.  g ~ N (0, 1), g  1, 2,...G , 1  0. sit. y. Nat.  jg | G  g ~ N (  g , 1), j  1, 2,...J , t  1, 2,...G. v ~ N (0, 1) I (0, 1) g  1,2,... n Gi. Ch. g. engchi U. (14).  g ~ N (0, 1), g  1, 2,...G. (15).  DIF ~ Beta (1 , 1). (16). 公 式 ( 11 ) 指 出 , 學 生 所 屬 潛 在 類 別 g 被 視 為 類 別 分 配 ( categorical ,由混合機率  來決定其所屬類別機率,而公式(14)中的 I (0, 1) distribution) 為指標函數,表示只擷取  g 常態分配下正值的部分。另外,根據表 3 可知 「試題有無 DIF」是服從伯努力分配(Bernoulli distribution) ,如 Ci ~ Ber( DIF ) , 其 中 ,  DIF 為 伯 努 力 分 配 中 的 參 數 , 其 先 驗 分 配 為 beta 分 配 ( beta 23.

(36) distribution ),如公式( 16 )所示。此外,  g [] 代表狄氏分配( dirichlet G. distribution),其分配如公式(17)所示,其中,   g  1 代表學生屬於各 g 1. 學生潛在類別的機率相加為 1,而  g 則為狄氏分配中的參數。 G.  (. g. ). g 1. G. (  g ). G. .  g 1. (17). g. g 1. g 1. 公式(13)中 1  0 是要將參照組的能力設為標準常態分配,並連結各潛. 政 治 大. 在類別的量尺(Cho, Cohen, & Kim, 2006) 。公式(15)難度值的先驗分配. 立. 設為常態分配,可改善適配的穩定度,另外難度值的先驗分配選共軛函數,. ‧ 國. 學. 並避開瑕積分(improper)不為 1 的先驗分配,以利後驗分配的運算。最 後,過去文獻也大多證實上述先驗分配可達到一定的估計穩定度,故本研. ‧. 究使用以上的先驗分配(Bolt, Cohen, & Wollack, 2001, 2002; Cho, & Cohen,. 2010; Cohen, Cho, & Kim, 2005; Johnson, & Albert, 1998; Samuelsen, 2005;. y. Nat. er. io. (二)後驗分配. sit. Wollack, Cohen, & Wells, 2003) 。. al. n. v i n 在決定本研究先驗分配後,經公式推導,本研究理論模型的概似函數 Ch U i e h n c g 18 )所示: 如公式( J  G I  1u 1u u u P (U | S )     g  ( Pijgdij (1  Pijgd ) ij )Ci ( Pijgij (1  Pijg ) ij )1Ci  j 1  g 1 i 1 . (18). uij 為學生 j 在第 i 題的作答反應,U 表示學生的反應組型,S 表示參數集:. S  g ,  jg ,  ig , Ci ,  DIF ,  g , Pijgd 表示學生屬於第 g 群時,當試題 i 有 DIF 時. 的答對機率,若試題 i 沒有 DIF,則答對機率為 Pijg 。而因為將能力值重新 轉換為  g2  jg ,在考慮混合機率(mixture probability) g 之下,參數集為: S  g ,  j ,  g ,  ig , Ci ,  DIF ,  g ,而聯合後驗分配可表示為式(19) P( S | U )  L( g , jg ) P( jg |  g ) P(  g ) P( g |  g )( P( g )  P( g ) P(  ig | Ci ) P(Ci |  DIF ) P( DIF ) 24. (19).

(37) 三、收斂監控與模式選擇 利用貝氏估計法進行參數估計時,有幾項議題需要注意,分別是:收 斂監控、標籤轉移及模式選擇,茲分別說明如下: (一)收斂監控. Cho 等人(2006)的研究指出,以貝氏估計法估計混合 IRT 模型時, 在小樣本、試題少(例如:360 人、10 題)的情況下不易收斂,建議在 30 題以上的情況下,才有較高的收斂機率。為了確認參數估計達收斂,研究 者會檢查後驗分配的機率密度函數圖形、Gibbs 抽樣軌跡圖,以瞭解參數 估計收斂情形。另外,本研究在估算參數時進行 8000 次疊代,但只取後. 政 治 大. 面 3000 次結果。. 立. (二)標籤轉移(label switch). ‧ 國. 學. 標籤轉移為貝氏估計應用在潛在類別上的一大議題,研究者若給予不 同的參數值,卻得到相同的後驗分配,則稱為模式無法辨識。其中,若參. ‧. 數的先驗分配提供充足的訊息量,模式能成功辨識的機會越高,相對而言,. y. Nat. 標籤轉移則為模式無法辨識的狀況之一。研究者舉一例說明 MMixIRT 模. sit. 式下的標籤轉移情況,例如:模式將受試者分為兩群,第一次估計時,是. er. io. 將第一群人標記為 1,第二群人標計為 2,但在第二次估計時,卻將第一. n. al 群人標記為 2,第二群人標記為 1,儘管兩次的估計結果沒有問題,同樣 iv C. n U ngch. 做正確的分群,但給予受試者的標記不同。 he i. 研究者將幾種標籤轉移的現象大致分為幾類:(1)發生在鏈內(within. chain):其概念是指在執行 MCMC 時,在同一鏈但不同疊代時發生標籤 轉移。此狀況為給定不同的參數,卻得到相同的概似函數。此結果往往是 因為估計訊息不充分所造成的,目前,研究者可藉由檢查參數的邊際概似 函數以發現,但仍無法完全準確地偵測出來(McLachlan & Peel, 2000)。 (2)發生在鏈間(between chains):其概念是指在執行 MCMC 時,在不 同鏈之間發生標籤轉移。此種轉移現象在模擬研究中,可藉由比較估計值 和真值的情形以判斷是否有標籤轉移的情形。(3)發生在學校階層:是 指在執行 MCMC 時,若鍊間的標籤轉移不是發生在學生階層,而是在學 校階層,其中,標籤移轉發生於學校階層,是因為學生的混合比例由學校 25.

(38) 混合比例(mixture proportion)所控制。而在本研究,研究者擬藉著比較 不同鏈之間的能力平均值,來判斷是否有鏈之間的標籤轉移,但根據以往 混合模式的相關研究結果與經驗,大多沒有發生標籤轉移的現象(Cho &. Cohen, 2010)。 (三)模式選擇指標 在混合模式中,決定合適的的受試者分類群數,可從幾個指標來判斷 比較,其中,Li、Cohen、Kim 和 Cho(2006)比較 AIC、BIC(Bayesian. information coefficient )、 DIC ( deviance information coefficient )、 PsBF (pseudo-Bayes factor)等指標,發現 BIC 在單參數、二參數、三參數的混. 政 治 大. 合模式的表現均屬良好,而 AIC、DIC 則傾向選擇較複雜的模式。因此, 本研究在處理實徵資料時,將選取 AIC、BIC 做為決定分群數目的指標,. 立. 、 (22)所示, D 表示概似函數, m 表示參數個數, 其定義分別如公式(21). ‧ 國. 學. n 表示樣本數。. ‧. AIC  2 D  2m BIC  2 D  m log n. (20). Nat. y. (21). er. io. sit. 第二節 模擬因子與估計精準度. 關於模擬研究,茲就本研究操弄模擬因子及判別估計精準度的指標,. al. n. 分別說明如下:. 一、模擬因子. Ch. engchi. i n U. v. 本研究經整理與參考過去文獻後(表 1) ,將模擬因子設定為學生數(2 種)、DIF 試題數(3 種)、模式(2 種) ,而固定因子則為試題數目和潛在 類別數,其中,每種情況會重複(replicate)10 回合。模擬研究因子設計 如表 4 所示,茲逐一分述如下:. 26.

(39) 表 4 模擬研究因子設計. MIE 模型. 題數. DIF 試題數. 30. 6、10、20. 學生數. 潛在 類別數. 900、2500. 4. DIF 程度 難度值差 一個負號. 混合比例 5%、20%、 30%、45%. (一) 試題數 過去多數混合模式研究並不特別關注在不同試題數之下,模式估計精 準度情形,故本研究將試題數當成固定因子。本研究將試題數固定為 30 題,是因該題數與常見考試的試題數目近似,例如:國中基本能力測驗數 學科 34 題、大學入學考試中心英文聽力測驗 40 題、國外 PSAT/NMSQT. 政 治 大. (preliminary SAT / national merit scholarship qualifying test)數學科 38 題,. 立. 同時,在 Dai(2013) 、DeMar 和 Lau(2011)的研究中,試題數也大多以. ‧ 國. 學. 30 題為考量。. (二) DIF 試題數. ‧. 過去混合模式的研究中,DIF 試題數最少為 2 題(如:Frick, Strobl, &. sit. y. Nat. Zeileis, 2013),最多則全部試題均有 DIF(如:Dai, 2013; Rost, 1990),由. io. er. 此可知,在 DIF 試題數目的設定上尚未有共識,但若採用極端情況(如全 部皆為 DIF 試題) ,容易影響學生實質能力估算,因此,本研究是設定 DIF. n. a. v. l C 試題數為 6、10、20 題,分別表示少部分試題有 DIF n、i三分之一試題有 DIF、 三分之二試題有 DIF。. hengchi U. (三) 潛在類別數 由於過去混合模式的模擬研究,多將潛在類別數簡化為 2 群,並未深 入探討有多組潛在類別時的模式估計精準度,故本研究特別設定在多組潛 在類別的情境下,將潛在類別數設為 4 群,以檢視「混合試題與受試者模 型」的估計表現情形。 (四) DIF 程度與試題難度 過去混合模式研究中,DIF 程度是從 0 至 1.3 不等,各值均曾被關注 過(可見表 1),而本研究參考 Rost(1990)的設定方式,各類群間 DIF 27.

(40) 試題的試題難度差一個負號(例如:若某一群的難度為-2、-1.8,另一群的 難度則設為 2、1.8) ,而非各試題的 DIF 程度相同(例如:試題難度在兩 。整體而言,本研究對於非 DIF 試題的難度值, 群人的差異皆固定相差 0.6) 是從-2.5~2.5 之間相等間隔抽出,其試題難度值如表 5~表 7 所示。其中, 表 5~表 7 包含研究者在 MIE 模型的情境下,4 群人的難度值設計。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 28. i n U. v.

(41) 題號. 第1群. 第2群. 第3群. 第4群. 1. -2.50. -2.50. -2.50. -2.50. 2. -2.28. -2.28. -2.28. -2.28. 3. -2.07. -2.07. -2.07. -2.07. 4. -1.85. -1.85. -1.85. -1.85. 5. -1.63. -1.63. -1.63. -1.63. 6. -1.41. -1.41. -1.41. -1.41. 7. -1.20. -1.20. -1.20. -1.20. 8. -0.98. -0.98. -0.98. -0.98. 9. -0.76. -0.76. -0.76. -0.76. 10. -0.54. -0.54. -0.54. -0.54. 11. -0.33. 12. -0.11. 政 治-0.33 大 -0.33 -0.11 -0.11. 13. 0.11. 0.11. 0.11. 0.11. 14. 0.33. 0.33. 0.33. 15. 0.54. 0.54. 0.54. 0.54. 16. 0.76. 0.76. 0.76. 0.76. 17. 0.98. 0.98. 0.98. ‧. 18. 1.20. 1.20. 1.20. y. 表 5 試題難度值(DIF 試題數為 6 題). 19. 1.41. 1.41. 1.41. 20. 1.63. 1.63. 1.63. 21. 1.85. 22. 0.33. 0.98. io. sit. 1.20 1.41. n. er. Nat. al. -0.11. 學. ‧ 國. 立. -0.33. n U i 2.07 e n g c h2.07. iv. 1.63. 1.85. 2.07. 1.85 C h. 23. 2.28. 2.28. 2.28. 2.28. 24. 2.80. 2.80. 2.80. 2.80. 25. 1.5. -1.50. -0.90. 0.90. 26. 0.9. -0.90. -0.30. 0.30. 27. 0.3. -0.30. -1.50. 1.50. 28. -0.3. 0.30. 1.50. -1.50. 29. -0.9. 0.90. 0.30. -0.30. 30. -1.5. 1.50. 0.90. -0.90. 註:DIF 試題為 25 至 30 題. 29. 1.85 2.07.

(42) 題號. 第1群. 第2群. 第3群. 第4群. 1. -2.50. -2.50. -2.50. -2.50. 2. -2.24. -2.24. -2.24. -2.24. 3. -1.97. -1.97. -1.97. -1.97. 4. -1.71. -1.71. -1.71. -1.71. 5. -1.45. -1.45. -1.45. -1.45. 6. -1.18. -1.18. -1.18. -1.18. 7. -0.92. -0.92. -0.92. -0.92. 8. -0.66. -0.66. -0.66. -0.66. 9. -0.39. -0.39. -0.39. -0.39. 10. -0.13. -0.13. -0.13. -0.13. 11. 0.13. 12. 0.39. 治0.13 0.13政 大 0.39 0.39. 13. 0.66. 0.66. 0.66. 0.66. 14. 0.92. 0.92. 0.92. 15. 1.18. 1.18. 1.18. 1.18. 16. 1.45. 1.45. 1.45. 1.45. 17. 1.71. 1.71. 1.71. ‧. 18. 1.97. 1.97. 1.97. y. 表 6 試題難度值(DIF 試題數為 10 題). 19. 2.24. 2.24. 2.24. 20. 2.50. 2.50. 2.50. 21. -2.00. 22. 0.92. 1.71. io. sit. 1.97 2.24. n. er. Nat. al. 0.39. 學. ‧ 國. 立. 0.13. n U i 1.56 e n g c h -0.67. iv. 2.50. -0.22. -1.56. 2.00 C h. 23. -1.11. 1.11. -2.00. 2.00. 24. -0.67. 0.67. -1.56. 1.56. 25. -0.22. 0.22. -1.11. 1.11. 26. 0.22. -0.22. 2.00. -2.00. 27. 0.67. -0.67. 1.56. -1.56. 28. 1.11. -1.11. 0.22. -0.22. 29. 1.56. -1.56. 0.67. -0.67. 30. 2.00. -2.00. 1.11. -1.11. 註:DIF 試題為 21 至 30 題. 30. 0.22 0.67.

(43) 表 7 試題難度值(DIF 試題數為 20 題) 第2群. 第3群. 第4群. 1. -2.00. -2.00. -2.00. -2.00. 2. -1.56. -1.56. -1.56. -1.56. 3. -1.11. -1.11. -1.11. -1.11. 4. -0.67. -0.67. -0.67. -0.67. 5. -0.22. -0.22. -0.22. -0.22. 6. 0.22. 0.22. 0.22. 0.22. 7. 0.67. 0.67. 0.67. 0.67. 8. 1.11. 1.11. 1.11. 1.11. 9. 1.56. 1.56. 1.56. 1.56. 10. 2.00. 2.00. 2.00. 2.00. 11. -2.00. 12. -1.79. 13. -1.58. 14. 治0.50 2.00政 大 1.79 0.72. -0.50. 1.58. 0.94. -0.94. -1.37. 1.37. 1.17. 15. -1.16. 1.16. 1.39. -1.39. 16. -0.95. 0.95. 1.61. -1.61. 17. -0.74. 0.74. 1.83. 18. -0.53. 0.53. 2.06. y. 第1群. ‧. 題號. 19. -0.32. 0.32. 2.28. 20. -0.11. 0.11. 2.50. 21. 0.11. 22. -1.17. -1.83. io. sit. -2.06 -2.28. n. er. Nat. al. -0.72. 學. ‧ 國. 立. iv. -2.50. -2.50. 0.32. Ch. n U i -0.32 e n g c h -2.28. 23. 0.53. -0.53. -2.06. 2.06. 24. 0.74. -0.74. -1.83. 1.83. 25. 0.95. -0.95. -1.61. 1.61. 26. 1.16. -1.16. -1.39. 1.39. 27. 1.37. -1.37. -1.17. 1.17. 28. 1.58. -1.58. -0.94. 0.94. 29. 1.79. -1.79. -0.72. 0.72. 30. 2.00. -2.00. -0.50. 0.50. -0.11. 註:DIF 試題為 11 至 30 題. 31. 2.50 2.28.

(44) (五) 學生數和學校數 過去混合模型的研究裡,樣本數設定從 500 人~8000 人不等(詳見表. 1) ,為避免受試者太少無法收斂,本研究小樣本設定為 900 人,大樣本則 設為 2500 人。 (六) 混合比例 在 MIE 模型中,本研究對於 4 群學生的比例分別設定為 0.05、0.2、0.3、. 0.45,代表在這 4 群中,有些類型的學生很稀少,只佔 5%,但也有某些類 型的學生佔將近半數,佔了 45%,另外,有兩種類型的學生所佔的比例很 接近,分別為 20%和 30%。. 政 治 大. 立. 二、試題參數估計精準度. ‧ 國. 學. 本研究評估難度值精準度的指標為 RMSE(root mean square error), 如公式(24)。 ˆr 代表在重複 1, 2, 3, …R 次之下,估計而得的試題參數向. ‧. 量,  則代表真實值向量, p 表示試題數,RMSE 為估計值和真實值兩者. io. al. n. RMSE ( ˆ ) .  (ˆ r 1. Ch. r.   )T ( ˆr   ) pR. engchi U. er. R. sit. y. Nat. 離均差平方取平均後再取平方根,其中,數值越大代表估計越不精準。. v ni. (24). 第三節 研究工具 本研究使用軟體為 WinBUGS(Spielgelhalter, Thomas, Best & Lunn,. 2002),BUGS 為「Bayesian inference Using Gibbs Sampling」的縮寫。此 軟體為以貝氏估計法搭配蒙地卡羅馬可夫鏈(Markov Chain Monte Carlo,. MCMC)與 Gibbs 抽樣(Gibbs sampling) ,為知名的貝氏估計法軟體之一, 其需由使用者自行撰寫語法,相較於一般套裝軟體,WinBUGS 可依使用 者的語法而產生許多變化,延伸性與彈性較強,因此,較適合用於新模式 的發展。. 32.

(45) 第四節 實徵資料 本研究將採用 100 學年度新北市學力檢測國小五年級數學科實徵資料, 作為本文模式的驗證,而數學科的評量向度包含數與計算、量與實測、幾 何、代數、統計與機率等,而認知向度是橫跨理解、分析及應用範疇;數 學題型均為 4 選 1 之選擇題共 34 題,實際施測題目可於新北市國民中小 。除了對 學能力檢測網頁下載(網址:http://edutest.ntpc.edu.tw/default.asp) 學生進行施測之外,也請各班老師填寫教師問卷。本研究從資料庫中隨機 抽取 900 名學生,先進行單向度檢驗。由因素分析可知,最大特徵值為第 二大特徵值的 3.86 倍,第二大特徵值則為第三大特徵值的 1.02 倍,參考. Lord(1980)的研究與概念,本資料應符合單向度假設,故本研究以此資. 政 治 大. 料作為 MIE 模型的實徵資料。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 33. i n U. v.

(46) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 34. i n U. v.

(47) 第肆章 研究結果 本文以模擬研究比較 MIE 模型與 RIM 模型,在不同樣本數、DIF 試 題數的情況下,其參數回復性與 DIF 檢測概況,同時,本研究也將 MIE 模型應用在實徵資料分析上。本章將先呈現模擬研究中,兩個模型在試題 參數、分群結果的表現情形,再呈現實徵資料的研究結果。現就模擬研究 中試題參數、分群結果、實徵資料結果茲一一分述如下:. 第一節 模擬研究結果 本研究在不同模擬情境下,欲探討 RIM 模型與 MIE 模型等兩個模型. 政 治 大 籤轉移的情形,以讓本研究可將參數做正確的比較。另外,研究者也會確 立 的參數回復性情形,在比較結果之前,研究者均會檢查估計結果是否有標. ‧ 國. 學. 認每個參數的機率密度函數圖形與 Gibbs 抽樣軌跡圖,以確保參數達到收 斂。整體來說,本研究欲估計的參數均有收斂,收斂情形舉例如圖 2 所示。. ‧. b[1,20] sample: 3000. al. n -1.0. er. io. sit. y. Nat. 2.0 1.5 1.0 0.5 0.0. i 0.0 2.0 n C h 1.0 engchi U. v. b[1,20] 3.0 2.0 1.0 0.0 -1.0 5001. 6000. 7000 iteration. 圖 2 機率密度函數圖形與 Gibbs 抽樣軌跡圖. 35. 8000.

(48) 確保參數收斂之後,本節將說明 RIM 模型與 MIE 模型,在各模擬情 境的研究結果,包含:DIF 偵測正確性、試題參數回復性、分群結果等。 茲一一說明如下:. 一、試題參數結果 表 8 呈現 RIM 模型與 MIE 模型在各個模擬情境的試題參數回復情形, 其中包含判斷試題是否有 DIF 的正確比率、難度值的 RMSE。 從判斷 DIF 的正確率來看,RIM 模型和 MIE 模型在各種條件下幾乎 都能 100%判斷出試題是否有 DIF 情形,惟 MIE 模型在 DIF 試題只有 6 題 時,判斷 DIF 的正確率為 93%,但這個正確率還是很高。整體而言,兩個. 政 治 大. 模型在判斷 DIF 正確率的表現上,RIM 表現最好,MIE 模型的偵測表現也 具有一定水準的表現,僅在 DIF 試題數偏少時,較無法完美判斷。. 立. 從試題難度的 RMSE 來看,在 RIM 模型裡,難度參數的 RMSE 介在. ‧ 國. 學. 0.11~0.18 之間,顯示試題參數的估計情形十分良好。另外,在相同樣本數 的情形下,隨著 DIF 試題增多,RMSE 有增加的趨勢;在相同 DIF 試題數. ‧. 的情形下,隨著樣本數增多,RMSE 則有減少的趨勢。. 在 MIE 模型裡,難度參數的 RMSE 介在 0.13~0.41 之間,試題參數的. y. Nat. sit. 估計在「2000 人、DIF 試題數 20」的情境下表現最好,在「900 人、DIF. er. io. 試題數 6」的情境下表現最差。另外,在相同樣本數的情形下,隨著 DIF. n. 試題增多,RMSE 有減少的趨勢;在相同 DIF 試題數的情形下,隨著樣本 a v. i l C n 數增多,RMSE 則有減少的趨勢。整體而言,隨著 h e n g c h i U DIF 試題數及樣本數上 升,其 RMSE 則相對變小。. 36.

(49) 表 8 模擬研究試題參數結果. RIM 模型 900 人. MIE 模型. 2500 人. 900 人. 2500 人. 判斷 DIF 的正確性(%). DIF=6. 100. 100. 93. 100. DIF=10. 100. 100. 100. 100. DIF=20. 100. 100. 100. 100. DIF=6. 0.11. 0.07. 0.41. 0.35. DIF=10. 0.11. 0.07. 0.25. 0.31. DIF=20. 0.18. 0.1. 0.22. 0.13. 難度值的 RMSE. 立. 二、分群估計結果. 政 治 大. ‧ 國. 學. 由於 RIM 並無法將受試者進行潛在類別分群,故本研究只呈現 MIE 模型在各個模擬情境的分群估計結果,此結果如表 9、圖 3~圖 6 所示。表. ‧. 中呈現 MIE 模型四群人的比例。. y. Nat. 在 MIE 模型裡,4 群潛在類別的人數比例真實值為:0.45、0.05、0.3、. io. sit. 0.2,若估計結果越接近這個組型,表示分群的精準度越高。由表 9 可知,. a. er. 在 MIE 模型裡,在相同樣本數時,當 DIF 試題數越多,分群的組型越接近. n. 真實情形;在相同 DIF 試題數的情形下,人數越多,分群的組型越接近真 iv l. n U e n g c h iMIE 模型的分群準確性有正向 實情形。整體而言,DIF 試題數、樣本數和. Ch. 關聯。 表 9 模擬研究分群結果. 900 人. 2500 人. 真實值. 0.45、0.30、0.20、0.05. 0.45、0.30、0.20、0.05. DIF=6. 0.65、0.28、0.04、0.03. 0.58、0.30、0.08、0.04. DIF=10. 0.47、0.26、0.20、0.07. 0.54、0.23、0.20、0.02. DIF=20. 0.43、0.27、0.21、0.08. 0.45、0.31、0.20、0.04. 37.

(50) 0.70  0.60  0.50  0.40 . TRUE. 比 例 0.30 . D6_900 D10_900. 0.20 . D20_900 0.10  0.00  0. 1. 2. 3. 4. 潛在類別. 政 治 大 註:D6_900:DIF 題數為 6、樣本數 900 人 立. 圖 3 MIE 模型在樣本數 900 時的分群情形. ‧ 國. 學. D10_900:DIF 題數為 10、樣本數 900 人. y. sit. io. al. n. 0.50 . er. 0.60 . 比 例. ‧. Nat. 0.70 . D20_900:DIF 題數為 20、樣本數 900 人. 0.40  0.30 . Ch. engchi. i n U. v. TRUE D6_2500 D10_2500. 0.20 . D20_2500 0.10  0.00  0. 1. 2. 3. 4. 潛在類別 圖 4 MIE 模型在樣本數 2500 時的分群情形 註:D6_2500:DIF 題數為 6、樣本數 900 人 D10_2500:DIF 題數為 10、樣本數 900 人 D20_2500:DIF 題數為 20、樣本數 900 人 38.

(51) 第二節 實徵資料結果 本研究將採用 100 學年度新北市學力檢測國小五年級數學科資料,作 為本文 MIE 模型的驗證。資料包含 900 名學生、34 道試題,且作答反應 資料符合單向度檢驗。研究者以 MIE 模型分別檢驗將資料分為 2 群、3 群、. 4 群、5 群時,哪種分群方式和資料最適配,在此並以 AIC、BIC 當作分群 指標,表 10 將呈現分群結果。 表 10 分群指標摘要表 2群 AIC 29529 BIC 29576. 3群. 4群. 5群. 29240. 29210. 29250. 29315 政29310 治 29310 大 由結果可知,AIC 立 值顯示本實徵資料適合分成 4 群,BIC 值則顯示適. ‧ 國. 學. 合分成 3 群或 4 群,本研究同時參考 AIC 和 BIC 的分群結果,將受試者分 為四群。本研究進一步畫出 4 群人在代數、幾何、量與實測、數與計算、. ‧. 機率與統計上等五個向度的平均答對率(如圖 5 所示),整體來說,第 1 群人的能力值最高,第 2 群人次之,第 3 群和第 4 群人表現較差。若個別. sit. y. Nat. 檢視每一群人的表現特徵,第 1 群人在量與實測、機率與統計的表現上相. io. er. 對較弱,第 2 群人則相反,在機率與統計的表現較好,甚至超越第 1 群人。 第 3 群人在五個向度的表現,則有較大的起伏,在機率與統計的表現也相. n. a. v. l C 對最好,但在量與實測上卻是表現最差的一群人。第 n i 4 群人在五個向度的. U. h. engchi 3 群人,但在代數表現 表現趨勢和第 1 群人類似,但答對率遠遠低於其他 上和第 3 群人相似,在量與實測上則高於第 3 群人。 0.75 0.65. 第1群. 答 0.55 對 0.45 率 0.35. 第2群 第3群 第4群. 0.25 0.15 代數. 幾何. 量與實測. 數與計算 機率與統計. 圖 5 各潛在類群在五個向度的表現情形 39.

(52) 而在分成 4 群的情形下,研究者並無偵測出試題有 DIF 的情形。研究 者進一步去了解新北市學力檢測的題庫建置流程,發現當初在建立題庫時, 每一道試題均先經過預試,每道試題預試人數約 300 人,預試完之後,會 將鑑別度差、可能具 DIF 效應的試題剔除,並經數學科輔導團加以檢視後, 才確立正式試題。故本研究以 MIE 模型分析本資料時,很有可能發現試題 均沒有 DIF 的現象。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 40. i n U. v.

數據

表 3 是以數學公式表達本研究模型,其中,表格中英文字母代表意義 同前述,而下標的 ijg 表示試題為第 i 題、第 j 個學 生,該生屬於學生潛在 類別 g 。

參考文獻

相關文件

FIGURE 5. Item fit p-values based on equivalence classes when the 2LC model is fit to mixed-number data... Item fit plots when the 2LC model is fitted to the mixed-number

Assessing Fit of Unidimensional Item Response Theory Models The issue of evaluating practical consequences of model misfit has been given little attention in the model

Using a one-factor higher-order item response theory (HO-IRT) model formulation, it is pos- ited that an examinee’s performance in each domain is accounted for by a

The left panel shows boxplots showing the 100 posterior predictive p values (PPP-values) for each observed raw score across the 100 simulated data sets generated from

For a polytomous item measuring the first-order latent trait, the item response function can be the generalized partial credit model (Muraki, 1992), the partial credit model

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in

We showed that the BCDM is a unifying model in that conceptual instances could be mapped into instances of five existing bitemporal representational data models: a first normal

The Hull-White Model: Calibration with Irregular Trinomial Trees (concluded).. • Recall that the algorithm figured out θ(t i ) that matches the spot rate r(0, t i+2 ) in order