研究動機

第一章緒論

第一節研究動機

本研究是以試題反應理論（item response theory, IRT）中單參數 Logistic 模式，

使用模擬資料探討不同估計方法下對於個體能力估計與群體參數估計之效果，並以實證資料為例作一說明。本章將針對研究動機、研究目的與名詞解釋逐一進行說明。

第一節研究動機

許多大型測驗，如國家教育進展評量（National Assessment of Educational Progress, NAEP）、國際數學與科學教育成就趨勢調查（Trends in International Mathematics and Science Study, TIMSS）及國際學生評量（The Programme for International Student Assessment, PISA）等，主要關注的議題是母群或母群中某些群體之能力表現，而這些大型測驗多採用可能值方法（plausible value method）估計母群或群體的參數，對於個體能力的描述則是以可能值（plausible value）的資料型態提供給次級資料的分析者，以進行群體能力表現時統計特性描述（Allen, Carlson, Johnson, & Mislevy, 1999; Foy, Galia, & Li, 2008; OECD, 2009）。

可能值方法（plausible value method）是以潛在迴歸模式，加入學生背景變項

（background variables, BV），作為輔助變數（ancillary variables, AV）計算後驗分布，並從後驗分布中抽取可能值。可能值方法沒有先估計個體的能力再計算群體參數，而是使用學生的答題反應和背景變項資料直接估計母群參數，相較於集合個體能力估計值再進行母群參數估計，此方法所獲得之估計較為準確（Mislevy &

Sheehan, 1989）。目前國外可能值方法的研究大多著重於估計方法的改善，如 Adams 等人透過提供背景變項的模式，提出 expectation-maximization（EM）方法估算試題和母群的參數，改善以往使用可能值方法，在能力估計中可以得到較小均方誤差（Adams, Wilson & Wu, 1997）。von Davier（2009）提出，於馬可夫鏈蒙地卡羅法（Markov Chain Monte Carlo method, MCMC）中，加入 EM 的演算法，

提升 MCMC 估計的速度以及估計效能。除此之外，少數學者探討納入的背景變項與能力值間的相關高低對可能值方法估計的影響，加入輔助變項，例如：人口統計變項（性別、年齡、種族）、教育變項（年級、修習課程、先前考試成績），以電腦為基礎的測驗反應時間都作為輔助訊息的來源（Fox, Klein Entink, & van der Linden, 2007; van der Linden, 2007），此種方法有助於提升能力值的估計，且當解釋能力值變異的程度越大，能力值的估計可得到較大的改善（de la Torre, 2009）。

目前，國內許多大型測驗相關研究，多未使用可能值方法進行分析，而是直接計算個別受試者能力值的平均與變異，並將其視為母群或個別群體的表現與其分散情形，再進一步的進行假設檢定，例如：TASA 數學科即採用此方式（洪碧霞、林素微、林娟如，2006）。依據相關研究（Mislevey, 1991; Mislevy, Beaton, Kaplan,

& Sheehan, 1992; OECD, 2009; Lee, et al., 2007）顯示：此種集合個體的能力值估計群體特性的方式將會產生嚴重的偏誤。以往估計個別受試者能力常見的方法有最大概似估計法（maximum likelihood estimation, MLE）與期望後驗估計法

（expected a posterior, EAP）。但 MLE 與 EAP 皆可能因為學生的答題總分（total score）或是後驗分布相同，導致不同的受試者得到相同的能力估計值，利用可能值方法從後驗分布中隨機抽取，即使受試者有相同的答題總分或後驗分布，仍會有不同的能力值，即可能值（Wu, 2005）。一些研究也指出，可能值包含了隨機誤差成分，不適合描述個體分數，但可能值具有良好群體估計一致性，適合描述群體之特性（Mislevey, 1991; Mislevey, et al., 1992）。因此，國際上許多大型測驗以可能值方法進行群體統計描述（Allen, Carlson, Johnson, & Mislevy, 1999; Foy, Galia, & Li, 2008; OECD, 2009），假如研究者想要瞭解不同群體的能力表現，則納入群體的背景變項進行可能值方法估計，藉以提升群體參數估計的精確度（Adams, Wilson & Wu, 1997）。

此外，國內外的大型測驗，因題庫涵蓋不同認知程度及不同難度之試題，試

題數量無法由單一受試者於短時間內完成，故多採用不同的等化設計進行；PISA 為採用 BIB（balanced incomplete block, BIB）（Nancy, James & John, 2001）等化設計（OECD, 2009）；NAEP 則在數學與科學使用 BIB 設計、閱讀與寫作方面則使用了 PBIB（partially balanced incomplete block, PBIB）設計（Andrew & Terry, 2001）；TIMSS 則是每個題本由四個試題區塊組合而成（每個題本均包含數學與科學各兩個試題區塊），而為了連結不同題本，每個試題區塊在題本中出現 2 次

（Graham, Christine, Alka, & Ebru, 2008）；國內的「臺灣學生學習成就評量資料庫」

（Taiwan Assessment of Student Achievement, TASA）也於不同年度不同科目，分別採用了 BIB、PBIB 以及定錨不等組設計（non-equivalent groups with anchor test design, NEAT）的等化設計（國家教育研究院籌備處，2009）。

關於 BIB 與 NEAT 設計之水平及垂直等化效果的比較已有學者進行不同人數、不同試題區塊與不同定錨試題比例等不同實驗設計下的研究（王暄博，2006；

張鈺卿，2007），然而大型測驗皆使用可能值方法進行分析，且於題本設計上使用等化設計方法，但僅有少數的文章探討關於可能值方法應用於 BIB 設計上（von Davier, Gonzalez,& Mislevy, 2009），卻未探討不同的等化設計與使用受試者完整

（complete）作答反應進行估計，對於可能值方法的參數估計之影響。此外，de la Torre（2009）指出當背景變項與能力值有較高的相關時，則納入背景變項對於可能值的估計可以得到較大的改善，研究中僅探討兩種背景變項相關，對於能力值估計結果的改善，並未探討群體間能力差異，對於使用可能值方法回復群體的平均數與標準差是否有不同的改善結果。

本研究採用模擬資料以及實證資料進行分析與探討，利用不同等化設計

（complete、BIB、NEAT）於不同施測人數與不同題數下，比較不同估計方法之結果，最後探討在不同估計方法下，當群體能力有差異時，可能值方法對於回復不同群體參數是否有改善的效果，並透過模擬資料以及實證資料之結果，提出適

在文檔中不同水平等化設計於可能值方法之探討 (頁 11-14)

第一章 緒論

第一節 研究動機

第一節 研究動機

第一章緒論

第一節研究動機

第一節研究動機