第二章 文獻探討
第四節 測驗等化設計
測驗等化是利用統計的方法,將受試者在某一測驗的分數轉換至另一測驗分 數量尺,以比較兩測驗分數關係的過程。為了用來測量相同的特質或能力,這些 測驗的內容及難度都極為相似,因此,測驗等化的目的在調整測驗難度之差異而 非測驗內容之差異(Kolen & Brennan, 1995 )。而且測驗分數等化並不受試題內
容和受試者能力分布的影響。
一般國內外大型測驗,因題庫涵蓋不同認知程度及不同難度之試題,試題數 量無法由單一受試者於短時間內完成,因此多將欲施測之題目分別編製成數個不 同的題本分派給不同受試者進行施測,然後再將不同題本施測結果進行等化連 結,以便能計算出群體參數。其中 PISA 為採用 BIB(balanced incomplete block, BIB)(Nancy, James & John, 2001)等化設計(OECD, 2009);NAEP 則在數學與 科學使用 BIB 設計、閱讀與寫作方面則使用了 PBIB(partially balanced incomplete block, PBIB)設計(Andrew & Terry, 2001);TIMSS 則是每個題本由四個試題區 塊組合而成(每個題本均包含數學與科學各兩個試題區塊),而為了連結不同題 本,每個試題區塊在題本中出現 2 次(Graham, Christine, Alka, & Ebru, 2008);而 PIRLS 則採用 matrix sampling 設計,將 10 個 40 分鐘的試題區塊分派成 13 個題 本,每個題本包含 2 個試題區塊,每個試題區塊出現 3 次(Martin, M. O., Mullis, I.
V. S. & Kennedy, A. M., 2007);國內的「臺灣學生學習成就評量資料庫」(Taiwan Assessment of Student Achievement, TASA)也於不同年度不同科目,分別採用了 BIB、PBIB 以及定錨不等組設計(non-equivalent groups with anchor test design, NEAT)的等化設計(郭伯臣、曾建銘、吳慧珉,2012)。
測驗等化設計有許多種,諸如單組設計(single-group design)、等群組設計
(equivalent-grwoup design)、定錨不等組設計(NEAT)、平衡不完全區塊(BIB)
等。本研究主要以 BIB 與 NEAT 等化設計進行比較,故在此針對 NEAT 與 BIB 測驗等化設計做一簡要說明。
壹、定錨不等組設計
NEAT 設計包含兩個獨立的單組設計,其設計方式為在兩組受試者的母群體 中,隨機抽取 A、B 兩組受試者樣本。兩組受試者於不同的施測時間,A 組受試 者接受 Y 測驗,B 組受試者接受 Z 測驗。除此之外,A、B 受試樣本又另外須接
受同一份共同測驗 X,即為定錨試題。為避免順序因素的影響,通常定錨試題在 兩組樣本的測驗順序一樣,而測驗內容和難度必須與 Y、Z 測驗相似,其測驗長 度相當於一個分測驗(von Davier, Holland, & Thayer, 2004;Dorans & Holland, 2000;Tianyou, 2005)。NEAT 設計如表 2-1(Kolen & Brennan,1995;von Davier, et al., 2004)。
表 2-1 NEAT 設計
受試者群 定錨測驗 X Y 測驗 Z 測驗
A V V
B V V
註:“V”為受試者必須受測之測驗
在 NEAT 設計中,每個受試樣本皆須施測定錨試題 X 測驗,因此,定錨試題 之試題參數好壞將會影響等化連結效果。若定錨試題挑選恰當,則可以避免練習
(practice)、疲勞(fatigue)、學習(learning)、順序因素(order effects)及需要 大樣本的問題(Klein & Jarjoura, 1985)。使用 NEAT 設計測驗等化只需要假設受 試群體是隨機抽取,不必假設兩受試群體有相同的能力值。NEAT 設計的定錨試 題內容要盡可能相似且試題難度要相同,因為定錨試題是用來調整兩個不同能力 之群體所造成的等化風險(Petersen, Kolen & Hoover,1993)。
貳、平衡不完全區塊設計
BIB 設計將試題分成若干試題皆不重複的試題區塊(block),受試者只需接 受若干試題區塊的試題,且不同受試者可能接受部分相同、完全相同、或完全不 同的試題區塊。最後,將所有受試者的作答反應資料堆疊進行等化分析,以達到 能力估計的目的,BIB 設計如表 2-2(曾玉琳、王暄博、郭伯臣、許天維,2006)。
表 2-2 是以 7 個題本之 BIB 設計為範例,在此設計範例中,有 7 個題本(S1~S7); 7 個試題區塊(M1~M7);每個題本包含 3 個試題區塊(k1~k3)。BIB 設計中試
題區塊序號的組合不重複,如:S1 題本是由試題區塊 M1、M2、M4 組合而成,
(response time)的限制情形下,BIB 設計必須符合下列限制,求出符合的最佳 解(van der Linden, Veldkamp & Carlson, 2004;Nemhauser & Wolsey, 1999):
1. 每一個題本配置的試題區塊數目,如公式(2-25);
k指每個題本配置的試題區塊數,即區塊數目(number of blocks);
r指每一試題區塊在題本中出現的次數;
y 指題庫中個別試題區塊代號,y1,...,t;
g 指題庫中成對區塊中第二個試題區塊代號,g 1,...,t; λ 指成對試題區塊在題本中出現的次數;
w 指試題區塊與題本的配置組型,其中yx wyx
0,1 , y1,...,t, x1,...,b, 如題本 S1 出現 M1、M2、M4 三個試題區塊,則w11,w21,w41
1 ;zygx指成對試題區塊與題本的配置組型,zygx
0,1 ;y g1,...,t; bx1,..., 。
另外,BIB 設計必須符合三項基本限制,但實際設計情況,必須考慮試題內 容、形式及作答時間(王暄博,2006):
1. 每一個題本內的試題區塊數要相同;
2. 試題區塊作結合以求出最小題本數;
3. 每一個試題區塊在所有題本中出現的次數要相同。