測驗等化設計

第二章文獻探討

第四節測驗等化設計

測驗等化是利用統計的方法，將受試者在某一測驗的分數轉換至另一測驗分數量尺，以比較兩測驗分數關係的過程。為了用來測量相同的特質或能力，這些測驗的內容及難度都極為相似，因此，測驗等化的目的在調整測驗難度之差異而非測驗內容之差異（Kolen & Brennan, 1995 ）。而且測驗分數等化並不受試題內

容和受試者能力分布的影響。

一般國內外大型測驗，因題庫涵蓋不同認知程度及不同難度之試題，試題數量無法由單一受試者於短時間內完成，因此多將欲施測之題目分別編製成數個不同的題本分派給不同受試者進行施測，然後再將不同題本施測結果進行等化連結，以便能計算出群體參數。其中 PISA 為採用 BIB（balanced incomplete block, BIB）（Nancy, James & John, 2001）等化設計（OECD, 2009）；NAEP 則在數學與科學使用 BIB 設計、閱讀與寫作方面則使用了 PBIB（partially balanced incomplete block, PBIB）設計（Andrew & Terry, 2001）；TIMSS 則是每個題本由四個試題區塊組合而成（每個題本均包含數學與科學各兩個試題區塊），而為了連結不同題本，每個試題區塊在題本中出現 2 次（Graham, Christine, Alka, & Ebru, 2008）；而 PIRLS 則採用 matrix sampling 設計，將 10 個 40 分鐘的試題區塊分派成 13 個題本，每個題本包含 2 個試題區塊，每個試題區塊出現 3 次(Martin, M. O., Mullis, I.

V. S. & Kennedy, A. M., 2007)；國內的「臺灣學生學習成就評量資料庫」（Taiwan Assessment of Student Achievement, TASA）也於不同年度不同科目，分別採用了 BIB、PBIB 以及定錨不等組設計（non-equivalent groups with anchor test design, NEAT）的等化設計（郭伯臣、曾建銘、吳慧珉，2012）。

測驗等化設計有許多種，諸如單組設計（single-group design）、等群組設計

（equivalent-grwoup design）、定錨不等組設計（NEAT）、平衡不完全區塊（BIB）

等。本研究主要以 BIB 與 NEAT 等化設計進行比較，故在此針對 NEAT 與 BIB 測驗等化設計做一簡要說明。

壹、定錨不等組設計

NEAT 設計包含兩個獨立的單組設計，其設計方式為在兩組受試者的母群體中，隨機抽取 A、B 兩組受試者樣本。兩組受試者於不同的施測時間，A 組受試者接受 Y 測驗，B 組受試者接受 Z 測驗。除此之外，A、B 受試樣本又另外須接

受同一份共同測驗 X，即為定錨試題。為避免順序因素的影響，通常定錨試題在兩組樣本的測驗順序一樣，而測驗內容和難度必須與 Y、Z 測驗相似，其測驗長度相當於一個分測驗（von Davier, Holland, & Thayer, 2004；Dorans & Holland, 2000；Tianyou, 2005）。NEAT 設計如表 2-1（Kolen & Brennan,1995；von Davier, et al., 2004）。

表 2-1 NEAT 設計

受試者群定錨測驗 X Y 測驗 Z 測驗

A V V

B V V

註：“V”為受試者必須受測之測驗

在 NEAT 設計中，每個受試樣本皆須施測定錨試題 X 測驗，因此，定錨試題之試題參數好壞將會影響等化連結效果。若定錨試題挑選恰當，則可以避免練習

（practice）、疲勞（fatigue）、學習（learning）、順序因素（order effects）及需要大樣本的問題（Klein & Jarjoura, 1985）。使用 NEAT 設計測驗等化只需要假設受試群體是隨機抽取，不必假設兩受試群體有相同的能力值。NEAT 設計的定錨試題內容要盡可能相似且試題難度要相同，因為定錨試題是用來調整兩個不同能力之群體所造成的等化風險（Petersen, Kolen & Hoover,1993）。

貳、平衡不完全區塊設計

BIB 設計將試題分成若干試題皆不重複的試題區塊（block），受試者只需接受若干試題區塊的試題，且不同受試者可能接受部分相同、完全相同、或完全不同的試題區塊。最後，將所有受試者的作答反應資料堆疊進行等化分析，以達到能力估計的目的，BIB 設計如表 2-2（曾玉琳、王暄博、郭伯臣、許天維，2006）。

表 2-2 是以 7 個題本之 BIB 設計為範例，在此設計範例中，有 7 個題本（S1~S7）； 7 個試題區塊（M1~M7）；每個題本包含 3 個試題區塊（k1~k3）。BIB 設計中試

題區塊序號的組合不重複，如：S1 題本是由試題區塊 M1、M2、M4 組合而成，

（response time）的限制情形下，BIB 設計必須符合下列限制，求出符合的最佳解（van der Linden, Veldkamp & Carlson, 2004；Nemhauser & Wolsey, 1999）：

1. 每一個題本配置的試題區塊數目，如公式（2-25）；

k指每個題本配置的試題區塊數，即區塊數目（number of blocks）；

r指每一試題區塊在題本中出現的次數；

y 指題庫中個別試題區塊代號，y1,...,t；

g 指題庫中成對區塊中第二個試題區塊代號，g 1,...,t； λ 指成對試題區塊在題本中出現的次數；

w 指試題區塊與題本的配置組型，其中yx w_yx

 

0,1 , y1,...,t, x1,...,b，如題本 S1 出現 M1、M2、M4 三個試題區塊，則w₁₁,w₂₁,w₄₁



1 ；

zygx指成對試題區塊與題本的配置組型，z_ygx

 

0,1 ；y g1,...,t； b

x1,..., 。

另外，BIB 設計必須符合三項基本限制，但實際設計情況，必須考慮試題內容、形式及作答時間（王暄博，2006）：

1. 每一個題本內的試題區塊數要相同；

2. 試題區塊作結合以求出最小題本數；

3. 每一個試題區塊在所有題本中出現的次數要相同。

在文檔中不同垂直等化設計下可能值方法估計效果之探討 (頁 28-33)

第二章 文獻探討

第四節 測驗等化設計

壹、定錨不等組設計

貳、平衡不完全區塊設計

 



 

第二章文獻探討

第四節測驗等化設計