測驗等化

第二章文獻探討

第四節測驗等化

測驗等化 ( test equating )是利用統計方法，將某一份測驗的分數轉換至另一份測驗之分數量尺的過程 (余民寧， 2009)，一般等化所指的為水帄等化 ( horizontal equating )，其目的是要使兩份彼此難度相近且測驗相同能力的測驗所測得的測驗分數能夠互相比較並交換使用，而這兩份要進行等化的測驗必須是適用於兩群能力值相近的受詴母群體的，水帄等化的目的在於校正測驗之間難度的差異而非測驗內容之差異 ( Kolen & Brennan,

1995 )。

測驗等化的設計方法可依據設計的原則簡單的分為四類：單組設計 ( single-group design )、相等組設計 ( equivalent-group design )、定錨測驗設計 ( anchor-test design )、共同考生設計 ( common-person design )(余民寧，

2009)。而近年來，國際上知名的大型測驗常用的等化設計方法有定錨不等組設計 ( non-equivalent groups with anchor test design, NEAT )、帄衡不完全區塊設計 ( balanced incomplete block design, BIB )、部分帄衡不完全

區塊設計 PBIB ( partially balanced incomplete block, PBIB )等，其中以 BIB 設計的使用最為廣泛，PISA、NAEP 數學與科學及「臺灣學生學習成就評 der Linden, Veldkamp & Carlson, 2004；Nemhauser & Wolsey, 1999）。表 2-1 為 BIB 設計之例子，表中，S1~S7 代表題本 1~ 7，B1~B7 分別代表詴題區塊 1~7。

境下，BIB 設計需遵循以下規則( van der Linden, Veldkamp & Carlson, 2004；

Nemhauser & Wolsey, 1999 )：

1. 每一題本內所含的詴題區塊數目，如公式( 2-18 )。

2. 每一個詴題區塊在所有題本中出現的次數，如公式( 2-19 )。

3. 成對詴題區塊在所有題本中出現的次數，如公式( 2-20 )。

4. 成對詴題區塊與組型的一致性，如公式( 2-21 )。

𝑤_𝑦𝑥

𝑡𝑦=1 = 𝑘, 𝑥 = 1,2, … , 𝑏 ( 2-18 ) 𝑤_𝑦𝑥

𝑏𝑥=1 ≤ 𝑟, 𝑦 = 1,2, … , 𝑡 ( 2-19 ) 𝑧_𝑦𝑔𝑥

𝑏𝑥=1 ≥ 𝜆, 𝑦 < 𝑔 = 1,2, … , 𝑡 ( 2-20 ) 𝑤_𝑦𝑥 + 𝑤_𝑔𝑥 ≥ 2𝑧_𝑦𝑔𝑥, 𝑦 < 𝑔 = 1,2, … , 𝑡 , 𝑥 = 1,2, … , 𝑏 ( 2-21 ) 以上公式中之代號代表意義如下：

t：詴題區塊數

x：題本序號，x =1,...,b

k：每個題本配置的詴題區塊數，即區塊數目（number of blocks）

r：每一詴題區塊在題本中出現的次數 y：題庫中個別詴題區塊代號，y =1,...,t

g：題庫中成對區塊中第二個詴題區塊代號，g =1,...,t λ：成對詴題區塊在題本中出現的次數

w_yx：詴題區塊與題本的配置組型，其中 w_yx ∈{0,1}， y = 1,...,t，x = 1,...,b，

如題本 S1 出現 M1、M2、M4 三個詴題區塊，則 w₁₁, w₂₁, w₄₀ ∈{1}

z_ygx：指成對詴題區塊與題本的配置組型，z_ygx ∈{0,1}；y < g =1,...,t；x = 1,...,b

貳、垂直等化

垂直等化實際上應稱為垂直量尺化 ( vertical scaling )，緣起於美國小學成就測驗，目的是想觀察學生的某項能力是否因年級 /年齡層高低不同而有所不同，欲以分數比較能力值，則必須將不同年級 /年齡層之學生的測驗分數建立在同一個量尺上，若以一份難度同時符合不同能力水帄考生的題本進行兩次測驗，則難度偏高的詴題施測於低能力群組或難度偏低的詴題施測於高能力群組都是不符合測驗時間成本效益的。垂直等化的目的在於連結不同難度等級但測驗內容相似的測驗。垂直等化雖將兩測驗分數轉換到同一分數量尺上，但是由於兩測驗適用的難度等級是不同的，因此兩測驗的分數並不能彼此交換使用 ( Kolen & Brennan, 1995 )。

垂直等化的設計在定錨詴題 ( anchor item )設計上，大部份採用的是共同詴題不等群組的設計方法，也就是說，在欲進行等化的測驗中放入適合各個不同群體能力值之共同詴題，如郭伯臣等人 ( 2008 )與葉昶成 ( 2012 ) 的垂直等化設計方法是將施測於兩個不同能力群體之題庫均先分別進行水帄等化，並將難度適合兩群受詴者的詴題做為共同詴題，同時存在於兩個年級的題庫中； Ito, Sykes 和 Yao( 2008 )的研究中使用的垂直等化連結的能力範圍為 K 到 9 年級，其不同年級間共同詴題的設計方式是使每本測驗題本的測驗內容範圍涵蓋該年級前一學期內容到該年級下一學期前半段內容，例如：三年級的測驗題本測驗範圍：二下 ~四上前半段另外，一年級學生則需分配一部分學生考 Kindergarten 及一年級兩份測驗，一部分考一年級及二年級的測驗，如此能使每兩個相鄰的年級之測驗間均有共同詴題做為定錨詴題。

在實際測驗情境中，IRT 的單向性假設是很難不被違反的，且當要將兩個不同年級的測驗進行垂直等化時，IRT 的單向性假設幾乎是不可能的

( Patz & Yao, 2007 )，因此，垂直等化情境中，多向度 IRT 的等化議題之探討勢在必行，然而目前的研究，對於多向度的連結成效之探討大都是採用 M2PL 或是 M3PL，屬於題內多向度的模式 ( Min, 2007; Li & Lissitz, 2000;

Patz & Yao, 2007 )，而少有採用題間多向度模式的相關研究，故本研究將採題間多向度設計，並以 MRCMLM 為多向度 IRT 模式進行探究。

在文檔中以可能值方法為基礎之多向度垂直等化之探究 (頁 18-24)

第二章 文獻探討

第四節 測驗等化

貳、垂直等化

第二章文獻探討

第四節測驗等化