測驗等化

第二章文獻探討

第五節測驗等化

方法，而測驗連結（test linking）則是指連結兩個不同測驗分數的一般化過程（von Davier & Liu, 2008）。Yi、Harris 與 Gao（2008）也指出等化是使用統計方法轉換測驗分數的過程，目的是為了調整不同測驗的試題難度，使得不同測驗分數是可交換的。許多研究皆提到有關評估等化估計效果，包括利用不同等化設計

（equating design）與方法進行比較，以及評估等化函數不變性（invariance of equating functions）與一致性的研究（Yang & Gao, 2008; Yi, Harris, & Gao, 2008;

von Davier & Liu, 2008; Dorans & Liu, 2008; Nancy, 2008; Brennan, 2008; Puhan, 2007; Kao, Kim, & Hatrak, 2005; Petersen, Cook, & Stocking, 1983; Brennan &

Kolen,1987; Cook & Petersen, 1987; Lord & Wingersky, 1984; Marco, Petersen, &

Stewart, 1979）。這些研究能提供使用哪種等化設計與方法可以導致較佳的等化結果，以及使用哪種方法對於等化不變性與一致性較容易受影響。因此，以下將介

順序因素的影響，且測驗內容與難度必須與X、Y題本十分類似，測驗長度相當於一個分測驗（von Davier, Holland, & Thayer, 2004；Dorans & Holland, 2000；

Tianyou, 2005）。

NEAT 設計經常使用於一個測驗只能被施測一次，P與Q被視為不同群組的母群受試者，且必須滿足以下兩個假定（Kolen & Brennan, 2004；von Davier, Holland, & Thayer, 2004）：

1. 兩群不同的母群受試者（P與Q），施測其中一份測驗與定錨測驗。

（Massachusetts comprehensive assessment system, MCAS）與美國 AP 微積分測驗皆採用 NEAT 設計。此設計只需假設受試樣本是隨機抽取的，不必假設不同受試樣本有相同的能力值。定錨試題是用來調整不同能力群體所造成的等化誤差，因此，定錨試題內容與試題難度要盡可能與測驗相似（Petersen, Kolen, & Hoover, 1989; Yi, Harris, & Gao, 2008）。然而，在 NEAT 設計中，每個題本必須施測相同的定錨試題，因此，定錨試題的好壞將會影響等化估計效果，而且若定錨試題選得好的話，NEAT 設計可以避免單組設計（the single-groups design）或等群組設計（the equivalent groups design）所遭遇到的問題（Klein & Jarjoura, 1985）。

二、平衡不完全區塊設計

BIB 設計是由 Yates（1936）提出，並於 1992 年 Rust 與 Johnson 應用於測驗領域的題庫設計。BIB 設計將試題分成若干試題區塊，區塊間與區塊內的試題

皆不重複，受試者只需接受若干試題區塊的試題，且不同受試者可能接受部分相試題在施測時，大約需要 500 個測試樣本（Allen, Donoghue & Schoeps, 2001）。

BIB 設計根據假定將試題區塊作結合以求出最小題本數，設計如表 2-12 所示（曾

的限制情形下，必須滿足以下限制式（van der Linden, Veldkamp, & Carlson, 2004;

Nemhauser & Wolsey, 1999）：



美國的 NAEP 與荷蘭的 PPON（Periodiek Peilingsonderzoek van het Onderwijs）

等測驗計畫即採用 BIB 等化設計，此設計假設題庫中的試題被區分為數個區塊，

利用這些試題區塊編制成題本。區分試題區塊的過程不為隨機，但必須考量受試者可以有足夠的時間完成所有的題目，且試題區塊數也要事先確定。而題本配置是利用螺旋排序並束在一起（spiraled and bundled）的方式，以確保每一試題區塊出現的次數均等，來減低順序因素。

三、部分平衡不完全區塊設計

PBIB 是由 Bose 與 Nair（1939）提出，此設計需滿足以下三個假定：

1. 每一個題本內的試題區塊數要相同。

2. 每一個試題區塊在所有題本中出現的次數需相等。

3. 成對試題區塊出現的次數可不完全相同。

假定 3 為 PBIB 設計與 BIB 設計不同之處，即某些成對試題區塊的出現次數比其他成對試題區塊的出現次數還多。表 2-13 為 PBIB 設計的一個範例，可發現成對試題區塊（M1, M4）、（M2, M5）和（M3, M6）在所有題本中均同時重複出現二次，而其餘成對試題區塊在所有題本中僅出現一次。

表 2-13 PBIB 設計 計劃使用，例如：NAEP 1998 閱讀與寫作評量即使用 PBIB 設計（Allen, Donoghue,

& Schoeps, 2001）。

自 1998 年提出集中式平衡不完全區塊設計（focused balanced incomplete block design, focused BIB design）之後，BIB 設計與部分平衡不完全區塊設計（partially BIB design, PBIB design）的變化類型一直沿用至今。然而，由於 BIB 與 PBIB 設計相對於 NEAT 設計而言，所需的測驗題本數較多，且必須在施測人數及定錨試化方法，其中，CTT 等化方法以平均數等化（mean equating）、線性等化（linear

equating）、以及等百分位數等化（equipercentile equating）等 3 種方法較為常見。

然而，觀察分數等化方法在測驗實施上有許多限制與缺點，例如：平均數等化與線性等化會使得等化分數有超出範圍（0~100 分）的情況發生、以及平均數等化視兩份測驗的等化分數為一個常數等缺點，因此，有了 IRT 等化方法的出現。IRT 等化方法能在某些觀察分數等化方法不能使用的情況下使用，例如：建立測驗題庫（Kolen & Brennan, 2004）。是故，本研究亦採用 IRT 等化方法建立華語文能力測驗題庫。

由於 IRT 提供可以用來進行測驗等化的方法，使用不同組群受試者的反應資料，推估試題參數值和能力參數值，再經過連結的過程，將參數值轉化到同一量尺上（von Davier & Wilson, 2008）。當試題參數已知時，常使用來進行 IRT 量尺分數轉換的方法為平均數轉換方法（mean / mean transformation method）、平均數與標準差轉換方法（mean / sigma transformation method）、特徵曲線轉換方法

（characteristic curve transformation method）（Haebara, 1980; Kolen & Brennan, 1995, 2004; Stocking & Lord, 1983）。然而，若依據轉換的類型又可分為真分數等化（true score equating）與觀察分數等化（observed score equating）。

在文檔中 CEFR基礎級之華語文聽力與閱讀理解能力測驗研發與電腦化適性評量系統建置 (頁 46-52)

第二章 文獻探討

第五節 測驗等化



第二章文獻探討

第五節測驗等化