測驗等化概述

第二章文獻探討

第二節測驗等化概述

壹、測驗等化的定義

測驗等化係指將兩份以上測量相同性質的測驗分數，經由相關統計程序難度校準，轉換至一相同量尺上，藉此，可進一步將不同測驗分數來進行比較。

上述幾個國內外大型測驗所須涵蓋的測驗範圍及面向通常相當廣泛，依此，為了要達成的測驗的各項指標，相對需要編製出符合指標的題目數量也相當地多。

也由於資料庫題數眾多，無法讓所有受試者在有限制的時間內，同時一次施測

完成所有的題目，因此只能分配每位受試者施測部分試題，再將不同受試者所得的測驗分數轉換到同一量尺上進行比較，而在測驗分數進行比較程序之中，須依賴部分共同題目，也就是定錨試題作為中介，俾得以進行試題參數的連結，再使不同測驗分數得以歸之於同一量尺上，而這些過程都需要依賴測驗等化的技術。端賴於嚴謹的等化處理程序，才能讓測驗分數得以進行精密的比較且不損及受試者權益。

貳、測驗等化的性質

不同測驗分數間要進行等化，需具備有下列性質（王寶墉，1995；Kolen & Brennan, 2004）：

一、對稱性（symmetry）：等化對稱性是指兩測驗，從測驗 X 等化到測驗 Y；或反之從測驗 Y 等化回測驗 X，兩種方式等化結果應該相同。

二、相等性（equity）：欲進行等化的兩測驗須為全然複本測驗（strictly parallel tests），

其所測量的特質或能力、難度須相等，且皆必須具備有高信度，然而，古典測驗理論易受樣本團體及測驗難度影響，經常無法達到測驗相等性，IRT 的等化方法則修正了這些限制。

三、測驗為單向性（unidimensionality）：單向性乃指進行等化之兩測驗，所測量的內容為相同性質。

四、團體不變性（invariance）：無論所採用的受試者為何種團體樣本，其等化結果所轉換的結果都必須要相同。

叁、測驗等化的題本銜接方式

測驗等化的題本銜接設計是指在進行測驗等化前，題本資料的彙集方式。下述從幾個常用設計的方法中，依序簡介單組設計（single-group design）、相等群組設計

（equivalent-group design）以及定錨測驗設計（anchor test design）三類型。

一、單組設計（single-group design）：欲等化銜接的兩測驗，重覆施測於同一組考生。

此銜接設計優點是進行施測相當容易，但也由於過長的施測時間，易使受試者

因作答過久而感到疲勞或因為重覆練習的因素，影響到施測結果的精確性。

二、相等群組設計（equivalent-group design）：相對於單組設計，相等群組設計將兩份測驗給於隨機選出的兩樣本子群體來施測，此銜接設計優點是只需要施測一次即可，而且還可以避開受試者因作答過久產生的疲累感以及重覆練習因素等等，但其缺點是除非樣本母群體相當龐大，否則很難找到能力完全相同的兩組樣本子群體。

三、定錨測驗設計（anchor test design）：將欲銜接的不同份試卷測驗讓不同組受試者施測，每組受試者測驗到的不同份試卷之中，都有一部分相同的試題，這些共同的試題可以計分亦可不計分，這樣的測驗銜接設計稱作定錨測驗設計，

而這些共同試題稱作定錨試題。近來國內外大型測驗常用的定錨測驗設計有定錨測驗不等組設計（non-equivalent anchor test, NEAT）與平衡不完全區塊設計

（balanced incomplete block, BIB）。本研究運用到的題本設計方式即 BIB 模式，

其詳細內涵亦將於本章第四節個別陳述。

肆、IRT 連結等化法

連結與等化方法可分為傳統的古典測驗理論等化方法，例如：相等百分比等化法（equipercentile equating）、線性等化法（linear equating）與迴歸法（regression method）

表 2-1 單組設計單組設計單組設計單組設計

受試者樣本 X 測驗 Y 測驗 P1 V V ※ V 表示受試者須接受的測驗。

表 2-2 相等群組設計相等群組設計相等群組設計相等群組設計

受試者樣本 X 測驗 Y 測驗 P1 V P2 V

※ V 表示受試者須接受的測驗。

（Kolen, 1988），與現代測驗理論 IRT 的等化方法。然而古典測驗理論易受樣本團體及測驗難度影響，經常無法達到測驗相等性（equity）。IRT 的等化方法則修正了這些限制，且本研究皆利用 IRT 的等化方法，以下茲就所使用等化方法作個別陳述。

IRT 測驗等化的估計方式可分為兩大類型，同時估計法（concurrent estimation）

及分開估計法（separate estimation），在分開估計法中常見的有平均數法（mean and mean method ）、平均數和標準差法（ mean and sigma method ）及特徵曲線法

（characteristic curve method）。

一、同時估計法

同時估計法是將要做參數估算的各份測驗反應組型資料，加以合併整理成同一資料檔，由電腦軟體 BILOG─MG、PARSCALE 或 MULTILOG 等程式，同時進行估算校準（calibration）參數的程序。

在過去電腦軟硬體配備尚未相當發達的年代，做此類參數運算工作時，需考量許多電腦運算執行負荷問題，但是科技發展日新月異，目前電腦處理器的運算速度或是記憶體容量，都可以很輕易完成這些運算工作。而同時估計法也因為只需作一次參數估算，也無須進行測驗間的線性轉換，相對也減少許多等化的誤差。

另外，也由於同時估計法各測驗皆處在同一量尺上，因此就不需要再另外做連結的動作。而同時估計法相較於分開估計法還有一個優點，就是只需要 2-3 題少量的定錨試題，即可達到不錯的等化水準（Wingersky & Lord, 1984;黃志傑，2004）。

二、分開估計法

相對於同時估計法將各份測驗合併在一起估算，分開估計法是將要等化的不同測驗，分次作試題及能力參數之估算，再藉由定錨試題的設計，讓各測驗得以利用作連結而得到不同測驗間的轉換係數，並利用此係數來線性轉換，完成不同測驗的等化（equating）工作，以下也將就本研究運用到的幾種常用分開估計法作介紹。

（一）平均數法：

平均數法（mean and mean method）利用欲等化的測驗 X 與測驗 Y 兩測驗，運用定錨試題的鑑別度參數與難度參數，將其鑑別度平均數μ(

a

_X)、μ(

a

_Y)及難度平均數μ(

b

_X)、μ(

b

_Y)帶入公式(2-5)與公式(2-6)計算，來運算出量尺線性轉換係數的斜率 α 及截距 β，再經由連結程序，讓 X 測驗量尺分數利用轉換係數換至與 Y 測驗的同一量尺分數上，得以進行等化（Kolen & Brennan, 2004）。

得以進行等化（Kolen & Brennan, 2004）。

Haebara (1980) 以及 Stocking & Lord (1983) 皆有提倡過特徵曲線法

（characteristic curve method），此方法比上述等化方式除了考慮能力值與難度參數外，

更能同時兼顧鑑別度及猜測度等各參數估算。

此方法將欲等化的兩測驗 X、Y，利用兩條試題特徵曲線表達，而其中 Haebara 等化法連結效果最佳會發生在兩曲線真分數差值平方和的極小值時，如公式 2-11，此時可得到最佳的線性轉換常數；Stocking & Lord 等化法連結效果最佳會發生在兩曲線真分數和的差值再平方的極小值時，如公式 2-12，此時可得到最佳的線性轉換常數。

此兩種特徵曲線法其估算函數分別表現如下，兩等化方法除了公式 2-11 與公式 2-12 略有些微差異外，其餘計算公式大致相同 (Hambleton & Swaminathan, 1985) ：

∑

Haebara (1980)，以及公式 2-12， Stocking & Lord (1983)：

∑

求出

α

^、

β

後，X 測驗與 Y 測驗的試題參數的即可藉由以下線性轉換公式進行此流程進行等化程序（Kolen & Brennan，2004）。

公式 2-20 與 2-21 為三參數對數模式下，具備特定能力值受試者，在測驗 X 與測驗 Y 真分數得分估算公式：

而 IRT 真分數估算特定能力值的方式，採用牛頓逼近法，先給定一個預設能力 (2-17)

(2-18)

起始值，再藉由估算公式 2-22、2-23、2-24 求出下一個能力值，依此方法反覆估算，

上表 2-3 為真分數等化估算流程實際範例，測驗 X 與測驗 Y 兩卷各有五題，若測驗 X 真分數等於 2 時，運用牛頓逼近法，先採用起始值 2，再經由四次的估算出能力值為-1.1308，接著反推估算 Y 測驗當能力值為-1.1308 時，真分數等於 2.0609。並藉由同一特定能力值兩測驗估算真分數的微小差異，進行等化效果的比較，如下圖 2-1。

圖圖圖圖 2-1 真分數等化圖 二、IRT 觀察分數

IRT 觀察分數運用試題反應理論搭配二項式分配條件機率，如表 2-4 關係式，估算出在 X 測驗下各特定分布能力分數下的原始分數之條件機率分配，並依此條件機率分配累積彙整後，求得其原始分數分配 f (x) 。

同理，利用上述方法求出 Y 測驗的原始分數分配 f (y)，然後再利用等百分位數法連結兩測驗，並依此求得各測驗間等化效果（Lord, 1984）。

表 2-5 觀察分數條件機率關係分布表，代表試卷共 3 題的狀況下，觀察分數得分 0~3 分的條件機率分布情形（曾建銘，印製中）：

表 2-4 觀察分數條件機率關係式觀察分數條件機率關係式觀察分數條件機率關係式觀察分數條件機率關係式

觀察分數得分情形條件機率關係式

f r|θ

0 Q Q Q

1 Q Q P + Q P Q + P Q Q 2 Q P P + P Q P + P P Q

3 P P P

※ 代表特定各試題答對機率；代表特定各試題答錯機率

本例以二參數對數模式，搭配各參數範圍如下，在試題參數部分，鑑別度參數

!∈{0.5,1,1.5}；難度參數& ^∈{−1,0,1}，能力參數部分， ∈{−2, −1,0,1,2}，本試卷共 3 題的狀況下，觀察分數得分 0~3 分在特定能力下條件機率得分分布情形：

表 2-5 觀察分數條件機率分布表觀察分數條件機率分布表觀察分數條件機率分布表觀察分數條件機率分布表條件機率函數 f r|θ 觀察分數

得分情形 θ = −2 θ = −1 θ = 0 θ = 1 θ = 2

0 .68 .42 .14 .01 0

1 .31 .5 .48 .14 .01

2 .01 .08 .36 .49 .16

3 0 0 .02 .36 .83

延續表 2-5 條件機率分布情形，假定有 1000 位受試者，能力值θ = −2, −1, 0, 1, 2 時，受試者人數分別是 100 人、200 人、400 人、200 人、100 人，因此，可以估算出特定能力受試者，在各觀察分數的得分邊際人數彙整，如表 2-6：

表 2-6 觀察分數邊際人數分布表觀察分數邊際人數分布表觀察分數邊際人數分布表觀察分數邊際人數分布表條件機率函數f r|θ

邊際人數分布 f r 觀察分數

得分情形 θ 2 θ 1 θ 0 θ 1 θ 2

0 68 84 56 2 0 210

1 31 100 192 28 1 352

2 1 16 144 98 16 275

3 0 0 8 72 83 163

受試人數 100 200 400 200 100 1000

綜合上述過程所產生的觀察分數分布情形，根據條件機率關係式可得到結果如下(Hambleton & Swaminathan, 1985)：

1.在各特定能力下，配合各試題參數，運用條件機率關係式，可求得 X 測驗各受試者條件機率分布情形。

2.依據條件機率關係式，可求得 X 測驗受試者邊際人數分布情形。

在文檔中使用不同量尺轉換方法探討 BIB 設計等化之研究 (頁 20-31)

第二章 文獻探討

第二節 測驗等化概述