測驗等化的意義與等化估計方法

第二章文獻探討

第三節測驗等化的意義與等化估計方法

壹、測驗等化的意義與種類

測驗等化（test equating）是利用統計方法，將受試者在某一測驗的分數轉換至另一測驗分數量尺，以比較兩測驗分數關係的過程（Kolen & Brennan, 1995）。

這些測驗的內容及難度都極為相似，為了用來測量相同的特質或能力，而等化之目的乃是為了校準試題難度的差異而非測驗內容之差異，且等化之結果不會因為時間和人的因素而改變其意義（Kolen & Brennan, 2004）。然而，等化必須滿足對稱性（symmetry property）、相等性（equity properties）、團體不變性（group invariance property）及測驗必須是單向度（unidimensionality of the tests）等性質，等化才能進行（Angoff, 1971；Harris & Crouse, 1993；Lord, 1980；Petersen, Kolen, & Hoover, 1989；Hambleton & Swaminathan, 1985；Kolen & Brennan, 1995, 2004；Morris, 1982；Yen, 1983）。

而測驗等化依受試者之類型可分為水平等化與垂直等化兩種，茲介紹如下：

一、水平等化

水平等化（horizontal equating）的實施是當某一種測驗有數種不同形式的題本，而這些題本都是用來測量某一特質，且受試者的能力分布與試題難度又相似時，為了要比較不同題本的分數，將透過等化程序建立題本之間的等化分數

（equating scores）。這些題本經由等化的過程，其測驗成績即可在相同的量尺上進行比較（王暄博，2006；張鈺卿、張宛婷、郭伯臣與楊思偉，2007），例如：

托福、GRE的考試就有多種複本測驗，可以進行一年多次的考試機會。

二、垂直等化

垂直等化（vertical equating）的實施是當某一種測驗有數種不同形式的題本，

而這些題本都是用來測量某一特質，但受試者的能力分布與試題難度卻不相同

時，為了要比較不同題本的分數，透過等化程序而建立題本之間的等化分數（王暄博，2006；張鈺卿、張宛婷、郭伯臣與楊思偉，2007）。垂直等化之測驗，受試者的能力是屬於不同年齡或年級的分配情形，如美國的加州成就測驗

（California Achievement Tests , CAT）、愛奧華基本技能測驗（Iowa Test of Basic Skills）等，即利用垂直等化進行測驗分數間之連結。

貳、等化估計方法

測驗等化估計方法大致可分為古典測驗理論（classical test theory, CTT）等化估計方法與 IRT 等化估計方法（王暄博，2006）。CTT 等化估計方法，是利用原始總分進行等化，又以平均數等化（mean equating）、線性等化（linear equating）

及等百分位數等化（equipercentile equating）三種方法較為常見（Crocker & Algina, 1986）。然而 CTT 等化估計方法在測驗實施上有其限制，故有了 IRT 等化估計方法的出現。

IRT 等化估計方法利用不同組群受試者的反應資料，推估試題參數值和能力參數值，再經過連結（linking）的過程，將參數值轉化到同一量尺上。IRT 等化估計方法包含同時估計法（concurrent calibration）及連結分開估計法（separate calibration with linking）兩種（王暄博，2006）。在連結分開估計法中，包含平均數法（mean method）、平均數與標準差法（mean and sigma method）、特徵曲線法

（characteristic curve method）（Haebara, 1980；Kolen & Brennan, 1995；Stocking

& Lord, 1983）。

一、 CTT 等化估計方法

（一）平均數等化

若有兩測驗（測驗 X 及測驗 Y ）要進行等化，平均數等化假設兩測驗的難度差異相當於量尺分數上相差一個常數（王暄博，2006）。因此，平均數等化假設

兩測驗分數與各自平均數相差的值相等，如下式：性等化更加普遍化（Kolen & Brennan, 2004）。此方法由 Braun 及 Holland(1982) 提出，假設測驗 X 分數之百分等級與測驗 Y 分數有相同的百分等級，定義如下：

X 為測驗 X 分數的隨機變數， x 指測驗 X 之特定分數；

Y 為測驗 Y 分數的隨機變數， y 指測驗 Y 之特定分數；

F 為群體受試者在測驗 X 分數之累積分佈；

G 為在相同群體受試者下，測驗 Y 分數之累積分佈；

e 為對稱等化函數，即測驗 X 分數轉換至測驗 Y 分數； _Y

G 為在相同母體受試者下，^* e 的累積分佈函數，即測驗 X 分數轉換至測驗 Y_Y 分數的累積分佈函數。

因此，等百分位數等化必須滿足，G^* =G （2.58）

上式表示，在相同群體受試者下，測驗 X 分數變換成測驗 Y 分數的累積分布 等於測驗 Y 分數的累積分布。故當 X 和Y 為連續隨機變數，則等百分數數等化函 數為（Braun & Holland, 1982），e_Y(x)=G⁻¹[F(x)] （2.59）

其中，G 為 G 函數的反函數。 ⁻¹

因此，假設e 為對稱等化函數，即測驗 Y 分數轉換至測驗 X 分數； _X

F 為在相同母體受試者下，^* e 的累積分佈函數，即測驗 Y 分數轉換至測驗 X_X 分數的累積分佈函數。

根據對稱性質，e_X⁻¹(x)=e_Y(x)；e_Y⁻¹(y)=e_x(y) （2.60）

可得，e_X(y) =F⁻¹[G(y)] （2.61）

式子（2.61）為測驗 Y 分數轉換成測驗 X 分數之等百分位數等化函數，其中，

−1

F 為 F 函數的反函數。

二、 IRT 等化估計方法

（一）同時估計

同時估計是利用多群組受試者及多份測驗題本的測驗資料同時進行分析，此

估計發展出一個 IRT 的能力量尺，並使所有的估計值能用數字表達。當進行多群組校正，將存在一個本質上的等化問題。因為存在許多不同的等化設計，不同的等化設計可能需要一個不同的校正策略（calibration strategy）。經由校正程序後，

即能使得所有測驗之試題參數與受試者能力值在相同量尺上。其主要的原理是利用較多的試題參數訊息，將欲進行等化之試題參數估計值同時對應於相同能力量尺上，此方法利用了定錨試題之參數估計值（鑑別度參數、難度參數及猜測度參數）及定錨試題參數估計值之變異數共變數矩陣（variance-covariance matrix）

（Mislevy & Bock, 1982；王暄博，2006）。

等化的過程中，利用定錨試題等化係數將不同測驗題本之試題參數估計值轉化於相同的量尺上時，若所使用之等化係數估計值不甚正確，將產生等化標準誤。然而，使用同時估計法則可避免此種缺點，並且能應用最多試題訊息來完成等化。

（二）連結分開估計

在 IRT 模式下，不同測驗估計的試題參數量尺與受試者能力參數量尺呈現線性關係，因此，在不等組的參數估計過程中，可利用連結分開估計將不同測驗之估計結果連結至相同的量尺上，而此估計方法需要線性轉換的估計程序（Cook &

Eignor, 1991; Kolen & Brennan, 1995）。

連結分開估計是假設不同測驗量尺間符合線性關係，因此，目的為求得回歸 參數 A及 B （regression parameters），舉例來說，量尺 I 與量尺 J 為三參數 IRT 模 式中之不同量尺，則假設受試者能力參數與試題參數估計值在兩量尺之關係如下：

Ij Jj Ij

Jj Ij Jj Ii

Ji b Ab B c c

A a a

A + = = + =

= θ , , ,

θ （2.62）

其中，參數 A與 B 為一常數；

Jj Jj

Jj b c

a , , 為量尺 J 第 j 題的試題參數值；

Ij transformation methods）及特徵曲線法（characteristic curve transformation methods）

（Haebara, 1980；Stocking and Lord, 1983；王暄博，2006）。

然而，國內外許多文獻證實，同時估計法比連結分開估計法能獲得更較佳的估計精準度（Kim & Cohen, 1998；陳煥文，2004），也有文獻直接指出，同時估計法優於以線性技術為基礎之等化方法，如特徵曲線法等（Stocking & Lord,

1983；李源煌、楊玉女，2000）。因此，本研究等化測驗為使用同時估計法進行

等化參數之估計。

在文檔中次級量尺分數估計法應用於大型教育測驗情境之模擬研究 (頁 26-32)

第二章 文獻探討

第三節 測驗等化的意義與等化估計方法

壹、測驗等化的意義與種類

貳、等化估計方法

第二章文獻探討

第三節測驗等化的意義與等化估計方法