測驗等化

第二章文獻探討

第二節測驗等化

測驗等化利用統計的方法，將受試者在一份測驗的分數轉換到另一份測驗的分數量尺上，使其分數能相互比較，其目的是為了校準試題難度的差異，結果並不會因時間或人而有所改變（Michael ＆ Robert, 2004）。

進行測驗等化必須滿足對稱性（ symmetry property ）、相同試題規格（ same specifications property）、相等性（equity properties）、觀察分數等化性質（observed score equating properties）及群體不變性（group invariance property）五項特質（Michael &

Robert, 2004）。以下介紹測驗等化的種類及量尺化方法相關文獻。

壹、測驗等化的種類

測驗等化的種類分為水平等化及垂直等化兩種，介紹如下（王暄博，2006）：

一、水平等化（horizontal equating）：

當一測驗有數個測量相同特質的不同題本，且試題難度與受試者能力分布相似時，即可進行水平等化的技術，亦即將兩個或兩個以上測量相同特質、相同能力的測驗分數利用測驗等化技術進行轉換的過程。為了降低練習因素（practice effect）以保

護試題的安全性（test security），因此，利用題庫建立數個類似平行測驗（parallel test）

的題本，再透過量尺等化（scale equating）程序比較這些不同測驗的結果，將不同測驗分數轉換至相同量尺上，此過程稱為水平等化。水平等化的應用廣泛，例如：托福、

GRE等，皆有多種複本測驗，一年可以進行多次考試；除此之外，大型測驗的量尺化程序中，同年度間測驗等化即屬於水平等化。

二、垂直等化（vertical equating）

當一測驗有數個測量相同特質的不同題本，而試題難度與受試者能力分布卻不相同時，即可進行垂直等化的技術，亦即將兩個或兩個以上測量相同特質、不同能力的測驗分數利用測驗等化技術進行轉換的過程。為了比較不同題本的分數，必須透過量尺等化（scale equating）程序建立題本間的等化分數。此類測驗的受試者能力屬於不同年齡或不同年級的分配情形，例如：愛奥華基本技能測驗（Iowa Test of Basic Skills），就是透過垂直等化進行測驗分數的連結。

三、小結

本研究提到的國內外大型測驗建置的共同目的之一，即追蹤受試者的能力變化情況，為達成此目的必須藉助等化技術，同時進行水平等化及垂直等化（陳煥文，2004）。

例如，本研究大型測驗同年度及不同年度間測驗等化使用水平等化設計，將不同測驗分數轉換至共同量尺上，以作為比較各國、各地區、各學校、及個人表現的依據；以比較跨學科、跨年級、甚至跨年度的測驗分數。

貳、等化估計方法

等化估計方法分為古典測驗理論（classical test theory, CTT）等化估計方法及試題反應理論（item response theory, IRT）等化估計方法。Crocker 與 Algina（1986）指出 CTT等化估計方法利用原始總分來進行量尺化程序，其中最常見的三種方法為平均數等化（mean equating）、線性等化（linear equating）及等百分位數等化（equipercentile equating），但在實施上有其限制，因此出現了IRT等化估計方法。

IRT等化估計方法估計不同群組受試者反應資料的試題參數及能力參數，經過連結

（linking）將參數轉換至同一量尺，以進行比較。其大致分為同時估計法(concurrent estimation)及分開估計法(separate estimation)兩大類（Michael ＆ Robert, 2004）。一、同時估計法

此方法藉由等化設計對所有測驗的試題同時進行校準，即可將所有受試者能力值與試題參數放在相同量尺上。等化設計時，各測驗皆設有定錨試題，利用定錨試題將所有測驗反應資料合併，同時進行參數估計，方能使所有測驗的受試者能力值及試題參數在同一個量尺上，以利進行比較(Mislevy & Bock, 1982)。

等化過程中藉由等化係數將不同測驗題本的試題參數值放在同一量尺上，而其中的風險來自於等化係數估計值正確與否，此問題可透過使用同時估計法來解決。因此，

同時估計法優於以線性技術為基礎的等化方法，例如：特徵曲線法（Stocking & Lord, 1983）。

二、分開估計法

此方法先分別估計兩份不同測驗之試題參數，再藉由各測驗中的定錨試題參數得到量尺之間的轉換係數，將不同測驗量尺轉換至同一量尺，以便進行比較，其中較為人所知的方法為平均數法（mean method）、平均數與標準差法（mean and sigma method）

及特徵曲線法（characteristic curve method）。

三、小結

許多文獻指出，同時估計法比分開估計法擁有較佳估計精準度（Anton & Bradley, 2001；Hanson & Beguin, 2002；黃美芳，2006；陳煥文，2004），Hanson與Beguin（2002）

指出在同年度間不同測驗時，同時估計法在樣本數較大時比分開估計法有較佳的等化效果；Simon（2008）指出在樣本數較大時同時估計法比分開估計法擁有較佳的估計精準度，尤其是在施測試題數量少的情況下，兩者估計精準度差異會越大。而大型測驗將同時估計法使用於同年度間的量尺化程序，與不同年度間使用的量尺化方法不同。因此，本研究擬使用同時估計法於不同年度間測驗。

在文檔中大型測驗不同量尺化程序之等化效果探究 (頁 16-19)

第二章 文獻探討

第二節 測驗等化

壹、測驗等化的種類

貳、等化估計方法

第二章文獻探討

第二節測驗等化