測驗等化的意義與種類

第二章文獻探討

第二節測驗等化的意義與種類

一、測驗等化的意義

測驗等化是利用統計方法，將受試者在某一測驗的分數轉換至另一測驗分數量尺，以比較兩測驗分數關係的過程。這些測驗的內容及難度都極為相似，為了用來測量相同的特質或能力，因此，測驗等化的目的在調整測驗難度之差異而非測驗內容之差異(Kolen & Brennan, 1995；吳裕益，民 80)。而且，測驗分數等化不受試題內容和受試者能力分布的影響，但必須滿足下列幾項特性，等化才能進行(Lord, 1980；Hambleton & Swaminathan, 1985；Kolen & Brennan, 1995)：

(一)對稱性(symmetry)：測驗分數等化必須是可逆的，無論是從X測驗等化至 Y測驗，或是由Y測驗等化至X測驗，其等化結果必須相同。

(二)相等性(equity)：若有兩測驗欲進行等化(X測驗和Y測驗)，則不論受試者受測X測驗或Y測驗，其等化結果並無差異。

(三)團體不變性(group invariance property)：等化過程中不論受試者為何，轉換之結果必須相同。

(四)測驗必須是單一向度(unidimensionality of the tests)：兩測驗若欲進行等化，測驗內容必須測量相同之能力特質。

二、測驗等化的種類

測驗等化的種類可分為水平等化與垂直等化兩種，茲介紹如下：

(一)水平等化

水平等化係指利用測驗分數等化之技術，將兩個或兩個以上測量相同特質、

相同能力的測驗，其原始分數轉換之過程。這些測驗是利用題庫分成數個類似平行測驗(parallel test)的題本，其目的是為了保護試題的安全性(test security)及減低練習因素(practice effect)。然而，為了確定這些測驗的結果能夠比較，必須利用量尺等化(scale equating)的方法，將其轉換至同一量尺上，此一過程即稱為水平等化。

水平等化的實施是當某一種測驗有數種不同形式的題本，而這些題本都是用來測量某一特質，且受試者的能力分布與試題難度又相似時，為了要比較不同題本的分數，將透過等化程序建立題本之間的等化分數(equating scores)。這些題本經由等化的過程，其測驗成績即可在相同的量尺上進行比較。水平等化也常應用在許多測驗方面，例如：托福、GRE的考試就有多種複本測驗，可以進行一年多次的考試機會。

(二)垂直等化

垂直等化係指利用測驗分數等化之技術，將兩個或兩個以上測量相同特質、

相同能力的測驗，其原始分數轉換之過程。垂直等化的實施是當某一種測驗有數種不同形式的題本，而這些題本都是用來測量某一特質，但受試者的能力分布與試題難度卻不相同時，為了要比較不同題本的分數，透過等化程序而建立題本之間的等化分數(equating scores)。此一測驗，受試者的能力是屬於不同年齡或年級的分配情形，如美國的加州成就測驗(California Achievement Tests , CAT)、愛奧華基本技能測驗(Iowa Test of Basic Skills)等，即利用垂直等化進行測驗分數間之連結。

此外，若某一計畫之目的為長時間研究受試者的某種能力成長情形時，等化的議題將受到矚目，且水平及垂直等化是必須同時進行的。而較著名的NAEP 大型測驗，藉由等化連結的成果，將受試者測驗之分數轉換到一個共同的量尺上，

以期作為教育者比較各州、各地區、各學校、甚至個人表現的評比依據(National Research Council, 1999；Kolen, 2000；陳煥文，民 93)。目前國內 TASA 計畫，也是藉由等化連結的方法，將受試者測驗的分數轉換到同一上，以提供國內專家學者或學術單位進行跨年級、跨學科、甚至跨年度的比較。因此，可知長期追蹤之大型測驗，除了有助於建立相同年級及不同年級之量尺外，並可藉此量尺分析來探究學生在各學科及不同年級之學習差異。

在文檔中 BIB與NEAT設計之水平及垂直等化效果比較 (頁 19-22)

第二章 文獻探討

第二節 測驗等化的意義與種類

一、測驗等化的意義

二、測驗等化的種類

第二章文獻探討

第二節測驗等化的意義與種類