第二章 文獻探討
第二節 測驗等化的意義與種類
一、測驗等化的意義
測驗等化是利用統計方法,將受試者在某一測驗的分數轉換至另一測驗分數 量尺,以比較兩測驗分數關係的過程。這些測驗的內容及難度都極為相似,為了 用來測量相同的特質或能力,因此,測驗等化的目的在調整測驗難度之差異而非 測驗內容之差異(Kolen & Brennan, 1995;吳裕益,民 80)。而且,測驗分數等化 不受試題內容和受試者能力分布的影響,但必須滿足下列幾項特性,等化才能進 行(Lord, 1980;Hambleton & Swaminathan, 1985;Kolen & Brennan, 1995):
(一)對稱性(symmetry):測驗分數等化必須是可逆的,無論是從X測驗等化至 Y測驗,或是由Y測驗等化至X測驗,其等化結果必須相同。
(二)相等性(equity):若有兩測驗欲進行等化(X測驗和Y測驗),則不論受試者 受測X測驗或Y測驗,其等化結果並無差異。
(三)團體不變性(group invariance property):等化過程中不論受試者為何,轉 換之結果必須相同。
(四)測驗必須是單一向度(unidimensionality of the tests):兩測驗若欲進行等 化,測驗內容必須測量相同之能力特質。
12
二、測驗等化的種類
測驗等化的種類可分為水平等化與垂直等化兩種,茲介紹如下:
(一)水平等化
水平等化係指利用測驗分數等化之技術,將兩個或兩個以上測量相同特質、
相同能力的測驗,其原始分數轉換之過程。這些測驗是利用題庫分成數個類似平 行測驗(parallel test)的題本,其目的是為了保護試題的安全性(test security)及減低 練習因素(practice effect)。然而,為了確定這些測驗的結果能夠比較,必須利用量 尺等化(scale equating)的方法,將其轉換至同一量尺上,此一過程即稱為水平等化。
水平等化的實施是當某一種測驗有數種不同形式的題本,而這些題本都是用 來測量某一特質,且受試者的能力分布與試題難度又相似時,為了要比較不同題 本的分數,將透過等化程序建立題本之間的等化分數(equating scores)。這些題本 經由等化的過程,其測驗成績即可在相同的量尺上進行比較。水平等化也常應用 在許多測驗方面,例如:托福、GRE的考試就有多種複本測驗,可以進行一年多 次的考試機會。
(二)垂直等化
垂直等化係指利用測驗分數等化之技術,將兩個或兩個以上測量相同特質、
相同能力的測驗,其原始分數轉換之過程。垂直等化的實施是當某一種測驗有數 種不同形式的題本,而這些題本都是用來測量某一特質,但受試者的能力分布與 試題難度卻不相同時,為了要比較不同題本的分數,透過等化程序而建立題本之 間的等化分數(equating scores)。此一測驗,受試者的能力是屬於不同年齡或年級 的分配情形,如美國的加州成就測驗(California Achievement Tests , CAT)、愛奧 華基本技能測驗(Iowa Test of Basic Skills)等,即利用垂直等化進行測驗分數間之 連結。
13
此外,若某一計畫之目的為長時間研究受試者的某種能力成長情形時,等化 的議題將受到矚目,且水平及垂直等化是必須同時進行的。而較著名的NAEP 大 型測驗,藉由等化連結的成果,將受試者測驗之分數轉換到一個共同的量尺上,
以期作為教育者比較各州、各地區、各學校、甚至個人表現的評比依據(National Research Council, 1999;Kolen, 2000;陳煥文,民 93)。目前國內 TASA 計畫,也 是藉由等化連結的方法,將受試者測驗的分數轉換到同一上,以提供國內專家學 者或學術單位進行跨年級、跨學科、甚至跨年度的比較。因此,可知長期追蹤之 大型測驗,除了有助於建立相同年級及不同年級之量尺外,並可藉此量尺分析來 探究學生在各學科及不同年級之學習差異。
14