測驗等化之意義與種類

第二章文獻探討

第三節測驗等化之意義與種類

在許多測量相同能力或特質的不同測驗中，各測驗分數非落於相同量尺上，

因而無法直接進行比較。要將兩份或兩份以上不同測驗所得的分數轉換至相同之量尺分數上，進一步將不同測驗所得之分數進行比較，就需經由測驗等化才能夠達到。

測驗等化是使用統計方法將受試者在一份測驗所得的分數轉換至另一測驗分數上的過程(Lord, 1980)，目的是在調整測驗難度間之差異，而不是測驗內容之差異(Kolen & Brennan, 1995；吳裕益，1991)。測驗等化必須滿足對稱性(symmetry property)、相等性(equity)、測驗是單一向度(unidimensionality of the tests )、觀察分數等化特性(observed score equating)以及團體不變性(group invariance property) 等五個性質，等化才能夠進行(Kolen & Brennan, 2004；余民寧，1992b)。

對稱性的意義為等化不應該受參照測驗的影響且為可逆的，亦即由測驗 A 等化至測驗 B 或是由測驗 B 等化至測驗 A，其等化結果必然是相同的；相等性是指當兩份測驗 A 與測驗 B 欲進行等化時，對每一位受試者使用測驗 A 或測驗 B 來施測，其結果應該是相同的；測驗是單一向度的意義是指兩份測驗欲進行等化時，其測驗內容必須是測量相同之能力或潛在特質；觀察分數等化特性意謂在觀察分數等化中，對特定群體的受試者而言，量尺分數分佈的特性是相同的，即當測驗 A 轉換至測驗 B 後的量尺分數之能力分佈應與在測驗 A 的能力分佈相同；

團體不變性則指等化的程序應該是樣本獨立的，即不受所選用樣本的影響，其測驗分數間之轉換的結果必須是相同的。Kolen & Brennan(2004)引述 Linden(2004) 的研究結果中曾明確指出此特性在真分數等化的方法中必須存在，但在觀察分數等化中並不必然成立。

測驗等化的種類包括水平等化 (horizontal equating) 及垂直等化 (vertical equating)兩種，以下分別介紹之。

水平等化是指當二個或是二個以上測量單一特質或是單一能力測驗間之原始測驗分數的轉換過程，而這些不同測驗間的關係有如測驗複本間的關係，且其受試者能力分佈相似且各測驗之試題難度相仿。在許多大型測驗中，例如托福、

GRE (Graduate Record Examinations)等考試有許多的複本測驗。這些測驗是由題庫分成數個類似平行測驗(parallel test)的題本，其目的是為保護試題的安全性(test security)及減低練習因素(practice effect)，才能在一年之中進行多次施測。來自不同群體之受試者以不同的複本測驗進行施測後，其測驗的分數成績並未落於相同的量尺上，需要經過等化的程序，使各測驗分數落於同一量尺上，測驗分數方能進行比較，此類等化程序稱之為水平等化。

垂直等化是指當二個或是二個以上測量單一特質、不同能力測驗間之原始測驗分數的轉換過程，這些受試者能力的分佈不相似、各測驗之試題難度不相仿。

美國的加州成就測驗(California Achievement Tests)、愛奧華基本技能測驗(Iowa Test of Basic Skills)等成就測驗的題庫中會包括許多不同形式、不同難度水準之題本，這些測量單一特質的題本分別會有其適用年級或年齡的受試者。各群體受試者以不同題本進行測驗後，其各測驗分數端賴等化的程序，使分數落於同一量尺上以了解該特質在不同年齡或年級的分佈情形，此一等化程序稱之為垂直等化。

第四節測驗連結設計

欲進行測驗間之等化，則必須先確定收集的各測驗作答反應資料有共同試題存在或是共同的受試者作答，方能進行測驗等化。測驗連結設計即是指研究者進行測驗等化前，其所收集測驗資料的方法。一般常見的設計有隨機組設計(random groups design)、單一組設計(single group design)、平衡對抗單一組設計(single group design with counterbalancing)與 NEAT 設計(Kolen & Brennan, 2004)，加上本研究欲探究的為 BIB、NEAT 與 PBIB 設計之成效，故將上述六種連結設計分別簡述如下：

一、隨機組設計

假設有測驗一與測驗二欲進行等化，則將受試者隨機指派參加其中一份測驗，如表 2-6(Kolen & Brennan,1995；von Davier, Holland, & Thayer, 2004)。因為每個受試者僅施測其中一份測驗，故此設計需要求所有的受試者在同一時間施測，由於受試者是隨機分成數組，因此假定每一測驗所測之受試者的平均能力應大致相同。此外，為了降低誤差，也需使用大樣本來進行施測。

表 2-6 隨機組設計

樣本測驗一測驗二

P1 V P2 V

註：P1、P2 是取自母群的隨機樣本，“V”為受試者必須受測之測驗

二、單一組設計

在單一組設計中，假設有測驗一與測驗二欲進行等化，則受試者必須進行測驗一與測驗二，如表 2-7 所示。此法雖然簡單，但受試者卻容易因為產生疲勞、

重複練習或是學習因素使得測驗結果受影響。

表 2-7 單一組設計

樣本測驗一測驗二

P1 V V

註：P1 是取自母群的隨機樣本，“V”為受試者必須受測之測驗

三、平衡對抗單一組設計

此法乃針對單一組設計的「施測順序效果」之問題加以改進，將原來的單一組隨機分為兩組，一組先接受測驗一，再接受測驗二；另一組則先接受測驗二，

而後接受測驗一，如表 2-8 所示。平衡對抗隨機組設計避免受試者因為疲勞使得測驗結果受影響，而測驗順序是為了確保任何順序因素對於兩測驗的分數公平。

表 2-8 平衡對抗單一組設計

測驗一測驗二

樣本先測後測先測後測

P1 V V

P2 V V

註：P1、P2 是取自母群的隨機樣本，“V”為受試者必須受測之測驗

四、NEAT 設計

NEAT 設計是將題庫試題編制成不同之分測驗，各分測驗間必須存有共同試題即定錨試題，通常定錨試題在每群受試者的測驗順序是一樣的，以避免順序因素的影響。進行施測時分別以不同之分測驗於不同受試群，NEAT 設計如表 2-9(Kolen & Brennan,1995；von Davier, Holland & Thayer, 2004)所示，二群受試者接受不同之分測驗，但是各分測驗中皆含有定錨測驗 X。NEAT 設計可以避免單組設計或等群組設計所遭遇到的問題 (Klein & Jarjoura, 1985) 。 MCAS(Massachusetts comprehensive assessment system)即使用 NEAT 設計進行不同年度間學生之測驗等化，因為它只需要假設受試群體是隨機抽取，無須假設兩受試群體有相同的能力值。

BIB 設計是由 Yates(1936)提出，並於 1992 年 Rust & Johnson 應用於測驗領域的題庫設計。此設計是將題庫中的試題分為數個區塊，並利用這些試題區塊編

其中：

t

指試題區塊數；

s指題本代號，

s

=1,...,

S

；

k指每個題本配置的試題區塊數，即區塊數目( number of blocks )；

r

指試題區塊在題本中出現的次數；

i

指題庫中個別區塊代號，

i

=1,...,

t

；

j

指題庫中成對區塊中第二個區塊代號，

j

=1,...,

t

； λ 指成對試題區塊出現在相同區塊位置的次數；

x

is指試題區塊與題本的配置組型，其中：

x

_is∈

{ }

0,1 ,

i

=1,...,

t

S

s

=1,..., ；

z

_ijs 指成對試題區塊與題本的配置組型，

{ }

0,1

ijs∈

z

i

j

=1,...,

t

s

=1,...,

S

。

式(2-6)代表每一個題本配置的試題區塊數目；式(2-7)代表每一個試題區塊在所有題本中出現的次數；式(2-8)代表成對試題區塊在所有題本中出現的次數；式子(2-9)代表成對試題區塊與組型的一致性。

在此設計中，受試者只需接受若干試題區塊的試題，且不同受試者可能接受部分相同、完全相同、或完全不同的試題區塊，如表 2-10 所示，其為 BIB 設計的一個範例，在此設計中，有 7 個題本(S1~S7)；7 個試題區塊(M1~M7)。BIB 設計中試題區塊序號的組合不重複，如：S1 題本是由試題區塊 M1、M2、M4 組合而成，則表中其他題本(S2~S7)就不會在出現試題區塊 M1、M2、M4 的組合。BIB 設計優點為試題區塊與題本的配置方式，使用螺旋式排列方式，可使每一個試題區塊的施測次數相同(van der Linden, Veldkamp & Carlson, 2004；Nemhauser &

Wolsey, 1999)。

表 2-10 BIB 設計

題本序號區塊位置區塊位置區塊位置

S1 M1 M2 M4

S2 M2 M3 M5

S3 M3 M4 M6

S4 M4 M5 M7

S5 M5 M6 M1

S6 M6 M7 M2

S7 M7 M1 M3

六、PBIB 設計

PBIB 是由 Bose & Nair(1939)提出，在此設計中各試題區塊出現次數需相等，

但是成對試題區塊的出現次數是不完全相同的，亦即某些成對試題區塊的出現次數是多過於其他剩餘成對試題區塊的出現次數，如表 2-11 所示，成對試題區塊 (M1,M4)、(M2,M5)和(M3,M6)皆同時重複出現於二次，而其餘成對試題區塊則在所有題本中僅出現一次。出現二次的成對試題區塊比起只出現一次的成對試題區塊將會有較高的精準度，在小型實驗中試題區塊間的精準度差異是被犧牲的，然而精準度的差異並未因過大而禁止使用 PBIB。

BIB 設計在需要的不完整區塊無法建構出每種實驗情境，在某些情境下，需要的重複數可能變成過高。PBIB 設計之優點為在較少的重複數下便可架構。在 BIB 設計中最小的重複數是γ =λ

( )

t−¹ ⁽k−¹⁾。假設有一個試題區塊總數為 6(t=6) 的題庫且每個題本需要包含 4(k =4)個區塊，則需要每個試題區塊重複出現 10(γ =10)次，則題庫共有試題區塊方格數為 60，然而，在部分平衡設計下，總試題區塊方格僅需要 12 個，如表 2-11。在實際情況中，資源是有限的且必要的重複性為可能時，與 BIB 設計需要的大量實驗單位(試題區塊方格數)相較之下，

PBIB 設計可減少實驗大小是較吸引人的。

表 2-11 PBIB 設計表

題本序號區塊位置區塊位置區塊位置區塊位置

S1 M1 M4 M2 M5 S2 M2 M5 M3 M6 S3 M3 M6 M1 M4

第三章研究方法

本章分為五節，第一節為研究步驟；第二節為連結設計之變項設定；第三節為 BIB 設計；第四節為 NEAT 設計；第五節為 PBIB 設計；第六節為研究軟體。

第一節研究步驟

本研究是在試題反應理論中的等級反應模式下，採模擬實驗方式探討多元計分試題採 BIB 設計、NEAT 設計與 PBIB 設計進行水平等化之連結效果。圖 3-1 為本研究之研究流程圖：

圖 3-1 研究流程圖 設定模擬情境

NEAT 題本連結設計 BIB 題本

連結設計

PBIB 題本連結設計確立研究目的

進行文獻探討

利用同時估計法進行水平等化測驗等化估計撰寫研究報告

圖 3-1 為本研究之研究流程圖，採用 BIB、NEAT 和 PBIB 之連結設計。在設定施測樣本數時，茲因考量目前國內建置的「臺灣學生學習成就評量資料庫 (Taiwan Assessment of Student Achievement, TASA)」在 2005 年收集之樣本數為一萬人左右、2006 年收集之樣本數為七千多人及「台灣教育長期追蹤資料庫(Taiwan Education Panel Survey, TEPS)」之樣本數和超過二萬人與 NAEP 之寫作評量樣本數為將近二萬人，故將本研究之樣本數設定為 7560 人和 19880 人，又因研究者

在文檔中 BIB、PBIB與NEAT設計於多元計分測驗之連結效果比較 (頁 24-0)

第二章 文獻探討

第三節 測驗等化之意義與種類

第四節 測驗連結設計

t

s

S

r

i

i

t

j

j

t

x

x

{ }

i

t

S

s

z

{ }

z

i

j

t

s

S

( )

第三章 研究方法

第一節 研究步驟

第二章文獻探討

第三節測驗等化之意義與種類

第四節測驗連結設計

第三章研究方法

第一節研究步驟