• 沒有找到結果。

第二章 文獻探討

第五節 測驗等化

方法,而測驗連結(test linking)則是指連結兩個不同測驗分數的一般化過程(von Davier & Liu, 2008)。Yi、Harris 與 Gao(2008)也指出等化是使用統計方法轉 換測驗分數的過程,目的是為了調整不同測驗的試題難度,使得不同測驗分數是 可交換的。許多研究皆提到有關評估等化估計效果,包括利用不同等化設計

(equating design)與方法進行比較,以及評估等化函數不變性(invariance of equating functions)與一致性的研究(Yang & Gao, 2008; Yi, Harris, & Gao, 2008;

von Davier & Liu, 2008; Dorans & Liu, 2008; Nancy, 2008; Brennan, 2008; Puhan, 2007; Kao, Kim, & Hatrak, 2005; Petersen, Cook, & Stocking, 1983; Brennan &

Kolen,1987; Cook & Petersen, 1987; Lord & Wingersky, 1984; Marco, Petersen, &

Stewart, 1979)。這些研究能提供使用哪種等化設計與方法可以導致較佳的等化結 果,以及使用哪種方法對於等化不變性與一致性較容易受影響。因此,以下將介

順序因素的影響,且測驗內容與難度必須與XY題本十分類似,測驗長度相當 於一個分測驗(von Davier, Holland, & Thayer, 2004;Dorans & Holland, 2000;

Tianyou, 2005)。

NEAT 設計經常使用於一個測驗只能被施測一次,PQ被視為不同群組的 母群受試者,且必須滿足以下兩個假定(Kolen & Brennan, 2004;von Davier, Holland, & Thayer, 2004):

1. 兩群不同的母群受試者(PQ),施測其中一份測驗與定錨測驗。

(Massachusetts comprehensive assessment system, MCAS)與美國 AP 微積分測驗 皆採用 NEAT 設計。此設計只需假設受試樣本是隨機抽取的,不必假設不同受試 樣本有相同的能力值。定錨試題是用來調整不同能力群體所造成的等化誤差,因 此,定錨試題內容與試題難度要盡可能與測驗相似(Petersen, Kolen, & Hoover, 1989; Yi, Harris, & Gao, 2008)。然而,在 NEAT 設計中,每個題本必須施測相同 的定錨試題,因此,定錨試題的好壞將會影響等化估計效果,而且若定錨試題選 得好的話,NEAT 設計可以避免單組設計(the single-groups design)或等群組設 計(the equivalent groups design)所遭遇到的問題(Klein & Jarjoura, 1985)。

二、 平衡不完全區塊設計

BIB 設計是由 Yates(1936)提出,並於 1992 年 Rust 與 Johnson 應用於測 驗領域的題庫設計。BIB 設計將試題分成若干試題區塊,區塊間與區塊內的試題

皆不重複,受試者只需接受若干試題區塊的試題,且不同受試者可能接受部分相 試題在施測時,大約需要 500 個測試樣本(Allen, Donoghue & Schoeps, 2001)。

BIB 設計根據假定將試題區塊作結合以求出最小題本數,設計如表 2-12 所示(曾

的限制情形下,必須滿足以下限制式(van der Linden, Veldkamp, & Carlson, 2004;

Nemhauser & Wolsey, 1999):

美國的 NAEP 與荷蘭的 PPON(Periodiek Peilingsonderzoek van het Onderwijs)

等測驗計畫即採用 BIB 等化設計,此設計假設題庫中的試題被區分為數個區塊,

利用這些試題區塊編制成題本。區分試題區塊的過程不為隨機,但必須考量受試 者可以有足夠的時間完成所有的題目,且試題區塊數也要事先確定。而題本配置 是利用螺旋排序並束在一起(spiraled and bundled)的方式,以確保每一試題區塊 出現的次數均等,來減低順序因素。

三、 部分平衡不完全區塊設計

PBIB 是由 Bose 與 Nair(1939)提出,此設計需滿足以下三個假定:

1. 每一個題本內的試題區塊數要相同。

2. 每一個試題區塊在所有題本中出現的次數需相等。

3. 成對試題區塊出現的次數可不完全相同。

假定 3 為 PBIB 設計與 BIB 設計不同之處,即某些成對試題區塊的出現次數 比其他成對試題區塊的出現次數還多。表 2-13 為 PBIB 設計的一個範例,可發現 成對試題區塊(M1, M4)、(M2, M5)和(M3, M6)在所有題本中均同時重複 出現二次,而其餘成對試題區塊在所有題本中僅出現一次。

表 2-13 PBIB 設計 計劃使用,例如:NAEP 1998 閱讀與寫作評量即使用 PBIB 設計(Allen, Donoghue,

& Schoeps, 2001)。

自 1998 年提出集中式平衡不完全區塊設計(focused balanced incomplete block design, focused BIB design)之後,BIB 設計與部分平衡不完全區塊設計(partially BIB design, PBIB design)的變化類型一直沿用至今。然而,由於 BIB 與 PBIB 設 計相對於 NEAT 設計而言,所需的測驗題本數較多,且必須在施測人數及定錨試 化方法,其中,CTT 等化方法以平均數等化(mean equating)、線性等化(linear

equating)、以及等百分位數等化(equipercentile equating)等 3 種方法較為常見。

然而,觀察分數等化方法在測驗實施上有許多限制與缺點,例如:平均數等化與 線性等化會使得等化分數有超出範圍(0~100 分)的情況發生、以及平均數等化 視兩份測驗的等化分數為一個常數等缺點,因此,有了 IRT 等化方法的出現。IRT 等化方法能在某些觀察分數等化方法不能使用的情況下使用,例如:建立測驗題 庫(Kolen & Brennan, 2004)。是故,本研究亦採用 IRT 等化方法建立華語文能力 測驗題庫。

由於 IRT 提供可以用來進行測驗等化的方法,使用不同組群受試者的反應資 料,推估試題參數值和能力參數值,再經過連結的過程,將參數值轉化到同一量 尺上(von Davier & Wilson, 2008)。當試題參數已知時,常使用來進行 IRT 量尺 分數轉換的方法為平均數轉換方法(mean / mean transformation method)、平均數 與標準差轉換方法(mean / sigma transformation method)、特徵曲線轉換方法

(characteristic curve transformation method)(Haebara, 1980; Kolen & Brennan, 1995, 2004; Stocking & Lord, 1983)。然而,若依據轉換的類型又可分為真分數等 化(true score equating)與觀察分數等化(observed score equating)。

相關文件