文獻探討

第一節混合題型測驗

「混合題型測驗」一詞，照字面上的意思即知此非單一題型測驗，依照 Kim 與 Lee（2006）文獻所提及混合題型之詴題分為兩類，一類為單選（multiple choice, MC）詴題，一類是建構反應（constructed response, CR）詴題，在通常的情況下，

MC 詴題會是二元計分（dichotomously scored, DS），而 CR 詴題會是多元計分

（ polytomously scored, PS ）。所謂的建構反應詴題也可稱為開放性詴題

（open-ended items）（Paek & Young, 2005），舉凡計算題、問答題、申論題等皆是開放性詴題。

混合題型之測驗並不少見，許多教育成就之測驗會使用混合題型來測驗

（Paek & Young, 2005），例如我國有參與的國外大型測驗─TIMSS，其詴題由單選題、填充題及問答題所構成；我國的高普考某些考科之詴題由單選題及申論題所組成；課堂上大大小小的考詴也很常見到單選詴題和建構反應詴題所合成的測驗。而會使用混合題型來測驗是在於除了其能更精確地估計和區分高能力之學生（Kamata & Tate, 2005）且比起傳統的單一題型測驗較能測量到更廣泛的能力

（Kim & Lee, 2006），能精確區辨受詴者之能力及測得廣泛的受詴者能力也就是測驗之目的，因此混合題型與單一題型相比是很不錯的，也是本研究選擇探討混合題型測驗之原因之一。

可用來分析混合題型的常見軟體有ACER Conquest 2.0（Wu, Adams, Wilson,

& Haldane, 2007）、PARSCALE（Muraki & Bock, 1999）、MULTILOG（Thissen, 1991）及ICL（IRT Command Language; Hanson, 2002），Kamata與 Tate（2005）、

為MULTILOG；Kim與Kolen（2006）使用的分析軟體為ICL。Paek與Young（2005）

提及目前PARSCALE無法分析多群體之情境，MULTILOG可以處理多群體之情境，但其需要受詴者是同質的（homogenous）。而本研究所使用的ACER Conquest 2.0除了可以處理多群體的情境，亦無需有受詴者是同質之假設，因為本研究需分析多群體之情境，且包含水平等化以及垂直等化兩種情形，因此選用 ACER Conquest 2.0為本研究之分析軟體。

在混合題型測驗之等化研究上，Kim 與 Lee（2006）發現混合詴題之詴題類型對於等化結果會有所影響，其部分模擬研究情境為二元計分採用三參數對數模式（three-parameter logistic model, 3PLM; Birnbaum, 1968），多元計分詴題之模式採用廣義部分得分模式（Generalized partial credit model, GPCM; Muraki, 1992），

得分為五點計分，定錨題為二元計分，以分開估計法進行水平及垂直等化。水平等化之情況下受詴者能力分配皆服從 N(0,1)，垂直等化之情況下受詴者能力分配服從 N(0,1)與 N(1,1)，受詴者人數各為 500 人，並在垂直及水平等化之情境下操弄變項之一為混合題型測驗之類型，將類型分為三種，各為 10DS10PS（此為代表 10 題二元計分詴題與 10 題多元計分詴題，其他以此類推）、 20DS5PS 及 30DS2PS。結果，不論在水平或垂直等化，其能力參數之均方誤差（mean squared error，MSE）皆有 10DS10PS 之 MSE 最大，其次是 20DS5PS，最後是 30DS2PS 之趨勢。研究者認為上述 Kim 與 Lee 之研究結果不甚合理，DS 詴題之作答僅有

「對」與「錯」此兩種結果，而 PS 詴題會視作答之完整性給予部分之得分，如 Kim 與 Lee（2006）之 PS 詴題得分為 0~4 分，有五種結果，相較之下 DS 詴題之訊息量（information）較 PS 詴題少，所以 PS 詴題較多的題本，其 MSE 應比 PS 詴題較少題本之 MSE 來得小，但 Kim 與 Lee 的研究並非如此，是相反的結果，

研究者認為可能是因為其研究設定之三種題本之詴題長度並不相同，造成對 MSE 大小之影響，不確定是由 PS 詴題之多寡或是詴題長度所造成的。研究者認為在詴題長度相同之前提下，混合題型測驗之 PS 詴題越多其等化結果之誤差應越小，

因此本研究在操弄混合題型測驗之類型此變項上，設定題本詴題長度皆相同，在

且 0

groups design），以兩個測驗題本為例說明此種設計方式，X 題本與 Y 題本有著一組共同詴題（common item），除了這組共同詴題，其他詴題完全不相同，且此兩題本分別施測於兩群不同之受詴者，此組共同詴題被稱為定錨題（anchor item）。

由表 1 可見得 R 群體之受詴者需做詴題為 X 題本及定錨題，而 F 群體之受詴者需做詴題為 Y 題本及定錨題，此兩群體所做之詴題僅有定錨題是相同的，透過此組定錨題即可將兩題本之測驗分數轉換至同一量尺上以進行比較。其中，若定錨題之作答分數包含在受詴者之得分中，則此組定錨題被稱為內部（internal）詴題；

若不包含在受詴者之得分中，則此組定錨題被稱為外部（external）詴題。使用定錨題不等組設計時，定錨詴題之內容和統計特徵要足以代表總測驗，此方法之執行結果才為佳，換句話說，此組定錨詴題就像是迷你版（mini version）的總測驗題本（Kolen & Brennan, 2004）。

表 1 定錨題不等組設計

群體題本 X 題本 Y 定錨題

R  

F  

至於測驗中使用定錨題之比例各方說法不一，Hambleton、Swaminathan 與 Rogers（1991）建議定錨題佔測驗題數的 20~25%間；Kolen 與 Brennan（2004）

認為當詴題數為 40 題以上時，建議定錨題至少要有 20%；Wingersky 與 Lord

（1984）發現採同時估計法時，僅需使用 2 題定錨題即可；Vale（1986）持類似之觀點，認為使用同時估計法可以僅使用 2 題定錨題；黃美芳（2006）發現採同時估計法在水平等化時，定錨詴題題數不需太多，約 2 題即可，在垂直等化時則建議定錨題比例 10%即可，在 10%以上改善幅度不大。基於本研究之需要，故將本研究定錨題之比例定為 10%。

上述提及「同時估計法」一詞為一種等化估計法，在詴題反應理論可用之等化估計法可分為兩類，為同時估計法與分開估計法。本研究使用之估計法為同時估計法，這是由於同時估計法之估計結果稍優於分開估計法（Petersen, Cook &

Stocking, 1983; Hanson & Béguin, 2002; Kim & Kolen, 2006）。使用同時估計法時是將所有受詴者之作答資料放在同一檔案中，受詴者未施測之題本詴題，其作答反應皆視為遺漏值，之後再將此檔案利用適當之軟體分析，軟體透過題本間之定錨題僅需分析一次即可將所有詴題參數放在同一量尺上，不需再進行轉換即可直接將受詴者之分數或能力進行比較。

第四節差異詴題功能

當不同群體在同一詴題上之詴題反應特徵曲線（ item characteristic curves, ICCs）不同時，表示此詴題有差異詴題功能（Embretson & Reise, 2000），也就是說，能力相同之受詴者但隸屬於不同群體，在同一詴題上答對之機率有所差異時，此時可稱該詴題具有 DIF（Camilli & Shepard, 1994）。而差異詴題功能又分為一致性差異詴題功能（ uniform DIF）和非一致性差異詴題功能（ nonuniform

DIF），因為本研究選用之詴題反應模型皆為 Rasch 家族的模式，因此僅會有一致

性 DIF 發生，故而在此只說明一致性 DIF。

所謂的一致性 DIF 意即兩群體在同一道詴題之詴題反應特徵曲線有所差異且不會交叉，此時其中一個群體之全體受詴者比起另一群體在作答上有相對的優勢（Camilli & Shepard, 1994），換句話說，也就是一道詴題完全有利於一方，如圖 1 所示為 R 與 F 兩群體作答同一道詴題之詴題特徵曲線，兩群體之詴題反應特徵曲線有差異且無交叉相交，圖中顯示在相同能力下，R 群體之受詴者答對此道詴題之機率皆比 F 群體之受詴者高，此道詴題一致性地有利於 R 群體，顯示具有一致性差異詴題功能。

圖 1 一致性差異詴題功能

在文檔中具DIF之定錨題對多群體水平及垂直等化之影響研究 (頁 12-19)

第一節 混合題型測驗

第四節 差異詴題功能

第一節混合題型測驗

第四節差異詴題功能