緒論 - 具DIF之定錨題對多群體水平及垂直等化之影響研究

以往在詴題反應理論（item response theory，IRT）的相關研究中，詴題多以單一題型（single format）之測驗為主，然而，事實上在課堂上的考詴和大規模的評估（large-scale assessments）使用混合題型（mixed-format）之測驗也在穩定增加（Kim & Kolen, 2006）。例如我國的大學入學考詴及公務人員高等考詴暨普通考詴、美國國家教育進步委員會（The National Assessment of Educational Progress, NAEP）、國際數學與科學教育成就趨勢調查（Trends in International Mathematics and Science Study, TIMSS）等大型測驗，測驗方式含有混合題型之測驗。而使用混合題型測驗比起單一題型的測驗可以測量到更廣泛的能力（ Kim & Lee, 2006），Kamata與 Tate（2005）的研究中也提到近幾年常用混合題型，欲對高能力的學生做更精確的估計與區分能力，由此可見使用混合題型測驗將會越來越廣泛，且比起單一題型測驗更能精確測得受詴者能力，因此探討混合題型測驗亦是本研究著重的議題之一。

上述 NAEP、TIMSS 等大型測驗中，受詴者可能來自不同國家或地區，可能受到施測時間及空間的限制無法同時進行施測，或是需在有限時間內需完成作答，有詴題長度之限制，在這種命題範圍廣泛卻又無法讓各群體（group）的受詴者同時施測所有詴題之情況下，主辦單位常準備多個測驗題本（form），以供不同群體之受詴者進行施測。然而各群體之受詴者在施測後，分數並無法直接進行比較，為了讓各群體之測驗分數能彼此加以比較，故需要為所有題本建立共同量尺，使受詴者之測驗分數或參數連結在同一量尺上，才能對受詴者之測驗分數或能力進行比較，這種建立同一量尺之技術便是等化（equating）。若將上述提到之大型測驗進行等化即為混合詴題測驗之等化，相較於其他領域的研究，探討混合詴題測驗等化之研究較少（Kim & Lee, 2006），這也是本研究的其中一個動機。

calibration），以往的研究（Petersen, Cook & Stocking, 1983; Hanson & Béguin, 2002;

Kim & Kolen, 2006）發現以同時估計法進行等化，其結果會稍優於分開估計法，

因此本研究選擇使用同時估計法來進行等化。

為不同題本之詴題建立共同量尺時，需利用題本與題本間共同的詴題，也就是定錨題（anchor item）來進行等化。而做為不同題本間進行等化之橋梁─定錨題─若出現了差異詴題功能（differential item functioning, DIF），使得能力相同但隸屬於不同群體之受詴者，在同一詴題上的答對機率卻不相同，這種現象會影響到進行等化時受詴者能力之估計。蔡良庭與施懿珊（ 2005）以及 Chu與 Kamata

（2007）之研究正說明了此種狀況，研究顯示具DIF之定錨題對二分題測驗之垂直等化有負面影響，且隨著定錨題中DIF題數的增加，受詴者之能力估計也越不精確，本研究擬進一步探討具DIF之定錨題對混合詴題等化之影響。

佘貞儀、陳媛如與施慶麟（2010）透過模擬研究，探討一參數對數模式

（one-parameter logistic model, 1PL; Rasch, 1960）及部分得分模式（partial credit model, PCM; Masters, 1982）之混合題型測驗在兩群體水平等化情境中，具DIF之定錨題題數對於等化結果之影響，結果發現具DIF之定錨題題數的增加將使全體受詴者能力估計值的誤差變大，且由全體受詴者在能力真值排名與估計值排名間之差距，發現定錨題中有DIF題時差距會較無DIF時來得大，因此本研究欲沿用其研究之架構並加以修改。由於目前多群體（multiple group）等化之研究並不多，

且Kim與Lee（2006）研究發現混合詴題之詴題類型（types of mixed-format test）

對於等化結果會有所影響，但其研究設計中，混合詴題題本之詴題長度並不相同，本研究欲修改詴題類型之設計，設定混合詴題題本長度皆相同，且本研究欲將上述研究中之兩群體等化推廣至多群體等化，並探討在不同混合詴題測驗之類型其水平及垂直等化效果如何。

第一節研究目的

根據前述之研究背景與動機，本研究欲透過模擬研究之方式，探討不同之詴題類型及定錨題具差異詴題功能之題數對多群體在混合題型的測驗等化情境中，若以同時估計法下進行水平及垂直等化時，對於受詴者能力之估計以及排名

有何影響。基於本研究操弄之研究變項有下列三項：（1）群體數、（2）詴題類型、

（3）定錨題具差異詴題功能之題數，本研究之目的敘述如下：

一、在水平及垂直等化下，不同群體數之受詴者能力估計精確度的差異。

二、在水平及垂直等化下，不同的混合詴題類型（詴題之組成）對於受詴者之能力估計的影響。

三、在水平及垂直等化下，定錨題具差異詴題功能之題數對受詴者之能力估計的影響。

第二節名詞解釋

本研究提及重要名詞解釋如下：

壹、混合詴題測驗

混合詴題測驗表示測驗之詴題並非單一題型，本研究所探討之混合詴題測驗為二元計分及五元計分的詴題所組成之測驗，其中二元計分的詴題資料來自

Rasch 模式（一參數對數模式），而五元計分的詴題資料來自 PCM 模式。

貳、測驗等化

測驗等化為將所有題本建立共同之量尺，使受詴者之測驗分數或參數連結在同一量尺上，以對受詴者之測驗分數或能力進行比較。

叁、定錨題

定錨題為不同題本間共同之詴題，透過定錨題可在測驗等化時進行題本間參數之連結。

肆、同時估計法

同時估計法為將受詴者在不同題本之作答反應放置同一檔案中，利用題本間之定錨題，同時估計不同題本之受詴者的能力與詴題參數。

伍、差異詴題功能

隸屬於不同群體但能力相同之受詴者，在同一道詴題答對之機率不同，此時稱此道詴題具有差異詴題功能。

在文檔中具DIF之定錨題對多群體水平及垂直等化之影響研究 (頁 8-12)

緒論

第一節 研究目的

第二節 名詞解釋