以往在詴題反應理論(item response theory,IRT)的相關研究中,詴題多以 單一題型(single format)之測驗為主,然而,事實上在課堂上的考詴和大規模的 評估(large-scale assessments)使用混合題型(mixed-format)之測驗也在穩定增 加(Kim & Kolen, 2006)。例如我國的大學入學考詴及公務人員高等考詴暨普通 考詴、美國國家教育進步委員會(The National Assessment of Educational Progress, NAEP)、國際數學與科學教育成就趨勢調查(Trends in International Mathematics and Science Study, TIMSS)等大型測驗,測驗方式含有混合題型之測驗。而使用 混 合 題 型 測 驗 比 起 單 一 題 型 的測 驗 可 以 測 量 到 更 廣泛 的 能 力 ( Kim & Lee, 2006),Kamata與 Tate(2005)的研究中也提到近幾年常用混合題型,欲對高能 力的學生做更精確的估計與區分能力,由此可見使用混合題型測驗將會越來越廣 泛,且比起單一題型測驗更能精確測得受詴者能力,因此探討混合題型測驗亦是 本研究著重的議題之一。
上述 NAEP、TIMSS 等大型測驗中,受詴者可能來自不同國家或地區,可能 受到施測時間及空間的限制無法同時進行施測,或是需在有限時間內需完成作 答,有詴題長度之限制,在這種命題範圍廣泛卻又無法讓各群體(group)的受詴 者同時施測所有詴題之情況下,主辦單位常準備多個測驗題本(form),以供不 同群體之受詴者進行施測。然而各群體之受詴者在施測後,分數並無法直接進行 比較,為了讓各群體之測驗分數能彼此加以比較,故需要為所有題本建立共同量 尺,使受詴者之測驗分數或參數連結在同一量尺上,才能對受詴者之測驗分數或 能力進行比較,這種建立同一量尺之技術便是等化(equating)。若將上述提到之 大型測驗進行等化即為混合詴題測驗之等化,相較於其他領域的研究,探討混合 詴題測驗等化之研究較少(Kim & Lee, 2006),這也是本研究的其中一個動機。
calibration),以往的研究(Petersen, Cook & Stocking, 1983; Hanson & Béguin, 2002;
Kim & Kolen, 2006)發現以同時估計法進行等化,其結果會稍優於分開估計法,
因此本研究選擇使用同時估計法來進行等化。
為不同題本之詴題建立共同量尺時,需利用題本與題本間共同的詴題,也就 是定錨題(anchor item)來進行等化。而做為不同題本間進行等化之橋梁─定錨 題─若出現了差異詴題功能(differential item functioning, DIF),使得能力相同但 隸屬於不同群體之受詴者,在同一詴題上的答對機率卻不相同,這種現象會影響 到進行等化時受詴者能力之估計。蔡良庭與施懿珊( 2005)以及 Chu與 Kamata
(2007)之研究正說明了此種狀況,研究顯示具DIF之定錨題對二分題測驗之垂 直等化有負面影響,且隨著定錨題中DIF題數的增加,受詴者之能力估計也越不 精確,本研究擬進一步探討具DIF之定錨題對混合詴題等化之影響。
佘 貞儀 、陳 媛如 與施 慶麟 (2010)透 過模 擬研 究, 探討 一參 數對 數模式
(one-parameter logistic model, 1PL; Rasch, 1960)及部分得分模式(partial credit model, PCM; Masters, 1982)之混合題型測驗在兩群體水平等化情境中,具DIF之 定錨題題數對於等化結果之影響,結果發現具DIF之定錨題題數的增加將使全體 受詴者能力估計值的誤差變大,且由全體受詴者在能力真值排名與估計值排名間 之差距,發現定錨題中有DIF題時差距會較無DIF時來得大,因此本研究欲沿用其 研究之架構並加以修改。由於目前多群體(multiple group)等化之研究並不多,
且Kim與Lee(2006)研究發現混合詴題之詴題類型(types of mixed-format test)
對於等化結果會有所影響,但其研究設計中,混合詴題題本之詴題長度並不相 同,本研究欲修改詴題類型之設計,設定混合詴題題本長度皆相同,且本研究欲 將上述研究中之兩群體等化推廣至多群體等化,並探討在不同混合詴題測驗之類 型其水平及垂直等化效果如何。
第一節 研究目的
根據前述之研究背景與動機,本研究欲透過模擬研究之方式,探討不同之詴 題 類型及 定錨 題具差 異詴題 功能之 題數 對多群 體在混 合題型 的測 驗等化 情境 中,若以同時估計法下進行水平及垂直等化時,對於受詴者能力之估計以及排名
有何影響。基於本研究操弄之研究變項有下列三項:(1)群體數、(2)詴題類型、
(3)定錨題具差異詴題功能之題數,本研究之目的敘述如下:
一、在水平及垂直等化下,不同群體數之受詴者能力估計精確度的差異。
二、在水平及垂直等化下,不同的混合詴題類型(詴題之組成)對於受詴者之能 力估計的影響。
三、在水平及垂直等化下,定錨題具差異詴題功能之題數對受詴者之能力估計的 影響。
第二節 名詞解釋
本研究提及重要名詞解釋如下:
壹、混合詴題測驗
混合詴題測驗表示測驗之詴題並非單一題型,本研究所探討之混合詴題測驗 為 二元計 分及 五元計 分的詴 題所組 成之 測驗, 其中二 元計分 的詴 題資料 來自
Rasch 模式(一參數對數模式),而五元計分的詴題資料來自 PCM 模式。
貳、測驗等化
測驗等化為將所有題本建立共同之量尺,使受詴者之測驗分數或參數連結在 同一量尺上,以對受詴者之測驗分數或能力進行比較。
叁、定錨題
定錨題為不同題本間共同之詴題,透過定錨題可在測驗等化時進行題本間參 數之連結。
肆、同時估計法
同時估計法為將受詴者在不同題本之作答反應放置同一檔案中,利用題本間 之定錨題,同時估計不同題本之受詴者的能力與詴題參數。
伍、差異詴題功能
隸屬於不同群體但能力相同之受詴者,在同一道詴題答對之機率不同,此時 稱此道詴題具有差異詴題功能。