• 沒有找到結果。

試題反應模式的 DIF 檢核

第二章 文獻探討

第三節 試題反應模式的 DIF 檢核

IRT 假定受試者在某一測驗上的表現或反應可以由一個或一組因來解釋,這種 因素是觀察不到的,因此稱此種因素為潛在特質(latent trait)(余民寧,1992a)。

IRT 已被廣泛應用在教育、心理、醫療等相關的領域中,其理論建立在兩個主要 的基本概念上:(1)受試者在某一測驗試題上的表現情形,可由一組因素來加以 預測或解釋,這組因素就稱為潛在特質或能力;(2)受試者的表現情形與這組潛 在特質間的關係,可透過一個連續性遞增的函數來加以詮釋,即稱為試題反應函 數(item response function; IRF)。IRT 有單向性與局部獨立(local independence)

兩項主要的基本假設(余民寧,1992b),唯有在這些假設皆成立的前提下,IRT 才能被用來分析所有的測驗資料。IRT 的測量精準度是以訊息量(information)

的概念來呈現,訊息量愈高,對受試者能力估計值的測量就愈精準,測量誤差愈 低。由於同樣的測驗對高能力者而言,題目可能過於簡單而測不出其能力;對低 能力者而言,題目可能過難而也測不出其能力;只有對中等能力者而言,較能精 確地測出其能力(余民寧,1992c),而 IRT 的訊息量概念恰可以反映出測驗對 不同能力者有不同的測量精準度。傳統測驗理論則假設測驗對不同受試者的測量

11 單參數模式,即為 Rash 模式(Rasch, 1960),此模式所估計出來的受試者能力值 具有等距量尺的特性(王文中,2004)。

試題反應理論(item response theory, IRT)依照計分方式一般可以分為二元計 分、多元計分兩種模式,在此所謂模式是指針對某一能力範圍的受試者,描述其 潛在能力與答對某一試題機率的數學函數。若受試者只有對或錯兩種作答的結 果,則該試題反應模式屬於二元計分模式;若可依照受試者答對不同的程度而給 予不同分數,則該試題反應模式屬於多元計分模式。

常用的多元計分模式包括名義反應模式(nominal response model; Bock, 1972)、評定量表模式(rating scales model, RSM; Andrich, 1978)、部份得分模式

(partial credit model, PCM; Masters, 1982)以及等級反應模式(graded response model, GRM; Samejima, 1969)。名義反應模式的反應類別不需具次序性,較不適 用於常有部分給分的能力測驗之中,評定量表模式則因固定的評定分數而較適用 於人格的心理量表之中。部份得分模式原本是發展用來分析需要多階段解題過程 的試題,如計算題、問答題。完成部份階段而得到部份分數的情境多發生在能力

12 有一個鑑別度(slope parameter) 和反應選項減 1 的階難度(category difficulty),

如:有五個反應選項,就會有四個階難度。以下介紹如何在 GRM 模式下計算每

(Lord, 1980)、Raju’s 面積測量法(Raju, 1988)以及概似比檢定法。IRT 取向的 方法需經過估計的程序,舉例而言,在五點計分的模式下每一道試題有 5 個參數 須被估計(1 個鑑別度參數和 4 個階難度參數)。已有學者將 IRT 理論運用在多分 題上的 DIF 檢核(Penfield & Lam, 2000; Teresi & Fleishman, 2007; Mapuranga, Dorans & Middleton, 2008)。

)]

13

相關文件