試題反應模式的 DIF 檢核

第二章文獻探討

第三節試題反應模式的 DIF 檢核

IRT 假定受試者在某一測驗上的表現或反應可以由一個或一組因來解釋，這種因素是觀察不到的，因此稱此種因素為潛在特質（latent trait）（余民寧，1992a）。

IRT 已被廣泛應用在教育、心理、醫療等相關的領域中，其理論建立在兩個主要的基本概念上：（1）受試者在某一測驗試題上的表現情形，可由一組因素來加以預測或解釋，這組因素就稱為潛在特質或能力；（2）受試者的表現情形與這組潛在特質間的關係，可透過一個連續性遞增的函數來加以詮釋，即稱為試題反應函數（item response function; IRF）。IRT 有單向性與局部獨立（local independence）

兩項主要的基本假設（余民寧，1992b），唯有在這些假設皆成立的前提下，IRT 才能被用來分析所有的測驗資料。IRT 的測量精準度是以訊息量（information）

的概念來呈現，訊息量愈高，對受試者能力估計值的測量就愈精準，測量誤差愈低。由於同樣的測驗對高能力者而言，題目可能過於簡單而測不出其能力；對低能力者而言，題目可能過難而也測不出其能力；只有對中等能力者而言，較能精確地測出其能力（余民寧，1992c），而 IRT 的訊息量概念恰可以反映出測驗對不同能力者有不同的測量精準度。傳統測驗理論則假設測驗對不同受試者的測量

11 單參數模式，即為 Rash 模式（Rasch, 1960），此模式所估計出來的受試者能力值具有等距量尺的特性（王文中，2004）。

試題反應理論（item response theory, IRT）依照計分方式一般可以分為二元計分、多元計分兩種模式，在此所謂模式是指針對某一能力範圍的受試者，描述其潛在能力與答對某一試題機率的數學函數。若受試者只有對或錯兩種作答的結果，則該試題反應模式屬於二元計分模式；若可依照受試者答對不同的程度而給予不同分數，則該試題反應模式屬於多元計分模式。

常用的多元計分模式包括名義反應模式（nominal response model; Bock, 1972）、評定量表模式（rating scales model, RSM; Andrich, 1978）、部份得分模式

（partial credit model, PCM; Masters, 1982）以及等級反應模式（graded response model, GRM; Samejima, 1969）。名義反應模式的反應類別不需具次序性，較不適用於常有部分給分的能力測驗之中，評定量表模式則因固定的評定分數而較適用於人格的心理量表之中。部份得分模式原本是發展用來分析需要多階段解題過程的試題，如計算題、問答題。完成部份階段而得到部份分數的情境多發生在能力

12 有一個鑑別度（slope parameter）和反應選項減 1 的階難度（category difficulty），

如：有五個反應選項，就會有四個階難度。以下介紹如何在 GRM 模式下計算每

（Lord, 1980）、Raju’s 面積測量法（Raju, 1988）以及概似比檢定法。IRT 取向的方法需經過估計的程序，舉例而言，在五點計分的模式下每一道試題有 5 個參數須被估計（1 個鑑別度參數和 4 個階難度參數）。已有學者將 IRT 理論運用在多分題上的 DIF 檢核（Penfield & Lam, 2000; Teresi & Fleishman, 2007; Mapuranga, Dorans & Middleton, 2008）。

)]

在文檔中平均數及共變數結構法在多分題上的DIF檢核效果 (頁 16-19)

第二章 文獻探討

第三節 試題反應模式的 DIF 檢核

第二章文獻探討

第三節試題反應模式的 DIF 檢核