第二章 文獻探討
第三節 DIF 檢定方法
本節將說明DIF的意義,並簡介目前DIF的檢定方法,進而介紹本研究中運用 到的DIF檢定方法(MH、LR及SIBTEST)。
一、 DIF的意義
DIF指的就是「差異試題功能」,意思是針對能力相當的兩個群體,試題發 揮了顯著不同的功用,也就是在答題表現上有顯著差異,不一定是指負面消極 的功能(Holland & Thayer, 1988)。對於在欲測量的特質上已將相同能力配對 的不同群體而言,DIF是一種沒有料想到的測驗表現差異(Dorans & Holland, 1993)。有關DIF的解釋是非常重要的,因為不正確的解釋將會造成嚴重且偏差 的後果,其解釋必須考慮到測驗的目的來加以區別。當某一個試題被檢查出有 DIF時,並非表示就應將此試題移除,有時亦有好的理由將題目保留下來,我們 應注意的是所有統計分析都不是定論,因此檢查出某一個試題出現DIF現象,必 須再經由學科專家加以分析及檢視其是否在題目內容上出現問題。另外,分組 時的配對標準應是有效、公平、可信的去被接受,如果這個標準本身就有某種 程度的偏差,那麼在DIF偵測分析的應用上將是會有瑕疵的(林坤昌,1998)。
二、 DIF的檢定方法
進行DIF檢定時,通常稱研究者感興趣的受試群體為焦點組(focus group),
另一個用來與焦點組答題表現互相對照的團體稱為參照組(reference group)。參 照組和焦點組之受試者配組的依據稱為配組變項(matching variable)或配組效標
(matching criterion),接受調查或檢定的試題稱為受評試題(studied item)(盧雪 梅,2000)。在實際應用差異試題功能統計分析時,通常是以總測驗分數或分測 驗分數作為焦點組(如女性或黑人)和參照組(如男性或白人)的配對標準(林 坤昌,1998)。
DIF的檢定方法,早期從變異數分析法(Cardall & Coffman, 1964),至今 學者持續發展更精確的檢定方法,其中較為多數人使用的研究方法,大致可分 為IRT(item response theory)取向的檢定方法與非IRT取向的檢定方法。目前IRT 取向的DIF檢定方法,大致有:(一)Lord 的卡方考驗法(Lord,1980);(二)兩團 體試題反應函數(IRF)或試題特徵曲線(ICC)區域面積法;(三)概率比檢定 法(likelihood ratio test,簡稱LR-IRT)。此三種 IRT 取向的檢定程序,Lord 的 卡方考驗和 LR-IRT 考驗均只提供兩組團體的統計是否達顯著的資訊,無法進 一步提供兩組團體間差異程度的訊息;而ICC區域面積法雖提供了兩組團體間 差異程度,Raju (1990)也有提出z分配統計數為其是否達顯著的考驗依據,但在 檢定的效能上仍需要更多研究評估支持(余民寧、謝進昌,2006)。IRT 取向 的DIF檢定方式雖具有可信的理論依據,但在實施上需符合IRT模式下的各項嚴 格假設,不僅需要大量樣本且實施程序上費時費力,實際應用上比較不方便。
因此,有學者研究發展出非IRT取向的檢定方式。非IRT取向的檢定方法,
主要有:(一)Mantel-Haenszel法(簡稱MH法,Holland & Thayer, 1988);(二)標準 化 法 (standardization)(Dorans & Kulick, 1986) ; ( 三 ) 邏 輯 迴 歸 分 析 (Logistic Regression , 簡 稱 LR)(Swaminathan & Rogers, 1990) ; ( 四 )SIBTEST 法 (simultaneous item bias test)(Shealy & Stout, 1993a)。上述方法各有其優缺點,目 前於實際應用上,最為多數人使用的則屬MH法,此法不僅計算簡便、理論易
懂、不需要大樣本且有顯著性考驗統計,研究者也可自行利用一般市面上套裝 統計軟體程式(如SAS和SPSS)進行DIF分析,此外,MH法也提供DIF量數統計 指標,用來表示DIF程度的大小,並有一套DIF嚴重度分類系統,也因此成為多 數人進行DIF檢定時的選擇方法(盧雪梅,2000;余民寧、謝進昌,2006)。LR 法最大的特色是檢定非一致性DIF的程序非常簡單容易,SAS和SPSS套裝軟體 程式均提供LR程序,實施上相當方便,且LR的模式相當有彈性,可同時使用 多個變項做為配組變項(盧雪梅,1999)。另外,SIBTEST最大的特色是利用 迴歸校正的方法調整兩組受試團體因能力分配上的差異所造成的系統偏誤,可 以減少能力差異和DIF混淆的現象,較有效地控制第一類型錯誤率(即無DIF 試題被誤判為呈現DIF的比率)(盧雪梅,1999)。由Niels G. Waller發展的
「EZDIF」統計程式軟體程式可同時進行MH和LR的DIF偵測程序,因此本研究 欲使用「EZDIF」統計程式軟體程式進行MH和LR的方法來檢定DIF。而市面上 亦有William Stout 所發展出的相關DIF統計分析軟體程式:SIBTEST,可進行 SIBTEST方法的DIF檢定,亦是本研究欲使用的DIF偵測軟體程式。
Cheng(2005)曾利用實徵資料和模擬資料針對 IRT 和非 IRT 的 DIF 偵測方 法進行 DIF 試題偵測,研究結果發現兩者並無太大差異,其中以 SIBTEST 偵測 效果最好,考量運用 IRT 模式偵測 DIF 不但原理複雜,需要提供大量樣本(1000 人以上)且實施程序上又有費時費力的缺點,建議在 DIF 偵測上可運用非 IRT 模 式之方法,實施程序比較簡單,容易應用於實際中,不需要大樣本,效能令人滿 意,並且提供 DIF 的顯著性假設檢驗。基於上述理由,本研究將使用
Mantel-Haenszel 法、SIBTEST 法及 Logistic Regression(LR)法三種方法來檢測 DIF 試題,茲將三種檢測方法簡述如後。
三、 Mantel-Haenszel法
Mantel-Haenszel法(以下簡稱MH法)是 Mantel 與 Haenszel 於1959年提出 來,期間經過多位專家學者的探究分析並提出類似統計方法的演變,經Landis, Hyman和Kock(1978)加以改良,發展出可調整層次的卡方(chi-square)統計量,
稱為CMH(Cochran-Mantel-Haenszel)統計量,之後由Holland和Thayer(1988)
應用到DIF的研究中,才形成一套完整的偵測DIF試題的MH檢定方法,此法不僅 具有統計上強而有力的考驗指標,且ETS也發展出一套解釋DIF嚴重程度的分類 系統,是一種少數兼具量與質的DIF試題檢定方法(余民寧、謝進昌,2006)。
利用MH法進行試題DIF分析,首先是在實施測驗後,選定配對的準則(the criteria for matching),然後依此準則將受試者分成焦點組和參照組兩組。焦點組 的受試者是研究者較想要關心及瞭解的對象群體,而參照組則是相對於焦點組,
作為比較對照之用(林坤昌,1998)。例如,本研究的目的想要暸解國中基測自 然科試題是否對女考生有特別的不利,則焦點組便是由女考生所組成,而男考生 則組成參照組。
MH法屬於列聯表(contingency tables)的分析法,通常以測驗總分作為焦點 組與參照組的配對變項。MH法包含共同勝算率(common odds ratio)及MH卡方 統計值(χ2MH)的計算。其方法乃直接根據k+1個分數組(k代表測驗的試題數,
k=1,2,3…,k),各個分數組之受試者答題表現可整理成一個2×2的列聯表。在k+1 個分數組中,表中Tk代表得k分的總人數,nRk與nFk分別代表參照組與焦點組的人 數,m1k為答對試題的人數,m0k為答錯試題的人數,每個試題共計可以得到2×2×
(k+1)個列聯表。
表2-4 總分為k的2×2列聯表 得分
組別 答對(1) 答錯(0) 總計 參照組 Ak Bk nRk
焦點組 Ck Dk nFk
總計 m1k m0k Tk
MH法的虛無假設(null hypothesis)即是在考驗這k+1個分數組的參照組和 焦點組的共同勝算率參數(αMH)是否等於1.0,αMH的估計值如下:
Mantel與Haenszel於1959年曾提出一卡方統計數來考驗αMH=1.0的虛無假設:
2
MH D-DIF是以ETS(Educational Test Service)的難度量尺Δ(delta)指標來解釋 相同能力的參照組與焦點組在某試題上難度的差異值,正的MH D-DIF值則表示 水準)與MH D-DIF值來對試題進行DIF程度分類(盧雪梅,2000)。試題之MH D-DIF 值如果未顯著異於0或絕對值小於1.0,則歸類於A類DIF; MH D-DIF的值顯著大 於1.0或絕對值如果大於1.5,則歸類於C類DIF;其餘的試題,則歸於B類DIF(Doran
& Holland, 1993)。A類代表未顯著或輕度的DIF,B類代表中度DIF,C類代表重度 DIF。
四、 LR(Logistic Regression)法
Mellenberg(1982)將DIF分為兩種:一致性DIF(uniform DIF)與非一致性 DIF(non-uniform DIF)。uniform DIF是指能力值與組別間沒有交互作用,亦即
不論是針對何種能力值而言,其中一組的答對率皆一致高於另一組,例如:多數
自從 Holland 和 Thayer (1988)提出MH法後,很多研究陸續針對此法設定了 不同DIF的情境來進行DIF偵測效力的分析,結果都發現MH法缺乏non-uniform DIF的檢定力,針對MH的缺點,Swaminathan 和 Rogers (1990)提出了邏輯迴歸 分析法(Logistic Regression,簡稱LR)來偵測DIF試題,此方法可同時適用於檢 測uniform DIF和non-uniform DIF。
在概念上,LR法可視為列聯表之方法和IRT方法的連結,它與列聯表法(例 如:MH法)的差別是LR法把測驗總分當做連續變數,而列聯表法將測驗總分當成 間斷變數。LR法是根據測驗總分和組別來預測答對試題的表現,基本模式如下:
P(u=1)=
) 1 ( e
e
z z
公式中的P表示受試者在該試題正確作答的機率,z則根據研究者對DIF類型 的假定來決定模式,模式I: z=0
1
2G
3(
G)
、模式Ⅱ:z=0
1
2G、 模式Ⅲ:z=0
1 ,式中的θ是受試者被觀察到的能力,是一個連續變項,通常 以測驗總分來代表。G是組別,通常以0和1來編碼,G=0代表參照組;G=1則為焦 點組,θG是θ和G的乘積。迴歸係數0為截距係數;1為能力值θ對試題答對率的 影響;2是指兩受試群體在該試題表現上的差異,3是指兩受試群體和能力值之 間的交互作用,LR是應用最大概似法(maximum likelihood estimate;MLE)來估計 模式中的迴歸係數(盧雪梅,1999)。應用LR來檢測DIF試題,首先比較模式I和模式Ⅱ,以檢定3是否異於0,若 拒絕3=0的假設,表示組別和能力的交互作用效果顯著,試題呈現非一致性DIF,
當3
0
時,試題對參照組的高能力受試者及焦點組的低能力受試者較為有利,當3
0
時,試題對焦點組的高能力受試者及參照組的低能力受試者較具有優勢。若3=0的假設未被拒絕,則繼續比較模式Ⅱ和模式Ⅲ,若拒絕2=0的假設,表示 試題出現一致性DIF,當2
0
時,試題對參照組的受試者較為有利,2 0
則對 焦點組的受試者較具有優勢。若2、3皆為0則表示試題沒有DIF(黃瓅瑩,2007;盧雪梅,1999)。
一般來說,LR程序僅能檢測出試題的DIF現象是否有顯著性,缺乏估計DIF 效果量的功能,也因此無法得知DIF的嚴重程度(Jodoin & Gierl, 2001)。在檢測一 致性DIF時,由於受到交互作用變項影響,LR法的檢定力通常小於MH法,在大 樣本的情況下,也有第一類型錯誤率擴大的問題(Narayanan & Swaminathan, 1996 ;
一般來說,LR程序僅能檢測出試題的DIF現象是否有顯著性,缺乏估計DIF 效果量的功能,也因此無法得知DIF的嚴重程度(Jodoin & Gierl, 2001)。在檢測一 致性DIF時,由於受到交互作用變項影響,LR法的檢定力通常小於MH法,在大 樣本的情況下,也有第一類型錯誤率擴大的問題(Narayanan & Swaminathan, 1996 ;