第二章 文獻探討
第三節 差異試題功能(DIF)分析法
測驗廣泛被使用於成就評量、人才甄選、資格檢定、證照頒授等考試中,因 此,試題或測驗對不同背景的應試群體的公平性是一個不容忽視的課題,這也是
「差異試題功能(Differential Item Functioning,簡稱DIF)」研究一直受到重視 的原因。
DIF是指兩組能力或表現相配比的群體,在答題表現上呈現顯著的差異
(Dorans & Holland,1993),DIF的出現表示試題可能測到與測驗擬測之建構無 關的因素,試題的效度受到不利的影響。美國測驗業界已將DIF檢定列入試題分 析工作的一環,主要目的在客觀篩選出有偏誤傾向試題,以求試題對不同背景考 生的公平性;另一方面,累積DIF分析的資料和經驗,以做為日後改進命題品質 的參考;國內測驗發展者目前之試題分析工作仍只限於難度與鑑別度的分析,尚 未將DIF分析納入(盧雪梅,1999)。
以往對於 DIF 的研究大多限於個別試題的 DIF 估計,如果 DIF 的量值達到顯 著水準,則該試題便被視為應予以刪除或避免;然而,DIF 只是一種統計上的測 量結果,並不必然保證非得刪除該試題不可(Angoff,1993);相反地,存在 DIF 的試題可能隱喻某些課程或教學上所需要的改變(Harris & Carlton, 1993;Lane, Wane & Magone, 1996);況且呈現 DIF 的單一試題,其所能作的解釋有限,充其 量不過是表示該試題不適用的依據(黃財尉、李信宏,1999)。因此,若欲較深 入解釋國中基本學力測驗數學科試題因區域或性別差異而導致的 DIF,就應該將 試題有效的分類,從不同類別試題本身的性質分析,以獲得較多心理與教育面向 的意涵。
DIF的檢定方法,從早期的變異數分析法(Cardall & Coffman,1964),以至 今學者持續發展更精確的檢定方法,其中較廣泛使用的研究方法,大致可分為
IRT(item response theory)取向的DIF檢定方法與非IRT取向的DIF 檢定方法。而於 檢定前需針對受試團體分為參照團體或參照組(reference group)與焦點團體或焦 點組(focal group)進行能力的控制,其中焦點組是研究者所感興趣的受試團體(可 能為『少數族群(minority)』),參照組則是用以作為對照用途(大多數情況下均 為『多數族群(majority)』)。
目前IRT取向的DIF檢定方法,大致有:Lord的卡方考驗法(Lord,1980);
兩團體IRF或ICC區域面積法;概率比檢定法(likelihood ratio test,簡稱LR-IRT)。
此三種IRT取向的檢定程序,Lord的卡方考驗和LR-IRT 考驗均只提供兩團體統計 是否達顯著上的資訊,無法進一步提供差異程度上的訊息,而ICC區域面積法雖 提供兩團體間差異程度,但其考驗是否顯著的依據雖有Raju(1990)提出的Z分 配的統計數,但其在檢定效能上仍待更多研究評估。除此之外,IRT取向的檢定 方式還需符合IRT模式下的各項嚴格假設,於實際應用上比較不方便,因此,另 有非IRT取向的檢定方式產生。
非IRT取向的DIF檢定方法,主要有:Mantel-Haenszel法(簡稱M-H 法,Holland
& Thayer, 1988);標準化法(standardization)(Dorans & Kulick, 1986);邏輯迴歸分 析(logistic regression,簡稱LR)(Swaminathan & Rogers, 1990);SIBTEST法 (simultaneous item bias test,簡稱SIB或SIBTEST)(Shealy & Stout,1993)。
上述方法各有其優缺點,但目前於實際應用上,最廣泛的當屬MH法,此法 不僅計算簡單、理論易懂,且研究者可自行利用一般市面上套裝軟體(如SAS)
進行DIF分析,美國教育測驗服務社(Educational Testing Service)即是利用此法 來進行DIF試題檢定,亦是本研究所應用的方法之一。再者,由於SIBTEST是一 種兼具潛在變項與無參數的DIF檢定方法,除了受試者能力間的差異不會因樣本 抽樣不同而產生偏差外,更因其不用考慮在參數模式中資料適合度的問題,因此 SIBTEST是一種相對降低偵誤成本的有效方法(Dorans & Potenza, 1994;Ryan &
Fan, 1996;Ryan & Chiu, 1997),故為本研究的另一研究方法。此外,由美國
Vanderbilt大學教授N. G. Waller發展的「EZDIF」統計程式,可運用Mantel-Haenszel 及Logistic Regression等計算程序分析一致性及非一致性的試題DIF,亦為本研究 的研究方法之一。茲將此三種DIF檢定方式介紹如後。
一、 Mantel-Haenszel(MH 法)
Mantel-Haenszel(以下簡稱MH法)統計方法是由Mantel與Haenszel於1959年發 展出來,其間不斷經過演變,有不少學者都曾提出相對類似方法,慢慢發展至今,
經Landis, Heyman和Kock (1978)加以改良,使成可調整層次的卡方統計量,稱為 CMH(Cochran-Mantel-Haenszel)統計量,後由Holland和Thayer (1988)應用到DIF的 研究中,才形成一完整的DIF試題的M-H檢定方法,不僅具有統計上強而有力的 考驗指標,且ETS也發展出一套解釋DIF嚴重程度分類系統,是一少數兼具量與 質DIF檢定證據的方法(余民寧、謝進昌,2006)。
MH法和其它DIF檢定方法一樣,在進行檢定前都需選定配對的標準,通常以 測驗總分作為焦點組與對照組的配對變項。MH法乃屬於列聯表(contingency tables)的分析法,包含共同勝算率(common odds ratio)及M-H卡方統計值(MH2 )的 計算,其方法乃直接根據(k+1)個分數組(k代表測驗的試題數,k=1…k),形成k+1 個如表2-3的2×2列聯表,表中的Tk代表得分為k的總人數,nRk與nFk分別代表參照 組與焦點組的人數,m1k為答對試題的人數,m0k為答錯試題的人數。
表2-3 總分為k的2×2列聯表 試 題 反 應
答對(1) 答錯(0) 總和
參照組(R) Ak Bk nRk
焦點組(F) Ck Dk nFk
組 別
總和 m1k m0k Tk
MH法的虛無假設(null hypothesis)即是在考驗這k+1個分數層的參照組和焦
Holland & Thayer(1988)曾進一步提出其標準誤的公式如下:
SE(MH D-DIF) = 2.35 Var
ln
MH
(其中:Var(ln(MH)) = 2MH D-DIF是以ETS的難度量尺(delta)指標來解釋能力相等的參照與焦點組 於某試題上難度指數的差異值,負的MH D-DIF值表示該試題對於參照組而言較 簡單,即是有利於參照組;正的MH D-DIF值則表示試題對於參照組而言較困難,
即是有利於焦點組。
有鑑於統計顯著考驗性的結果易受樣本因素的影響,當樣本人數多時,即使 是微小的差異,也會達統計上的顯著性,但不見得具有實質上的差異,因而ETS 的DIF嚴重程度分類系統,乃同時根據顯著性考驗結果(α= .05顯著水準)與MH D-DIF值來對試題進行DIF分類。如果試題之MH D-DIF值未顯著異於0或MH D-DIF的絕對值小於1.0,則歸類於A類DIF,代表著未顯著DIF或輕微的DIF;如 果MH D-DIF的絕對值大於1.5且統計上顯著大於1.0,則歸類於C類DIF,代表重度 DIF;其餘的試題,則歸於B類DIF(即是MH D-DIF值顯著異於0,而且絕對值至 少大於1但小於1.5,或絕對值至少為1但沒有顯著異於1),即代表中度DIF (Dorans
& Holland, 1993)。
二、 SIBTEST 法
相較於目前偵測 DIF 應用最廣泛的 Mantel-Haenszel(MH 法),Shealy & Stout
(1993)指出 MH 與 SIBTEST 對於個別試題的 DIF 估計都有很好的統計考驗力,
且均可應用於題數較少的測驗之中;然而 SIBTEST 的優點在於能夠同時偵測多 個試題的 DIF(Nandakumar,1993),也就是說在含有數個試題的試題組中,即 使個別試題的 DIF 很小,但是對整個試題組而言,SIBTEST 都比 MH 具有更好 的統計考驗力(黃財尉、李信宏,1999)。
SIBTEST 能同時偵測數個試題 DIF 的特點,除了可以提供試題間 DIF 之增 強與抵銷的研究外,更能有效地排除因分組間能力差異所引起的 impact,以降低 DIF 的誤判,而這些特點更有助於釐清統計上 DIF 估計量的解釋。
SIBTEST 是根據 IRT 所發展出來的檢定 DIF 方法,但 SIBTEST 並未涉及 IRT 的試題參數估計,而是假設具有相同配對分數的受試者,其潛在能力也相同,因 此檢定 DIF 是以配對子測驗之分數作為分組計算的依據。
SIBTEST(Shealy & Stout, 1993)在概念上和標準化法非常相似,但 SIBTEST 有下列幾個特色:
1. SIBTEST 有顯著性考驗統計。
2. SIBTEST 的配組變項是潛在分數(latent score)而非觀察分數。
3. SIBTEST 除了可檢定單一試題的 DIF,也可以同時檢定一組試題的差別 功能(Differential Bundle Functioning,簡稱 DBF)。
應用 SIBTEST 進行 DIF 檢定,先將試題分為兩部份,其中一部份由無 DIF 試題組成稱為有效部份測驗(valid subtest),做為焦點組和參照組的配對變項;另 一部份稱為可疑部份測驗(suspect subtest),這部份的試題將接受 DIF 檢定。
SIBTEST DIF 的計算方式如下:假定共有 N 個試題,其中前 n 個試題為有效 部份測驗的試題,以Ui表示答對或答錯的得分,即 0 或 1 分,則每個受試者在有 效部份測驗的總分為
ni Ui
X 0 ;其餘的試題,即第 n+1 至 N 個試題就是可疑部 分測驗的試題,受試者在可疑部份測驗的總分為
N n i Ui
Y 1 。SIBTEST DIF 統計
數U的計算公式如右:U
Pk(YRk* YFk*)公式中的Pk
是在有效部份測驗得分 X=k 之受試者中焦點組人數所佔的比 例,(YRk* YFk* )是兩組受試者在可疑部份測驗試題之得分的調整平均數的差異,這 差異分數可以是單一試題得分或一組試題得分的差異,若是為單一試題得分的差 異則為 DIF 檢定,若是一組試題的得分差異則為 DTF 檢定,如果無 DIF 或 DTF 存在,U值將會是 0。
所謂的調整分數是指透過迴歸校正(regression correction)後的分數,迴歸校正
Stout(1993),在虛無假設下,SIBTEST B 統計數逼近標準常態分配,如果觀察到 的 B 值超過 Z 分配上的 100(1-α)個百分點,則拒絕虛無假設。B 統計數是為檢定 一致性 DIF 設計的,近來,SIBTEST 也發展了檢定非一致性 DIF 或交叉 DIF 的 版本(Li & Stout,1996)。
接著,介紹 Crossing SIBTEST,Crossing SIBTEST 是 SIBTEST 檢定方法的 修正方法,且沒有限制在一個能力參數上。Li & Stout(1996)修正原有的 SIBTEST 程序,使其能有效偵察出 non-uniform DIF 的試題,並以 Crossing DIF 來取代 non-uniform DIF 的詞彙。本研究即以 Crossing SIBTEST 來檢測 DIF 試題。
Crossing DIF的假設考驗為H0:cro 0 vs. H0: cro 0
kc為有 Crossing DIF 情形時,有效部分測驗的分數。ˆ2(Yk,g)為有效部分測 驗分數為 k 時,群體 g(參照組 R 或焦點組 F)中受試者在可疑部分試題分數的 樣本變異數。當沒有 DIF 發生時,Crossing SIBTEST 的統計值cro也接近於 N(0,1) 分配,因此,可以依照所設定之適合的顯著水準來實施統計考驗,檢定出有 DIF 現象的試題。
三、 Logistic Regression(LR 法)
自從Holland和Thayer(1988)提出MH法後,很多研究陸續針對此法設定了 不同DIF的情境來進行DIF偵測效力的分析,結果都發現MH法缺乏non-uniform DIF的檢定力,針對MH的缺點,Swaminathan和Rogers(1990)提出了羅吉斯迴 歸分析法(Logistic regression,簡稱LR)來偵測DIF試題,此方法可同時適用於 檢測uniform DIF和non-uniform DIF。
Mellenberg(1982)將DIF分為兩種:一致性DIF(uniform DIF)與非一致性 DIF(non-uniform DIF)。uniform DIF是指能力值與組別間沒有交互作用,亦即
Mellenberg(1982)將DIF分為兩種:一致性DIF(uniform DIF)與非一致性 DIF(non-uniform DIF)。uniform DIF是指能力值與組別間沒有交互作用,亦即