差異試題功能檢核方法

第二章文獻探討

第二節差異試題功能檢核方法

國內外有關差異試題功能的研究成果十分豐碩，也發展出許多檢核方法。

在使用 DIF 檢核方法之前一定要先進行建立共同量尺（common metric）的程序，

否則無法進行後續的 DIF 檢核。共同量尺就是在不同群體中建立一個相同的配對變項（matching variable），當相同配對變項產生時才能對不同群體但能力相同的受試者進行待檢核試題反應的比較。

有關差異試題功能的檢測方法相當多元，「非 IRT 統計分析」和「IRT 統計分析」的檢測方法是目前較廣泛使用的二種類型（Holland & Wainer, 1993）, 非 IRT 統計分析的檢核方式主要是以測驗原始總分數做為配對變項的檢定程序，

常見非 IRT 取向的 DIF 檢定法有：Mantel-Haenszel 法（Mantel & Haenszel, 1959; Holland & Thayer, 1988）、SIBTEST 法（simultaneous item bias test；

Shealy & Stout, 1993）、Logistic Regression 法（Swaminathan & Regression, 1990）、標準化法（standardization method；Dorans & Kulick, 1986）。

IRT 統計分析的檢測方式是建構在 IRT 理論基礎下，以受試者能力估計值做為配對變項的檢定程序。雖然 IRT 取向檢定法下的 DIF 檢測分析程序較非 IRT 程序來得複雜，所需的樣本數也來得大，但在 IRT 理論嚴謹的架構下，以受試者能力估計值做為配對變項的方式比用測驗原始總分數為配對變項來得準確，仍有許多研究者使用。在 IRT 取向下常用來檢定試題是否有 DIF 現象的方法有：Lord 的卡方考驗法（Lord’s chi-square; Lord, 1980）、試題特徵曲線之間面積測量法（area measure; Raju, 1988, 1990）、試題與差異試題功能檢定法

（differential functioning of items and tests, DFIT; Raju, 1995）以及概似比檢定法

（likelihood ratio test; Thissen, Steinberg, & Wainer, 1988）。

概似比檢定法是直接比較兩群受試者在試題反應概似比（likelihood ratio, LR）的差異，同時估計兩群體的試題參數，因此不須要進行參數估計的轉換及量尺連結，可避免在參數估計的轉換及連結的過程中產生某些功能上的殘差且顯示試題參數估計或是試題反應函數的不一致的情況發生（Cohen & Kim, 1998）

除此之外，概似比檢定法還具有下列幾個優點：1、測量誤差是用模式的方式來表示；2、對每個群體試題參數是分開估計的；3、不管試題是二元、次序、

名義量尺都能被檢核；4、能同時檢測一致性和非一致性 DIF 試題；5、以試題參數為單位來表示影響的規模是易於理解的（Woods, 2011）；此外，概似比檢定法在二參數對數模式下對於型一誤差的控制比三參數對數模式來得好

（Cohen, Kim, & Wollack, 1996）。基於上述的理由，本研究採用概似比檢定法來進行二參數對數模式下（two-parameter logistic model, 2PLM; Birnbaum, 1968）

的 DIF 檢核。

概似比檢定法對 DIF 檢測的方式主要是對虛無假設的考驗，先假設試題參數在兩個團體並沒有不同，再使用以下三個步驟對虛無假設進行考驗（Wang &

Yeh, 2003)：

1. 選擇資料所適配的 IRT 模式，將兩個群體中定錨題（anchor item）的試題參數與待檢核的試題參數均限制為對兩群體相同，也就是所有的試題均沒有 DIF，此時稱為縮減模式（compact model)，估計出 likelihood deviance 值（=-2×log-likelihood)以G_C²表示

2. 將兩個群體中定錨題的試題參數限制為對兩群體相同，但不限制待檢核試題的試題參數為相同，使軟體可以對兩群體分別估計這些參數，此模式稱為擴充模式（augmented model)，可估算出另一個 likelihood deviance 值，以G²_A表示之。

3. 算出這二個 likelihood deviance 值的相差，以G² G_C² G²_A表示，所得到

G 值會服從卡方分配，其自由度會等於縮減模式與擴充模式所估算之參數個數2

的差，若G 達統計量超過卡方分配的決斷值，則拒絕該題無 DIF 的虛無假設，²

亦即宣稱待檢測試題具有 DIF。

以一份含有 20 題試題、並且與二參數對數模式適配的測驗為例，研究者要檢查第 1 題試題在難度上是否有 DIF 的現象，則需依上述三個步驟進行檢測：

一、先設定縮減模式，即假定測驗中的 20 題試題皆為無 DIF 的試題，將 20 題試題的難度及鑑別度參數對兩群體受試者假定為相等，計算出G_C²。二、設定擴充模式，假定兩群受試者測驗的第 1 題試題難度參數不同，但鑑別度參數仍相同，剩下的 19 題試題難度、鑑別度參數均假定對兩群體受試者為相同，計算出

GA。三、縮減與擴充模式只相差一個難度差數，也就是除了第 1 題的難度參數不同外，其餘的均為相等，此時將兩個模式相減所得G 值將服從自由度為 1 的² 卡方分配，其決斷值為₍²₁₎ 3.84，若G²值小於 3.84，則表示第 1 題無 DIF 現象，

反之則有 DIF 現象。

概似比檢定法可進行以下兩種 DIF 檢核策略，第一種為餘題法（all-other-item method, AOI; Wang & Yeh, 2003），其方法為假定除了待檢核之試題外，測驗中其餘試題均未具有 DIF 現象，即以其餘試題當作定錨題來對待檢核試題進行 DIF 檢核，如一份測驗 20 道試題，將以第 1 題作為待檢核試題進行 DIF 檢核時，假設測驗中的剩餘題目為 DIF-free 定錨題來進行檢核，若以第 2 題做為待檢核試題時，則假設第 1 題、第 3 題至最後一題均為 DIF-free 的定錨題來進行後續檢核，此即概似比檢定法的標準檢核程序，前段說明的範例即為餘題法。

第二種則為定題法（constant item method, Thissen et al., 1988; Wang & Yeh, 2003），此方法的程序必須設定一組固定不變試題當作定錨題，用來作為後續 DIF 檢核時，檢測其餘試題是否具有 DIF 時的基準，如一份測驗 20 道試題，從中選取出某 4 道試題設定為定錨題，以檢核測驗中其餘試題。在縮減模式中，

需假設這 4 道試題以及待檢核試題並未具有 DIF，在擴充模式中則僅設定此 4 道試題沒有 DIF，如果只針對待檢核試題的難度進行檢核，則兩模式相減的G² 值將服從自由度為 1 的卡方分配。

在文檔中結合先定錨後檢核策略之概似比檢定法的DIF檢核效果與試題參數之關係 (頁 13-16)

第二章 文獻探討

第二節 差異試題功能檢核方法

第二章文獻探討

第二節差異試題功能檢核方法