DIF 試題與偵測方法

第二章文獻探討

第三節 DIF 試題與偵測方法

此外，Allison（2000）也曾指出多重插補法有數個可取的特點：第一，於插補歷程引入適當的隨機誤差，使其有可能得到近乎無偏誤的參數估計值，這是一般的插補法未能達到的。第二，重複插補得以對標準誤有良好的估計，相對地，

單一插補時並不允許引入多餘的誤差，因此估計的效能有限。第三，任何資料類型與分析方法都可以使用多重插補，且不需要專門的軟體。這裡的優點顯示，儘管多重插補法較單一插補法豐富但不是複雜，且仍維持使用的便易性，這對於研究人員或分析資料者都是非常重要的事情。

現今已有不少統計軟體包含多重插補的功能，像是AMOS、SAS等，因此各種統計分析在面臨遺失值時能更有效地處理。以NORM（Schafer, 1999）與MICE（van Buuren & Oudshoorn, 1999）為例，前者是使用多變項常態分配作為資料的分配假設，後者則沒有一個既定的分配假設。MICE的多重插補歷程中，在透過回歸模式來插補遺失值之前，會先自回歸參數的後驗分配取樣以決定其分配假設。換句話說，MICE乃是依據現有資料的分配情形，選定其分配假設再進行多重插補的程序，

因此更為彈性且應用性更廣泛。本研究是使用MICE來進行資料插補，且產生五組插補資料集，但僅取第一次的插補資料來進行DIF分析，所以實際上仍屬於單一插補的範疇。

第三節 DIF 試題與偵測方法

本節將分兩個部分討論。第一小節將針對各個變項對於 DIF 偵測效果的影響作討論，包括樣本數、DIF 試題比率與 DIF 程度等。第二小節則針對 DIF 偵測方法進行討論，包括非IRT 取向與 IRT 取向的差異，以及純化程序的效用。

一. 影響 DIF 偵測效果的因素

對於DIF 的偵測效果，一般常討論的影響因素有樣本數、DIF 試題比率與 DIF 程度等變項。樣本數包含兩個層面，一個是總樣本數大小，另一個則是兩組的樣

本數比例相同與否。多數結果顯示隨著樣本數增多，DIF 偵測的 power 值也會隨之增高（Finch & French, 2007; Rogers & Swaminathan, 1993）。相對地，α 值也會有膨脹的現象，亦即 DIF 試題的型一錯誤率將增高（Rogers & Swaminathan, 1993;

Roussos & Stout, 1996）。另一方面，Finch 與 French（2007）曾操弄不等樣本（unequal sample size）的情境，例如焦點組人數都為 250 人，但參照組人數分別 250 人與 500 人，試圖以 power 值較低的條件來檢視樣本數的影響，結果顯示總樣本數還是與 power 值最密切相關的變項。

以往的研究顯示，當 DIF 試題比率較高時，α 值會變得難以掌控，也就是無 DIF 試題的型一錯誤率會變高（Finch & French, 2007; Shih & Wang, 2009）。此外，

先前的研究也顯示DIF 程度對於 DIF 偵測效果的影響，當 DIF 程度的增加，正確判斷為有DIF 的比率也會增高（Rogers & Swaminathan, 1993; Robitzsch & Rupp, 2009）。

二. DIF 偵測方法

本節將先針對傳統DIF 偵測方法與 IRT 取向的 DIF 偵測方法以文獻回顧的方式呈現，再將討論著重於加入純化程序對於DIF 偵測效果的影響性。

（一）非 IRT 取向的 DIF 偵測方法

Mantel-Haenszel 法（MH; Holland & Thayer, 1988; Mantel & Haenszel, 1959）是常被用來偵測DIF 試題的方法，其同時也是美國教育測驗服務社（ETS）所使用的 DIF 偵測方法。MH 法是以測驗總分作為參照組與對照組的配對變項，所有的配對分數可以分作 k 個總分，各個分數層都可以得到一個 2×2 的列聯表，故此法是一種列聯表（contingency tables）式分析方法。下表 2-3-1 中的𝐴_!與𝐵_!分別代表參照組在總分為 k 時的答對與答錯人數，𝐶_!與𝐷_!則代表焦點組在總分為 k 時的答對與答錯人數，m1k與m0k表示總分為k 的受測者在該題的答對與答錯人數，𝑛_!"與𝑛_!"表示總分為k 的參照組與焦點組人數，而𝑇_!則表示總分為k 的受測者總人數。

表2-3-1 總分為 k 之 2×2 列聯表試題分數

1 0 總分

参照組 𝐴_! 𝐵_! 𝑛_!"

焦點組 𝐶_! 𝐷_! 𝑛_!"

全體 𝑚_!! 𝑚_!! 𝑇_!

MH 法所要考驗的假設為：在此 k 個分數層下，參照組與焦點組的共同勝算比

（common odds ratio）是否為 1？以𝛼_!"來表示此參數，其估計值的計算公式如下：

𝛼_!" = ^!^!_!^!^!^!^/!^!

!!_!/!_!

! （2.4）

𝛼_!" 的範圍從 0 到無限大，當其值為 1 時表示兩組受測者在該試題的表現上沒有

差異。若上溯至 Mantel 與 Haenszel（1959）最初始提出的卡方統計數𝜒_!"^! ，其便是用來考驗𝛼_!"等於1 的虛無假設，公式如下：

𝜒_!"^! = ^!^!^!^! _!"#(!^! ^(!^!⁾^!!.!^!

! （2.5）

公式中的𝐸(𝐴_!) =^!^!"^!^!!

!_! ，而𝑉𝑎𝑟 𝐴_! = ^!^!"^!^!"^!^!!^!^!!

!_!^! !_!!! 。𝜒_!"^! 是自由度為1 的卡方分

配，拒絕虛無假設則表示該試題呈現 DIF。其中的0.5是列聯校正值（contingency correction），調整後的卡方值會更接近連續分配值，本研究以MH 法進行 DIF 分析時都有進行校正。此外，為了實際應用的便利性，Holland 與 Thayer （1988）將𝛼_!"取自然對數，轉化為另一種形式的DIF 量數，即 MH D-DIF，公式如下：

MH D-DIF = −2.35 𝑙𝑛( 𝛼_!") （2.6）

經轉換後的 MH D-DIF 量數，其中的 D 是指難度參數（Delta），因為是依據 ETS 的難度量尺來解釋兩組的難度差異。其值若為負值，表示該試題對參照組有利；

其值若為正值，則該試題對焦點組有利。由於顯著性考驗容易受到樣本數多寡的影響，當樣本數夠大時，些微的差異也可能達到顯著。為解除此困境，ETS 同時考量顯著性考驗的結果與MH D-DIF 值，而發展出 DIF 程度的分類系統。當該試題的MH D-DIF 值在統計上未顯著異於 0 或 MH D-DIF 的絕對值小於 1 時，顯示為輕微DIF，歸為 A 類試題；若該試題的 MH D-DIF 值在統計上顯著大於 1 且 MH D-DIF 的絕對值大於 1.5 時，顯示為重度 DIF，歸為 C 類試題；其餘則是中度 DIF 的試題，並歸為B 類。

MH 法的優點包括：計算簡便、毋需大樣本與具有顯著性統計考驗，此法現今廣泛地應用於美國的教育測驗機構。然而，MH 法只能偵測出單向 DIF（uniform DIF），因此 Swaminathan & Rogers（1990）發展 logistic regression 程序，以有效地偵測出單向DIF 與交叉 DIF（non-uniform DIF）。另一方面，MH 法以測驗總分作為 DIF 偵測的基礎，就有 DIF 的試題而言，其測驗總分並無法確實反映受測者的真實能力，也就是該測驗總是受到汙染的（contaminated）。此時，加入純化程序就

顯得格外重要，下文中也將針對純化程序進行探討。

（二） IRT 取向的 DIF 偵測方法

IRT 取向的 DIF 偵測方法，主要分作兩種途徑：一種是以參照組與焦點組的試題特徵曲線（item characteristic curve，ICC），來比較兩條 ICC 曲線之間的面積大小，面積愈大表示 DIF 的情形愈嚴重；另一種是比較兩組的試題參數估計值。

ICC 曲線是來自於試題參數值，故此二種偵測 DIF 的方式實是相同的道理。

Lord（1980）提出一𝜒^!值來偵測 DIF 試題，其藉由考驗參照組與焦點組的試題參數是否有差異來判斷該試題是否為DIF 試題。應用 Lord 法來進行 DIF 偵測，

包含數個步驟：首先，利用IRT 相關的電腦軟體，如 ConQuest、BILOG 等，分別對兩組的作答反應資料作校準（calibration），以估計出兩組的試題參數值。此外，

兩組的試題參數必須得置放於同一個量尺上，否則無法進行比較。因而需透過一些連結策略（linking strategy），將兩組的試題參數估計值轉換成同一量尺，再進行 DIF 檢定。Lord 法的虛無假設為：

𝐻_!: 𝑏_! = 𝑏_! （2.7）

Lord 法的𝜒^!值如下：

𝜒^! = (𝑏_!"##)′ ^!!(𝑏_!"##) （2.8）

公式中的𝑏_!"## = 𝑏_!− 𝑏_! ，而 Σ 是代表試題參數估計值差異的變異數—共變數矩 陣。此𝜒^!的自由度為p，這裡的 p 值是依照有多少個估計參數而定，若為單參數 IRT 模式，便是自由度為 1 的卡方分配。若得到的𝜒^!值達到顯著水準，即拒絕虛無假設，表示該試題呈現DIF。在單參數 IRT 模式下，Lord 法的𝜒^!值公式可化約為：

𝜒^! =^(!_!^!^!!^!⁾^!

!!!!_!^! （2.9）

公式中的𝑆_!^!與𝑆_!^!分別是𝑏_!與𝑏_!的變異數估計值。

Lord 法是屬於顯著性統計考驗的程序，其結果只顯示兩組受測者的試題反應函數在統計上是否達到顯著差異，但無法指出其間的大小為何。相對而言，ICC 間區域量數可以反映差異的大小，卻無法考驗兩組間的 ICC 面積是否異於 0，所以各有優劣勢。

（三）純化程序

DIF 偵測方法會面臨到的限制是，如果用來作為配對變項者已受到 DIF 試題的汙染，就會使偵測結果較不精確。無論是對於IRT 取向的 Lord 法或非 IRT 取向的MH 法都有影響，因為 Lord 法需要依據兩組的作答反應資料來估計參數估計值，

而 MH 法更是直接以測驗總分作為配對變項，受影響的程度更大。Lord（1980）

便曾建議在進行 DIF 分析的過程中，使用純化程序來排除 DIF 試題對於配對變項的汙染。

Fidalgo、Mellenbergh 與 Muñiz（2000）曾針對 MH 法將純化程序操弄為三種類型，分別為單階段的（single-stage）、二階段（two-stage）與迭代的（iterative）

的DIF 偵測歷程。單階段的 DIF 偵測即為無純化程序，二階段的 DIF 偵測也同樣是Holland 與 Thayer（1988）所提出，其步驟包括：（1）使用測驗總分將兩組配對，

並利用公式偵測 DIF 試題；（2）將已發現的 DIF 試題排除，僅使用其餘的試題總分再次進行 DIF 偵測。但檢測到先前判斷為有 DIF 的試題時，必須將該試題的總分納入，再配對並進行DIF 偵測。

已有一些 DIF 相關研究是以迭代程序來進行純化，有一部分是基於列聯表分析（Fidalgo、Mellenbergh & Muñiz, 2000；Van der Flier, Mellenbergh, Adèr & Wijn, 1984）或 MH 法的二階段 DIF 偵測，另一部分則是使用 IRT 模式（Candell & Drasgow, 1988；Lord, 1980）。無論是IRT 取向或非 IRT 取向，迭代程序都能得到較佳的 DIF 偵測效果，即較高的power 值與較低的 α 值（Fidalgo、Mellenbergh & Muñiz, 2000；

Candell & Drasgow, 1988）。本研究的純化程序乃是進行 10 次的迭代，或者當試題被重複偵測為DIF 試題便停止。

第四節 遺失樣態、DIF 偵測方法與 DIF 偵測效果的關係

在文檔中不同資料遺失樣態對於差異試題功能偵測效果之影響 (頁 19-23)

第二章 文獻探討

第三節 DIF 試題與偵測方法

第二章文獻探討