• 沒有找到結果。

第二章 文獻探討

第三節 DIF 試題與偵測方法

此外,Allison(2000)也曾指出多重插補法有數個可取的特點:第一,於插 補歷程引入適當的隨機誤差,使其有可能得到近乎無偏誤的參數估計值,這是一 般的插補法未能達到的。第二,重複插補得以對標準誤有良好的估計,相對地,

單一插補時並不允許引入多餘的誤差,因此估計的效能有限。第三,任何資料類 型與分析方法都可以使用多重插補,且不需要專門的軟體。這裡的優點顯示,儘 管多重插補法較單一插補法豐富但不是複雜,且仍維持使用的便易性,這對於研 究人員或分析資料者都是非常重要的事情。

現今已有不少統計軟體包含多重插補的功能,像是AMOS、SAS等,因此各種 統計分析在面臨遺失值時能更有效地處理。以NORM(Schafer, 1999)與MICE(van Buuren & Oudshoorn, 1999)為例,前者是使用多變項常態分配作為資料的分配假 設,後者則沒有一個既定的分配假設。MICE的多重插補歷程中,在透過回歸模式 來插補遺失值之前,會先自回歸參數的後驗分配取樣以決定其分配假設。換句話 說,MICE乃是依據現有資料的分配情形,選定其分配假設再進行多重插補的程序,

因此更為彈性且應用性更廣泛。本研究是使用MICE來進行資料插補,且產生五組 插補資料集,但僅取第一次的插補資料來進行DIF分析,所以實際上仍屬於單一插 補的範疇。

第三節 DIF 試題與偵測方法

本節將分兩個部分討論。第一小節將針對各個變項對於 DIF 偵測效果的影響 作討論,包括樣本數、DIF 試題比率與 DIF 程度等。第二小節則針對 DIF 偵測方 法進行討論,包括非IRT 取向與 IRT 取向的差異,以及純化程序的效用。

. 影響 DIF 偵測效果的因素

對於DIF 的偵測效果,一般常討論的影響因素有樣本數、DIF 試題比率與 DIF 程度等變項。樣本數包含兩個層面,一個是總樣本數大小,另一個則是兩組的樣

本數比例相同與否。多數結果顯示隨著樣本數增多,DIF 偵測的 power 值也會隨之 增高(Finch & French, 2007; Rogers & Swaminathan, 1993)。相對地,α 值也會有膨 脹的現象,亦即 DIF 試題的型一錯誤率將增高(Rogers & Swaminathan, 1993;

Roussos & Stout, 1996)。另一方面,Finch 與 French(2007)曾操弄不等樣本(unequal sample size)的情境,例如焦點組人數都為 250 人,但參照組人數分別 250 人與 500 人,試圖以 power 值較低的條件來檢視樣本數的影響,結果顯示總樣本數還是與 power 值最密切相關的變項。

以往的研究顯示,當 DIF 試題比率較高時,α 值會變得難以掌控,也就是無 DIF 試題的型一錯誤率會變高(Finch & French, 2007; Shih & Wang, 2009)。此外,

先前的研究也顯示DIF 程度對於 DIF 偵測效果的影響,當 DIF 程度的增加,正確 判斷為有DIF 的比率也會增高(Rogers & Swaminathan, 1993; Robitzsch & Rupp, 2009)。

. DIF 偵測方法

本節將先針對傳統DIF 偵測方法與 IRT 取向的 DIF 偵測方法以文獻回顧的方 式呈現,再將討論著重於加入純化程序對於DIF 偵測效果的影響性。

(一) 非 IRT 取向的 DIF 偵測方法

Mantel-Haenszel 法(MH; Holland & Thayer, 1988; Mantel & Haenszel, 1959)是 常被用來偵測DIF 試題的方法,其同時也是美國教育測驗服務社(ETS)所使用的 DIF 偵測方法。MH 法是以測驗總分作為參照組與對照組的配對變項,所有的配對 分數可以分作 k 個總分,各個分數層都可以得到一個 2×2 的列聯表,故此法是一 種列聯表(contingency tables)式分析方法。下表 2-3-1 中的𝐴!與𝐵!分別代表參照 組在總分為 k 時的答對與答錯人數,𝐶!與𝐷!則代表焦點組在總分為 k 時的答對與 答錯人數,m1k與m0k表示總分為k 的受測者在該題的答對與答錯人數,𝑛!"與𝑛!"表 示總分為k 的參照組與焦點組人數,而𝑇!則表示總分為k 的受測者總人數。

表2-3-1 總分為 k 之 2×2 列聯表 試題分數

1 0 總分

参照組 𝐴! 𝐵! 𝑛!"

焦點組 𝐶! 𝐷! 𝑛!"

全體 𝑚!! 𝑚!! 𝑇!

MH 法所要考驗的假設為:在此 k 個分數層下,參照組與焦點組的共同勝算比

(common odds ratio)是否為 1?以𝛼!"來表示此參數,其估計值的計算公式如下:

𝛼!" = !!!!!!/!!

!!!/!!

! (2.4)

𝛼!" 的範圍從 0 到無限大,當其值為 1 時表示兩組受測者在該試題的表現上沒有

差異。若上溯至 Mantel 與 Haenszel(1959)最初始提出的卡方統計數𝜒!"! ,其便 是用來考驗𝛼!"等於1 的虛無假設,公式如下:

𝜒!"! = !!!! !"#(!! (!!)!!.!!

!)

! (2.5)

公式中的𝐸(𝐴!) =!!"!!!

!! ,而𝑉𝑎𝑟 𝐴! = !!"!!"!!!!!!

!!! !!!! 。𝜒!"! 是自由度為1 的卡方分

配,拒絕虛無假設則表示該試題呈現 DIF。其中的0.5是列聯校正值(contingency correction),調整後的卡方值會更接近連續分配值,本研究以MH 法進行 DIF 分析 時都有進行校正。此外,為了實際應用的便利性,Holland 與 Thayer (1988)將𝛼!"取 自然對數,轉化為另一種形式的DIF 量數,即 MH D-DIF,公式如下:

MH D-DIF = −2.35 𝑙𝑛( 𝛼!") (2.6)

經轉換後的 MH D-DIF 量數,其中的 D 是指難度參數(Delta),因為是依據 ETS 的難度量尺來解釋兩組的難度差異。其值若為負值,表示該試題對參照組有利;

其值若為正值,則該試題對焦點組有利。由於顯著性考驗容易受到樣本數多寡的 影響,當樣本數夠大時,些微的差異也可能達到顯著。為解除此困境,ETS 同時 考量顯著性考驗的結果與MH D-DIF 值,而發展出 DIF 程度的分類系統。當該試 題的MH D-DIF 值在統計上未顯著異於 0 或 MH D-DIF 的絕對值小於 1 時,顯示 為輕微DIF,歸為 A 類試題;若該試題的 MH D-DIF 值在統計上顯著大於 1 且 MH D-DIF 的絕對值大於 1.5 時,顯示為重度 DIF,歸為 C 類試題;其餘則是中度 DIF 的試題,並歸為B 類。

MH 法的優點包括:計算簡便、毋需大樣本與具有顯著性統計考驗,此法現今 廣泛地應用於美國的教育測驗機構。然而,MH 法只能偵測出單向 DIF(uniform DIF),因此 Swaminathan & Rogers(1990)發展 logistic regression 程序,以有效地 偵測出單向DIF 與交叉 DIF(non-uniform DIF)。另一方面,MH 法以測驗總分作 為 DIF 偵測的基礎,就有 DIF 的試題而言,其測驗總分並無法確實反映受測者的 真實能力,也就是該測驗總是受到汙染的(contaminated)。此時,加入純化程序就

顯得格外重要,下文中也將針對純化程序進行探討。

(二) IRT 取向的 DIF 偵測方法

IRT 取向的 DIF 偵測方法,主要分作兩種途徑:一種是以參照組與焦點組的 試題特徵曲線(item characteristic curve,ICC),來比較兩條 ICC 曲線之間的面積 大小,面積愈大表示 DIF 的情形愈嚴重;另一種是比較兩組的試題參數估計值。

ICC 曲線是來自於試題參數值,故此二種偵測 DIF 的方式實是相同的道理。

Lord(1980)提出一𝜒!值來偵測 DIF 試題,其藉由考驗參照組與焦點組的試 題參數是否有差異來判斷該試題是否為DIF 試題。應用 Lord 法來進行 DIF 偵測,

包含數個步驟:首先,利用IRT 相關的電腦軟體,如 ConQuest、BILOG 等,分別 對兩組的作答反應資料作校準(calibration),以估計出兩組的試題參數值。此外,

兩組的試題參數必須得置放於同一個量尺上,否則無法進行比較。因而需透過一 些連結策略(linking strategy),將兩組的試題參數估計值轉換成同一量尺,再進行 DIF 檢定。Lord 法的虛無假設為:

𝐻!:  𝑏! = 𝑏! (2.7)

Lord 法的𝜒!值如下:

𝜒! = (𝑏!"##)′ !!(𝑏!"##) (2.8)

公式中的𝑏!"## = 𝑏!− 𝑏!  ,而 Σ 是代表試題參數估計值差異的變異數—共變數矩 陣。此𝜒!的自由度為p,這裡的 p 值是依照有多少個估計參數而定,若為單參數 IRT 模式,便是自由度為 1 的卡方分配。若得到的𝜒!值達到顯著水準,即拒絕虛無假 設,表示該試題呈現DIF。在單參數 IRT 模式下,Lord 法的𝜒!值公式可化約為:

𝜒! =(!!!!!!)!

!!!!!! (2.9)

公式中的𝑆!!與𝑆!!分別是𝑏!與𝑏!的變異數估計值。

Lord 法是屬於顯著性統計考驗的程序,其結果只顯示兩組受測者的試題反應 函數在統計上是否達到顯著差異,但無法指出其間的大小為何。相對而言,ICC 間區域量數可以反映差異的大小,卻無法考驗兩組間的 ICC 面積是否異於 0,所 以各有優劣勢。

(三) 純化程序

DIF 偵測方法會面臨到的限制是,如果用來作為配對變項者已受到 DIF 試題 的汙染,就會使偵測結果較不精確。無論是對於IRT 取向的 Lord 法或非 IRT 取向 的MH 法都有影響,因為 Lord 法需要依據兩組的作答反應資料來估計參數估計值,

而 MH 法更是直接以測驗總分作為配對變項,受影響的程度更大。Lord(1980)

便曾建議在進行 DIF 分析的過程中,使用純化程序來排除 DIF 試題對於配對變項 的汙染。

Fidalgo、Mellenbergh 與 Muñiz(2000)曾針對 MH 法將純化程序操弄為三種 類型,分別為單階段的(single-stage)、二階段(two-stage)與迭代的(iterative)

的DIF 偵測歷程。單階段的 DIF 偵測即為無純化程序,二階段的 DIF 偵測也同樣 是Holland 與 Thayer(1988)所提出,其步驟包括:(1)使用測驗總分將兩組配對,

並利用公式偵測 DIF 試題;(2)將已發現的 DIF 試題排除,僅使用其餘的試題總 分再次進行 DIF 偵測。但檢測到先前判斷為有 DIF 的試題時,必須將該試題的總 分納入,再配對並進行DIF 偵測。

已有一些 DIF 相關研究是以迭代程序來進行純化,有一部分是基於列聯表分 析(Fidalgo、Mellenbergh & Muñiz, 2000;Van der Flier, Mellenbergh, Adèr & Wijn, 1984)或 MH 法的二階段 DIF 偵測,另一部分則是使用 IRT 模式(Candell & Drasgow, 1988;Lord, 1980)。無論是IRT 取向或非 IRT 取向,迭代程序都能得到較佳的 DIF 偵測效果,即較高的power 值與較低的 α 值(Fidalgo、Mellenbergh & Muñiz, 2000;

Candell & Drasgow, 1988)。本研究的純化程序乃是進行 10 次的迭代,或者當試題 被重複偵測為DIF 試題便停止。

第四節 遺失樣態、DIF 偵測方法與 DIF 偵測效果的關係