偵測 DIF 的方法 - 混合試題與受試者模型於試題差異功能分析之研究

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第貳章文獻探討

DIF 檢測的方式很多元，本章將簡介 DIF 的演進概述，也試著以不同理論觀點說明偵測 DIF 的方式，並介紹本文應用的理論模型基礎：RIM 模型與 MMixIRTM，茲說明如下：

第一節偵測 DIF 的方法

有關本節偵測 DIF 的方法，茲就 DIF 演進進行簡要論述，也進而說明 混合模式運用在 DIF 的發展情形，現分別說明如下：

一、DIF 演進概述

過去偵測 DIF 的方法很多元，常用的檢測方法一般可分為非 IRT 取向和 IRT 取向，其中，非 IRT 取向如：（1）Mantel-Haenszel 法（Holland & Thayer, 1988）；（2）標準化法（standardization）（Dorans & Kulick, 1986）；（3）

羅吉斯迴歸法（logistic regression, LR）（Swaminathan & Rogers, 1990）；（4）

SIBTEST（simultaneous item bias test）（Shealy & Stout, 1993）。IRT 取向則如：（1）比較試題特徵曲線參數（Rudner, Getson, & Knight, 1980）；（2）ICC 區間面積法（Raju, 1990）；（3）Likelihood-ratio test（Thissen, Steinberg, &

Gerrard, 1986）。

以上方法多半只能偵測兩群組間的一致性 DIF，而無法探討連續變項對 DIF 所造成的影響，也只能考慮到受試者變項層次可能造成的 DIF，無法測得組織變項（例如：學校氣氛、學校資源）造成 DIF 的情形。加上，

部分方法多以「總分相同」當作能力一致的標準，當定錨題不佳，即會影響 DIF 偵測結果。故相關研究建議在偵測 DIF 時搭配淨化程序，找出沒有 DIF 的試題當作定錨題，以增加偵測 DIF 的準確度，但淨化程序往往需耗費不少時間。

在因素分析的架構之下，研究者會以多群組測量等價性（measurement equivalence）的觀點闡述 DIF，例如：應用 MIMIC 模型（multiple indicators multiple cause）以檢測 DIF，讓 SEM 與 IRT 有逐漸結合之勢，也較方便搭配淨化程序，儘管能應用於 IRT 中的 Rasch 模式與二參數的 IRT 模式，該方法仍只能偵測一致性 DIF，且只可估得試題參數，仍無法估出學生能力值（Finch, 2005, 2012; Shin &Wang, 2009; Wang & Shin, 2010; Wang, Shin, &

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Yang, 2009; Woods, Oltmanns, & Turkheimer, 2009）。這幾年 DIF 研究擴展到以隨機效果的觀點進行，換言之，該類研究延伸傳統 LR 技術，將學生的能力視為不同分配，稱為混合分配（mixture distribution），進而改善試題參數估計精準度。另外，該類研究亦試圖因應階層巢套資料組內相依的特性，延伸至多層次模型（Chaimongkol, 2005; Chaimongkol, Huffer, &

Kamata, 2007）；值得一提的是，有相關研究跳脫 IRT 試題參數為固定係數的觀點，將試題難度視為隨機變數，以隨機分配將題目分為 DIF、非 DIF

（Frederickx, Tuerlinckx, De Boeck, & Magis, 2010）。

現今教育研究的抽樣方式，往往因成本考量與母體特性，鮮少直接抽取學生，多半以多階段抽樣方式，先抽地區（或學校）再抽受試者，同一地區（或學校）內的受試者同質性高，組間異質性高。這種巢套設計（nested design）的多層次（multilevel）資料，殘差違反獨立性假設，而使用傳統迴歸分析方法將資料視為同一層，在參數估計時會使型一誤差膨脹，並得到偏誤的參數，且忽略組織脈絡提供的訊息與造成的影響（Snijders &

Bosker, 2011）。

基於巢套資料結構對試題參數估計的影響，近代研究嘗試將階層線性模式（hierarchical linear model）與 IRT 結合。Kamata（1998, 2001）首先以二階層的階層廣義線性模式（hierarchical generalized linear model, HGLM）

解釋單參數對數模式（即 Rasch 模式），將 Rasch 模式視為 HGLM 的特例，

也進一步在學生階層加入學生背景變項，把試題難度分解成兩個以上的參數以解釋 DIF 情形。此方法與 Rasch 模式偵測 DIF 的方式相比，兩者在代數上有等價關係，但因前者估計參數時將學生的因素一併考慮，因而增加試題的估計精準度（Fox, 2005; Maier, 2002; Rabe-Hesketh, Skrondal, &

Pickles, 2004）。French 和 Finch（2010）則考量資料為多層次的特性，將傳統 LR 檢定 DIF 的模式，擴充至能將組間變項同時考慮進去的 HLR

（hierarchical logistic regression）。Cheong（2006）也認為應以 HGLM 檢測 PISA（Programme for International Student Assessment）試題的 DIF 現象。

HGLM 無須將學生分成參照組與焦點組，即可檢定連續變項的 DIF 情形，

不像以卡方考驗為基礎偵測 DIF 的模式，還需進一步連結（linking）才可比較不同群體間的差異（Tay, Newman, & Vermunt, 2011）。

傳統偵測 DIF 的方式，往往忽略探就造成 DIF 的因素，近代學者開始

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

重視此一議題，找出造成 DIF 的干擾向度。從潛在變項的觀點切入，學生可以依其試題反應型態之同質高低進行分類，因為同一類別學生，有相近的作答反應、相似的作答策略，故能較精確的找出造成 DIF 的原因（Mislevy

& Verhelst, 1990; Rost, 1990）。有鑑於外顯變項偵測 DIF 的侷限，近代學者以潛在類別模式（latent class model）分析 DIF，換言之模型中置入潛在類別變項，進而偵測潛在變項以評估 DIF 的影響；或是以混合模式（mixture model），先估算出學生的潛在組別，再考量潛在組別間是否存在 DIF 現象

（Cohen & Bolt, 2005; Samuelsen, 2005）。

二、以混合模式偵測 DIF

Rost（1990, 1997）提出混合 Rasch 模式（mixture Rasch model），並將其應用在偵測試題的 DIF 情形。該研究先確定學生應該被歸類為幾群後，

再進行 DIF 試題偵測。Rost（1990, 1997）的研究只有 10 道試題，但對每群學生所屬潛在類別預測良好，能準確的估計試題參數，但他的研究是假設在每一題都有 DIF 的前提下，這個假設較不符合實際教育現場。

Samuelsen（2005）則延伸 Rost（1990, 1997）的研究，以模擬研究找出影響混合 Rasch 模式估計的因子，例如：當潛在類別和外顯變項分類高達 0.9 相關時，即便是小樣本的情況（250 人），也可正確偵測試題 DIF 情形。但當潛在類別和外顯變項分類有中度相關時（相關係數 0.6），標準誤隨樣本增多而減少，樣本數仍嚴重影響估計精準度。

另一方面，Lu 和 Jiao（2009）的模擬研究加入更多模擬因子，包括：

潛在類別的受試者差異、混合比例（mixing proportion）、DIF 題數、DIF 程度等，探討當不同潛在類別的受試者的能力分配不同時，DIF 的表現情形如何，研究指出當試題 DIF 較大、較多 DIF 試題數、潛在類別之間的能力分配差異大時，越容易偵測出 DIF 試題。但在 Demar 和 Lau（2011）的研究則指出以混合 IRT 模型（mixture IRT）偵測非一致性 DIF 時，當兩群人的能力值沒有差異存在時，可以將受試者分群分的比較好，也能良好地估計試題鑑別度參數，但當兩群人的能力值有差異存在時，則會高估試題鑑別度。但整體來說，以混合 IRT 模型估計不一致 DIF 情形的研究並不多。

Dai（2013）則將焦點放在加入共變數時，混合 Rasch 模式偵測 DIF 的情形，其研究發現當共變數越能反應外顯變項，且外顯變項和潛在類別相關

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

越高時，加入共變數是有助於提升參數估計精準度。

本研究將近年以混合模式偵測 DIF 的相關研究整理如表 1 所示，整體而言，過去混合模式研究，多半僅將試題視為混合分配、亦或是僅將受試者視為混合分配，尚未將兩者模式加以結合，因此，本研究即根據過去研究的不足，提出「混合試題與受試者模型」。而在後續模擬研究中的研究設計，也將參考表 1 整理之文獻。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 1 混合模式偵測 DIF 的相關研究整理表（續）

作者混合 受試者

混合

試題多層次樣本數試題數

群間能力值分配設為相 等（no impact）或不等

（impact ）

DIF 試題比例

或 DIF 試題數 DIF 程度

Dai（2013） X 1000 30 兩群能力分配為 N（0, 1）、N（1, 1）

DIF 比例: 20%,40%

（作者將把 DIF 程度比較大的題目當作有 DIF，其餘試題也都具有小幅度 DIF，因此，嚴格來說每一題

都有 DIF）

DIF 程度：介於 0.3 ~ 1.3 不等

本研究：混合試題與受試者模式

V V 900、

2500 30 相等 6 題、10 題、20 題群間的 DIF 試題難度值差一個負號

‧

質（Mislevy & Verhelst, 1990）；倘學校有相同的學校階層潛在類別，表示學校有相似的特性（Vermunt & Magidson, 2005）。MMixIRTM更可在各階層放入分屬的共變數，以解釋各群的組成情形，例如把性別、種族放在學生階層，學校都市化程度放在學校階層，此模型即為可偵測DIF（Cohen &

Bolt, 2005）。而MMixIRTM因融合IRT，還可提供不同潛在類別間的試題資訊，可比較各潛在類別間的試題難度是否相同。MixIRTM（mixture item response theory model）已在教育測驗中廣為應用，可用來偵測試題或題組中的DIF情形，也可應用於速度測驗（Cohen & Bolt, 2005; Cohen, Gregg, &

Deng, 2005; Samuelsen, 2005; von Davier & Yamamoto, 2004），Embretson和 Reise（2000）也指出學生的潛在類別的分布情形，是效度的重要參酌之一。

在文檔中混合試題與受試者模型於試題差異功能分析之研究 - 政大學術集成 (頁 21-28)

偵測 DIF 的方法

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第貳章 文獻探討

第一節 偵測 DIF 的方法

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

立政治大學

第貳章文獻探討

第一節偵測 DIF 的方法

立政治大學

立政治大學

立政治大學

立政治大學