• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

9

第貳章 文獻探討

DIF 檢測的方式很多元,本章將簡介 DIF 的演進概述,也試著以不同 理論觀點說明偵測 DIF 的方式,並介紹本文應用的理論模型基礎:RIM 模 型與 MMixIRTM,茲說明如下:

第一節 偵測 DIF 的方法

有關本節偵測 DIF 的方法,茲就 DIF 演進進行簡要論述,也進而說明 混合模式運用在 DIF 的發展情形,現分別說明如下:

一、DIF 演進概述

過去偵測 DIF 的方法很多元,常用的檢測方法一般可分為非 IRT 取向 和 IRT 取向,其中,非 IRT 取向如:(1)Mantel-Haenszel 法(Holland & Thayer, 1988); (2)標準化法(standardization)(Dorans & Kulick, 1986);(3)

羅吉斯迴歸法(logistic regression, LR)(Swaminathan & Rogers, 1990);(4)

SIBTEST(simultaneous item bias test)(Shealy & Stout, 1993)。IRT 取向則 如:(1)比較試題特徵曲線參數(Rudner, Getson, & Knight, 1980);(2)ICC 區間面積法(Raju, 1990);(3)Likelihood-ratio test(Thissen, Steinberg, &

Gerrard, 1986)。

以上方法多半只能偵測兩群組間的一致性 DIF,而無法探討連續變項 對 DIF 所造成的影響,也只能考慮到受試者變項層次可能造成的 DIF,無 法測得組織變項 (例如:學校氣氛、學校資源)造成 DIF 的情形。加上,

部分方法多以「總分相同」當作能力一致的標準,當定錨題不佳,即會影 響 DIF 偵測結果。故相關研究建議在偵測 DIF 時搭配淨化程序,找出沒有 DIF 的試題當作定錨題,以增加偵測 DIF 的準確度,但淨化程序往往需耗 費不少時間。

在因素分析的架構之下,研究者會以多群組測量等價性(measurement equivalence)的觀點闡述 DIF,例如:應用 MIMIC 模型(multiple indicators multiple cause)以檢測 DIF,讓 SEM 與 IRT 有逐漸結合之勢,也較方便搭 配淨化程序,儘管能應用於 IRT 中的 Rasch 模式與二參數的 IRT 模式,該 方法仍只能偵測一致性 DIF,且只可估得試題參數,仍無法估出學生能力 值(Finch, 2005, 2012; Shin &Wang, 2009; Wang & Shin, 2010; Wang, Shin, &

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10

Yang, 2009; Woods, Oltmanns, & Turkheimer, 2009)。這幾年 DIF 研究擴展 到以隨機效果的觀點進行,換言之,該類研究延伸傳統 LR 技術,將學生 的能力視為不同分配,稱為混合分配(mixture distribution),進而改善試 題參數估計精準度。另外,該類研究亦試圖因應階層巢套資料組內相依的 特性,延伸至多層次模型(Chaimongkol, 2005; Chaimongkol, Huffer, &

Kamata, 2007);值得一提的是,有相關研究跳脫 IRT 試題參數為固定係數 的觀點,將試題難度視為隨機變數,以隨機分配將題目分為 DIF、非 DIF

(Frederickx, Tuerlinckx, De Boeck, & Magis, 2010)。

現今教育研究的抽樣方式,往往因成本考量與母體特性,鮮少直接抽 取學生,多半以多階段抽樣方式,先抽地區(或學校)再抽受試者,同一 地區(或學校)內的受試者同質性高,組間異質性高。這種巢套設計(nested design)的多層次(multilevel)資料,殘差違反獨立性假設,而使用傳統 迴歸分析方法將資料視為同一層,在參數估計時會使型一誤差膨脹,並得 到偏誤的參數,且忽略組織脈絡提供的訊息與造成的影響(Snijders &

Bosker, 2011)。

基於巢套資料結構對試題參數估計的影響,近代研究嘗試將階層線性 模式(hierarchical linear model)與 IRT 結合。Kamata(1998, 2001)首先 以二階層的階層廣義線性模式(hierarchical generalized linear model, HGLM)

解釋單參數對數模式(即 Rasch 模式),將 Rasch 模式視為 HGLM 的特例,

也進一步在學生階層加入學生背景變項,把試題難度分解成兩個以上的參 數以解釋 DIF 情形。此方法與 Rasch 模式偵測 DIF 的方式相比,兩者在代 數上有等價關係,但因前者估計參數時將學生的因素一併考慮,因而增加 試題的估計精準度(Fox, 2005; Maier, 2002; Rabe-Hesketh, Skrondal, &

Pickles, 2004)。French 和 Finch(2010)則考量資料為多層次的特性,將傳 統 LR 檢定 DIF 的模式,擴充至能將組間變項同時考慮進去的 HLR

(hierarchical logistic regression)。Cheong(2006)也認為應以 HGLM 檢測 PISA(Programme for International Student Assessment)試題的 DIF 現象。

HGLM 無須將學生分成參照組與焦點組,即可檢定連續變項的 DIF 情形,

不像以卡方考驗為基礎偵測 DIF 的模式,還需進一步連結 (linking)才可 比較不同群體間的差異(Tay, Newman, & Vermunt, 2011)。

傳統偵測 DIF 的方式,往往忽略探就造成 DIF 的因素,近代學者開始

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

11

重視此一議題,找出造成 DIF 的干擾向度。從潛在變項的觀點切入,學生 可以依其試題反應型態之同質高低進行分類,因為同一類別學生,有相近 的作答反應、相似的作答策略,故能較精確的找出造成 DIF 的原因(Mislevy

& Verhelst, 1990; Rost, 1990)。有鑑於外顯變項偵測 DIF 的侷限,近代學者 以潛在類別模式(latent class model)分析 DIF,換言之模型中置入潛在類 別變項,進而偵測潛在變項以評估 DIF 的影響;或是以混合模式(mixture model),先估算出學生的潛在組別,再考量潛在組別間是否存在 DIF 現象

(Cohen & Bolt, 2005; Samuelsen, 2005)。

二、以混合模式偵測 DIF

Rost(1990, 1997)提出混合 Rasch 模式(mixture Rasch model),並將 其應用在偵測試題的 DIF 情形。該研究先確定學生應該被歸類為幾群後,

再進行 DIF 試題偵測。Rost(1990, 1997)的研究只有 10 道試題,但對每 群學生所屬潛在類別預測良好,能準確的估計試題參數,但他的研究是假 設在每一題都有 DIF 的前提下,這個假設較不符合實際教育現場。

Samuelsen(2005)則延伸 Rost(1990, 1997)的研究,以模擬研究找出影 響混合 Rasch 模式估計的因子,例如:當潛在類別和外顯變項分類高達 0.9 相關時,即便是小樣本的情況(250 人),也可正確偵測試題 DIF 情形。但 當潛在類別和外顯變項分類有中度相關時(相關係數 0.6),標準誤隨樣本 增多而減少,樣本數仍嚴重影響估計精準度。

另一方面,Lu 和 Jiao(2009)的模擬研究加入更多模擬因子,包括:

潛在類別的受試者差異、混合比例(mixing proportion)、DIF 題數、DIF 程度等,探討當不同潛在類別的受試者的能力分配不同時,DIF 的表現情 形如何,研究指出當試題 DIF 較大、較多 DIF 試題數、潛在類別之間的能 力分配差異大時,越容易偵測出 DIF 試題。但在 Demar 和 Lau(2011)的 研究則指出以混合 IRT 模型(mixture IRT)偵測非一致性 DIF 時,當兩群 人的能力值沒有差異存在時,可以將受試者分群分的比較好,也能良好地 估計試題鑑別度參數,但當兩群人的能力值有差異存在時,則會高估試題 鑑別度。但整體來說,以混合 IRT 模型估計不一致 DIF 情形的研究並不多。

Dai(2013)則將焦點放在加入共變數時,混合 Rasch 模式偵測 DIF 的情 形,其研究發現當共變數越能反應外顯變項,且外顯變項和潛在類別相關

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

越高時,加入共變數是有助於提升參數估計精準度。

本研究將近年以混合模式偵測 DIF 的相關研究整理如表 1 所示,整體 而言,過去混合模式研究,多半僅將試題視為混合分配、亦或是僅將受試 者視為混合分配,尚未將兩者模式加以結合,因此,本研究即根據過去研 究的不足,提出「混合試題與受試者模型」。而在後續模擬研究中的研究 設計,也將參考表 1 整理之文獻。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

表 1 混合模式偵測 DIF 的相關研究整理表(續)

作者 混合 受試者

混合

試題 多層次 樣本數 試題數

群間能力值分配設為相 等(no impact)或不等

(impact )

DIF 試題比例

或 DIF 試題數 DIF 程度

Dai(2013) X 1000 30 兩群能力分配為 N(0, 1)、N(1, 1)

DIF 比例: 20%,40%

(作者將把 DIF 程度 比較大的題目當作有 DIF,其餘試題也都具 有小幅度 DIF,因 此,嚴格來說每一題

都有 DIF)

DIF 程度:介於 0.3 ~ 1.3 不等

本研究:混 合試題與受 試者模式

V V 900、

2500 30 相等 6 題、10 題、20 題 群間的 DIF 試題難度 值差一個負號

質(Mislevy & Verhelst, 1990);倘學校有相同的學校階層潛在類別,表示 學校有相似的特性(Vermunt & Magidson, 2005)。MMixIRTM更可在各階 層放入分屬的共變數,以解釋各群的組成情形,例如把性別、種族放在學 生階層,學校都市化程度放在學校階層,此模型即為可偵測DIF(Cohen &

Bolt, 2005)。而MMixIRTM因融合IRT,還可提供不同潛在類別間的試題資 訊,可比較各潛在類別間的試題難度是否相同。MixIRTM(mixture item response theory model)已在教育測驗中廣為應用,可用來偵測試題或題組 中的DIF情形,也可應用於速度測驗(Cohen & Bolt, 2005; Cohen, Gregg, &

Deng, 2005; Samuelsen, 2005; von Davier & Yamamoto, 2004),Embretson和 Reise(2000)也指出學生的潛在類別的分布情形,是效度的重要參酌之一。

相關文件