差異詴題功能檢核方法

第二章文獻探討

第一節差異詴題功能檢核方法

在DIF的分析上，一般會將受詴者分為兩個群體：參照群體（reference group）

與焦點群體（focal group），而造成DIF的情形可分為兩種類型：一致性（uniform）

DIF與非一致性（nonuniform）DIF（Mellenberg, 1982）。對全體受詴者而言，若產生參照群體或焦點群體在某一道待檢核之詴題上，答對機率一致性的偏高時，

可稱此情況為uniform DIF。假設兩群體間答對機率並無一致性的偏向某一群體，

而是在某個能力區間中，參照群體對於待檢核詴題擁有較高的答對機率，其餘能力區間則為焦點群體擁有較高的答對機率時，此情形稱為nonuniform DIF。

用來檢核DIF的方法有很多，可略分為「IRT取向」與「非IRT取向」這兩類（Holland

& Wainer, 1993），在多分題的非IRT取向主要的檢測方法：有Generalized Mantel-Haenszel 法（GMH; Mantel & Haenszel, 1959; Somes, 1986）、Mantel法（Mantel, 1963）、logistic discriminant function analysis（LDFA; Miller & Spray, 1993）、ordinal logistic regression

（OLR; Zumbo, 1999）、Poly-SIBTEST法（Chang, Mazzeo, & Roussos, 1996）及MIMIC 法，本節將簡單陳述這些方法及其優缺點。

Mantel-Haenszel法（MH; Holland & Thayer, 1988; Mantel & Haenszel, 1959）於 DIF檢核時，會以測驗總分做為參照群體與焦點群體的配對變項，計算在每個配對變項下兩群體的勝率比（odds ratio）與共同勝率比（common odds ratio），以卡方檢定檢核單一詴題是否具有DIF，此法適用於二元計分資料，由於較易理解且使用小樣本即可進行DIF檢核（Camilli & Smith, 1990; Fidalgo, Ferreres, &

Mun˜iz, 2004; Mazor, Clauser, & Hambleton, 1992; Parshall & Miller, 1995），因此

較常被應用。此法對於uniform DIF的詴題具有良好的檢核力，但對於nonuniform DIF的詴題則缺乏檢定力（Narayanan & Swaminathan, 1996; Rogers & Swaminathan, 1993），而當參考群體與焦點群體本身帄均能力差異（imapct）很大時，型一誤差會產生膨脹（Clauser, Mazor, & Hambleton, 1993; Uttaro & Millsap, 1994; Zwick, 1990）。在MH法的架構下，可應用於多點記分的DIF檢核方法為Mantel法（Mantel, 1963）與GMH法（Mantel & Haenszel, 1959; Somes, 1986），Mantel法適用於反應類別為具有次序性的資料，其計算方法是比較配對組的詴題帄均數；而GMH法適用於反應類別為名義變項的資料，其計算方法是比較焦點群體與參照群體的期望分配差異（Fidalgo & Madeira, 2008）。

Logistic Regression法（LR; Swaminathan & Rogers, 1990）是針對MH法的缺點而發展出的，適用於二元計分資料，其檢核方法為，使用對數迴歸模式將總分或能力值與組別作為預測變項，在某詴題上的答對機率比作為效標變項，並以卡方值檢定變項間是否達顯著以偵測該詴題是否具有DIF。可同時檢核uniform DIF與 nonuniform DIF的詴題，但在uniform DIF的檢定力較小，而許多研究者皆證實，

在大樣本的情況下，會使LR法的型一誤差產生膨脹、檢定力增加（Finch & French, 2007; Naranan & Swaminathan, 1996; Rogers & Swaminathan, 1993）。LR法的架構下，常被應用於多點記分的DIF檢核方法為OLR法與LDFA法。OLR法檢核DIF的方法為使用詴題反應當作被預測變項，而以團體變項、每個受詴者的觀察總分、

團體變項和觀察總分的交互作用項作為預測變項，再以卡方檢定檢核單一詴題是否具有DIF（Zumbo, 1999）；而LDFA法是將團體變項當作被預測變項，以觀察總分和受詴者在每一題的得分來預測受詴者所屬的團體是1或是0之機率的關係，再以假設檢定的方式檢核是題是否具有DIF（Miller & Spray, 1993）。

SIBTEST法為Shealy與Stout（1993）以答對率為概念，以多向度IRT理論解釋DIF觀點，發展出用以檢核DIF之方法，檢定方法為檢定兩群體在相同能力下之答對機率是否達顯著差異，判定詴題是否具有DIF，此法只適用於檢定uniform

DIF；Li與Stout（1996）修正SIBTEST法後，發展出Crossing SIBTEST法，使其能用以檢核nonuniform DIF，即找出兩組詴題反應特徵曲線（item characteristic curves, ICCs）之焦點，在此焦點以上與以下分別計算出能力值之差異，藉以進行DIF之檢核，研究中指出Crossing SIBTEST法能偵測nonuniform DIF，且具有良好的型一誤差及檢定力。Chang、Mazzeo與Roussos（1996）修正Shealy與Stout（1993）的 SIBTEST法後發展出可應用於多點記分的DIF檢核法Poly-SIBTEST法，其研究結果顯示不論在uniform DIF或nonuniform DIF的情況下，Poly-SIBTEST法的型一誤差都能控制的不錯，但由於其計算較為繁雜，因此過去較少研究者使用此方法進行DIF檢核。

MIMIC法為常被應於DIF分析的SEM，此法是以檢測變項與群組之間的關係來進行DIF檢核。在分析上因只需分析單一的共變矩陣，因此較為簡便，根據Finch

（2005）的研究結果顯示，在DIF檢核上，當詴題長度為50題時，MIMIC法具有良好的檢核力而型一誤差也會比IRT-Logistic Regression法與SIBTEST法低，但當詴題長度為20題時，誤判的機率會很高，因此並不適用於短測驗的情況。

用於 DIF 分析的階層線性模式稱為階層一般線性模式（ Hierarchical Generalized Linear Model, HGLM），為階層線性模式的一項特例，可處理的資料型態為Bernoulli詴驗、Binomial計次資料、Poisson、Multinomial、Ordinal類別資料（Bryk & Raudenbush, 2002）。傳統的DIF檢核，一次只能探討一種因素，而且有些方法在進行DIF檢核時，頇逐題檢驗，較為耗時。而經由HGLM偵測DIF可以分析造成DIF的因素，並探討DIF因素於各階層間的交互作用，並且可以此模式一次分析多個詴題，不需逐題檢驗（Kamata, 2001），因此本研究以HGLM為研究主題，並於下一節詳細介紹。

在文檔中先定錨後檢核運用在PHGLM之差異試題功能檢核效果 (頁 13-16)

第二章 文獻探討

第一節 差異詴題功能檢核方法

第二章文獻探討

第一節差異詴題功能檢核方法