緒論 - 不同資料遺失樣態對於差異試題功能偵測效果之影響

本章旨在說明研究動機、研究目的，與整合二者後確立的研究問題。此外，

也明確界定相關名詞之意涵。本章共分為三節，第一節為研究動機和目的，第二節為研究問題，第三節則為名詞釋義。

第一節 研究動機和目的

根據Murphy與Davidshofer (1994) 的詮釋，「心理測量」乃是對個體分派數字的過程，它試圖利用數字來反映個體的屬性（attribute）。舉例來說，我們常以測驗分數來反映受測者特定的潛在特質（latent trait），在同一份測驗中，若甲受測者得 50分、乙受測者得90分，我們只能斷言乙受測者於該潛在特質是高於甲受測者的，

但不能過度推論到其他潛在特質。然而，我們所推論的測驗分數仍包含測量誤差。

若是綜觀地考量眾多的個體，其間的測量誤差來源是複雜且多元的，古典測驗理論（classical test theory, CTT）將測量誤差假設為隨機變項。但就單一個體而言，

測量誤差並不是完全隨機的事件，像測驗環境便是很難消除的誤差來源之一，因此測驗本身的不偏性（unbias）與公平性（fairness）顯得更為重要。

自1920年代起（Cronbach, 1975），社會大眾對於心理測驗的使用便有許多爭議，

且特別著重於測驗偏誤與測驗公平性的問題。心理測驗與現代社會有密切的關聯，

從基本的問卷調查、分類篩檢，到資格檢定與人才甄選等高風險測驗，也因此測驗公平性備受關注。「測驗公平性」意指在測驗發展、實施、計分與解釋結果等階段，對所有受測者而言都是平等且公正的，無論受測者屬於哪一種群體，測驗結果都應有效地反映出該測驗所欲測量之潛在特質。測驗發展機構通常以兩道程序來確保測驗公平性，測驗實施前先進行敏感性審查（sensitivity review），預試後再偵測是否有差異試題功能（differential item functioning，簡稱DIF）。DIF是指兩組能力或表現相當的群體，在試題表現上卻呈現顯著差異（Dorans & Holland, 1993）。

也就是在某試題上，如果多數族群和少數族群（像是性別、種族或視障與否）的平均表現有所不同的話，便顯示該試題具有DIF的現象。值得注意的是，雖然偏誤

（bias）與DIF常被交替地使用，但DIF是較中性且更意味深長的用詞（Holland &

Thayer, 1988）。根據Camilli（1993）的解釋，DIF只是分析資料所顯露的徵兆，還

需要進一步檢查，若發現確實有跟擬測構念無關的因素影響測驗結果，才能斷定為試題偏誤。

Whitmore與Schumacker（1999）指出DIF偵測程序可以分作三個類別：傳統的古典測驗理論方法（classical test theory methods）、卡方檢定方法（chi-square methods）

與試題反應理論方法（latent trait theory methods），前二者可化約為非IRT取向的DIF 偵測方法。其中以試題反應理論方法最具理論性優勢，但計算上也較為複雜，且通常至少需要1,000位受測者與40題試題才能得到穩定的參數估計結果（Raju, 1990）。相較之下，卡方檢定方法計算較簡易且限制較少。在非IRT取向的實務上，

最常使用的DIF偵測方法為Mantel-Haenszel程序（MH; Holland & Thayer, 1988;

Mantel & Haenszel, 1959）。現今，MH法廣泛地應用於美國，教育測驗服務社

（Educational Testing Service，ETS）與國家教育進展評量（National Assessment of Educational Progress，NAEP）皆以其來檢測DIF試題，其優點包括：計算簡便、毋需大樣本與具有顯著性統計考驗。然而，MH法只能偵測出單向DIF（uniform DIF），

因此Swaminathan & Rogers（1990）發展logistic regression程序，以有效地偵測出單向DIF與交叉DIF（non-uniform DIF）。

卡方方法雖然方便應用，但試題反應理論方法（item response theory，IRT）

仍具備其獨有之優勢，如能力與試題參數不變性等優點，故此取向也應善加運用。

IRT 取向的 DIF 偵測有兩種途徑：（ 1 ）比較不同群體的試題特徵曲線（ item characteristic curve，ICC）間區域量數 (Rudner, Getson, & Knight, 1980)；（2）比較試題參數估計值，如Lord（1980）的卡方考驗、概似率考驗（likelihood ratio test;

Thissen, Steinberg, & Wainer, 1993）。

除了IRT取向與非IRT取向的討論外，在DIF偵測方法上還有一個值得探討的議題—「純化」（purification）程序。純化程序乃是將可能的DIF試題排除後，再進行檢測，其優點在於配對總分不會受到DIF試題的污染。Navas-Ara與Gómez-Benito

（2002）曾操弄試題長度、樣本數與DIF程度（DIF magnitude）等變項來檢視純化程序的效果，結果顯示在短測驗、大樣本與重度DIF的條件下，純化程序對於DIF 偵測有正向效果。過往研究也指出當DIF程度高與DIF試題比率高時，純化程序提升檢定力（power值）的效果較明顯（Clauser, Mazor, & Hambleton, 1993; French &

Maller, 2007; Miller & Oshima,1992; Wang & Su, 2004）。

然而，當蒐集資料來進行DIF檢測時，很難避免資料不完整的情況。由於多數統計分析方法都不是為了遺失值（missing data）而設計的，這樣的情況將使資料分析變得困難。對於偵測DIF試題而言，遺失值會影響其偵測效果，導致型一錯誤率變高，即型一錯誤率（type I error rate; α值）增高，或檢定力下降（Robitzsch & Rupp, 2009; Finch, 2011; 鄒彗英、江培銘, 2012）。處理遺失值時，應先瞭解資料遺失的原因，再選擇適當的方法來處理遺失值。可惜的是，目前並沒有一個定論告訴我們何種遺失值處理方法（treatment of missing data）是最好的、最有效的，且遺失機制（missing data mechanism）與遺失比率（percentage of missing data）等變項也影響著分析結果。Rubin（1976）依資料遺失的原因將遺失值分作三類：隨機遺失

（missing completely at random, MCAR）、隨機遺失（missing at random, MAR）與非隨機遺失（missing not at random）。Robitzsch與Rupp（2009）曾針對遺失值處理方法、DIF偵測方法、遺失機制、遺失比率、DIF程度、試題長度、樣本數與受測者能力分配等八個變項進行模擬研究，結果顯示遺失機制、遺失值處理方法與遺失比率之間的交互作用對於DIF偵測效果的解釋力最高。

處理遺失值的方法有許多種，有些研究者以傳統方法與現代方法作劃分

（Peugh & Enders, 2004），有些則以基礎方法與概似方法作劃分（Little & Rubin, 2002）。無論是何種分類方式，前者大抵是指刪除法（deletion）與單一插補法（single imputation），後者則是指概似估計法（likelihood-based approaches）與多重插補法

（multiple imputation, MI）。刪除法是最簡單的處理方式，但會顯著地降低參數估計的精確性，且只有在MCAR下才能得到正確的分析結果（Sinharay, Stern, &

Russell, 2001）。插補法方面，單一插補法的應用較簡易也較普遍，包括：零插補法（zero imputation）、平均數插補法（mean imputation）、迴歸插補法（regression imputation）與雙向插補法（two-way imputation）等，但也只有在MCAR下能保有參數估計的不偏性，在其他遺失機制下都會有偏誤而影響研究效度。若要適用於其他遺失成因，最大概似法（maximum likelihood, ML）與多重插補法應是最好的遺失值處理方法。

本研究主要欲探討不同資料遺失樣態下的DIF偵測效果，其中遺失樣態指稱的是不同的遺失機制與不同的遺失比率。以往，已有研究者針對遺失資料、DIF偵測方法以及其間相關的變項進行模擬研究。如Robitzsch & Rupp（2009）曾探討遺失

值處理方法、DIF偵測方法、遺失機制、遺失比率、DIF程度、試題長度、樣本數與受測者能力分配對於DIF偵測結果的影響，然而該研究為了方便操弄多個變項，

只將遺失值與DIF試題侷限於第一題試題來討論。鄒彗英、江培銘（2012）曾針對 MCAR的情境作模擬研究，然而實務情境不盡然都符合此遺失機制，因而研究結果的應用性有所設限。本研究針對MCAR與MAR兩種遺失機制進行探究，在MAR 的部分，除了參考Robitzsch & Rupp (2009) 針對焦點組與低能力者產生遺失資料外，

本研究也試圖針對高難度試題產生遺失資料。針對低能力者產生遺失資料的部分，

本研究考量到焦點組與低能力者兩個因素的相互干擾，因此將低能力者界定為所有受測者中能力較低的50%。另一方面，這兩篇研究在討論DIF偵測方法時，都沒有考量到純化程序，本研究將以此變項來探討純化過程在這類資料上的效果。

第二節 研究問題

綜上所述，本研究擬探究不同資料遺失樣態下的DIF偵測效果。遺失樣態方面，

主要是針對遺失機制與遺失比率兩個變項作操弄。在DIF偵測方法上，一方面使用非IRT取向的MH法，另一方面採用IRT取向的Lord法，以比較不同取向的DIF偵測效果。無論是傳統取向或IRT取向的DIF偵測方法，都會進一步納入純化程序再作比較，以探討純化程序是否有助於DIF偵測。同時，也試圖瞭解樣本數、DIF程度與DIF試題比率等變項與純化效果的關係。本研究具體的目的分述如下：

（1）探討遺失樣態（遺失機制、遺失比率）對DIF偵測效果的影響

（2）探討有無使用單一插補法對不同遺失樣態下DIF偵測效果的影響

（3）探討DIF偵測方法（是否為IRT取向、有無加入純化程序）對不同遺失樣態下之DIF偵測效果的影響

第三節 名詞釋義 遺失機制（missing mechanism）

最早由Rubin於1976年提出，他將完整資料（complete data）劃分為觀察資料

（observed data）與遺失資料（missing data）兩個部分，並針對遺失值與自變項、

依變項之間的關係，區分出三種遺失成因。這三種遺失機制分別是：完全隨機遺失（missing completely at random, MCAR）、隨機遺失（missing at random, MAR）

與非完全隨機遺失（missing not at random, MNAR）。本研究針對MCAR與MAR進行模擬研究，MAR是實務上通常會面臨的遺失情境，而MCAR只是它的特例。

差異試題功能（differential item functioning，簡稱DIF）

DIF是指兩組能力或表現相當的群體，在試題表現上卻呈現顯著差異（Dorans

& Holland, 1993）。同一母群中，因為樣本來自不同文化、語言或社經背景的次群體，與不適切的試題內容或形式，而使相同能力者對同一試題的答對機率有差異。

DIF 的影響可以是一致性的，即單向DIF（uniform DIF），此表示能力值與群體之間沒有交互作用存在，該試題對於焦點組的影響是單向性的。DIF 的影響也可能是不一致的，即交叉DIF（non-uniform），此表示能力值與群體之間有交互作用存

在文檔中不同資料遺失樣態對於差異試題功能偵測效果之影響 (頁 9-14)