• 沒有找到結果。

本章旨在說明研究動機、研究目的,與整合二者後確立的研究問題。此外,

也明確界定相關名詞之意涵。本章共分為三節,第一節為研究動機和目的,第二 節為研究問題,第三節則為名詞釋義。

第一節 研究動機和目的

根據Murphy與Davidshofer (1994) 的詮釋,「心理測量」乃是對個體分派數字 的過程,它試圖利用數字來反映個體的屬性(attribute)。舉例來說,我們常以測驗 分數來反映受測者特定的潛在特質(latent trait),在同一份測驗中,若甲受測者得 50分、乙受測者得90分,我們只能斷言乙受測者於該潛在特質是高於甲受測者的,

但不能過度推論到其他潛在特質。然而,我們所推論的測驗分數仍包含測量誤差。

若是綜觀地考量眾多的個體,其間的測量誤差來源是複雜且多元的,古典測驗理 論(classical test theory, CTT)將測量誤差假設為隨機變項。但就單一個體而言,

測量誤差並不是完全隨機的事件,像測驗環境便是很難消除的誤差來源之一,因 此測驗本身的不偏性(unbias)與公平性(fairness)顯得更為重要。

自1920年代起(Cronbach, 1975),社會大眾對於心理測驗的使用便有許多爭議,

且特別著重於測驗偏誤與測驗公平性的問題。心理測驗與現代社會有密切的關聯,

從基本的問卷調查、分類篩檢,到資格檢定與人才甄選等高風險測驗,也因此測 驗公平性備受關注。「測驗公平性」意指在測驗發展、實施、計分與解釋結果等階 段,對所有受測者而言都是平等且公正的,無論受測者屬於哪一種群體,測驗結 果都應有效地反映出該測驗所欲測量之潛在特質。測驗發展機構通常以兩道程序 來確保測驗公平性,測驗實施前先進行敏感性審查(sensitivity review),預試後再 偵測是否有差異試題功能(differential item functioning,簡稱DIF)。DIF是指兩組 能力或表現相當的群體,在試題表現上卻呈現顯著差異(Dorans & Holland, 1993)。

也就是在某試題上,如果多數族群和少數族群(像是性別、種族或視障與否)的 平均表現有所不同的話,便顯示該試題具有DIF的現象。值得注意的是,雖然偏誤

(bias)與DIF常被交替地使用,但DIF是較中性且更意味深長的用詞 (Holland &

Thayer, 1988)。根據Camilli(1993)的解釋,DIF只是分析資料所顯露的徵兆,還

需要進一步檢查,若發現確實有跟擬測構念無關的因素影響測驗結果,才能斷定 為試題偏誤。

Whitmore與Schumacker(1999)指出DIF偵測程序可以分作三個類別:傳統的 古典測驗理論方法(classical test theory methods)、卡方檢定方法(chi-square methods)

與試題反應理論方法(latent trait theory methods),前二者可化約為非IRT取向的DIF 偵測方法。其中以試題反應理論方法最具理論性優勢,但計算上也較為複雜,且 通常至少需要1,000位受測者與40題試題才能得到穩定的參數估計結果(Raju, 1990)。相較之下,卡方檢定方法計算較簡易且限制較少。在非IRT取向的實務上,

最常使用的DIF偵測方法為Mantel-Haenszel程序(MH; Holland & Thayer, 1988;

Mantel & Haenszel, 1959)。現今,MH法廣泛地應用於美國,教育測驗服務社

(Educational Testing Service,ETS)與國家教育進展評量(National Assessment of Educational Progress,NAEP)皆以其來檢測DIF試題,其優點包括:計算簡便、毋 需大樣本與具有顯著性統計考驗。然而,MH法只能偵測出單向DIF(uniform DIF),

因此Swaminathan & Rogers(1990)發展logistic regression程序,以有效地偵測出單 向DIF與交叉DIF(non-uniform DIF)。

卡方方法雖然方便應用,但試題反應理論方法(item response theory,IRT)

仍具備其獨有之優勢,如能力與試題參數不變性等優點,故此取向也應善加運用。

IRT 取 向 的 DIF 偵 測 有 兩 種 途 徑 :( 1 ) 比 較 不 同 群 體 的 試 題 特 徵 曲 線 ( item characteristic curve,ICC)間區域量數 (Rudner, Getson, & Knight, 1980);(2)比較 試題參數估計值,如Lord(1980)的卡方考驗、概似率考驗 (likelihood ratio test;

Thissen, Steinberg, & Wainer, 1993)。

除了IRT取向與非IRT取向的討論外,在DIF偵測方法上還有一個值得探討的議 題—「純化」(purification)程序。純化程序乃是將可能的DIF試題排除後,再進行 檢測,其優點在於配對總分不會受到DIF試題的污染。Navas-Ara與Gómez-Benito

(2002)曾操弄試題長度、樣本數與DIF程度(DIF magnitude)等變項來檢視純化 程序的效果,結果顯示在短測驗、大樣本與重度DIF的條件下,純化程序對於DIF 偵測有正向效果。過往研究也指出當DIF程度高與DIF試題比率高時,純化程序提 升檢定力(power值)的效果較明顯(Clauser, Mazor, & Hambleton, 1993; French &

Maller, 2007; Miller & Oshima,1992; Wang & Su, 2004)。

然而,當蒐集資料來進行DIF檢測時,很難避免資料不完整的情況。由於多數 統計分析方法都不是為了遺失值(missing data)而設計的,這樣的情況將使資料 分析變得困難。對於偵測DIF試題而言,遺失值會影響其偵測效果,導致型一錯誤 率變高,即型一錯誤率(type I error rate; α值)增高,或檢定力下降(Robitzsch & Rupp, 2009; Finch, 2011; 鄒彗英、江培銘, 2012)。處理遺失值時,應先瞭解資料遺失的 原因,再選擇適當的方法來處理遺失值。可惜的是,目前並沒有一個定論告訴我 們何種遺失值處理方法(treatment of missing data)是最好的、最有效的,且遺失 機制(missing data mechanism)與遺失比率(percentage of missing data)等變項也 影響著分析結果。Rubin(1976)依資料遺失的原因將遺失值分作三類:隨機遺失

(missing completely at random, MCAR)、隨機遺失(missing at random, MAR)與 非隨機遺失(missing not at random)。Robitzsch與Rupp(2009)曾針對遺失值處理 方法、DIF偵測方法、遺失機制、遺失比率、DIF程度、試題長度、樣本數與受測 者能力分配等八個變項進行模擬研究,結果顯示遺失機制、遺失值處理方法與遺 失比率之間的交互作用對於DIF偵測效果的解釋力最高。

處理遺失值的方法有許多種,有些研究者以傳統方法與現代方法作劃分

(Peugh & Enders, 2004),有些則以基礎方法與概似方法作劃分(Little & Rubin, 2002)。無論是何種分類方式,前者大抵是指刪除法(deletion)與單一插補法(single imputation),後者則是指概似估計法(likelihood-based approaches)與多重插補法

(multiple imputation, MI)。刪除法是最簡單的處理方式,但會顯著地降低參數估 計的精確性,且只有在MCAR下才能得到正確的分析結果(Sinharay, Stern, &

Russell, 2001)。插補法方面,單一插補法的應用較簡易也較普遍,包括:零插補 法(zero imputation)、平均數插補法(mean imputation)、迴歸插補法(regression imputation)與雙向插補法(two-way imputation)等,但也只有在MCAR下能保有 參數估計的不偏性,在其他遺失機制下都會有偏誤而影響研究效度。若要適用於 其他遺失成因,最大概似法(maximum likelihood, ML)與多重插補法應是最好的 遺失值處理方法。

本研究主要欲探討不同資料遺失樣態下的DIF偵測效果,其中遺失樣態指稱的 是不同的遺失機制與不同的遺失比率。以往,已有研究者針對遺失資料、DIF偵測 方法以及其間相關的變項進行模擬研究。如Robitzsch & Rupp(2009)曾探討遺失

值處理方法、DIF偵測方法、遺失機制、遺失比率、DIF程度、試題長度、樣本數 與受測者能力分配對於DIF偵測結果的影響,然而該研究為了方便操弄多個變項,

只將遺失值與DIF試題侷限於第一題試題來討論。鄒彗英、江培銘(2012)曾針對 MCAR的情境作模擬研究,然而實務情境不盡然都符合此遺失機制,因而研究結 果的應用性有所設限。本研究針對MCAR與MAR兩種遺失機制進行探究,在MAR 的部分,除了參考Robitzsch & Rupp (2009) 針對焦點組與低能力者產生遺失資料外,

本研究也試圖針對高難度試題產生遺失資料。針對低能力者產生遺失資料的部分,

本研究考量到焦點組與低能力者兩個因素的相互干擾,因此將低能力者界定為所 有受測者中能力較低的50%。另一方面,這兩篇研究在討論DIF偵測方法時,都沒 有考量到純化程序,本研究將以此變項來探討純化過程在這類資料上的效果。

第二節 研究問題

綜上所述,本研究擬探究不同資料遺失樣態下的DIF偵測效果。遺失樣態方面,

主要是針對遺失機制與遺失比率兩個變項作操弄。在DIF偵測方法上,一方面使用 非IRT取向的MH法,另一方面採用IRT取向的Lord法,以比較不同取向的DIF偵測 效果。無論是傳統取向或IRT取向的DIF偵測方法,都會進一步納入純化程序再作 比較,以探討純化程序是否有助於DIF偵測。同時,也試圖瞭解樣本數、DIF程度 與DIF試題比率等變項與純化效果的關係。本研究具體的目的分述如下:

(1) 探討遺失樣態(遺失機制、遺失比率)對DIF偵測效果的影響

(2) 探討有無使用單一插補法對不同遺失樣態下DIF偵測效果的影響

(3) 探討DIF偵測方法(是否為IRT取向、有無加入純化程序)對不同遺失樣態 下之DIF偵測效果的影響

第三節 名詞釋義 遺失機制(missing mechanism)

最早由Rubin於1976年提出,他將完整資料(complete data) 劃分為觀察資料

(observed data)與遺失資料 (missing data)兩個部分,並針對遺失值與自變項、

依變項之間的關係,區分出三種遺失成因。這三種遺失機制分別是:完全隨機遺 失(missing completely at random, MCAR)、隨機遺失(missing at random, MAR)

與非完全隨機遺失(missing not at random, MNAR)。本研究針對MCAR與MAR進 行模擬研究,MAR是實務上通常會面臨的遺失情境,而MCAR只是它的特例。

差異試題功能(differential item functioning,簡稱DIF)

DIF是指兩組能力或表現相當的群體,在試題表現上卻呈現顯著差異(Dorans

& Holland, 1993)。同一母群中,因為樣本來自不同文化、語言或社經背景的次群 體,與不適切的試題內容或形式,而使相同能力者對同一試題的答對機率有差異。

DIF 的影響可以是一致性的 ,即單向DIF(uniform DIF),此表示能力值與群體之 間沒有交互作用存在,該試題對於焦點組的影響是單向性的。DIF 的影響也可能 是不一致的,即交叉DIF(non-uniform),此表示能力值與群體之間有交互作用存

DIF 的影響可以是一致性的 ,即單向DIF(uniform DIF),此表示能力值與群體之 間沒有交互作用存在,該試題對於焦點組的影響是單向性的。DIF 的影響也可能 是不一致的,即交叉DIF(non-uniform),此表示能力值與群體之間有交互作用存