• 沒有找到結果。

不同資料遺失樣態對於差異試題功能偵測效果之影響

N/A
N/A
Protected

Academic year: 2021

Share "不同資料遺失樣態對於差異試題功能偵測效果之影響"

Copied!
76
0
0

加載中.... (立即查看全文)

全文

(1)  . 書背. 國立臺灣師範大學教育心理與輔導學系 碩士論文. 指導教授:陳柏熹 博士. 不同資料遺失樣態 對於差異試題功能偵測效果之影響. 研究生:歐詠芝 撰. 中華民國一〇二年六月. 教 育 心 理 與 輔 導 學 系. 國 立 臺 灣 師 範 大 學. 碩 士 論 文. 不 同 資 料 遺 失 樣 態 對 於 差 異 試 題 功 能 偵 測 效 果 之 影 響 歐 詠 芝 撰.  . 一 〇 二 年 六 月.  .

(2)  . 致謝詞 我浪漫地將寫論文的過程命名為 On the Road,在這條路上看到許多美好的光 景,接觸許多珍貴的人與事物,有些讓我迷戀駐足,有些令我困擾而停頓,但感 謝這所有的積累,最後我來到這裡。感謝我的指導教授陳柏熹老師,儘管我的背 景與資質於測驗領域都略顯吃力,但始終相信我可以達成,並盡可能給予我協助 與教誨。特別是我曾經迷失方向感到茫然,他卻願意耐心等候,並隨時歡迎著我 的歸來,這是莫大的包容與尊重。感謝我的口試委員譚克平老師與溫柔慧黠的 Margaret Wu,兩位老師花費時間關心我的研究主題,並提供我建議與未來延伸發 展的可能性。特別是譚克平老師在研究方向上給我許多提點,並且總是給予我溫 暖的支持。而 Margaret 每每撥出在台灣有限的時間與我討論,並分享經驗、交流 想法,對我而言都是非常珍貴的過程。 謝謝 506 研究室,素蘋、佳雯、純瑜、佩隃學姐們,從我最初進研究室、離 開又回來,妳們都看在眼裡卻也始終鼓勵我,很慶幸在最後是這麼美好的一起談 話一起笑。謝謝人華學長與元傑學弟與我討論研究相關議題,還有每個星期三的 早晨。謝謝小育吟當我的口試小幫手之外,這些年陪伴我度過每個低落時刻,卻 也共有許多快樂時光,妳是那一年最好的禮物。謝謝在心輔所認識的師長、同儕、 學長姐與學弟妹,所有的交會珍藏在我心裡。謝謝歷史系,儘管現在的方向偏離 得遠,但始終是我的根基,影響我整個人的思想與情感。雖然每次聽到「師大什 麼都沒給我」都讓我亢奮,但其實師大給了我許多,這個生活環境與各種存有與 經驗。 謝謝神明保庇,謝謝貴人相助,才有現在的我。謝謝我的家人像朋友一樣, 不讓我感到壓力,自始至終陪伴我支持我,並以我為榮。謝謝那些老得像家人的 朋友,這四年看我顛簸且瘋癲走來,始終停留於我左右。謝謝我的愛人,雖然你 對這篇論文沒有什麼實質幫助,但你讓我相信自己是美好的。謝謝我自己,我的 身體我的心,在這個路途中時而跳躍時而衝撞時而停滯時而飄浮時而漫步。. i    .

(3)  . 不同資料遺失樣態對於試題差異功能偵測效果之影響 歐詠芝 摘要 本研究旨在探討不同遺失樣態下偵測差異試題功能(DIF)的影響,其中的遺 失樣態是指不同的遺失機制與遺失比率。因此,以模擬研究的方式來探究四種遺 失機制(MCAR 遺失與三種不同形式的 MAR 遺失)與三種遺失比率(0%、10%、 30 %)下,並操弄三種 DIF 試題比率(0%、10%、20%)與三種 DIF 程度(0、0.5、 0.8) ,進一步討論兩種遺失值處理方式(有無進行單一插補)與四種 DIF 偵測方法 (有無加入純化程序的 Mantel-Haenszel statistic 與 Lord’s chi-square)對於 DIF 偵 測效果(型一錯誤率與正確偵測率)的影響。 研究結果顯示,遺失樣態對於 DIF 偵測效果有影響,但僅在以 MH 法進行 DIF 分析的情況下。經單一插補處理遺失值後,多數 DIF 試題的正確偵測率與型一誤 判率會增加。無論是以 MH 法或 Lord 法作為 DIF 偵測方法,加入純化程序都能有 效改善 DIF 偵測效果。 關鍵詞:遺失值、差異試題功能、單一插補、純化、Mantel-Haenszel 統計、Lord 卡方考驗. ii    .

(4)  . Impact of Missing Data Pattern on the Detection of Differential Item Functioning Yung Chih Ou Abstract Differential item functioning (DIF) is an area of continuous interest within the community of measurement researchers. Recently, there is some interest in the detection of DIF items when missing data are present in the test. Under such circumstances, different treatments on the missing data may have different effects on the detection of DIF items. This article describes the results of a simulation study to investigate the impact of missing data pattern on the detection of uniformly DIF items. In the study, missing data pattern is defined by means of various missing mechanisms and missing rates. The purpose of this study is to investigate how two missing data treatments (utilizing single imputation or not) interact with four methods of DIF detection (Mantel-Haenszel statistic and Lord’s chi-square test with and without purification) under four missing mechanisms (MCAR and three versions of MAR) and three missing rates (0%, 10%, 30%) with three DIF magnitude (0, 0.5, 0.8) by means of examining the type I error rates as well as the statistical power of DIF detection. Results show that missing data pattern has impact on the detection of DIF, but only with respect to MH. After missing data treatment by SI, most type I error rates and statistical power increase. With respect to both MH and Lord’s approaches, purification procedure could improve on their DIF detection performances. Keyword: missing data, DIF, single imputation, purification, Mantel-Haenszel statistic, Lord’s chi-square. iii    .

(5)  . 目次 致謝辭................................................................................................................................i 中文摘要...........................................................................................................................ii 英文摘要..........................................................................................................................iii 目次..................................................................................................................................iv 表次...................................................................................................................................v 圖次.................................................................................................................................vii 第一章. 緒論................................................................................................................1. 第一節. 研究動機和目的............................................................................................1. 第二節. 研究問題........................................................................................................4. 第三節. 名詞釋義........................................................................................................4. 第二章. 文獻探討........................................................................................................6. 第一節. 資料的遺失樣態............................................................................................6. 第二節. 遺失值的處理方法........................................................................................8. 第三節. DIF 試題與偵測方法...................................................................................11. 第四節. 遺失樣態、DIF 偵測方法與 DIF 偵測效果的關係...................................15. 第三章. 研究方法......................................................................................................18. 第一節. 研究架構......................................................................................................18. 第二節. 研究程序......................................................................................................22. 第三節. 資料分析......................................................................................................25. 第四章. 研究結果與討論..........................................................................................27. 第一節. 遺失樣態對於 DIF 偵測效果的影響..........................................................27. 第二節. 單一插補對於 DIF 偵測效果的影響..........................................................35. 第三節. DIF 偵測方法對於 DIF 偵測效果的影響...................................................44. 第五章. 結論與建議..................................................................................................59. 參考文獻.........................................................................................................................64. iv    .

(6)  . 表次 表 2-3-1. 總分為 k 之 2×2 列聯表................................................................................12. 表 3-1-1. 模擬資料之操弄分配表................................................................................19. 表 3-1-2. 本研究變項之操弄表....................................................................................20. 表 4-1-1. 不同遺失樣態下,各組人數為 500 人的 α 值............................................28. 表 4-1-2. 不同遺失樣態下,各組人數為 1,000 人的 α 值.........................................29. 表 4-1-3. 不同遺失樣態下,各組人數為 500 人的 power 值....................................30. 表 4-1-4. 不同遺失樣態下,各組人數為 1,000 人的 power 值.................................31. 表 4-1-5. 在 MH 法時,以 α 值為依變項的二因子變異數分析摘要表....................31. 表 4-1-6. 在 Lord 法時,以 α 值為依變項的二因子變異數分析摘要表...................33. 表 4-1-7. 在 MH 法時,以 power 值為依變項的二因子變異數分析摘要表............33. 表 4-1-8. 在 Lord 法時,以 power 值為依變項的二因子變異數分析摘要表...........35. 表 4-2-1 不同遺失樣態下及有無進行插補時,各組人數為 500 人的 α 值............36 表 4-2-2 不同遺失樣態下及有無進行插補時,各組人數為 1,000 人的 α 值.........37 表 4-2-3 不同遺失樣態下及有無進行插補時,各組人數為 500 人的 power 值....38 表 4-2-4 不同遺失樣態下及有無進行插補時,各組人數為 1,000 人的 power 值...39 表 4-2-5. 在 MH 法時,以 α 值為依變項的三因子變異數分析摘要表....................40. 表 4-2-6. 在 Lord 法時,以 α 值為依變項的三因子變異數分析摘要表..................42. 表 4-2-7. 在 MH 法時,以 power 值為依變項的三因子變異數分析摘要表............42. 表 4-2-8. 在 Lord 法時,以 power 值為依變項的三因子變異數分析摘要表...........43. 表 4-3-1. 不同遺失樣態下及有無加入純化程序時,各組人數為 500 人的 α 值. 表 4-3-2. (無插補)....................................................................................................45 不同遺失樣態下及有無加入純化程序時,各組人數為 500 人的 α 值. 表 4-3-3. (有插補)....................................................................................................46 不同遺失樣態下及有無加入純化程序時,各組人數為 1,000 人的 α 值. 表 4-3-4. (無插補)....................................................................................................47 不同遺失樣態下及有無加入純化程序時,各組人數為 1,000 人的 α 值 v  .  .

(7)  . 表 4-3-5. (有插補)....................................................................................................48 不同遺失樣態下及有無加入純化程序時,各組人數為 500 人的 power 值. 表 4-3-6. (無插補)....................................................................................................49 不同遺失樣態下及有無加入純化程序時,各組人數為 500 人的 power 值. 表 4-3-7. (有插補)....................................................................................................50 不同遺失樣態下及有無加入純化程序時,各組人數為 1,000 人的 power. 表 4-3-8. 值(無插補)...................................................................................................51 不同遺失樣態下及有無加入純化程序時,各組人數為 1,000 人的 power 值(有插補)...................................................................................................52. 表 4-3-9. 在 MH 法時,以 α 值為依變項的四因子變異數分析摘要表....................53. 表 4-3-10. 在 Lord 法時,以 α 值為依變項的四因子變異數分析摘要表................55. 表 4-3-11. 在 MH 法時,以 power 值為依變項的四因子變異數分析摘要表..........55. 表 4-3-12. 在 Lord 法時,以 power 值為依變項的四因子變異數分析摘要表.........58. vi    .

(8)  . 圖次 圖 2-2-1. 刪除法的處理歷程..........................................................................................9. 圖2-2-2. 零插補法的處理歷程......................................................................................9. 圖 2-2-3. 單一插補法的處理歷程................................................................................10. 圖3-1-1. 模擬研究架構圖............................................................................................23. 圖4-1-1. 在MH法時,不同遺失比率與遺失機制的α值..............................................32. 圖4-1-2. 在Lord法時,不同遺失比率與遺失機制的α值...........................................33. 圖 4-1-3. 在 MH 法時,不同遺失比率與遺失機制的 power 值....................................34. 圖4-1-4. 在Lord法時,不同遺失比率與遺失機制的power值....................................35. 圖4-2-1. 在MH法時,有無插補與不同遺失機制的α值..............................................41. 圖4-2-2. 在MH法時,有無插補與不同遺失比率的α值..............................................41. 圖 4-2-3. 在 MH 法時,有無插補及不同遺失樣態的 power 值....................................43. 圖 4-3-1 在 MH 法時,有無純化與不同遺失機制的 α 值...........................................53 圖 4-3-2 在 MH 法時,有無純化與遺失比率的 α 值...................................................54 圖 4-3-3. 在 MH 法時,有無純化與有無插補的 α 值................................................55. 圖 4-3-4. 在 MH 法時,有無純化與不同遺失機制的 power 值................................56. 圖 4-3-5. 在 MH 法時,有無純化與遺失比率的 power 值............................................57. 圖 4-3-6. 在 MH 法時,有無純化與有無插補的 power 值............................................57. vii    .

(9)  . 第一章. 緒論. 本章旨在說明研究動機、研究目的,與整合二者後確立的研究問題。此外, 也明確界定相關名詞之意涵。本章共分為三節,第一節為研究動機和目的,第二 節為研究問題,第三節則為名詞釋義。. 第一節. 研究動機和目的. 根據Murphy與Davidshofer (1994) 的詮釋,「心理測量」乃是對個體分派數字 的過程,它試圖利用數字來反映個體的屬性(attribute) 。舉例來說,我們常以測驗 分數來反映受測者特定的潛在特質(latent trait) ,在同一份測驗中,若甲受測者得 50分、乙受測者得90分,我們只能斷言乙受測者於該潛在特質是高於甲受測者的, 但不能過度推論到其他潛在特質。然而,我們所推論的測驗分數仍包含測量誤差。 若是綜觀地考量眾多的個體,其間的測量誤差來源是複雜且多元的,古典測驗理 論(classical test theory, CTT)將測量誤差假設為隨機變項。但就單一個體而言, 測量誤差並不是完全隨機的事件,像測驗環境便是很難消除的誤差來源之一,因 此測驗本身的不偏性(unbias)與公平性(fairness)顯得更為重要。 自1920年代起(Cronbach, 1975) ,社會大眾對於心理測驗的使用便有許多爭議, 且特別著重於測驗偏誤與測驗公平性的問題。心理測驗與現代社會有密切的關聯, 從基本的問卷調查、分類篩檢,到資格檢定與人才甄選等高風險測驗,也因此測 驗公平性備受關注。 「測驗公平性」意指在測驗發展、實施、計分與解釋結果等階 段,對所有受測者而言都是平等且公正的,無論受測者屬於哪一種群體,測驗結 果都應有效地反映出該測驗所欲測量之潛在特質。測驗發展機構通常以兩道程序 來確保測驗公平性,測驗實施前先進行敏感性審查(sensitivity review) ,預試後再 偵測是否有差異試題功能(differential item functioning,簡稱DIF)。DIF是指兩組 能力或表現相當的群體,在試題表現上卻呈現顯著差異(Dorans & Holland, 1993)。 也就是在某試題上,如果多數族群和少數族群(像是性別、種族或視障與否)的 平均表現有所不同的話,便顯示該試題具有DIF的現象。值得注意的是,雖然偏誤 (bias)與DIF常被交替地使用,但DIF是較中性且更意味深長的用詞 (Holland & Thayer, 1988) 。根據Camilli(1993)的解釋,DIF只是分析資料所顯露的徵兆,還  . 1  .

(10)  . 需要進一步檢查,若發現確實有跟擬測構念無關的因素影響測驗結果,才能斷定 為試題偏誤。 Whitmore與Schumacker(1999)指出DIF偵測程序可以分作三個類別:傳統的 古典測驗理論方法(classical test theory methods) 、卡方檢定方法(chi-square methods) 與試題反應理論方法(latent trait theory methods) ,前二者可化約為非IRT取向的DIF 偵測方法。其中以試題反應理論方法最具理論性優勢,但計算上也較為複雜,且 通常至少需要1,000位受測者與40題試題才能得到穩定的參數估計結果(Raju, 1990) 。相較之下,卡方檢定方法計算較簡易且限制較少。在非IRT取向的實務上, 最常使用的DIF偵測方法為Mantel-Haenszel程序(MH; Holland & Thayer, 1988; Mantel & Haenszel, 1959)。現今,MH法廣泛地應用於美國,教育測驗服務社 (Educational Testing Service,ETS)與國家教育進展評量(National Assessment of Educational Progress,NAEP)皆以其來檢測DIF試題,其優點包括:計算簡便、毋 需大樣本與具有顯著性統計考驗。然而,MH法只能偵測出單向DIF(uniform DIF), 因此Swaminathan & Rogers(1990)發展logistic regression程序,以有效地偵測出單 向DIF與交叉DIF(non-uniform DIF)。 卡方方法雖然方便應用,但試題反應理論方法(item response theory,IRT) 仍具備其獨有之優勢,如能力與試題參數不變性等優點,故此取向也應善加運用。 IRT 取 向 的 DIF 偵 測 有 兩 種 途 徑 :( 1 ) 比 較 不 同 群 體 的 試 題 特 徵 曲 線 ( item characteristic curve,ICC)間區域量數 (Rudner, Getson, & Knight, 1980); (2)比較 試題參數估計值,如Lord(1980)的卡方考驗、概似率考驗 (likelihood ratio test; Thissen, Steinberg, & Wainer, 1993)。 除了IRT取向與非IRT取向的討論外,在DIF偵測方法上還有一個值得探討的議 題—「純化」 (purification)程序。純化程序乃是將可能的DIF試題排除後,再進行 檢測,其優點在於配對總分不會受到DIF試題的污染。Navas-Ara與Gómez-Benito (2002)曾操弄試題長度、樣本數與DIF程度(DIF magnitude)等變項來檢視純化 程序的效果,結果顯示在短測驗、大樣本與重度DIF的條件下,純化程序對於DIF 偵測有正向效果。過往研究也指出當DIF程度高與DIF試題比率高時,純化程序提 升檢定力(power值)的效果較明顯(Clauser, Mazor, & Hambleton, 1993; French & Maller, 2007; Miller & Oshima,1992; Wang & Su, 2004)。  . 2  .

(11)  . 然而,當蒐集資料來進行DIF檢測時,很難避免資料不完整的情況。由於多數 統計分析方法都不是為了遺失值(missing data)而設計的,這樣的情況將使資料 分析變得困難。對於偵測DIF試題而言,遺失值會影響其偵測效果,導致型一錯誤 率變高,即型一錯誤率(type I error rate; α值)增高,或檢定力下降(Robitzsch & Rupp, 2009; Finch, 2011; 鄒彗英、江培銘, 2012)。處理遺失值時,應先瞭解資料遺失的 原因,再選擇適當的方法來處理遺失值。可惜的是,目前並沒有一個定論告訴我 們何種遺失值處理方法(treatment of missing data)是最好的、最有效的,且遺失 機制(missing data mechanism)與遺失比率(percentage of missing data)等變項也 影響著分析結果。Rubin(1976)依資料遺失的原因將遺失值分作三類:隨機遺失 (missing completely at random, MCAR)、隨機遺失(missing at random, MAR)與 非隨機遺失(missing not at random) 。Robitzsch與Rupp(2009)曾針對遺失值處理 方法、DIF偵測方法、遺失機制、遺失比率、DIF程度、試題長度、樣本數與受測 者能力分配等八個變項進行模擬研究,結果顯示遺失機制、遺失值處理方法與遺 失比率之間的交互作用對於DIF偵測效果的解釋力最高。 處理遺失值的方法有許多種,有些研究者以傳統方法與現代方法作劃分 (Peugh & Enders, 2004),有些則以基礎方法與概似方法作劃分(Little & Rubin, 2002) 。無論是何種分類方式,前者大抵是指刪除法(deletion)與單一插補法(single imputation),後者則是指概似估計法(likelihood-based approaches)與多重插補法 (multiple imputation, MI)。刪除法是最簡單的處理方式,但會顯著地降低參數估 計的精確性,且只有在MCAR下才能得到正確的分析結果(Sinharay, Stern, & Russell, 2001)。插補法方面,單一插補法的應用較簡易也較普遍,包括:零插補 法(zero imputation)、平均數插補法(mean imputation)、迴歸插補法(regression imputation)與雙向插補法(two-way imputation)等,但也只有在MCAR下能保有 參數估計的不偏性,在其他遺失機制下都會有偏誤而影響研究效度。若要適用於 其他遺失成因,最大概似法(maximum likelihood, ML)與多重插補法應是最好的 遺失值處理方法。 本研究主要欲探討不同資料遺失樣態下的DIF偵測效果,其中遺失樣態指稱的 是不同的遺失機制與不同的遺失比率。以往,已有研究者針對遺失資料、DIF偵測 方法以及其間相關的變項進行模擬研究。如Robitzsch & Rupp(2009)曾探討遺失  . 3  .

(12)  . 值處理方法、DIF偵測方法、遺失機制、遺失比率、DIF程度、試題長度、樣本數 與受測者能力分配對於DIF偵測結果的影響,然而該研究為了方便操弄多個變項, 只將遺失值與DIF試題侷限於第一題試題來討論。鄒彗英、江培銘(2012)曾針對 MCAR的情境作模擬研究,然而實務情境不盡然都符合此遺失機制,因而研究結 果的應用性有所設限。本研究針對MCAR與MAR兩種遺失機制進行探究,在MAR 的部分,除了參考Robitzsch & Rupp (2009) 針對焦點組與低能力者產生遺失資料外, 本研究也試圖針對高難度試題產生遺失資料。針對低能力者產生遺失資料的部分, 本研究考量到焦點組與低能力者兩個因素的相互干擾,因此將低能力者界定為所 有受測者中能力較低的50%。另一方面,這兩篇研究在討論DIF偵測方法時,都沒 有考量到純化程序,本研究將以此變項來探討純化過程在這類資料上的效果。. 第二節. 研究問題. 綜上所述,本研究擬探究不同資料遺失樣態下的DIF偵測效果。遺失樣態方面, 主要是針對遺失機制與遺失比率兩個變項作操弄。在DIF偵測方法上,一方面使用 非IRT取向的MH法,另一方面採用IRT取向的Lord法,以比較不同取向的DIF偵測 效果。無論是傳統取向或IRT取向的DIF偵測方法,都會進一步納入純化程序再作 比較,以探討純化程序是否有助於DIF偵測。同時,也試圖瞭解樣本數、DIF程度 與DIF試題比率等變項與純化效果的關係。本研究具體的目的分述如下: (1) 探討遺失樣態(遺失機制、遺失比率)對DIF偵測效果的影響 (2) 探討有無使用單一插補法對不同遺失樣態下DIF偵測效果的影響 (3) 探討DIF偵測方法(是否為IRT取向、有無加入純化程序)對不同遺失樣態 下之DIF偵測效果的影響. 第三節. 名詞釋義. 遺失機制(missing mechanism) 最早由Rubin於1976年提出,他將完整資料(complete data) 劃分為觀察資料 (observed data)與遺失資料 (missing data)兩個部分,並針對遺失值與自變項、 依變項之間的關係,區分出三種遺失成因。這三種遺失機制分別是:完全隨機遺 失(missing completely at random, MCAR)、隨機遺失(missing at random, MAR).  . 4  .

(13)  . 與非完全隨機遺失(missing not at random, MNAR)。本研究針對MCAR與MAR進 行模擬研究,MAR是實務上通常會面臨的遺失情境,而MCAR只是它的特例。 差異試題功能(differential item functioning,簡稱DIF) DIF是指兩組能力或表現相當的群體,在試題表現上卻呈現顯著差異(Dorans & Holland, 1993)。同一母群中,因為樣本來自不同文化、語言或社經背景的次群 體,與不適切的試題內容或形式,而使相同能力者對同一試題的答對機率有差異。 DIF 的影響可以是一致性的 ,即單向DIF(uniform DIF) ,此表示能力值與群體之 間沒有交互作用存在,該試題對於焦點組的影響是單向性的。DIF 的影響也可能 是不一致的,即交叉DIF(non-uniform),此表示能力值與群體之間有交互作用存 在,該試題對於焦點組的影響會隨著能力值不同而改變其方向性。本研究的模擬 資料將只針對 uniform DIF 作討論。 DIF純化程序(purification) DIF純化程序是先進行初步的DIF偵測,然後剔除偵測為有DIF的試題,再重新 偵測。因為將確定沒有DIF的試題保留並進行配對,所以配對總分便不會受到汙染, 故命名為「純化」。若DIF試題比率較高時,原始總分將無法正確地反映受測者的 能力值,而純化程序的優點便是排除DIF試題對於配對總分的汙染。本研究分別以 MH法與Lord法進行DIF偵測,也會分別比較兩種偵測方法有無加入純化程序的差 異。 單一插補(single imputation) 本研究是利用R統計軟體內的MICE(multiple imputation by chained equations)套件 來進行單一插補,MICE可以用來進行多重插補,其過程是自一個併有隨機變異的 適切模式來插補遺失值,並重複多次插補動作以產生數個插補資料集(imputated data set)。程序上,MICE會先分析遺失資料的形態,並依據遺失形態產生多個插 補資料集,然而,本研究則只採用其中一組插補資料作為單一插補的結果,再對 此資料進行DIF分析。.  . 5  .

(14)  . 第二章. 文獻探討. 本研究欲探討不同的資料遺失樣態對於 DIF 偵測效果的影響。本章分作四個 節次,第一節為資料的遺失樣態,將針對遺失機制與遺失比率兩個操弄變項作討 論;第二節為遺失值的處理方法,將介紹並比較單一插補法與多重插補法;第三 節包含兩個小節,先介紹與討論影響 DIF 偵測效果的因素,再針對不同取向的 DIF 偵測方法進行文獻回顧;第四節則總結性討論遺失樣態、DIF 偵測方法與 DIF 偵 測效果的關係。. 第一節. 資料的遺失樣態. 測驗實務中,時常會面臨資料遺失的處境。這些遺失可能是人為的或非人為 的,文獻中常以無意的遺失資料(unintended missing data)與有意的遺失資料 (intended missing data)來討論。以無意的遺失資料為主軸的文章中,多數將遺失 歷程假設為偶然並忽略之。其中一些文章會以多變項常態來考量資料遺失的過程, 其假設每個資料點都有相同的遺失機率(Afifi & Elashoff, 1966; Hartley & Hocking, 1971) ,所以視為可忽略的。另一些文章則以變異數分析來處理,其假設依變項所 遺失的資料點跟可觀察值無關(Hartley, 1956; Rubin, 1972) ,並且也無關於遺失變 項本身。有意的遺失資料則是指遺失值的成因是明確的,像是預先計劃的多變項 實驗設計或是自一個有限的分配隨機取樣。 此外,許多研究者將遺失值分類為: (1)完全隨機遺失(missing completely at random, MCAR);(2)隨機遺失(missing at random, MAR);與(3)非隨機遺失 (missing not at random, MNAR)三種遺失機制類型(Little & Rubin, 2002; Schafer & Graham, 2002),正好能與先前提及的遺失有意與否相呼應。為了方便接下來的 討論,接下來將以𝑌!"# 來表示完整的資料,以𝑌!"# 與𝑌!"# 表示其所包含的觀察資料 與遺失資料。此外,𝐌為遺失矩陣,矩陣內的指標可顯示遺失資料的分配情形,𝑃 𝑀 則表示該遺失形態的分配情形。 MCAR 指稱的遺失型態乃是既獨立於其他的測量變項,也獨立於那些未觀察 到並具有遺失值的變項。MCAR 便如同是無意的遺失,因其假設所有資料點都有 相同的遺失可能性,且遺失的資料跟自變項或依變項都沒有關係。以下列公式來.  . 6  .

(15)  . 具體化 MCAR 的遺失分配: 𝑃 𝐌 𝑌!"# = 𝑃 𝐌 𝑌!"# , 𝑌!"# =  𝑃 𝐌. (2.1). 若遺失機制為 MAR 時,其遺失型態僅取決於觀察變項,但未受到遺失資料的 影響。這表示經調整觀察共變項後,它的遺失歷程也可視作是 MCAR 的。MAR 也被稱作可忽略的遺失 (ignorable missing) ,因為若是以概似估計法進行推論程序, 其遺失資料的概似值是可以被忽略的。MAR 的公式為:                                                                            𝑃 𝐌 𝑌!"# = 𝑃 𝐌 𝑌!"# , 𝑌!"# =  𝑃 𝐌 𝑌!"#. (2.2). 相較於 MCAR 與 MNAR 此二遺失機制,MAR 的界定是比較模糊與曖昧的。 以往的模擬研究中,Robitzsch 與 Rupp(2009)曾將此遺失機制以兩種形式呈現, 一種是只針對焦點組作答反應隨機抽取遺失值,另一種則是針對焦點組中作答表 現較差者的作答反應隨機抽取遺失值。從另一個角度來說,MCAR 可以看作是 MAR 中的特例,它隨機抽取遺失值的母群為所有的作答反應。相對照於前文介紹 過的有意與無意的遺失,MAR 則應歸屬於有意的遺失,因其遺失值是自一個有限 的分配隨機抽取而來。 最後,MNAR 的遺失型態無法單就觀察變項來解釋,因其遺失取決於那些未 被觀察到的資料而定,即遺失資料本身。因此,MNAR 也被稱作是不可忽略的遺 失(nonignorable missing),針對此種遺失機制,研究者必須建立模式來消除推論 偏誤。其公式如下: 𝑃 𝐌 𝑌!"# = 𝑃 𝐌 𝑌!"# , 𝑌!"# ≠ 𝑃 𝐌 𝑌!"#. (2.3). 遺失機制方面,以往的研究通常會操弄為MCAR、MAR 1、MAR 2與MNAR 等數種模擬情境(Robitzsch & Rupp, 2009; Finch, 2011) 。MCAR是針對所有作答反 應隨機抽取遺失值;Robitzsch & Rupp(2009)的兩種MAR分別是針對焦點組與焦 點組內作答表現較差者的作答反應隨機抽取遺失值,而Finch(2011)則是針對焦 點組與作答表現較差者的作答反應隨機抽取遺失值;MNAR則是僅針對答錯的作 答反應隨機抽取遺失值。首先,本研究擬針對MCAR與MAR兩種遺失機制進行探 討,故不將MNAR納入研究設計中。其次,由於MAR較能反映測驗實務中可見的 遺失型態,因此本研究將此遺失機制更細微地延展成三種遺失情境: (1) MAR I:針對焦點組作答反應隨機抽取遺失值。.  . 7  .

(16)  . (2) MAR II:相較於以作答反應較差者為母群來產生遺失值,本研究欲探討的 目標為低能力者的遺失型態。由於受測者的能力較低,而傾向於無法作答, 故將此群體設定為遺失母群。且為了避免焦點組與低能力者兩個群體的混 淆與干擾,因此將此情境設定為針對低能力者的作答反應隨機抽取遺失 值。 (3) MAR III:相較於能力高低,試題難易對於作答反應的遺失也有其影響與關 聯性。當試題難度較高時,受測者會因為無法回答或跳答(skip)而產生遺 失值,故將高難度試題設定為遺失母群。因此本研究嘗試針對高難度試題 的作答反應隨機抽取遺失值。綜合上述闡釋,本研究將操弄四種遺失機制, 分別為:MCAR、MAR I、MAR II與MAR III。 除了針對不同遺失機制下的資料分配形態作討論外,遺失機制與遺失比率之 間的交互作用也是一個值得探討的議題。根據Robitzsch與Rupp(2009)的研究結 果,其針對遺失機制、遺失比率與遺失值處理方式三個變項作三因子變異數分析, 顯示遺失機制對於DIF偵測的偏誤量有最大的解釋力,它的主要效果佔偏誤變異 40%的解釋量。此外,遺失機制與遺失比率的交互作用佔12%,相較於遺失機制與 遺失值處理方法的交互作用佔7%,以及遺失比率與處理方法的交互作用佔5%,可 顯示遺失機制與遺失比率在DIF偵測效果上扮演重要的角色。. 第二節. 遺失值的處理方法. 有些研究者以傳統方法與現代方法來劃分遺失值的處理方法 (Peugh & Enders, 2004) ,有些則以基礎方法與概似方法作劃分(Little & Rubin, 2002) 。無論 是何種分類方式,前者大抵是指刪除法(deletion)與各種單一插補法(single imputation),後者則是指概似估計法(likelihood-based approaches)與多重插補法 (multiple imputation, MI)。 當資料有遺失值,最簡單的處理方式就是整筆刪除(listwise deletion),無論 一個變項或多個變項中有遺失值,此法都會將該樣本完全地刪除。下圖2-2-1是配 合本研究情境來具體化整筆刪除的歷程,以黑點表示遺失值,當受測者於任何試 題的作答反應有遺失值,便刪除該受測者所有的作答反應。顯然,刪除法會使得 資料量驟減,而統計分析的power值也會受到嚴重影響。Sinharay, Stern, & Russell.  . 8  .

(17)  . (2001)也指出只有在遺失機制為MCAR時,此法才能得到不偏的參數估計值。. 圖2-2-1. 刪除法的處理歷程. 零插補法(zero imputation)是單一插補法中最簡單的,當資料點有遺失值時, 便以0值來取代。圖2-2-2中,線段的左端點為有遺失值的資料點,表示受測者的某 些作答反應有遺失,任何遺失值都插補成0值。然而,當一位受測者於某試題沒有 反應時,0值未必就是該受測者應得的分數。零插補的好處是仍保有多數的資料點, 然而此法背後並無統計模型,因此不被研究者視作一個真正的插補法。. 圖2-2-2. 零插補法的處理歷程. 然而,這些傳統方法並未能確實反映遺失資料,也因此開始有使用概似估計 方法與多重插補法來處理遺失值的趨勢。概似估計方法實為IRT取向的DIF偵測方 法之一,由於本研究已擬定以Lord的𝜒 ! 考驗方法來偵測DIF試題,便省略概似估計 法的討論。Rubin(1987, 1996)曾指出多重插補法是現今處理遺失值最好的方法 之一,故本研究僅以多重插補法作為遺失值的處理方法。.  . 9  .

(18)  . 多重插補的想法最早是由Rubin(1977)提出,此法是利用兩個以上的數值來 取代遺失值,並假定這些插補值足以反映遺失資料原本的機率分配。十年後,Rubin 在其專書中闡明此概念: (1) 使用一個併有隨機變異的適切模式來插補遺失值。 (2) 重複此插補動作M次(通常是三到五次),以產生M個補完資料集。 (3) 對各個資料集使用標準流程來進行分析。 (4) 將M個參數估計值取平均數,以產生單一的點估計值。 (5) 可藉由不同方法來計算插補值的標準誤。 下圖2-2-3是修改自Rubin(2009),其呈現遺失資料點與插補值的關係,並配 合本研究情境加以修改,以便於具象化將多重插補的歷程。圖的左半部為既有的 資料,線段的左端點為有遺失值的資料點,右端則指向經多重插補而產生的插補 值列向量。每一個遺失的資料點會對應到一個插補列向量,該向量表示M次的插補 動作,而本研究將其設定為五次。. 圖2-2-3. 多重插補法的處理歷程. 相較於單一插補法,多重插補法有三個非常重要的優勢。首先,由於插補程 序企圖透過隨機抽取的方式來反映該資料的分配情形,因而多重插補可以增加參 數估計的效能。其次,多重插補是在一個假設的遺失值模型下重複隨機抽取插補 值,再將各組補完資料集加以整合,我們因此可以更容易得到有效的推論。最後  . 10  .

(19)  . 一點,由於所有的插補值是自多個模型重複隨機抽取而來,並重複使用完整資料 的統計方法,因而可以對不同遺失值模型的推論敏感性作研究(Rubin, 2009) 。顯 然,多重插補法在理論架構上便比單一插補法來得強韌。況且,若我們直觀地看 待此二方法,其實也不難推斷多重插補法在參數估計與結果推論上有較好的效 能。 此外,Allison(2000)也曾指出多重插補法有數個可取的特點:第一,於插 補歷程引入適當的隨機誤差,使其有可能得到近乎無偏誤的參數估計值,這是一 般的插補法未能達到的。第二,重複插補得以對標準誤有良好的估計,相對地, 單一插補時並不允許引入多餘的誤差,因此估計的效能有限。第三,任何資料類 型與分析方法都可以使用多重插補,且不需要專門的軟體。這裡的優點顯示,儘 管多重插補法較單一插補法豐富但不是複雜,且仍維持使用的便易性,這對於研 究人員或分析資料者都是非常重要的事情。 現今已有不少統計軟體包含多重插補的功能,像是AMOS、SAS等,因此各種 統計分析在面臨遺失值時能更有效地處理。以NORM(Schafer, 1999)與MICE(van Buuren & Oudshoorn, 1999)為例,前者是使用多變項常態分配作為資料的分配假 設,後者則沒有一個既定的分配假設。MICE的多重插補歷程中,在透過回歸模式 來插補遺失值之前,會先自回歸參數的後驗分配取樣以決定其分配假設。換句話 說,MICE乃是依據現有資料的分配情形,選定其分配假設再進行多重插補的程序, 因此更為彈性且應用性更廣泛。本研究是使用MICE來進行資料插補,且產生五組 插補資料集,但僅取第一次的插補資料來進行DIF分析,所以實際上仍屬於單一插 補的範疇。. 第三節. DIF 試題與偵測方法. 本節將分兩個部分討論。第一小節將針對各個變項對於 DIF 偵測效果的影響 作討論,包括樣本數、DIF 試題比率與 DIF 程度等。第二小節則針對 DIF 偵測方 法進行討論,包括非 IRT 取向與 IRT 取向的差異,以及純化程序的效用。 一. 影響 DIF 偵測效果的因素 對於 DIF 的偵測效果,一般常討論的影響因素有樣本數、DIF 試題比率與 DIF 程度等變項。樣本數包含兩個層面,一個是總樣本數大小,另一個則是兩組的樣  . 11  .

(20)  . 本數比例相同與否。多數結果顯示隨著樣本數增多,DIF 偵測的 power 值也會隨之 增高(Finch & French, 2007; Rogers & Swaminathan, 1993) 。相對地,α 值也會有膨 脹的現象,亦即 DIF 試題的型一錯誤率將增高(Rogers & Swaminathan, 1993; Roussos & Stout, 1996) 。另一方面,Finch 與 French(2007)曾操弄不等樣本(unequal sample size)的情境,例如焦點組人數都為 250 人,但參照組人數分別 250 人與 500 人,試圖以 power 值較低的條件來檢視樣本數的影響,結果顯示總樣本數還是與 power 值最密切相關的變項。 以往的研究顯示,當 DIF 試題比率較高時,α 值會變得難以掌控,也就是無 DIF 試題的型一錯誤率會變高(Finch & French, 2007; Shih & Wang, 2009) 。此外, 先前的研究也顯示 DIF 程度對於 DIF 偵測效果的影響,當 DIF 程度的增加,正確 判斷為有 DIF 的比率也會增高(Rogers & Swaminathan, 1993; Robitzsch & Rupp, 2009)。 二. DIF 偵測方法 本節將先針對傳統 DIF 偵測方法與 IRT 取向的 DIF 偵測方法以文獻回顧的方 式呈現,再將討論著重於加入純化程序對於 DIF 偵測效果的影響性。 (一) 非 IRT 取向的 DIF 偵測方法 Mantel-Haenszel 法(MH; Holland & Thayer, 1988; Mantel & Haenszel, 1959)是 常被用來偵測 DIF 試題的方法,其同時也是美國教育測驗服務社(ETS)所使用的 DIF 偵測方法。MH 法是以測驗總分作為參照組與對照組的配對變項,所有的配對 分數可以分作 k 個總分,各個分數層都可以得到一個 2×2 的列聯表,故此法是一 種列聯表(contingency tables)式分析方法。下表 2-3-1 中的𝐴! 與𝐵! 分別代表參照 組在總分為 k 時的答對與答錯人數,𝐶! 與𝐷! 則代表焦點組在總分為 k 時的答對與 答錯人數,m1k 與 m0k 表示總分為 k 的受測者在該題的答對與答錯人數,𝑛!" 與𝑛!" 表 示總分為 k 的參照組與焦點組人數,而𝑇! 則表示總分為 k 的受測者總人數。 表 2-3-1 總分為 k 之 2×2 列聯表 試題分數 1 0 𝐴! 𝐵! 参照組 𝐶! 𝐷! 焦點組 𝑚!! 𝑚!! 全體  . 總分 𝑛!" 𝑛!" 𝑇! 12  .

(21)  . MH 法所要考驗的假設為:在此 k 個分數層下,參照組與焦點組的共同勝算比 (common odds ratio)是否為 1?以𝛼!" 來表示此參數,其估計值的計算公式如下: 𝛼!" =. ! !! !! /!!. (2.4). ! !! !! /!!. 𝛼!" 的範圍從 0 到無限大,當其值為 1 時表示兩組受測者在該試題的表現上沒有 ! 差異。若上溯至 Mantel 與 Haenszel(1959)最初始提出的卡方統計數𝜒!" ,其便. 是用來考驗𝛼!" 等於 1 的虛無假設,公式如下: ! 𝜒!" =. 公式中的𝐸(𝐴! ) =. !!" !!! !!. ! !! !. ,而𝑉𝑎𝑟 𝐴! =. !. (!! ) !!.! !. ! !"#(!! ). (2.5). !!" !!" !!! !!! !!! !! !!. ! 。𝜒!" 是自由度為 1 的卡方分. 配,拒絕虛無假設則表示該試題呈現 DIF。其中的0.5是列聯校正值(contingency correction) ,調整後的卡方值會更接近連續分配值,本研究以 MH 法進行 DIF 分析 時都有進行校正。此外,為了實際應用的便利性,Holland 與 Thayer(1988)將𝛼!" 取 自然對數,轉化為另一種形式的 DIF 量數,即 MH D-DIF,公式如下: MH D-DIF = −2.35 𝑙𝑛( 𝛼!" ). (2.6). 經轉換後的 MH D-DIF 量數,其中的 D 是指難度參數(Delta),因為是依據 ETS 的難度量尺來解釋兩組的難度差異。其值若為負值,表示該試題對參照組有利; 其值若為正值,則該試題對焦點組有利。由於顯著性考驗容易受到樣本數多寡的 影響,當樣本數夠大時,些微的差異也可能達到顯著。為解除此困境,ETS 同時 考量顯著性考驗的結果與 MH D-DIF 值,而發展出 DIF 程度的分類系統。當該試 題的 MH D-DIF 值在統計上未顯著異於 0 或 MH D-DIF 的絕對值小於 1 時,顯示 為輕微 DIF,歸為 A 類試題;若該試題的 MH D-DIF 值在統計上顯著大於 1 且 MH D-DIF 的絕對值大於 1.5 時,顯示為重度 DIF,歸為 C 類試題;其餘則是中度 DIF 的試題,並歸為 B 類。 MH 法的優點包括:計算簡便、毋需大樣本與具有顯著性統計考驗,此法現今 廣泛地應用於美國的教育測驗機構。然而,MH 法只能偵測出單向 DIF(uniform DIF) ,因此 Swaminathan & Rogers(1990)發展 logistic regression 程序,以有效地 偵測出單向 DIF 與交叉 DIF(non-uniform DIF)。另一方面,MH 法以測驗總分作 為 DIF 偵測的基礎,就有 DIF 的試題而言,其測驗總分並無法確實反映受測者的 真實能力,也就是該測驗總是受到汙染的(contaminated) 。此時,加入純化程序就  . 13  .

(22)  . 顯得格外重要,下文中也將針對純化程序進行探討。 (二) IRT 取向的 DIF 偵測方法 IRT 取向的 DIF 偵測方法,主要分作兩種途徑:一種是以參照組與焦點組的 試題特徵曲線(item characteristic curve,ICC),來比較兩條 ICC 曲線之間的面積 大小,面積愈大表示 DIF 的情形愈嚴重;另一種是比較兩組的試題參數估計值。 ICC 曲線是來自於試題參數值,故此二種偵測 DIF 的方式實是相同的道理。 Lord(1980)提出一𝜒 ! 值來偵測 DIF 試題,其藉由考驗參照組與焦點組的試 題參數是否有差異來判斷該試題是否為 DIF 試題。應用 Lord 法來進行 DIF 偵測, 包含數個步驟:首先,利用 IRT 相關的電腦軟體,如 ConQuest、BILOG 等,分別 對兩組的作答反應資料作校準(calibration) ,以估計出兩組的試題參數值。此外, 兩組的試題參數必須得置放於同一個量尺上,否則無法進行比較。因而需透過一 些連結策略(linking strategy) ,將兩組的試題參數估計值轉換成同一量尺,再進行 DIF 檢定。Lord 法的虛無假設為: 𝐻! :  𝑏! = 𝑏!. (2.7). Lord 法的𝜒 ! 值如下: 𝜒 ! = (𝑏!"## )′. !!. (𝑏!"## ). (2.8). 公式中的𝑏!"## = 𝑏! − 𝑏!  ,而 Σ 是代表試題參數估計值差異的變異數—共變數矩 陣。此𝜒 ! 的自由度為 p,這裡的 p 值是依照有多少個估計參數而定,若為單參數 IRT 模式,便是自由度為 1 的卡方分配。若得到的𝜒 ! 值達到顯著水準,即拒絕虛無假 設,表示該試題呈現 DIF。在單參數 IRT 模式下,Lord 法的𝜒 ! 值公式可化約為: 𝜒! =. (!! !!! )! ! !!! !!!. (2.9). 公式中的𝑆!! 與𝑆!! 分別是𝑏! 與𝑏! 的變異數估計值。 Lord 法是屬於顯著性統計考驗的程序,其結果只顯示兩組受測者的試題反應 函數在統計上是否達到顯著差異,但無法指出其間的大小為何。相對而言,ICC 間區域量數可以反映差異的大小,卻無法考驗兩組間的 ICC 面積是否異於 0,所 以各有優劣勢。 (三) 純化程序.  . 14  .

(23)  . DIF 偵測方法會面臨到的限制是,如果用來作為配對變項者已受到 DIF 試題 的汙染,就會使偵測結果較不精確。無論是對於 IRT 取向的 Lord 法或非 IRT 取向 的 MH 法都有影響,因為 Lord 法需要依據兩組的作答反應資料來估計參數估計值, 而 MH 法更是直接以測驗總分作為配對變項,受影響的程度更大。Lord(1980) 便曾建議在進行 DIF 分析的過程中,使用純化程序來排除 DIF 試題對於配對變項 的汙染。 Fidalgo、Mellenbergh 與 Muñiz(2000)曾針對 MH 法將純化程序操弄為三種 類型,分別為單階段的(single-stage)、二階段(two-stage)與迭代的(iterative) 的 DIF 偵測歷程。單階段的 DIF 偵測即為無純化程序,二階段的 DIF 偵測也同樣 是 Holland 與 Thayer(1988)所提出,其步驟包括: (1)使用測驗總分將兩組配對, 並利用公式偵測 DIF 試題;(2)將已發現的 DIF 試題排除,僅使用其餘的試題總 分再次進行 DIF 偵測。但檢測到先前判斷為有 DIF 的試題時,必須將該試題的總 分納入,再配對並進行 DIF 偵測。 已有一些 DIF 相關研究是以迭代程序來進行純化,有一部分是基於列聯表分 析(Fidalgo、Mellenbergh & Muñiz, 2000;Van der Flier, Mellenbergh, Adèr & Wijn, 1984)或 MH 法的二階段 DIF 偵測,另一部分則是使用 IRT 模式(Candell & Drasgow, 1988;Lord, 1980) 。無論是 IRT 取向或非 IRT 取向,迭代程序都能得到較佳的 DIF 偵測效果,即較高的 power 值與較低的 α 值(Fidalgo、Mellenbergh & Muñiz, 2000; Candell & Drasgow, 1988) 。本研究的純化程序乃是進行 10 次的迭代,或者當試題 被重複偵測為 DIF 試題便停止。. 第四節. 遺失樣態、DIF 偵測方法與 DIF 偵測效果的關係. 綜合回顧以上各個變項與議題後,本研究擬探討不同資料遺失樣態下的DIF偵 測效果。Robitzsch與Rupp(2009)曾探討遺失值對於DIF偵測效果的影響,其操弄 遺失值處理方法、DIF偵測方法、遺失機制、遺失比率、DIF程度、試題長度、樣 本數與受測者能力分配等八個變項,結果顯示遺失機制、遺失值處理方法與遺失 比率之間的交互作用對於DIF偵測效果的解釋力最高。 據此,本研究將遺失樣態設為操弄變項的主軸,其包含遺失機制與遺失比率 兩個部分。遺失機制包含四種操弄,分別是對所有作答反應隨機抽取遺失值的.  . 15  .

(24)  . MCAR;針對焦點組作答反應隨機抽取遺失值的MAR I;針對低能力者作答反應隨 機抽取遺失值的MAR II;以及針對高難度試題作答反應隨機抽取遺失值的MAR III。 本研究預期在MCAR與MAR兩類遺失機制下,DIF偵測效果會有所差異。各個MAR 遺失情境的DIF偵測效果為本研究重點,因為這類的遺失情境較符合測驗實務所面 臨的情況。遺失比率包含無遺失、10%遺失與30%遺失三種操弄,隨著遺失比率增 高,DIF偵測結果必然更不穩定與精確性降低。此外,遺失機制與遺失比率之間有 無交互作用,也是本研究欲探討的重點之一。 除此之外,遺失值的處理方式也關係到DIF偵測的結果。遺失值是測驗實務中 難以避免的處境,故遺失情境的處理方式便更為重要。一般常見的處理方式為刪 除法、零插補法與各種類型的單一插補方法,然而這些傳統方法並未能確實地反 映遺失資料的本質,Rubin(1987, 1996)曾指出多重插補法是現今處理遺失值最 好的方法之一,也因此開始有使用概似估計方法與多重插補法來處理遺失值的趨 勢。本研究是以MICE軟體來產生五組插補資料集,但僅針對第一次的插補資料進 行DIF分析,所以仍只是在探究單一插補前後對於DIF偵測效果的影響。 再者,進行DIF試題偵測時,有數個變項扮演著重要的角色。首先,DIF偵測 方法可以分作IRT取向與非IRT取向。Potenza與Dorans(1995)以兩個向度來形成 DIF偵測方法的分類架構,其中一個向度為配對變項的類型,另一個向度是取決於 試題分數與配對變項之間的函數關係。本研究以Lord法來代表IRT取向的DIF偵測 方法,它是屬於潛在變項且有特定函數關係(parametric)的方法,主要在檢定參 照組與焦點組的試題參數是否有差異,亦即檢定兩組受測者的試題反應函數(item response function, IRF)的差異性。非IRT取向方面,本研究是以MH法作為代表, 它是屬於觀察分數且無特定函數關係(nonparametric)的DIF偵測方法,與Lord法 之間正好相對應。此外,尚無其他研究在同樣的遺失樣態下以此二方法探究DIF偵 測效果。 此外,純化程序也是一個關鍵的變項。Navas-Ara與Gómez-Benito(2002)曾 探討測驗長度、樣本數與DIF程度等變項與純化程序的關係,其結果顯示在短測驗、 大樣本與重度DIF的條件下,純化程序對於DIF偵測有正向效果。先前的研究也顯 示當DIF程度高與DIF試題比率高時,純化程序提升檢定力(power值)的效果較明 顯 ( French & Maller, 2007; Clauser, Mazor, & Hambleton, 1993; Miller &  . 16  .

(25)  . Oshima,1992)。因此本研究也考量樣本數、DIF試題比率與DIF程度等變項,以另 一個層次探討加入純化程序對DIF偵測效果的影響。 本研究擬探究不同資料遺失樣態下的DIF偵測效果。遺失樣態方面,操弄的變 項為遺失機制與遺失比率,前者包含MCAR與三種MAR類型,後者則是無遺失、 10%遺失與30%遺失三種比率。此外,也會探討經單一插補法處理遺失值後,能否 改善DIF偵測的結果。DIF偵測方法的部分,一方面使用非IRT取向的MH法,另一 方面採用IRT取向的Lord法,且都會進而比較有無加入純化程序的差異,以探討純 化程序對於DIF偵測效果的影響。同時,也試圖瞭解樣本數、DIF程度與DIF試題比 率等變項與純化效果的關係。 依據以上文獻探討的結果,本研究擬定的研究問題如下: (1) 不同的遺失樣態(遺失機制、遺失比率)是否會影響DIF偵測效果? (2) 有無使用單一插補法是否會影響不同遺失樣態下之DIF偵測效果? (3) DIF偵測方法(是否為IRT取向、有無加入純化程序)是否會影響不同遺失 樣態下之DIF偵測效果?.  . 17  .

(26)  . 第三章. 研究方法. 本研究旨在探討不同的遺失樣態下,遺失資料處理方式與DIF偵測方法對於 DIF偵測效果的影響。其中,遺失樣態分別以遺失機制與遺失比率作為操弄變項。 本研究僅以單一插補法來處理遺失值,比較有無進行資料插補的差異。而偵測DIF 試題的方法,則分為IRT與非IRT法、有無純化程序來討論。. 第一節. 研究架構. 一. 固定的變項 本研究係以模擬研究的方式來進行,固定的變項包括測驗長度、試題參數、 試題難度與 DIF 形態。所有的模擬資料皆是以統計軟體 R 來產生,在試題的設定 方面,是以 Rasch 模式產生 40 題難度參數在-2 到 2 之間的試題。而在 DIF 型態方 面,本研究只探討單向 DIF(uniform DIF) 的情況,即 DIF 試題都是較不利於焦 點組。 二. 操弄的變項 操弄的變項則包括樣本數、遺失機制、遺失比率、遺失值處理方式、DIF 試 題比率、DIF 程度與 DIF 偵測方法: 1.. 樣本數:小樣本時,設定焦點組與參照組各有 500 位受測者;大樣本時,則 設定兩組各有 1,000 位受測者,能力值都是自標準常態分配 N(0,1)隨機抽取。. 2.. 遺失機制:包含以所有資料點為遺失母群的完全隨機遺失(missing completely at random, MCAR),與三種分別針對焦點組、低能力受測者與高難度試題的 隨機遺失(missing at random, MAR)。其中,MCAR 是針對所有的作答反應 隨機抽取遺失值;MAR I 是針對焦點組作答反應隨機抽取遺失值;MAR II 是 針對能力較低者的作答反應隨機抽取遺失值;而 MAR III 是針對難度較高試 題的作答反應隨機抽取遺失值。. 3.. 遺失比率:操弄為無遺失、10%的遺失與 30%的遺失三種,以呈現遺失值多 寡對於 DIF 偵測效果的影響性。在 MCAR 中,是以所有作答反應作為遺失母 群,但在 MAR I、MAR II 與 MAR III 中,分別只針對焦點組、低能力者、與 高難度試題隨機抽取遺失值。.  . 18  .

(27)  . 4.. 遺失值處理方式:有無使用單一插補法。. 5.. DIF 試題比率:包括 0%、10%與 20%,以呈現 DIF 試題數對於 DIF 偵測效果 的影響性。. 6.. DIF 程度:分作無 DIF、中度 DIF 與重度 DIF,有 DIF 的試題是將焦點組的試 題難度參數分別調高 0.5 或 0.8 來表示。. 7.. DIF 偵測方法:採用 MH 法與 Lord 法來偵測 DIF 試題,並比較有無純化程序 的差異。故共有四種分析方法,分別為 MH 法、有純化程序的 MH 法(以下 簡稱 MH-P 法)、Lord 法與有純化程序的 Lord 法(以下簡稱 Lord-P 法)。 將各個操弄變項整理於下表 3-1-1: 表3-1-1 模擬資料之操弄分配表 遺失機制 遺失比率 單一插補. 樣本數 参照組 500 1,000. 焦點組 500 MCAR 1,000 MAR I MAR II MAR III. 0 10% 30%. 無 有. DIF DIF 題數 程度 0 4 8. 0 0.5 0.8. DIF 偵測 方法 MH 法 MH-P 法 Lord 法 Lord-P 法. 三. 依變項: 依變項的指標有二,一是正確偵測率(power 值),即正確判斷 DIF 試題為有 DIF 的比率;二是型一錯誤率(type I error rate; α 值),即誤判無 DIF 試題為有 DIF 的比率。由於各個情境的總題數為 40 題,假如設定第 8 題、第 29 題、第 30 題與第 33 題等四題為 DIF 試題,而經 DIF 分析卻偵測出第 3 題、第 8 題、第 10 題、第 30 題與第 33 題有 DIF。以此情境為例,power 值是將正確判斷的題數(第 8 題、第 30 題與第 33 題)除以 DIF 試題數,即3 4 = 0.75,便是正確偵測率。而 (!!!). α 值是將誤判為有 DIF 的題數(第 3 題與第 10 題)除以無 DIF 試題數,即(!"!!) = 0.06, 此為型一錯誤率。 為了探討與解答第一章所提出的五個研究問題,本研究設計 90 個模擬情境, 其中包括 10 個基準情境(無遺失資料) ,與 80 個有遺失資料的情境。表 3-1-2 內 的基礎情境以 B 作為標示,依不同情境再配上數字,如:B01 情境。而 MCAR 是.  . 19  .

(28)  . 以 0 作為標示;MAR I 是以 1 作為標示;MAR II 是以 2 作為標示;MAR III 是以 3 作為標示。依不同遺失機制區分出 0N、1N、2N 與 3N 等情境,N 值在 01 到 20 之間,表示 20 種不同的操弄變項組合。基準情境中沒有遺失值,有助於先單就 DIF 的介入來檢視模擬資料,再與各個遺失情境相比較。 表 3-1-2 本研究變項之操弄表 基準情境 樣本數(各組) DIF 試題比率 B 01 500:500 0% B 02 500:500 10% B 03 500:500 10% B 04 500:500 20% B 05 500:500 20% B 06 1,000:1,000 0% B 07 1,000:1,000 10% B 08 1,000:1,000 10% B 09 1,000:1,000 20% B 10 1,000:1,000 20% MCAR 樣本數(各組) DIF 試題比率 0 01 500:500 0% 0 02 500:500 0% 0 03 500:500 10% 0 04 500:500 10% 0 05 500:500 10% 0 06 500:500 10% 0 07 500:500 20% 0 08 500:500 20% 0 09 500:500 20% 0 10 500:500 20% 0 11 1,000:1,000 0% 0 12 1,000:1,000 0% 0 13 1,000:1,000 10% 0 14 1,000:1,000 10% 0 15 1,000:1,000 10% 0 16 1,000:1,000 10% 0 17 1,000:1,000 20% 0 18 1,000:1,000 20% 0 19 1,000:1,000 20% 0 20 1,000:1,000 20% MAR I 樣本數(各組) DIF 試題比率.  . 20  . DIF 程度 0 0.5 0.8 0.5 0.8 0 0.5 0.8 0.5 0.8 DIF 程度 0 0 0.5 0.5 0.8 0.8 0.5 0.5 0.8 0.8 0 0 0.5 0.5 0.8 0.8 0.5 0.5 0.8 0.8 DIF 程度. 遺失比率 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 遺失比率 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 遺失比率.

(29)  . 1 01 1 02 1 03 1 04 1 05 1 06 1 07 1 08 1 09 1 10 1 11 1 12 1 13 1 14 1 15 1 16 1 17 1 18 1 19 1 20 MAR II 2 01 2 02 2 03 2 04 2 05 2 06 2 07 2 08 2 09 2 10 2 11 2 12 2 13 2 14 2 15 2 16 2 17 2 18 2 19 2 20 MAR III.  . 500:500 500:500 500:500 500:500 500:500 500:500 500:500 500:500 500:500 500:500 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 樣本數(各組) 500:500 500:500 500:500 500:500 500:500 500:500 500:500 500:500 500:500 500:500 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 樣本數(各組). 0% 0% 10% 10% 10% 10% 20% 20% 20% 20% 0% 0% 10% 10% 10% 10% 20% 20% 20% 20% DIF 試題比率 0% 0% 10% 10% 10% 10% 20% 20% 20% 20% 0% 0% 10% 10% 10% 10% 20% 20% 20% 20% DIF 試題比率. 21  . 0 0 0.5 0.5 0.8 0.8 0.5 0.5 0.8 0.8 0 0 0.5 0.5 0.8 0.8 0.5 0.5 0.8 0.8 DIF 程度 0 0 0.5 0.5 0.8 0.8 0.5 0.5 0.8 0.8 0 0 0.5 0.5 0.8 0.8 0.5 0.5 0.8 0.8 DIF 程度. 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 遺失比率 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 遺失比率.

(30)  . 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3. 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20. 500:500 500:500 500:500 500:500 500:500 500:500 500:500 500:500 500:500 500:500 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000 1,000:1,000. 0% 0% 10% 10% 10% 10% 20% 20% 20% 20% 0% 0% 10% 10% 10% 10% 20% 20% 20% 20%. 第二節. 0 0 0.5 0.5 0.8 0.8 0.5 0.5 0.8 0.8 0 0 0.5 0.5 0.8 0.8 0.5 0.5 0.8 0.8. 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30% 10% 30%. 研究程序. 本研究係以模擬資料來進行分析,整體而言,本研究架構如下圖3-1-1所示。 各項程序詳細說明如下: 一. 產生參照組作答反應資料 本研究是使用統計軟體 R 來產生資料。首先,產生 40 個單參數試題,並假 設難度參數介於-2 到 2 之間,各題的難度值是均等分配(uniform distribution) 。40 題的難度值是由小至大依序地排列,亦即由易至難地排序。試題難度於各個情境 之間,都是固定不變的。 根據樣本數的設定,自 N(0,1) 常態分配隨機抽取 500 或 1,000 個數值,作為 參照組的能力值。本研究將各個模擬情境設定為 50 次的複製(replications) ,無論 樣本數是大或小,都是重複抽取出 50 組的能力值,並以此建構重複抽樣的模擬資 料。接著,將難度值與能力值代入 Rasch 模式,並計算出參照組的答對機率值。 再將求得的答對機率與自 U(0,1) 均等分配隨機抽取的機率值比對,若答對機率大 於隨機值則視為答對,反之則答錯,據此產生參照組的原始作答反應。.  . 22  .

(31)  . 圖 3-1-1 模擬研究架構圖 二. 產生焦點組作答反應資料 若是沒有 DIF 試題的情境(如:002 情境),便依循参照組的步驟產生焦點組 的作答反應。但若是有 DIF 試題的情境(如:003),必須依照預設的 DIF 試題比 率與 DIF 程度來調整難度參數值。設定 DIF 試題時須考量到兩個操弄變項,即 DIF 題數為 4 題或 8 題,並視 DIF 程度為中度或重度而將難度值增加 0.5 或 0.8。無論 DIF 試題比率是 10%或 20%,DIF 試題都是自 40 題隨機抽取而來,且在各個情境 下是一致的。DIF 試題比率為 10%時,DIF 試題為第 8 題、第 29 題、第 30 題與第 33 題;DIF 試題比率為 20%時,DIF 試題為第 5 題、第 9 題、第 16 題、第 18 題、 第 29 題、第 35 題、第 37 題與第 39 題。最後,將變動後的難度值與能力值代入.  . 23  .

(32)  . Rasch 模式,以求得出焦點組的答對機率值。再將答對機率與自均等分配 U(0,1) 隨機抽取的機率值比對,若答對機率大於隨機值則視為答對,反之則答錯,據此 產生焦點組的原始作答反應。 三. 進行遺失資料程序 依照不同的遺失機制而有不同的步驟,以下將分別說明。MCAR 的遺失資料, 是先合併參照組與焦點組的作答反應,自所有的作答反應隨機抽取 10%或 30%的 遺失值。MAR I 的遺失資料,則是僅針對焦點組的作答反應隨機抽取遺失值,產 生遺失值後再跟參照組的作答反應合併。MAR II 的遺失資料,則是分別將二組中 能力值較低者(PR<50)的作答反應隨機抽取遺失值,產生遺失值後再統合成整體 的作答反應。MAR III 的遺失資料,是將參照組與焦點組的作答反應合併後,針 對難度較高試題(PR>50)的作答反應隨機抽取遺失值,產生遺失值後在跟難度較 低地作答反應合併。 本研究隨機抽取遺失值的方式,在各個遺失機制下是一致的,只是針對不同 母群抽取的差別。如 MCAR 是針對焦點組與参照組的所有作答反應隨機抽取遺失 值;MAR I 是針對焦點組的作答反應隨機抽取遺失值;MAR II 是針對能力值低於 50%的作答反應隨機抽取遺失值;MAR III 則是針對難度值高於 50%的作答反應隨 機抽取遺失值。需要注意的是,MCAR 的母群數量不同於其他三種 MAR 情境, 無論是針對焦點組、低能力者或高難度試題的 MAR,它們的母群都是 MAR 的一 半而已。 以二組人數各為 500 人,且遺失比率為 10%的 MCAR 情境為例,以下對於隨 機抽取遺失值的步驟進行說明。此時,遺失值的母群為 40,000 個資料點(1,000 位 受測者與 40 題) 。先自 1 到 40,000 這四萬個數值間以抽樣不放回(sampling without replacement)的方式隨機抽取 4,000 個數值,並將它們除以 1,000,取其商數與餘 數。假若隨機抽取到 1,987 這個數值,可得到商數為 1、餘數為 987,其中的商數 加 1 決定題號、餘數加 1 決定受測者,而該遺失值便是第 988 位受測者於第 2 題 的作答反應。在其他的遺失情境下,儘管因遺失母群與遺失比率不同而有所差異, 但原則上是相同的。這些隨機抽取出的遺失資料點,將以「NA」(not available) 來取代原有的作答反應結果。.  . 24  .

(33)  . 四. 進行單一插補 本研究採用 R 統計軟體內的 MICE(multiple imputation by chained equations) 來進行插補,此插補方法並沒有一個既定的分配假設。MICE 會先檢視整體資料以 確定其資料分配情形,再決定適當的分配假設來進行多重插補。每個遺失資料點 會對應到一個插補值的列向量,該向量為 M 次插補的結果,本研究是產生五次的 插補資料集(如圖 2-2-3 所示),但僅針對第一組插補資料進行後續的 DIF 分析, 故實際上仍是以單一插補法來處理遺失值。 五. 進行 DIF 分析 本研究採用 R 的 difR 套件(Magis, Be ́land, Tuerlinckx, & De Boeck, 2010)來 進行 DIF 分析,並選擇 difMH 與 difLord 兩種函數進行資料分析。各組遺失資料都 使用 MH 法與 Lord 法進行 DIF 偵測,其中又包括有加入無純化程序的 MH-P 法與 Lord-P 法,每個情境都可以得到四個 power 值與 α 值,以表示四種方法的正確偵 測率與型一錯誤率。根據 Clauser 與 Mazor(1998)的定義,difR 的純化程序一開 始會以測驗總分作為配對變項,然後將判斷為有 DIF 的試題剔除,重新計算分數, 此分數便作為第二次 MH 分析的配對變項,並再次檢核所有試題。本研究設定純 化程序將進行 10 次的迭代,或者當試題被重複偵測為 DIF 試題時便停止。. 第三節. 資料分析. 根據研究目的與研究問題,本研究以模擬研究的方式來探討與解答。本節將 依序說明研究問題,與該問題情境的分析方法。 一. 不同的遺失樣態(遺失機制、遺失比率)是否會影響DIF偵測效果? 運用MH法與Lord法進行DIF分析,在控制其他變項的情況下,比較遺失機制 (MCAR、MAR I、MAR II或MAR III )與遺失比率(無遺失、10%遺失或30%遺 失)對於DIF偵測結果(power值與α值)的影響。並針對遺失機制與遺失比率兩個 變項,使用二因子變異數分析探討其對於DIF偵測結果的影響性。 二. 有無使用單一插補法是否會影響DIF偵測效果? 運用MH法與Lord法進行DIF分析,在控制其他變項的情況下,比較有無使用 單一插補對於DIF偵測結果(power值與α值)的影響。並針對遺失機制、遺失比率 與有無插補等變項,使用三因子變異數分析探討其對於DIF偵測結果的影響性。.  . 25  .

(34)  . 三. DIF偵測方法(是否為IRT取向、有無加入純化程序)是否會影響DIF偵 測效果? 運用MH法、MH-P法、Lord法與Lord-P法進行DIF分析,在控制其他變項的情 況下,比較DIF偵測方法(是否為IRT取向、有無加入純化程序)對於DIF偵測結果 (power值與α值)的影響。並針對遺失機制、遺失比率、有無插補與有無純化程 序等變項,使用四因子變異數分析探討其對於DIF偵測結果的影響性。.  . 26  .

(35)  . 第四章. 研究結果與討論. 本章旨在呈現模擬研究的結果,並進行綜合討論。全章共分為三個節次,依 序回應本研究所欲探討的三個研究問題。. 第一節. 遺失樣態對於 DIF 偵測效果的影響. 本節的遺失樣態是包含遺失機制與遺失比率兩個變項,以回應本研究的第一 個研究問題:「不同的遺失樣態(遺失機制、遺失比率)是否會影響 DIF 偵測效 果?」 。本節將針對遺失樣態來呈現研究結果,並討論之。其中,遺失機制包括完 全隨機遺失(MCAR)與三種類型的隨機遺失(MAR) 。以下分別介紹各個遺失機 制的定義:MCAR 是自所有的作答反應隨機抽取遺失值;MAR I 是針對焦點組作 答反應隨機抽取遺失值;MAR II 是針對低能力者(PR<50)作答反應隨機抽取遺 失值;MAR III 則是針對高難度試題(PR>50 )作答反應隨機抽取遺失值。此外, 遺失比率分為無遺失、10%遺失與 30%遺失三種。以下將依 α 值與 power 值分別 呈現各組情境的 DIF 偵測結果,並在第三小節以二因子變異數分析來呈現遺失機 制與遺失比率兩個變項對於 DIF 偵測結果的解釋力。 一. α 值 (一) 各組人數為 500 人 表 4-1-1 顯示各組人數為 500 人時,於不同遺失樣態下,以 MH 法與 Lord 法 偵測 DIF 試題的 α 值。首先,從無遺失情境可發現,隨著 DIF 試題比率增高且 DIF 程度增強,α 值也有漸增。 在 MAR I 的情境下,若使用 MH 法來偵測 DIF 試題,α 值會變得異常高。隨 著 DIF 試題比率增加與 DIF 程度增強,α 值會持續升高。此外,當遺失比率增加 到 30%時,其 α 值甚至會高達 1。MAR I 是隨機抽取焦點組的作答反應來產生遺 失情境,加上 MH 法是以測驗總分作為配對變項,若遺失比率為 10%時,相較於 參照組,焦點組便只有 90%的試題可以來計算能力,因此是在不同題數基準下進 行能力配對。相對地,Lord 法具有能力估計的不變性,即使總作答題數變少,仍 可進行正確的能力估計,故維持可接受的偵測效果。 若觀察其他的遺失情境,可以發現 α 值會隨著 DIF 試題比率與 DIF 程度而增  . 27  .

(36)  . 高,特別是以 Lord 法進行 DIF 偵測時,無 DIF 試題被誤判得更為明顯。但在無遺 失情境時卻是相反,MH 法將無 DIF 試題誤判為 DIF 試題的情形比 Lord 法來得嚴 重。有幾種可能性:一是 DIF 偵測方法與遺失機制之間有交互作用存在;二是 Lord 法需要較多的樣本數,才能有穩定的 DIF 偵測結果,因此在無遺失資料時,其資 料量較多,Lord 法的 DIF 偵測效果較佳;三是 MH 法較易受到遺失比率的影響, 亦即對於樣本數的多寡較敏感。以上推測還有待進一步以變異數分析來探究與驗 證。 除了 MAR I 的誤判情形較為獨特外,其餘的 MCAR、MAR II 與 MAR III 等 遺失機制,三者的 α 值沒有太大差異。結果顯示,以所有作答反應、低能力者或 高難度試題作為遺失母群,對於 α 值的影響並不明顯。 表 4-1-1. 不同遺失樣態下,各組人數為 500 人的 α 值 MCAR MAR I MAR II 無 10% 30% 10% 30% 10% 30% 遺 遺失 遺失 遺失 遺失 遺失 遺失 失 MH 0.05 0.02 0.01 0.83 1.00 0.03 0.02 無 DIF Lord 0.03 0.03 0.03 0.03 0.03 0.03 0.04 10%DIF MH 0.06 0.03 0.01 0.86 1.00 0.05 0.02 強度 0.5 Lord 0.05 0.05 0.05 0.04 0.05 0.05 0.04 10%DIF MH 0.07 0.03 0.00 0.87 1.00 0.05 0.02 強度 0.8 Lord 0.06 0.06 0.06 0.06 0.06 0.07 0.06 20%DIF MH 0.08 0.04 0.00 0.89 1.00 0.05 0.02 強度 0.5 Lord 0.07 0.06 0.06 0.07 0.07 0.08 0.07 20%DIF MH 0.14 0.07 0.01 0.93 1.00 0.09 0.03 強度 0.8 Lord 0.13 0.13 0.11 0.14 0.12 0.13 0.12 註:表中粗體數值代表 α 值大於 0.05. MAR III 10% 30% 遺失 遺失 0.03 0.03 0.05 0.04 0.05 0.06 0.05 0.07 0.09 0.13. 0.04 0.03 0.04 0.04 0.04 0.06 0.05 0.07 0.09 0.13. (二) 各組人數為 1,000 人 表 4-1-2 顯示各組人數為 1,000 人時,於不同遺失樣態下,以 MH 法與 Lord 法偵測 DIF 試題的 α 值。首先,在無遺失情境下,可發現 α 值會隨著樣本數而增 加,這個趨勢符合以往的研究結果。另一方面,隨著 DIF 試題比率增加、DIF 程 度增強,α 值也會增長。 在 MAR I 的情境下,若使用 MH 法來偵測 DIF 試題,仍然會導致 α 值異常地 高,而且此誤判情形比 500 人時更為嚴重。因為樣本數增加,相同的遺失比率下, 針對焦點組作答反應隨機抽取的遺失值卻會增多。因此,其與參照組之間的題數.  . 28  .

(37)  . 基準差異更大,能力的配對與計算都更不準確,型一錯誤率也變得更高。各個條 件下的 α 值都趨近於 1,表示幾乎所有的試題都被判斷為有 DIF 的試題。 除了 MAR I 之外,隨著樣本數增加,在其他三種遺失機制中都能觀察到 MH 法在偵測 DIF 試題時,較易受到遺失比率的影響,當資料遺失比率較高時,α 值會 較低。樣本數升高後,此差異便開始反映出來。 無論各組的樣本數為 500 人或 1,000 人,當 DIF 試題增多時,α 值都會跟著增 加。這顯示 DIF 試題本身對於 DIF 偵測效果有負向影響,這是因為當一份測驗中 有 DIF 試題存在,其測驗分數便會受到汙染,進而使得能力估計的準確度降低, 並且影響 DIF 的偵測效果。隨著 DIF 試題比率增高,此汙染會更嚴重。這時候純 化程序便有其重要性,本章第三節將會針對此議題進一步討論。 表 4-1-2. 不同遺失樣態下,各組人數為 1,000 人的 α 值 MCAR MAR I MAR II 無 10% 30% 10% 30% 10% 30% 遺 遺失 遺失 遺失 遺失 遺失 遺失 失 MH 0.08 0.02 0.01 0.96 1.00 0.04 0.02 無 DIF Lord 0.08 0.04 0.05 0.04 0.04 0.04 0.04 10%DIF MH 0.08 0.02 0.01 0.96 1.00 0.06 0.03 強度 0.5 Lord 0.06 0.05 0.06 0.06 0.06 0.06 0.06 10%DIF MH 0.11 0.03 0.00 0.97 1.00 0.07 0.03 強度 0.8 Lord 0.09 0.09 0.08 0.09 0.08 0.10 0.08 20%DIF MH 0.14 0.04 0.01 0.98 1.00 0.09 0.03 強度 0.5 Lord 0.12 0.11 0.10 0.11 0.10 0.12 0.10 20%DIF MH 0.28 0.10 0.03 0.99 1.00 0.15 0.05 強度 0.8 Lord 0.27 0.24 0.21 0.26 0.22 0.25 0.24 註:表中粗體數值代表 α 值大於 0.05. MAR III 10% 30% 遺失 遺失 0.05 0.04 0.05 0.06 0.09 0.09 0.13 0.12 0.23 0.25. 0.03 0.03 0.05 0.06 0.06 0.09 0.08 0.11 0.14 0.23. 二. Power 值 (一) 各組人數為 500 人 表 4-1-3 顯示各組人數為 500 人時,於不同遺失樣態下,以 MH 法與 Lord 法 偵測 DIF 試題的正確偵測率。在各個遺失情境下,power 值都會隨著 DIF 程度而 增高。當 DIF 試題數較少時,測驗總分受到的汙染較小,此外,相較於高 DIF 試 題數,其正確偵測出所有 DIF 試題的可能性較高,故 power 值會較高。將兩個 DIF 偵測方法相比較,可以發現 Lord 法的表現較好且較穩定。 MAR I 遺失情境下,使用 MH 法來偵測 DIF 試題,且遺失比率為 10%時,power.  . 29  .

參考文獻

相關文件

The purpose of this thesis is to investigate the geometric design of curvic couplings and their formate grinding wheel selection, and discuss the geometric

Methodologies used in this study comprise two parts, the first part is questionnaires, which investigate customers’ assessment of the quality and satisfaction of service

Therefore, the purpose of this study is to investigate the hospitality students’ entrepreneurial intentions based on theory of planned behavior and also determine the moderating

The purpose of this study is to investigate the researcher’s 19 years learning process and understanding of martial arts as a form of Serious Leisure and then to

The purpose of this study is to use schematic video and animation to help students with LD solve real-life mathematical word problems.. The single-subject

The purpose of this paper is to use data mining method in semiconductor production to explore the relation of engineering data and wafer accept test.. In this paper, we use two

The purpose of this study was to investigate the current situation of multicultural literacy and intercultural sensitivity of junior high school teachers in Taichung

The main purpose of this study is to explore the work enthusiasm of the Primary School Teachers, the attitude of the enthusiasm and the effect of the enthusiasm.. In this