第四章 研究結果與討論
第一節 MACS 法檢核 DIF 之型一誤差及檢核力
在文獻探討中,已探究過 MACS 法在以往 DIF 檢核研究中的表現效能,倘 若能將實驗設計擴充到不只有一道 DIF 試題,更能切合真實情境,讓實驗結果更 能類推到真實情境中。因此,本階段研究中擬探討 MACS 法檢核 DIF 之型一誤 差及檢核力。
由於以往研究中探討 MACS 法進行 DIF 檢測時,常使用等級反應模式,因 此本階段研究是利用 GRM 模式的資料來探討 MACS 法檢核 DIF 之型一誤差及檢 核力。GRM 模式適合用來分析順序變數的資料,如李克特式量表,且其為二參 數模式的延伸,亦即容許測驗中各試題的鑑別度參數有所不同,復因估計受試者 在各選項的得分機率需要兩步驟的過程,因此是一種「間接的」(indirect)IRT 模式(Embretson & Reise, 2000)。
以 Mplus 4.21(Muthén & Muthén, 2007)進行估計,估算法選擇 WLSMV 法 (weighted least squares mean and variance adjusted )。WLSMV 法是依 WLS 法 (weighted-least squares)做改進而得,因 WLS 法需大量樣本才能使估計的結果較 穩 定 , 為 了 改 善 此 現 象 , Muthén 、 du Toit 與 Spisic(1997) 提 出 新 的 估 算 法 WLSMV,對於資料違反常態分配的假設較具有強靭性,所需樣本較少,估計時 間較短,適用於類別資料分析。WLSMV 估算法在控制型一誤差方面優於 ML 估
20
算法(maximum likelihood estimation)(Beauducel & Herzberg, 2006)。
本研究使用 Mplus 中的 scaled chi-squared difference tests(DIFFTEST;
Muthén, 2007)程序做 DIF 檢核。為了解決量尺的不確定性,在參照群體第一題 的因素負荷量被限制為 1,而且參照群體的因素平均值被限制為 0,且兩群體的 誤差變異數的值都設定為 1。這裡所設定的參數限制是為了讓 SEM 中的 MACS 方法做 DIF 檢核的情境能與傳統 IRT 的情境相同。經過 DIFFTEST 統計程序,若 達到統計上.05 的顯著水準,則此題則是被判定為有 DIF 的試題。
本研究採用 Matlab 軟體進行 DIF 資料產生,操弄以下幾個獨變項:(1)受 試者的能力分配(ability difference);(2)樣本數(sample size);(3)測驗長度
(test length);(4)測驗中 DIF 試題的百分比(DIF percentage)。
依變項為平均型一誤差(Type I error),即非 DIF 題卻被檢測出 DIF 試題的 比例,以及平均檢核力(power),即 DIF 試題被正確檢測出來的比例。
第二節 MACS 法檢核 DIF 之型一誤差及檢核力之研 究設計
表 1 陳列了本研究的試題參數,這些參數是參考 Wang 和 Yeh(2003)這篇 研究中 Wisconsin Student Assessment System 四年級、八年級和十年級學生的數學 測驗試題參數。這 25 題的試題參數也被 Kim 與 Cohen(1998)所運用在檢測 DIF。
本研究引用此篇文獻中的真實參數是為了讓本研究的實驗情境更貼近真實的情 境。但由於本階段研究實驗設計的需要,僅採用其中前 20 道試題的參數,由作 者撰寫 Matlab 程式以產生模擬資料後再以 Mplus 中的 DIFFTEST 程序進行 DIF 檢核。
以下將介紹本模擬實驗所操弄的四個獨立變項,觀察這些變項對型一誤差及 檢核力的影響。而所謂型一誤差即為「DIF 檢核方法將沒有存在 DIF 現象的試題 誤判為具有 DIF 的試題」之機率,而檢核力則是「檢核方法能正確的檢測出具有
21 差異為一個標準差時仍無法良好的控制型一誤差(Wang & Su, 2004),所以在本 階段研究中操弄兩群體之能力為相等與不等兩種情形,前者代表兩群體受試者能 SEM 分析的穩定性與各種指標的適用性(Yvette &Lindsay, 1999)。為了獲得穩 定且可信的估計結果,於是在本研究中操弄人數的情形為三種:R500/F250、
R500/F500 以及 R1000/F500。
三、測驗長度
在本階段研究當中模擬之題長為 10 題及 20 題,10 題的參數取自於 Wang 和 Yeh(2003)前 10 題參數,20 題的參數取自前 20 題參數。以此代表短測驗及一
22
般長度測驗。
四、測驗中 DIF 試題的百分比
當測驗中 DIF 試題增加,IRT 模式的檢核法在參數估計上將受到影響,本研 究為了要檢示在 MACS 法是否有相類似的現象,於是本階段研究將操弄在測驗中 不同比例的 DIF 試題,分別為 0%、10%、20%以及 30%,以了解測驗中佔不同 比例的 DIF 試題對於型一誤差與檢核力有何影響。
在其他實驗設計部份,本研究模擬資料設定為 GRM 模式的資料,在預設的 DIF 試題中,每一道試題的選項存在 DIF 現象。以本研究題長 20 題為例,DIF 百分比若佔題長的 20%,即為 4 道試題存在 DIF 現象。本研究的 DIF 試題選項均 預設為非一致性 DIF,即在試題鑑別度上存有 DIF 現象。本研究預設兩群體在 DIF 試題選項的難度差異為 0.4,代表各 DIF 試題選項具有中等程度的 DIF 現象,
並且為了避免抽樣時的誤差,所有情境下的資料都將重複模擬 100 次,共計進行 模擬實驗 4800 次。
23
24
25
第四章 研究結果與討論
本研究的依變項分別是 DIF 檢測的型一誤差與統計考驗力,使用的顯著水準 是.05,表示在 100 次的重複試驗中約略有 5%被判定為 DIF 的可能性,倘若型一 誤差無法控制得當,則即使檢核力高也沒有太大的意義。本章中,將分為「MACS 法檢核 DIF 之型一誤差及檢核力」和「型一誤差及檢核力的變異數分析」兩節進 行說明。
第一節 MACS 法檢核 DIF 之型一誤差及檢核力
壹、無 DIF 情形下的型一誤差與檢核力
表 2 所陳列的是測驗不包含任何的 DIF 試題情境下之 MACS 的型一誤差,
由實驗數據可知,MACS 對於型一誤差的控制,表現不錯。當兩群體能力相等時,
不論是測驗長度或是樣本大小,型一誤差皆維持良好的控制在.05 以內。當兩群 體能力不相等時,樣本數 R500/F250 和 R1000/F500 的型一誤差有輕微的膨脹,
然而在兩群體樣本數一樣時,型一誤差控制的還不錯。
表 2 Non-DIF 狀態下的 MACS 型一誤差
Sample size Test length Impact=0 Impact=1
mean mean
R500/F250 10 .05 .09
20 .05 .08
R500/F500 10 .04 .05
20 .04 .05
R1000/F500
10 .05 .09
20 .04 .07
26
27
檢核力的部分,在題長為 10 題的情境,樣本人數越多,平均的檢核力越高。
當 DIF 含量為 10%,平均檢核力的範圍在.75 和.90 之間;當 DIF 含量為 20%,
檢核力的範圍在.62 和.86 之間;當 DIF 含量為 30%,檢核力的範圍在.60 和.81 之 間。在題長為 20 題的情境,同樣地樣本人數越多,平均的檢核力也越高。當 DIF 含量為 10%,平均檢核力的範圍在.72 和.92 之間;當 DIF 含量為 20%,檢核力的 範圍在.74 和.90 之間;當 DIF 含量為 30%,檢核力的範圍在.64 和.85 之間。
參、兩群體平均能力有差異
當兩群體平均能力差異為 1 時,MACS 檢核 DIF 的型一誤差及檢核力詳如表 4,其結果也類似MACS於兩群體平均能力相同時的型一誤差與檢核力。樣本人數越 多,平均的檢核力越高。一份測驗中的 DIF 試題含量越多時,型一誤差也越容易 膨脹。20 題的測驗較 10 題的測驗能稍為降低測驗中的 DIF 試題對測驗所造成的 負面影響,在型一誤差的控制上稍好一些。
進一步比較表 3 和表 4,可發現在兩群體平均能力有差異的情境下,型一誤 差較容易失控而且檢核力也有些許的降低。
28
29