第四章 研究結果與討論
第二節 性別差異試題功能之分析結果
由 SPSS、Crossing SIBTEST、EZDIF 三種統計軟體挑出之性別 DIF 試題及 其 P 值整理如下列四個表格。
表 4-9 Crossing SIBTEST 挑出之性別 DIF 試題及其 P 值
表 4-10 EZDIF-MH 法挑出之性別 DIF 試題及其 P 值
表 4-11 EZDIF-LR 法挑出之性別 DIF 試題及其 P 值 SPSS-MH 法與 EZDIF-MH 法挑出的 DIF 試題一致性頗高,Crossing SIBTEST 挑 出之試題雖然較少,但幾乎與前兩者重疊,而 EZDIF-LR 法與其他三者之差異頗 大,後續章節僅就一些 DIF 情形較嚴重之試題做進一步探討。
表 4-12 三種統計軟體挑出之性別 DIF 試題
年 度 統計方法 偵測 DIF 試題 嚴重 DIF 試題
95(一)
SPSS-MH
Crossing SIBTEST EZDIF-MH
Crossing SIBTEST EZDIF-MH
Crossing SIBTEST EZDIF-MH
Crossing SIBTEST EZDIF-MH
Crossing SIBTEST EZDIF-MH
Crossing SIBTEST EZDIF-MH
造成 EZDIF-LR 法與其他三種統計法差異頗大之原因為:在二參模式,LR 的鑑別力不受群體能力的影響;相反的,在三參模式且群體有不同能力時,LR 較不易處理,這起因於 LR 方法不容許猜題(Finch & French,2007)。國中基測
雖非三參模式,但因題型全都是選擇題,難免會受猜測因素影響其信效度,故本 研究將 EZDIF-LR 法的偵測結果予以排除,不列入後續討論範圍。
上表 4-12 中之嚴重性別 DIF 試題為排除 LR 法的偵測結果之後,取其他三者 偵測出之共同的疑似 DIF 試題,將在第四章第四節中做進一步分析與討論;而表 中打星號(★)那七題為 ETS 分類系統中歸為 B 類之 DIF 試題,亦即本研究欲 進一步做質性分析之試題。
由表 4-12 延伸進一步分析,將 LR 法的偵測結果予以排除後,SPSS-MH 法、
SIBTEST 與 EZDIF-MH 法偵測 DIF 試題的一致性高達 84%,如下表 4-13 所示。
表 4-13 三種統計軟體偵測性別 DIF 試題之一致性
年 度 共有 DIF 試題題數
皆無 DIF 試題題數
總題數 一致性
95(一) 3 題 25 題 33 題
33
28=84.85%
95(二) 4 題 25 題 33 題
33
29=87.88%
96(一) 3 題 25 題 33 題
33
28=84.85%
96(二) 7 題 20 題 33 題
33
27=81.82%
97(一) 2 題 26 題 34 題
34
28=82.35%
97(二) 4 題 24 題 34 題
34
28=82.35%
整 體 23 題 145 題 200 題
200
168 =84%
註:一致性係指「三種統計軟體挑出之(共有 DIF 試題題數+皆無 DIF 試題題數)
÷ 總題數」。
表 4-14 三種統計軟體偵測之 DIF 題數及其與共有 DIF 試題之吻合度 年 度 SPSS-MH 吻合度 Crossing
SIBTEST 吻合度 EZDIF-MH 吻合度 95(一) 7 題 42.86% 3 題 100% 8 題 37.5%
95(二) 8 題 50% 4 題 100% 8 題 50%
96(一) 8 題 37.5% 3 題 100% 6 題 50%
96(二) 12 題 58.33% 7 題 100% 11 題 63.64%
97(一) 6 題 33.33% 3 題 66.67% 7 題 28.57%
97(二) 6 題 66.67% 5 題 80% 9 題 44.44%
整 體 47 題 48.94% 25 題 92% 49 題 46.94%
註:吻合度係指「三種統計軟體個別挑出之疑似 DIF 試題中共有 DIF 試題所佔的比率」。
對照表 4-12 與表 4-14 可看出 Crossing SIBTEST 挑出之試題雖然較少,但幾 乎與嚴重 DIF 試題重疊,偵測出與共有 DIF 試題吻合的比率高達 92%,遠高於 SPSS-MH 法與 EZDIF-MH 法,顯示 Crossing SIBTEST 為三種統計軟體中偵測 DIF 試題較為保守但也較為精準的 DIF 偵測法。建議後續 DIF 相關議題之研究者 於偵測 DIF 試題時,如果怕有遺漏宜採 MH 法可以抓出較多試題,而如有時間、
人力、經費等限制下則宜採 Crossing SIBTEST 較為省時省力;當然,若能兼採兩 者交叉驗證則會更趨嚴謹。
此外,值得一提的是,SPSS 與 EZDIF 雖然偵測之吻合度較低,但兩者同為 MH 法共同偵測出 42 題疑似 DIF 題,之間一致性高達:
54
42=77.78%,且 EZDIF 的 ETS 分類系統可協助判斷 DIF 嚴重情形,故本研究以三種統計軟體交叉驗證,
取其偵測出之共同疑似 DIF 試題中 ETS 分類屬 B、C 類者做進一步深入探究。
上述 SPSS-MH 與 EZDIF-MH 同為 MH 法,但之間的一致性並非 100%,造 成此現象之可能原因為兩者分數分群不同,SPSS 以一分為一組,而 EZDIF 以五 分為組距,且 EZDIF 有採兩階段 DIF 檢定以達到測驗淨化的效果。
接著,要延伸討論的是 Crossing SIBTEST 法單獨挑出的試題 97-1-23 與試題 97-2-8,理論上 MH 法僅能偵測出 uniform DIF 試題,而 Crossing SIBTEST 能偵 測出 non-uniform DIF 試題,因此合理推斷上述兩題應為 non-uniform DIF 試題,
但對照圖 4-1「Item 97-1-18 答對人數累積百分比曲線圖」,可發現圖 4-2 及圖 4-3 與圖 4-1 極為神似,Item 97-1-18 在本研究中 MH 法、Crossing SIBTEST、LR 法 等三種統計方法皆未偵測出 DIF 情形,因此並非性別 DIF 試題,在此僅做為對照 之用。
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 5 10 15 20 25 30 35
男生 女生
圖 4-1 Item 97-1-18 答對人數累積百分比曲線圖
圖 4-2 為不同性別考生於 Item 97-1-23 答對人數累積百分比曲線圖,此題在 本研究中僅 Crossing SIBTEST 偵測出有 DIF 情形,因此並沒有列為性別 DIF 試 題,但從圖中可看出此題似乎為 uniform DIF 試題,女生各分數考生累積答對率 幾乎都高於男生,但差異程度不大。
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 5 10 15 20 25 30 35
男生 女生
圖 4-2 Item 97-1-23 答對人數累積百分比曲線圖
圖 4-3 為不同性別考生於 Item 97-2-8 答對人數累積百分比曲線圖,此題在本 研究中僅 Crossing SIBTEST 偵測出有 DIF 情形,因此並沒有列為性別 DIF 試題,
但從圖中可看出此題似乎為 uniform DIF 試題,女生各分數考生累積答對率幾乎 都高於男生,此題差異程度比上一題 Item 97-1-23 稍大一些。
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 5 10 15 20 25 30 35
男生 女生
圖 4-3 Item 97-2-8 答對人數累積百分比曲線圖