• 沒有找到結果。

不同 DIF 偵測方法之檢定結果

第四章 結果與討論

第六節 不同 DIF 偵測方法之檢定結果

本節主要就本研究中運用的三種DIF偵測軟體程式:SIBTEST、SPSS及 EZDIF,以及五種DIF偵測方法的呈現結果:Crossing SIBTEST 、SPSS MH、

EZDIF MH 、EZDIF ETS、 EZDIF LR,來探討不同檢定方法的結果異同之處。

DIF偵測結果中完全沒有出現DIF情形的試題數與嚴重DIF(本研究中前三種 方法皆偵測出DIF的試題)試題數加總除以總題數,為三種軟體程式的DIF偵測一 致性,將區域DIF及配組後性別DIF偵測一致性之結果分別列於表4-26及表4-27。

由表4-26及表4-27可看出不同DIF偵測軟體程式之結果一致性大約都在七成以 上,其中性別DIF偵測的一致性大致上高於區域DIF偵測的一致性。

表4-26 三種軟體程式偵測區域DIF之一致性

嚴重 DIF 試題數 無 DIF 試題數 一致性試題數 一致性百分比

95(一) 1 39 40 68.97

95(二) 0 47 47 81.03

96(一) 2 47 49 84.48

96(二) 1 46 47 81.03

97(一) 3 43 46 79.31

97(二) 0 41 41 70.69

總和 7 263 270 77.59

註:一致性百分比係指「(嚴重 DIF 試題數+皆無 DIF 試題數)÷ 58 題×100%」。

表4-27 三種軟體程式偵測配組後性別DIF之一致性

嚴重 DIF 試題數 無 DIF 試題數 一致性試題數 一致性百分比

95(一) 10 35 45 77.59

95(二) 18 31 49 84.48

96(一) 10 35 45 77.59

96(二) 20 32 52 89.66

97(一) 7 38 45 77.59

97(二) 13 39 52 89.66

總和 78 210 288 82.76

註:一致性百分比係指「(嚴重DIF試題數+皆無DIF試題數)÷ 58題×100%」。 將五種方法分別偵測出區域DIF試題的總數各自除以總題數(348題),將結 果列於表4-28,由表4-28中可發現區域DIF偵測中,以Crossing SIBTEST偵測出的 DIF試題比率最低,EZDIF ETS偵測出的DIF試題比率最高。

表4-28 五種方法偵測出區域DIF試題之分布比例 區域DIF Crossing

SIBTEST

SPSS MH

EZDIF MH

EZDIF ETS

EZDIF LR

95(一) 2 7 8 13 12

95(二) 1 4 4 5 6

96(一) 4 4 7 11 4

96(二) 1 3 3 8 6

97(一) 7 6 7 8 6

97(二) 3 3 5 16 8

題數 18 27 34 61 42

百分比 5.17 7.76 9.77 17.53 12.07

將五種方法分別偵測出配組後性別DIF題目的總數各自除以總題數(348 題),將結果列於表4-29,可看出以EZDIF ETS偵測出的DIF題目比率最低,而MH 法(SPSS MH及EZDIF MH)偵測出的DIF題目比率最高,由於統計性考驗結果 對於樣本人數相當敏感(男女人數皆在2,500人左右,屬於大樣本),盧雪梅(2000)

曾於研究中發現,如果只依據統計性考驗結果,MH法檢定出浮濫DIF的機率頗 高,因此實務工作者在判斷DIF試題時,應避免只依據統計性考驗結果,也應兼 顧到DIF幅度的大小。性別DIF偵測中,EZDIF ETS分類結果出現B類及C類DIF的 次數比其他方法還要少很多,根據盧雪梅(2000)的模擬研究結果,即使在焦點 組和參照組能力差距達一個標準差時,ETS嚴重度分類結果在大多數情況下,皆 能有效控制第一類型錯誤率;而余民寧與謝進昌(2006)的研究中也指出,ETS 分類系統較不受樣本因素影響,可得到客觀和可信的DIF指標。因此如要快速且 準確的偵測出uniform DIF,可以採用MH法檢定並搭配ETS分類系統找出B及C類 DIF試題。

表4-29 五種方法偵測出配組後性別DIF試題之分布比例 Crossing

SIBTEST

SPSS MH

EZDIF MH

EZDIF ETS

EZDIF LR

95(一) 10 19 18 4 7

95(二) 18 23 24 6 6

96(一) 10 18 17 4 8

96(二) 22 22 22 4 8

97(一) 8 13 14 4 7

97(二) 13 17 16 3 4

題數 81 112 111 25 40

百分比 23.28 32.18 31.90 7.18 11.49

將該方法偵測出之嚴重DIF題數(或出現次數)除以該方法偵測出的所有DIF 試題總數(或出現總數)即為偵測DIF試題的吻合度,將區域DIF及配組後性別 DIF偵測結果之吻合度分別列於表4-30及表4-31。表4-30中可看出區域DIF的偵測 吻合度以Crossing SIBTEST最高,EZDIF LR最低,Roussos & Stout(1996)研究 發現SIBTEST採用小樣本(250人)就能獲得適當結果,相較之下,於性別DIF偵

表4-31中可看出性別DIF的偵測吻合度以EZDIF ETS最高,EZDIF LR最低。

另外,也可以發現DIF偵測中,EZDIF MH及SPSS MH試題數較多且較一致,因 為運算法都是MH法的關係,但檢定結果仍會有些許不同,是由於運算分析過程 中分數分群設定不同的緣故,EZDIF MH在本研究中是以5分為分數組距且經過兩 階段淨化過程;而SPSS MH是以每1分為分數組距,且未經過兩階段淨化過程。

表 4-31 五種方法偵測配組後性別 DIF 吻合度

以 Crossing SIBTEST 較高,表示 Crossing SIBTEST 的DIF偵測較為有效,加上 Crossing SIBTEST 除了檢定 uniform DIF 外,還可檢定 non-uniform DIF ,也符 合 Cheng(2005)的研究結果中「SIBTEST具有最佳效率」的結論。而ETS分類 系統所挑出的性別DIF試題,吻合度雖然為100%,但因為只有出現25題,跟本研 究中共有78題嚴重性別DIF試題比較起來,題數仍有些差距,因此如果要全面精 確且完整檢定出所有類型的DIF試題,不能只單靠某一種方法,而要利用多種DIF 檢定方法取其交集,以確保檢定結果的準確性。在本研究中,EZDIF LR似乎無法 準確的偵測出DIF試題,所偵測出的DIF試題結果常跟其他方法不同,可能是運算

法的根據不同,在第二章文獻探討中提及LR法在三參數模式下且群體有不同能力 時,對於DIF試題的偵測表現較差,可能原因為LR法不容許猜題(Finch & French, 2007),而國中基測自然科試題皆為選擇題,本來就具有猜測性存在,可能因此 降低了LR法對DIF試題的偵測吻合度,因非本研究主要研究內容,可留待有興趣 者加以研究或使用模擬分析。

表4-32表示五種DIF偵測方法於區域DIF中單獨出現DIF的情形,可看出EZDIF ETS及EZDIF LR單獨出現的次數較多,尤其是EZDIF ETS中有12題並無顯著性差 異(亦即p-value>.05),但被歸類為B類DIF的試題,且幾乎都在涉及東區的小樣 本中出現,而SPSS MH沒有試題單獨出現的情形。在偵測區域DIF時,EZDIF ETS 分類出現了39題(共45次)未與其他DIF偵測方法結果相吻合的B類DIF試題(詳如 附錄二),也因此影響EZDIF ETS的區域DIF偵測吻合度(僅4.92%)。細看其涉 及的區域,除了96-2-54為北中和97-2-5為北南外,其餘皆與東區有關。在余民寧、

謝進昌(2006)也曾於研究中發現到「無DIF 試題(統計上未達顯著)而被歸類為 B 類以上水準」的情形,而此結果和盧雪梅(2000)研究結果一致,在樣本人數多 時,真正無DIF試題而被歸類為B或C類的比率較少,不過是否因小樣本人數較少 而影響EZDIF ETS分類系統的DIF偵測結果,因非本研究主題方向,可留待作為 未來的探討與研究。

表4-32 五種DIF偵測方法於區域DIF中單獨出現DIF情形之試題

Crossing SIBTEST

SPSS MH

EZDIF

MH EZDIF ETS EZDIF LR

95

(一) 無 無 8

6(中東),10,18,25,28 31,48

4,8,10,14,22 33,39,45,52

95

(二) 無 無 無

17,21,38,47(南東),53

5,37,52

96

(一) 無 無 30

1,7,8(中東),10,24

7,12,16

96

(二) 無 無 無

11,15(南東),28,35(北東),45 47,52,54(北中)

2,4,43

97

(一) 44,57 無 無

3(中東),16,24,37

5,7,8,52

97

(二) 18,27 無 51

5(北南),17(南東),20,22,27

31,35(北東),40,46(南東),51(南東)

6,18,25,34

數 4題 0題 3題 39題 12題 26題 註:框線□表示p>.05無顯著性差異,但被歸類為ETS中B類之DIF試題。

EZDIF ETS表格中的DIF試題於分類系統中皆為B類程度之DIF試題。

表4-33表示五種DIF偵測方法於配組後性別DIF偵測結果中單獨出現DIF的情 形,可看出EZDIF LR單獨出現的次數最多,而EZDIF ETS沒有題目單獨出現DIF 的情形,可證明ETS的分類系統較嚴謹,不會受樣本大的因素而影響結果。

表4-33 五種DIF偵測方法於配組後性別DIF中單獨出現DIF情形 Crossing

SIBTEST

SPSS MH

EZDIF MH

EZDIF ETS

EZDIF LR

95 (一)

無 11 無 無 15、24、48、50

95 (二)

無 無 39 無 2、19、35

96 (一)

無 47 無 無 1、4、5、38、39

96 (二)

無 無 無 無 2、54

97 (一)

53 無 8 無 21、28、39、47、49

97 (二)

無 42 無 無 18、24

題數 1題 3題 2題 0題 21題

將配組前和配組後所有出現性別DIF的試題列出,並將兩種皆有性別DIF情形 的試題總數除以任一種有出現性別DIF情形的試題總數為配組前後的性別DIF試 題一致性,將結果整理列於表4-34。由表中可看出一致性幾乎都在70%以上,其 中以97年第二次的一致性最低,95年第二次的一致性最高。整體看來,配組後的 性別DIF試題比配組前的性別DIF試題少,因此有無配組還是會影響DIF偵測結 果,也顯示如果沒依照分數(能力)配組容易發生impact現象,而導致DIF偵測效 果有偏差。

表4-34 配組前後所有性別DIF試題結果之ㄧ致性

配組

前後 DIF試題 一致性

百分比

1,2,6,10,11,12,13,14,15,16,19,23,24,28,29,30,37,41,44,48,50,53, 54,56,57

95 (ㄧ)

1,2,6,10,11,12,13,14,15,16,19,23,24,29,30,37,41,44,48,50,53,56,57

92.00

2,3,9,10,14,15,16,19,20,21,22,26,29,30,32,33,34,35,39,40,43,45, 49,52,54,55,57

96.30

(26/27)

1,3,4,5,6,8,12,13,14,15,16,21,23,25,27,28,31,39,41,42,45,46,47, 53,54,58

96 (ㄧ)

1,4,5,6,8,13,21,23,25,27,28,31,32,38,39,41,42,45,46,47,53,54,58

75.00

(21/28)

2,10,11,12,13,17,20,23,27,28,29,31,32,33,35,36,41,42,43,44,47, 48,50,51,53,54,55,58

96 (二)

2,10,11,12,13,17,20,23,27,28,29,31,32,33,35,36,41,43,44,47,50, 51,53,54,55,58

92.86

(26/28)

4,5,7,8,9,13,15,16,21,22,24,28,30,31,34,37,39,43,44,49,53,54

97

(ㄧ)

4,5,8,9,13,15,21,22,24,28,30,31,34,37,39,43,47,49,53,54

82.61

(19/23)

10,11,14,15,18,20,22,23,24,27,28,33,36,38,39,40,50,51,52,53,55

97

(二)

10,11,14,15,18,20,22,23,24,27,33,38,39,42,46,51,52,53,55

73.91

(17/23)

註:一致性為「兩種皆有性別DIF情形的試題總數÷任一種有出現性別DIF情形的 試題總數×100%」。

將配組前後嚴重性別DIF試題列出比較,並將兩種皆有嚴重性別DIF情形的試 題總數除以任一種有出現嚴重性別DIF情形的試題總數為配組前後嚴重性別DIF 題目一致性,將結果整理列於表4-35。由表中可看出一致性都在60%以上,其中 以97年第二次的一致性最高,95年第一次的一致性最低。Roussos & Stout(1996)

曾指出在參照組和焦點組能力分配不相等下,進行DIF偵測容易增加第一類型錯 誤率,尤其是在兩群體能力平均值相差一個標準差以上時最為嚴重。而國中基測 自然科分數男女間的平均數與標準差的差距跟區域間相比已經算小了,然而配組 前後的DIF偵測還是顯示出有不太一致的結果,更何況是其他因素的DIF偵測,

如:文化、種族、城鄉、社經地位、職業、身心特質…等,牽涉的大多是多數族 群與少數族群間的差異,也因此可知在偵測DIF前,不可忽視配組的重要性,因 為如果沒依照分數(能力)配組容易發生impact現象,而導致DIF偵測結果有錯誤。

表4-35 配組前後嚴重性別DIF試題結果之ㄧ致性 配組

前後 DIF試題 一致性

百分比

1,2,10,12,13,14,19,23,30,37,41,53,56

95

(ㄧ)

2,12,19,23,30,37,41,44,53,56

64.29

(9/14)

9,10,14,20,21,22,26,29,32,34,43,45,49,52,55,57

95

(二)

3,9,10,14,15,20,21,22,32,33,34,40,43,45,49,52,55,57

70.00

(14/20)

13,21,23,25,27,28,31,41,42,45,53

96

(ㄧ)

21,23,25,27,28,31,41,42,45,53

90.91

(10/11)

10,12,13,17,23,27,28,29,31,32,33,35,36,41,43,44,47,58

96

(二)

10,12,13,17,23,27,28,29,31,33,35,36,41,43,44,47,50,51,53,58

80.95

(17/21)

9,13,15,24,31,34

97

(ㄧ)

9,13,15,22,24,31,34

85.71

(6/7)

10,11,14,15,20,22,27,38,39,51,52,53,55

97

(二)

10,11,14,15,20,22,27,38,39,51,52,53,55

100

(13/13)

註:一致性為「兩種皆有嚴重性別DIF情形的試題總數÷任一種有出現嚴重性別DIF 情形的試題總數×100%」。

Crossing SIBTEST與LR法皆可偵測出 non-uniform DIF 試題,但LR法呈現結 果與其他方法有較多不一致的現象,因此以Crossing SIBTEST偵測出的DIF試題為 主,挑出MH法皆未偵測出的試題(區域DIF試題有95-2-21、97-1-44、97-1-57、

97-2-18、97-2-27共五題;性別配組DIF試題有96-2-11、96-2-55、97-1-53共三題), 繪製出兩組考生於該試題答對人數累積百分比曲線圖,以了解該試題是否為 non-uniform DIF 試題。為有利進行 non-uniform DIF 與 uniform DIF 的分辨與 比較,以下另外列出十題具有不同DIF偵測結果的試題答對人數累積百分比曲線 圖以供參考。

圖4-1為北區及南區考生於區域DIF試題97-1-28答對人數累積百分比曲線 圖,此題在本研究中列為嚴重度中等的區域DIF試題,圖中可看出此題為uniform DIF試題,南區考生答對率幾乎都高於北區,但差異程度不大。

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 5 10 15 20 25 30 35 40 45 50 55

北區 南區

圖 4-1 試題 97-1-28 答對人數累積百分比曲線圖

圖4-2為北區及中區考生於區域DIF試題96-2-58答對人數累積百分比曲線 圖,此題在本研究中列為嚴重度較高的區域DIF試題,圖中可看出此題為uniform

圖4-2為北區及中區考生於區域DIF試題96-2-58答對人數累積百分比曲線 圖,此題在本研究中列為嚴重度較高的區域DIF試題,圖中可看出此題為uniform