• 沒有找到結果。

第四章 研究結果

第三節 固定樣本數下的精準度比較

一、試題難度估計情形 (一) RMSE

圖形如圖 4-16、4-17、4-18 所示。在樣本數 100、300、900 時均可發現:

1. 觀察圖 4-16、4-17、4-18 這三個圖,在 (0,0) 時,20 題的 RMSE 大於 40 題 的 RMSE,40 題的 RMSE 又大於 80 題的 RMSE,顯示兩個軟體估計試題難度

的 RMSE,皆隨試題數增加而減少;但兩個題組都有題組效果時,RMSE 隨試 題數增加而增加。由此可知無題組效果時,題數越多試題難度估計的越好,兩 個題組都有題組效果時,推測可能是題數越多,使得在估計時累積的誤差越 多,故估計精準度較不好。

2. 兩個軟體在單一題組有題組效果,試題數 20、40、80 時,RMSE 皆隨題組效 果程度增加而增加;在兩個題組同時有題組效果時,RMSE 也呈現此走勢。由 此可知題組效果會影響試題難度的估計,且題組效果越大,估計的越不精準,

與前面的結果相同。

3. 大致上,兩個軟體在 (2,2) 的 RMSE 小於在 (0,8) 的 RMSE,顯示兩個軟 體在兩個題組效果程度的差異很小,與兩個題組效果程度的差異較大時,在前 者情況估計的較好,但隨試題數增多,此情況越不明顯。由此可知,隨試題數 越多,兩個軟體在兩個題組效果程度的差異很小時,其表現的越較兩個題組效 果程度的差異較大時不穩定。推測可能是題數越多,使得在估計時累積的誤差 越多,故估計精準度較不好。

4. 比較兩個軟體的 RMSE,大致上,BILOG 的 RMSE 較 SAS 的 RMSE 略大,表 示 SAS 的穩健度略較 BILOG 好。

(二) BIAS

圖形如圖 4-19、4-20、4-21 所示。在樣本數 100、300、900 時均可發現:

1. 兩個軟體在 BIAS 的表現,在 (0,0) 的 BIAS 隨試題數增加而減小,但到了 兩個題組都有題組效果時,BIAS 隨試題數增加而增加,此與 RMSE 的結果一 致,推測可能是題數越多,使得在估計時累積的誤差越多所造成的。

2. 兩個軟體在單一題組有題組效果,試題數 20、40、80 時,BIAS 皆隨題組效果 程度增加而增加;在兩個題組同時有題組效果時,BIAS 也呈現此種走勢。表 示題組效果程度越大,兩個軟體在試題難度估計的越不精準,和許多研究相同。

3. 大致而言,20 題時 (0,8) 的 BIAS 大於 (2,2) 的 BIAS,在 40 題時 (0,8) 的 BIAS 和 (2,2) 的 BIAS 差不多,在 80 題時,(0,8) 的 BIAS 小於在 (2,2) 的 BIAS。由此可知,隨題數增多,兩個軟體在兩個題組效果程度的差異很小時,

其表現的越較兩個題組效果程度的差異較大時不穩定,與在 RMSE 的結果相 同。

4. 比較兩個軟體的 BIAS,大致上,在兩個題組同時有題組效果時,BILOG 的 BIAS 較 SAS 的 BIAS 略高,顯示有題組效果時,SAS 估計的較 BILOG 穩健。

(三) MCSE

圖形如圖 4-22、4-23、4-24 所示。在樣本數 100、300、900 時均可發現:

1. 大致上,兩個軟體在 MCSE 的表現,皆隨試題數增加而減小。由此可知試題 數越多,估計的一致性越高。

2. 兩個軟體在 MCSE 的表現,看不出隨題組效果變化的情形。表示題組效果程 度,不會影響軟體是否會一致性的高估或低估。

3. 比較兩個軟體的 MCSE,大致上,在 40、80 題時,BILOG 的 MCSE 略小於 SAS 的 MCSE,試題為 20 時,則 BILOG 的 MCSE 幾乎都大於 SAS 的 MCSE。

顯示題數少時,BILOG 估計的較無一致性,但隨著題數增多,BILOG 估計的 越有一致性。

根據以上結果,在固定樣本數下,SAS 和 BILOG 在試題難度的估計表現上,

沒有題組效果時,題數越多精準度越好,有題組效果時,題數越多估計精準度越 差;且隨題組效果增加,估計的也越不精準。兩個軟體在兩個題組效果程度的差 異很小時,與兩個題組效果程度的差異較大時,隨著題數越多,兩個軟體在後者 的精準度表現越好。比較兩個軟體的估計精準度,SAS 略較 BILOG 穩健。

二、能力值估計情形

圖形如圖 4-25、4-26、4-27 所示。在樣本數 100、300、900 時均可發現:

(一) RMSE

1. 兩個軟體在 RMSE 的表現,大致上,RMSE 隨試題數增加而減小,表示試題 數越多,兩個軟體在能力值的精準度越好。此趨勢和許多研究的結果相同,推 測是題數越多,每個受試者被測到的次數就越多,故能力值的精準度會較好。

但也有例外的狀況,在樣本數 900 (圖 4-27),(2,8) 且 40 題時,BILOG 的值 突然增大,大於 80 時的 RMSE。此例外可能是重複次數不夠或其他原因造成,

有待探討。

2. 兩個題組在單一題組有題組效果,試題數 20、40、80 時,RMSE 隨題組效果 程度增加而增加;在兩個題組同時有題組效果時,RMSE 也呈現此種趨勢。表 示題組效果程度越大,兩個軟體在能力值的估計表現越不精準。

3. 兩個軟體在試題數 20、40、80 時,在 (0,8) 的 RMSE 皆小於在 (2,2) 的 RMSE。顯示兩個軟體在兩個題組效果程度的差異很小時,其表現的越較兩個 題組效果程度的差異較大時不穩定,此結果和前述發現的結果相吻合。

4. 比較兩個軟體的 RMSE,試題數為 20 時,兩個軟體的 RMSE 差不多,但在 40、

80 題時,BILOG 的 RMSE 較 SAS 的 RMSE 略大。表示在能力值的估計上,

題數較多時,SAS 估計的較好,SAS 在題數多的情形下,表現較 BILOG 穩健。

(二) 均差

圖形如圖 4-28、4-29、4-30 所示。在樣本數 100、300、900 時均可發現:

1. 兩個軟體在均差的表現,在 100 人時 (圖 4-28),20 題和 40 題的均差幾乎相同,

是重複次數不夠,或均差的計算方式造成的,還是有其他原因,尚待進一步探 討。在 300 人 (圖 4-29)、900 人 (圖 4-29) 時,大致上可看出,均差隨試題數 增加而減少。由此大致可看出試題數越多,兩個軟體在能力值的精準度越好。

2. 兩個軟體在固定樣本數下,大致上,在 (0,8) 的均差與在 (2,2) 的均差相

差不多,表示在能力值的估計上,在兩個題組效果程度的差異較大時,與兩個 題組效果程度的差異很小時差不多。但也有例外的情況,80 題時,(0,8) 的 均差小於在 (2,2) 的均差。由此可知,當試題數越多,在能力值的估計上,

相較於兩個題組效果程度的差異很小時,兩個題組效果程度的差異較大時估計 的較好。

3. 比較兩個軟體的均差,大致上,兩個軟體在試題數 20、40、80 時的均差相差 不多,特別注意的是,在樣本數為 300 (圖 4-29)、900 (圖 4-30),且試題數為 80 時,比較兩個軟體在 (0,0) 的均差,BILOG 明顯大於 SAS,是因為在此 情況下,SAS 表現特別穩定,還是有原因,有待日後進一步探討。

根據以上結果,在固定樣本數下,SAS 和 BILOG 在能力值的估計表現上,

試題數越多估計的越好,而隨題組效果增加,則估計的越不精準,這和相關文獻 的結果一致。兩個軟體在兩個題組效果程度的差異很小時,與兩個題組效果程度 的差異較大時,估計能力值的精準度差不多,但題數多時,在兩個題組效果程度 的差異較大的情形,有估計比較好的趨勢。比較兩個軟體的估計精準度,SAS 略 較 BILOG 穩健。

相關文件