固定樣本數下的精準度比較

第四章研究結果

第三節固定樣本數下的精準度比較

一、試題難度估計情形 (一) RMSE

圖形如圖 4-16、4-17、4-18 所示。在樣本數 100、300、900 時均可發現：

1. 觀察圖 4-16、4-17、4-18 這三個圖，在 (0，0) 時，20 題的 RMSE 大於 40 題的 RMSE，40 題的 RMSE 又大於 80 題的 RMSE，顯示兩個軟體估計試題難度

的 RMSE，皆隨試題數增加而減少；但兩個題組都有題組效果時，RMSE 隨試題數增加而增加。由此可知無題組效果時，題數越多試題難度估計的越好，兩個題組都有題組效果時，推測可能是題數越多，使得在估計時累積的誤差越多，故估計精準度較不好。

2. 兩個軟體在單一題組有題組效果，試題數 20、40、80 時，RMSE 皆隨題組效果程度增加而增加；在兩個題組同時有題組效果時，RMSE 也呈現此走勢。由此可知題組效果會影響試題難度的估計，且題組效果越大，估計的越不精準，

與前面的結果相同。

3. 大致上，兩個軟體在 (2，2) 的 RMSE 小於在 (0，8) 的 RMSE，顯示兩個軟體在兩個題組效果程度的差異很小，與兩個題組效果程度的差異較大時，在前者情況估計的較好，但隨試題數增多，此情況越不明顯。由此可知，隨試題數越多，兩個軟體在兩個題組效果程度的差異很小時，其表現的越較兩個題組效果程度的差異較大時不穩定。推測可能是題數越多，使得在估計時累積的誤差越多，故估計精準度較不好。

4. 比較兩個軟體的 RMSE，大致上，BILOG 的 RMSE 較 SAS 的 RMSE 略大，表示 SAS 的穩健度略較 BILOG 好。

(二) BIAS

圖形如圖 4-19、4-20、4-21 所示。在樣本數 100、300、900 時均可發現：

1. 兩個軟體在 BIAS 的表現，在 (0，0) 的 BIAS 隨試題數增加而減小，但到了兩個題組都有題組效果時，BIAS 隨試題數增加而增加，此與 RMSE 的結果一致，推測可能是題數越多，使得在估計時累積的誤差越多所造成的。

2. 兩個軟體在單一題組有題組效果，試題數 20、40、80 時，BIAS 皆隨題組效果程度增加而增加；在兩個題組同時有題組效果時，BIAS 也呈現此種走勢。表示題組效果程度越大，兩個軟體在試題難度估計的越不精準，和許多研究相同。

3. 大致而言，20 題時 (0，8) 的 BIAS 大於 (2，2) 的 BIAS，在 40 題時 (0，8) 的 BIAS 和 (2，2) 的 BIAS 差不多，在 80 題時，(0，8) 的 BIAS 小於在 (2，2) 的 BIAS。由此可知，隨題數增多，兩個軟體在兩個題組效果程度的差異很小時，

其表現的越較兩個題組效果程度的差異較大時不穩定，與在 RMSE 的結果相同。

4. 比較兩個軟體的 BIAS，大致上，在兩個題組同時有題組效果時，BILOG 的 BIAS 較 SAS 的 BIAS 略高，顯示有題組效果時，SAS 估計的較 BILOG 穩健。

(三) MCSE

圖形如圖 4-22、4-23、4-24 所示。在樣本數 100、300、900 時均可發現：

1. 大致上，兩個軟體在 MCSE 的表現，皆隨試題數增加而減小。由此可知試題數越多，估計的一致性越高。

2. 兩個軟體在 MCSE 的表現，看不出隨題組效果變化的情形。表示題組效果程度，不會影響軟體是否會一致性的高估或低估。

3. 比較兩個軟體的 MCSE，大致上，在 40、80 題時，BILOG 的 MCSE 略小於 SAS 的 MCSE，試題為 20 時，則 BILOG 的 MCSE 幾乎都大於 SAS 的 MCSE。

顯示題數少時，BILOG 估計的較無一致性，但隨著題數增多，BILOG 估計的越有一致性。

根據以上結果，在固定樣本數下，SAS 和 BILOG 在試題難度的估計表現上，

沒有題組效果時，題數越多精準度越好，有題組效果時，題數越多估計精準度越差；且隨題組效果增加，估計的也越不精準。兩個軟體在兩個題組效果程度的差異很小時，與兩個題組效果程度的差異較大時，隨著題數越多，兩個軟體在後者的精準度表現越好。比較兩個軟體的估計精準度，SAS 略較 BILOG 穩健。

二、能力值估計情形

圖形如圖 4-25、4-26、4-27 所示。在樣本數 100、300、900 時均可發現：

(一) RMSE

1. 兩個軟體在 RMSE 的表現，大致上，RMSE 隨試題數增加而減小，表示試題數越多，兩個軟體在能力值的精準度越好。此趨勢和許多研究的結果相同，推測是題數越多，每個受試者被測到的次數就越多，故能力值的精準度會較好。

但也有例外的狀況，在樣本數 900 (圖 4-27)，(2，8) 且 40 題時，BILOG 的值突然增大，大於 80 時的 RMSE。此例外可能是重複次數不夠或其他原因造成，

有待探討。

2. 兩個題組在單一題組有題組效果，試題數 20、40、80 時，RMSE 隨題組效果程度增加而增加；在兩個題組同時有題組效果時，RMSE 也呈現此種趨勢。表示題組效果程度越大，兩個軟體在能力值的估計表現越不精準。

3. 兩個軟體在試題數 20、40、80 時，在 (0，8) 的 RMSE 皆小於在 (2，2) 的 RMSE。顯示兩個軟體在兩個題組效果程度的差異很小時，其表現的越較兩個題組效果程度的差異較大時不穩定，此結果和前述發現的結果相吻合。

4. 比較兩個軟體的 RMSE，試題數為 20 時，兩個軟體的 RMSE 差不多，但在 40、

80 題時，BILOG 的 RMSE 較 SAS 的 RMSE 略大。表示在能力值的估計上，

題數較多時，SAS 估計的較好，SAS 在題數多的情形下，表現較 BILOG 穩健。

(二) 均差

圖形如圖 4-28、4-29、4-30 所示。在樣本數 100、300、900 時均可發現：

1. 兩個軟體在均差的表現，在 100 人時 (圖 4-28)，20 題和 40 題的均差幾乎相同，

是重複次數不夠，或均差的計算方式造成的，還是有其他原因，尚待進一步探討。在 300 人 (圖 4-29)、900 人 (圖 4-29) 時，大致上可看出，均差隨試題數增加而減少。由此大致可看出試題數越多，兩個軟體在能力值的精準度越好。

2. 兩個軟體在固定樣本數下，大致上，在 (0，8) 的均差與在 (2，2) 的均差相

差不多，表示在能力值的估計上，在兩個題組效果程度的差異較大時，與兩個題組效果程度的差異很小時差不多。但也有例外的情況，80 題時，(0，8) 的均差小於在 (2，2) 的均差。由此可知，當試題數越多，在能力值的估計上，

相較於兩個題組效果程度的差異很小時，兩個題組效果程度的差異較大時估計的較好。

3. 比較兩個軟體的均差，大致上，兩個軟體在試題數 20、40、80 時的均差相差不多，特別注意的是，在樣本數為 300 (圖 4-29)、900 (圖 4-30)，且試題數為 80 時，比較兩個軟體在 (0，0) 的均差，BILOG 明顯大於 SAS，是因為在此情況下，SAS 表現特別穩定，還是有原因，有待日後進一步探討。

根據以上結果，在固定樣本數下，SAS 和 BILOG 在能力值的估計表現上，

試題數越多估計的越好，而隨題組效果增加，則估計的越不精準，這和相關文獻的結果一致。兩個軟體在兩個題組效果程度的差異很小時，與兩個題組效果程度的差異較大時，估計能力值的精準度差不多，但題數多時，在兩個題組效果程度的差異較大的情形，有估計比較好的趨勢。比較兩個軟體的估計精準度，SAS 略較 BILOG 穩健。

在文檔中階層線性模式與Rasch模式在題組效果下之參數估計模擬比較 (頁 51-55)

第四章 研究結果

第三節 固定樣本數下的精準度比較

第四章研究結果

第三節固定樣本數下的精準度比較