固定題組效果下的精準度比較

第四章研究結果

第四節固定題組效果下的精準度比較

一、試題難度估計情形 (一) RMSE

圖形如圖 4-31、4-32、4-33、4-34、4-35 所示。在固定題組效果程度為 (0，

0)、(0，2)、(0，8)、(2，2)、(2，8) 時均可發現：

1. 兩個軟體在 RMSE 的表現，皆隨樣本數增加而減小，表示樣本數越多，兩個軟體在試題難度的估計精準度越好，此結果與許多統計結果相同。但在此看不出 RMSE 隨試題數變化的趨勢。

2. 比較兩個軟體的 RMSE，大致上，在單一題組有題組效果時，兩個軟體在樣本數 100、300、900 時的估計情形差不多，但有一例外情形，在 (0，8) (圖 4-33)、

試題數 20 且樣本數 100 時，BILOG 的 RMSE 明顯較 SAS 的 RMSE 大，可能是 BILOG 不適合估計小樣本，題目又有題組效果而影響其估計情形；兩個題組皆有題組效果時 (圖 4-34、4-35)，在樣本數 100、300、900，BILOG 的 RMSE 皆較 SAS 的 RMSE 略大，且相差程度隨試題數增加而增加。由此可知試題數越多，SAS 估計的越較 BILOG 穩健。

(二) BIAS

圖形如圖 4-36、4-37、4-38、4-39、4-40 所示。在固定題組效果程度為 (0，

0)、(0，2)、(0，8)、(2，2)、(2，8) 時均可發現：

1. 兩個軟體在 BIAS 的表現，在 (0，0) 與兩個題組皆有題組效果時 (圖 4-39、

圖 4-40)，BIAS 隨樣本數增加而增大；在 (0，2) 時 (圖 4-37) ，樣本數為 100、

300、900 的 BIAS 幾乎相同；在 (0，8) 且試題數為 20、40 時 (圖 4-38)，BIAS 隨樣本數增加而增大。大致上，隨著題組效果程度不同，BIAS 隨樣本數變化的情形較無規則性。若日後能增加更多組的題組效果程度，也許就能從中找到蛛絲馬跡。

2. 比較兩個軟體的 BIAS，大致上，在沒有題組效果時，SAS 的 BIAS 略較 BILOG 的 BIAS 大；在兩個題組都有題組效果時，BILOG 的 BIAS 則較 SAS 的 BIAS 略大。表示有題組效果時，SAS 在試題難度的估計上略較 BILOG 穩健。

(三) MCSE

圖形如圖 4-41、4-42、4-43、4-44、4-45 所示。在固定題組效果程度為 (0，

0)、(0，2)、(0，8)、(2，2)、(2，8) 時均可發現：

1. 兩個軟體在 MCSE 的表現，皆隨樣本數增加而減小，但看不出隨試題數變化的情形。表示樣本數越多，估計的越有一致性，與前述許多結果相同。

2. 比較兩個軟體的 MCSE，大致上，在 (0，0) 時 (圖 4-36) 兩個軟體估計的差

不多，但有題組效果時，兩者表現情形無規則變化。若日後能增加更多組的題組效果程度，也許就能從中找到一些規律。

根據以上結果，在固定題組效果下，SAS 和 BILOG 在試題難度的估計情形，

隨樣本數越多估計的越好，和前述許多結果相同。在有題組效果時，SAS 估計的較 BILOG 穩健。比較兩個軟體的估計精準度，隨試題數越多，SAS 也越較 BILOG 穩健。

二、能力值估計情形 (一) RMSE

圖形如圖 4-46、4-47、4-48、4-49、4-50 所示。在固定題組效果程度為 (0，

0)、(0，2)、(0，8)、(2，2)、(2，8) 時均可發現：

1. 兩個軟體在 RMSE 的表現，皆不隨樣本數變化而影響，表示樣本數不會影響能力值的估計精準度。大致上，在有題組效果情形時，在試題數 20、40、80 時的值差不多，但也有例外的情形，在 (2，8) (圖 4-50)、試題數為 40，樣本數為 900 時，BILOG 的 RMSE 值較其他情況增大很多，可能是重複次數不夠，

或有其他原因所致，有待日後探討。

2. 比較兩個軟體的 RMSE，大致上，有題組效果時，BILOG 的 RMSE 略較 SAS 的 RMSE 大，而在 (2，8) (圖 4-50)、40 題且樣本數為 900 時，BILOG 的 RMSE 明顯比 SAS 的 RMSE 大。在沒有題組效果的情況下，20 題時，BILOG 與 SAS 的 RMSE 相差不多，80 題時 BILOG 的 RMSE 較 SAS 的 RMSE 大。由此可知，

大致上，SAS 在能力值的估計上，略較 BILOG 穩健。

(二) 均差

圖形如圖 4-51、4-52、4-53、4-54、4-55 所示。在固定題組效果程度為 (0，

0)、(0，2)、(0，8)、(2，2)、(2，8) 時均可發現：

1. 兩個軟體在均差的表現，大致上，均差不隨樣本數變化而影響，表示樣本數不會影響能力值的估計精準度，和前述許多結果一致。有題組效果時，均差也不

隨試題數而變化，但有一例外的狀況，在 (2，8) (圖 4-50)、試題數 40 且 900 人時，BILOG 的值突然增大，是因為重複次數不夠，或有其他原因造成的，

有待進一步的探討。

2. 比較兩個軟體的均差，大致上，有題組效果時，BILOG 的均差略較 SAS 的均差大，但在 (2，8) (圖 4-50)、40 題且樣本數為 900 時，BILOG 的均差則明顯較 SAS 的均差大。沒有題組效果的情況，在 20 題時，BILOG 與 SAS 的均差相差不多，在 80 題時則 BILOG 的均差較大。由此可知，大致上，SAS 在能力值的估計上，略較 BILOG 穩健，和 RMSE 表現的結果相同。

根據以上結果，在固定題組效果數下，SAS 和 BILOG 在試題難度的估計情形，不隨樣本數與試題數變化。大致上，SAS 估計的較 BILOG 穩健。

在文檔中階層線性模式與Rasch模式在題組效果下之參數估計模擬比較 (頁 55-59)

第四章 研究結果

第四節 固定題組效果下的精準度比較

第四章研究結果

第四節固定題組效果下的精準度比較