固定試題數下的精準度比較

第四章研究結果

第二節固定試題數下的精準度比較

一、試題難度估計情形 (一) RMSE

圖形如圖 4-1、4-2、4-3 所示。在試題數 20、40、80 時均可發現：

1. 兩個軟體在 RMSE 的表現，皆隨樣本數增加而減小。許多模擬研究也都顯示，

樣本數越多試題參數估計的越精準，不會因為用一階段分析法或用二階段分析法，而有不同趨勢 (Kamata, 1998a, 1998b)。

2. 兩個軟體在單一題組有題組效果時，無論樣本數是 100、300 或 900，RMSE 皆隨題組效果程度增加而增大；兩個題組皆有題組效果時，RMSE 也呈現此種走勢。顯示題組效果會影響試題難度的估計精準度，題組效果越大，試題難度的估計精準度越不好。也代表 1-P HGLLM 和 Rasch 模式在估計參數時，均未將題組效果考慮進去。

3. 大致上，兩個軟體在 (0，8) 的 RMSE 大於在 (2，2) 的 RMSE，但也有例外的情形，在 40 題 (圖 4-2)、80 題 (圖 4-3) 時，BILOG 在樣本數 900 的情況，

(0，8) 的 RMSE 則小於在 (2，2) 的 RMSE。顯示有題組效果時，兩個題組效果程度的差異較大，與兩個題組效果程度的差異很小時，兩個軟體在後者的估計精準度較好，但隨著題數與樣本數增多，BILOG 在試題難度的估計精準度，

在兩個題組效果程度的差異較大時表現較好，但以 SAS 估計時則未出現此現象。由此推測，Rasch 模式在試題難度估計上，比較容易受題組效果的影響。

4. 比較兩個軟體的 RMSE，大致上，在沒有或單一題組有題組效果時，兩個軟體的 RMSE 幾乎相同，但也有例外的情況，在 20 題 (圖 4-1)、(0，8) 且樣本數為 100 時，BILOG 的 RMSE 較 SAS 的 RMSE 大，並非相差不多。這可能是重複次數不夠多而造成的，也可能是 BILOG 本來就不適合估計小樣本的情況，

加上兩個題組效果程度的差異較大，故 RMSE 明顯增加。而兩個題組都有題

組效果時，則 BILOG 的 RMSE 較 SAS 的 RMSE 略大，表示 SAS 的穩健度較 BILOG 略好。

(二) BIAS

圖形如圖 4-4、4-5、4-6 所示。在試題數 20、40、80 時均可發現：

1. 兩個軟體在 BIAS 的表現，大致上，皆不受樣本數影響，在樣本數為 100、300、

900 時的 BIAS 都差不多，但有例外的情形，在 40 題 (圖 4-5)、80 題 (圖 4-6)，

兩個題組皆有題組效果時，BILOG 的 BIAS 較 SAS 的 BIAS 略大。由 BIAS 的趨勢，無法看出隨樣本數的變化情形，推測是 BIAS 的計算方式，會讓高估與低估的值相互抵消所致。

2. 兩個軟體在單一題組有題組效果，又樣本數為 100、300、900 時，BIAS 隨題組效果程度增加而增加；在兩個題組同時有題組效果時，BIAS 也呈現此種走勢。由 BIAS 的結果可知，題組效果會影響試題難度的估計精準度，與在 RMSE 的結果相同。另外一提的是，儘管局部獨立性是 IRT 中的假設，但當有題組效果時，以階層線性模式估計試題難度，一樣會受題組效果的影響。

3. 在 20 題 (圖 4-4) 時，兩個軟體在 (0，8) 的 BIAS 大於在 (2，2) 的 BIAS，

但在 40 題 (圖 4-5) 時，隨樣本數增加，此情形越不明顯。在 80 題 (圖 4-6) 時，

兩個軟體在 (0，8) 的 BIAS 小於在 (2，2) 的 BIAS。此結果顯示，隨試題數和樣本數增大，BILOG 和 SAS 在兩個題組效果程度的差異較大時，有估計的較兩個題組效果程度的差異很小時精準的趨勢。此結果與 RMSE 的結果有些出入，可能是兩個精準度指標計算方式不同所造成的。

4. 比較兩個軟體的 BIAS，大致上，在沒有或單一題組有題組效果時，兩個軟體的 BIAS 幾乎相同；兩個題組皆有題組效果時，則 BILOG 的 BIAS 較 SAS 的 BIAS 略大。由此可知，當兩個題組皆有效果時，SAS 的穩健度略較 BILOG 好。

(三) MCSE

圖形如圖 4-7、4-8、4-9 所示。在試題數 20、40、80 時均可發現：

1. 兩個軟體在 MCSE 的表現，皆隨樣本數增加而減小，顯示樣本數越多，兩個軟體在一致性上的表現越好。在統計上及許多模擬研究也指出，樣本數越多估計的越穩定。

2. 兩個軟體在 MCSE 的表現，看不出隨題組效果程度的變化情形，但樣本數為 100、300、900 時，皆可發現在 (2，8) 時的 MCSE 最小，估計的一致性越高。

為何其一致性會優於無題組效果時，則有待進一步的探討。在估計的較不一致之情況上，在 20 題 (圖 4-7)、(0，8) 且樣本數為 100 時，BILOG 的 MCSE 明顯增大，由前述可知，RMSE 在此狀況下也突然增大。MCSE 增大的原因，是因為重複次數不夠多造成的不穩定，或是 BILOG 不適合估計兩個題組效果差異較大的小樣本情況，有待日後釐清。

3. 比較兩個軟體的 MCSE，大致上，在 40 題 (圖 4-8)、80 題 (圖 4-9) 時，BILOG 的 MCSE 略小於 SAS 的 MCSE；試題數為 20 (圖 4-7) 時，則 BILOG 的 MCSE 在樣本數 100、300、900 的情況，幾乎都大於 SAS 的 MCSE。顯示在題數少時，BILOG 估計的略較 SAS 不一致，題數多時，BILOG 則估計的較 SAS 有一致性。顯示 BILOG 可能適合估計題數多的情況。

根據以上結果，在固定試題數下，SAS 和 BILOG 在試題難度的估計情形上，

皆隨樣本數增加，而估計的越精準、越有一致性；也隨題組效果增加，而估計的越不精準，這和相關文獻的結果吻合。試題數 20 時，兩個軟體在兩個題組效果差異很小時，與在兩個題組效果差異較大時，試題估計難度在前者較精準，但隨試題數、樣本數增多，此情形越不明顯。比較兩個軟體的估計精準度，SAS 略較 BILOG 穩健。

二、能力值估計情形 (一) RMSE

圖形如圖 4-10、4-11、4-12 所示。在試題數 20、40、80 時均可發現：

1. 兩個軟體在 RMSE 的表現，看不出隨樣本數的變化情形，在 100、300、900 人時的 RMSE 都差不多，此情形和許多研究的結果吻合。

2. 兩個軟體在單一題組有題組效果，RMSE 在樣本數 100、300、900 時的表現，

皆隨題組效果程度增加而增加；在兩個題組同時有題組效果時，RMSE 也呈現此種趨勢。由此可知，題組效果會影響能力值的估計，且題組效果越大，能力值估計的越不精準。像國小數學的應用題中，常見請小朋友算出答案後，再將答案換算成其他單位，像這類問題雖然是考不同概念，問題間卻有很大的關連，在估計能力值時要特別謹慎。

3. 兩個軟體在樣本數 100、300、900 時，在 (0，8) 的 RMSE 與在 (2，2) 的 RMSE 相差不多。顯示兩個軟體在兩個題組效果程度的差異很小時，與兩個題組效果程度的差異較大時，估計能力值的精準度差不多。

4. 比較兩個軟體的 RMSE，大致上，試題數為 20 題 (圖 4-10)、40 題 (圖 4-11) 時，兩個軟體的值幾乎相同，但在此有一例外，於 40 題 (圖 4-11)、(2，8)、

樣本數 900 時，BILOG 的 RMSE 明顯較其他狀況大，且 RMSE 高達 1.427，

此情況是因重複次數不夠多或是有其他原因，尚需進一步探討。試題數增為 80 (圖 4-12) 時，BILOG 在樣本數 100、300、900 時的 RMSE，皆略大於 SAS 的 RMSE，顯示當題數增多時，SAS 在能力值的估計表現略優於 BILOG。

(二) 均差

圖形如圖 4-13、4-14、4-15 所示。在試題數 20、40、80 時均可發現：

1. 兩個軟體在均差的表現，均不受樣本數的影響，在樣本數 100、300、900 的均差皆差不多。此結果和在 RMSE 的結果一致，推測是因為均差與 RMSE 的計算方法很相似而造成的。

2. 兩個軟體在單一題組有題組效果，樣本數為 100、300、900 時，均差隨題組效果程度增加而增加；在兩個題組同時有題組效果時，均差也呈現此種走勢，顯示題組效果會影響能力值的估計情形，題組效果越大，能力值估計的越不好。

3. 兩個軟體在樣本數 100、300、900 時，在 (0，8) 的均差與在 (2，2) 的均差相差不多。顯示兩個軟體在兩個題組效果程度的差異很小時，與兩個題組效果程度的差異較大時，估計能力值的精準度差不多，此結果與在 RMSE 上的結果相同，可能是均差與 RMSE 的計算方法很相似而造成的。

4. 比較兩個軟體的均差，大致上，試題數為 20 題 (圖 4-13) 和 40 題 (圖 4-14) 時，兩者的均差幾乎相同，試題數增為 80 時 (圖 4-14)，則 BILOG 在 100、300、

900 人時的均差，略大於 SAS 的均差。唯 40 題 (圖 4-14)、(2，8) 且樣本數 900 時，BILOG 的均差明顯較 SAS 的均差大，此結果與在 RMSE 上的結果相同，也指出 SAS 在估計能力值的穩健度略較 BILOG 好。

根據以上結果，在固定試題數下，SAS 和 BILOG 在能力值的估計精準度，

皆不受樣本數影響，但隨題組效果增加，而估計的越不精準，這和相關文獻的結果吻合。兩個軟體在兩個題組效果程度的差異很小時，與兩個題組效果程度的差異較大時，估計能力值的精準度差不多。比較兩個軟體的估計精準度，SAS 略較 BILOG 穩健。

在文檔中階層線性模式與Rasch模式在題組效果下之參數估計模擬比較 (頁 47-51)

第四章 研究結果

第二節 固定試題數下的精準度比較

第四章研究結果

第二節固定試題數下的精準度比較