• 沒有找到結果。

第四章 研究結果

第四節 固定題組效果下的精準度比較

一、試題難度估計情形 (一) RMSE

圖形如圖 4-31、4-32、4-33、4-34、4-35 所示。在固定題組效果程度為 (0,

0)、(0,2)、(0,8)、(2,2)、(2,8) 時均可發現:

1. 兩個軟體在 RMSE 的表現,皆隨樣本數增加而減小,表示樣本數越多,兩個 軟體在試題難度的估計精準度越好,此結果與許多統計結果相同。但在此看不 出 RMSE 隨試題數變化的趨勢。

2. 比較兩個軟體的 RMSE,大致上,在單一題組有題組效果時,兩個軟體在樣本 數 100、300、900 時的估計情形差不多,但有一例外情形,在 (0,8) (圖 4-33)、

試題數 20 且樣本數 100 時,BILOG 的 RMSE 明顯較 SAS 的 RMSE 大,可能 是 BILOG 不適合估計小樣本,題目又有題組效果而影響其估計情形;兩個題 組皆有題組效果時 (圖 4-34、4-35),在樣本數 100、300、900,BILOG 的 RMSE 皆較 SAS 的 RMSE 略大,且相差程度隨試題數增加而增加。由此可知試題數 越多,SAS 估計的越較 BILOG 穩健。

(二) BIAS

圖形如圖 4-36、4-37、4-38、4-39、4-40 所示。在固定題組效果程度為 (0,

0)、(0,2)、(0,8)、(2,2)、(2,8) 時均可發現:

1. 兩個軟體在 BIAS 的表現,在 (0,0) 與兩個題組皆有題組效果時 (圖 4-39、

圖 4-40),BIAS 隨樣本數增加而增大;在 (0,2) 時 (圖 4-37) ,樣本數為 100、

300、900 的 BIAS 幾乎相同;在 (0,8) 且試題數為 20、40 時 (圖 4-38),BIAS 隨樣本數增加而增大。大致上,隨著題組效果程度不同,BIAS 隨樣本數變化 的情形較無規則性。若日後能增加更多組的題組效果程度,也許就能從中找到 蛛絲馬跡。

2. 比較兩個軟體的 BIAS,大致上,在沒有題組效果時,SAS 的 BIAS 略較 BILOG 的 BIAS 大;在兩個題組都有題組效果時,BILOG 的 BIAS 則較 SAS 的 BIAS 略大。表示有題組效果時,SAS 在試題難度的估計上略較 BILOG 穩健。

(三) MCSE

圖形如圖 4-41、4-42、4-43、4-44、4-45 所示。在固定題組效果程度為 (0,

0)、(0,2)、(0,8)、(2,2)、(2,8) 時均可發現:

1. 兩個軟體在 MCSE 的表現,皆隨樣本數增加而減小,但看不出隨試題數變化 的情形。表示樣本數越多,估計的越有一致性,與前述許多結果相同。

2. 比較兩個軟體的 MCSE,大致上,在 (0,0) 時 (圖 4-36) 兩個軟體估計的差

不多,但有題組效果時,兩者表現情形無規則變化。若日後能增加更多組的題 組效果程度,也許就能從中找到一些規律。

根據以上結果,在固定題組效果下,SAS 和 BILOG 在試題難度的估計情形,

隨樣本數越多估計的越好,和前述許多結果相同。在有題組效果時,SAS 估計的 較 BILOG 穩健。比較兩個軟體的估計精準度,隨試題數越多,SAS 也越較 BILOG 穩健。

二、能力值估計情形 (一) RMSE

圖形如圖 4-46、4-47、4-48、4-49、4-50 所示。在固定題組效果程度為 (0,

0)、(0,2)、(0,8)、(2,2)、(2,8) 時均可發現:

1. 兩個軟體在 RMSE 的表現,皆不隨樣本數變化而影響,表示樣本數不會影響 能力值的估計精準度。大致上,在有題組效果情形時,在試題數 20、40、80 時的值差不多,但也有例外的情形,在 (2,8) (圖 4-50)、試題數為 40,樣本 數為 900 時,BILOG 的 RMSE 值較其他情況增大很多,可能是重複次數不夠,

或有其他原因所致,有待日後探討。

2. 比較兩個軟體的 RMSE,大致上,有題組效果時,BILOG 的 RMSE 略較 SAS 的 RMSE 大,而在 (2,8) (圖 4-50)、40 題且樣本數為 900 時,BILOG 的 RMSE 明顯比 SAS 的 RMSE 大。在沒有題組效果的情況下,20 題時,BILOG 與 SAS 的 RMSE 相差不多,80 題時 BILOG 的 RMSE 較 SAS 的 RMSE 大。由此可知,

大致上,SAS 在能力值的估計上,略較 BILOG 穩健。

(二) 均差

圖形如圖 4-51、4-52、4-53、4-54、4-55 所示。在固定題組效果程度為 (0,

0)、(0,2)、(0,8)、(2,2)、(2,8) 時均可發現:

1. 兩個軟體在均差的表現,大致上,均差不隨樣本數變化而影響,表示樣本數不 會影響能力值的估計精準度,和前述許多結果一致。有題組效果時,均差也不

隨試題數而變化,但有一例外的狀況,在 (2,8) (圖 4-50)、試題數 40 且 900 人時,BILOG 的值突然增大,是因為重複次數不夠,或有其他原因造成的,

有待進一步的探討。

2. 比較兩個軟體的均差,大致上,有題組效果時,BILOG 的均差略較 SAS 的均 差大,但在 (2,8) (圖 4-50)、40 題且樣本數為 900 時,BILOG 的均差則明顯 較 SAS 的均差大。沒有題組效果的情況,在 20 題時,BILOG 與 SAS 的均差 相差不多,在 80 題時則 BILOG 的均差較大。由此可知,大致上,SAS 在能 力值的估計上,略較 BILOG 穩健,和 RMSE 表現的結果相同。

根據以上結果,在固定題組效果數下,SAS 和 BILOG 在試題難度的估計情 形,不隨樣本數與試題數變化。大致上,SAS 估計的較 BILOG 穩健。

相關文件