• 沒有找到結果。

第四章 研究結果

第二節 固定試題數下的精準度比較

一、試題難度估計情形 (一) RMSE

圖形如圖 4-1、4-2、4-3 所示。在試題數 20、40、80 時均可發現:

1. 兩個軟體在 RMSE 的表現,皆隨樣本數增加而減小。許多模擬研究也都顯示,

樣本數越多試題參數估計的越精準,不會因為用一階段分析法或用二階段分析 法,而有不同趨勢 (Kamata, 1998a, 1998b)。

2. 兩個軟體在單一題組有題組效果時,無論樣本數是 100、300 或 900,RMSE 皆隨題組效果程度增加而增大;兩個題組皆有題組效果時,RMSE 也呈現此種 走勢。顯示題組效果會影響試題難度的估計精準度,題組效果越大,試題難度 的估計精準度越不好。也代表 1-P HGLLM 和 Rasch 模式在估計參數時,均未 將題組效果考慮進去。

3. 大致上,兩個軟體在 (0,8) 的 RMSE 大於在 (2,2) 的 RMSE,但也有例外 的情形,在 40 題 (圖 4-2)、80 題 (圖 4-3) 時,BILOG 在樣本數 900 的情況,

(0,8) 的 RMSE 則小於在 (2,2) 的 RMSE。顯示有題組效果時,兩個題組效 果程度的差異較大,與兩個題組效果程度的差異很小時,兩個軟體在後者的估 計精準度較好,但隨著題數與樣本數增多,BILOG 在試題難度的估計精準度,

在兩個題組效果程度的差異較大時表現較好,但以 SAS 估計時則未出現此現 象。由此推測,Rasch 模式在試題難度估計上,比較容易受題組效果的影響。

4. 比較兩個軟體的 RMSE,大致上,在沒有或單一題組有題組效果時,兩個軟體 的 RMSE 幾乎相同,但也有例外的情況,在 20 題 (圖 4-1)、(0,8) 且樣本數 為 100 時,BILOG 的 RMSE 較 SAS 的 RMSE 大,並非相差不多。這可能是重 複次數不夠多而造成的,也可能是 BILOG 本來就不適合估計小樣本的情況,

加上兩個題組效果程度的差異較大,故 RMSE 明顯增加。而兩個題組都有題

組效果時,則 BILOG 的 RMSE 較 SAS 的 RMSE 略大,表示 SAS 的穩健度較 BILOG 略好。

(二) BIAS

圖形如圖 4-4、4-5、4-6 所示。在試題數 20、40、80 時均可發現:

1. 兩個軟體在 BIAS 的表現,大致上,皆不受樣本數影響,在樣本數為 100、300、

900 時的 BIAS 都差不多,但有例外的情形,在 40 題 (圖 4-5)、80 題 (圖 4-6),

兩個題組皆有題組效果時,BILOG 的 BIAS 較 SAS 的 BIAS 略大。由 BIAS 的 趨勢,無法看出隨樣本數的變化情形,推測是 BIAS 的計算方式,會讓高估與 低估的值相互抵消所致。

2. 兩個軟體在單一題組有題組效果,又樣本數為 100、300、900 時,BIAS 隨題 組效果程度增加而增加;在兩個題組同時有題組效果時,BIAS 也呈現此種走 勢。由 BIAS 的結果可知,題組效果會影響試題難度的估計精準度,與在 RMSE 的結果相同。另外一提的是,儘管局部獨立性是 IRT 中的假設,但當有題組效 果時,以階層線性模式估計試題難度,一樣會受題組效果的影響。

3. 在 20 題 (圖 4-4) 時,兩個軟體在 (0,8) 的 BIAS 大於在 (2,2) 的 BIAS,

但在 40 題 (圖 4-5) 時,隨樣本數增加,此情形越不明顯。在 80 題 (圖 4-6) 時,

兩個軟體在 (0,8) 的 BIAS 小於在 (2,2) 的 BIAS。此結果顯示,隨試題數 和樣本數增大,BILOG 和 SAS 在兩個題組效果程度的差異較大時,有估計的 較兩個題組效果程度的差異很小時精準的趨勢。此結果與 RMSE 的結果有些 出入,可能是兩個精準度指標計算方式不同所造成的。

4. 比較兩個軟體的 BIAS,大致上,在沒有或單一題組有題組效果時,兩個軟體 的 BIAS 幾乎相同;兩個題組皆有題組效果時,則 BILOG 的 BIAS 較 SAS 的 BIAS 略大。由此可知,當兩個題組皆有效果時,SAS 的穩健度略較 BILOG 好。

(三) MCSE

圖形如圖 4-7、4-8、4-9 所示。在試題數 20、40、80 時均可發現:

1. 兩個軟體在 MCSE 的表現,皆隨樣本數增加而減小,顯示樣本數越多,兩個 軟體在一致性上的表現越好。在統計上及許多模擬研究也指出,樣本數越多估 計的越穩定。

2. 兩個軟體在 MCSE 的表現,看不出隨題組效果程度的變化情形,但樣本數為 100、300、900 時,皆可發現在 (2,8) 時的 MCSE 最小,估計的一致性越高。

為何其一致性會優於無題組效果時,則有待進一步的探討。在估計的較不一致 之情況上,在 20 題 (圖 4-7)、(0,8) 且樣本數為 100 時,BILOG 的 MCSE 明 顯增大,由前述可知,RMSE 在此狀況下也突然增大。MCSE 增大的原因,是 因為重複次數不夠多造成的不穩定,或是 BILOG 不適合估計兩個題組效果差 異較大的小樣本情況,有待日後釐清。

3. 比較兩個軟體的 MCSE,大致上,在 40 題 (圖 4-8)、80 題 (圖 4-9) 時,BILOG 的 MCSE 略小於 SAS 的 MCSE;試題數為 20 (圖 4-7) 時,則 BILOG 的 MCSE 在樣本數 100、300、900 的情況,幾乎都大於 SAS 的 MCSE。顯示在題數少 時,BILOG 估計的略較 SAS 不一致,題數多時,BILOG 則估計的較 SAS 有 一致性。顯示 BILOG 可能適合估計題數多的情況。

根據以上結果,在固定試題數下,SAS 和 BILOG 在試題難度的估計情形上,

皆隨樣本數增加,而估計的越精準、越有一致性;也隨題組效果增加,而估計的 越不精準,這和相關文獻的結果吻合。試題數 20 時,兩個軟體在兩個題組效果 差異很小時,與在兩個題組效果差異較大時,試題估計難度在前者較精準,但隨 試題數、樣本數增多,此情形越不明顯。比較兩個軟體的估計精準度,SAS 略較 BILOG 穩健。

二、能力值估計情形 (一) RMSE

圖形如圖 4-10、4-11、4-12 所示。在試題數 20、40、80 時均可發現:

1. 兩個軟體在 RMSE 的表現,看不出隨樣本數的變化情形,在 100、300、900 人時的 RMSE 都差不多,此情形和許多研究的結果吻合。

2. 兩個軟體在單一題組有題組效果,RMSE 在樣本數 100、300、900 時的表現,

皆隨題組效果程度增加而增加;在兩個題組同時有題組效果時,RMSE 也呈現 此種趨勢。由此可知,題組效果會影響能力值的估計,且題組效果越大,能力 值估計的越不精準。像國小數學的應用題中,常見請小朋友算出答案後,再將 答案換算成其他單位,像這類問題雖然是考不同概念,問題間卻有很大的關 連,在估計能力值時要特別謹慎。

3. 兩個軟體在樣本數 100、300、900 時,在 (0,8) 的 RMSE 與在 (2,2) 的 RMSE 相差不多。顯示兩個軟體在兩個題組效果程度的差異很小時,與兩個題組效果 程度的差異較大時,估計能力值的精準度差不多。

4. 比較兩個軟體的 RMSE,大致上,試題數為 20 題 (圖 4-10)、40 題 (圖 4-11) 時,兩個軟體的值幾乎相同,但在此有一例外,於 40 題 (圖 4-11)、(2,8)、

樣本數 900 時,BILOG 的 RMSE 明顯較其他狀況大,且 RMSE 高達 1.427,

此情況是因重複次數不夠多或是有其他原因,尚需進一步探討。試題數增為 80 (圖 4-12) 時,BILOG 在樣本數 100、300、900 時的 RMSE,皆略大於 SAS 的 RMSE,顯示當題數增多時,SAS 在能力值的估計表現略優於 BILOG。

(二) 均差

圖形如圖 4-13、4-14、4-15 所示。在試題數 20、40、80 時均可發現:

1. 兩個軟體在均差的表現,均不受樣本數的影響,在樣本數 100、300、900 的均 差皆差不多。此結果和在 RMSE 的結果一致,推測是因為均差與 RMSE 的計 算方法很相似而造成的。

2. 兩個軟體在單一題組有題組效果,樣本數為 100、300、900 時,均差隨題組效 果程度增加而增加;在兩個題組同時有題組效果時,均差也呈現此種走勢,顯 示題組效果會影響能力值的估計情形,題組效果越大,能力值估計的越不好。

3. 兩個軟體在樣本數 100、300、900 時,在 (0,8) 的均差與在 (2,2) 的均差 相差不多。顯示兩個軟體在兩個題組效果程度的差異很小時,與兩個題組效果 程度的差異較大時,估計能力值的精準度差不多,此結果與在 RMSE 上的結 果相同,可能是均差與 RMSE 的計算方法很相似而造成的。

4. 比較兩個軟體的均差,大致上,試題數為 20 題 (圖 4-13) 和 40 題 (圖 4-14) 時,兩者的均差幾乎相同,試題數增為 80 時 (圖 4-14),則 BILOG 在 100、300、

900 人時的均差,略大於 SAS 的均差。唯 40 題 (圖 4-14)、(2,8) 且樣本數 900 時,BILOG 的均差明顯較 SAS 的均差大,此結果與在 RMSE 上的結果相 同,也指出 SAS 在估計能力值的穩健度略較 BILOG 好。

根據以上結果,在固定試題數下,SAS 和 BILOG 在能力值的估計精準度,

皆不受樣本數影響,但隨題組效果增加,而估計的越不精準,這和相關文獻的結 果吻合。兩個軟體在兩個題組效果程度的差異很小時,與兩個題組效果程度的差 異較大時,估計能力值的精準度差不多。比較兩個軟體的估計精準度,SAS 略較 BILOG 穩健。

相關文件