第四章 研究結果與討論
第二節 固定試題數
一、 試題參數估計情形
(一) RMSE ( 如圖 8、圖 9、圖 10 所示)
RMSE-20題
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
RMSE-40題
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
RMSE-80題
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
1. 兩軟體在試題參數的估計精準度,皆會隨著樣本數變大而估計越精準。這和許 多研究因樣本數變多估計越精準,有相同的結論。
圖 8 試題參數-RMSE-20 題 圖 9 試題參數-RMSE-40 題
圖 10 試題參數-RMSE-80 題
2. 在一個題組與兩個題組違反試題局部獨立性情形下,無論樣本數為 100、300 或 900 人,兩軟體的估計精準度皆會隨著違反試題局部獨立程度增加而降低,
這和許多研究亦有相同的結論。
3. 當沒有題組或單一個題組違反試題局部獨立性時,無論樣本數為 100、300 或 900 人,BILOG-MG 的表現較 HLM6.03 軟體佳,且有因題數增加而兩軟體估 計精準度越接近的趨勢。
4. 當兩個題組皆違反試題局部獨立性時,無論樣本數為 100、300 或 900 人,
HLM6.03 軟體的表現情形會比 BILOG-MG 好。
(二) BIAS (如圖 11、圖 12、圖 13 所示) BIAS-20題
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
BIAS-40題
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
圖 11 試題參數-BIAS-20 題 圖 12 試題參數-BIAS-40 題
BIAS-80題
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
1. 兩軟體在 BIAS 指標上的差異,皆不會隨著樣本數的不同而有太大的變化,可 能是由於 BIAS 指標會讓低估與高估的值相互抵消所造成的。
2. 在一個題組與兩個題組違反試題局部獨立情形下,無論樣本數為 100、300 或 900 人,兩軟體的試題參數之 BIAS 皆會隨著違反局部獨立程度增加而增大,
與 RMSE 指標的結果相同。
3. 當沒有或單一個題組違反試題局部獨立性,若試題數為 20 和 40 時,無論樣本 數為 100、300 或 900 人,BILOG-MG 的表現較 HLM6.03 軟體佳,可能是因 為只有一個題組的原因,所以 BILOG-MG 所受到的影響不大;但試題數為 80 題時,兩軟體的表現並無太大的差異。
4. 當兩個題組皆違反試題局部獨立性時,無論樣本數為 100、300 或 900 人,HLM 軟體的表現情形一致比 BILOG-MG 好,可推測 BILOG-MG 很容易受到違反局 部獨立性的影響。
圖 13 試題參數-BIAS -80 題
(三) MCSE ( 如圖 14、圖 15、圖 16 所示) MCSE-20題
0 0.1 0.2 0.3
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
MCSE-40題
0 0.1 0.2 0.3
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
MCSE-80題
0 0.1 0.2 0.3
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
圖 14 試題參數-MCSE-20 題 圖 15 試題參數-MCSE-40 題
圖 16 試題參數-MCSE-80 題
1. 兩軟體的估計一致性,會隨著樣本數的不同有明顯地變化,當樣本數越大,估 計越一致,這和許多有關樣本數研究有相同的結果。
2. 兩軟體的估計一致性,並不會因違反試題局部獨立性程度的不同而明顯地不 同。
3. 在樣本數為 100 人的情形下,BILOG-MG 的參數估計大致上較 HLM6.03 軟體 一致,但在單一題組違反局部獨立性程度 (0,8) 的情形下例外,可能是由於複 製次數設定為 50 次的關係,若能增加複製次數,結果將更為穩定。
4. 在樣本數為 300 人的情形下,BILOG-MG 與 HLM 軟體的參數估計一致性相近。
5. 在樣本數為 900 人的情形下,BILOG-MG 與 HLM6.03 軟體的參數估計一致性,
大致上皆相近。但在試題數 20 題且兩題組違反試題局部獨立程度 (2,8),和試 題數 40 題且單一題組違反試題局部獨立程度 (2,8)的情形下,BILOG-MG 的 一致性明顯地較 HLM 軟體佳,這亦可能與複製次數的設定有關。
二、 能力參數估計情形
(一) RMSE (如圖 17、圖 18、圖 19 所示) RMSE-20題
0 0.3 0.6 0.9 1.2 1.5
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
RMSE-40題
0 0.3 0.6 0.9 1.2 1.5
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
圖 17 能力參數-RMSE-20 題 圖 18 能力參數-RMSE-40 題
RMSE-80題
0 0.3 0.6 0.9 1.2 1.5
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
1. 兩軟體在能力參數的 RMSE,不會隨著樣本數的不同有明顯地差異,此情形與 許多研究的結果相同。
2. 兩軟體在能力參數的 RMSE,在一個題組與兩個題組違反試題局部獨立下,無 論樣本數為 100、300 或 900 人,皆隨著違反試題局部獨立程度變大而降低。
3. 兩軟體在 20 題與 40 題的能力參數 RMSE 之表現,當樣本數為 100 或 300 人 時,並無太大差異;但當樣本數為 900 人時,呈現一種不同的趨勢,HLM6.03 軟體的參數估計較 BILOG-MG 精準,推測原因可能跟研究中所設定的複製次 數 50 次有關。
4. 兩軟體在 80 題的能力參數 RMSE 之表現,無論樣本數為 100、300 或 900 人 時,HLM6.03 軟體的參數估計較 BILOG- MG 精準,表示 HLM6.03 軟體所受 到違反試題局部獨立性的影響較小。
圖 19 能力參數-RMSE-80 題
(二) MAD (如圖 20、圖 21、圖 22 所示) MAD-20題
0 0.3 0.6 0.9 1.2
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
MAD-40題
0 0.3 0.6 0.9 1.2
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
MAD-80題
0 0.3 0.6 0.9 1.2
(0,0) (0,2) (0,8) (2,2) (2,8)
B-100 B-300 B-900
H-100 H-300 H-900
1. 兩軟體在能力參數的 MAD,不會隨著樣本數的不同有明顯地差異,且與 RMSE 呈現相同的趨勢,可能是由於計算方法類似造成的結果。
圖 20 能力參數-MAD-20 題 圖 21 能力參數-MAD-40 題
圖 22 能力參數-MAD-80 題
2. 兩軟體在能力參數的 MAD,在一個題組與兩個題組違反試題局部獨立下,無 論樣本數為 100、300 或 900 人,皆隨著違反試題局部獨立程度變大而降低,
這和許多研究的結果相同。
3. 兩軟體在 20 題與 40 題的能力參數 MAD 之表現,當樣本數為 100 或 300 人時,
並無太大差異;但當樣本數為 900 人時,呈現一種不同的趨勢,HLM6.03 軟 體的參數估計較 BILOG-MG 精準,推測原因可能跟研究中所設定的複製次數 50 次有關。
4. 兩軟體在 80 題的能力參數 MAD 之表現,無論樣本數為 100、300 或 900 人時,
HLM 軟體的參數估計稍微較 BILOG- MG 精準,表示 HLM6.03 軟體所受到違 反試題局部獨立性的影響較小。