第四章 研究結果與討論
第三節 固定樣本數
一、 試題參數估計情形
(一) RMSE ( 如圖 23、圖 24、圖 25 所示) RMSE-100人
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
RMSE-300人
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
圖 23 試題參數-RMSE-100 人 圖 24 試題參數-RMSE-300 人
RMSE-900人
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
1. 在一個題組與兩個題組違反試題局部獨立下,無論試題數為 20、40 或 80 題,
兩軟體的 RMSE 皆會隨著違反試題局部獨立程度增加而降低。
2. 無論試題數為 20、40 或 80 題,當兩個題組皆沒有違反試題局部獨立性時,
BILOG-MG 的 RMSE 之表現情形稍微較 HLM 6.03 軟體佳,BILOG-MG 在試 題無違反局部獨立性的情形下,估計的表現相當穩健。
3. 無論試題數為 20、40 或 80 題,當單一題組違反試題局部獨立性時,兩軟體的 RMSE 之表現情形沒有太大差異。但 HLM6.03 軟體在樣本數 100 人、試題數 20 題且違反試題局部獨立程度 (0,8) 情形下較 BILOG-MG 好,而 BILOG-MG 在樣本數 900 人、試題數 40 題且違反試題局部獨立程度 (0,2) 情形下較 HLM6.03 軟體好,此結果可能與研究中所設定的複製次數 50 次有關。
4. 當兩個題組皆違反試題局部獨立性時,無論試題數為 20、40 或 80 題,HLM 軟體的表現情形皆比 BILOG- MG 好,在上述的結果中可看出 HLM6.03 軟體所 受到違反試題局部獨立性的影響較小。
圖 25 試題參數-RMSE-900 人
(二) BIAS (如圖 26、圖 27、圖 28 所示) BIAS-100人
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
BIAS-300人
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
BIAS-900人
0 0.1 0.2 0.3 0.4
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
圖 26 試題參數-BIAS -100 人 圖 27 試題參數-BIAS-300 人
圖 28 試題參數-BIAS -900 人
1. 在一個題組與兩個題組違反試題局部獨立下,無論試題數為 20、40 或 80 題,
兩軟體的 BIAS 皆會隨著違反試題局部獨立程度增加而降低。
2. 兩軟體在 BIAS 上的表現,當沒有試題違反局部獨立性時,會隨著試題數有些 微的變化,當試題數越多,表現較好;當只有一個題組違反試題局部獨立時,
並不會因為試題數的不同而有太大的變化;當兩個題組皆違反試題局部獨立 性,試題數越多,表現則越差,推測可能是因為試題因存在違反局部獨立而參 數估計產生偏誤,若試題數增加,會使得參數估計有更大的偏誤。
3. 無論試題數為 20、40 或 80 題,當兩個題組皆沒有違反試題局部獨立性時,
BILOG-MG 在 BIAS 指標上的表現情形稍微較 HLM6.03 軟體軟體佳。
3. 無論試題數為 20、40 或 80 題,當單一題組違反試題局部獨立性時,兩軟體在 BIAS 指標上的表現情形沒有太大差異。
4. 當兩個題組皆違反試題局部獨立性時,無論試題數為 20、40 或 80 題,HLM 軟體在 BIAS 指標上的表現情形皆比 BILOG-MG 好。
(三) MCSE (如圖 29、圖 30、圖 31 所示) MCSE-100人
0 0.1 0.2 0.3
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
MCSE-300人
0 0.1 0.2 0.3
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
圖 29 試題參數-MCSE-100 人 圖 30 試題參數-MCSE-300 人
MCSE-900人
0 0.1 0.2 0.3
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
1. 兩軟體的估計一致性,不會隨著試題數的不同而有太大的差異,大致上而言,
試題數越多表現的情形較一致。
2. 兩軟體的估計一致性,並不會因違反試題局部獨立性程度的不同而明顯地不 同。
3. 當樣本數為 100 人時,無論試題數為 20、40 或 80,BILOG-MG 的表現情形均 稍微較 HLM6.03 好,除了在試題數 20 題且違反試題局部獨立程度 (0,8) 情形 下,HLM6.03 軟體表現較佳外。
4. 當樣本數為 300 人時,無論試題數為 20、40 或 80,BILOG-MG 的表現情形均 與 HLM6.03 軟體相近。
5. 當樣本數為 900 人時,無論試題數為 20、40 或 80,BILOG-MG 的表現情形均 與 HLM 相近,但在試題數 40 題且違反試題局部獨立程度 (0,2),與試題數 20 題且違反試題局部獨立 (2,8)的情形下,HLM6.03 軟體表現的一致性較差,這 結果可能與研究中所設定的複製次數 50 次有關。
圖 31 試題參數-MCSE-900 人
二、 能力參數估計情形
(一) RMSE (如圖 32、圖 33、圖 34 所示)
RMSE-100人
0 0.3 0.6 0.9 1.2 1.5
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
RMSE-300人
0 0.3 0.6 0.9 1.2 1.5
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
RMSE-900人
0 0.3 0.6 0.9 1.2 1.5
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
圖 32 能力參數-RMSE-100 人 圖 33 能力參數-RMSE-300 人
圖 34 能力參數-RMSE-900 人
1. 兩軟體在能力參數的估計精準度,皆會隨著試題數增加,估計的表現情形較精 準一些,這與許多研究結果相同。
2. 兩軟體在能力參數的 RMSE,在一個題組與兩個題組違反試題局部獨立下,無 論試題數為 20、40 或 80 題,皆隨著違反試題局部獨立程度變大而降低。
3. 無論樣本數為 100、300 或 900 人,當試題數為 20 題時,兩軟體的 RMSE 非 常相近,但當試題數為 40 或 80 題時,HLM6.03 軟體的參數估計稍微較 BILOG-MG 精準。
4. 當樣本數為 900 人且違反試題局部獨立程度 (2,8) 時,在試題數 20 題與 40 題 的情況下,HLM6.03 軟體的估計精準度,明顯地較 BILOG-MG 佳,表示違反 試題局部獨立程度越大,BILOG-MG 的參數估計越容易受到影響。
(二) MAD (如圖 35、圖 36、圖 37 所示) MAD-100人
0 0.3 0.6 0.9 1.2
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
MAD-300人
0 0.3 0.6 0.9 1.2
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
圖 35 能力參數-MAD-100 人 圖 36 能力參數-MAD-300 人
MAD-900人
0 0.3 0.6 0.9 1.2
(0,0) (0,2) (0,8) (2,2) (2,8)
B-20 B-40 B-80
H-20 H-40 H-80
1. 兩軟體在能力參數的 MAD 指標上,皆會隨著試題數增加,估計的表現情形較 精準一些。
2. 兩軟體在能力參數的 MAD 指標上,在一個題組與兩個題組違反試題局部獨立 下,無論試題數為 20、40 或 80 題,皆隨著違反試題局部獨立程度變大而降低。
3. 無論樣本數為 100、300 或 900 人,當試題數為 20 題時,兩軟體的 MAD 非常 相 近, 但 當 試 題 數 為 40 或 80 題 時, HLM6.03 軟體 的 參 數 估 計 稍 微 較 BILOG-MG 精準。
4. 當樣本數為 900 人且違反試題局部獨立程度 (2,8) 時,在試題數 20 題與 40 題 的 情 況 下 ,HLM6.03 軟 體 在 能 力 參 數 之 MAD 的 表 現 情 形 , 明 顯 地 較 BILOG-MG 佳。
圖 37 能力參數-MAD-900 人