固定試題數

第四章研究結果與討論

第二節固定試題數

一、試題參數估計情形

(一) RMSE ( 如圖 8、圖 9、圖 10 所示)

RMSE-20題

0 0.1 0.2 0.3 0.4

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

RMSE-40題

0 0.1 0.2 0.3 0.4

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

RMSE-80題

0 0.1 0.2 0.3 0.4

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

1. 兩軟體在試題參數的估計精準度，皆會隨著樣本數變大而估計越精準。這和許多研究因樣本數變多估計越精準，有相同的結論。

圖 8 試題參數－RMSE－20 題圖 9 試題參數－RMSE－40 題

圖 10 試題參數－RMSE－80 題

2. 在一個題組與兩個題組違反試題局部獨立性情形下，無論樣本數為 100、300 或 900 人，兩軟體的估計精準度皆會隨著違反試題局部獨立程度增加而降低，

這和許多研究亦有相同的結論。

3. 當沒有題組或單一個題組違反試題局部獨立性時，無論樣本數為 100、300 或 900 人，BILOG-MG 的表現較 HLM6.03 軟體佳，且有因題數增加而兩軟體估計精準度越接近的趨勢。

4. 當兩個題組皆違反試題局部獨立性時，無論樣本數為 100、300 或 900 人，

HLM6.03 軟體的表現情形會比 BILOG-MG 好。

(二) BIAS (如圖 11、圖 12、圖 13 所示) BIAS-20題

0 0.1 0.2 0.3 0.4

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

BIAS-40題

0 0.1 0.2 0.3 0.4

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

圖 11 試題參數－BIAS－20 題圖 12 試題參數－BIAS－40 題

BIAS-80題

0 0.1 0.2 0.3 0.4

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

1. 兩軟體在 BIAS 指標上的差異，皆不會隨著樣本數的不同而有太大的變化，可能是由於 BIAS 指標會讓低估與高估的值相互抵消所造成的。

2. 在一個題組與兩個題組違反試題局部獨立情形下，無論樣本數為 100、300 或 900 人，兩軟體的試題參數之 BIAS 皆會隨著違反局部獨立程度增加而增大，

與 RMSE 指標的結果相同。

3. 當沒有或單一個題組違反試題局部獨立性，若試題數為 20 和 40 時，無論樣本數為 100、300 或 900 人，BILOG-MG 的表現較 HLM6.03 軟體佳，可能是因為只有一個題組的原因，所以 BILOG-MG 所受到的影響不大；但試題數為 80 題時，兩軟體的表現並無太大的差異。

4. 當兩個題組皆違反試題局部獨立性時，無論樣本數為 100、300 或 900 人，HLM 軟體的表現情形一致比 BILOG-MG 好，可推測 BILOG-MG 很容易受到違反局部獨立性的影響。

圖 13 試題參數－BIAS －80 題

(三) MCSE ( 如圖 14、圖 15、圖 16 所示) MCSE-20題

0 0.1 0.2 0.3

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

MCSE-40題

0 0.1 0.2 0.3

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

MCSE-80題

0 0.1 0.2 0.3

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

圖 14 試題參數－MCSE－20 題圖 15 試題參數－MCSE－40 題

圖 16 試題參數－MCSE－80 題

1. 兩軟體的估計一致性，會隨著樣本數的不同有明顯地變化，當樣本數越大，估計越一致，這和許多有關樣本數研究有相同的結果。

2. 兩軟體的估計一致性，並不會因違反試題局部獨立性程度的不同而明顯地不同。

3. 在樣本數為 100 人的情形下，BILOG-MG 的參數估計大致上較 HLM6.03 軟體一致，但在單一題組違反局部獨立性程度 (0,8) 的情形下例外，可能是由於複製次數設定為 50 次的關係，若能增加複製次數，結果將更為穩定。

4. 在樣本數為 300 人的情形下，BILOG-MG 與 HLM 軟體的參數估計一致性相近。

5. 在樣本數為 900 人的情形下，BILOG-MG 與 HLM6.03 軟體的參數估計一致性，

大致上皆相近。但在試題數 20 題且兩題組違反試題局部獨立程度 (2,8)，和試題數 40 題且單一題組違反試題局部獨立程度 (2,8)的情形下，BILOG-MG 的一致性明顯地較 HLM 軟體佳，這亦可能與複製次數的設定有關。

二、能力參數估計情形

(一) RMSE (如圖 17、圖 18、圖 19 所示) RMSE-20題

0 0.3 0.6 0.9 1.2 1.5

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

RMSE-40題

0 0.3 0.6 0.9 1.2 1.5

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

圖 17 能力參數－RMSE－20 題圖 18 能力參數－RMSE－40 題

RMSE-80題

0 0.3 0.6 0.9 1.2 1.5

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

1. 兩軟體在能力參數的 RMSE，不會隨著樣本數的不同有明顯地差異，此情形與許多研究的結果相同。

2. 兩軟體在能力參數的 RMSE，在一個題組與兩個題組違反試題局部獨立下，無論樣本數為 100、300 或 900 人，皆隨著違反試題局部獨立程度變大而降低。

3. 兩軟體在 20 題與 40 題的能力參數 RMSE 之表現，當樣本數為 100 或 300 人時，並無太大差異；但當樣本數為 900 人時，呈現一種不同的趨勢，HLM6.03 軟體的參數估計較 BILOG-MG 精準，推測原因可能跟研究中所設定的複製次數 50 次有關。

4. 兩軟體在 80 題的能力參數 RMSE 之表現，無論樣本數為 100、300 或 900 人時，HLM6.03 軟體的參數估計較 BILOG- MG 精準，表示 HLM6.03 軟體所受到違反試題局部獨立性的影響較小。

圖 19 能力參數－RMSE－80 題

(二) MAD (如圖 20、圖 21、圖 22 所示) MAD-20題

0 0.3 0.6 0.9 1.2

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

MAD-40題

0 0.3 0.6 0.9 1.2

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

MAD-80題

0 0.3 0.6 0.9 1.2

(0,0) (0,2) (0,8) (2,2) (2,8)

B-100 B-300 B-900

H-100 H-300 H-900

1. 兩軟體在能力參數的 MAD，不會隨著樣本數的不同有明顯地差異，且與 RMSE 呈現相同的趨勢，可能是由於計算方法類似造成的結果。

圖 20 能力參數－MAD－20 題圖 21 能力參數－MAD－40 題

圖 22 能力參數－MAD－80 題

2. 兩軟體在能力參數的 MAD，在一個題組與兩個題組違反試題局部獨立下，無論樣本數為 100、300 或 900 人，皆隨著違反試題局部獨立程度變大而降低，

這和許多研究的結果相同。

3. 兩軟體在 20 題與 40 題的能力參數 MAD 之表現，當樣本數為 100 或 300 人時，

並無太大差異；但當樣本數為 900 人時，呈現一種不同的趨勢，HLM6.03 軟體的參數估計較 BILOG-MG 精準，推測原因可能跟研究中所設定的複製次數 50 次有關。

4. 兩軟體在 80 題的能力參數 MAD 之表現，無論樣本數為 100、300 或 900 人時，

HLM 軟體的參數估計稍微較 BILOG- MG 精準，表示 HLM6.03 軟體所受到違反試題局部獨立性的影響較小。

在文檔中違反試題局部獨立性之參數估計－BILOG-MG與HLM軟體的比較 (頁 49-57)

第四章 研究結果與討論

第二節 固定試題數

第四章研究結果與討論

第二節固定試題數