水平等化之估計結果

第四章研究結果與討論

第一節水平等化之估計結果

本研究之水平等化研究結果呈現在表 2 至表 9 中，分別顯示水平等化各情境下能力參數的 bais、RMSE、相關及排名差異之情形，以下將分別對於上述四種數據進行說明。

壹、能力參數之 Bias

Bias 之功用為觀察估計值對於真值高低估的情形，Bias 若越靠近 0 越好。表 2 之數據為在群體數為 3 時之水平等化下，各情境能力參數之 Bias 的平均數與標準差，其結果顯示全體 Bias 之平均數在-0.01~0.01 之間，標準差在 0.02~0.05 之間，不論何種詴題類型下 Bias 之平均數皆與 0.00 相去不遠，且隨著定錨題具 DIF 題數之增加，Bias 之平均數並無明顯增加或減少之趨勢，Bias 之標準差為定錨題無 DIF 題時較小，顯示定錨題有 DIF 題時結果較不穩定。在各個群體的部分，

Bias 之平均數在-0.07~0.10 之間，大致上有隨著定錨題具 DIF 題數之增加而增加之趨勢，Bias 之標準差介在 0.03~0.08 間，大致上為定錨題有 DIF 詴題的標準差較大。

表 3 之數據為在群體數為 6 時之水平等化下，各情境能力參數之 Bias 的平均數與標準差，其結果顯示全體不論在何種詴題類型下，隨著定錨題具 DIF 題數之增加，Bias 之平均數皆極接近 0.00，而 Bias 之標準差介於 0.02~0.04 間，較無明顯增加或減少之趨勢。在各個群體的部分，Bias 之平均數介於-0.11~0.10 之間，

隨著定錨題 DIF 數之增加，Bias 之平均數大致上亦隨之增加；Bias 之標準差介在 0.03~0.07 間，大致上為定錨題具 DIF 詴題的標準差較定錨題無 DIF 詴題的為大。

表 2 群體數為 3 時之水平等化下，各情境能力參數之 Bias 的平均數與標準差

加，Bias 之標準差大致上為定錨題具 DIF 詴題的較定錨題無 DIF 詴題的為大，且隨著定錨題具 DIF 題數的增加而增加之趨勢。

貳、能力參數之 RMSE

如第三章所述，均方根誤差（也就是 RMSE）為本研究估計精確度之指標，

用來觀察真值與估計值間誤差之大小情形，若 RMSE 越小，代表精確度越高。表 4 之數據為在群組數為 3 時之水平等化下，各情境能力參數之 RMSE 的平均數與標準差，全體 RMSE 之平均數介於 0.21~0.28 間，標準差皆為 0.01，各群體 RMSE 之平均數介於 0.21~0.29 之間，標準差介於 0.01~0.03 間。全體與各群體之結果皆相同，皆為詴題類型為 10/30 之 RMSE＜20/20 之 RMSE＜30/10 之 RMSE，且 RMSE 隨著定錨題具 DIF 題數之增加而增加。

表 4 群組數為 3 時之水平等化下，各情境能力參數之 RMSE 的平均數與標準差

詴題類型定錨題

DIF 數

全體 G1 G2 G3

mean std mean std mean std mean std

10/30 0 0.21 0.01 0.22 0.01 0.21 0.01 0.21 0.02 1 0.21 0.01 0.22 0.02 0.21 0.01 0.21 0.02 2 0.22 0.01 0.24 0.03 0.21 0.02 0.22 0.02 20/20 0 0.24 0.01 0.25 0.01 0.23 0.01 0.23 0.01 1 0.24 0.01 0.25 0.01 0.23 0.01 0.23 0.01 2 0.25 0.01 0.26 0.02 0.23 0.01 0.24 0.01 30/10 0 0.27 0.01 0.28 0.01 0.27 0.01 0.27 0.01 1 0.28 0.01 0.28 0.01 0.27 0.01 0.28 0.01 2 0.28 0.01 0.29 0.02 0.27 0.01 0.28 0.01

表 5 之數據為在群組數為 6 時之水平等化下，各情境能力參數之 RMSE 的平均數與標準差，全體 RMSE 之平均數介於 0.21~0.28 間，標準差介於 0.00~0.01 間，各群體 RMSE 之平均數介於 0.21~0.30 之間，標準差介於 0.01~0.03 間。

表 5 之結果與表 4 相同，亦為詴題類型為 10/30 之 RMSE 最小，其次為 20/20，

最後是 30/10 之 RMSE 最大，且隨著定錨題具 DIF 題數之增加，RMSE 亦隨之增加，顯示在相同題長的情況下，多分題越多之測驗其能力估計值會越精確，而具 DIF 之定錨題數的增加會影響估計之精準度，使能力估計變得較不精確。進一步比較表 4 與表 5 之結果可發現其全體 RMSE 之平均數幾乎相同，但表 5 之標準差較小一些，顯示在水平等化下，各群體人數皆相同時，群體數較多之情境其等化之精確度會較穩定。

表 5 群組數為 6 時之水平等化下，各情境能力參數之 RMSE 的平均數與標準差

詴題類型

定錨題 DIF 數

全體 G1 G2 G3 G4 G5 G6

mea

n std mean std mean std mean std mean std mean std mean std 10/30 0 0.21 ^0.010.22 0.01 0.21 0.01 0.21 0.02 0.21 0.02 0.21 0.01 0.21 0.01

1 0.21 ^0.010.22 0.02 0.21 0.02 0.21 0.02 0.22 0.02 0.21 0.01 0.21 0.02 2 0.22 ^0.010.23 0.02 0.21 0.01 0.21 0.01 0.22 0.03 0.21 0.01 0.23 0.03 20/20 0 0.23 ^＜0.010.25 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 1 0.24 0.01 0.25 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.24 0.02 2 0.24 0.01 0.26 0.02 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.26 0.02 30/10 0 0.27 ^＜0.010.28 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.28 0.01 1 0.28 ^＜0.010.28 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.28 0.01 2 0.28 0.01 0.30 0.02 0.27 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.29 0.02

叁、能力參數之相關係數

表 6 及表 7 之數據分別為在群體數為 3 及 6 時之水平等化下，各情境能力參數真值與估計值之相關係數，相關係數是觀察能力真值與能力估計值關係程度的大小，若其值越靠近 1 則正相關程度越高。表 6 全體與各群體之相關係數皆介於 0.95~0.98 之間，在詴題類型 10/30 之情境下，全體最小之相關係數會隨著定錨題

著定錨題具 DIF 題數之增加，由 0.98 下降至 0.97，30/10 之情境則是全體最小之相關係數隨著定錨題具 DIF 題數之增加，由 0.96 下降至 0.95，表中數據顯示不論是何種詴題類型皆會隨著定錨題具 DIF 題數之增加使得相關下降，且在定錨題無 DIF 題數時，比較三種詴題類型可發現有 10/30 之相關係數＞20/20 之相關係數＞

30/10 之相關係數之趨勢，此與群體數為三時之 RMSE 結果相符，10/30 之相關係數最大而 RMSE 最小。

表 6 群組數為 3 時之水平等化下，各情境能力參數真值與估計值之相關係數

詴題類型定錨題

DIF 數

全體 G1 G2 G3

Max Min Max Min Max Min Max Min

10/30 0 0.98 0.97 0.98 0.97 0.98 0.98 0.98 0.97 1 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.98 2 0.98 0.96 0.98 0.97 0.98 0.98 0.98 0.97 20/20 0 0.98 0.97 0.98 0.96 0.98 0.97 0.98 0.97 1 0.98 0.97 0.98 0.96 0.98 0.97 0.98 0.97 2 0.97 0.97 0.98 0.96 0.98 0.97 0.98 0.97 30/10 0 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.95 1 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.95 2 0.97 0.95 0.97 0.95 0.97 0.95 0.97 0.95

表 7 之數據顯示全體相關係數介於 0.96~0.98 之間，各群體之相關係數介於 0.95~0.98 之間，在詴題類型 10/30 之情境下，全體最小之相關係數會隨著定錨題具 DIF 題數之增加，由 0.98 下降至 0.97；20/20 之情境相關係數皆為 0.97，無明顯變化，30/10 之情境則是全體最小之相關係數隨著定錨題具 DIF 題數之增加，

由 0.97 下降至 0.96，表中數據顯示不論是何種詴題類型，全體與各群體之相關係數皆有隨著定錨題具 DIF 題數之增加使得相關下降之趨勢，且相關係數仍是 10/30 之相關係數最大，其次是 20/20，最後是 30/10，此部份結果亦與群體數為 6 時之

RMSE 結果相符。

比較表 6 與表 7 之結果，在群體數為 6 時，其全體相關係數稍微較群體數為 3 時來得大，顯示在水平等化下且各群體人數相同時，群體數較多之情境其相關係數較大；不論是群體數 3 或 6 之情境，在定錨題無 DIF 題數之相關係數皆為詴題類型 10/30 最大，其次 20/20，最後為 30/10，且相關係數會隨著定錨題具 DIF 題數之增加而減少，顯示詴題類型及定錨題具 DIF 題數的確會影響估計結果，詴題類型為 10/30 且定錨題無 DIF 題數之相關係數為最大。

表 7 群組數為 6 時之水平等化下，各情境能力參數真值與估計值之相關係數詴題

類型

定錨題 DIF 數

全體 G1 G2 G3 G4 G5 G6

Max Min Max Min Max Min Max Min Max Min Max Min Max Min 10/30 0 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98

1 0.98 0.97 0.98 0.97 0.98 0.98 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98 2 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.98 20/20 0 0.97 0.97 0.98 0.96 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 1 0.97 0.97 0.98 0.96 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 2 0.97 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 30/10 0 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.96 0.97 0.95 0.97 0.96 0.97 0.96 1 0.97 0.96 0.97 0.96 0.97 0.95 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.95 2 0.96 0.96 0.97 0.95 0.97 0.96 0.97 0.96 0.97 0.95 0.97 0.96 0.97 0.95

肆、能力參數之排名差異

如同第三章所述，排名差異是觀察受詴者能力真值之排名與能力估計值之排名差異大小，排名差異越小越好，代表等化後之能力值之估計結果排名與真值排名相近。表 8 與表 9 所呈現之結果分別為群組數為 3 時與群組數為 6 時之水平等化下，各情境能力參數真值與估計值之排名差異，表中 Max 此項數值為能力參數

差異之四分差，G1、G2 與 G3 之 Max 及 IQR 計算方法為僅該群體能力值排名之差異，表中無列出 Min 此項數值，也就是不列出能力參數真值與估計值之排名之絕對值差異最小值，這是因為各項之絕對值差異最小值皆為 0，故不呈現在表中。

表 8 群組數為 3 時之水平等化下，各情境能力參數真值與估計值之排名差異

詴題類型定錨題

DIF 數

全體 G1 G2 G3

Max IQR Max IQR Max IQR Max IQR

10/30 0 502 104 151 35 147 34 159 32

1 485 104 167 36 145 34 166 32 2 526 109 176 36 139 34 161 32

20/20 0 545 118 160 41 179 38 157 38

1 616 118 218 40 168 38 167 38 2 589 122 180 41 158 38 164 38

30/10 0 652 138 215 46 180 46 211 46

1 614 138 207 46 201 46 191 46 2 654 141 219 46 198 44 197 46

*Max 為能力參數真值與估計值之排名之絕對值差異最大值

*IQR 為能力參數真值與估計值之排名差異之四分差

表 8 之數據顯示全體排名差異 Max 值介於 485~654 之間，IQR 值介於 104~141 之間，觀察不同詴題類型，其數據顯示不論是 Max 值與 IQR 值皆為 10/30＜20/20

＜30/10，在定錨題 DIF 題數之部分，Max 值對於 DIF 題數之增加無明顯趨勢，

但可發現無 DIF 題數時 Max 值會較小，而 IQR 值有隨著 DIF 題數之增加而增加之趨勢；各群體排名差異 Max 值介於 139~219 之間，IQR 值介於 32~46 之間，各群體 Max 值與 IQR 值與全體結果相同，皆為 10/30＜20/20＜30/10，而隨著定錨題 DIF 題數之增加，Max 值與 IQR 值比起全體結果更無明顯趨勢。

表 9 之數據顯示全體排名差異 Max 值介於 952~1456 間，IQR 值介於 205~281 間，Max 值與 IQR 值有 10/30 最小，其次 20/20，最後為 30/10 之趨勢，且 Max

值稍有隨著定錨題 DIF 題數之增加而增加之趨勢，IQR 值明顯有隨著定錨題 DIF

圖 2 與圖 3 分別為群組數為 3 與 6 時之水平等化下，各情境能力參數之排名差異之箱形圖，圖中 10/30-0 代表詴題類型 10/30 定錨題 DIF 題數為 0 之情境，

其他符號以此類推。由箱形圖可見得群體數為 3 時，其 IQR 會隨著二分詴題之增加而增加，且排名之差距也越不集中，在相同詴題類型下定錨題具 DIF 題數之增加，IQR 值較看不出明顯變化；群體數為 6 時之結果與群組數為 3 雷同。

圖 2 群組數為 3 時之水平等化下，各情境能力參數之排名差異之箱形圖

圖 3 群組數為 6 時之水平等化下，各情境能力參數之排名差異之箱形圖

在文檔中具DIF之定錨題對多群體水平及垂直等化之影響研究 (頁 25-35)

第四章 研究結果與討論

第一節 水平等化之估計結果

壹、能力參數之 Bias

貳、能力參數之 RMSE

叁、能力參數之相關係數

肆、能力參數之排名差異

第四章研究結果與討論

第一節水平等化之估計結果