第四章 研究結果與討論
第一節 水平等化之估計結果
本研究之水平等化研究結果呈現在表 2 至表 9 中,分別顯示水平等化各情境 下能力參數的 bais、RMSE、相關及排名差異之情形,以下將分別對於上述四種 數據進行說明。
壹、能力參數之 Bias
Bias 之功用為觀察估計值對於真值高低估的情形,Bias 若越靠近 0 越好。表 2 之數據為在群體數為 3 時之水平等化下,各情境能力參數之 Bias 的平均數與標 準差,其結果顯示全體 Bias 之平均數在-0.01~0.01 之間,標準差在 0.02~0.05 之 間,不論何種詴題類型下 Bias 之平均數皆與 0.00 相去不遠,且隨著定錨題具 DIF 題數之增加,Bias 之平均數並無明顯增加或減少之趨勢,Bias 之標準差為定錨題 無 DIF 題時較小,顯示定錨題有 DIF 題時結果較不穩定。在各個群體的部分,
Bias 之平均數在-0.07~0.10 之間,大致上有隨著定錨題具 DIF 題數之增加而增加 之趨勢,Bias 之標準差介在 0.03~0.08 間,大致上為定錨題有 DIF 詴題的標準差 較大。
表 3 之數據為在群體數為 6 時之水平等化下,各情境能力參數之 Bias 的平均 數與標準差,其結果顯示全體不論在何種詴題類型下,隨著定錨題具 DIF 題數之 增加,Bias 之平均數皆極接近 0.00,而 Bias 之標準差介於 0.02~0.04 間,較無明 顯增加或減少之趨勢。在各個群體的部分,Bias 之平均數介於-0.11~0.10 之間,
隨著定錨題 DIF 數之增加,Bias 之平均數大致上亦隨之增加;Bias 之標準差介在 0.03~0.07 間,大致上為定錨題具 DIF 詴題的標準差較定錨題無 DIF 詴題的為大。
表 2 群體數為 3 時之水平等化下,各情境能力參數之 Bias 的平均數與標準差
加,Bias 之標準差大致上為定錨題具 DIF 詴題的較定錨題無 DIF 詴題的為大,且 隨著定錨題具 DIF 題數的增加而增加之趨勢。
貳、能力參數之 RMSE
如第三章所述,均方根誤差(也就是 RMSE)為本研究估計精確度之指標,
用來觀察真值與估計值間誤差之大小情形,若 RMSE 越小,代表精確度越高。表 4 之數據為在群組數為 3 時之水平等化下,各情境能力參數之 RMSE 的平均數與 標準差,全體 RMSE 之平均數介於 0.21~0.28 間,標準差皆為 0.01,各群體 RMSE 之平均數介於 0.21~0.29 之間,標準差介於 0.01~0.03 間。全體與各群體之結果皆 相同,皆為詴題類型為 10/30 之 RMSE<20/20 之 RMSE<30/10 之 RMSE,且 RMSE 隨著定錨題具 DIF 題數之增加而增加。
表 4 群組數為 3 時之水平等化下,各情境能力參數之 RMSE 的平均數與標準差
詴題類型 定錨題
DIF 數
全體 G1 G2 G3
mean std mean std mean std mean std
10/30 0 0.21 0.01 0.22 0.01 0.21 0.01 0.21 0.02 1 0.21 0.01 0.22 0.02 0.21 0.01 0.21 0.02 2 0.22 0.01 0.24 0.03 0.21 0.02 0.22 0.02 20/20 0 0.24 0.01 0.25 0.01 0.23 0.01 0.23 0.01 1 0.24 0.01 0.25 0.01 0.23 0.01 0.23 0.01 2 0.25 0.01 0.26 0.02 0.23 0.01 0.24 0.01 30/10 0 0.27 0.01 0.28 0.01 0.27 0.01 0.27 0.01 1 0.28 0.01 0.28 0.01 0.27 0.01 0.28 0.01 2 0.28 0.01 0.29 0.02 0.27 0.01 0.28 0.01
表 5 之數據為在群組數為 6 時之水平等化下,各情境能力參數之 RMSE 的平 均數與標準差,全體 RMSE 之平均數介於 0.21~0.28 間,標準差介於 0.00~0.01 間,各群體 RMSE 之平均數介於 0.21~0.30 之間,標準差介於 0.01~0.03 間。
表 5 之結果與表 4 相同,亦為詴題類型為 10/30 之 RMSE 最小,其次為 20/20,
最後是 30/10 之 RMSE 最大,且隨著定錨題具 DIF 題數之增加,RMSE 亦隨之增 加,顯示在相同題長的情況下,多分題越多之測驗其能力估計值會越精確,而具 DIF 之定錨題數的增加會影響估計之精準度,使能力估計變得較不精確。進一步 比較表 4 與表 5 之結果可發現其全體 RMSE 之平均數幾乎相同,但表 5 之標準差 較小一些,顯示在水平等化下,各群體人數皆相同時,群體數較多之情境其等化 之精確度會較穩定。
表 5 群組數為 6 時之水平等化下,各情境能力參數之 RMSE 的平均數與標準差
詴題 類型
定錨題 DIF 數
全體 G1 G2 G3 G4 G5 G6
mea
n std mean std mean std mean std mean std mean std mean std 10/30 0 0.21 0.01 0.22 0.01 0.21 0.01 0.21 0.02 0.21 0.02 0.21 0.01 0.21 0.01
1 0.21 0.01 0.22 0.02 0.21 0.02 0.21 0.02 0.22 0.02 0.21 0.01 0.21 0.02 2 0.22 0.01 0.23 0.02 0.21 0.01 0.21 0.01 0.22 0.03 0.21 0.01 0.23 0.03 20/20 0 0.23 <0.01 0.25 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 1 0.24 0.01 0.25 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.24 0.02 2 0.24 0.01 0.26 0.02 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.26 0.02 30/10 0 0.27 <0.01 0.28 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.28 0.01 1 0.28 <0.01 0.28 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.28 0.01 2 0.28 0.01 0.30 0.02 0.27 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.29 0.02
叁、能力參數之相關係數
表 6 及表 7 之數據分別為在群體數為 3 及 6 時之水平等化下,各情境能力參 數真值與估計值之相關係數,相關係數是觀察能力真值與能力估計值關係程度的 大小,若其值越靠近 1 則正相關程度越高。表 6 全體與各群體之相關係數皆介於 0.95~0.98 之間,在詴題類型 10/30 之情境下,全體最小之相關係數會隨著定錨題
著定錨題具 DIF 題數之增加,由 0.98 下降至 0.97,30/10 之情境則是全體最小之 相關係數隨著定錨題具 DIF 題數之增加,由 0.96 下降至 0.95,表中數據顯示不論 是何種詴題類型皆會隨著定錨題具 DIF 題數之增加使得相關下降,且在定錨題無 DIF 題數時,比較三種詴題類型可發現有 10/30 之相關係數>20/20 之相關係數>
30/10 之相關係數之趨勢,此與群體數為三時之 RMSE 結果相符,10/30 之相關係 數最大而 RMSE 最小。
表 6 群組數為 3 時之水平等化下,各情境能力參數真值與估計值之相關係數
詴題類型 定錨題
DIF 數
全體 G1 G2 G3
Max Min Max Min Max Min Max Min
10/30 0 0.98 0.97 0.98 0.97 0.98 0.98 0.98 0.97 1 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.98 2 0.98 0.96 0.98 0.97 0.98 0.98 0.98 0.97 20/20 0 0.98 0.97 0.98 0.96 0.98 0.97 0.98 0.97 1 0.98 0.97 0.98 0.96 0.98 0.97 0.98 0.97 2 0.97 0.97 0.98 0.96 0.98 0.97 0.98 0.97 30/10 0 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.95 1 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.95 2 0.97 0.95 0.97 0.95 0.97 0.95 0.97 0.95
表 7 之數據顯示全體相關係數介於 0.96~0.98 之間,各群體之相關係數介於 0.95~0.98 之間,在詴題類型 10/30 之情境下,全體最小之相關係數會隨著定錨題 具 DIF 題數之增加,由 0.98 下降至 0.97;20/20 之情境相關係數皆為 0.97,無明 顯變化,30/10 之情境則是全體最小之相關係數隨著定錨題具 DIF 題數之增加,
由 0.97 下降至 0.96,表中數據顯示不論是何種詴題類型,全體與各群體之相關係 數皆有隨著定錨題具 DIF 題數之增加使得相關下降之趨勢,且相關係數仍是 10/30 之相關係數最大,其次是 20/20,最後是 30/10,此部份結果亦與群體數為 6 時之
RMSE 結果相符。
比較表 6 與表 7 之結果,在群體數為 6 時,其全體相關係數稍微較群體數為 3 時來得大,顯示在水平等化下且各群體人數相同時,群體數較多之情境其相關 係數較大;不論是群體數 3 或 6 之情境,在定錨題無 DIF 題數之相關係數皆為詴 題類型 10/30 最大,其次 20/20,最後為 30/10,且相關係數會隨著定錨題具 DIF 題數之增加而減少,顯示詴題類型及定錨題具 DIF 題數的確會影響估計結果,詴 題類型為 10/30 且定錨題無 DIF 題數之相關係數為最大。
表 7 群組數為 6 時之水平等化下,各情境能力參數真值與估計值之相關係數 詴題
類型
定錨題 DIF 數
全體 G1 G2 G3 G4 G5 G6
Max Min Max Min Max Min Max Min Max Min Max Min Max Min 10/30 0 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98
1 0.98 0.97 0.98 0.97 0.98 0.98 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98 2 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.98 20/20 0 0.97 0.97 0.98 0.96 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 1 0.97 0.97 0.98 0.96 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 2 0.97 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 30/10 0 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.96 0.97 0.95 0.97 0.96 0.97 0.96 1 0.97 0.96 0.97 0.96 0.97 0.95 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.95 2 0.96 0.96 0.97 0.95 0.97 0.96 0.97 0.96 0.97 0.95 0.97 0.96 0.97 0.95
肆、能力參數之排名差異
如同第三章所述,排名差異是觀察受詴者能力真值之排名與能力估計值之排 名差異大小,排名差異越小越好,代表等化後之能力值之估計結果排名與真值排 名相近。表 8 與表 9 所呈現之結果分別為群組數為 3 時與群組數為 6 時之水平等 化下,各情境能力參數真值與估計值之排名差異,表中 Max 此項數值為能力參數
差異之四分差,G1、G2 與 G3 之 Max 及 IQR 計算方法為僅該群體能力值排名之 差異,表中無列出 Min 此項數值,也就是不列出能力參數真值與估計值之排名之 絕對值差異最小值,這是因為各項之絕對值差異最小值皆為 0,故不呈現在表中。
表 8 群組數為 3 時之水平等化下,各情境能力參數真值與估計值之排名差異
詴題類型 定錨題
DIF 數
全體 G1 G2 G3
Max IQR Max IQR Max IQR Max IQR
10/30 0 502 104 151 35 147 34 159 32
1 485 104 167 36 145 34 166 32 2 526 109 176 36 139 34 161 32
20/20 0 545 118 160 41 179 38 157 38
1 616 118 218 40 168 38 167 38 2 589 122 180 41 158 38 164 38
30/10 0 652 138 215 46 180 46 211 46
1 614 138 207 46 201 46 191 46 2 654 141 219 46 198 44 197 46
*Max 為能力參數真值與估計值之排名之絕對值差異最大值
*IQR 為能力參數真值與估計值之排名差異之四分差
表 8 之數據顯示全體排名差異 Max 值介於 485~654 之間,IQR 值介於 104~141 之間,觀察不同詴題類型,其數據顯示不論是 Max 值與 IQR 值皆為 10/30<20/20
<30/10,在定錨題 DIF 題數之部分,Max 值對於 DIF 題數之增加無明顯趨勢,
但可發現無 DIF 題數時 Max 值會較小,而 IQR 值有隨著 DIF 題數之增加而增加 之趨勢;各群體排名差異 Max 值介於 139~219 之間,IQR 值介於 32~46 之間,各 群體 Max 值與 IQR 值與全體結果相同,皆為 10/30<20/20<30/10,而隨著定錨 題 DIF 題數之增加,Max 值與 IQR 值比起全體結果更無明顯趨勢。
表 9 之數據顯示全體排名差異 Max 值介於 952~1456 間,IQR 值介於 205~281 間,Max 值與 IQR 值有 10/30 最小,其次 20/20,最後為 30/10 之趨勢,且 Max
值稍有隨著定錨題 DIF 題數之增加而增加之趨勢,IQR 值明顯有隨著定錨題 DIF
圖 2 與圖 3 分別為群組數為 3 與 6 時之水平等化下,各情境能力參數之排名 差異之箱形圖,圖中 10/30-0 代表詴題類型 10/30 定錨題 DIF 題數為 0 之情境,
其他符號以此類推。由箱形圖可見得群體數為 3 時,其 IQR 會隨著二分詴題之增 加而增加,且排名之差距也越不集中,在相同詴題類型下定錨題具 DIF 題數之增 加,IQR 值較看不出明顯變化;群體數為 6 時之結果與群組數為 3 雷同。
圖 2 群組數為 3 時之水平等化下,各情境能力參數之排名差異之箱形圖
圖 3 群組數為 6 時之水平等化下,各情境能力參數之排名差異之箱形圖