• 沒有找到結果。

「估計值標準化」方法下垂直等化之 估計結果

肆、分開估計與同時估計的等化結果比較

第三節 「估計值標準化」方法下垂直等化之 估計結果

在本研究的垂直等化情境下(兩群體中的基準群服從平均數為-0.5、標準差 為 1 的常態分佈;目標群則服從平均數為 0.5、標準差為 1 的常態分佈),研究 者產生 100 筆資料,以「估計值標準化」的方式來進行最後的等化步驟,探討在 四種樣本數、三種測驗長度、三種定錨題比例與兩種等化方法下,其能力參數與 試題參數估計誤差在 100 次的模擬分析後,其平均估計誤差結果如下表 4-15 與 4-16。

為了清楚呈現研究結果,在表 4-15 與 4-16 中亦運用了代碼,各個代碼的含 意與表 4-1 和表 4-2 相同。

表 4-15 垂直等化時,同時估計法在各個情境下各參數

RMSE

的平均數與標準差

std mea 0.057 0.39 0.056 0.36 0.053 0.35 0.044 0.27 0.043 0.25 0.034 0.25 0.039 0.22 0.035 0.22 0.037 0.21 0.045 0.38 0.048 0.36 0.044 0.36 0.034 0.27 0.028 0.26 0.032 0.25 0.028 0.22 0.028 0.22 0.027 0.22 0.045 0.39 0.041 0.36 0.034 0.35 0.031 0.27 0.026 0.25 0.035 0.25 0.030 0.22 0.029 0.21 0.028 0.21 0.029 0.38 0.029 0.36 0.030 0.36 0.022 0.27 0.021 0.26 0.020 0.25 0.017 0.22 0.019 0.22 0.019 0.21 4

mean std mean std mean std mean std mean n std mean std 55-10-10% 0.255 0.027 0.371 0.089 0.249 0.053 0.257 0.041 0.351 2 0.019 0.416 0.018 55-10-20% 0.215 0.033 0.277 0.081 0.160 0.048 0.163 0.036 0.267 4 0.015 0.390 0.013 55-10-30% 0.190 0.032 0.246 0.073 0.140 0.037 0.135 0.032 0.230 8 0.013 0.385 0.015 55-20-10% 0.182 0.021 0.230 0.053 0.158 0.034 0.159 0.026 0.238 3 0.012 0.276 0.012 55-20-20% 0.157 0.018 0.190 0.043 0.118 0.025 0.119 0.020 0.192 8 0.010 0.263 0.011 55-20-30% 0.153 0.020 0.177 0.043 0.110 0.024 0.107 0.019 0.169 7 0.010 0.252 0.009 55-30-10% 0.152 0.016 0.208 0.045 0.134 0.024 0.140 0.021 0.211 7 0.010 0.232 0.010 55-30-20% 0.139 0.014 0.177 0.036 0.111 0.019 0.118 0.016 0.189 0 0.008 0.222 0.009 55-30-30% 0.137 0.016 0.172 0.033 0.111 0.019 0.112 0.017 0.181 7 0.008 0.217 0.008 15-10-10% 0.245 0.027 0.397 0.087 0.270 0.050 0.256 0.030 0.320 6 0.011 0.444 0.020 15-10-20% 0.214 0.029 0.318 0.097 0.188 0.055 0.169 0.030 0.257 8 0.010 0.398 0.017 15-10-30% 0.182 0.029 0.260 0.076 0.144 0.045 0.140 0.031 0.222 2 0.010 0.391 0.015 15-20-10% 0.172 0.017 0.248 0.047 0.171 0.030 0.157 0.025 0.211 2 0.007 0.292 0.013 15-20-20% 0.148 0.020 0.197 0.055 0.122 0.029 0.112 0.017 0.169 1 0.007 0.269 0.010 15-20-30% 0.144 0.019 0.178 0.054 0.109 0.028 0.100 0.014 0.161 9 0.008 0.257 0.009 15-30-10% 0.136 0.014 0.204 0.043 0.130 0.024 0.121 0.018 0.176 6 0.007 0.237 0.011 15-30-20% 0.126 0.014 0.172 0.035 0.107 0.018 0.102 0.015 0.159 1 0.007 0.226 0.008 15-30-30% 0.124 0.014 0.165 0.032 0.105 0.021 0.097 0.017 0.155 0 0.006 0.220 0.009 11-10-10% 0.249 0.023 0.331 0.062 0.224 0.035 0.242 0.034 0.329 2 0.014 0.413 0.013 11-10-20% 0.201 0.026 0.237 0.052 0.133 0.033 0.144 0.024 0.233 0 0.010 0.389 0.011 11-10-30% 0.167 0.027 0.194 0.048 0.107 0.032 0.112 0.026 0.189 6 0.010 0.385 0.010 11-20-10% 0.161 0.015 0.205 0.035 0.141 0.024 0.144 0.021 0.206 3 0.009 0.276 0.009 11-20-20% 0.131 0.015 0.147 0.030 0.091 0.020 0.097 0.015 0.153 8 0.007 0.262 0.007 11-20-30% 0.124 0.013 0.137 0.029 0.083 0.020 0.086 0.015 0.150 6 0.007 0.252 0.007 11-30-10% 0.125 0.014 0.159 0.026 0.104 0.017 0.110 0.019 0.168 6 0.008 0.230 0.007 11-30-20% 0.111 0.012 0.131 0.023 0.083 0.013 0.089 0.016 0.144 9 0.006 0.220 0.006 11-30-30% 0.107 0.013 0.126 0.021 0.079 0.012 0.084 0.013 0.140 8 0.006 0.215 0.006 21-10-10% 0.235 0.021 0.368 0.051 0.255 0.034 0.245 0.027 0.303 5 0.007 0.439 0.013 21-10-20% 0.198 0.021 0.266 0.054 0.159 0.035 0.158 0.019 0.231 6 0.008 0.400 0.011 21-10-30% 0.169 0.023 0.221 0.054 0.121 0.034 0.121 0.021 0.196 1 0.007 0.391 0.010 21-20-10% 0.156 0.015 0.222 0.040 0.156 0.025 0.147 0.018 0.191 1 0.006 0.291 0.009 21-20-20% 0.125 0.014 0.156 0.030 0.096 0.018 0.092 0.013 0.141 0 0.005 0.267 0.007 21-20-30% 0.119 0.013 0.141 0.029 0.083 0.017 0.077 0.012 0.125 9 0.006 0.256 0.007 21-30-10% 0.117 0.012 0.169 0.034 0.109 0.018 0.104 0.014 0.143 6 0.005 0.237 0.007 21-30-20% 0.104 0.011 0.137 0.023 0.083 0.013 0.080 0.012 0.123 1 0.004 0.224 0.005 21-30-30% 0.097 0.011 0.120 0.026 0.073 0.011 0.071 0.010 0.116 9 0.004 0.218 0.006

研究情境

C_a C_b1 C_b2 C_b3 C_b CB CT

表 4-16 垂直等化時,分開估計法在各個情境下各參數 RMSE 的平均數與標準差

std mea 0.066 0.36 0.053 0.35 0.050 0.35 0.033 0.25 0.039 0.25 0.031 0.25 0.033 0.22 0.033 0.21 0.036 0.21 0.060 0.36 0.047 0.36 0.039 0.35 0.028 0.25 0.027 0.25 0.032 0.25 0.025 0.22 0.027 0.21 0.026 0.21 0.055 0.35 0.037 0.35 0.032 0.35 0.022 0.25 0.024 0.25 0.032 0.25 0.023 0.21 0.024 0.21 0.027 0.21 0.035 0.35 0.029 0.35 0.031 0.35 0.022 0.25 0.020 0.25 0.020 0.25 0.014 0.21 0.016 0.21 0.018 0.21 _b4

mean std mean std mean std mean std mean n std mean std 55-10-10% 0.202 0.041 0.249 0.081 0.145 0.042 0.136 0.038 0.230 4 0.019 0.389 0.019 55-10-20% 0.185 0.036 0.237 0.071 0.139 0.040 0.122 0.030 0.212 9 0.016 0.387 0.015 55-10-30% 0.177 0.032 0.229 0.064 0.130 0.033 0.119 0.027 0.205 7 0.013 0.384 0.016 55-20-10% 0.156 0.025 0.180 0.046 0.111 0.024 0.103 0.015 0.173 8 0.011 0.264 0.011 55-20-20% 0.146 0.018 0.174 0.035 0.104 0.020 0.100 0.017 0.168 5 0.010 0.261 0.010 55-20-30% 0.147 0.021 0.170 0.039 0.104 0.022 0.098 0.016 0.155 6 0.010 0.252 0.010 55-30-10% 0.142 0.019 0.181 0.038 0.110 0.018 0.110 0.017 0.175 0 0.011 0.226 0.010 55-30-20% 0.135 0.014 0.167 0.033 0.103 0.016 0.106 0.014 0.175 9 0.009 0.221 0.009 55-30-30% 0.134 0.016 0.168 0.031 0.107 0.017 0.105 0.015 0.172 7 0.008 0.216 0.009 15-10-10% 0.189 0.053 0.235 0.096 0.133 0.050 0.122 0.035 0.212 1 0.014 0.400 0.022 15-10-20% 0.178 0.032 0.247 0.087 0.137 0.044 0.115 0.025 0.203 0 0.010 0.391 0.016 15-10-30% 0.161 0.028 0.221 0.067 0.121 0.041 0.115 0.026 0.194 8 0.010 0.390 0.016 15-20-10% 0.143 0.024 0.173 0.047 0.104 0.027 0.095 0.014 0.152 9 0.007 0.268 0.012 15-20-20% 0.135 0.019 0.171 0.043 0.100 0.023 0.089 0.014 0.146 8 0.007 0.265 0.011 15-20-30% 0.136 0.019 0.164 0.052 0.097 0.024 0.088 0.014 0.147 7 0.008 0.256 0.010 15-30-10% 0.121 0.015 0.163 0.033 0.097 0.018 0.090 0.013 0.145 0 0.007 0.226 0.009 15-30-20% 0.119 0.015 0.158 0.029 0.096 0.013 0.090 0.012 0.145 9 0.007 0.223 0.009 15-30-30% 0.121 0.014 0.157 0.030 0.099 0.019 0.091 0.015 0.146 9 0.006 0.219 0.009 11-10-10% 0.174 0.037 0.198 0.058 0.109 0.029 0.100 0.036 0.185 9 0.015 0.385 0.012 11-10-20% 0.162 0.026 0.184 0.043 0.099 0.025 0.089 0.022 0.170 4 0.011 0.383 0.011 11-10-30% 0.149 0.028 0.175 0.047 0.096 0.028 0.091 0.024 0.160 4 0.011 0.384 0.010 11-20-10% 0.122 0.020 0.143 0.034 0.082 0.020 0.077 0.012 0.127 7 0.008 0.262 0.009 11-20-20% 0.116 0.015 0.130 0.025 0.075 0.016 0.075 0.011 0.125 5 0.007 0.259 0.007 11-20-30% 0.114 0.014 0.129 0.026 0.073 0.017 0.072 0.013 0.131 4 0.007 0.251 0.007 11-30-10% 0.105 0.016 0.129 0.021 0.076 0.011 0.075 0.011 0.125 7 0.007 0.223 0.006 11-30-20% 0.102 0.012 0.122 0.019 0.074 0.011 0.074 0.011 0.125 7 0.006 0.219 0.006 11-30-30% 0.101 0.012 0.122 0.021 0.075 0.012 0.076 0.012 0.128 7 0.006 0.215 0.006 21-10-10% 0.157 0.030 0.179 0.051 0.098 0.029 0.094 0.022 0.176 9 0.008 0.389 0.013 21-10-20% 0.154 0.024 0.179 0.049 0.095 0.027 0.088 0.017 0.171 6 0.008 0.389 0.011 21-10-30% 0.142 0.025 0.181 0.049 0.096 0.027 0.088 0.017 0.162 7 0.008 0.390 0.010 21-20-10% 0.113 0.020 0.132 0.036 0.075 0.021 0.069 0.011 0.118 8 0.006 0.265 0.008 21-20-20% 0.106 0.015 0.125 0.027 0.069 0.015 0.065 0.009 0.115 7 0.005 0.263 0.007 21-20-30% 0.107 0.014 0.124 0.025 0.068 0.014 0.062 0.010 0.110 7 0.006 0.255 0.007 21-30-10% 0.096 0.013 0.125 0.026 0.070 0.012 0.065 0.008 0.105 9 0.005 0.226 0.006 21-30-20% 0.093 0.011 0.118 0.020 0.068 0.010 0.064 0.008 0.106 9 0.004 0.221 0.005 21-30-30% 0.090 0.011 0.112 0.023 0.067 0.010 0.062 0.009 0.105 8 0.004 0.217 0.006

研究情境

S_a S_b1 S_b2 S_b3 S SB ST

壹、不同樣本數下的估計結果比較

不同的樣本數對能力與試題參數等化效果的影響結果列於下表 4-17 至表 4-20。表中每一個折線圖的橫軸為樣本數,縱軸則為平均估計誤差。

一、能力參數估計誤差

根據表 4-17 所示,在垂直等化時,不同的樣本數情境下,

RMSE (

θ 與B

) )

(

T

RMSE

θ 的估計結果,與水平等化時隨著樣本數的增加而降低誤差的情形 並不相同。由研究數據可知,同時估計法與分開估計法在兩個群體樣本數 都增加時,其能力參數的估計會隨之降低,即不論是基準群或是目標群其 能力估計誤差均為:

RMSE (

θ

) _ 55 > RMSE (

θ

) _ 11

21 _ ) (

15

_ )

(

θ

> RMSE

θ

RMSE

,但若僅只增加基準群的樣本數,其能力參數 的估計誤差則不降反升,即

RMSE (

θ

) _ 15 > RMSE (

θ

) _ 55

11 _ ) (

21

_ )

(

θ

> RMSE

θ

RMSE

、,亦即增加基準群的樣本數並無法提高測驗精 準度,反而提高了估計誤差。

此情況隨著測驗長度的增加以及定錨題比例的提高而逐漸減緩,在測 驗長度增加至 20 題,定錨題比例提高至 20﹪以上後,可發現受樣本數不 等的影響已十分微小,同時,測驗人數已不是影響估計測驗精準度的主要 因素了,樣本數為 B500/T500 已與 B1000/T1000、B2000/T1000 具有相仿 的能力估計誤差結果。但是當測驗題數少,定錨題比例低時,則建議基準 群與目標群的樣本數相當,會獲得較精準的能力參數估計值。

二、鑑別度參數估計誤差

根據表 4-18 所示,在垂直等化時,不論是同時估計法或是分開估計法 下所估計的鑑別度參數, 明顯受樣本數的影響。鑑別度參數估計 值的估計誤差隨著人數的增加而減小,其在樣本數變項下誤差大小為:

)

(a

RMSE

21 _ ) ( 11

_ ) ( 15

_ ) ( 55

_ )

( a RMSE a RMSE a RMSE a

RMSE > > >

) ( b

4

RMSE

) ( b

2

RMSE ( b

3

)

) ( b

k

RMSE

,此結果與水平等 化情境下相同。故可知,在垂直等化下,施測總人數愈多,可獲得欲精準 的鑑別度參數估計值。

三、選項閾值參數估計誤差

4-19 與表 4-20 分別列出同時估計法與分開估計法在垂直等化下,不同 樣本數在四個選項閾值參數估計值的估計誤差。由表中可發現,在垂直等 化時,不同樣本數在同時估計法與分開估計法下,在 的表現並不 一致。

) ( b

k

RMSE

以同時估計法而言,其四個選項閾值在樣本數方面的表現各不相同,

除了 一致地隨著測驗人數的增加而逐漸降低外, 、

RMSE

在測驗長度短及定錨題比例低時,則受到樣本數不均 的影響,當兩群體人數不等,其誤差較大,隨著測驗長度增長與定錨題比 例增高時,此現象才逐漸減小,變成四個選項閾值的誤差均隨著測驗人數 增加而減小。推論會有此現象,可能是兩群體樣本數不等時,其平均能力 值與 MULTILOG 預設的先驗分配不同,所造成的估計誤差提高現象。

) ( b

1

RMSE

而以分開估計法而言,其四個選項閾值參數估計值的估計誤差

乃隨著施測總人數的增加而逐漸減小,此與水平等化下的結果相 同。

由不同的樣本數對能力與試題參數等化效果影響的研究結果可知,在垂直等 化時,隨著樣本數的增加鑑別度參數會逐漸下降,但施測的兩群體人數不等,卻 會對能力估計與同時估計法下的選項閾值參數估計造成不良的影響,如樣本數為 B1000/T500 其在能力與選項閾值的估記誤差反比 B500/T500 大,亦即增加樣本 數,卻未獲得較理想的結果,故由研究結果可知,在進行垂直等化時,基準群與 目標群的人數應相當,會獲得較佳的結果。

表 4-17 垂直等化時,

RMSE (

θ 與B

) RMSE (

θ 在不同樣本數下的表現 T

)

表 4-18 垂直等化時,

RMSE (a )

在不同樣本數下的表現

表 4-19 垂直等化時,同時估計法的

RMSE ( b

k

)

在不同樣本數下的表現

表 4-20 垂直等化時,分開估計法的

RMSE ( b

k

)

在不同樣本數下的表現

貳、不同測驗長度下的估計結果比較

不同的測驗長度對能力與試題參數等化效果的影響結果列於下表 4-21 至表 4-24。表中每一個折線圖的橫軸為測驗長度,分別為 10、20、30 題三種情形,縱 軸則為平均估計誤差。

一、能力參數估計誤差

根據表 4-21 的研究結果所示,在垂直等化時,不同的測驗長度下,其 能力參數的平均估計誤差明顯受測驗長度的影響,當測驗長度愈長,其

) (

B

RMSE

θ 與

RMSE (

θ 愈小,與水平等化的情境下有相同的結果。 T

)

以分開估計法的

RMSE (

θ 、B

) RMSE (

θ 而言,當測驗長度為 10 題時,T

)

其誤差分別約為.36、.39 左右;測驗長度為 20 題時,均約為.26 左右;測 驗長度為 30 題時,均約為.22 左右。以同時估計法的

RMSE (

θ 、B

) RMSE (

θT

)

而言,當測驗長度為 10 題時,其誤差分別約為.36、.40 左右;測驗長度為 20 題時,均約為.27 左右;測驗長度為 30 題時,均約為.23 左右。

垂直等化下分開估計法與同時估計法的能力估計誤差,雖隨著測驗長 度增長而減小,其測驗長度由 10 題增長為 20 題時,可發現明顯減小了 .10∼.13,但測驗長度再由 20 題增長為 30 題時,其能降低的誤差則較小。

總結上述,在垂直等化下,分開估計法與同時估計法的

RMSE (

θ 與B

) )

(

T

RMSE

θ 均隨著測驗長度增長而減小。

二、鑑別度參數估計誤差

根據表 4-22 所示,在垂直等化時,不論是同時估計法或是分開估計法 下所估計的鑑別度參數,其 明顯受測驗長度的影響,其鑑別度參 數估計值的誤差,隨測驗長度增長而減小。由此可知,在垂直等化時,當 測驗長度愈長,其 愈小。

) (a RMSE

) (a RMSE

另外,當測驗長度由 10 題增加至 20 題時,其下降 比測驗長 度由 20 題增加至 30 題減小的幅度還大,故可知隨著測驗長度的增加,其 誤差下降的幅度逐漸減小。

) (a RMSE

三、選項閾值參數估計誤差

表 4-23 與表 4-24 分別列出同時估計法與分開估計法在垂直等化下,

不同測驗長度在四個選項閾值參數估計值的估計誤差。根據結果所示,在 垂直等化時,同時估計法與分開估計法在不同測驗長度下所估計的選項閾 值參數的估計誤差,有隨著測驗長度的增長而減小的趨勢。由上可知,在 垂直等化下,測驗長度的增加能提高選項閾值參數的估計精準度。

而同時估計法與分開估計法的 雖隨著測驗長度的增加而減 小,但測驗長度的增加對估計法仍有不同的影響,同時估計法受測驗長度 影響較大,而分開估計法受測驗增加的影響較小,尤其在測驗長度增長為 20 題後,其對選項閾值的估計已趨於穩定,故再增加至 30 題時,所能降 低的誤差十分有限。

) ( b

k

RMSE

由不同的測驗長度對能力與試題參數等化效果影響的研究結果可知,在垂直 等化的情境下,測驗長度的增加能有效降低鑑別度、選項閾值及能力參數的估計 誤差,故在進行等化時,測驗長度乃一個重大的影響因素,測驗長度愈長,愈能 提高測驗等化的精準度,此與水平等化下的結果相同。

表 4-21 垂直等化時,

RMSE (

θ 與B

) RMSE (

θ 在不同測驗長度下的表現 T

)

表 4-22 垂直等化時,

RMSE (a )

在不同測驗長度下的表現

表 4-23 垂直等化時,同時估計法的

RMSE ( b

k

)

在不同測驗長度下的表現

表 4-24 垂直等化時,分開估計法的

RMSE ( b

k

)

在不同測驗長度下的表現

參、不同定錨題比例下的估計結果比較

不同的定錨題比例對能力與試題參數等化效果的影響結果列於下表 4-25 至 表 4-28。表中每一個折線圖的橫軸為定錨題比例,縱軸為平均估計誤差。

一、能力參數估計誤差

根據表 4-25 的研究結果所示,在垂直等化的情境時,基準群與目標群 的能力參數估計誤差—

RMSE (

θ 、B

) RMSE (

θ ,均受測驗定錨題比例的影T

)

響,當定錨題比例愈高,其平均估計誤差愈小。

同時估計法下,隨著定錨題比例的提高,其

RMSE (

θ 、B

) RMSE (

θ 均隨T

)

之明顯降低,當定錨題比例由 10﹪提高為 20﹪時,其能力估計誤差降低的 幅度較為明顯;但當定錨題比例由 20﹪提高為 30﹪時,其估計誤差雖有降 低,但降低的幅度則較小,且測驗長度愈長,降低的幅度反過來則愈不明 顯,推論其原因應該是當定錨題比例增高至 20﹪時,已提供足夠的等化訊 息,故再提高至 30﹪時,降低的估計誤差則有限。

至於分開估計法,不論在測驗長度為 10、20 或 30 題,雖然其

)

(

B

RMSE

θ 、

RMSE (

θ 均隨著定錨題比例的提高而降低,但其降低的程度有T

)

限,每提高 10﹪的定錨題比例,其降低的能力估計誤差幾乎都在.01 以下,

故在分開估計法下,增加定錨題比例,對於提高測驗等化的精準度並無太 大作用。

由定錨題比例對能力參數等化效果的影響可知,提高定錨題比例時,

) (

B

RMSE

θ 、

RMSE (

θ 均會隨著比例的提高而降低,但提高定錨題比例對分T

)

開估計法所估得的能力參數影響不大,對同時估計法而言,當定錨題比例 為 20﹪時,即已提供足夠的等化訊息。

二、鑑別度參數估計誤差

根據表 4-26 所示,在垂直等化時,不論是同時估計法或是分開估計法 下所估計的鑑別度參數,其

RMSE (a )

都受定錨題比例的影響。

以分開估計法而言,發現其 僅隨著定錨題比例的增加而略微 降低其估計誤差;至於同時估計法,其 隨著定錨題比例增加而降 低的幅度則較明顯。但隨著測驗長度的增加,分開估計法與同時估計法受 定錨題影響所降低的幅度則愈來愈小。

) (a RMSE

) (a RMSE

由定錨題比例對鑑別度參數等化效果的影響可知,在垂直等化時,鑑 別度參數估計值的誤差,隨定錨題比例增加而減小。

三、選項閾值參數估計誤差

表 4-27 與表 4-28 分別列出同時估計法與分開估計法在垂直等化下,

不同定錨題比例對四個選項閾值參數估計值的估計誤差,根據表中結果所 示,在垂直等化時,同時估計法與分開估計法在不同定錨題比例下所估計

不同定錨題比例對四個選項閾值參數估計值的估計誤差,根據表中結果所 示,在垂直等化時,同時估計法與分開估計法在不同定錨題比例下所估計

相關文件