第四章 研究結果與討論
第二節 BIB 等化設計估計結果
本研究為 BIB 等化設計下個體能力及群體能力參數估計效果的探討,並就不 同施測人數、不同施測題數及不同估計方法等三種面向進行分析比較。
壹、個體能力估結果比較
一、不同施測人數間之比較
如圖 4-4 所示。在施測題數為 18 題的情境中,就 PV_W 及 EAP_AV 此二種 估計方法而言,施測人數 10920 的個體能力估計的 RMSE 皆略低於 16128 人的情 境,但差異極小。而在 EAP、MLE、WLE 等另外三種方法在估計個體能力方面,
除了 EAP 法在高年級群組是 16128 人的情境低於 10920 人情境外,其餘皆是 10920 人的情境低於 16128 人情境。但是總體而言此三種估計方法的不同人數的情境中 差異並不大。
而在施測題數為 36 題的部份,五種估計方法的 RMSE 皆是施測人數 16128 人的情境低於 10920 人的情境,但是差異皆非常小;尤其是 PV_W 和 EAP_AV 這二種估計法,相差僅 0.001 而已,甚至 PV_W 在低年級群組中完全一致。
二、不同施測題數間之比較
如圖 4-4 所示,首先就 PV_W 及 EAP_AV 二種估計方法而言,不管是 10920 人的情境抑或是 16128 人的情境下,36 題的施測情境的 RMSE 皆低於 18 題的施 測情境。而對於 EAP、MLE、WLE 等三種估計方法的 RMSE 而言,除了在 10920
人低年級情境中三種估計方法是 18 題情境低於 36 題情境外,其餘皆是 36 題情 境低於 18 題情境。
圖 4-4 BIB 設計個體能力不同估計方法 RMSE
三、不同估計方法間之比較
不同情境中個體能力值估計結果之 RMSE 如表 4-4 所示。其中 PV_W 及 EAP_AV 方法的 RMSE 遠優於 EAP、MLE 及 WLE 三種估計方法;而對 PV_W 及 EAP_AV 這二種方法而言,EAP_AV 又是優於 PV_W。
四、綜合討論
在 BIB 等化設計下,個體能力值估計在本研究的不同施測人數情境中的估計 結果相差不大。與王暄博(2006)及王敏嫻(2011)結果相似。而在不同施測數 之比較下,則 PV_W 及 EAP_AV 這二種納入背景變項的估計法皆隨著受試題數 的增加而估計愈精準,此一研究果與王敏嫻(2011)結果就水平等化下之估計結 果相似。
而就不同估計方法間之比較來看,PV_W 及 EAP_AV 方法的 RMSE 遠優於 EAP、MLE 及 WLE 三種估計方法;而對 PV_W 及 EAP_AV 這二種方法而言,
EAP_AV 又是優於 PV_W。
表 4-4 BIB 設計不同情境中個體能力值估計結果之 RMSE 值
PV_W EAP_AV EAP MLE WLE 10920_18_G-L 0.492 0.452 0.947 0.937 0.907 10920_18_G-H 0.482 0.441 0.661 0.721 0.678 16128_18_G-L 0.503 0.463 1.062 1.048 1.017 16128_18_G-H 0.490 0.449 0.651 0.734 0.688 10920_36_G-L 0.395 0.364 1.000 0.970 0.960 10920_36_G-H 0.385 0.353 0.629 0.672 0.655 16128_36_G-L 0.395 0.363 0.968 0.939 0.929 16128_36_G-H 0.384 0.352 0.613 0.653 0.637 註:加底線者為 RMSE 值最低之估計方法
貳、群體能力參數估計結果比較
一、不同施測人數間之比較
就群體能力平均數的估計結果而言。同樣的,不管是高年級還是低年級,PV、
PV_W 及 EAP_AV 方法估計群體能力平均數的 RMSE 皆遠低於 EAP、MLE、WLE 等三種估計方法(圖 4-5)。而不管在施測題數 18 題或是 36 題,10920 人情境的 各種估計法的 RMSE 大部份是低於 16128 人情境的相對之估計法(圖 4-5、表 4-5)。然總體觀之,不同施測人數間相對之各種估計法的 RMSE 差異並不大。
就群體能力標準差的估計結果而言,如圖 4-6 所示,同樣的 PV 的估計結果
遠優於其它四種估計方法。同樣的不管是在題數為 18 題或是 36 題的情境中,不 同施測人數間相對之各種估計法的 RMSE 亦均無明顯差異。
二、不同施測題數間之比較
在群體能力平均數的 RMSE 部份,如圖 4-5 所示,就 PV、PV_W 及 EAP_AV 三種估計方法而言,在 16128 人的施測情境中,36 題的施測情境的 RMSE 皆低 於 18 題的施測情境;而在 10920 人的施測情境中,則是 18 題的施測情境的 RMSE 低於 36 題的施測情境。對於 EAP、MLE、WLE 等三種估計方法的 RMSE 而言,
除了在 16128 人低年級群組是 36 題情境低於 18 題情境外,其餘情境則是 18 題 情境低於 36 題情境。
就群體能力標準差而言,如圖 4-6 所示,不管是在 10920 人的情境還是 16128 人的情境中,五種估計方法的 RMSE 都是 36 題的的情境低於 18 題的情境。
圖 4-5 BIB 設計群體能力平均數不同估計方法 RMSE
圖 4-6 BIB 設計群體能力標準差不同估計方法 RMSE
三、不同估計方法間之比較
群體能力平均數與群體能力標準差在不同情境中估計結果之 RMSE 值如表 4-5 及表 4-6 所示。就群體能力平均數的部份來說,其中 PV、PV_W 及 EAP_AV 方法的 RMSE 低於 EAP、MLE 及 WLE 三種估計方法;在 PV、PV_W 及 EAP_AV 這部份,這三種估計法的差距非常小,最多僅有 0.004,其至在部份情境中會出 現完全一致的 RMSE。而就 EAP、MLE、WLE 這三種估計方法而言,EAP 的估 計效果最差,但是整體而言這三種估計法的差異不大。
而在群體能力標準差的估計情形來看,PV 的 RMSE 遠低於各種估計方法,
此種結果亦與王敏嫻(2011)就水平等化研究的結果整似。
四、綜合討論
在 BIB 等化設計下,群體能力平均數估計在本研究的不同施測人數情境中的 估計結果相差不大。而在不同施測數之比較下,則 PV、PV_W 及 EAP_AV 這三 種納入背景變項的估計法皆隨著受試題數的增加而估計愈精準,此一研究果與王
敏嫻(2011)就水平等化下之估計結果相似。從不同估計方法間的比較來看,PV、
PV_W 及 EAP_AV 這三種納入背景變項的估計法的估計效果優於其它三種未納入 背景變項的估計法,此一研究果亦與王敏嫻(2011)就水平等化下之估計結果相 似。
就群體能力標準差而言,同樣是不同施測人數情境下的 RMSE 均無明顯差 異;隨著受試題數的增加,則估計愈精準,此一研究結果與王敏嫻(2011)就水 平等化下之估計結果相似。從不同估計方法間的比較來看,PV 的估計效果遠優 於各種估計方法,同樣的與王敏嫻(2011)就水平等化下之估計結果相似。
此外,就 PV 及 PV_W 這二種估計方法而言,在群體能力平均數的估計上,
PV 及 PV_W 幾乎沒有任何差別,而在群體能力標準差的估計上,PV_W 的 RMSE 遠高於 PV,表示 PV_W 在群體能力標準差的估計上產生了偏誤,此一研究結果 與 von Davier 等人(2009)的研究結果相近。
表 4-5 BIB 設計不同情境中群體能力平均數估計結果之 RMSE 值 PV PV_W EAP_AV EAP MLE WLE 10920_18_G-L 0.099 0.095 0.095 0.799 0.696 0.700 10920_18_G-H 0.047 0.046 0.047 0.414 0.333 0.338 16128_18_G-L 0.132 0.127 0.128 0.925 0.826 0.825 16128_18_G-H 0.077 0.078 0.078 0.386 0.352 0.349 10920_36_G-L 0.101 0.096 0.097 0.893 0.832 0.832 10920_36_G-H 0.059 0.061 0.061 0.452 0.460 0.457 16128_36_G-L 0.098 0.095 0.095 0.860 0.803 0.802 16128_36_G-H 0.057 0.058 0.058 0.421 0.431 0.428 註:加底線者為 RMSE 值最低之估計方法
表 4-6 BIB 設計不同情境中群體能力標準差估計結果之 RMSE 值 PV PV_W EAP_AV EAP MLE WLE 10920_18_G-L 0.008 0.085 0.106 0.085 0.196 0.110 10920_18_G-H 0.007 0.083 0.102 0.073 0.225 0.137 16128_18_G-L 0.006 0.083 0.104 0.082 0.199 0.113 16128_18_G-H 0.006 0.085 0.105 0.077 0.224 0.137 10920_36_G-L 0.005 0.096 0.063 0.028 0.090 0.053 10920_36_G-H 0.005 0.061 0.062 0.017 0.111 0.073 16128_36_G-L 0.005 0.095 0.063 0.029 0.090 0.052 16128_36_G-H 0.004 0.058 0.062 0.018 0.110 0.071 註:加底線者為 RMSE 值最低之估計方法