NEAT 等化設計估計結果

第四章研究結果與討論

第一節 NEAT 等化設計估計結果

本研究為 NEAT 等化設計下個體能力及群體能力參數估計效果的探討，並就不同施測人數、不同施測題數及不同估計方法等三種面向進行分析比較。

壹、個體能力估結果比較

一、不同施測人數間之比較

如圖 4-1 所示。在施測題數為 18 題的情境中，就 PV_W 及 EAP_AV 此二種估計方法而言，施測人數 10920 的個體能力估計的 RMSE 皆略低於 16128 人的情境，但差異極小。而在 EAP、MLE、WLE 等另外三種方法在估計個體能力方面，

就低年級群組方面，此 3 種估計方法的 RMSE 亦是施測人數 10920 的個體能力估計的 RMSE 皆略低於 16128 人的情境，但是在高年級組部份，則是 16128 人的情境的 RMSE 略低，但差異皆不大。

而在施測題數為 36 題的部份，五種估計方法的 RMSE 皆是施測人數 10920 人的情境低於 16128 人的情境，除了在低年級群組中 EAP、MLE、WLE 此三種方法的 RMSE 在 2 種施測人數情境間差異較大外，其餘情境差異不大。

二、不同施測題數間之比較

如圖 4-1 所示，首先就 PV_W 及 EAP_AV 二種估計方法而言，不管是 10920 人的情境抑或是 16128 人的情境下，36 題的施測情境的 RMSE 皆低於 18 題的施測情境。而對於 EAP、MLE、WLE 等三種估計方法的 RMSE 而言，除了 EAP 在 10920 人低年級群組，以及 MLE、WLE 在 10920 人高低年級群組是 36 題情境低於 18 題情境外，其餘情境的 RMSE 則是 18 題情境低於 36 題情境。

圖 4-1 NEAT 設計個體能力不同估計方法 RMSE

三、不同估計方法間之比較

不同情境中個體能力值估計結果之 RMSE 如表 4-4 所示。其中 PV_W 及 EAP_AV 方法的 RMSE 遠優於 EAP、MLE 及 WLE 三種估計方法；而對 PV_W 及 EAP_AV 這二種方法而言，EAP_AV 又是優於 PV_W。

四、綜合討論

在 NEAT 等化設計下，個體能力值估計在本研究的不同施測人數情境中的估計結果相差不大。與王暄博（2006）及王敏嫻（2011）結果相似。而在不同施測數之比較下，則 PV_W 及 EAP_AV 這二種納入背景變項的估計法皆隨著受試題數的增加而估計愈精準，此一研究果與王敏嫻（2011）結果就水平等化下之估計結果相似。

而就不同估計方法間之比較來看，PV_W 及 EAP_AV 方法的 RMSE 遠優於 EAP、MLE 及 WLE 三種估計方法；而對 PV_W 及 EAP_AV 這二種方法而言，

EAP_AV 又是優於 PV_W。

表 4-1 NEAT 設計不同情境中個體能力值估計結果之 RMSE 值 PV_W EAP_AV EAP MLE WLE 10920_18_G-L 0.507 0.467 1.096 1.086 1.054 10920_18_G-H 0.495 0.454 0.640 0.718 0.676 16128_18_G-L 0.512 0.473 1.163 1.150 1.117 16128_18_G-H 0.497 0.457 0.615 0.708 0.663 10920_36_G-L 0.396 0.365 0.976 0.952 0.942 10920_36_G-H 0.388 0.356 0.649 0.681 0.667 16128_36_G-L 0.404 0.374 1.196 1.161 1.152 16128_36_G-H 0.392 0.360 0.706 0.756 0.741 註：加底線者為 RMSE 值最低之估計方法

貳、群體能力參數估計結果比較

一、不同施測人數間之比較

就群體能力平均數的估計結果而言，首先，不管是高年級還是低年級，PV、

PV_W 及 EAP_AV 方法估計群體能力平均數的 RMSE 皆遠低於 EAP、MLE、WLE 等三種估計方法（圖 4-2）。而在施測題數為 18 題的情境中，就 PV、PV_W 及 EAP_AV 此三種估計方法而言，施測人數 10920 的群體能力平均數的 RMSE 皆略低於 16128 人的情境，但差異不大。而在 EAP、MLE、WLE 等另外三種方法在估計群體能力平均數方面，就低年級群組方面，此 3 種估計方法的 RMSE 亦是施測人數 10920 的群體能力平均數的 RMSE 皆略低於 16128 人的情境，但是在高年級組部份，則是 16128 人的情境的 RMSE 略低，但差異皆不大。

而在施測題數為 36 題的部份，六種估計方法的 RMSE 皆是施測人數 10920 人的情境優於 16128 人的情境，除了在低年級群組中 EAP、MLE、WLE 此三種方法的 RMSE 在 2 種施測人數情境間差異較大外，其餘情境差異不大。

就群體能力標準差的估計結果而言，如圖 4-3 所示，PV 的估計結果遠優於其它五種估計方法。而不管是在題數為 18 題或是 36 題的情境中，不同施測人數間相對之各種估計法的 RMSE 均無明顯差異。

二、不同施測題數間之比較

在群體能力平均數的 RMSE 部份，如圖 4-2 所示，就 PV、PV_W 及 EAP_AV 三種估計方法而言，不管是 10920 人的情境抑或是 16128 人的情境下，36 題的施測情境的 RMSE 皆低於 18 題的施測情境。而對於 EAP、MLE、WLE 等三種估計方法的 RMSE 而言，除了在 10920 人低年級群組是 36 題情境低於 18 題情境外，

其餘情境的 RMSE 則是 18 題情境低於 36 題情境。

就群體能力標準差而言，不管是在 10920 人的情境還是 16128 人的情境中，

五種估計方法的 RMSE 都是 36 題的的情境低於 18 題的情境。

圖 4-2 NEAT 設計群體能力平均數不同估計方法 RMSE

圖 4-3 NEAT 設計群體能力標準差不同估計方法 RMSE

三、不同估計方法間之比較

群體能力平均數與群體能力標準差在不同情境中估計結果之 RMSE 如表 4-2 及表 4-3 所示。就群體能力平均數的部份來說，其中 PV、PV_W 及 EAP_AV 三種方法的 RMSE 低於 EAP、MLE 及 WLE 三種估計方法；在 PV、PV_W 及 EAP_AV 這部份而言，這三種估計法的差距非常小，最高及最低差距最多僅有 0.004 而已。

而就 EAP、MLE、WLE 這三種估計方法而言，EAP 的估計效果最差，但是整體而言 EAP 等三種估計法的 RMSE 的差異亦不大。

而在群體能力標準差的估計情形來看，非常明顯的 PV 法的 RMSE 遠低於各種估計法，表示 PV 的估計效果最好。而在 EAP、MLE、WLE 這三種估計方法的部份，EAP 的估計效果最佳。此種結果與王敏嫻（2011）就水平等化研究的結果整似。

表 4-2 NEAT 設計不同情境中群體能力平均數估計結果之 RMSE 值 PV PV_W EAP_AV EAP MLE WLE 10920_18_G-L 0.143 0.139 0.140 0.960 0.865 0.862 10920_18_G-H 0.079 0.081 0.080 0.359 0.325 0.324 16128_18_G-L 0.162 0.158 0.159 1.037 0.940 0.937 16128_18_G-H 0.092 0.095 0.095 0.311 0.307 0.299 10920_36_G-L 0.102 0.098 0.098 0.869 0.809 0.810 10920_36_G-H 0.059 0.060 0.060 0.472 0.470 0.468 16128_36_G-L 0.130 0.125 0.126 1.112 1.050 1.049 16128_36_G-H 0.073 0.075 0.075 0.536 0.559 0.554 註：加底線者為 RMSE 值最低之估計方法

表 4-3 NEAT 設計不同情境中群體能力標準差估計結果之 RMSE 值 PV PV_W EAP_AV EAP MLE WLE 10920_18_G-L 0.008 0.084 0.106 0.072 0.217 0.133 10920_18_G-H 0.008 0.086 0.107 0.092 0.204 0.123 16128_18_G-L 0.006 0.082 0.104 0.069 0.221 0.136 16128_18_G-H 0.006 0.085 0.107 0.094 0.203 0.121 10920_36_G-L 0.004 0.049 0.062 0.018 0.105 0.067 10920_36_G-H 0.005 0.053 0.065 0.031 0.096 0.060 16128_36_G-L 0.004 0.050 0.063 0.017 0.104 0.067 16128_36_G-H 0.004 0.052 0.065 0.033 0.094 0.058 註：加底線者為 RMSE 值最低之估計方法

四、綜合討論

在 NEAT 等化設計下，群體能力平均數估計在本研究的不同施測人數情境中的估計結果相差不大。而在不同施測數之比較下，則 PV、PV_W 及 EAP_AV 這三種納入背景變項的估計法皆隨著受試題數的增加而估計愈精準，此一研究果與王敏嫻（2011）就水平等化下之估計結果相似。從不同估計方法間的比較來看，

PV、PV_W 及 EAP_AV 這三種納入背景變項的估計法的估計效果優於其它三種未納入背景變項的估計法，此一研究果亦與王敏嫻（2011）就水平等化下之估計結果相似。

就群體能力標準差而言，同樣是不同施測人數情境下的 RMSE 均無明顯差異；隨著受試題數的增加，則估計愈精準，此一研究結果與王敏嫻（2011）就水平等化下之估計結果相似。從不同估計方法間的比較來看，PV 的估計效果遠優於各種估計方法，同樣的與王敏嫻（2011）就水平等化下之估計結果相似。

此外，就 PV 及 PV_W 這二種估計方法而言，在群體能力平均數的估計上，

PV 及 PV_W 幾乎沒有任何差別，而在群體能力標準差的估計上，PV_W 的 RMSE 遠高於 PV，表示 PV_W 在群體能力標準差的估計上產生了偏誤，此一研究結果與 von Davier 等人（2009）的研究結果相近。

在文檔中不同垂直等化設計下可能值方法估計效果之探討 (頁 43-50)

第四章 研究結果與討論

第一節 NEAT 等化設計估計結果

壹、個體能力估結果比較

貳、群體能力參數估計結果比較

第四章研究結果與討論