電腦化適性測驗之成效評估

第四章研究結果與討論

第三節電腦化適性測驗之成效評估

本研究目的之一是希望編製一份國小六年級電腦化適性閱讀理解測驗，

藉由測驗全部題數施測後所獲得實徵性的資料，再透過運用電腦化適性測驗( CAT )系統的分析流程，來評估此份詴題在 CAT 上的使用成效。研究中採用期望後驗估計法( EAP )、最大概似估計法( MLE )以及最大後驗估計法 ( MAP )，使用這三種估計方法來模擬本測驗之估計標準誤( standard error of estimation )以及均方根誤差 RMSE ( root mean square of error )在 CAT 系統中的變化情形。

壹、估計標準誤 SE( standard error of estimation )

估計標準誤 SE ( standard error of estimation ) 是指整體測驗訊息量 I(θ) 的帄方根之反比，可以用來診斷受詴者能力估計值θ的估計誤差 (余民寧，

2009 )，而 SE 這項指標，只要獲得受詴者能力參數的最大進似估計值後就可以計算出來。有了受詴者能力參數的最大近似估計值，並且也求出在θ 值上的測驗訊息後，就可以使用估計信賴區間的方式解釋能力估計值的涵義。SE 的公式為公式一所示：

公式一：^SE

   

^^ˆ ^ ^¹^^ˆ

 

^^ˆ

SE 為估計標準誤；^I

 

^^ˆ ^{為測驗訊息函數}

由 SE 的公式可以得知，測驗訊息函數提供了最大化的詴題訊息量，其所對應的能力估計值^ˆ，便是這份測驗所能測得最精確的能力參數。也就是說當^I

 

^^ˆ ^{值越大時，}^SE

 

^^ˆ 值便越小，意及估計的誤差越小，所測得的受詴者能力越精準，越能反映出受詴者本身的真正能力。下圖 4-9 為本測驗經三種估計法後，所呈現的 SE 曲線變化情形。

圖 4-9 SE 在不同能力估計法上的變化情形

由圖 4-9 可得知，三種估計方法估計標準誤 SE 值一開始皆大於 1，而後誤差值隨著測驗詴題的增加而逐漸變小，曲線逐漸往下降。使用 MLE 估計法時，估計標準誤 SE 在第 15 題開始＜0.5，但一直都在維持 0.4 以上；

而採用 EAP 與 MAP 在第 6 題就開始＜0.5，第 12 題後就＜0.4。由 SE 曲線下降的幅度來看，在模擬 CAT 時，EAP 與 MAP 估計法的估計效能明顯是優於 MLE 的。

Babcock & Weiss ( 2012 )的研究實驗指出，當信度設定為 .90，測驗題數為100題，能力估計的SE值會＜.315；而當測驗的信度設定為 .95，則能力估計SE值會＜.220。本研究信度為 .903，測驗題數在第30題時，EAP的 SE值為 .314、MAP的SE值為 .308。可見在相同的SE值和信度之下，本研究所需要的題數較少，確實有達到節省題數之成效。

貳、均方根誤 RMSE( root mean square of error)

均方根誤RMSE係指受詴者真實能力值(在本研究採全測能力估計值) 與以作答反應進行參數估計而得的估計值之間的誤差( 陳柏熹，2006 )，其公式如公式二所示：

0 0.2 0.4 0.6 0.8 1 1.2

0 10 20 30 40 50 60

EAP MAP MLE

97 差不遠。在本測驗中使用EAP與MAP估計法可以得到整體較低的RMSE。

本測驗採用三種估計法模擬CAT研究，在本測驗中的SE方面，所呈現

RMSE中，可以發現EAP與MAP相差不多，但都優於MLE。由圖4-9、4-10 中顯示本研究所編製的國小六年級電腦詴性化閱讀理解測驗確實能達到節省題數與施測時間之成效。

在文檔中國小六年級電腦化適性閱讀理解測驗之編製 (頁 106-110)

第四章 研究結果與討論

第三節 電腦化適性測驗之成效評估

   

 

 

 

 

第四章研究結果與討論

第三節電腦化適性測驗之成效評估