研究結果 - 應用可能值方法於大型測驗不同年度間連結方法之效果探究

表表示同時校準法、FIX 表示固定試題參數法、PISA 表示 PISA 連結方法、TIMSS 則代表 TIMSS 及 NAEP 的連結方法。

4、在向度數相同時，題數 16 題的估計結果與 8 題的相比，其 RMSE 皆降低，平均數較不明顯，但是標準差則有明顯的差異。此結果與王暄博

（2006），王敏嫻、曾筱倩、郭伯臣、吳慧珉（2010）的研究結果相同。

圖圖圖

圖 4-2-1 受測人數為 2100 時，群體能力平均之 RMSE

圖圖圖

圖 4-2-2 受測人數為 2100 時，群體能力標準差之 RMSE

二二

二二、、、、當受測者人數為當受測者人數為當受測者人數為 5600 之情境當受測者人數為之情境之情境之情境

當受測者人數為 5600 人時，群體能力平均 RMSE 如圖 4-2-3 所示，而群體標準差之 RMSE 則如圖 4-2-4 所示，研究結果顯示：

1、跟人數為 2100 人時有相同的結果，除了 CON 以外，另外三種連結法平均數的 RMSE 並不會隨著年度間能力差異的增加而增加。

2、CON 對於平均數的估計會隨著年度間能力差距而改變，當差異達到 0.4 時，其估計誤差最大。

3、PISA、FIX 跟 CON 三種方法標準差的 RMSE 並沒有隨著能力的差距而有明顯的差異，但是 TIMSS 標準差隨著能力差距的增加，其 RMSE 則有些微的提高。

4、與人數為 2100 人時的結果相同，當向度數相同時，試題數較多的估計結果其 RMSE 皆降低，平均數較不明顯，但是標準差則有明顯的差異。

5、在總題數 32 題的情境之下，向度數為 4，單一向度試題數為 8 的標準差表現一致性的比向度數為 2，單一向度試題數為 16 的標準差表現要差。

圖圖圖

圖 4-2-3 受測人數為 5600 時，群體能力平均之 RMSE

圖圖圖

圖 4-2-4 受測人數為 5600 時，群體能力標準差之 RMSE

三三

三三、、、、當受測者人數為當受測者人數為當受測者人數為 8400 之情境當受測者人數為之情境之情境之情境

當受測者人數為 8400 人時，群體能力平均 RMSE 如圖 4-2-4 所示，而群體標準差之 RMSE 則如圖 4-2-5 所示，研究結果顯示：

1、平均數的估計跟人數為 2100 人與 5600 人時有相同的結果，除了 CON 以外，另外三種連結法平均數的 RMSE 並不會隨著年度間能力差異的增加而增加。

2、CON 對於平均數的估計會隨著年度間能力差距而改變，當差異達到 0.4 時，其估計誤差最大。

3、TIMSS 在差異增加時，其標準差的 RMSE 會有些微的上升。

4、與人數為 2100 跟 8400 人時的結果相似，在向度數相同的情境下，試題數較多的估計結果其 RMSE 皆降低，平均數部分都已經很低，所以沒有明顯差異，但是標準差則有明顯的差異。

四四

四四、、、、小結小結小結小結

不論人數多寡，CON 都會隨著年度間的差距增加而 RMSE 提高，這有可能是在估計的時候，估計程式會主動將兩個年度看成一個較大的群體，並且以兩個群體能力的平均值當作預估的平均值。也就是說對於能力較低的舊年度會高估，

而能力較高的新年度會低估，以求整體達到一個接近常態分佈而非雙峰分佈的效果。因此，當新年度的能力平均越高時，其估計值與真值的差距便越大，RMSE 就越高。而 TIMSS 經過線性轉換的程序就可以避免這個情況的發生，因為計算了舊年度的公佈量尺與暫時量尺的線性轉換係數，並應用於新年度的公佈量尺與暫時量尺上。至於 PISA 與 FIX 並沒有將兩個年度的資料一起估計，故不會產生這樣的疑慮。

圖圖圖

圖 4-2-5 受測人數為 8400 時，群體能力平均之 RMSE

圖圖圖

圖 4-2-6 受測人數為 8400 時，群體能力標準差之 RMSE

貳貳

貳貳、、、探討受測人數、探討受測人數探討受測人數探討受測人數，，，，對於估計精準度之影響對於估計精準度之影響對於估計精準度之影響 對於估計精準度之影響

本研究模擬受測人數分別為 2100、5600 及 8400 三種情境，並比較不同向度與試題長度、年度間能力差距的設計下，不同連結方法之效果，詳細研究結果將於附錄二中呈現，本節圖中橫軸分別為四種連結方法以及受測人數，縱軸為 RMSE。

一一一

一、、、、當當當兩年度間能力差距為當兩年度間能力差距為兩年度間能力差距為兩年度間能力差距為 0 之情境之情境之情境之情境

年度間差距為 0 之群體能力平均 RMSE 如圖 4-2-1、群體能力標準差 RMSE 如圖 4-2-2，得以下結論：

1、當兩個年度差距為 0 時，隨著人數的增加，而平均數之 RMSE 都會降低。

2、人數為 5600 人與 8400 人之間平均數的差距跟 2100 人與 5600 人之間平均數的差距要來的小。

3、隨著人數的增加，標準差 RMSE 都會降低。

4、跟平均數不同的是，人數為 5600 人與 8400 人之間標準差的差距比較不明顯。

5、針對題數與向度數的變化，其結果與前一節的結果相似，試題數由 8 題增為 16 題時，平均數的 RMSE 降低的並不明顯，但是標準差都有明顯的減少。這部分與相關研究所得到的結論相同（葉昶成、郭秀芬、郭伯臣、曾筱倩, 2011；詹慧君, 2011），提高試題數有助於增加測驗估計的精準度。

圖圖圖

圖 4-2-7 年度間差距為 0 時，群體能力平均數之 RMSE

圖圖圖

圖 4-2-8 年度間差距為 0 時，群體能力標準差之 RMSE .

二二

二二、、、、當兩年度間能力差距為當兩年度間能力差距為當兩年度間能力差距為 0.2 之情境當兩年度間能力差距為之情境之情境 之情境

年度間差距為 0.2 之群體能力平均 RMSE 如圖 4-2-3、群體能力標準差 RMSE 如圖 4-2-4，得以下結論：

1、PISA、FIX 與 TIMSS 這三種連結方法，皆隨著人數的增加，而平均數之 RMSE 都降低。

2、CON 連結法對於人數的改變沒有差異，並不會隨著人數增加而提高平均數估計效果。

3、CON 除外，人數為 5600 人與 8400 人之間平均數的差距跟 2100 人與 5600 人之間平均數的差距要來的小。

4、人數為 2100 人時，估計效果最差，人數為 5600 人與 8400 人之間標準差 RMSE 並沒有差別。

5、與能力差距為 0 的時候結果一樣，增加相同向度的試題題數，有助於提高整體估計精準度，平均數較不明顯，可是標準差的 RMSE 降低許多。

圖圖圖

圖 4-2-9 年度間差距為 0.2 時，群體能力平均數之 RMSE

圖圖圖

圖 4-2-10 年度間差距為 0.2 時，群體能力標準差之 RMSE

三三

三三、、、、當兩年度間能力差距為當兩年度間能力差距為當兩年度間能力差距為 0.4 之情境當兩年度間能力差距為之情境之情境 之情境

年度間差距為 0.4 之群體能力平均 RMSE 如圖 4-2-5、群體能力標準差 RMSE 如圖 4-2-6，得以下結論：

1、平均數估計與兩年度間能力差距為 0.2 時有著相同的結果，就是 PISA、

FIX 與 TIMSS 這三種連結方法，皆隨著人數的增加，而平均數 RMSE 都降低。

2、CON 連結法對於人數的改變沒有差異，平均數估計並不會隨著人數增加而提高估計效果。

3、CON 除外，人數為 5600 人與 8400 人之間平均數 RMSE 的差距跟 2100 人與 5600 人之間平均數 RMSE 的差距要來的小。

4、人數為 2100 人時，標準差估計效果最差，人數為 5600 人與 8400 人之間標準差 RMSE 則沒有差別。

5、與之前的結果相同，增加試題數可以降低標準差的 RMSE，平均數的 RMSE 降低程度也較明顯。

四四

四四、、、、小結小結小結小結

在能力差距為 0 的情況下，人數增加皆有助於降低平均數的 RMSE，當人數達到 5600 人就已經有不錯的結果，增加至 8400 人所降低的 RMSE 已經沒有明顯的差異。當能力差距不為 0 時，除了 CON 以外的三種方式也是有一樣的結果，

而人數增加並沒有對 CON 有所幫助。

圖圖圖

圖 4-2-11 年度間差距為 0.4 時，群體能力平均數之 RMSE

圖圖圖

圖 4-2-12 年度間差距為 0.4 時，群體能力標準差之 RMSE

參參

參參、、、不同測驗連結方法估計結果、不同測驗連結方法估計結果不同測驗連結方法估計結果不同測驗連結方法估計結果

本研究探討了不同連結方法之效果，分別為同時估計法（CON）、固定試題參數法（FIX）、TIMSS 使用之連結方法（TIMSS）以及 PISA 使用之連結方法

（PISA）。四種連結方法，並比較在不同能力差距、不同受測人數與不同向度與試題長度的設計下，不同連結方法之效果，詳細研究數據將於附錄三中呈現。

一一一

一、、、、當當當年度間能力差距為當年度間能力差距為年度間能力差距為年度間能力差距為 0 之情境之情境之情境 之情境

年度間差距為 0 之群體能力平均 RMSE 如圖 4-3-1、群體能力標準差 RMSE 如圖 4-3-2，得以下結論：

1、不論當人數為 2100、5600 或是 8400 人時，CON 的平均數估計效果最好，

TIMSS 次之，PISA 與 FIX 最差。這個結果與詹慧君（2011）的研究結果相同，都是 TIMSS 的估計效果優於 PISA 跟 FIX。

2、當人數為 8400 人時且單一向度試題數為 16 題時，不論是 2 個向度或是 4 個向度，四種連結方法的平均數估計效果皆差不多。

3、四種方法的標準差估計效果差異不大，CON 稍微好一些，但是差異不明顯。

4、向度數與試題數的部分跟前面的結論一樣，在同一項度內有相同試題數的情況下，向度數為 2 或是 4，對於估計效果並沒有差異；但是在相同的向度下增加試題題數，平均數的 RMSE 會稍微降低，而標準差則是明顯改善。

圖圖圖

圖 4-2-13 年度間差距為 0 時，群體能力平均數之 RMSE

圖圖圖

圖 4-2-14 年度間差距為 0 時，群體能力標準差之 RMSE

二二

二二、、、、當年度間能力差距為當年度間能力差距為當年度間能力差距為 0.2 之情境當年度間能力差距為之情境之情境之情境

年度間差距為 0 之群體能力平均 RMSE 如圖 4-3-3、群體能力標準差 RMSE 如圖 4-3-4，得以下結論：

1、不論當人數為 2100、5600 或是 8400 人時，TIMSS 的平均數估計效果最好，CON 最差。

2、四種方法的標準差估計效果都差不多，但是 TIMSS 連結法的標準差 RMSE 都較其他三種方法略高。

3、除了 CON，試題數由 8 題增加至 16 題，對於平均數的估計有改善，相較於能力差異為 0 時 RMSE 降低幅度較明顯。而標準差的 RMSE 依然是有明顯的下降。

4、同樣在總題數 32 題的情境下，2 個向度各 16 題的 RMSE 皆小於 4 個向

在文檔中應用可能值方法於大型測驗不同年度間連結方法之效果探究 (頁 35-63)