實驗一結果

第四章研究結果

第一節實驗一結果

實驗一主要探討不同受試者人數、試題長度，及次群體比例等變項於等化群體不變性之成效，並比較測驗特徵曲線法與固定試題參數法兩種等化估計方法之成效，當中以REMSD測量方法探討在不同變項下的整體情形、RESD測量方法探討在不同變項下兩個次群體間的差距情形，並以SDTM為兩種測量方法的評估指標。本節圖表以TCC 表示測驗特徵曲線法，以FIX表示固定試題參數法；REMSD表示整體之均方根平均期望誤差值；RESD次群體之均方根期望誤差值。

壹、均方根平均期望誤差

表4-1為實驗一均方根平均期望誤差統計，分為三個向度，橫向分為次群體比例

（1:1、1:1.5、1:4）與受試者人數（1000人、2000人、4000人），縱向為兩種等化估計方法（TCC、FIX），另將資料依測驗長度分為30題與60題，表格中數字為使用REMSD 值，且為模擬50次的平均。

圖4-1為實驗一均方根平均期望誤差比較，分為縱向與橫向共六個小圖，縱向表示受試者總人數，受試者總人數為1000人，見圖4-1(a)與圖4-1(b)，受試總人數為2000人，

見圖4-1(c)與圖4-1(d)，受試者總人數為1000人，見圖4-1(e)與圖4-1(f)；橫向表示測驗長度，測驗長度30題，見圖4-1(a)、圖4-1(c)，及圖4-1(e)，測驗長度60題，見圖4-1(b)、

圖4-1(d)，及圖4-1(f)；圖中X軸表示次群體比例，Y軸表示REMSD，N表受試人數，n 表測驗長度。

表4-1 實驗一均方根平均期望誤差統計

次群體比例受試者人數 REMSD

TCC FIX

30 題 1:1

1000 0.037 0.035 2000 0.028 0.027 4000 0.020 0.019 1:1.5

1000 0.036 0.036 2000 0.026 0.026 4000 0.020 0.020 1:4

1000 0.042 0.037 2000 0.026 0.026 4000 0.021 0.019

60 題 1:1

1000 0.033 0.033 2000 0.024 0.022 4000 0.016 0.014 1:1.5

1000 0.031 0.029 2000 0.024 0.020 4000 0.017 0.015 1:4

1000 0.038* 0.032 2000 0.024 0.020 4000 0.017 0.015

註記： SDTM 標準值在 30 題時以 0.067 為標準，60 題時以 0.035 為標準，*表示高於 SDTM。

本實驗以 SDTM 為是否符合群體不變性的評估指標。當測驗題數 30 題時，SDTM 的值範圍介於 0.067～0.087；當測驗題數 60 題時，SDTM 的值範圍介於 0.035～0.043。

表 4-1 中除了測驗題數為 60 題，次群體比例為 1:4，受試總人數 1000 人，使用 TCC 估計方法時 REMSD 值為 0.038，超出 SDTM 的標準值，無法符合群體不變性的標準，

其餘模擬變項資料的 REMSD 值皆低於 SDTM 的值。無法符合群體不變性的原因為受試者總人數過少，參數估計不容易收斂，造成群體誤差變大，此情形在測驗題數 30 題時，次群體比例為 1:4 時，使用 TCC 估計方法時也有群體誤差偏高的結果。

(a) N=1000 , n=30 (b) N=1000 , n=60

2.由圖4-1(d)、4-1(f)中，測驗長度為60題時，受試者人數2000人、4000人時，FIX等化估計方法比TCC等化估計方法的REMSD值低。

二、不同比例

1.由圖4-1中，不同的次群體比例REMSD值並無一致性的情形，除了4-1(d)中在FIX 等化估計方法，隨著次群體比例差距越大時，REMSD值有下降趨勢（同表4-1中由 0.022下降至0.020）。

2.由圖4-1-(a)、4-1(b)中，受試總人數1000人，次群體比例差距從1:1.5到1:4時，使用 TCC等化估計方法時，群體誤差變大，如表4-1中測驗長度30題時由0.036增加到 0.042，測驗長度60題時由0.031增加到0.038，但使用FIX等化估計方法時，REMSD 值並不明顯，只有小幅度增加。

3.由圖4-1中，FIX等化估計方法的誤差低於TCC等化估計方法，尤其是次群體比例差距在1:4時較為明顯。

三、不同題數

1.由圖4-1(a)與4-1(b) 、圖4-1(c)與4-1(d)，及圖4-1(e)與4-1(f)中，測驗題數30題增至 60題時，REMSD值也降低。

2.由圖4-1(c)與4-1(d)，及圖4-1(e)與4-1(f)中，人數於2000人、4000人，測驗長度由30 題增為60題時，FIX等化估計方法的REMSD值就明顯下降，但TCC等化估計方法下降幅度卻不是很明顯。

貳、均方根期望誤差

表4-2為實驗一均方根期望誤差統計，表格中數字為各次群體的RESD值，且為模擬50次的平均。另外，RESD_1表次群體一的RESD值，RESD_2表次群體二的RESD值

圖4-2為實驗一均方根期望誤差比較，分為縱向與橫向共四個小圖，縱向表示等化估計方法（TCC、FIX），橫向表示測驗長度（30題、60題）；圖中X軸分為次群體比例（1:1、1:1.5、1:4）與受試者人數（1000、2000、4000），Y軸模擬50次平均的RESD 值，RESD_1表示次群體一的RESD值，RESD_2表示次群體二的RESD值，n表示測驗長度。

表4-2 實驗一均方根期望誤差統計

次群體比例受試者人數 RESD_1 RESD_2 RESD_1 RESD_2

TCC FIX

30 題 1:1

1000 0.035 0.037 0.032 0.035 2000 0.027 0.028 0.025 0.027 4000 0.020 0.019 0.018 0.020 1:1.5

1000 0.044 0.028 0.039 0.031 2000 0.033 0.019 0.028 0.023 4000 0.025 0.017 0.023 0.017 1:4

1000 0.081* 0.021 0.060 0.026 2000 0.051 0.013 0.041 0.018 4000 0.041 0.010 0.029 0.014

60 題 1:1

1000 0.030 0.035* 0.030 0.032 2000 0.024 0.024 0.021 0.021 4000 0.016 0.016 0.015 0.013 1:1.5

1000 0.039* 0.022 0.032 0.027 2000 0.029 0.020 0.022 0.018 4000 0.022 0.013 0.017 0.013 1:4

1000 0.080* 0.014 0.050* 0.025 2000 0.049* 0.011 0.031 0.014 4000 0.033 0.008 0.027 0.010

註記： SDTM 標準值在 30 題時以 0.067 為標準，60 題時以 0.035 為標準，*表示高於 SDTM。

本實驗以SDTM為是否符合群體不變性的評估指標。由表4-2中，次群體比例的群體誤差在1:4時在RESD_1較易超出SDTM標準值，此在表4-1中也有相同情形。另外，

由於題數增多SDTM的標準值降低，所以在題目長度60題且人數1000人時也會有部分 RESD的值超出SDTM標準值的現象。TCC與FIX兩種等化估計方法比較來看，TCC等化估計方法在人數少的次群體超出SDTM標準值情形較FIX多。

n=30 n=60

1000 2000 4000 1000 2000 4000 1000 2000 4000

1:1 1:1.5 1:4

1000 2000 4000 1000 2000 4000 1000 2000 4000

1:1 1:1.5 1:4

1000 2000 4000 1000 2000 4000 1000 2000 4000

1:1 1:1.5 1:4

1000 2000 4000 1000 2000 4000 1000 2000 4000

1:1 1:1.5 1:4

叁、小結

本實驗以REMSD檢視整體的情形，並以RESD檢視兩群體間的情形，綜合實驗一結果的，整理成REMSD與RESD兩部分條列如下：

一、REMSD

1.以受試總人數來看，群體誤差會隨人數增多而降低。

2.以不同比例來看，次群體比例的差距不會影響群體誤差。

3.以題目長度來看，群體誤差會隨題數增多而降低。

4.題目30題時，測驗特徵曲線法與固定試題參數法的群體誤差相當接近；但題目60 題時，固定試題參數法的群體誤差就低於測驗特徵曲線法。

二、RESD

1.以受試總人數來看，兩次群體間群體誤差的差距會隨人數增多而降低。

2.以不同比例來看，隨次群體比例增大，兩次群體間群體誤差的差距也變大。

3.以題目長度來看，題目長度不會影響兩次群體間群體誤差的差距。

4.次群體比例1:1時，測驗特徵曲線法與固定試題參數法的群體誤差相當接近；但次群體比例在1:1.5與1:4時，固定試題參數法在兩次群體間群體誤差的差距比測驗特徵曲線法接近。

在文檔中大型測驗之等化群體不變性的估計與探討 (頁 36-42)

第四章 研究結果

第一節 實驗一結果

註記： SDTM 標準值在 30 題時以 0.067 為標準，60 題時以 0.035 為標準，*表示高於 SDTM。

註記： SDTM 標準值在 30 題時以 0.067 為標準，60 題時以 0.035 為標準，*表示高於 SDTM。

第四章研究結果

第一節實驗一結果