• 沒有找到結果。

第一節 能力估計值的準確度比較

N/A
N/A
Protected

Academic year: 2021

Share "第一節 能力估計值的準確度比較 "

Copied!
13
0
0

加載中.... (立即查看全文)

全文

(1)

第四章 結果與討論

第一節 能力估計值的準確度比較

本研究先設定虛擬受試者的真實能力值θ,再分別使用 CAT 及 RCAT 模擬系

統計算虛擬受試者的能力估計值,比較求得之能力估計值和真實能力值的平均絕 對差距(Mean Absolute Difference,MAD),見(公式 4-1)

n E O MAD

n

i

i

i

=

=

1

,其中 (公式 4-1)

O :預測值 i E :實際值 i n

:樣本數

表 4-1 是在各階層皆 10,000 名受試者之真實能力值和估得之能力值的絕對誤 差描述統計表。

表 4-1 各階層之平均絕對差距描述統計表(N = 10,000)

Variable Minimum Maximum Mean Std Dev 真實能力值θ = 3.0

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.15 1.96

0.51 0.46

0.37 0.34 真實能力值θ = 3.0

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.65 1.82

0.48 0.45

0.36 0.32 真實能力值θ = 2.0

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.61 1.84

0.46 0.40

0.36 0.28 真實能力值θ = 1.5

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.83 1.55

0.45 0.40

0.35

0.27

(2)

真實能力值θ = 1.0

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.61 1.50

0.40 0.32

0.33 0.24 真實能力值θ = 0.5

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.82 1.46

0.41 0.32

0.35 0.24 真實能力值θ = 0.0

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.79 1.99

0.46 0.39

0.36 0.27 真實能力值θ = -0.5

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

3.24 1.57

0.44 0.38

0.37 0.30 真實能力值θ = -1.0

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

3.08 1.99

0.46 0.39

0.37 0.28 真實能力值θ = -1.5

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.67 1.51

0.49 0.43

0.37 0.30 真實能力值θ = -2.0

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.21 1.75

0.48 0.44

0.35 0.30 真實能力值θ = -2.5

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.67 2.06

0.48 0.46

0.35 0.34 真實能力值θ = -3.0

|θ - CAT 能力估計值|

|θ - RCAT 能力估計值|

0.00 0.00

2.59 2.20

0.48 0.45

0.36 0.35

實驗假設各能力階層皆有 10,000 位虛擬受試者先後接受 CAT 和 RCAT 兩套

模擬系統的測驗,於兩組中隨機取出 300 名虛擬受試者資料,以 Paired-T 檢定如

表 4-2。

(3)

表 4-2 兩模擬系統各階層之平均絕對差距 T 檢定表(N = 300)

Variable Mean Std Dev Std Error t Sig.

真實能力值θ = 3.0 0.040 0.332 0.019 2.107 0.018 真實能力值θ = 2.5 0.036 0.345 0.019 1.830 0.034 真實能力值θ = 2.0 0.032 0.277 0.016 2.019 0.022 真實能力值θ = 1.5 0.034 0.274 0.015 2.194 0.015 真實能力值θ = 1.0 0.032 0.243 0.014 2.315 0.011 真實能力值θ = 0.5 0.028 0.248 0.014 2.018 0.022 真實能力值θ = 0.0 0.043 0.244 0.014 3.111 0.001 真實能力值θ = -0.5 0.032 0.284 0.016 1.975 0.024 真實能力值θ = -1.0 0.029 0.298 0.017 1.734 0.042 真實能力值θ = -1.5 0.028 0.276 0.015 1.766 0.039 真實能力值θ = -2.0 0.030 0.281 0.016 1.893 0.029 真實能力值θ = -2.5 0.041 0.358 0.020 2.001 0.023 真實能力值θ = -3.0 0.034 0.358 0.020 1.668 0.048 P < .05

由表 4-2 的 t 檢定,可見在各能力階層求得之真實能力值和估得之能力值之 平均絕對差距均有達到統計上的意義,茲將各階段之能力值差的平均繪成折線圖 如圖 4-1。

0.00 0.10 0.20 0.30 0.40 0.50 0.60

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 真實能力值

M.A.D. CAT

RCAT

圖 4-1 兩模擬系統在各階層之平均絕對差距

(4)

研究者再嘗試以均方根誤差(Root Mean-Square Error;RMSE)見(公式 4-2)

比較兩者能力估計演算法的誤差,其結果以表 4-3 和圖 4-2 表示之。

( )

n E O RMSE

n

i

i

i

=

=

1

2

,其中 (公式 4-2)

O :預測值 i E :實際值 i n

:樣本數

表 4-3 CAT 與 RCAT 兩模擬系統之 RMSE 比較表 (N = 10,000) 能力估計方法

真實能力值

CAT RCAT

3.0 0.64 0.57

2.5 0.60 0.56

2.0 0.59 0.49

1.5 0.57 0.48

1.0 0.52 0.40

0.5 0.54 0.40

0.0 0.59 0.47

-0.5 0.57 0.49

-1.0 0.59 0.48

-1.5 0.61 0.53

-2.0 0.59 0.53

-2.5 0.60 0.57

-3.0 0.60 0.57

Mean 0.59 0.50

StdDev 0.03 0.06

(5)

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 受試者真實能力值

R.M.S.E.

CAT RCAT

圖 4-2 兩模擬系統之 RMSE 比較圖

由前述 CAT 和 RCAT 兩模擬系統能力估計值和真實能力值之平均絕對差距和 均方根誤差比較,及表 4-2 之 t 檢定可得到以下結論:

(1) 兩者之最小值皆為 0.00,顯示兩能力演算法皆有可能準確測得受試者之真實 能力值。

(2) RCAT 測得之最大值均略小於 CAT 測得之最大值,顯示 RCAT 可較為精準估 計受試者之真實能力值。

(3) 由兩模擬系統之平均絕對差距和均方根誤差觀之,RCAT 均小於 CAT,顯示

RCAT 能比 CAT 更為精準地測得受試者真實能力值。

(6)

第二節 測驗標準誤的比較

以測驗標準誤觀之,表 4-3 是 13 個能力階層(3.0、2.5、2.0、…、-3.0)各

10,000 名虛擬受試者受測後之測驗標準誤描述統計表;表 4-4 則是以 Paired-T 檢 定所得的結果。

表 4-4 各階層測驗標準誤描述統計表(N = 10,000)

Variable Minimum Maximum Mean Std Dev 真實能力值θ = 3.0

CAT RCAT

0.21 0.22

0.33 0.33

0.24 0.24

0.01 0.01 真實能力值θ = 2.5

CAT RCAT

0.21 0.22

0.27 0.27

0.23 0.23

0.01 0.01 真實能力值θ = 2.0

CAT RCAT

0.22 0.22

0.28 0.28

0.24 0.24

0.01 0.01 真實能力值θ = 1.5

CAT RCAT

0.21 0.23

0.28 0.29

0.25 0.25

0.01 0.01 真實能力值θ = 1.0

CAT RCAT

0.21 0.22

0.29 0.29

0.24 0.25

0.01 0.01 真實能力值θ = 0.5

CAT RCAT

0.20 0.21

0.28 0.28

0.23 0.24

0.01 0.01 真實能力值θ = 0.0

CAT RCAT

0.20 0.21

0.26 0.26

0.22 0.23

0.01 0.01 真實能力值θ = -0.5

CAT RCAT

0.20 0.20

0.26 0.26

0.22 0.22

0.01

0.01

(7)

真實能力值θ = -1.0 CAT RCAT

0.20 0.21

0.25 0.27

0.22 0.23

0.01 0.01 真實能力值θ = -1.5

CAT RCAT

0.21 0.21

0.28 0.27

0.23 0.23

0.01 0.01 真實能力值θ = -2.0

CAT RCAT

0.21 0.22

0.31 0.31

0.24 0.24

0.01 0.01 真實能力值θ = -2.5

CAT RCAT

0.22 0.23

0.42 0.43

0.27 0.28

0.02 0.02 真實能力值θ = -3.0

CAT RCAT

0.23 0.26

0.51 0.51

0.33 0.34

0.04 0.04

從兩組各階層中隨機挑選 300 名虛擬受試者之資料,作 Paired-T 檢定後,結 果如表 4-4。

表 4-5 各階層測驗標準誤 T 檢定表(N = 300)

Variable Mean Std Dev Std Error t Sig.

真實能力值θ = 3.0 0.001 0.010 0.000 2.120 0.035

真實能力值θ = 2.5 0.007 0.056 0.003 2.257 0.025

真實能力值θ = 2.0 0.003 0.018 0.001 2.618 0.009

真實能力值θ = 1.5 0.005 0.030 0.002 2.824 0.005

真實能力值θ = 1.0 0.002 0.018 0.001 3.086 0.002

真實能力值θ = 0.5 0.002 0.011 0.000 3.496 0.001

真實能力值θ = 0.0 0.001 0.010 0.001 3.241 0.001

真實能力值θ = -0.5 0.002 0.010 0.000 3.050 0.002

真實能力值θ = -1.0 0.002 0.016 0.001 2.786 0.006

真實能力值θ = -1.5 0.002 0.011 0.001 2.629 0.009

真實能力值θ = -2.0 0.001 0.009 0.000 2.392 0.017

真實能力值θ = -2.5 0.002 0.016 0.000 2.050 0.041

真實能力值θ = -3.0 0.001 0.010 0.001 2.008 0.046

P < .05

(8)

經表 4-4 之 T 檢定顯示,CAT 和 RCAT 在各階層的測驗標準誤的差異表現並 無統計上的意義,亦即兩者測驗標準誤相當。以表 4-3 之各階層能力值和平均測 驗標準誤作圖 4-2。

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 真實能力值

平均測驗標準誤

CAT RCAT

圖 4-3 兩模擬系統在不同真實能力值之平均測驗標準誤的表現曲線圖

(9)

各階段 SE

真實能力值

第三節 達到設定之測驗標準誤所需測驗長度比較

本節比較 CAT 和 RCAT 兩演算法達到研究者設定之 5 個測驗標準誤水準(分 別為 0.45、0.40、0.35、0.30、0.25),各需要使用多少的測驗長度。茲將結果整 理如表 4-5。

表 4-6 兩模擬系統達到設定之測驗標準誤之平均測驗長度(N=10,000)

0.45 0.40 0.35 0.30 0.25

CAT RCAT CAT RCAT CAT RCAT CAT RCAT CAT RCAT

3.0

6.34 6.47 8.14 8.27 11.04 11.64 15.83 16.83 25.92 27.53

2.5

6.38 6.55 8.35 8.54 11.31 12.27 16.14 17.62 25.37 27.39

2.0

6.51 6.91 8.66 9.11 11.90 12.96 17.37 18.88 27.48 29.38

1.5

6.63 7.02 8.81 9.22 12.01 12.98 17.79 19.39 28.51 30.54

1.0

6.64 6.91 8.59 8.86 11.69 12.21 17.21 18.11 27.66 29.54

0.5

6.59 6.71 8.34 8.48 11.19 11.47 16.01 16.68 25.23 26.92

0.0

6.63 7.14 8.34 8.84 10.74 11.33 14.65 15.45 22.28 23.83

-0.5

6.72 7.64 8.34 9.28 10.60 11.76 14.19 15.55 21.52 23.27

-1.0

6.72 6.96 8.34 8.57 10.76 11.09 14.83 15.39 22.81 24.07

-1.5

6.89 7.20 8.63 8.95 11.36 11.73 15.95 16.48 24.70 25.68

-2.0

7.25 7.50 9.06 9.37 12.12 12.60 17.48 18.12 27.31 28.44

-2.5

7.70 8.60 9.95 10.89 14.21 15.13 22.21 23.84 29.68 30.91

-3.0

9.15 10.74 13.61 14.23 21.10 14.49 28.37 30.43 29.99 31.00

Mean

6.93 7.41 9.01 9.43 12.31 12.44 17.54 18.67 26.04 27.58

Std Dev

0.76 1.14 1.46 1.58 2.80 1.21 3.83 4.19 2.73 2.71

隨機取出 300 筆資料以 paired-t 分別檢定表 4-5 之達到各測驗標準誤之平均測

驗長度,其結果如表 4-6、表 4-7、表 4-8、表 4-9、表 4-10。

(10)

表 4-7 兩模擬系統測驗標準誤達到 0.45 時之平均測驗長度 t 檢定(N=300) Variable Mean Std Dev Std Error t Sig.

真實能力值θ = 3.0 0.103 0.838 0.048 2.137 0.033 真實能力值θ = 2.5 0.133 0.992 0.057 2.326 0.021 真實能力值θ = 2.0 0.300 1.222 0.070 4.250 0.000 真實能力值θ = 1.5 0.263 1.094 0.063 4.167 0.000 真實能力值θ = 1.0 0.366 1.239 0.071 5.122 0.000 真實能力值θ = 0.5 0.107 0.871 0.050 2.122 0.035 真實能力值θ = 0.0 0.566 1.123 0.064 8.733 0.000 真實能力值θ = -0.5 0.983 1.083 0.062 15.722 0.000 真實能力值θ = -1.0 0.206 1.099 0.063 3.257 0.001 真實能力值θ = -1.5 0.360 1.498 0.086 4.162 0.000 真實能力值θ = -2.0 0.203 1.445 0.083 2.437 0.015 真實能力值θ = -2.5 1.170 2.118 0.122 9.564 0.000 真實能力值θ = -3.0 1.356 5.811 0.335 4.043 0.000 P < .05

表 4-8 兩模擬系統測驗標準誤達到 0.40 時之平均測驗長度 t 檢定(N=300) Variable Mean Std Dev Std Error t Sig.

真實能力值θ = 3.0 0.113 0.745 0.043 2.633 0.009

真實能力值θ = 2.5 0.180 1.066 0.061 2.922 0.004

真實能力值θ = 2.0 0.500 1.468 0.084 5.896 0.000

真實能力值θ = 1.5 0.323 1.247 0.072 4.488 0.000

真實能力值θ = 1.0 0.290 1.124 0.064 4.469 0.000

真實能力值θ = 0.5 0.210 1.059 0.061 3.432 0.001

真實能力值θ = 0.0 0.596 1.115 0.064 9.263 0.000

真實能力值θ = -0.5 0.920 0.877 0.050 18.165 0.000

真實能力值θ = -1.0 0.356 1.152 0.066 5.362 0.000

真實能力值θ = -1.5 0.283 1.431 0.082 3.428 0.001

真實能力值θ = -2.0 0.360 1.330 0.076 4.687 0.000

真實能力值θ = -2.5 0.826 2.433 0.140 5.883 0.000

真實能力值θ = -3.0 0.990 8.081 0.466 2.122 0.035

P < .05

(11)

表 4-9 兩模擬系統測驗標準誤達到 0.35 時之平均測驗長度 t 檢定(N=300)

Variable Mean Std Dev Std Error t Sig.

真實能力值θ = 3.0 0.606 1.432 0.082 7.335 0.000 真實能力值θ = 2.5 0.810 1.918 0.110 7.314 0.000 真實能力值θ = 2.0 1.196 1.778 0.102 11.656 0.000 真實能力值θ = 1.5 0.840 1.582 0.091 9.197 0.000 真實能力值θ = 1.0 0.423 1.496 0.086 4.901 0.000 真實能力值θ = 0.5 0.253 1.491 0.086 2.943 0.004 真實能力值θ = 0.0 0.613 1.360 0.078 7.810 0.000 真實能力值θ = -0.5 1.110 1.310 0.075 14.672 0.000 真實能力值θ = -1.0 0.180 1.433 0.082 2.175 0.030 真實能力值θ = -1.5 0.393 1.757 0.101 3.876 0.000 真實能力值θ = -2.0 0.466 1.872 0.108 4.316 0.000 真實能力值θ = -2.5 0.936 4.578 0.264 3.543 0.000 真實能力值θ = -3.0 9.556 6.838 0.394 24.206 0.000 P < .05

表 4-10 兩模擬系統測驗標準誤達到 0.30 時之平均測驗長度 t 檢定(N=300) Variable Mean Std Dev Std Error t Sig.

真實能力值θ = 3.0 0.986 2.875 0.166 5.944 0.000

真實能力值θ = 2.5 1.453 2.706 0.156 9.300 0.000

真實能力值θ = 2.0 1.400 2.601 0.150 9.320 0.000

真實能力值θ = 1.5 1.220 2.633 0.152 8.024 0.000

真實能力值θ = 1.0 1.120 2.823 0.163 6.871 0.000

真實能力值θ = 0.5 0.660 2.439 0.140 4.686 0.000

真實能力值θ = 0.0 0.863 2.068 0.119 7.229 0.000

真實能力值θ = -0.5 1.213 1.554 0.089 13.521 0.000

真實能力值θ = -1.0 0.503 2.007 0.115 4.343 0.000

真實能力值θ = -1.5 0.486 2.184 0.126 3.859 0.000

真實能力值θ = -2.0 0.480 2.713 0.156 3.064 0.002

真實能力值θ = -2.5 1.086 6.743 0.389 2.791 0.006

真實能力值θ = -3.0 2.330 4.195 0.242 9.620 0.000

P < .05

(12)

表 4-11 兩模擬系統測驗標準誤達到 0.25 時之平均測驗長度 t 檢定(N=300)

Variable Mean Std Dev Std Error t Sig.

真實能力值θ = 3.0 1.663 3.570 0.206 8.070 0.000 真實能力值θ = 2.5 1.920 3.021 0.174 11.005 0.000 真實能力值θ = 2.0 2.070 2.858 0.165 12.542 0.000 真實能力值θ = 1.5 1.850 2.173 0.125 14.744 0.000 真實能力值θ = 1.0 1.890 3.064 0.176 10.683 0.000 真實能力值θ = 0.5 2.043 4.114 0.237 8.601 0.000 真實能力值θ = 0.0 1.700 3.256 0.188 9.042 0.000 真實能力值θ = -0.5 1.690 2.742 0.158 10.675 0.000 真實能力值θ = -1.0 1.443 3.059 0.176 8.172 0.000 真實能力值θ = -1.5 0.866 3.182 0.183 4.717 0.000 真實能力值θ = -2.0 1.030 3.308 0.191 5.392 0.000 真實能力值θ = -2.5 1.240 1.314 0.075 16.338 0.000 真實能力值θ = -3.0 1.003 0.057 0.003 301.000 0.000 P < .05

由表 4-6、表 4-7、表 4-8、表 4-9 和表 4-10 可知在各階層能力值下,兩模擬 系統達到我們設定的測驗標準誤時的平均測驗長度有達到統計意義。欲達到更低 的測驗標準誤,需要更長的測驗長度,而 RCAT 的表現略遜於 CAT,推測是因為

RCAT 在回溯時造成測驗長度的增加,此為 RCAT 在追求更準確測得受試者能力

估計值,所必須付出的代價。茲將表 4-5 之結果彙整,以圖 4-3 之折線圖表現之。

(13)

0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 真實能力值

平均測驗長度

RCAT(with SE0.25) CAT(with SE0.25) RCAT(with SE0.30) CAT(with SE0.30) RCAT(with SE0.35) CAT(with SE0.35) RCAT(with SE0.40) CAT(with SE0.40) RCAT(with SE0.45) CAT(with SE0.45)

圖 4-4 CAT 與 RCAT 於各能力值達到特定測驗標準誤之平均測驗長度圖

數據

表 4-2  兩模擬系統各階層之平均絕對差距 T 檢定表(N = 300)
表 4-3  CAT 與 RCAT 兩模擬系統之 RMSE 比較表  (N = 10,000)  能力估計方法 真實能力值  CAT RCAT  3.0 0.64  0.57  2.5 0.60  0.56  2.0 0.59  0.49  1.5 0.57  0.48  1.0 0.52  0.40  0.5 0.54  0.40  0.0 0.59  0.47  -0.5 0.57  0.49  -1.0 0.59  0.48  -1.5 0.61  0.53  -2.0 0.59  0.53  -2.
表 4-4  各階層測驗標準誤描述統計表(N = 10,000)
表 4-7  兩模擬系統測驗標準誤達到 0.45 時之平均測驗長度 t 檢定(N=300)  Variable  Mean  Std Dev  Std Error t  Sig
+3

參考文獻

相關文件

卡務系統建置 (待評估確認) 預估4個月 區公所及捷運站受理人員教育訓練 (待評估確認) 預估1個月

2021 年 4 月歐盟執委會公布針對波士尼亞-赫塞哥維納 2021-2023 經濟改革計畫之歐盟同儕工作報告。該報告評估 之比較基準點為依據 2020 年 5 月

美國於二零零三年第四季經濟復蘇力度逐漸轉強,本地生產總值由第三季的 3.6%加快至 4.3% a ,季度變動率 b

第三節 研究方法 第四節 研究範圍 第五節 電影院簡介 第二章 文獻探討 第一節 電影片映演業 第二節 服務品質 第三節 服務行銷組合 第四節 顧客滿意度 第五節 顧客忠誠度

(二)計算方式:雇主繼續僱用於前款計算期間內,預估成就勞動基準

( )如圖,有兩個一大一小的圓形鼓,鼓面直徑比為 3:5,現在想要把鼓面都漆上顏色,每 一平方公分需要

請舉出一個可以準確計算出根號值的數字。這類數字有什麼樣

比較項目 長條圖 直方圖 矩形之寬度 無任何意義