非常態下之等化同時估計方法估計成效之比較

第四章研究結果

第五節非常態下之等化同時估計方法估計成效之比較

本節比較參數型與無參數型等化同時估計方法的結果，除用以呈現當模式中總體量尺分數違反常態假定時，對參數型等化同時估計方法產生什麼影響之外，

更用以呈現無參數型等化同時估計法可行性與估計的成效。

由於 HIRT 模式中，預估參數的類型很多(包括：總體量尺分數、領域量尺分數以及試題參數)，文章下面將透過小節的方式呈現各類參數在不同的架構下估計方法的差異。此外模擬資料具備多因子的情境，因此資料呈現方式亦會將單因子與多因子加以區隔，以便利於結果之論述與比較說明。

一、總體量尺分數估計成效之比較

分析過程所產生的 RMSE 值表格過於龐大，然爲清楚呈現參數與無參數估計成效間的差異，文中僅列出三者 RMSE 之差異，並輔以 t-test 檢驗顯示不同參數估計法間的差異有無達顯著性(正值代表無參數較好；負值代表參數較好)。

表 4-17

等化高層次、超參數 RMSE 差異表（無參數與參數）

人數題數多向度架構

領域量尺相關

Binomial Normal Skew 高層

次量尺分數

超參數

高層次量尺分數

超參數

高層次量尺分數

超參數 500 10 B 0.4 0.011 0.070** -0.007 0.062** 0.017 0.066**

500 10 B 0.7 0.014 0.073** -0.004 0.055** 0.018 0.061**

500 10 W 0.4 0.026 0.073** 0.002 0.057** 0.034 0.063**

500 10 W 0.7 0.026 0.073** 0.006 0.055** 0.036 0.062**

500 20 B 0.4 0.009 0.035** -0.009 0.027** 0.013 0.023**

500 20 B 0.7 0.009 0.033** -0.007 0.026** 0.009 0.019**

500 20 W 0.4 0.014 0.043** -0.003 0.038** 0.022 0.020**

500 20 W 0.7 0.015 0.041** -0.001 0.034** 0.020 0.015**

1000 10 B 0.4 0.011 0.053** -0.007 0.043** 0.021 0.050**

1000 10 B 0.7 0.015 0.053** -0.005 0.043** 0.022 0.054**

1000 10 W 0.4 0.025** 0.054** 0.006 0.039** 0.035** 0.053**

1000 10 W 0.7 0.028** 0.053** 0.005 0.042** 0.036** 0.052**

1000 20 B 0.4 0.009 0.038** -0.008 0.036** 0.013 0.027**

1000 20 B 0.7 0.011 0.033** -0.005 0.033** 0.012 0.024**

1000 20 W 0.4 0.016 0.044** -0.001 0.040** 0.024** 0.021**

1000 20 W 0.7 0.017 0.041** -0.002 0.040** 0.022 0.019**

** p<.01

表 4-17 中多向度架構 B 代表多向度測驗是屬於題間多項的測驗架構、W 代表多向度測驗是屬於題內多向度的測驗架構。透過 RMSE 差異值比較可發現無論是參數型或是無參數型 HIRT 模式對於總體量尺分數的估計，都可以因為對應的題目數、領域量尺間相關、測驗架構的複雜化或增加而提升參數的估計精準度。

因此，透過表 4-17 可以發現無參數型 HIRT 模式的估計精準度比較高，特別是當總體量尺分數變數的分布違反常態假定時更可以發現無參數對於參數估計

的優勢，這樣的現象尤其是針對總體量尺分數之超參數的估計更是有顯著的效果產生。

同時可以發現結構複雜化、定錨比率大，無參數的估計精準度可以獲得提升，這現象與參數型是相同的，而且在非常態的情況下，提升的效果比參數型提昇的效果還要來得多。此外題數少且受試樣本多的情況下，無參數的估計精準度和參數型的估計精準度間的差異會更加變大，主要是因為試題少的情況下，總體量尺分數的估計將會受母體的先驗機率分布的影響，而母體的先驗機率分布在無參數的架構下又可以因受試樣本提高的因素獲得較為精準的估計，因此整體來說估計精準度便可以獲得提升。

簡單來說，無參數的等化同時估計法比起參數型的等化同時估計法，會有較佳的參數估計精準度，即便母體服從常態仍可以獲得與參數型相當的參數估計之結果；而在非常態更可以比參數型的估計精準度更好。

二、領域量尺分數估計成效之比較

分析過程的 RMSE 值表過於龐大，然爲清楚呈現參數與無參數之估計成效差異，文中僅列出兩者 RMSE 之差異，並輔以 t-test 檢驗顯示不同參數估計法間的差異有無達顯著性(正值代表無參數較好；負值代表參數較好)。

表 4-18

等化次級 RMSE 差異表（無參數與參數）

人數題數多向度架構

領域量尺相關

Binomial Normal Skew

一二三四五一二三四五一二三四五

500 10 B 0.4 -0.004 0.002 0.006 0.009 0.013 0.003 0.009 0.013 0.014 0.020 0.008 0.015 0.020 0.025 0.027 500 10 B 0.7 -0.003 0.003 0.007 0.010 0.013 0.003 0.009 0.011 0.013 0.016 0.007 0.013 0.019 0.023 0.024 500 10 W 0.4 -0.002 0.007 0.006 0.021 0.028 0.007 0.011 0.011 0.022 0.027 0.008 0.035 0.013 0.056 0.058 500 10 W 0.7 -0.001 0.008 0.007 0.023 0.029 0.004 0.010 0.012 0.021 0.027 0.007 0.033 0.014 0.048 0.059 500 20 B 0.4 -0.010 -0.009 -0.008 -0.007 -0.005 -0.006 -0.005 -0.003 -0.003 -0.001 -0.002 -0.002 0.001 0.003 0.003 500 20 B 0.7 -0.010 -0.007 -0.007 -0.005 -0.003 -0.006 -0.004 -0.003 -0.002 -0.001 -0.005 -0.004 -0.002 0.000 0.001 500 20 W 0.4 -0.009 -0.009 -0.003 -0.003 0.002 -0.005 -0.006 -0.001 0.000 0.002 -0.004 0.006 0.002 0.016 0.020 500 20 W 0.7 -0.007 -0.009 -0.001 -0.002 0.001 -0.004 -0.005 0.001 0.000 0.001 -0.004 0.004 0.001 0.012 0.015 1000 10 B 0.4 -0.005 0.002 0.005 0.009 0.010 0.002 0.007 0.011 0.015 0.018 0.008 0.015 0.020 0.023 0.028 1000 10 B 0.7 -0.004 0.001 0.004 0.009 0.011 0.003 0.007 0.011 0.014 0.017 0.007 0.015 0.019 0.021 0.025 1000 10 W 0.4 -0.002 0.008 0.005 0.023 0.030 0.003 0.009 0.009 0.022 0.028 0.007 0.033 0.014 0.055 0.061 1000 10 W 0.7 -0.003 0.008 0.006 0.022 0.029 0.004 0.010 0.010 0.020 0.025 0.007 0.032 0.013 0.051 0.058 1000 20 B 0.4 -0.011 -0.008 -0.007 -0.005 -0.005 -0.005 -0.004 -0.002 -0.001 0.000 -0.003 -0.001 0.001 0.003 0.004 1000 20 B 0.7 -0.009 -0.008 -0.006 -0.005 -0.003 -0.005 -0.004 -0.002 -0.001 0.000 -0.004 -0.003 0.000 0.002 0.002 1000 20 W 0.4 -0.008 -0.008 -0.002 -0.001 0.003 -0.004 -0.004 0.001 0.001 0.004 -0.003 0.006 0.002 0.017 0.023 1000 20 W 0.7 -0.008 -0.009 -0.002 -0.002 -0.001 -0.004 -0.005 0.001 0.001 0.004 -0.003 0.005 0.001 0.015 0.017

** p<.01

表 4-18 中各部份解釋如前一小節的說明一樣。唯一不同的地方在於，領域量尺分數 1 在題內多向度的架構中，對應到的題目是比領域量尺 2、4 與 5 的兩倍題目；領域量尺分數 1 在題內多向度的架構中，對應到的題目是比領域量尺 2、

4 與 5 的三倍題目。換句話說，依據總體量尺部分的解釋，我們可以預期在領域量尺 1 與領域量尺 3 的表中幾乎都沒有出現無參數型與參數型的顯著差異的結果，也就是說該兩個領域量尺所對應到的題目已經足夠多，而使得母體的先驗機率分布不會影響到能力估計的結果；然領域量尺 2、4 與 5 則因為題目相對應的少而出現母體先驗機率分布影響參數估計精準程度的現象。因此，上面五個領域量尺的表歸納出來的結果即是無參數的參數估計精準度顯然比參數型的估計精準度來要來得高。

除此之外，依據總體量尺部分的解釋，一樣可以觀察到領域量尺 2、4 與 5 出現與總體量尺分數估計結果的現象，在結構較為複雜、定錨比率比較高的時候比較可以觀察到無參數的估計精準度比參數型的估計精準度還要來得高。特別是題數少、受試樣本人數多的情況下更可以發現無參數的估計精準度幾乎都來得比參數型的估計精準度還要高。比方說：領域量尺 2、4 與 5 情況下搭配 1000 人 10 個測驗試題的題內多項度的測驗情況下，無參數的表現幾乎都比較好。

整體而言，無參數的參數估計精準度在其他狀況與參數型的參數估計精準度相差沒有顯著，但是在部分的情況下又來得比參數型的估計精準度還要來得高。

因此，可以說採用無參數的估計架構應可獲得較為佳的估計結果。

三、迴歸參數估計成效之比較

分析過程所產生的 RMSE 值表格過於龐大，然爲清楚呈現參數與無參數估計成效間的差異，文中僅列出兩者 RMSE 之差異，並輔以 t-test 檢驗顯示不同參數估計法間的差異有無達顯著性(正值代表無參數較好；負值代表參數較好)。

表 4-19

等化迴歸RMSE差異表（無參數與參數）

人數題數多向度架構

領域量尺相關

Binomial Normal Skew

一二三四五一二三四五一二三四五

500 10 B 0.4 0.007 0.069 0.112 0.143 0.168 -0.002 0.062 0.104 0.132 0.161 0.013 0.081 0.124 0.155 0.174 500 10 B 0.7 0.004 0.060 0.108 0.127 0.150 -0.006 0.052 0.089 0.119 0.133 0.006 0.064 0.110 0.142 0.161 500 10 W 0.4 -0.009 0.101 0.056 0.208 0.237 0.001 0.074 0.055 0.181 0.211 -0.003 0.148 0.074 0.249 0.274 500 10 W 0.7 -0.004 0.100 0.049 0.202 0.222 0.004 0.063 0.049 0.167 0.193 0.003 0.131 0.072 0.219 0.249 500 20 B 0.4 -0.004 0.022 0.042 0.060 0.071 -0.008 0.010 0.036 0.052 0.063 -0.002 0.029 0.047 0.070 0.078 500 20 B 0.7 -0.003 0.016 0.033 0.054 0.066 -0.011 0.006 0.027 0.045 0.053 -0.002 0.015 0.044 0.055 0.071 500 20 W 0.4 -0.001 0.017 0.027 0.100 0.117 -0.003 0.006 0.023 0.081 0.100 -0.004 0.050 0.044 0.113 0.134 500 20 W 0.7 -0.001 0.027 0.030 0.085 0.106 0.002 0.003 0.024 0.073 0.090 0.000 0.039 0.041 0.104 0.121 1000 10 B 0.4 0.009 0.082 0.127 0.162 0.179 0.007 0.073 0.120 0.148 0.172 0.020 0.093 0.139 0.167 0.196 1000 10 B 0.7 0.006 0.068 0.104 0.139 0.161 0.000 0.062 0.103 0.134 0.153 0.014 0.079 0.122 0.145 0.172 1000 10 W 0.4 0.006 0.118 0.065 0.225 0.257 0.005 0.091 0.063 0.202 0.231 0.004 0.159 0.078 0.269 0.286 1000 10 W 0.7 -0.005 0.111 0.062 0.209 0.239 0.003 0.083 0.065 0.184 0.210 0.001 0.139 0.067 0.240 0.263 1000 20 B 0.4 0.000 0.027 0.050 0.063 0.078 -0.006 0.019 0.043 0.057 0.070 0.002 0.031 0.054 0.072 0.082 1000 20 B 0.7 -0.002 0.021 0.041 0.056 0.070 -0.006 0.013 0.034 0.049 0.063 0.001 0.024 0.045 0.062 0.074 1000 20 W 0.4 0.001 0.030 0.039 0.107 0.130 -0.001 0.017 0.033 0.091 0.108 0.001 0.052 0.040 0.122 0.144 1000 20 W 0.7 -0.003 0.029 0.034 0.094 0.113 0.004 0.014 0.033 0.083 0.100 0.001 0.047 0.042 0.111 0.128

** p<.01

表 4-19 的發現如前一小節中領域量尺分數的發現一樣。使用無參數 HIRT 模式等化同時並不會使得迴歸參數的估計變得比較不好，相反的仍然可獲得與參數型的估計方法幾乎相同的結果。簡單來說，無參數的估計方法可以獲得總體量尺分數的精準估計，更可以保有領域量尺分數與迴歸參數的估計結果。

四、試題參數估計成效之比較

分析過程所產生的 RMSE 值表格過於龐大，然爲清楚呈現參數與無參數估

計成效間的差異，文中僅列出兩者 RMSE 之差異，並輔以 t-test 檢驗顯示不同參數估計法間的差異有無達顯著性(正值代表無參數較好；負值代表參數較好)。

表 4-20

等化試題 RMSE 差異表（無參數與參數）

人數題數多向度架構

領域量尺

相關 Binomial Normal Skew 500 10 B 0.4 0.003 0.002 0.007 500 10 B 0.7 0.003 0.004 0.004 500 10 W 0.4 -0.001 0.001 0.008 500 10 W 0.7 -0.002 0.004 0.014 500 20 B 0.4 -0.002 0.000 -0.001 500 20 B 0.7 -0.001 0.001 -0.001 500 20 W 0.4 -0.003 -0.001 0.004 500 20 W 0.7 -0.004 0.000 0.003 1000 10 B 0.4 0.004 0.005 0.008 1000 10 B 0.7 0.005 0.005 0.008 1000 10 W 0.4 0.000 0.004 0.020 1000 10 W 0.7 0.002 0.005 0.022 1000 20 B 0.4 0.001 0.001 0.001 1000 20 B 0.7 0.001 0.001 0.002 1000 20 W 0.4 -0.003 0.000 0.008 1000 20 W 0.7 -0.003 0.000 0.008

** p<.01

表 4-20 的發現如前一小節中領域量尺分數的發現一樣。

五、小結

綜合上述，無參數 HIRT 等化同時估計結果是可行性的；另外，透過與參數

型的 HIRT 等化同時估計結果的比較，更可以發現無參數 HIRT 等化同時估計法比起參數型的 HIRT 等化同時估計法有更高的參數估計精準度，特別是在總體量尺分數沒有遵守常態性的假設時。

在文檔中階層式試題反應理論模式及其等化估計方法 (頁 60-67)

第四章 研究結果

第五節 非常態下之等化同時估計方法估計成效之比較

第五節 非常態下之等化同時估計方法估計成效之比較

第四章研究結果

第五節非常態下之等化同時估計方法估計成效之比較

第五節非常態下之等化同時估計方法估計成效之比較