模式間參數估計成效之比較

第四章研究結果

第二節模式間參數估計成效之比較

本節透過比較使用 HIRT 與 UIRT 和 MIRT 不同模式下對參數估計結果的影響，以探究當測驗架構存在 HIRT 模式的架構時,誤用 UIRT 與 MIRT 模式進行參數估計現行大型測驗的估計過程 (OECD, 2009) 將對參數估計的精準度產生何種影響。

由於 HIRT 模式中，預估參數的類型很多(包括：總體量尺分數、領域量尺分數以及試題參數)，文章下面將透過小節的方式呈現各類參數在不同的架構下估計方法的差異。此外，模擬資料具備多因子的情境，因此資料呈現方式亦會將單因子與多因子加以區隔，以便於結果之論述與比較說明。

一、總體量尺分數估計成效之比較

分析過程所產生的 RMSE 值表格過於龐大，然爲清楚呈現 HIRT 與 UIRT 模式對參數估計成效間的差異，文中僅列出兩者 RMSE 之差異，並輔以 t-test 檢驗顯示不同參數估計法間的差異有無達顯著性(正值代表 HIRT 模式較好；負值代表 UIRT 模式比較好)。

表 4-3 中多向度架構 B 代表多向度測驗是屬於題間多項的測驗架構、W 代表多向度測驗是屬於題內多向度的測驗架構。藉由 RMSE 差異值比較，可發現 HIRT 模式的估計精準度比較高，特別是當測驗架構具備題內多向度的測驗架構時，或測驗長度較長的情況下，都可以發現 HIRT 模式的估計精準度高於 UIRT 模式的參數估計精準度。至於在題間多向度的情況下，兩者對於總體量尺分數的估計差異就比較小一點，即便是題數變大差異的提升程度的也不是明顯。

雖然多向度的測驗架構與題數較多的情況都可以使得HIRT模式的參數估計 精準度提升，然測驗架構的複雜所造成的影響比起題數變多少造成的影響還要來得大。比方說同樣是題間多向度測驗架構下，增加人數則HIRT與UIRT模式間差別仍無顯著上差異；若採用改用題內多向度測驗架構，則即使題數很少仍會發現 HIRT模式的估計比UIRT模式的估計還要來得精準。會形成這樣的差異主要是因

為UIRT模式在參數估計過程中，容易忽略測驗架構中試題間存在多維度的特質，而造成估計不精準的情況，如此的結果與de la Torre與Song (2009) 研究結果是相同的。

表 4-3

單因子高層次RMSE差異表（UIRT與HIRT）

人數題數多向度架構

領域量尺

相關 Binomial Normal Skew 500 10 B 0.4 0.028 0.025 0.030 500 10 B 0.7 0.005 0.003 0.007 500 10 W 0.4 0.041 0.040 0.038 500 10 W 0.7 0.129** 0.115** 0.099**

500 20 B 0.4 0.030 0.034 0.033 500 20 B 0.7 0.008 0.010 0.013 500 20 W 0.4 0.051** 0.050 0.052**

500 20 W 0.7 0.137** 0.138** 0.124**

1000 10 B 0.4 0.031 0.029 0.029**

1000 10 B 0.7 0.004 0.005 0.006 1000 10 W 0.4 0.047** 0.042** 0.044**

1000 10 W 0.7 0.127** 0.118** 0.109**

1000 20 B 0.4 0.033** 0.033** 0.035**

1000 20 B 0.7 0.010 0.010 0.014 1000 20 W 0.4 0.054** 0.054** 0.050**

1000 20 W 0.7 0.143** 0.136** 0.125**

** p<.01

表 4-4

多因子高層次 RMSE 差異表（UIRT 與 HIRT）

人數題數

多向度架構

領域量尺相關

Binomial Normal Skew

一二一二一二

500 10 B 0.4 -0.003 0.000 -0.003 -0.001 0.002 -0.001 500 10 B 0.7 -0.002 0.004 -0.002 0.003 0.001 0.004 500 10 W 0.4 0.130** 0.166** 0.129** 0.149** 0.106** 0.134**

500 10 W 0.7 0.142** 0.146** 0.138** 0.122** 0.120** 0.100**

500 20 B 0.4 -0.008 0.003 -0.010 0.005 -0.002 0.004 500 20 B 0.7 0.005 0.006 0.004 0.010 0.002 0.011 500 20 W 0.4 0.150** 0.117** 0.155** 0.122** 0.157** 0.118**

500 20 W 0.7 0.166** 0.502** 0.158** 0.178** 0.158** 0.178**

1000 10 B 0.4 0.003 0.003 -0.004 0.003 0.000 0.003 1000 10 B 0.7 0.003 0.005 0.001 0.006 0.005 0.005 1000 10 W 0.4 0.143** 0.154** 0.142** 0.160** 0.138** 0.149**

1000 10 W 0.7 0.154** 0.159** 0.136** 0.122** 0.132** 0.107**

1000 20 B 0.4 0.000 0.007 0.007 0.007 0.008 0.007 1000 20 B 0.7 0.005 0.009 0.008 0.011 0.011 0.008 1000 20 W 0.4 0.162** 0.121** 0.167** 0.126** 0.158** 0.105**

1000 20 W 0.7 0.167** 0.103** 0.163** 0.193** 0.160** 0.181**

** p<.01

表 4-4 中的多因子的測驗架構下的分析結果，各項比較結果如單因子測驗架構上之結果雷同。相關說明在此不多加贅述。

二、領域量尺分數估計成效之比較

分析過程所產生的 RMSE 值表格過於龐大，然爲清楚呈現HIRT 與 UIRT 模式對於參數估計的成效差異，文中僅列出兩者 RMSE 之差異，並輔以 t-test 檢驗顯示不同參數估計法間的差異有無達顯著性(正值代表 HIRT 模式較好；負值代表 MIRT 模式比較好)。

表 4-5

單因子次級RMSE差異表（MIR與HIRT）

人數題數多向度架構

領域量尺相關

Binomial Normal Skew

一二三四五一二三四五一二三四五

500 10 B 0.4 0.000 -0.001 -0.001 -0.002 -0.001 0.000 0.002 0.000 0.000 0.000 0.003 0.000 -0.002 0.001 0.001 500 10 B 0.7 -0.003 -0.006 -0.004 -0.005 -0.004 -0.008 -0.008 -0.006 -0.007 -0.007 -0.004 -0.007 -0.005 -0.005 -0.007 500 10 W 0.4 0.001 0.001 0.002 0.003 0.008 0.003 0.005 0.001 0.005 0.002 0.002 0.002 0.004 0.005 0.008 500 10 W 0.7 -0.002 -0.004 -0.001 -0.001 0.004 -0.003 -0.005 -0.003 0.003 0.000 -0.001 0.004 0.000 0.000 0.000 500 20 B 0.4 0.004 0.004 0.005 0.003 0.003 0.003 0.004 0.004 0.004 0.006 0.006 0.005 0.010 0.008 0.006 500 20 B 0.7 -0.004 -0.005 -0.007 -0.004 -0.005 -0.005 -0.002 -0.004 -0.003 -0.004 -0.004 -0.003 -0.003 -0.001 -0.001 500 20 W 0.4 0.003 0.006 0.003 0.005 0.005 0.006 0.010 0.005 0.010 0.006 0.004 0.005 0.003 0.006 0.006 500 20 W 0.7 -0.002 0.000 -0.001 -0.003 -0.004 -0.001 -0.002 -0.003 -0.003 -0.001 -0.004 0.001 -0.001 -0.003 0.004 1000 10 B 0.4 0.001 -0.001 -0.001 -0.001 -0.001 -0.001 0.000 -0.001 0.000 -0.001 0.000 -0.001 -0.002 0.001 -0.001 1000 10 B 0.7 -0.008 -0.008 -0.007 -0.006 -0.008 -0.006 -0.007 -0.006 -0.008 -0.006 -0.007 -0.007 -0.009 -0.006 -0.006 1000 10 W 0.4 -0.001 -0.001 0.001 0.001 0.001 0.000 0.000 0.000 0.000 0.000 0.000 -0.001 0.002 0.003 0.003 1000 10 W 0.7 -0.004 -0.006 -0.003 -0.002 -0.005 -0.005 -0.002 -0.003 -0.003 -0.003 -0.002 0.000 0.000 0.000 0.003 1000 20 B 0.4 0.002 0.003 0.004 0.005 0.003 0.004 0.004 0.003 0.006 0.004 0.004 0.004 0.005 0.006 0.004 1000 20 B 0.7 -0.004 -0.006 -0.003 -0.004 -0.004 -0.005 -0.006 -0.005 -0.004 -0.004 -0.003 -0.003 -0.004 -0.004 -0.001 1000 20 W 0.4 0.003 0.006 0.004 0.004 0.004 0.003 0.004 0.003 0.005 0.003 0.006 0.005 0.005 0.006 0.007 1000 20 W 0.7 -0.004 -0.004 -0.003 -0.003 -0.003 -0.003 -0.005 -0.003 -0.004 -0.004 -0.002 -0.001 0.000 -0.002 -0.003

** p<.01

表 4-5 中多向度架構 B 代表題間多項的測驗架構、W 代表題內多向度的測驗架構。藉由 RMSE 差異值得比較可發現幾乎在所有狀況下，HIRT 與 MIRT 模式的估計方式對於領域量尺的估計之結果，並沒有產生具有顯著結果的差異。換句話說，在領域量尺的估計過程中，儘管採用 HIRT 模式對於領域量尺的估計也會跟 MIRT 模式之估計相當。

倘若在沒有透過 t-test 檢定的情況下分析表 4-5，可以發現各個狀況下幾乎都是 MIRT 模式的 RMSE 比較低一點。關於這樣的一個現象，主要是因為在 MIRT 模式中主要透過 15 個參數(五個領域量尺分數的情況下)來加以解釋領域量尺間的關係(共變異-變異數矩陣（covariance-variance matrix）)；但在 HIRT 模式中卻僅透過六個參數(包括：五個回歸參數及一個總體量尺分數的變異數)來解釋這一個共變異-變異數矩陣，而導致參數估計過程產生些許偏誤的情況，使得整個參數估計精準度變得較差一些，因此 HIRT 模式的 RMSE 值都比較高一點。

然經過 t-test 的檢定發現其實絕大部分的差異都沒有達到顯著的水準。換句話說，利用較少的參數卻可以獲得差不多的結果，並且在總體量尺的部分又可獲得較佳的結果。整體來說，使用 HIRT 模式去進行資料分析是比較佳的。

表 4-6

多因子次級RMSE差異表（MIRT與HIRT）

人數題數多向度架構

領域量尺相關

Binomial Normal Skew

一二三四五一二三四五一二三四五

500 10 B 0.4 0.001 -0.001 0.000 -0.003 0.001 -0.001 0.001 -0.002 0.000 -0.003 0.001 0.001 -0.001 0.001 0.000 500 10 B 0.7 -0.005 -0.007 -0.006 -0.009 -0.006 -0.006 -0.005 -0.006 -0.010 -0.009 -0.006 -0.006 -0.008 -0.008 -0.008 500 10 W 0.4 0.001 0.007 -0.004 -0.002 -0.004 0.000 0.005 -0.003 -0.001 -0.006 -0.001 -0.003 0.000 0.000 0.000 500 10 W 0.7 -0.007 -0.001 -0.012 -0.012 -0.017 -0.004 -0.002 -0.008 -0.013 -0.009 -0.005 -0.003 -0.009 -0.017 -0.018 500 20 B 0.4 0.005 0.005 0.007 0.007 0.005 0.004 0.007 0.004 0.007 0.008 0.006 0.008 0.006 0.009 0.007 500 20 B 0.7 -0.003 -0.004 0.000 -0.001 -0.006 -0.003 -0.002 -0.003 -0.003 -0.004 -0.003 -0.001 -0.002 -0.002 -0.002 500 20 W 0.4 0.004 0.004 0.003 0.005 0.004 0.006 0.004 0.003 0.003 0.003 0.005 0.012 0.003 0.005 0.013 500 20 W 0.7 -0.001 0.004 -0.004 -0.006 -0.006 -0.004 -0.002 -0.004 -0.007 -0.007 0.001 0.002 -0.003 -0.003 -0.001 1000 10 B 0.4 -0.002 -0.001 0.000 -0.001 -0.002 0.001 -0.001 -0.001 -0.001 -0.002 -0.002 0.000 -0.001 0.000 -0.001 1000 10 B 0.7 -0.008 -0.007 -0.008 -0.006 -0.007 -0.007 -0.007 -0.008 -0.008 -0.010 -0.007 -0.006 -0.009 -0.006 -0.009 1000 10 W 0.4 -0.002 -0.001 -0.006 -0.007 -0.011 -0.001 0.000 -0.002 -0.006 -0.005 -0.002 0.001 -0.003 -0.004 -0.006 1000 10 W 0.7 -0.007 0.000 -0.010 -0.011 -0.010 -0.003 -0.003 -0.010 -0.018 -0.018 -0.006 -0.002 -0.010 -0.014 -0.018 1000 20 B 0.4 0.007 0.005 0.007 0.007 0.004 0.005 0.005 0.006 0.007 0.004 0.006 0.006 0.006 0.010 0.006 1000 20 B 0.7 -0.003 -0.004 -0.003 -0.003 -0.004 -0.002 -0.004 -0.003 -0.002 -0.002 -0.001 -0.001 -0.003 0.001 -0.001 1000 20 W 0.4 0.004 0.009 0.004 0.007 0.003 0.003 0.005 0.001 0.006 0.003 0.004 0.006 0.003 0.006 0.004 1000 20 W 0.7 -0.002 -0.001 -0.004 -0.006 -0.009 -0.002 -0.002 -0.003 -0.005 -0.007 -0.002 0.003 -0.005 -0.005 -0.007

** p<.01

表 4-6 中的多因子的測驗架構下的分析結果，各項比較結果如單因子測驗架構上之結果雷同。相關說明在此不多加贅述。

三、試題參數估計成效之比較

分析過程所產生的 RMSE 值表格過於龐大，然爲清楚呈現HIRT 和 UIRT 與 MIRT 不同模式間的估計成效差異，文中僅列出三者 RMSE 之差異，並輔以 t-test 檢驗顯示不同參數估計法間的差異有無達顯著性(正值代表 HIRT 模式較好；負值代表 UIRT 或 MIRT 模式比較好)。

表 4-7

單因子試題參數RMSE差異表（UIRT、MIRT與HIRT）

人數題數多向度架構

領域量尺相關

Binomial Normal Skew UIRT

與 HIRT

MIRT 與 HIRT

UIRT 與 HIRT

MIRT 與 HIRT

UIRT 與 HIRT

MIRT 與 HIRT 500 10 B 0.4 0.024 0.000 0.017 0.001 0.022 0.000 500 10 B 0.7 0.001 0.001 0.002 0.000 -0.002 -0.004 500 10 W 0.4 0.054** 0.000 0.052** 0.000 0.048** 0.006 500 10 W 0.7 0.059** -0.002 0.055** -0.001 0.044** 0.003 500 20 B 0.4 0.020 0.000 0.020 0.001 0.022** 0.005 500 20 B 0.7 0.000 -0.002 0.002 -0.001 0.001 0.005 500 20 W 0.4 0.051** 0.002 0.054** 0.003 0.050** 0.000 500 20 W 0.7 0.056** 0.005 0.055** -0.001 0.047** 0.003 1000 10 B 0.4 0.030** -0.001 0.031** 0.000 0.030** -0.001 1000 10 B 0.7 0.006 -0.001 0.007 0.000 0.006 0.002 1000 10 W 0.4 0.067** 0.001 0.072** 0.002 0.066** 0.000 1000 10 W 0.7 0.073** -0.004 0.069** -0.006 0.064** 0.008 1000 20 B 0.4 0.033** 0.001 0.029** 0.001 0.032** 0.002 1000 20 B 0.7 0.004 -0.001 0.007 -0.001 0.007 0.003 1000 20 W 0.4 0.069** 0.002 0.065** -0.002 0.066** 0.005 1000 20 W 0.7 0.075** -0.001 0.069** -0.004 0.057** 0.004

** p<.01

表 4-7 中多向度架構 B 代表題間多項的測驗架構、W 代表題內多向度的測驗架構。透過 RMSE 的差異值得比較可以發現 UIRT 模式的試題參數的估計精準度最差，而在 MIRT 與 HIRT 模式下兩者參數估計精準度是相似的，至少在 t-test

的考驗下呈現沒有顯著差異的現象。這也驗證出 UIRT 模式確實會因為忽略題目間多向度特質，進行對試題參數的估計造成偏誤，這種情況在 MIRT 與 HIRT 模式的情況下(考慮領域量尺間的相關與試題多向度的特質)就比較不會有這樣的偏誤產生。

表 4-8

多因子試題 RMSE 差異表（UIRT、MIRT 與 HIRT）

人數題數多向度架構

領域量尺相關

Binomial Normal Skew UIRT

與 HIRT

MIRT 與 HIRT

UIRT 與 HIRT

MIRT 與 HIRT

UIRT 與 HIRT

MIRT 與 HIRT 500 10 B 0.4 0.013 0 0.016 0 0.014 0 500 10 B 0.7 0.006 0 0.003 0 0.004 -0.001 500 10 W 0.4 0.035** 0.003 0.029 0 0.03 0.002 500 10 W 0.7 0.051** 0 0.048** 0 0.035 -0.001 500 20 B 0.4 0.015 -0.001 0.011 0 0.013 0.001 500 20 B 0.7 0.004 0 0.004 0 0.002 0.003 500 20 W 0.4 0.031 0.001 0.028 0.001 0.031 0.003 500 20 W 0.7 0.045** 0.001 0.040** -0.005 0.040** 0.003 1000 10 B 0.4 0.025 0 0.023** 0 0.022 -0.001 1000 10 B 0.7 0.01 -0.001 0.008 -0.001 0.006 -0.001 1000 10 W 0.4 0.042** -0.003 0.043** -0.002 0.040** -0.001 1000 10 W 0.7 0.061** 0.003 0.060** -0.001 0.044** -0.007 1000 20 B 0.4 0.022** 0 0.023** 0.001 0.023** 0.001 1000 20 B 0.7 0.009 -0.001 0.009 -0.001 0.007 0 1000 20 W 0.4 0.045** 0.001 0.039** -0.004 0.043** -0.002 1000 20 W 0.7 0.062** 0.002 0.060** -0.001 0.052** -0.001

** p<.01

表 4-8 中的多因子的測驗架構下的分析結果，各項比較結果如單因子測驗架構上之結果雷同。相關說明在此不多加贅述。

四、小結

綜合上述，具有 HIRT 模式的測驗結構，若想同時針對總體量尺與領域量尺分數估計應採用 HIRT 模式；倘若使用 UIRT 與 MIRT 模式，則會對總體量尺分數與試題參數產生估計上偏誤。此外採用 HIRT 模式，還可獲得估計過程的優勢：

一次的估計過程便可以同時獲得總體量尺與領域量尺分數的估計值，並可在估計過程中同時考慮總體量尺分數與領域量尺分數間的等量尺的性質。

在文檔中階層式試題反應理論模式及其等化估計方法 (頁 41-49)

第四章 研究結果

第二節 模式間參數估計成效之比較

第四章研究結果

第二節模式間參數估計成效之比較