• 沒有找到結果。

模式間參數估計成效之比較

第四章 研究結果

第二節 模式間參數估計成效之比較

本節透過比較使用 HIRT 與 UIRT 和 MIRT 不同模式下對參數估計結果的影 響,以探究當測驗架構存在 HIRT 模式的架構時,誤用 UIRT 與 MIRT 模式進行參 數估計現行大型測驗的估計過程 (OECD, 2009) 將對參數估計的精準度產生何 種影響。

由於 HIRT 模式中,預估參數的類型很多(包括:總體量尺分數、領域量尺分 數以及試題參數),文章下面將透過小節的方式呈現各類參數在不同的架構下估 計方法的差異。此外,模擬資料具備多因子的情境,因此資料呈現方式亦會將單 因子與多因子加以區隔,以便於結果之論述與比較說明。

一、總體量尺分數估計成效之比較

分析過程所產生的 RMSE 值表格過於龐大,然 爲清楚呈現 HIRT 與 UIRT 模 式對參數估計成效間的差異,文中僅列出兩者 RMSE 之差異,並輔以 t-test 檢驗 顯示不同參數估計法間的差異有無達顯著性(正值代表 HIRT 模式較好;負值代表 UIRT 模式比較好)。

表 4-3 中多向度架構 B 代表多向度測驗是屬於題間多項的測驗架構、W 代 表多向度測驗是屬於題內多向度的測驗架構。藉由 RMSE 差異值比較,可發現 HIRT 模式的估計精準度比較高,特別是當測驗架構具備題內多向度的測驗架構 時,或測驗長度較長的情況下,都可以發現 HIRT 模式的估計精準度高於 UIRT 模式的參數估計精準度。至於在題間多向度的情況下,兩者對於總體量尺分數的 估計差異就比較小一點,即便是題數變大差異的提升程度的也不是明顯。

雖然多向度的測驗架構與題數較多的情況都可以使得HIRT模式的參數估計 精準度提升,然測驗架構的複雜所造成的影響比起題數變多少造成的影響還要來 得大。比方說同樣是題間多向度測驗架構下,增加人數則HIRT與UIRT模式間差 別仍無顯著上差異;若採用改用題內多向度測驗架構,則即使題數很少仍會發現 HIRT模式的估計比UIRT模式的估計還要來得精準。會形成這樣的差異主要是因

為UIRT模式在參數估計過程中,容易忽略測驗架構中試題間存在多維度的特 質,而造成估計不精準的情況,如此的結果與de la Torre與Song (2009) 研究結果 是相同的。

表 4-3

單因子高層次RMSE差異表(UIRT與HIRT)

人數 題數 多向度 架構

領域量尺

相關 Binomial Normal Skew 500 10 B 0.4 0.028 0.025 0.030 500 10 B 0.7 0.005 0.003 0.007 500 10 W 0.4 0.041 0.040 0.038 500 10 W 0.7 0.129** 0.115** 0.099**

500 20 B 0.4 0.030 0.034 0.033 500 20 B 0.7 0.008 0.010 0.013 500 20 W 0.4 0.051** 0.050 0.052**

500 20 W 0.7 0.137** 0.138** 0.124**

1000 10 B 0.4 0.031 0.029 0.029**

1000 10 B 0.7 0.004 0.005 0.006 1000 10 W 0.4 0.047** 0.042** 0.044**

1000 10 W 0.7 0.127** 0.118** 0.109**

1000 20 B 0.4 0.033** 0.033** 0.035**

1000 20 B 0.7 0.010 0.010 0.014 1000 20 W 0.4 0.054** 0.054** 0.050**

1000 20 W 0.7 0.143** 0.136** 0.125**

** p<.01

36

表 4-4

多因子高層次 RMSE 差異表(UIRT 與 HIRT)

人數 題 數

多向 度 架構

領域 量尺 相關

Binomial Normal Skew

一 二 一 二 一 二

500 10 B 0.4 -0.003 0.000 -0.003 -0.001 0.002 -0.001 500 10 B 0.7 -0.002 0.004 -0.002 0.003 0.001 0.004 500 10 W 0.4 0.130** 0.166** 0.129** 0.149** 0.106** 0.134**

500 10 W 0.7 0.142** 0.146** 0.138** 0.122** 0.120** 0.100**

500 20 B 0.4 -0.008 0.003 -0.010 0.005 -0.002 0.004 500 20 B 0.7 0.005 0.006 0.004 0.010 0.002 0.011 500 20 W 0.4 0.150** 0.117** 0.155** 0.122** 0.157** 0.118**

500 20 W 0.7 0.166** 0.502** 0.158** 0.178** 0.158** 0.178**

1000 10 B 0.4 0.003 0.003 -0.004 0.003 0.000 0.003 1000 10 B 0.7 0.003 0.005 0.001 0.006 0.005 0.005 1000 10 W 0.4 0.143** 0.154** 0.142** 0.160** 0.138** 0.149**

1000 10 W 0.7 0.154** 0.159** 0.136** 0.122** 0.132** 0.107**

1000 20 B 0.4 0.000 0.007 0.007 0.007 0.008 0.007 1000 20 B 0.7 0.005 0.009 0.008 0.011 0.011 0.008 1000 20 W 0.4 0.162** 0.121** 0.167** 0.126** 0.158** 0.105**

1000 20 W 0.7 0.167** 0.103** 0.163** 0.193** 0.160** 0.181**

** p<.01

表 4-4 中的多因子的測驗架構下的分析結果,各項比較結果如單因子測驗架 構上之結果雷同。相關說明在此不多加贅述。

二、領域量尺分數估計成效之比較

分析過程所產生的 RMSE 值表格過於龐大,然 爲清楚呈現HIRT 與 UIRT 模 式對於參數估計的成效差異,文中僅列出兩者 RMSE 之差異,並輔以 t-test 檢驗 顯示不同參數估計法間的差異有無達顯著性(正值代表 HIRT 模式較好;負值代表 MIRT 模式比較好)。

表 4-5

單因子次級RMSE差異表(MIR與HIRT)

人數 題數 多向度 架構

領域量尺 相關

Binomial Normal Skew

一 二 三 四 五 一 二 三 四 五 一 二 三 四 五

500 10 B 0.4 0.000 -0.001 -0.001 -0.002 -0.001 0.000 0.002 0.000 0.000 0.000 0.003 0.000 -0.002 0.001 0.001 500 10 B 0.7 -0.003 -0.006 -0.004 -0.005 -0.004 -0.008 -0.008 -0.006 -0.007 -0.007 -0.004 -0.007 -0.005 -0.005 -0.007 500 10 W 0.4 0.001 0.001 0.002 0.003 0.008 0.003 0.005 0.001 0.005 0.002 0.002 0.002 0.004 0.005 0.008 500 10 W 0.7 -0.002 -0.004 -0.001 -0.001 0.004 -0.003 -0.005 -0.003 0.003 0.000 -0.001 0.004 0.000 0.000 0.000 500 20 B 0.4 0.004 0.004 0.005 0.003 0.003 0.003 0.004 0.004 0.004 0.006 0.006 0.005 0.010 0.008 0.006 500 20 B 0.7 -0.004 -0.005 -0.007 -0.004 -0.005 -0.005 -0.002 -0.004 -0.003 -0.004 -0.004 -0.003 -0.003 -0.001 -0.001 500 20 W 0.4 0.003 0.006 0.003 0.005 0.005 0.006 0.010 0.005 0.010 0.006 0.004 0.005 0.003 0.006 0.006 500 20 W 0.7 -0.002 0.000 -0.001 -0.003 -0.004 -0.001 -0.002 -0.003 -0.003 -0.001 -0.004 0.001 -0.001 -0.003 0.004 1000 10 B 0.4 0.001 -0.001 -0.001 -0.001 -0.001 -0.001 0.000 -0.001 0.000 -0.001 0.000 -0.001 -0.002 0.001 -0.001 1000 10 B 0.7 -0.008 -0.008 -0.007 -0.006 -0.008 -0.006 -0.007 -0.006 -0.008 -0.006 -0.007 -0.007 -0.009 -0.006 -0.006 1000 10 W 0.4 -0.001 -0.001 0.001 0.001 0.001 0.000 0.000 0.000 0.000 0.000 0.000 -0.001 0.002 0.003 0.003 1000 10 W 0.7 -0.004 -0.006 -0.003 -0.002 -0.005 -0.005 -0.002 -0.003 -0.003 -0.003 -0.002 0.000 0.000 0.000 0.003 1000 20 B 0.4 0.002 0.003 0.004 0.005 0.003 0.004 0.004 0.003 0.006 0.004 0.004 0.004 0.005 0.006 0.004 1000 20 B 0.7 -0.004 -0.006 -0.003 -0.004 -0.004 -0.005 -0.006 -0.005 -0.004 -0.004 -0.003 -0.003 -0.004 -0.004 -0.001 1000 20 W 0.4 0.003 0.006 0.004 0.004 0.004 0.003 0.004 0.003 0.005 0.003 0.006 0.005 0.005 0.006 0.007 1000 20 W 0.7 -0.004 -0.004 -0.003 -0.003 -0.003 -0.003 -0.005 -0.003 -0.004 -0.004 -0.002 -0.001 0.000 -0.002 -0.003

** p<.01

38

表 4-5 中多向度架構 B 代表題間多項的測驗架構、W 代表題內多向度的測 驗架構。藉由 RMSE 差異值得比較可發現幾乎在所有狀況下,HIRT 與 MIRT 模 式的估計方式對於領域量尺的估計之結果,並沒有產生具有顯著結果的差異。換 句話說,在領域量尺的估計過程中,儘管採用 HIRT 模式對於領域量尺的估計也 會跟 MIRT 模式之估計相當。

倘若在沒有透過 t-test 檢定的情況下分析表 4-5,可以發現各個狀況下幾乎都 是 MIRT 模式的 RMSE 比較低一點。關於這樣的一個現象,主要是因為在 MIRT 模式中主要透過 15 個參數(五個領域量尺分數的情況下)來加以解釋領域量尺間 的關係(共變異-變異數矩陣(covariance-variance matrix));但在 HIRT 模式中卻 僅透過六個參數(包括:五個回歸參數及一個總體量尺分數的變異數)來解釋這一 個共變異-變異數矩陣,而導致參數估計過程產生些許偏誤的情況,使得整個參 數估計精準度變得較差一些,因此 HIRT 模式的 RMSE 值都比較高一點。

然經過 t-test 的檢定發現其實絕大部分的差異都沒有達到顯著的水準。換句 話說,利用較少的參數卻可以獲得差不多的結果,並且在總體量尺的部分又可獲 得較佳的結果。整體來說,使用 HIRT 模式去進行資料分析是比較佳的。

表 4-6

多因子次級RMSE差異表(MIRT與HIRT)

人數 題數 多向度 架構

領域量尺 相關

Binomial Normal Skew

一 二 三 四 五 一 二 三 四 五 一 二 三 四 五

500 10 B 0.4 0.001 -0.001 0.000 -0.003 0.001 -0.001 0.001 -0.002 0.000 -0.003 0.001 0.001 -0.001 0.001 0.000 500 10 B 0.7 -0.005 -0.007 -0.006 -0.009 -0.006 -0.006 -0.005 -0.006 -0.010 -0.009 -0.006 -0.006 -0.008 -0.008 -0.008 500 10 W 0.4 0.001 0.007 -0.004 -0.002 -0.004 0.000 0.005 -0.003 -0.001 -0.006 -0.001 -0.003 0.000 0.000 0.000 500 10 W 0.7 -0.007 -0.001 -0.012 -0.012 -0.017 -0.004 -0.002 -0.008 -0.013 -0.009 -0.005 -0.003 -0.009 -0.017 -0.018 500 20 B 0.4 0.005 0.005 0.007 0.007 0.005 0.004 0.007 0.004 0.007 0.008 0.006 0.008 0.006 0.009 0.007 500 20 B 0.7 -0.003 -0.004 0.000 -0.001 -0.006 -0.003 -0.002 -0.003 -0.003 -0.004 -0.003 -0.001 -0.002 -0.002 -0.002 500 20 W 0.4 0.004 0.004 0.003 0.005 0.004 0.006 0.004 0.003 0.003 0.003 0.005 0.012 0.003 0.005 0.013 500 20 W 0.7 -0.001 0.004 -0.004 -0.006 -0.006 -0.004 -0.002 -0.004 -0.007 -0.007 0.001 0.002 -0.003 -0.003 -0.001 1000 10 B 0.4 -0.002 -0.001 0.000 -0.001 -0.002 0.001 -0.001 -0.001 -0.001 -0.002 -0.002 0.000 -0.001 0.000 -0.001 1000 10 B 0.7 -0.008 -0.007 -0.008 -0.006 -0.007 -0.007 -0.007 -0.008 -0.008 -0.010 -0.007 -0.006 -0.009 -0.006 -0.009 1000 10 W 0.4 -0.002 -0.001 -0.006 -0.007 -0.011 -0.001 0.000 -0.002 -0.006 -0.005 -0.002 0.001 -0.003 -0.004 -0.006 1000 10 W 0.7 -0.007 0.000 -0.010 -0.011 -0.010 -0.003 -0.003 -0.010 -0.018 -0.018 -0.006 -0.002 -0.010 -0.014 -0.018 1000 20 B 0.4 0.007 0.005 0.007 0.007 0.004 0.005 0.005 0.006 0.007 0.004 0.006 0.006 0.006 0.010 0.006 1000 20 B 0.7 -0.003 -0.004 -0.003 -0.003 -0.004 -0.002 -0.004 -0.003 -0.002 -0.002 -0.001 -0.001 -0.003 0.001 -0.001 1000 20 W 0.4 0.004 0.009 0.004 0.007 0.003 0.003 0.005 0.001 0.006 0.003 0.004 0.006 0.003 0.006 0.004 1000 20 W 0.7 -0.002 -0.001 -0.004 -0.006 -0.009 -0.002 -0.002 -0.003 -0.005 -0.007 -0.002 0.003 -0.005 -0.005 -0.007

** p<.01

40

表 4-6 中的多因子的測驗架構下的分析結果,各項比較結果如單因子測驗架 構上之結果雷同。相關說明在此不多加贅述。

三、試題參數估計成效之比較

分析過程所產生的 RMSE 值表格過於龐大,然 爲清楚呈現HIRT 和 UIRT 與 MIRT 不同模式間的估計成效差異,文中僅列出三者 RMSE 之差異,並輔以 t-test 檢驗顯示不同參數估計法間的差異有無達顯著性(正值代表 HIRT 模式較好;負值 代表 UIRT 或 MIRT 模式比較好)。

表 4-7

單因子試題參數RMSE差異表(UIRT、MIRT與HIRT)

人數 題數 多向度 架構

領域量尺 相關

Binomial Normal Skew UIRT

與 HIRT

MIRT 與 HIRT

UIRT 與 HIRT

MIRT 與 HIRT

UIRT 與 HIRT

MIRT 與 HIRT 500 10 B 0.4 0.024 0.000 0.017 0.001 0.022 0.000 500 10 B 0.7 0.001 0.001 0.002 0.000 -0.002 -0.004 500 10 W 0.4 0.054** 0.000 0.052** 0.000 0.048** 0.006 500 10 W 0.7 0.059** -0.002 0.055** -0.001 0.044** 0.003 500 20 B 0.4 0.020 0.000 0.020 0.001 0.022** 0.005 500 20 B 0.7 0.000 -0.002 0.002 -0.001 0.001 0.005 500 20 W 0.4 0.051** 0.002 0.054** 0.003 0.050** 0.000 500 20 W 0.7 0.056** 0.005 0.055** -0.001 0.047** 0.003 1000 10 B 0.4 0.030** -0.001 0.031** 0.000 0.030** -0.001 1000 10 B 0.7 0.006 -0.001 0.007 0.000 0.006 0.002 1000 10 W 0.4 0.067** 0.001 0.072** 0.002 0.066** 0.000 1000 10 W 0.7 0.073** -0.004 0.069** -0.006 0.064** 0.008 1000 20 B 0.4 0.033** 0.001 0.029** 0.001 0.032** 0.002 1000 20 B 0.7 0.004 -0.001 0.007 -0.001 0.007 0.003 1000 20 W 0.4 0.069** 0.002 0.065** -0.002 0.066** 0.005 1000 20 W 0.7 0.075** -0.001 0.069** -0.004 0.057** 0.004

** p<.01

表 4-7 中多向度架構 B 代表題間多項的測驗架構、W 代表題內多向度的測 驗架構。透過 RMSE 的差異值得比較可以發現 UIRT 模式的試題參數的估計精準 度最差,而在 MIRT 與 HIRT 模式下兩者參數估計精準度是相似的,至少在 t-test

的考驗下呈現沒有顯著差異的現象。這也驗證出 UIRT 模式確實會因為忽略題目 間多向度特質,進行對試題參數的估計造成偏誤,這種情況在 MIRT 與 HIRT 模 式的情況下(考慮領域量尺間的相關與試題多向度的特質)就比較不會有這樣的 偏誤產生。

表 4-8

多因子試題 RMSE 差異表(UIRT、MIRT 與 HIRT)

人數 題數 多向度 架構

領域量尺 相關

Binomial Normal Skew UIRT

與 HIRT

MIRT 與 HIRT

UIRT 與 HIRT

MIRT 與 HIRT

UIRT 與 HIRT

MIRT 與 HIRT 500 10 B 0.4 0.013 0 0.016 0 0.014 0 500 10 B 0.7 0.006 0 0.003 0 0.004 -0.001 500 10 W 0.4 0.035** 0.003 0.029 0 0.03 0.002 500 10 W 0.7 0.051** 0 0.048** 0 0.035 -0.001 500 20 B 0.4 0.015 -0.001 0.011 0 0.013 0.001 500 20 B 0.7 0.004 0 0.004 0 0.002 0.003 500 20 W 0.4 0.031 0.001 0.028 0.001 0.031 0.003 500 20 W 0.7 0.045** 0.001 0.040** -0.005 0.040** 0.003 1000 10 B 0.4 0.025 0 0.023** 0 0.022 -0.001 1000 10 B 0.7 0.01 -0.001 0.008 -0.001 0.006 -0.001 1000 10 W 0.4 0.042** -0.003 0.043** -0.002 0.040** -0.001 1000 10 W 0.7 0.061** 0.003 0.060** -0.001 0.044** -0.007 1000 20 B 0.4 0.022** 0 0.023** 0.001 0.023** 0.001 1000 20 B 0.7 0.009 -0.001 0.009 -0.001 0.007 0 1000 20 W 0.4 0.045** 0.001 0.039** -0.004 0.043** -0.002 1000 20 W 0.7 0.062** 0.002 0.060** -0.001 0.052** -0.001

** p<.01

表 4-8 中的多因子的測驗架構下的分析結果,各項比較結果如單因子測驗架 構上之結果雷同。相關說明在此不多加贅述。

四、小結

綜合上述,具有 HIRT 模式的測驗結構,若想同時針對總體量尺與領域量尺 分數估計應採用 HIRT 模式;倘若使用 UIRT 與 MIRT 模式,則會對總體量尺分 數與試題參數產生估計上偏誤。此外採用 HIRT 模式,還可獲得估計過程的優勢:

42

一次的估計過程便可以同時獲得總體量尺與領域量尺分數的估計值,並可在估計 過程中同時考慮總體量尺分數與領域量尺分數間的等量尺的性質。