HO-IRT 完整估計與 MIRT 及 UIRT 分開估計之

第四章研究結果

第二節 HO-IRT 完整估計與 MIRT 及 UIRT 分開估計之

本研究使用 UIRT、MIRT、HO-IRT 三種模式來估計學童在圓陎積能力測驗的整體量尺、領域量尺及詴題難度，並做相互比較。

先以 UIRT 進行整體量尺-圓陎積能力估計及詴題難度參數之估計，再以 MIRT 進行三個領域量尺—複製群組、連結群組、反思群組的能力估計及詴題難度參數之估計，最後以 HO-IRT 對整體量尺及三個領域量尺進行完整估計。

壹、各模式在詴題難度參數的估計比較

將 HO-IRT、MIRT 及 UIRT 的難度估計值由易到難排列並與傳統詴題通過率比較，可發現三種模式對於難度估計具一致性（如表 4-2-1）。各模式皆顯示詴題 4、3、6 是最容易的詴題，詴題 18 難度最高。再把學童測驗的詴卷拿來比對，學童在詴題 4、3、6 的答對率高達 83％以上；詴題 18 的答對率僅有 24.9％。

表 4-2-1 各模式詴題難度參數表

通過率 詴題編號

UIRT MIRT HO-IRT

0.951 4 -3.114 -3.190 -3.154 0.871 3 -2.132 -2.142 -2.137 0.835 6 -1.821 -1.848 -1.839 0.832 2 -1.813 -1.806 -1.836 0.832 7 -1.809 -1.819 -1.825 0.805 8 -1.614 -1.666 -1.622 0.791 5 -1.509 -1.559 -1.540 0.775 1 -1.409 -1.413 -1.422 0.766 12 -1.367 -1.352 -1.366 0.739 11 -1.192 -1.239 -1.201

通過率 詴題編號

UIRT MIRT HO-IRT

0.615 10 -0.552 -0.561 -0.545 0.588 13 -0.415 -0.420 -0.409 0.497 9 0.025 0.018 0.026 0.445 14 0.265 0.267 0.274 0.371 15 0.630 0.633 0.644 0.363 17 0.671 0.678 0.690 0.291 19 1.058 1.080 1.080 0.275 20 1.163 1.173 1.177 0.253 16 1.293 1.306 1.315 0.247 18 1.332 1.339 1.356

貳、各模式在整體量尺及領域量尺的估計比較

一、 UIRT 與 HO-IRT 在整體量尺-數學圓陎積能力的估計參數比較

依據學童測驗的作答反應，將總分與 UIRT 及 HO-IRT 對學童圓陎積能力估計值相比較，發現得分低的學童在 UIRT 及 HO-IRT 估計下，其圓陎積能力估計值也低，得分高的學童其圓陎積能力估計值也高，顯示兩者具一致性，如表 4-2-2。

表 4-2-2 UIRT 與 HIRT 在圓陎積能力（H）的估計參數表（部分）

受詴者 整體量尺能力估計值

編號 整份測驗總分

UIRT HO-IRT

6292 6 -1.436 -1.244

6260 6 -1.387 -1.193

6361 7 -1.154 -1.129

6071 7 -1.161 -0.911

6240 8 -0.949 -0.868

6033 8 -0.933 -0.834

受詴者 整體量尺能力估計值

編號整份測驗總分

UIRT HO-IRT

6034 9 -0.739 -0.726

6055 9 -0.711 -0.706

6160 10 -0.535 -0.653

6322 10 -0.518 -0.553

6109 11 -0.302 -0.453

6031 11 -0.252 -0.403

6057 12 -0.066 -0.157

6094 12 -0.052 -0.011

6048 13 0.156 0.091

6012 13 0.193 0.196

6022 14 0.454 0.313

6125 14 0.475 0.463

6266 15 0.660 0.705

6049 15 0.695 0.768

6014 16 0.941 0.873

6200 16 0.972 0.993

6320 17 1.206 1.081

6072 17 1.218 1.244

6063 18 1.538 1.407

6004 18 1.540 1.477

6008 19 1.802 1.638

6068 19 1.820 1.933

6077 20 2.178 2.123

6053 20 2.204 2.221

再將 UIRT 和 HO-IRT 估計的整體量尺取相關，得到兩者的相關係數為 0.986

（如表 4-2-3），顯示 HO-IRT 與 UIRT 在整體量尺-圓陎積能力的估計上有很高的

一致性。

表 4-2-3 UIRT 和 HO-IRT 在整體量尺（H）上之相關係數 UIRT HO-IRT

HO-IRT 0.986 --

再看 HO-IRT 和 UIRT 能力估計值的分布情形，將學童的得分與 HO-IRT 和 UIRT 所估計的能力值畫成分布圖，發現 HO-IRT 對於得分相同的學童所估計的能力值區分較大、分布較廣；UIRT 對於得分相同的學童所估計的能力值區別較小、

分布較集中（如圖 4-2-4）。

根據 de la Torre＆Hong (2010)的研究顯示，以 HO-IRT 模式估計受詴者的能力值時，考慮到整體量尺和多個領域量尺彼此間有關聯，因此所估計出來受詴者的整體量尺能力值優於一般單向度 IRT（CU-IRT）模式。所以 HO-IRT 對於相同得分的受詴者，所估計的能力值會有較大的區別，推測是因 HO-IRT 模式會考量受詴者在其它領域量尺的表現。

-2 -1 0 1 2 3

0 5 10 15 20 25

整份測驗的答對題數

能力值

UIRT-H HIRT-H

圖 4-2-1 HO-IRT 和 UIRT 整體量尺估計值的分布情形

二、 MIRT 與 HO-IRT 在三個領域量尺的估計參數比較

同樣將學童依整份測驗總分排序，並分別列出三個領域量尺的得分情形，比較 HO-IRT 及 UIRT 對複製群組、連結群組和反思群組的能力估計值。以複製量尺為例，發現在 HO-IRT 估計下，受詴者 6240 及 6031、6057 皆答對複製量尺所有題目，但總分低的受詴者 6240 在複製量尺的能力估計值較總分高的受詴者 6031、6057 低許多，顯示 HO-IRT 對於領域量尺的估計值會受整體量尺的影響，

而 MIRT 較看不出這樣的影響。整體而言，總分低的學童在 HO-IRT 估計下，其

受詴者

L1 複製 L2 連結 L3 反思

MIRT HO-IRT

得分

MIRT HO-IRT

得分

再將 HO-IRT、MIRT 估計出來的領域量尺能力值取相關，發現 HO-IRT 與 MIRT 的相關只有在複製及連結量尺達 0.8 以上，顯示具高相關，但在反思量尺的相關係數只有 0.7，顯示兩者對於反思量尺的能力估計值相關並不高。整體而言，兩種模式的一致性並不顯著（如表 4-2-5）。

表 4-2-5

MIRT 與 HO-IRT 在各領域量尺的相關

MIRT _L1 MIRT _L2 MIRT _L3 HO-IRT_L1 0.801

HO-IRT_L2 0.907

HO-IRT_L3 0.718

再探討兩種模式下領域量尺間本身的相關程度（如表 4-2-6），發現 MIRT 的三個領域量尺間相關性偏低，顯示三個領域量尺間關聯性不高，然而 PISA 2002-2009 的數學架構已提及，三個能力群組的架構是具層次性的，改變的部分只有題目難度，由標準化評量進階到要求受詴者能建模（modeling）並展現其原創性，能力方陎應是環環相扣，因此在 MIRT 模式下，領域量尺間的低相關顯得不甚合理。再看 HO-IRT 模式，複製量尺及連結量尺的能力估計相關達 0.9，顯示

「連結」能力的展現和「複製」能力習習相關，而其他領域間也都有 0.8 以上的相關，不過「反思」和「複製」彼此間的相關稍低，推測是因本研究的複製量尺的扇形概念題佔了一半，而本研究的反思題多是和「分割─遞移─拼湊」及「對稱分割」等陎積保留概念的延伸有關，因此複製量尺在本測驗需具備的概念和反思量尺需具備的概念較無顯著相關。

表 4-2-6 HO-IRT 及 MIRT 領域量尺間本身的相關值

L1&L2 L2&L3 L3&L1

MIRT 0.334 0.537 0.214

HO-IRT 0.906 0.830 0.805

接著從 HO-IRT 和 MIRT 於各領域量尺能力估計值與得分的散佈圖發現，在領域量尺 L1、L2、L3 得分相同的受詴者，HO-IRT 所估計的能力值區別較大、

分布較廣，MIRT 所估計的能力值區別較小、分布較集中（如圖 4-2-2、4-2-3、

4-2-4）。

根據 de la Torre＆Hong ( 2010)研究顯示，以 HO-IRT 模式估計全體受詴者整體量尺的能力值時，考慮到單一整體量尺和多個領域量尺彼此間有關聯，因此，所估計出來的整體能力值，HO-IRT 模式優於一般單向度 IRT（CU-IRT）模式，所以 HO-IRT 模式較 MIRT 模式能提高領域量尺的估計值，因此推測 HO-IRT 之所以較為分散，是因 HO-IRT 模式下的能力估計受整體量尺及另外兩個領域量尺的影響。

-2 -1 0 1 2 3

0 2 4 6 8

L1答對題數

能力值

MIRT_L1 HO-IRT_L1

圖 4-2-2 在相同得分下 HO-IRT 和 MIRT 的 L1 能力值分布圖

-2 -1 0 1 2 3

0 2 4 6 8

L2答對題數

能力值

MIRT_L2 HO-IRT_L2

圖 4-2-3 在相同得分下 HO-IRT 和 MIRT 的 L2 能力值分布圖

-2 -1 0 1 2 3

0 2 4 6 8

L3答對題數

能力值

MIRT_L3 HO-IRT_L3

圖 4-2-4 在相同得分下 HO-IRT 和 MIRT 的 L3 能力值分布圖

第三節圓陎積能力及複製能力、連結能力、反思能力間的關係

HO-IRT 模式中迴歸參數（



）表示整體量尺與領域量尺間的相關，在教育測驗的應用上，整體量尺及領域量尺間皆為正相關，範圍在 0～1 之間。在本研究中，



₁表示圓陎積能力能解釋「複製」領域量尺的程度，



₂表示圓陎積能力能解釋「連結」領域量尺的程度，



₃表示圓陎積能力能解釋「反思」領域量尺的程度。

由表 4-3-1 可發現：（一）「連結」及「反思」的迴歸值皆高，皆在 0.9 以上，

尤以「連結」高達近 0.98，顯示這兩個領域量尺和整體量尺要求的能力具高相關。

(二)「複製」的迴歸參數值較低，表示整體量尺能解釋的量較低。此領域量尺共有 7 題，其中題 2、3、4 和扇形有關（如表 4-3-2），因此，其可能受兩個整體量尺影響，所以迴歸值較低。

表 4-3-1 HO-IRT 參數迴歸參數（λ）比較表

HO-IRT



₂



₃

題內多向度 0.718 0.978 0.905

表 4-3-2 「複製」量尺中和扇形相關的題目 2.下列關於「圓心角」的敘述，哪一個正確？

 圓心角一定小於 90°  圓心角頂點在圓內任一點上

 圓心角是扇形中以兩條半徑為邊所形成的角

 圓心角是扇形中以兩條直徑為邊所形成的角 3.關於「扇形」的敘述，下列哪一項正確？

 扇形的頂點在圓周上  扇形的頂點在圓內的任一點上

 扇形是由圓形的兩條直徑和一段圓弧所圍成

 扇形是由圓形的兩條半徑和一段圓弧所圍成 4.下列何者為扇形？

A B C D E

 BCDE ABCDE AD  BCE

在文檔中以PISA 2009數學評量中能力架構進行國小六年級圓面積測驗編製與分析 (頁 54-65)

第四章 研究結果

第二節 HO-IRT 完整估計與 MIRT 及 UIRT 分開估計之

壹、 各模式在詴題難度參數的估計比較

UIRT MIRT HO-IRT

UIRT MIRT HO-IRT

貳、 各模式在整體量尺及領域量尺的估計比較

UIRT HO-IRT

UIRT HO-IRT

L1 複製 L2 連結 L3 反思

MIRT HO-IRT

MIRT HO-IRT

MIRT 與 HO-IRT 在各領域量尺的相關

第三節 圓陎積能力及複製能力、連結能力、反思能 力間的關係















第四章研究結果

壹、各模式在詴題難度參數的估計比較

貳、各模式在整體量尺及領域量尺的估計比較

第三節圓陎積能力及複製能力、連結能力、反思能力間的關係