模式適配度指標分析

HO-IRT、UIRT、MIRT-C 及 MIRT-U 三種模式之適配度指標 AIC、BIC、

DIC 的分析數據如表 4-2-1，數值較低者為佳。AIC、BIC 與 DIC 所獲得的結果表示模式選取效果，其結果顯示HO-IRT 模式在 AIC、BIC、DIC 的指標中數值都是最低的，表示HO-IRT 最適合用來分析高階層評量架構之測驗。

表4-2-1 各模式指標的分析結果

AIC BIC DIC

HO-IRT 13260 13378 14396

UIRT 14111 14229 16442

MIRT-C 14069 14188 15630

MIRT-U 14960 15078 16808

第三節 HO-IRT 完整估計與 MIRT 及 UIRT 分開估計之模式分析結果

本研究使用UIRT、MIRT-C、MIRT-U及HO-IRT四種模式來估計學童在數學幾何能力測驗的模式適配度指標、整體量尺能力值、領域量尺能力值及試題難度參數，並分析其結果，探討三種模式的優劣勢。

使用UIRT進行整體量尺-數學幾何能力及試題難度參數之估計，使用MIRT-C 和MIRT-U進行三個領域量尺—概念的了解、程序性知識、問題解決及試題難度參數之估計。使用HO-IRT進行完整估計整體量尺--數學幾何能力及三個領域量尺 --概念的了解、程序性知識、問題解決及試題難度參數。測驗之整體量尺及三個領域量尺的估計値如表4-3-2、4-3-4、4-3-5、4-3-6；模式適配度指標如表4-2-1；

迴歸參數值（λ）如表4-4-1；試題難度參數如表4-3-1。

一、各模式在試題難度參數的估計比較

將 HO-IRT、MIRT 及 UIRT 與試題通過率來比較，可發現各模式在試題難度參數的估計上有一致性。各模式皆顯示試題1、5、12 是最容易的試題，試題 23 難度最高（如表 4-3-1）。再把學童測驗的試卷拿來比對，學童在試題 1、5、

12 的答對率高達 75％以上；試題 23 的答對率僅有 38.9％。

由試題難度相關係數的分析，各模式之間所估計的難度相關係數都是 1，

平均數約-0.3，標準差約 0.55（如表 4-3-2），所以四種模式對難度的估計有一致性。

表4-3-1試題難度參數估計值

題號 UIRT HO-IRT MIRT-C MIRT-U

1 -1.484 -1.548 -1.518 -1.494 12 -1.33 -1.372 -1.38 -1.355

5 -1.215 -1.25 -1.245 -1.229 16 -0.738 -0.783 -0.741 -0.735

8 -0.608 -0.639 -0.615 -0.613 6 -0.585 -0.627 -0.603 -0.594 2 -0.492 -0.533 -0.503 -0.493 15 -0.454 -0.485 -0.465 -0.457 19 -0.444 -0.473 -0.448 -0.443 10 -0.442 -0.46 -0.439 -0.441

4 -0.385 -0.417 -0.382 -0.379 11 -0.343 -0.369 -0.339 -0.336 17 -0.239 -0.27 -0.236 -0.235 14 -0.162 -0.191 -0.16 -0.151 21 0.043 0.013 0.061 0.053

9 0.067 0.035 0.071 0.066

表4-3-1 試題難度參數估計值（續）

題號 UIRT HO-IRT MIRT-C MIRT-U

7 0.094 0.062 0.099 0.098 20 0.186 0.147 0.182 0.17 13 0.216 0.184 0.225 0.215 24 0.235 0.21 0.246 0.232 18 0.283 0.257 0.285 0.281

3 0.374 0.341 0.377 0.368 23 0.544 0.518 0.559 0.549

表4-3-2 各模式難度相關係數、平均數與標準差比較表

HO-IRT UIRT MIRT-C MIRT-U

HO-IRT 1 1 1 1

UIRT 1 1 1 1

MIRT-C 1 1 1 1

MIRT-U 1 1 1 1

平均數 -0.299 -0.333 -0.303 -0.301 標準差 0.544 0.549 0.558 0.547

二、HO-IRT 和 UIRT 在主要量尺的估計比較

1. HO-IRT、UIRT 和答對率的分析

依據學童測驗的作答反應，將總分排序與 UIRT 及 HO-IRT 對學童數學幾何能力估計值相比較，發現得分低的學童在UIRT 及 HO-IRT 估計下，其數學幾何能力估計值也低，得分高的學童其數學幾何能力估計值也高如表4-3-3。

將學生作答反應的答對題數（答對率）當作效標，分析 HO-IRT 和 UIRT 的能力估計值與答對率的相關如表4-3-4。其中 HO-IRT 與答對率的相關高達 0.994，UIRT 和答對率的相關高達 0.997，表示 HO-IRT 和 UIRT 對整體量尺的估計有精準度。並且HO-IRT 與 UIRT 的相關係數也高達 0.995，顯示 UIRT 與 HO-IRT 在整體量尺-數學幾何能力的估計上有一致性。

表4-3-4 答對率與能力估計值的相關係數

CTT_HB HO-IRT-HB UIRT-HB CTT_HB 1 0.994 0.997

HO-IRT-HB 1 0.995

UIRT-HB 1

註：CTT_HB 表示古典測驗理論中的答對率；HO-IRT_HB 表示 HO-IRT 的主要量尺估計值；UIRT-HB 表示 UIRT 的主要量尺估計值。

2. HO-IRT 和 UIRT 能力估計值的分布情形

將學童的得分與 HO-IRT 和 UIRT 所估計的能力值畫成分布圖，發現 HO-IRT 對於得分相同的學童所估計的能力值區分較大、分布較廣；MIRT 對於得分相同的學童所估計的能力值區別較小、分布較集中（如圖4-3-1）。

根據（de la Torre ＆ Hong,2010）研究顯示，HO-IRT 模式較 UIRT 模式能提高整題量尺的估計值。所以HIRT 對於相同得分的受試者，所估計的能力值會有較大的區別，是因為HO-IRT 模式會考慮到受試者在其它次級量尺的得分情形，HO-IRT 所估計的能力值會較貼切於受試者的真實能力。

圖 4-3-1 HO-IRT 和 UIRT 整體量尺估計值的分布情形

四、HO-IRT、UIRT、MIRT-C 與 MIRT-U 在三個次級量尺的估計比較

1. HO-IRT 在三個次級量尺的估計比較

依據學童在測驗部份得分排序與 HO-IRT 對概念理解、程序性知識和問題解決估計值相比較，發現得分低的學童在HO-IRT 估計下，其領域量尺—概念的理解、程序性知識、問題解決估計值也低，得分高的學童其概念的理解、程序性知識、問題解決估計值也高（如表4-3-5、4-3-6、4-3-7）。

比較HO-IRT、MIRT-C、MIRT-U 次級量尺的估計，發現 HO-IRT 與 MIRT-C；

HO-IRT 與 MIRT-U；MIRT-C 與 MIRT-U 對領域量尺 L1、L2、L3 的估計相關係數都高達0.95 以上；顯示 MIRT 與 HO-IRT 在次級量尺的估計上有一致性（如表4-3-8）。

所以依據本研究的實證資料研究結果發現，HO-IRT、MIRT 及 UIRT 在整體量尺-數學幾何能力及三個領域量尺—概念的理解、程序性知識、問題解決及

表4-3-6HO-IRT、MIRT-C、MIRT-U 在程序性知識（L2）的估計參數表（部分）

受試者 HO-IRT MIRT-C MIRT-U

表4-3-7 HO-IRT、MIRT-C、MIRT-U 在問題解決（L3）的估計參數表（部分）

受試者 HO-IRT MIRT-C MIRT-U

表4-3-8 HO-IRT 與 MIRT-C、MIRT-U 對次級量尺能力值估計之相關係數

模式 L1 L2 L3

HO-IRT＆MIRT-C 0.976 0.984 0.977 HO-IRT＆MIRT-U 0.948 0.963 0.977 MIRT-C＆MIRT-U 0.965 0.977 0.965

2.次級量尺間的相關

在本研究中，領域量尺分別代表 L1 幾何的概念、L2 幾何的程序性知識、

L3 幾何的問題解決。概念的理解會影響學童對正確程序的選擇，也會影響學童解題的策略，當然程序性知識也會影響學童問題解決的應用，也就是說三種量尺間是息息相關的。分析HO-IRT、MIRT-C、MIRT-U 在次級量尺 L1 和 L2、

L2 和 L3、L1 和 L3 間的相關，發現 HIRT 和 MIRT-C 模式的次級量尺間有高相關，但MIRT-U 模式的次級量尺間相關卻很低（如表 4-3-8），又根據本章第一節的模式適配度指標分析，MIRT-U 的 AIC、BIC、DIC 的模式適配度指標是最高的，所以 MIRT-U 的模式（以 UIRT 模式估計次級量尺的模式），最不適合估計高階層測驗。

表4-3-8 HO-IRT、MIRT-C、MIRT-U 對領域量尺間相關的比較 模式 L1＆L2 L2＆L3 L1＆L3

HO-IRT 0.951 0.963 0.982

MIRT-C 0.803 0.837 0.866

MIRT-U 0.513 0.557 0.573

3. HO-IRT 和 MIRT-C 能力估計值的分布現象

從 HO-IRTT 和 MIRT_C 與得分的相關分布圖來看，在領域量尺上 L1、L2、

L3 得分相同的受試者，HO-IRT 所估計的能力值區別較大、分布較廣，MIRT-C 所估計的能力值區別較小、分布較集中（如圖4-3-2、4-3-3、4-3-4）。

根據（de la Torre ＆ Hong,2010）研究顯示，HO-IRT 模式較 MIRT 模式能提高領域量尺的估計值。所以HO-IRT 對於在領域量尺（L1、L2、L3）得分相同的受試者，所估計的能力值會有較大的區別，是因為HO-IRT 模式會考慮到受試者在其它次級量尺的得分情形，HO-IRT 所估計的能力值會較貼切於受試者的真實能力。

圖4-3-2 在相同得分下 HO-IRT 和 MIRT-C 的 L1 能力值分布圖

圖4-3-3 在相同得分下 HO-IRT 和 MIRT-C 的 L2 能力值分布圖

圖4-3-4 在相同得分下 HO-IRT 和 MIRT-C 的 L3 能力值分布圖

第四節數學幾何與概念、程序、問題解決的關係

HIRT 模式中迴歸參數（λ ）表示主要量尺與次級量尺間的相關，λ的範圍在0～1之間，λ值越大表示領域量尺對整體量尺之貢獻量越多，相關越高。由表4-4-1 可發現 HO-IRT 三個迴歸參數值都在 0.8 以上，顯示本測驗的整體量尺—

數學幾何內容與三個領域量尺—概念、程序、問題解決的相關程度高。而且迴歸參數λ₁、λ₃的相關值在0.9 以上，顯示幾何能力與第一個領域量尺（λ₁）和第三個領域量尺（λ₃）相關最高，即幾何能力對於概念的理解和問題解決的影響較大。

表4-4-1 HO-IRT 迴歸參數比較表

HIRT 廻歸參數 λ1 λ₂ λ3

0.928 0.888 0.956

第伍章結論與建議

本章分二節，第一節為本研究之結論，第二節就本研究未盡完備之處，提供相關研究建議，茲分述如下：

第一節結論

一、自編數學幾何測驗信度、效度佳

1、信度

本研究所編製之數學幾何能力測驗，其內部一致性的數值，Cronbach α 係數值為0.81，顯示有很好的測驗信度。

2、效度

本測驗之效度採用的是內容效度及專家效度分析。在編製測驗過程中，均與有測驗編製經驗的專家學者及現任國小教師一同開會討論，共同審核與修訂。試題完稿後再經檢核試題編製合宜，並提供修改測驗工具的建議，作為內容效度及專家效度的證據。

二、HO-IRT 模式顯示數學幾何測驗中，數學幾何能力與概念和問題解決的相關較高

HO-IRT 的三個迴歸參數值都在 0.85 以上，顯示本測驗的整體量尺—數學幾 何與三個領域量尺—概念、程序、問題解決間的相關程度高。而且在迴歸參數λ₁ 和λ₃的值更高達0.928 和 0.956，顯示—幾何能力與概念、問題解決的相關最高，

亦即在數學幾何能力中，幾何能力對概念的理解和問題解決的影響是較大的。

三、 HO-IRT 的能力估計值的散布情形較 UIRT 和 MIRT-C 分散

對得分相同的受試者，HO-IRT 所估計的能力值區別較大，能力值的散布情形較UIRT 和 MIRT-C 分布廣，也較貼切受試者的真實能力。

四、HO-IRT 的同時估計模式是最適合分析高階層評量架構

根據模式適配度指標，HO-IRT 在 AIC、BIC、DIC 的數據值都是最低的，顯示 HO-IRT 是最適合高階層的測驗架構。

又根據上一節的分析，HO-IRT 在估計整體量尺時和 UIRT 的估計值有高相關，

即兩種模式的估計有一致性。HO-IRT 在估計領域量尺時和 MIRT-C 與 MIRT-U 的三個領域量尺估計值也呈現高相關，亦即兩種模式的估計有一致性。所以HO-IRT 同時估計的模式，可以同時估計整體量尺和領域量尺，因此利用實證資料在HO-IRT 模式上，的確可以得到較多的訊息（如表5-1-1）。

此結果與張勝凱（2010）的研究－「使用 HIRT 模式建立國小六年級學童數學推理能力測驗」得到相同的驗證。

表 5-1-1 四種模式所提供的訊息比較

模式適配度整體量尺的估計領域量尺的估計

HO-IRT V V V

UIRT V

MIRT-C V

MIRT-U

五、數學幾何測驗經由 HO-IRT 模式分析提供了較多的訊息

自編數學幾何測驗經由HO-IRT 的模式分析，可以了解學生的整體量尺（幾何）能力值，還可以了解學生在領域量尺（概念、程序、問題解決）的能力值，

以及整體量尺對領域量尺的相關程度，不僅可以提供教學者做為補救教學的參考，也提供了測驗編製者模式選用的依據。

第二節研究建議

本節就本研究未盡完備之處，提出一些研究建議，供後續研究者參考。

1、HO-IRT 模式

本研究僅用 HO-IRT 模式中的題間多向度作分析，未來可再加入題內多向 度的比較。

2、計分方式

本研究之計分型態屬於二元計分，後續研究者可延伸研究至多點計分，來 探討模式參數估計的精準度是否有差異。

3、試題編製

本測驗的試題都是選擇題，後續研究者可以朝向編製建構反應試題，來探 討模式的適配度是否有差異。

參考文獻

中文部分

王文中（2004）。Rasch 測量理論與其在教育上的應用，教育與心理研究，

637-694。

余民寧（1992a）。試題反應理論的介紹（一）–測驗理論的發展趨勢。研習資訊8(6)，13-18。

余民寧（1992b）。試題反應理論的介紹（二）–測驗理論的發展趨勢。研習資訊9(1)，5-9。

余民寧（1992c）。試題反應理論的介紹(三)-試題反應模式及其特性。研習資訊

在文檔中以NAEP數學評量中數學能力架構進行國小六年級的幾何測驗編製與分析 (頁 46-0)

第三節 HO-IRT 完整估計與 MIRT 及 UIRT 分開估 計之模式分析結果