• 沒有找到結果。

HO-IRT、UIRT、MIRT-C 及 MIRT-U 三種模式之適配度指標 AIC、BIC、

DIC 的分析數據如表 4-2-1,數值較低者為佳。AIC、BIC 與 DIC 所獲得的結果 表示模式選取效果,其結果顯示HO-IRT 模式在 AIC、BIC、DIC 的指標中數值 都是最低的,表示HO-IRT 最適合用來分析高階層評量架構之測驗。

4-2-1 各模式指標的分析結果

AIC BIC DIC

HO-IRT 13260 13378 14396

UIRT 14111 14229 16442

MIRT-C 14069 14188 15630

MIRT-U 14960 15078 16808

第三節 HO-IRT 完整估計與 MIRT 及 UIRT 分開估 計之模式分析結果

本研究使用UIRT、MIRT-C、MIRT-U及HO-IRT四種模式來估計學童在數學 幾何能力測驗的模式適配度指標、整體量尺能力值、領域量尺能力值及試題難度 參數,並分析其結果,探討三種模式的優劣勢。

使用UIRT進行整體量尺-數學幾何能力及試題難度參數之估計,使用MIRT-C 和MIRT-U進行三個領域量尺—概念的了解、程序性知識、問題解決及試題難度 參數之估計。使用HO-IRT進行完整估計整體量尺--數學幾何能力及三個領域量尺 --概念的了解、程序性知識、問題解決及試題難度參數。測驗之整體量尺及三個 領域量尺的估計値如表4-3-2、4-3-4、4-3-5、4-3-6;模式適配度指標如表4-2-1;

迴歸參數值(λ)如表4-4-1;試題難度參數如表4-3-1。

39

一、各模式在試題難度參數的估計比較

將 HO-IRT、MIRT 及 UIRT 與試題通過率來比較,可發現各模式在試題難 度參數的估計上有一致性。各模式皆顯示試題1、5、12 是最容易的試題,試題 23 難度最高(如表 4-3-1)。再把學童測驗的試卷拿來比對,學童在試題 1、5、

12 的答對率高達 75%以上;試題 23 的答對率僅有 38.9%。

由試題難度相關係數的分析,各模式之間所估計的難度相關係數都是 1,

平均數約-0.3,標準差約 0.55(如表 4-3-2),所以四種模式對難度的估計有一致 性。

表4-3-1試題難度參數估計值

題號 UIRT HO-IRT MIRT-C MIRT-U

1 -1.484 -1.548 -1.518 -1.494 12 -1.33 -1.372 -1.38 -1.355

5 -1.215 -1.25 -1.245 -1.229 16 -0.738 -0.783 -0.741 -0.735

8 -0.608 -0.639 -0.615 -0.613 6 -0.585 -0.627 -0.603 -0.594 2 -0.492 -0.533 -0.503 -0.493 15 -0.454 -0.485 -0.465 -0.457 19 -0.444 -0.473 -0.448 -0.443 10 -0.442 -0.46 -0.439 -0.441

4 -0.385 -0.417 -0.382 -0.379 11 -0.343 -0.369 -0.339 -0.336 17 -0.239 -0.27 -0.236 -0.235 14 -0.162 -0.191 -0.16 -0.151 21 0.043 0.013 0.061 0.053

9 0.067 0.035 0.071 0.066

40

表4-3-1 試題難度參數估計值(續)

題號 UIRT HO-IRT MIRT-C MIRT-U

7 0.094 0.062 0.099 0.098 20 0.186 0.147 0.182 0.17 13 0.216 0.184 0.225 0.215 24 0.235 0.21 0.246 0.232 18 0.283 0.257 0.285 0.281

3 0.374 0.341 0.377 0.368 23 0.544 0.518 0.559 0.549

4-3-2 各模式難度相關係數、平均數與標準差比較表

HO-IRT UIRT MIRT-C MIRT-U

HO-IRT 1 1 1 1

UIRT 1 1 1 1

MIRT-C 1 1 1 1

MIRT-U 1 1 1 1

平均數 -0.299 -0.333 -0.303 -0.301 標準差 0.544 0.549 0.558 0.547

二、HO-IRT 和 UIRT 在主要量尺的估計比較

1. HO-IRT、UIRT 和答對率的分析

依據學童測驗的作答反應,將總分排序與 UIRT 及 HO-IRT 對學童數學幾何 能力估計值相比較,發現得分低的學童在UIRT 及 HO-IRT 估計下,其數學幾 何能力估計值也低,得分高的學童其數學幾何能力估計值也高如表4-3-3。

41

42

將學生作答反應的答對題數(答對率)當作效標,分析 HO-IRT 和 UIRT 的能力估計值與答對率的相關如表4-3-4。其中 HO-IRT 與答對率的相關高達 0.994,UIRT 和答對率的相關高達 0.997,表示 HO-IRT 和 UIRT 對整體量尺的 估計有精準度。並且HO-IRT 與 UIRT 的相關係數也高達 0.995,顯示 UIRT 與 HO-IRT 在整體量尺-數學幾何能力的估計上有一致性。

4-3-4 答對率與能力估計值的相關係數

CTT_HB HO-IRT-HB UIRT-HB CTT_HB 1 0.994 0.997

HO-IRT-HB 1 0.995

UIRT-HB 1

註:CTT_HB 表示古典測驗理論中的答對率;HO-IRT_HB 表示 HO-IRT 的主要 量尺估計值;UIRT-HB 表示 UIRT 的主要量尺估計值。

2. HO-IRT 和 UIRT 能力估計值的分布情形

將學童的得分與 HO-IRT 和 UIRT 所估計的能力值畫成分布圖,發現 HO-IRT 對於得分相同的學童所估計的能力值區分較大、分布較廣;MIRT 對於得分相 同的學童所估計的能力值區別較小、分布較集中(如圖4-3-1)。

根據(de la Torre & Hong,2010)研究顯示,HO-IRT 模式較 UIRT 模式能 提高整題量尺的估計值。所以HIRT 對於相同得分的受試者,所估計的能力值 會有較大的區別,是因為HO-IRT 模式會考慮到受試者在其它次級量尺的得分 情形,HO-IRT 所估計的能力值會較貼切於受試者的真實能力。

43

圖 4-3-1 HO-IRT 和 UIRT 整體量尺估計值的分布情形

四、HO-IRT、UIRT、MIRT-C 與 MIRT-U 在三個次級量尺的估 計比較

1. HO-IRT 在三個次級量尺的估計比較

依據學童在測驗部份得分排序與 HO-IRT 對概念理解、程序性知識和問題 解決估計值相比較,發現得分低的學童在HO-IRT 估計下,其領域量尺—概念 的理解、程序性知識、問題解決估計值也低,得分高的學童其概念的理解、程 序性知識、問題解決估計值也高(如表4-3-5、4-3-6、4-3-7)。

比較HO-IRT、MIRT-C、MIRT-U 次級量尺的估計,發現 HO-IRT 與 MIRT-C;

HO-IRT 與 MIRT-U;MIRT-C 與 MIRT-U 對領域量尺 L1、L2、L3 的估計相關係 數都高達0.95 以上;顯示 MIRT 與 HO-IRT 在次級量尺的估計上有一致性(如 表4-3-8)。

44

所以依據本研究的實證資料研究結果發現,HO-IRT、MIRT 及 UIRT 在整 體量尺-數學幾何能力及三個領域量尺—概念的理解、程序性知識、問題解決及

45

4-3-6HO-IRT、MIRT-C、MIRT-U 在程序性知識(L2)的估計參數表(部分)

受試者 HO-IRT MIRT-C MIRT-U

46

4-3-7 HO-IRT、MIRT-C、MIRT-U 在問題解決(L3)的估計參數表(部分)

受試者 HO-IRT MIRT-C MIRT-U

47

4-3-8 HO-IRT 與 MIRT-C、MIRT-U 對次級量尺能力值估計之相關係數

模式 L1 L2 L3

HO-IRT&MIRT-C 0.976 0.984 0.977 HO-IRT&MIRT-U 0.948 0.963 0.977 MIRT-C&MIRT-U 0.965 0.977 0.965

2.次級量尺間的相關

在本研究中,領域量尺分別代表 L1 幾何的概念、L2 幾何的程序性知識、

L3 幾何的問題解決。概念的理解會影響學童對正確程序的選擇,也會影響學童 解題的策略,當然程序性知識也會影響學童問題解決的應用,也就是說三種量 尺間是息息相關的。分析HO-IRT、MIRT-C、MIRT-U 在次級量尺 L1 和 L2、

L2 和 L3、L1 和 L3 間的相關,發現 HIRT 和 MIRT-C 模式的次級量尺間有高相 關,但MIRT-U 模式的次級量尺間相關卻很低(如表 4-3-8),又根據本章第一 節的模式適配度指標分析,MIRT-U 的 AIC、BIC、DIC 的模式適配度指標是最 高的,所以 MIRT-U 的模式(以 UIRT 模式估計次級量尺的模式),最不適合估 計高階層測驗。

4-3-8 HO-IRT、MIRT-C、MIRT-U 對領域量尺間相關的比較 模式 L1&L2 L2&L3 L1&L3

HO-IRT 0.951 0.963 0.982

MIRT-C 0.803 0.837 0.866

MIRT-U 0.513 0.557 0.573

48

3. HO-IRT 和 MIRT-C 能力估計值的分布現象

從 HO-IRTT 和 MIRT_C 與得分的相關分布圖來看,在領域量尺上 L1、L2、

L3 得分相同的受試者,HO-IRT 所估計的能力值區別較大、分布較廣,MIRT-C 所估計的能力值區別較小、分布較集中(如圖4-3-2、4-3-3、4-3-4)。

根據(de la Torre & Hong,2010)研究顯示,HO-IRT 模式較 MIRT 模式 能提高領域量尺的估計值。所以HO-IRT 對於在領域量尺(L1、L2、L3)得分 相同的受試者,所估計的能力值會有較大的區別,是因為HO-IRT 模式會考慮 到受試者在其它次級量尺的得分情形,HO-IRT 所估計的能力值會較貼切於受試 者的真實能力。

4-3-2 在相同得分下 HO-IRT 和 MIRT-C 的 L1 能力值分布圖

49

4-3-3 在相同得分下 HO-IRT 和 MIRT-C 的 L2 能力值分布圖

4-3-4 在相同得分下 HO-IRT 和 MIRT-C 的 L3 能力值分布圖

50

第四節 數學幾何與概念、程序、問題解決的關係

HIRT 模式中迴歸參數(λ )表示主要量尺與次級量尺間的相關,λ的範圍 在0~1之間,λ值越大表示領域量尺對整體量尺之貢獻量越多,相關越高。由 表4-4-1 可發現 HO-IRT 三個迴歸參數值都在 0.8 以上,顯示本測驗的整體量尺—

數學幾何內容與三個領域量尺—概念、程序、問題解決的相關程度高。而且迴 歸參數λ1、λ3的相關值在0.9 以上,顯示幾何能力與第一個領域量尺(λ1)和 第三個領域量尺(λ3)相關最高,即幾何能力對於概念的理解和問題解決的影 響較大。

4-4-1 HO-IRT 迴歸參數比較表

HIRT 廻歸參數 λ1 λ2 λ3

0.928 0.888 0.956

51

第伍章 結論與建議

本章分二節,第一節為本研究之結論,第二節就本研究未盡完備之處,提 供相關研究建議,茲分述如下:

第一節 結論

一、自編數學幾何測驗信度、效度佳

1、信度

本研究所編製之數學幾何能力測驗,其內部一致性的數值,Cronbach α 係數 值為0.81,顯示有很好的測驗信度。

2、效度

本測驗之效度採用的是內容效度及專家效度分析。在編製測驗過程中,均與 有測驗編製經驗的專家學者及現任國小教師一同開會討論,共同審核與修 訂。試題完稿後再經檢核試題編製合宜,並提供修改測驗工具的建議,作為 內容效度及專家效度的證據。

二、HO-IRT 模式顯示數學幾何測驗中,數學幾何能力與概念和 問題解決的相關較高

HO-IRT 的三個迴歸參數值都在 0.85 以上,顯示本測驗的整體量尺—數學幾 何與三個領域量尺—概念、程序、問題解決間的相關程度高。而且在迴歸參數λ1 和λ3的值更高達0.928 和 0.956,顯示—幾何能力與概念、問題解決的相關最高,

亦即在數學幾何能力中,幾何能力對概念的理解和問題解決的影響是較大的。

三、 HO-IRT 的能力估計值的散布情形較 UIRT 和 MIRT-C 分散

對得分相同的受試者,HO-IRT 所估計的能力值區別較大,能力值的散布情 形較UIRT 和 MIRT-C 分布廣,也較貼切受試者的真實能力。

52

四、HO-IRT 的同時估計模式是最適合分析高階層評量架構

根據模式適配度指標,HO-IRT 在 AIC、BIC、DIC 的數據值都是最低的,顯示 HO-IRT 是最適合高階層的測驗架構。

又根據上一節的分析,HO-IRT 在估計整體量尺時和 UIRT 的估計值有高相關,

即兩種模式的估計有一致性。HO-IRT 在估計領域量尺時和 MIRT-C 與 MIRT-U 的三 個領域量尺估計值也呈現高相關,亦即兩種模式的估計有一致性。所以HO-IRT 同 時估計的模式,可以同時估計整體量尺和領域量尺,因此利用實證資料在HO-IRT 模式上,的確可以得到較多的訊息(如表5-1-1)。

此結果與張勝凱(2010)的研究-「使用 HIRT 模式建立國小六年級學童數學 推理能力測驗」得到相同的驗證。

表 5-1-1 四種模式所提供的訊息比較

模式適配度 整體量尺的估計 領域量尺的估計

HO-IRT V V V

UIRT V

MIRT-C V

MIRT-U

五、數學幾何測驗經由 HO-IRT 模式分析提供了較多的訊息

自編數學幾何測驗經由HO-IRT 的模式分析,可以了解學生的整體量尺(幾 何)能力值,還可以了解學生在領域量尺(概念、程序、問題解決)的能力值,

以及整體量尺對領域量尺的相關程度,不僅可以提供教學者做為補救教學的參 考,也提供了測驗編製者模式選用的依據。

53

第二節 研究建議

本節就本研究未盡完備之處,提出一些研究建議,供後續研究者參考。

1、HO-IRT 模式

本研究僅用 HO-IRT 模式中的題間多向度作分析,未來可再加入題內多向 度的比較。

2、計分方式

本研究之計分型態屬於二元計分,後續研究者可延伸研究至多點計分,來 探討模式參數估計的精準度是否有差異。

3、試題編製

本測驗的試題都是選擇題,後續研究者可以朝向編製建構反應試題,來探 討模式的適配度是否有差異。

54

參考文獻

中文部分

王文中(2004)。Rasch 測量理論與其在教育上的應用,教育與心理研究,

637-694。

余民寧(1992a)。試題反應理論的介紹(一)–測驗理論的發展趨勢。研習資 訊8(6),13-18。

余民寧(1992b)。試題反應理論的介紹(二)–測驗理論的發展趨勢。研習資 訊9(1),5-9。

余民寧(1992c)。試題反應理論的介紹(三)-試題反應模式及其特性。研習資訊

余民寧(1992c)。試題反應理論的介紹(三)-試題反應模式及其特性。研習資訊

相關文件