• 沒有找到結果。

第四章 研究結果分析與討論

第二節 試題反應理論模式分析

在本節中,將先檢定試題反應理論模式的基本假設,確定本測驗是否適合使 用試題反應理論模式(IRT),再依序進行試題的參數估計及資料與模式之適合 度檢驗、繪出試題之特徵曲線、估算訊息函數量,最後將古典測驗理論與試題反 應理論的參數作一比較。

壹、基本假設之檢定

使用試題反應理論模式(IRT)必須符合其理論之假設,唯有在這些假設都成 立的前提下,試題反應模式才能被用來分析所有的測驗資料。因此在本節中,將 先檢定本研究所使用的測驗是否符合試題反應理論各種假設,其結果分述如下:

一、單向度假設檢定

將受試者作答資料進行因素分析處理,採取主軸法(principal axis method)

抽取因素,結果如表4-4所示。

表 4-4 各題因素負荷量及前兩因素特徵值比較表

題號 因素負荷量 題號 因素負荷量 題號 因素負荷量 題號 因素負荷量 1-1#1 .439 2-3#1 .602 3-5#2 .545 4-7#1 .576 1-2#1 .588 2-4#1 .541 3-6#1 .418 4-8 .457 1-3#1 .568. 2-5 .616 3-7#2 .703 5-1#1 .532 1-4 .509 2-6#1 .585 3-8#2 .677 5-2#1 .514 1-5#1 .419 2-7 .660 4-1#1 .513 5-3#1 .556 1-6#1 .543 2-8#2 .666 4-2#1 .496 5-4#1 .478 1-7#2 .657 3-1#1 .418 4-3#1 .602 5-5 .400 1-8#1 .569 3-2#1 .521 4-4#1 .505 5-6#1 .593 2-1#1 .553 3-3#1 .561 4-5 .453 5-7#1 .552 2-2#1 .558 3-4 .530 4-6 .554 5-8#1 .591 最大特徵值:8.214 第二大特徵值:1.484 前二大特徵值之比:5.535 最大特徵值解釋的變異量:20.534%

#1 #2

依 Reckase(1979)建議測驗單向度的評鑑標準:(一)測驗的最大特徵值 可解釋之變異量需佔全體的比值達 20﹪以上。(二)第一特徵值與第二特徵值的 比值達 4。若能符合以上兩個條件,即可符合試題反應理論(IRT)模式的單向 度假定(引自洪碧霞與吳裕益,1996)。

由表 4-5 得知:本測驗最大特徵值可解釋之變異量為 20.534﹪,最大因素特 徵值與第二因素特徵值的比值為 5.535,皆符合試題反應理論模式單向度假定的 兩個條件。所以,本測驗符合其單向度的假設。

二、局部獨立性假設的檢定

本測驗共分成五篇文章,有 40 題試題,分別測量四種不同的閱讀理解能力。

從測驗的試題來分析,測驗中無前後會有相關的連鎖性題目,也就是說每一道題 目的答對機率均不會因受試者在其他題目的表現而受到影響。再者,當單向性假 設成立時,局部獨立性假設也會獲得成立,亦即局部獨立性假設是單向性假設成 立下的必然結果。所以,本測驗亦符合局部獨立性假設。

三、非速度性假設的檢定

本研究測驗,其測驗題數 40 題,施測時間 40 分鐘,來不及完成的學生可延 後交卷,受試者應有充分時間足以作答。且由回收的作答資料顯示,受試者幾乎 都能完全答完試題。所以,本測驗符合非速度性假設的檢定。

四、知道-正確的假設

本假設能適合於非速度性測驗的假設,亦即受試者有充分時間作答時 本假設 即成立。且本假設常隱含在單向性假設中,而前面既已驗證單向性假設及非速度 性測驗的假設都成立,故本測驗符合知道-正確的假設之檢定。

貳、試題參數估計及模式適合度檢定

在參數估計方面,本研究將 507 名受試者在測驗的作答資料,以BILOG-MG 軟體進行 IRT 各模式之試題參數估計,其中單參數模式的試題參數估計值見表 4-5,雙參數模式的試題參數估計值見表 4-6,三參數模式的試題參數估計值見表 4-7。

表 4-5 單參數模式的試題參數估計值摘要表

題號 難度b 卡方值 機率 自由度 題號 難度 b 卡方值 機率 自由度 1-1 -1.199 12.5 .1853 9 3-5 0.468 27.5 .0006 8 1-2 -1.532 7.8 .4570 8 3-6 -1.633 15.3 .0537 8 1-3 -0.759 8.0 .5385 9 3-7 -0.048 22.2 .0045 8 1-4 -2.592 11.7 .1102 7 3-8 -1.435 10.0 .3489 9 1-5 1.651 10.8 .1473 7 4-1 0.130 5.1 .7467 8 1-6 -2.414 8.3 .3086 7 4-2 -1.532 10.6 .2275 8 1-7 0.807 26.4 .0009 8 4-3 -1.027 2.7 .9494 8 1-8 -2.546 17.4 .0261 8 4-4 -2.138 3.9 .7935 7 2-1 -3.210 11.5 .1762 8 4-5 -1.224 8.4 .4975 9 2-2 -0.885 14.7 .0661 8 4-6 -2.352 9.8 .2795 8 2-3 -1.737 5.0 .7550 8 4-7 -2.436 10.4 .2362 8 2-4 -1.962 14.8 .0622 8 4-8 -0.967 15.3 .0829 9 2-5 0.511 11.0 .2009 8 5-1 -0.258 15.9 .0445 8 2-6 -0.680 9.2 .4180 9 5-2 -1.367 7.9 .4422 8 2-7 0.393 17.8 .0231 8 5-3 -2.844 8.1 .4270 8 2-8 0.707 9.7 .2832 8 5-4 -1.224 19.4 .0220 9 3-1 -1.532 8.8 .4576 9 5-5 -1.250 22.0 .0088 9 3-2 -1.212 6.9 .6464 9 5-6 -1.560 13.2 .1064 8 3-3 -2.138 3.5 .8963 8 5-7 -1.784 8.3 .4056 8 3-4 0.830 18.9 .0153 8 5-8 0.785 11.9 .1558 8

※ 1-1 表文章一的第一題

表 4-6 雙參數模式的試題參數估計值摘要表

題號 難度b 鑑別度a 卡方值 機率 自由度 1-1 -1.199 0.891 8.8 .4606 9 1-2 -1.595 0.226 4.0 .9138 9 1-3 -0.771 0.879 10.6 .3061 9 1-4 -2.726 0.828 10.7 .1535 7 1-5 1.544 0.969 7.5 .4818 8 1-6 -1.889 1.254 6.2 .5165 7 1-7 1.213 0.532 17.1 .0474 9 1-8 -2.152 1.112 9.3 .3173 8 2-1 -2.563 1.198 4.6 .7132 7 2-2 -0.723 1.209 4.7 .8602 9 2-3 -1.550 1.039 2.8 .9069 7 2-4 -1.563 1.229 16.3 .0385 8 2-5 0.858 0.465 4.8 .8512 9 2-6 -0.704 0.860 12.0 .2125 9 2-7 0.509 0.620 10.8 .2887 9 2-8 1.186 0.469 8.7 .4663 9 3-1 -1.355 1.054 9.0 .4365 9 3-2 -1.013 1.154 8.4 .4931 9 3-3 -2.048 0.937 8.2 .4120 9 3-4 0.703 1.109 9.2 .3238 8 3-5 0.968 0.370 5.9 .7490 9 3-6 -1.248 1.326 2.4 .9642 8 3-7 -0.069 0.714 8.9 .4500 9 3-8 -1.822 0.658 7.4 .5968 9 4-1 0.125 0.831 8.4 .4897 9 4-2 -1.297 1.126 3.5 .8996 8 4-3 -1.005 0.920 15.4 .0805 9

題號 難度b 鑑別度a 卡方值 機率 自由度 4-4 -1.739 1.186 4.5 .8058 8 4-5 -1.018 1.164 11.6 .1702 8 4-6 -2.076 1.047 4.3 .7404 7 4-7 -1.888 1.272 8.3 .4059 8 4-8 -1.004 0.851 10.3 .3291 9 5-1 -0.210 1.283 6.8 .5600 8 5-2 -1.064 1.295 5.0 .6632 7 5-3 -2.118 1.346 3.7 .8129 7 5-4 -1.003 1.196 12.7 .1752 9 5-5 -1.594 0.655 21.2 .0119 9 5-6 -1.260 1.211 6.8 .5557 8 5-7 -1.395 1.271 2.6 .9191 7 5-8 1.172 0.536 13.3 .1480 9

表 4-7 三參數模式的試題參數估計值摘要表

題號 難度b 鑑別度 a 猜測度 c 卡方值 機率 自由度 1-1 -0.648 1.012 .221 5.5 .7872 9 1-2 -0.912 0.974 .260 7.2 .6138 9 1-3 -0.001 0.276 .273 5.9 .7472 9 1-4 -2.089 0.892 .278 7.8 .4557 8 1-5 1.513 1.616 .091 6.1 .6367 8 1-6 -1.444 1.391 .259 9.0 .2502 7 1-7 1.557 1.483 .236 6.4 .7025 9 1-8 -1.803 1.140 .235 13.2 .1040 8 2-1 -2.337 1.179 .233 4.0 .7792 7 2-2 -0.334 1.465 .180 10.0 .3522 9 2-3 -0.966 1.230 .258 6.8 .4535 7

2-4 -1.244 1.291 .201 12.1 .1461 8

題號 難度b 鑑別度 a 猜測度 c 卡方值 機率 自由度 2-5 1.793 0.728 .224 7.1 .6283 9 2-6 0.141 1.370 .294 7.3 .6106 9 2-7 1.189 1.270 .248 6.2 .7212 9 2-8 2.004 0.648 .183 11.7 .1630 8 3-1 -0.914 1.176 .210 12.5 .1850 9 3-2 -0.473 1.484 .239 12.0 .2107 9 3-3 -1.586 0.992 .234 9.7 .2891 8 3-4 0.914 1.948 .139 10.9 .2837 9 3-5 2.327 0.799 .300 5.1 .8218 9 3-6 -0.701 1.746 .264 8.6 .3798 8 3-7 0.638 1.117 .232 3.8 .9231 9 3-8 -1.136 0.707 .233 6.8 .6555 9 4-1 0.499 0.960 .132 11.1 .1953 8 4-2 -0.807 1.298 .234 6.0 .6498 8 4-3 -0.455 1.073 .218 7.3 .6037 9 4-4 -1.426 1.230 .205 11.8 .1583 8 4-5 -0.624 1.323 .192 7.9 .5479 9 4-6 -1.626 1.109 .251 1.2 .9970 8 4-7 -1.609 1.311 .208 8.1 .4223 8 4-8 -0.185 1.194 .283 4.6 .8690 9 5-1 0.185 1.844 .182 5.1 .8242 9 5-2 -0.656 1.510 .209 6.5 .4869 7 5-3 -1.849 1.361 .235 4.0 .7844 7 5-4 -0.409 1.617 .262 9.9 .3613 9 5-5 -1.020 0.694 .199 23.5 .0053 9 5-6 -0.656 1.568 .278 6.7 .5650 8 5-7 -0.921 1.503 .244 7.8 .4528 8 5-8 1.835 0.768 .178 9.2 .4226 9

本研究以BILOG-MG軟體所計算的卡方值,作為三種參數模式的適合度指標

。在此,顯著機率標準訂為.05,當機率值小於.05的顯著水準時,表示題目適合 度不佳;機率值達.05以上顯著水準者,則表示為適合度較佳的題目。

由表4-5、表4-6、表4-7三種參數模式的試題參數估計值摘要表的結果顯示,

在各模式中,單參數模式共有9題不適合之題目,佔總題目數的27.27﹪;雙參數 模式方面,適合度較不良的題目共有3題,佔總題目數的7.5﹪,而就三參數模式 而言,只有1題不適合之題目,佔總題目數的2.5﹪。

由上述結果顯示(參見表 4-8),若依據適合度較佳的題目數而言,三參數 模式比起單參數模式及雙參數模式,有較多的適合度較佳題目。因此,三參數模 式的題目適合度,明顯優於單參數模式及雙參數模式。

表 4-8 各模式不適合之試題摘要表

試題反應模式 卡方值未達.05以上顯著水準之題目 總題數 單參數模式 1-7、1-8、2-7、3-4、3-5、3-7、5-1、5-4、5-5

雙參數模式 1-7、2-4、5-5

9 3

三參數模式 5-5 1

※5-5 表文章五的第 5 題

參、特徵曲線

一、試題特徵曲線

依上述適合度分析結果,本研究採資料適合度最佳之三參數模式來分析每道 題目。試題特徵曲線(item characteristic curve,簡寫為 ICC)乃是一條試題得分 對能力因素所作的迴歸線,受試者的表現情形與潛在特質間的關係,可透過這一 條連續性遞增的函數來加以詮釋。以三參數模式估計各試題的參數繪製而成的題 目特徵曲線如附錄五所示。

就三參數模式估計的參數來看,整份測驗的試題鑑別度(item discrimination) 參數 a 介於 0.648~2.323 之間,平均為 1.259。只有試題 2-8(a 值為 0.648)

除外,其餘依Baker(2001)的觀點均達 0.65~1.69 的中、高鑑別度標準。

試題的難度(difficulty)參數 b 值介於-2.337~2.327 之間,平均為-0.365,表 示本測驗難易題目皆有包括,整份試題中間偏易。

試題猜測度參數(pseudo-chance parameter)c 值介在 0.132~0.300 之間,平均 猜測值為 0.226,在試題為四選一的選擇題型中,還算恰當。

二、訊息函數圖形

本測驗在三參數模式估計下的訊息函數圖形,最大測驗訊息量約出現在能力 值為-0.3處,其最大的測驗訊息量約為7.2;同時,估計標準誤(變異誤)也在 能力值為-0.3時最小,約為0.07。茲將測驗訊息函數以及相對的變異誤圖形,繪 於圖4-2。

由 4-2 測驗訊息函數圖形來看,訊息量越高,則相對地變異誤越小,亦即測 驗的信度越高。本測驗在受試者的能力值為-0.6~0.2 之間有較小的變異誤,其 變異誤約在.07 左右,亦即此區間有較高的測驗訊息量;換言之,本測驗對能力 值為-0.6~0.2 之間的受試者,能提供較高的測驗訊息及較高且穩定的測驗信度。

訊息量 變異誤

能力值

訊息量 ----估計標準誤

圖 4-1 測驗訊息函數圖

肆、CTT 與 IRT 分析結果之比較

對於古典測驗理論(CTT)與試題反應理論(IRT)之比較,本研究分別以 兩種理論的難度、鑑別度以及能力值間的相關來進行。

本研究在古典測驗理論(CTT)的分析中,難度是採「P=(PH-PL)/2」、

鑑別度採「D=PH-PL」,因為只考慮前後 27%受試者在該題的答題情形,並未 考慮全體受試者的答題情形,拿來和考量全部受試者的IRT做比較,可能較不妥 當。因此在做兩種理論的比較時,古典測驗理論的難度方面將採P=NR/NT(NR: 表答對此題考生人數,NT:表嘗試作答此題考生人數),鑑別度方面則採取二系 列相關(biserial correlation)分析,此種分析方法是依個人在某試題反應的對與錯和 個人的測驗總分求相關,而以相關係數表示鑑別力指數。與試題反應理論做比較 的古典測驗理論之難度及鑑別度參見表 4-9。

表 4-9 CTT 的測驗分析表

題號 難度 鑑別度 題號 難度 鑑別度 題號 難度 鑑別度 1-1 .72 .394 2-7 .43 .316 4-5 .72 .470 1-2 .76 .379 2-8 .37 .251 4-6 .86 .355 1-3 .64 .396 3-1 .76 .422 4-7 .87 .422 1-4 .88 .288 3-2 .71 .466 4-8 .68 .372 1-5 .22 .351 3-3 .84 .352 5-1 .55 .501 1-6 .86 .409 3-4 .35 .433 5-2 .74 .487 1-7 .35 .248 3-5 .41 .184 5-3 .90 .372 1-8 .87 .372 3-6 .78 .481 5-4 .72 .469 2-1 .92 .333 3-7 .51 .354 5-5 .72 .332 2-2 .66 .490 3-8 .75 .319 5-6 .77 .462 2-3 .79 .392 4-1 .48 .406 5-7 .80 .442 2-4 .82 .456 4-2 .77 .434 5-8 .36 .261 2-5 .41 .258 4-3 .68 .415

2-6 .62 .403 4-4 .84 .429

※1-1 表文章一的第 1 題

一、難度比較

就難度方面而言,以 CTT 之難度值與 IRT 各模式難度參數作一比較,四者 之間的相關,如表 4-10 所示:

表 4-10 CTT 與 IRT 之難度指標相關

CTT 難度 單參數難度 二參數難度 三參數難度 CTT難度 - -.991** -.981** -.961**

單參數難度 - .976** .964**

二參數難度 - .973**

三參數難度 -

**p<0.01

由表 4-10 結果顯示CTT 與 IRT 各模式的難度相關均達.01 的顯著水準,相 關值甚高,介於.961~.991 之間。表中CTT 難度與 IRT 各模式難度參數相關呈負 數的原因,是因為越難的題目在CTT 中難度 P 值越小(答對的人少),但在 IRT 各模式難度參數 b 值卻越大的緣故。此一情形表示 CTT 難度與 IRT 各模式難度 參數之計量性質具有相當高的一致性。

二、鑑別度比較

在鑑別度方面,因為單參數模式為等鑑別度之假設,所以不將單參數模式與 CTT 的二系列相關係數來進行相關分析。CTT 的二系列相關係數、IRT 之二參數 模式與三參數模式的鑑別度,三者之間的相關參見表 4-11:

表 4-11 CTT 與 IRT 之鑑別度指標相關

CTT 鑑別度 二參數鑑別度 三參數鑑別度 CTT鑑別度 - .911** .519**

二參數鑑別度 - .647**

三參數鑑別度 -

**p<0.01

由表 4-11 顯示CTT 與 IRT 之二、三參數模式的鑑別度相關雖均達.01 的顯 著水準,但兩種參數模式與CTT 的相關值卻差異不小。其中,二參數模式與 CTT 鑑別度指標有頗高的相關值 0.911;而在三參數模式與CTT 鑑別度指標的相關值

只有 0.519。此一結果相當符合Lord(1980)的論述:在考慮猜測值的情形下,

由於猜測值 的增加,使得原本為 0~1 的答題可能機率(p),變為 c~1 之間,

壓縮了答對試題與否機率的空間,由於每一題的猜測值不同,使得每一題的鑑別 度產生變化。這就是為何三參數模式與 CTT 鑑別度指標的相關值比二參數模式 與CTT 鑑別度指標的相關值來得低之主因了。

三、能力值比較

在能力值方面,本研究以CTT 的總分(答對題數)與 IRT 的三種參數模式 估計能力值之間的相關來做比較,其結果參見表 4-12:

表 4-12 CTT 與 IRT 之能力值指標相關

答對題數 單參數能力值 二參數能力值 三參數能力值 答對題數 - .992** .992** .977**

單參數能力值 - 1.000** .988**

二參數能力值 - .988**

三參數能力值 -

**p<0.01

由表 4-12 結果顯示CTT 總分與 IRT 各模式的能力值相關均達.01 的顯著水 準,且相關值甚高,介於.988~.992 之間。此結果表示CTT 的總分與 IRT 各模式 能力值所估計出來的能力非常接近。

綜合以上結果發現:除了 IRT 三參數模式鑑別度指標與 CTT 鑑別度指標的 相關值較低以外,其餘不管是難度、鑑別度、能力值,IRT 和 CTT 這兩種理論的 相關都非常高,這表示兩者在題目與能力計量特性上相當接近。有此結果乃是由

綜合以上結果發現:除了 IRT 三參數模式鑑別度指標與 CTT 鑑別度指標的 相關值較低以外,其餘不管是難度、鑑別度、能力值,IRT 和 CTT 這兩種理論的 相關都非常高,這表示兩者在題目與能力計量特性上相當接近。有此結果乃是由

相關文件