試題反應理論模式分析

第四章研究結果分析與討論

第二節試題反應理論模式分析

在本節中，將先檢定試題反應理論模式的基本假設，確定本測驗是否適合使用試題反應理論模式（IRT），再依序進行試題的參數估計及資料與模式之適合度檢驗、繪出試題之特徵曲線、估算訊息函數量，最後將古典測驗理論與試題反應理論的參數作一比較。

壹、基本假設之檢定

使用試題反應理論模式（IRT）必須符合其理論之假設，唯有在這些假設都成立的前提下，試題反應模式才能被用來分析所有的測驗資料。因此在本節中，將先檢定本研究所使用的測驗是否符合試題反應理論各種假設，其結果分述如下：

一、單向度假設檢定

將受試者作答資料進行因素分析處理，採取主軸法（principal axis method）

抽取因素，結果如表4-4所示。

表 4-4 各題因素負荷量及前兩因素特徵值比較表

題號因素負荷量題號因素負荷量題號因素負荷量題號因素負荷量 1-1^＃1 .439 2-3^＃1 .602 3-5^＃2 .545 4-7^＃1 .576 1-2^＃1 .588 2-4^＃1 .541 3-6^＃1 .418 4-8^＃ .457 1-3^＃1 .568. 2-5 .616 3-7^＃2 .703 5-1^＃1 .532 1-4 .509 2-6^＃1 .585 3-8^＃2 .677 5-2^＃1 .514 1-5^＃1 .419 2-7 .660 4-1^＃1 .513 5-3^＃1 .556 1-6^＃1 .543 2-8^＃2 .666 4-2^＃1 .496 5-4^＃1 .478 1-7^＃2 .657 3-1^＃1 .418 4-3^＃1 .602 5-5^＃ .400 1-8^＃1 .569 3-2^＃1 .521 4-4^＃1 .505 5-6^＃1 .593 2-1^＃1 .553 3-3^＃1 .561 4-5 .453 5-7^＃1 .552 2-2^＃1 .558 3-4^＃ .530 4-6 .554 5-8^＃1 .591 最大特徵值：8.214 第二大特徵值：1.484 前二大特徵值之比：5.535 最大特徵值解釋的變異量：20.534％

＃1 ＃2

依 Reckase（1979）建議測驗單向度的評鑑標準：（一）測驗的最大特徵值可解釋之變異量需佔全體的比值達 20﹪以上。（二）第一特徵值與第二特徵值的比值達 4。若能符合以上兩個條件，即可符合試題反應理論（IRT）模式的單向度假定（引自洪碧霞與吳裕益，1996）。

由表 4-5 得知：本測驗最大特徵值可解釋之變異量為 20.534﹪，最大因素特徵值與第二因素特徵值的比值為 5.535，皆符合試題反應理論模式單向度假定的兩個條件。所以，本測驗符合其單向度的假設。

二、局部獨立性假設的檢定

本測驗共分成五篇文章，有 40 題試題，分別測量四種不同的閱讀理解能力。

從測驗的試題來分析，測驗中無前後會有相關的連鎖性題目，也就是說每一道題目的答對機率均不會因受試者在其他題目的表現而受到影響。再者，當單向性假設成立時，局部獨立性假設也會獲得成立，亦即局部獨立性假設是單向性假設成立下的必然結果。所以，本測驗亦符合局部獨立性假設。

三、非速度性假設的檢定

本研究測驗，其測驗題數 40 題，施測時間 40 分鐘，來不及完成的學生可延後交卷，受試者應有充分時間足以作答。且由回收的作答資料顯示，受試者幾乎都能完全答完試題。所以，本測驗符合非速度性假設的檢定。

四、知道-正確的假設

本假設能適合於非速度性測驗的假設，亦即受試者有充分時間作答時本假設即成立。且本假設常隱含在單向性假設中，而前面既已驗證單向性假設及非速度性測驗的假設都成立，故本測驗符合知道-正確的假設之檢定。

貳、試題參數估計及模式適合度檢定

在參數估計方面，本研究將 507 名受試者在測驗的作答資料，以BILOG-MG 軟體進行 IRT 各模式之試題參數估計，其中單參數模式的試題參數估計值見表 4-5，雙參數模式的試題參數估計值見表 4-6，三參數模式的試題參數估計值見表 4-7。

表 4-5 單參數模式的試題參數估計值摘要表

題號難度b 卡方值機率自由度題號難度 b 卡方值機率自由度 1-1 -1.199 12.5 .1853 9 3-5 0.468 27.5 .0006 8 1-2 -1.532 7.8 .4570 8 3-6 -1.633 15.3 .0537 8 1-3 -0.759 8.0 .5385 9 3-7 -0.048 22.2 .0045 8 1-4 -2.592 11.7 .1102 7 3-8 -1.435 10.0 .3489 9 1-5 1.651 10.8 .1473 7 4-1 0.130 5.1 .7467 8 1-6 -2.414 8.3 .3086 7 4-2 -1.532 10.6 .2275 8 1-7 0.807 26.4 .0009 8 4-3 -1.027 2.7 .9494 8 1-8 -2.546 17.4 .0261 8 4-4 -2.138 3.9 .7935 7 2-1 -3.210 11.5 .1762 8 4-5 -1.224 8.4 .4975 9 2-2 -0.885 14.7 .0661 8 4-6 -2.352 9.8 .2795 8 2-3 -1.737 5.0 .7550 8 4-7 -2.436 10.4 .2362 8 2-4 -1.962 14.8 .0622 8 4-8 -0.967 15.3 .0829 9 2-5 0.511 11.0 .2009 8 5-1 -0.258 15.9 .0445 8 2-6 -0.680 9.2 .4180 9 5-2 -1.367 7.9 .4422 8 2-7 0.393 17.8 .0231 8 5-3 -2.844 8.1 .4270 8 2-8 0.707 9.7 .2832 8 5-4 -1.224 19.4 .0220 9 3-1 -1.532 8.8 .4576 9 5-5 -1.250 22.0 .0088 9 3-2 -1.212 6.9 .6464 9 5-6 -1.560 13.2 .1064 8 3-3 -2.138 3.5 .8963 8 5-7 -1.784 8.3 .4056 8 3-4 0.830 18.9 .0153 8 5-8 0.785 11.9 .1558 8

※ 1-1 表文章一的第一題

表 4-6 雙參數模式的試題參數估計值摘要表

題號難度b 鑑別度a 卡方值機率自由度 1-1 -1.199 0.891 8.8 .4606 9 1-2 -1.595 0.226 4.0 .9138 9 1-3 -0.771 0.879 10.6 .3061 9 1-4 -2.726 0.828 10.7 .1535 7 1-5 1.544 0.969 7.5 .4818 8 1-6 -1.889 1.254 6.2 .5165 7 1-7 1.213 0.532 17.1 .0474 9 1-8 -2.152 1.112 9.3 .3173 8 2-1 -2.563 1.198 4.6 .7132 7 2-2 -0.723 1.209 4.7 .8602 9 2-3 -1.550 1.039 2.8 .9069 7 2-4 -1.563 1.229 16.3 .0385 8 2-5 0.858 0.465 4.8 .8512 9 2-6 -0.704 0.860 12.0 .2125 9 2-7 0.509 0.620 10.8 .2887 9 2-8 1.186 0.469 8.7 .4663 9 3-1 -1.355 1.054 9.0 .4365 9 3-2 -1.013 1.154 8.4 .4931 9 3-3 -2.048 0.937 8.2 .4120 9 3-4 0.703 1.109 9.2 .3238 8 3-5 0.968 0.370 5.9 .7490 9 3-6 -1.248 1.326 2.4 .9642 8 3-7 -0.069 0.714 8.9 .4500 9 3-8 -1.822 0.658 7.4 .5968 9 4-1 0.125 0.831 8.4 .4897 9 4-2 -1.297 1.126 3.5 .8996 8 4-3 -1.005 0.920 15.4 .0805 9

題號難度b 鑑別度a 卡方值機率自由度 4-4 -1.739 1.186 4.5 .8058 8 4-5 -1.018 1.164 11.6 .1702 8 4-6 -2.076 1.047 4.3 .7404 7 4-7 -1.888 1.272 8.3 .4059 8 4-8 -1.004 0.851 10.3 .3291 9 5-1 -0.210 1.283 6.8 .5600 8 5-2 -1.064 1.295 5.0 .6632 7 5-3 -2.118 1.346 3.7 .8129 7 5-4 -1.003 1.196 12.7 .1752 9 5-5 -1.594 0.655 21.2 .0119 9 5-6 -1.260 1.211 6.8 .5557 8 5-7 -1.395 1.271 2.6 .9191 7 5-8 1.172 0.536 13.3 .1480 9

表 4-7 三參數模式的試題參數估計值摘要表

題號難度b 鑑別度 a 猜測度 c 卡方值機率自由度 1-1 -0.648 1.012 .221 5.5 .7872 9 1-2 -0.912 0.974 .260 7.2 .6138 9 1-3 -0.001 0.276 .273 5.9 .7472 9 1-4 -2.089 0.892 .278 7.8 .4557 8 1-5 1.513 1.616 .091 6.1 .6367 8 1-6 -1.444 1.391 .259 9.0 .2502 7 1-7 1.557 1.483 .236 6.4 .7025 9 1-8 -1.803 1.140 .235 13.2 .1040 8 2-1 -2.337 1.179 .233 4.0 .7792 7 2-2 -0.334 1.465 .180 10.0 .3522 9 2-3 -0.966 1.230 .258 6.8 .4535 7

2-4 -1.244 1.291 .201 12.1 .1461 8

題號難度b 鑑別度 a 猜測度 c 卡方值機率自由度 2-5 1.793 0.728 .224 7.1 .6283 9 2-6 0.141 1.370 .294 7.3 .6106 9 2-7 1.189 1.270 .248 6.2 .7212 9 2-8 2.004 0.648 .183 11.7 .1630 8 3-1 -0.914 1.176 .210 12.5 .1850 9 3-2 -0.473 1.484 .239 12.0 .2107 9 3-3 -1.586 0.992 .234 9.7 .2891 8 3-4 0.914 1.948 .139 10.9 .2837 9 3-5 2.327 0.799 .300 5.1 .8218 9 3-6 -0.701 1.746 .264 8.6 .3798 8 3-7 0.638 1.117 .232 3.8 .9231 9 3-8 -1.136 0.707 .233 6.8 .6555 9 4-1 0.499 0.960 .132 11.1 .1953 8 4-2 -0.807 1.298 .234 6.0 .6498 8 4-3 -0.455 1.073 .218 7.3 .6037 9 4-4 -1.426 1.230 .205 11.8 .1583 8 4-5 -0.624 1.323 .192 7.9 .5479 9 4-6 -1.626 1.109 .251 1.2 .9970 8 4-7 -1.609 1.311 .208 8.1 .4223 8 4-8 -0.185 1.194 .283 4.6 .8690 9 5-1 0.185 1.844 .182 5.1 .8242 9 5-2 -0.656 1.510 .209 6.5 .4869 7 5-3 -1.849 1.361 .235 4.0 .7844 7 5-4 -0.409 1.617 .262 9.9 .3613 9 5-5 -1.020 0.694 .199 23.5 .0053 9 5-6 -0.656 1.568 .278 6.7 .5650 8 5-7 -0.921 1.503 .244 7.8 .4528 8 5-8 1.835 0.768 .178 9.2 .4226 9

本研究以BILOG-MG軟體所計算的卡方值，作為三種參數模式的適合度指標

。在此，顯著機率標準訂為.05，當機率值小於.05的顯著水準時，表示題目適合度不佳；機率值達.05以上顯著水準者，則表示為適合度較佳的題目。

由表4-5、表4-6、表4-7三種參數模式的試題參數估計值摘要表的結果顯示，

在各模式中，單參數模式共有9題不適合之題目，佔總題目數的27.27﹪；雙參數模式方面，適合度較不良的題目共有3題，佔總題目數的7.5﹪，而就三參數模式而言，只有1題不適合之題目，佔總題目數的2.5﹪。

由上述結果顯示（參見表 4-8），若依據適合度較佳的題目數而言，三參數模式比起單參數模式及雙參數模式，有較多的適合度較佳題目。因此，三參數模式的題目適合度，明顯優於單參數模式及雙參數模式。

表 4-8 各模式不適合之試題摘要表

試題反應模式卡方值未達.05以上顯著水準之題目總題數單參數模式 1-7、1-8、2-7、3-4、3-5、3-7、5-1、5-4、5-5

雙參數模式 1-7、2-4、5-5

9 3

三參數模式 5-5 1

※5-5 表文章五的第 5 題

參、特徵曲線

一、試題特徵曲線

依上述適合度分析結果，本研究採資料適合度最佳之三參數模式來分析每道題目。試題特徵曲線（item characteristic curve，簡寫為 ICC）乃是一條試題得分對能力因素所作的迴歸線，受試者的表現情形與潛在特質間的關係，可透過這一條連續性遞增的函數來加以詮釋。以三參數模式估計各試題的參數繪製而成的題目特徵曲線如附錄五所示。

就三參數模式估計的參數來看，整份測驗的試題鑑別度(item discrimination) 參數 a 介於 0.648～2.323 之間，平均為 1.259。只有試題 2-8（a 值為 0.648）

除外，其餘依Baker（2001）的觀點均達 0.65～1.69 的中、高鑑別度標準。

試題的難度(difficulty)參數 b 值介於-2.337～2.327 之間，平均為-0.365，表示本測驗難易題目皆有包括，整份試題中間偏易。

試題猜測度參數(pseudo-chance parameter)c 值介在 0.132～0.300 之間，平均猜測值為 0.226，在試題為四選一的選擇題型中，還算恰當。

二、訊息函數圖形

本測驗在三參數模式估計下的訊息函數圖形，最大測驗訊息量約出現在能力值為-0.3處，其最大的測驗訊息量約為7.2；同時，估計標準誤（變異誤）也在能力值為-0.3時最小，約為0.07。茲將測驗訊息函數以及相對的變異誤圖形，繪於圖4-2。

由 4-2 測驗訊息函數圖形來看，訊息量越高，則相對地變異誤越小，亦即測驗的信度越高。本測驗在受試者的能力值為-0.6～0.2 之間有較小的變異誤，其變異誤約在.07 左右，亦即此區間有較高的測驗訊息量；換言之，本測驗對能力值為-0.6～0.2 之間的受試者，能提供較高的測驗訊息及較高且穩定的測驗信度。

訊息量變異誤

能力值

訊息量 --○--○—估計標準誤

圖 4-1 測驗訊息函數圖

肆、CTT 與 IRT 分析結果之比較

對於古典測驗理論（CTT）與試題反應理論（IRT）之比較，本研究分別以兩種理論的難度、鑑別度以及能力值間的相關來進行。

本研究在古典測驗理論（CTT）的分析中，難度是採「P＝（PH－PL）/2」、

鑑別度採「D＝PH－PL」，因為只考慮前後 27%受試者在該題的答題情形，並未考慮全體受試者的答題情形，拿來和考量全部受試者的IRT做比較，可能較不妥當。因此在做兩種理論的比較時，古典測驗理論的難度方面將採P＝NR/NT（NR：表答對此題考生人數，NT：表嘗試作答此題考生人數），鑑別度方面則採取二系列相關(biserial correlation)分析，此種分析方法是依個人在某試題反應的對與錯和個人的測驗總分求相關，而以相關係數表示鑑別力指數。與試題反應理論做比較的古典測驗理論之難度及鑑別度參見表 4-9。

表 4-9 CTT 的測驗分析表

題號難度鑑別度題號難度鑑別度題號難度鑑別度 1-1 .72 .394 2-7 .43 .316 4-5 .72 .470 1-2 .76 .379 2-8 .37 .251 4-6 .86 .355 1-3 .64 .396 3-1 .76 .422 4-7 .87 .422 1-4 .88 .288 3-2 .71 .466 4-8 .68 .372 1-5 .22 .351 3-3 .84 .352 5-1 .55 .501 1-6 .86 .409 3-4 .35 .433 5-2 .74 .487 1-7 .35 .248 3-5 .41 .184 5-3 .90 .372 1-8 .87 .372 3-6 .78 .481 5-4 .72 .469 2-1 .92 .333 3-7 .51 .354 5-5 .72 .332 2-2 .66 .490 3-8 .75 .319 5-6 .77 .462 2-3 .79 .392 4-1 .48 .406 5-7 .80 .442 2-4 .82 .456 4-2 .77 .434 5-8 .36 .261 2-5 .41 .258 4-3 .68 .415

2-6 .62 .403 4-4 .84 .429

※1-1 表文章一的第 1 題

一、難度比較

就難度方面而言，以 CTT 之難度值與 IRT 各模式難度參數作一比較，四者之間的相關，如表 4-10 所示：

表 4-10 CTT 與 IRT 之難度指標相關

CTT 難度單參數難度二參數難度三參數難度 CTT難度－ -.991^＊＊ -.981^＊＊ -.961^＊＊

單參數難度－ .976^＊＊ .964^＊＊

二參數難度－ .973^＊＊

三參數難度－

**p＜0.01

由表 4-10 結果顯示CTT 與 IRT 各模式的難度相關均達.01 的顯著水準，相關值甚高，介於.961~.991 之間。表中CTT 難度與 IRT 各模式難度參數相關呈負數的原因，是因為越難的題目在CTT 中難度 P 值越小（答對的人少），但在 IRT 各模式難度參數 b 值卻越大的緣故。此一情形表示 CTT 難度與 IRT 各模式難度參數之計量性質具有相當高的一致性。

二、鑑別度比較

在鑑別度方面，因為單參數模式為等鑑別度之假設，所以不將單參數模式與 CTT 的二系列相關係數來進行相關分析。CTT 的二系列相關係數、IRT 之二參數模式與三參數模式的鑑別度，三者之間的相關參見表 4-11：

表 4-11 CTT 與 IRT 之鑑別度指標相關

CTT 鑑別度二參數鑑別度三參數鑑別度 CTT鑑別度－ .911^＊＊ .519^＊＊

二參數鑑別度－ .647^＊＊

三參數鑑別度－

**p＜0.01

由表 4-11 顯示CTT 與 IRT 之二、三參數模式的鑑別度相關雖均達.01 的顯著水準，但兩種參數模式與CTT 的相關值卻差異不小。其中，二參數模式與 CTT 鑑別度指標有頗高的相關值 0.911；而在三參數模式與CTT 鑑別度指標的相關值

只有 0.519。此一結果相當符合Lord（1980）的論述：在考慮猜測值的情形下，

由於猜測值的增加，使得原本為 0～1 的答題可能機率（p），變為 c～1 之間，

壓縮了答對試題與否機率的空間，由於每一題的猜測值不同，使得每一題的鑑別度產生變化。這就是為何三參數模式與 CTT 鑑別度指標的相關值比二參數模式與CTT 鑑別度指標的相關值來得低之主因了。

三、能力值比較

在能力值方面，本研究以CTT 的總分（答對題數）與 IRT 的三種參數模式估計能力值之間的相關來做比較，其結果參見表 4-12：

表 4-12 CTT 與 IRT 之能力值指標相關

答對題數單參數能力值二參數能力值三參數能力值答對題數－ .992^＊＊ .992^＊＊ .977^＊＊

單參數能力值－ 1.000^＊＊ .988^＊＊

二參數能力值－ .988^＊＊

三參數能力值－

**p＜0.01

由表 4-12 結果顯示CTT 總分與 IRT 各模式的能力值相關均達.01 的顯著水準，且相關值甚高，介於.988~.992 之間。此結果表示CTT 的總分與 IRT 各模式能力值所估計出來的能力非常接近。

綜合以上結果發現：除了 IRT 三參數模式鑑別度指標與 CTT 鑑別度指標的相關值較低以外，其餘不管是難度、鑑別度、能力值，IRT 和 CTT 這兩種理論的相關都非常高，這表示兩者在題目與能力計量特性上相當接近。有此結果乃是由

在文檔中國小四年級學童中文閱讀理解測驗編製與其相關研究 (頁 76-0)

第四章 研究結果分析與討論

第二節 試題反應理論模式分析

壹、基本假設之檢定

貳、試題參數估計及模式適合度檢定

參、特徵曲線

肆、CTT 與 IRT 分析結果之比較

第四章研究結果分析與討論

第二節試題反應理論模式分析