試題分析測驗理論

第二章文獻探討

第五節試題分析測驗理論

以解釋測驗分數意義的理論學說，可以分成兩大學派：一為「古典測驗理論」

（classical test theory, CTT）(Allen & Yen,1979)，另一為「試題反應理論」（item response theory, IRT）（Crocker & Algina, 1986; McDonald, 2000; McClure, & Suen, 1994）。

壹、古典測驗理論

古典測驗理論主要是以整份測驗（或試卷）的觀點，來解釋測驗分數的涵義。因此，它對學生或受試者的測驗分數的看法，是以各試題得分加總之後的總分做為代表，單獨一道試題的得分，不具有任何意義的解釋價值。所以，它提出下列的數學假說，以作為其主要的理論學說依據：

X=t+e （公式 1）

即χ為測驗分數，t 為真實分數（即代表該測驗所欲測得學生的真正能力或潛在特質的部分），e 為誤差分數（即代表該測驗無法測得學生的真正能力或潛在特質的部分）。古典測驗理論中的難度，即代表該題的通過率，也就是所有受試者中答對該題的百分比，以數學式表示(公式 2)：

N

P

 n

ⁱ (公式 2)

其中

P

ⁱ是答對題項

i

的百分比，

N

是所有受測人數，

n

ⁱ是答對該題的人數。

通過率其值愈大表示愈多人答對該試題，亦即該試題愈簡單。

古典測驗理論中，測驗分數高的受試者要比測驗分數低的受試者答對較多試題，否則此題目並不能反應出受試者的實力，以數學式表示試題鑑別度如下：

D = PH－PL (公式 3)

PH^：高分組受試者在個別試題上通過人數的百分比 PL^：低分組受試者在個別試題上通過人數的百分比

D 值愈大，表示試題愈能鑑別出高、低分組的受試者，並且個別試題與測驗總分的一致性愈高 (余民寧，2009) 。D 值介於-1.00 到＋1.00 之間， D 值愈大，

表示鑑別度愈大；D 值愈小，表示鑑別度愈小；D 值為 0，表示沒有鑑別度，可能是因為試題太容易或太艱難，使得所有人均答對或均答錯，或是題目不清；若 D 值為負的，表示低分組學生答對百分比高於高分組，具有反向作用，該試題應淘汰。其原因可能是因為能力低的學生胡亂猜測，結果碰巧猜對；能力高的學生看不懂題目、會錯意、粗心大意。一般而言，鑑別度以 0.25 以上為標準，高於 0.4 為優良試題。

古典測驗理論中，接受同一測驗的所有受試者其測量信度都相同。優點是模式簡單易理解，能力與試題參數容易計算；缺點則為測量標準誤假設不合理，應用較狹隘，受試者程度受題目特性影響，題目參數受受試者特性影響。在古典測驗理論學說的看法下，我們必須使用一整份試卷，才能測得學生的真正能力或潛在特質，單獨一道試題是做不到的。

貳、試題反應理論

試題反應理論主要是以個別試題的觀點，來解釋測驗分數的涵義。它認為學生在某一試題上的表現情形，與其背後的某種潛在特質（即能力）之間具有某種關係存在，該關係可以透過一條連續性遞增的數學函數來加以表示和詮釋，

測量精確度(訊息量)隨著受試者能力以及所接受的題目特性而不同。

試題反應理論的優點為具受試者能力估計不變性、題目參數估計不變性、

測量精準度的概念較合理、應用層面較廣；然而數學假說則是嚴謹、深奧、難懂、大眾不易瞭解和接受、能力估計與試題參數估計較麻煩。IRT 模式包含三個試題參數，分別為：鑑別度參數，表示該試題能否區別出學生能力高低的程度；難度參數，表示該試題是否困難或容易作答的程度；猜測度參數，表示該試題被低能力學生隨機猜題而猜中的程度。茲舉一個典型的『三參數對數型試題

反應模式』（three-parameter logistic model，簡稱 3PL）為例，說明學生的能力與試題特徵曲線之間的關係如下：性，以及（3）測量精準度較合理；（4）應用層面較廣等優點（余民寧，2009）。

就兩種測驗理論來比較，古典測驗理論的數學假設淺顯易懂、較受大眾的

在文檔中國小六年級藝術與人文之電腦化音樂欣賞測驗試題編製 (頁 35-39)

第二章 文獻探討

第五節 試題分析測驗理論

壹、古典測驗理論

N

P

 n

P

i

N

n

貳、試題反應理論

第二章文獻探討

第五節試題分析測驗理論