• 沒有找到結果。

第二章 文獻探討

第五節 試題分析測驗理論

以解釋測驗分數意義的理論學說,可以分成兩大學派:一為「古典測驗理論」

(classical test theory, CTT)(Allen & Yen,1979),另一為「試題反應理論」(item response theory, IRT)(Crocker & Algina, 1986; McDonald, 2000; McClure, & Suen, 1994)。

27

壹、古典測驗理論

古典測驗理論主要是以整份測驗(或試卷)的觀點,來解釋測驗分數的涵 義。因此,它對學生或受試者的測驗分數的看法,是以各試題得分加總之後的 總分做為代表,單獨一道試題的得分,不具有任何意義的解釋價值。所以,它 提出下列的數學假說,以作為其主要的理論學說依據:

X=t+e (公式 1)

即χ為測驗分數,t 為真實分數(即代表該測驗所欲測得學生的真正能力或 潛在特質的部分),e 為誤差分數(即代表該測驗無法測得學生的真正能力或潛 在特質的部分)。古典測驗理論中的難度,即代表該題的通過率,也就是所有受 試者中答對該題的百分比,以數學式表示(公式 2):

N

P

i

n

i (公式 2)

其中

P

i是答對題項

i

的百分比,

N

是所有受測人數,

n

i是答對該題的人數。

通過率其值愈大表示愈多人答對該試題,亦即該試題愈簡單。

古典測驗理論中,測驗分數高的受試者要比測驗分數低的受試者答對較多試 題,否則此題目並不能反應出受試者的實力,以數學式表示試題鑑別度如下:

D = PH-PL (公式 3)

PH高分組受試者在個別試題上通過人數的百分比 PL低分組受試者在個別試題上通過人數的百分比

D 值愈大,表示試題愈能鑑別出高、低分組的受試者,並且個別試題與測驗 總分的一致性愈高 (余民寧,2009) 。D 值介於-1.00 到+1.00 之間, D 值愈大,

28

表示鑑別度愈大;D 值愈小,表示鑑別度愈小;D 值為 0,表示沒有鑑別度,可 能是因為試題太容易或太艱難,使得所有人均答對或均答錯,或是題目不清;若 D 值為負的,表示低分組學生答對百分比高於高分組,具有反向作用,該試題應 淘汰。其原因可能是因為能力低的學生胡亂猜測,結果碰巧猜對;能力高的學生 看不懂題目、會錯意、粗心大意。一般而言,鑑別度以 0.25 以上為標準,高於 0.4 為優良試題。

古典測驗理論中,接受同一測驗的所有受試者其測量信度都相同。優點是模 式簡單易理解,能力與試題參數容易計算;缺點則為測量標準誤假設不合理,應 用較狹隘,受試者程度受題目特性影響,題目參數受受試者特性影響。在古典測 驗理論學說的看法下,我們必須使用一整份試卷,才能測得學生的真正能力或潛 在特質,單獨一道試題是做不到的。

貳、試題反應理論

試題反應理論主要是以個別試題的觀點,來解釋測驗分數的涵義。它認為 學生在某一試題上的表現情形,與其背後的某種潛在特質(即能力)之間具有某 種關係存在,該關係可以透過一條連續性遞增的數學函數來加以表示和詮釋,

測量精確度(訊息量)隨著受試者能力以及所接受的題目特性而不同。

試題反應理論的優點為具受試者能力估計不變性、題目參數估計不變性、

測量精準度的概念較合理、應用層面較廣;然而數學假說則是嚴謹、深奧、難 懂、大眾不易瞭解和接受、能力估計與試題參數估計較麻煩。IRT 模式包含三個 試題參數,分別為:鑑別度參數,表示該試題能否區別出學生能力高低的程 度;難度參數,表示該試題是否困難或容易作答的程度;猜測度參數,表示該 試題被低能力學生隨機猜題而猜中的程度。茲舉一個典型的『三參數對數型試題

29

反應模式』(three-parameter logistic model,簡稱 3PL)為例,說明學生的能力與 試題特徵曲線之間的關係如下: 性,以及(3)測量精準度較合理;(4)應用層面較廣等優點(余民寧,2009)。

就兩種測驗理論來比較,古典測驗理論的數學假設淺顯易懂、較受大眾的

30

相關文件