試題反應理論

第二章文獻探討

第二節試題反應理論

心理與教育測驗理論之發展，經過長久時間演變，現今主要可分為古典測驗理論 (classical test theory, CTT) 與現代測驗理論 (modern test theory)。古典測驗理論又稱真分數理論 (true score theory) 或傳統測驗理論 (conventional test theory) ，主要以真實分數模式為架構，以數學公式表示

：x=t+e，其中x表實得分數，t表真實分數，e為誤差分數。但古典測驗理論在實施上會有幾項缺點，如同一份測驗試題的難度會依受試樣本的程度高低而有不同，即當同一份試題給資優班與普通班施測時，資優班反應出來的結果是試卷簡單，而普通班卻是試卷困難。同樣的，若難度不同的試卷給同一位學生作答，困難的試卷反應出來的是學生能力較低，而簡單的試卷結果是學生能力較高，造成學生的能力判斷不一。

針對古典測驗理論的缺點，便發展出現代測驗理論，主要以試題反應理論 (item response theory, IRT) 為其架構，理論與公式雖較為複雜深奧，

但目前較受測驗學者所青睞，已逐漸取代古典測驗理論，成為目前的主流測驗理論 (Hambleton, 1989; Drasgow & Hulin, 1990) 。

壹、IRT的基本概念

試題反應理論主要是認為受試者在試題上的表現與其某種潛在特質 (

或能力) 之間有著某種關係存在，這種關係可由一條連續遞增的數學函數來表示，這數學函數便稱為「試題特徵曲線」 (item characteristic curve, ICC)

，透過此條曲線來解釋受試者在試題或測驗中通過的機率。

在試題反應理論中，有許多不同的試題反應模式，通常由一個或多個參數來描述試題的特性或受試者的潛在特質。最簡單的IRT模式為一參數邏輯斯模式，如下所示 (Rasch, 1980) ：

( )

( ) ) (

1 ⁱ

b b

i e

P e ₋

−

= +^θ _θ θ

其中Pi

( )

^θ 為任何一位能力值為θ 的受試者在第i試題做出正確反應的機率，b_i為試題i的難度參數 (item difficulty parameter) ，當受試者的能力值等於試題難度參數時 (即θ −b_i =0) ，受試者答對該試題的機率只有50%

[即Pi

( )

^θ ⁼⁰^.⁵⁰] ，當能力值小於試題難度參數時 (即θ −b_i <0) ，受試者答對該試題的機率就會低於50% [即Pi

( )

^θ ^<⁰^.⁵⁰] ，當能力值大於試題難度參數時 (即θ −b_i >0) ，受試者答對該試題的機率就會高於50% [ 即

( )

^θ ^>⁰^.⁵⁰

Pi ] 。

貳、試題特徵曲線

試題特徵曲線所代表的涵義為某種潛在特質的程度與在某一試題上正確反應的機率，當潛在特質的程度愈高時，答對某一試題的機率就愈高

，反之則愈小，潛在特質通常指的是精熟度、知識、技巧、態度等。在試題反應理論中，不同的試題反應模式會有其相對應的試題特徵曲線，當採用的試題反應模式不同時，所繪製出來的試題特徵曲線便有所不同，常見的試題特徵曲線如圖2-1所示：

圖2-1 六種不同的試題特徵曲線資料來源：Hambleton & Cool, 1977

參、試題反應理論的基本假設

試題反應理論具有幾項基本假設，只有在這些基本假設都成立的情形下，試題反應模式才能具備良好的測驗特性 (余民寧，1992；Embretson &

Reise, 2000; Hambleton, 1989; Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991) 。

一、單向度

單向度 (uni-dimensionality) 假設是指在一份測驗中，每個試題都能測出同一種能力或潛在特質，而不包含測試其他能力或潛在特質。例如在一份數學試卷中，要測驗的是學生的數學能力，但如果試卷題目的語意較為

完美量尺曲線

( )

^θ

Pi 試題 1 試題 2

潛在距離曲線

( )

^θ

Pi 試題試題

潛在直線曲線

( )

^θ

試題 1 試題 2

單參數邏輯斯曲線

( )

^θ

θ 試題 1

試題 2

雙參數邏輯斯曲線

( )

^θ

Pi 試題 1

試題 2

三參數邏輯斯曲線

( )

^θ

θ 試題 1

試題 2

艱澀難懂，對於語文程度較低的學生在作答上便有所困難，使得同一份數學試卷中，同時測驗了學生的數學和語文能力，這便不算是單向度的測驗

。當一份測驗中的試題所測量的能力或特質不只一種時，便稱為「多向度假設」 (multidimensionality assumption) 。所以含有單一因素測驗資料的試題反應模式便稱作「單向度模式」 (unidimensional model) ，也簡稱作

「IRT模式」；而含有多項因素測驗資料的試題反應模式，便稱作「多向度模式」 (multidimensional model) ，亦簡稱「MIRT模式」。雖然有許多學者提出多向度試題反應模式 (如：Ackerman, 1989; McDonal, 1981; 王文中，因素即代表整個潛在空間 (complete latent space) ，此潛在空間可能包含一種能力因素 (單向度假設) 或一種以上的能力因素 (多向度假設) 。滿足局

Novick, 1968)，但當資料不是單向度時，局部試題獨立性也可能成立，只是整個潛在空間需被界定清楚。但在影響測驗的能力向度不只一種時，局部試題獨立性便無法成立，如：題組型試題、學習時間不同、身體疲憊、

答題格式不一、試題提供答案線索等 (Yen, 1993) ，在這種情形下便需要特殊的試題反應模式才能加以分析。

三、非速度測驗

非速度測驗 (non-speedness test) 是指當受試者在接受一份測驗時，並不會因時間限制而導致受試者無法完成測驗，也就是說，影響受試者表現的因素只有受試者的能力高低，而不是因為時間不夠無法完成測驗。亦即試題反應模式測驗的實施是在受試者不受速度限制下所完成，受試者的表現完全由其能力高低決定。

四、知道－正確假設

知道－正確假設 (know-correct assumption) 是當受試者知道某一試題的正確答案時，便會答對該試題，而當受試者答錯該試題時，便表示受試者不知道該試題的答案，即受試者在作答時，不受其他因素所影響，如粗心大意、作弊、跳題等，

由以上的IRT基本假設可知，試題反應模式須在單 (或多) 向度假設、

局部試題獨立性、非速度測驗及知道－正確假設的情形下才能適用，若測驗不符合這些假設時是無法適用的。

肆、試題反應理論的特色

試題反應理論能取代古典測驗理論，顯示其有優於古典測驗理論的特色，以下介紹兩種試題反應理論所具有的特色，分別為「參數不變性」

(parameter invariance) 和「訊息函數」 (information function) 概念。

一、參數不變性

當試題反應模式適合一份欲分析的資料時，其試題參數的估計值不受受試者能力所影響，也就是不管受試者的能力高低，其獲得的試題特徵曲線均相同，即此參數估計值是一種「樣本獨立」 (sample independent) 特性，在估計時不會因樣本不同而有所差異。

二、訊息函數

訊息函數有分為試題的訊息函數 (item information function) 和測驗的訊息函數 (test information function) 兩種，前者是試題特徵曲線微分的平方與該試題變異數的比值，後者為試題訊息函數的總和，訊息函數可作為試題的挑選和測驗的編製的依據，對於電腦化適性測驗及評鑑測驗的相對成效等均有很大的幫助 (余民寧，2009) 。

伍、試題反應理論的模式

在常見的測驗資料中，計分的類型可分為三種，分別為二元化計分 (dichotomous scoring) 、多元化計分 (polytomous scoring) 及連續性計分 (continuous scoring) ，依據計分模式的不同，分別介紹幾種常見的試題反應模式，如下表所示：

表2-1 常見的試題反應模式

資料測量屬性試題反應模式

潛在線性模式 (latent linear model) 完美量尺模式 (perfect scale model) 潛在距離模式 (latent distance model)

單、雙、三參數常態肩形模式 (1, 2, 3 parameter normal ogive models)

單、雙、三參數邏輯斯模式 (1, 2, 3 parameter logistic models)

二元化計分

四參數邏輯斯模式 (4 parameter logistic model) 等級反應模式 (graded response model)

名義反應模式 (nominal response model) 評定量表模式 (rating scale model) 多元化計分

部分計分模式 (partial credit model)

連續計分模式連續反應模式 (continuous response model) 資料來源：Hambleton & Swaminathan, 1985

在目前的測驗資料中，二元化計分是較常採用的，其作答反應只有「

對」和「錯」兩種，而在二元化計分中，又以1PL、2PL、3PL的試題反應模式較常使用，以下分別介紹這三種常用的模式。

一、單參數邏輯斯模式

單參數邏輯斯模式 (one-parameter logistic model, 1PL) 又稱「Rasch模式」，為George Rasch (1960/1980) 所提出，其公式如下：

( )

ⁱ ⁿ

e P e

i i

b b

i 1,2, , 1 ⁽ ⁾

)

( = ⋅ ⋅⋅

= +^θ⁻_θ₋ θ

其中^P

( )

^θ ^{表能力值為}^θ^{的受試者答對第}ⁱ^{試題的機率，}^b^為試題ⁱ^的難度參

數 (item difficulty parameter) ，e為以2.718為底的指數 (exponential) ，n為該份測驗的總題數，Pi

( )

^θ 為介於0和1之間的值，其圖形為一條S形的曲線

。當受試者能力值θ等於試題難度b_i時，其答對該試題的機率只有50% ( 即Pi

( )

^θ ⁼⁰^.⁵⁰) ；受試者能力值θ大於試題難度b_i時，其答對該試題的機率便會大於50% (即Pi

( )

^θ ^>⁰^.⁵⁰) ；受試者能力值θ小於試題難度b_i時，其答對該試題的機率就會小於50% (即Pi

( )

^θ ^<⁰^.⁵⁰) 。由Rasch模式我們可以繪出其試題特徵曲線如下圖所示：

圖2-2 三條典型的單參數邏輯斯模式的試題特徵曲線資料來源：Hambleton, Swaminathan, & Rogers, 1991

由圖2-2中可知，當受試者的能力值愈高時，其答對該試題的機率也愈高，以圖中三題試題為例，從答對機率0.5畫一橫線與三條試題特徵曲線相交，其交點對應到的能力值則被定義為該試題的難度參數，亦稱作「位置參數」 (location parameter) ，圖中試題1至試題3的試題難度參數分別為

1=−1

b 、b₂ =1、b₃ =2，當b_i值愈大時，表示試題愈困難，反之則愈簡單。

1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

-4 -3 -2 -1 0 1 2 3 4 正確

反應機率

試題 1

試題 2

試題 3

能力值

二、雙參數邏輯斯模式資料來源：Hambleton et al., 1991

在圖2-3中可以發現，試題2和試題3的試題難度參數相等，b₂ =b₃ =1，

三、三參數邏輯斯模式資料來源：Hambleton et, al., 1991

由圖2-4中可發現，當受試者能力很低時，還是有機率答對試題，三參

在文檔中國小四年級學童之幾何表現的概念結構探討 (頁 23-33)

第二章 文獻探討

第二節 試題反應理論

壹、IRT的基本概念

( )

( )

( )

( )

( )

貳、試題特徵曲線

參、試題反應理論的基本假設

( )

( )

( )

( )

( )

( )

肆、試題反應理論的特色

伍、試題反應理論的模式

( )

( )

( )

( )

( )

( )

第二章文獻探討

第二節試題反應理論