測驗理論

第二章文獻探討

第四節測驗理論

測驗組成主要為試題，而一份優良的測驗不僅可提供教師教學改進的方向，

還可藉由測驗的結果，了解學生的學習成效。因此有優良的試題才會有優良的測驗，其中則顯現出試題檢驗的重要性，然而隨著測驗理論的發展，主要有二大學派：一為古典測驗理論(classical test theory, 簡稱CTT)，主要是以真實分數模式為其架構；另一則為當代測驗理論，主要是以試題反應理論(item response theory, 簡稱IRT)為架構。

壹、古典測驗理論

古典測驗理論，也被稱為古典真分數理論，主張一個受試者所獲得的觀察分數，是由該受試者的真實分數與測量所產生的誤差分數所組成（涂金堂，2009），

表示的公式如下：

X（觀察分數）＝T（真實分數）＋E（誤差分數）

該理論所採用的計算公式簡單明瞭、淺顯易懂，為目前大多數的教育及心理測驗資料分析使用。雖然古典測驗理論有其優點，但仍亦有一些缺點，如：難度及鑑別度容易受樣本依賴的影響、所有受試者皆採用相同的標準誤，而未考慮受試者的個別差異，亦即總分相同的受試者，就視其能力相同，難以比較受試者的能力（涂金堂，2009）。

貳、試題反應理論

一、基本概念

試題反應理論)是為改進古典測驗理論的缺失而來，其理論建立在兩個基本概念上（余民寧，2009）：

（一）受試者在某一測驗試題上的表現情形，可由潛在特質(latent traits)或能力

(abilities)來預測或解釋（余民寧，2009）。

（二）受試者的表現情形與這組潛在特質間的關係，可透過一條連續性遞增的函數來加以詮釋，這個函數便叫作試題特徵曲線(item characteristicrve, 簡稱 ICC) （余民寧，2009）。

也就是說，把能力不同的受試者在某一測驗試題上正確反應的機率連接起來所構成的曲線便是該試題的試題特徵曲線，再把各試題的試題特徵曲線加總起來，

便構成了測驗特徵曲線(test characteristic curve, 簡稱TCC)，試題特徵曲線和測驗特徵曲線都是一條用來解釋受試者試題分數或測驗分數涵義的迴歸線（余民寧，

2009）。

二、基本假設

（一）單向度(unidimensionality)：單向度指的是在測驗時，各個試題皆能測量到同一種能力或潛在的特質，也就是說此一測驗只針對單一能力或潛在特質進行測量（余民寧，2009）。

（二）局部獨立性(local independence)：受試者在測驗某一試題時是不受其他試題的影響，也就是說受試者在任何一題上的反應是獨立的（余民寧，2009）。

（三）非速度測驗(nonspeedness)：受試者是因為能力不足導致考試成績不理想或測驗未做完，而不是由於時間不夠所致（余民寧，2009）。

（四）知道—正確假設(know-correct assumption)：如果受試者知道某一試題的正確答案，就能答對該試題；也就是說，若受試者答錯某一試題，必然不知道該試題的正確答案（余民寧，2009）。

三、試題反應的模式

1PL、2PL、3PL 模式為最常見的參數型 IRT 模式，主要以採用試題參數之數目多寡來命名，適用於二元化的反應資料，以下分別說明（余民寧，2009）：

（一）單參數邏吉斯模式(one-parameter logistic model, 1PL)

P

_i(θ)＝

i=1,2,3,4…,n

θ：受試者的能力值

P

_i（θ）：表示能力值為 θ 之考生答對試題 i 的機率

b

_i：表示第 i 題的難易度

i：表示第 i 題

n：表示該測驗的試題總數

e：代表自然對數的底數，近似於 2.718

當受試者能力值和試題難易度相等時，受試者答對第i題的機率P_i(θ)＝0.5。若 能力值小於試題難易度，受試者答對第i題的機率低於50%，即P_i(θ)＜0.5；反之，

若能力值大於試題難易度，受試者答對第i題的機率高於50%，即P_i(θ)＞0.5。難易度值理論上介於－∞到＋∞之間，但較為適合之試題難度值介於－3到＋3之間

（余民寧，2009）。

二、二參數邏吉斯模式(two-parameter logistic model, 2PL) 此模式，比單參數多了「鑑別度參數」，其公式如下：

P

_i(θ)＝

i =1,2,3,4…,n

a

_i：表示第 i 題的鑑別度

此模式中除了難易度(b_i)，還多了鑑別度參數(a_i)。鑑別度參數是指試題對不同能力的受試者能否反應出其答題的差異，鑑別度愈大的試題，區別出不同能力

水準考生的功能愈好，也就是說鑑別度大的試題，對於能力高的受試者而言，其答對率高；對能力低的受試者而言，其答對率低。理論上，鑑別度參數值介於－

∞到＋∞之間，但負的鑑別度值顯示該試題反向區別不同能力水準的受試者，即能力愈高的受試者答對某試題的機率愈低，則是違反常理，較為適合之試題鑑別度值應不低於0.4（王暄博，2013）。

三、三參數邏吉斯模式(three-parameter logistic model, 3PL)

在此模式與二參數邏吉斯模式相比，多了「猜測度參數」，其公式如下：

P

_i(θ)＝c_i

+（1-c

_i）

i =1,2,3,4…,n

c_i：表示第 i 題的猜測度

三參數模式除了上述難易度、鑑別度參數之外，再加上猜測度參數(c_i)。在以選擇題為主的測驗中，發現有作答者因試題誘答選項設計不佳，或題目中有暗示的線索，造成能力低者也容易猜對的情況，此時就需要三參數模式來找出那些題目。

貳、古典測驗理論與試題反應理論之異同

試題反應理論乃是測驗學者為改進古典測驗理論的缺失而發展的測驗理論，

黃國清、吳寶桂（2006）將其中較明顯的部份分述如下：

一、理論的不同處：

（一）樣本：古典測驗理論之難度、鑑別度指標，隨受試者能力而變，屬於樣本依賴。而試題反應理論的試題參數估計不因樣本不同而改變，如難度及鑑別度參數。

（二）題目難度：古典測驗理論的難度隨觀察分數而改變，會造成不同受試者無法直接比較。而試題反應理論之受試者能力估計不因測驗難度而不同，且不同受試者的能力值可直接比較。

（三）測量誤差：古典測驗理論中，受試者接受同一測驗的結果都具有相同的測量誤差，無法顯現出受試者間之個別差異。而在試題反應理論中，測量誤差的估計會因受試者程度而不同，因此有不同的受試者能力估計值。

（四）測驗結果的解釋：古典測驗理論以受試者在測驗中答對的試題得分即原始總分來做解釋。而在試題反應理論中，則考慮試題難度的訊息，因此原始得分相同者，能力估計值不見得相同。

二、理論的共通處

（一）試題分析：若試題反應理論在單參數模式下時，兩種理論所估出的難度值呈現高正相關，此外，在題目鑑別指數上，試題反應理論在雙參數模式下，

估出的鑑別度參數，亦與古典測驗理論所計算的鑑別度呈現高正相關。

（二）理論的假設：試題反應理論與古典測驗理論都有假設的前提，其中題目的

「單向度」、「知道—正確假設」的假設都是必要的。

（三）受試者評定的一致性：對於受試者的評定，雖然試題反應理論較為嚴謹，

但兩種理論所得的能力值及總分，具有一致性，都有極高的正相關。

綜合上述，雖然古典理論雖不夠嚴謹，但理論淺顯易懂，便於在實際測驗情境中實施；而試題反應理論雖嚴謹，且計算複雜，非一般測驗編製者或使用者能確切理解應用，但其試題難度參數、受試者能力等皆架構在同一量尺上，可以提供更精確的能力評估，所以兩派的理論各有所長，故本研究在編製推理能力測驗時，同時使用古典測驗理論與試題反應理論進行試題的分析，而在學生能力的評估上，則採用試題反應理論所估測出的能力值進行比較。

在文檔中學習障礙學生在不同作業型態之推理能力測驗表現之研究 (頁 47-53)

第二章 文獻探討

第四節 測驗理論