古典測驗理論與試題反應理論

第二章、文獻探討

第三節、古典測驗理論與試題反應理論

一般來說，測驗理論大致可分為兩大派別：古點測驗理論(classical test theory，

簡稱CTT)與試題反應理論(item response theory，簡稱 IRT)，前者是以整份測驗分數做為主要思考依據的測驗理論，後者則是以單一試題分數為主要思考依據的測驗理論(余民寧，2009)，以下分別就兩派理論探討。

壹、古典測驗理論

古典測驗理論是最早的測驗理論，其理論所採用的公式淺顯易懂，至今仍是最廣為人知並使用的測驗理論。古典測驗理論又稱為真實分數理論(true score theory)，

因為其理論是建立在真實分數模式(true score model)的數學基礎上，它的主要目的是在估計某個測驗「實得分數」（observed score）的信度，也就是企圖估計實得分數與真實分數（true score）之間的關聯程度(余民寧，2011)。「實得分數」是由「真實分數(true score) 」和「誤差分數(error score) 」兩部份所組成，以數學公式 X=T+E 表示，其中X 代表實得分數，T 代表真實分數，E 代表誤差分數。

實得分數是指受試者從測驗中實際得到的分數，真實分數是指受試者的潛在特質（latent trait），誤差分數則是在測驗過程中設法要降低或避免的部分。根據古典測驗理論的假設，每位受試者都具有某種潛在特質，該特質無法由單一測驗的實得分數表示，要由受試者接受無數次測驗的得分平均數表示；而測量所得的實得分數與真實分數的誤差即為誤差分數，它可能是正的、負的或零。

真實分數模式是一種直線關係的數學模式，其模式的成立必須滿足一些基本假設，余民寧(2011)綜整這些基本假設可歸納成以下七點：

1. x = t + e，表示實得分數等於真實分數與誤差分數之和。

2. E（x）= t，表示實得分數的期望值等於真實分數。

3. 𝜌_𝑡𝑒 = 0，表示真實分數與誤差分數互為獨立。

4. 𝜌_𝑒₁_𝑒₂ = 0，表示不同測驗的誤差分數間互為獨立。

5. 𝜌_𝑒₁_𝑡₂ = 0，表示不同測驗的誤差分數與真實分數間互為獨立。

6. 假設有兩個測驗，它們的實得分數分別為 x 及 x'，並滿足上述 1 至 5 的假定，

而且對每一群體考生而言，也滿足t＝t'和𝜎_𝑒² = 𝜎_𝑒²_′等條件，則這兩個測驗就稱作「複本測驗」（parallel tests）。

7. 假設有兩個測驗，它們的實得分數分別為為 x 及 x'，並且滿足上述 1 至 5 的 假定，而且對每一群體考生而言，亦滿足t1＝t2+c12，其中c12為一常數，則這兩個測驗稱作「相當於複本測驗」（essentially τ-equivalent tests）。

貳、古典測驗理論的缺失與限制

古典測驗理論所採用的公式簡單易懂、應用廣泛，但也有些不足與缺失，學者余民寧(2011)綜整該理論的缺失如下：

一、古典測驗理論在試題分析時所採用的難度、鑑別度和信度等指標都是一種樣本依賴（sample dependent），這些指標會因為受試者樣本不同而有所差異，故同一份測驗不易得到相同的難度、鑑別度或信度等指標。

二、古典測驗理論用一個共同的測量標準誤（standard error of measurement）作為每個受試者潛在特質估計值的測量誤差，此舉往往會忽略了受試者反應的個別差異，對於具有高、低兩極端潛在特質的受試者而言，這種指標既不合理也不精確，其結果的適當性令人質疑。

三、古典測驗理論對於功能相同但非複本（nonparallel）的測驗所獲得的分數，不能提供有意義的比較，僅能對相同測驗的前後測或複本測驗分數之間進行有意義的比較。

四、古典測驗理論的信度是建立在複本（parallel forms）測量概念的假設上，但是這種假設往往不存在於實際的測驗情境裡，因為在現實測驗下，施測者不可能讓每個受試者在接受多次相同測驗後，還保持每次反應結果都彼此獨立不互相影響；此外，不是每種測驗都會在編製測驗時就同時製作複本。

五、古典測驗理論對於測驗得分相同的受試者，就視為具有相同的潛在特質估計值，沒有考慮到受試者作答的試題反應組型（item response pattern）所代表的意義，但事實上總分相同的受試者其反應組型並不一定相同，故表示的意義應該也不會一樣，所以最後估算出來的潛在特質估計值應該也會不同。

由於古典測驗理論有以上缺失，學者們為了改善、解決此問題，就轉而尋求理論與方法均較嚴謹的當代測驗理論，進而發展出試題反應理論。

參、試題反應理論

相對於古典測驗理論，試題反應理論是依據強勢假設（strong assumption）而

來，其假設更為合理且結構嚴謹，採用的公式複雜且計算艱澀。試題反應理論認為受試者在個別試題上的表現，與其背後的潛在特質具有某種關係，此關係可透過一條連續遞增函數來表示，此即為試題特徵曲線(Item characteristic curve，簡稱 ICC)。在試題反應理論中，每一種試題反應模式都有一條相對應的試題特徵曲線，

它的涵義為描述受試者答對某一題的機率：若潛在特質的程度愈高，則作答反應正確的機率就愈高，反之則越小。試題反應理論依計分方式的不同，主要分為二元化計分(dichotomous scoring)及多元化計分(polytomous scoring)兩大類；依函數中採用的參數多寡，可被區分為不同的模式，常用的有單參數、雙參數及三參數等，

都是僅適用於二元計分法，其試題特徵函數公式如下(余民寧，2009)：

1. 單參數模式：𝑃_𝑖𝑗(𝜃_𝑗) = ¹

1+𝑒𝑥𝑝[−𝐷(𝜃−𝑏_𝑖)]

2. 雙參數模式：𝑃_𝑖(𝜃_𝑗) = ¹

1+𝑒[−𝐷𝑎_𝑖(𝜃−𝑏_𝑖)]

3. 三參數模式：𝑃_𝑖𝑗(𝜃_𝑗) = 𝑐_𝑖 + (1 − 𝑐_𝑖) ¹

1+𝑒𝑥𝑝[−𝐷𝑎_𝑖(𝜃−𝑏_𝑖)]

其中，𝐷 = 1.702；i 為題目編號；j 為受試者編號；𝜃_𝑗為第j 位受試者的能力值；

𝑎_𝑖、𝑏_𝑖、𝑐_𝑖分別為第i 題的鑑別度參數、難度參數、猜測度參數；𝑃_𝑖𝑗(𝜃_𝑗)為受試者答對該試題的機率，其圖形是一種S 形曲線，值介於 0 和 1 之間。

單參數模式只有難易度參數，若受試者能力值等於試題難度參數時，表示答對機率為0.5；若能力值高於試題難度時，答對機率就高於 0.5，反之則低於 0.5。雙參數模式中有難易度與鑑別度兩個參數，三參數模式包含難易度、鑑別度與猜測度參數三個參數。一般而言，鑑別度值a 介於 0~2 之間為多，其值以介於 0.8~1.25 之間最為有效；難易度b 大部分介於-3~3 之間，其值愈高難度愈難；猜測度 c 則宜為0 ≤ c < ¹

選項數（王寶墉，1995）。

相對於古典測驗理論，試題反應理論應具有：（1）能力估計不變性；（2）具有題目參數估計不變性，以及（3）測量精準度較合理；（4）應用層面較廣等優點。

相對於古典測驗理論，試題反應理論具有以下特色：

一、參數不變性

試題反應理論具有參數不變性(parameter invariance)之特色，表示用來描述某試題的試題參數(如：難度、鑑別度、猜測度等)，其估計值不會因為受試者不同而有所影響；而用來描述某位受試者的能力參數值，也不受到使用哪一組測驗試題之影響(Hambleton & Swaminathan, 1985)。

二、訊息函數

訊息函數分成兩類：試題的訊息函數(item information function)與測驗的訊息函數(test information function)。試題的訊息函數是指試題特徵曲線微分的平方與該題變異數的比值，而測驗訊息函數是指試題訊息函數的總和。訊息函數在測驗編製、

試題挑選、電腦化適性測驗發展等方面皆扮演重要角色，對於診斷測驗的測量精確度上也有很大幫助（余民寧，2009）。

依上述所言，試題反應理論似乎優於古典測驗理論，但實際上比起試題反應理論被應用的情形不如古典測驗理論，歸究其原因為：試題反應理論建立在嚴謹的數理統計學模式上，其理論公式艱澀難懂，對一般大眾來說不易理解，而且公式複雜計算不易，往往需借助電腦套裝軟體進行運算，在應用上更受限制。此外，

礙於試題反應理論嚴苛的基本假設，能適用的資料有限並需要大樣本的配合，所以較難讓一般使用者接受。

綜合以上兩種測驗理論可知，古典測驗理論雖然不夠嚴謹，但理論淺顯易懂，

所以易於在實際測驗情境中實施(特別是小規模的資料)；試題反應理論雖然較為嚴謹，但理論艱深難懂，僅適用於大樣本測驗資料的分析。所以，這兩派測驗理論在運用上各有其優勢限制，可依需求選取運用。

本研究以古典測驗理論分析試題難易度、鑑別度及誘答選項分析；以試題反應理論單參數模式估計試題的難易度及學生的能力值。

在文檔中八年級數學段考試題分析研究-以新北市某中學為例 (頁 24-28)

第二章、 文獻探討

第三節、 古典測驗理論與試題反應理論

第二章、文獻探討

第三節、古典測驗理論與試題反應理論