第二章、 文獻探討
第三節、 古典測驗理論與試題反應理論
一般來說,測驗理論大致可分為兩大派別:古點測驗理論(classical test theory,
簡稱CTT)與試題反應理論(item response theory,簡稱 IRT),前者是以整份測驗分 數做為主要思考依據的測驗理論,後者則是以單一試題分數為主要思考依據的測 驗理論(余民寧,2009),以下分別就兩派理論探討。
壹、 古典測驗理論
17
古典測驗理論是最早的測驗理論,其理論所採用的公式淺顯易懂,至今仍是最 廣為人知並使用的測驗理論。古典測驗理論又稱為真實分數理論(true score theory),
因為其理論是建立在真實分數模式(true score model)的數學基礎上,它的主要目的 是在估計某個測驗「實得分數」(observed score)的信度,也就是企圖估計實得分 數與真實分數(true score)之間的關聯程度(余民寧,2011)。「實得分數」是由「真 實分數(true score) 」和「誤差分數(error score) 」兩部份所組成,以數學公式 X=T+E 表示,其中X 代表實得分數,T 代表真實分數,E 代表誤差分數。
實得分數是指受試者從測驗中實際得到的分數,真實分數是指受試者的潛在特 質(latent trait),誤差分數則是在測驗過程中設法要降低或避免的部分。根據古典 測驗理論的假設,每位受試者都具有某種潛在特質,該特質無法由單一測驗的實 得分數表示,要由受試者接受無數次測驗的得分平均數表示;而測量所得的實得 分數與真實分數的誤差即為誤差分數,它可能是正的、負的或零。
真實分數模式是一種直線關係的數學模式,其模式的成立必須滿足一些基本假 設,余民寧(2011)綜整這些基本假設可歸納成以下七點:
1. x = t + e,表示實得分數等於真實分數與誤差分數之和。
2. E(x)= t,表示實得分數的期望值等於真實分數。
3. 𝜌𝑡𝑒 = 0,表示真實分數與誤差分數互為獨立。
4. 𝜌𝑒1𝑒2 = 0,表示不同測驗的誤差分數間互為獨立。
5. 𝜌𝑒1𝑡2 = 0,表示不同測驗的誤差分數與真實分數間互為獨立。
6. 假設有兩個測驗,它們的實得分數分別為 x 及 x',並滿足上述 1 至 5 的假定,
而且對每一群體考生而言,也滿足t=t'和𝜎𝑒2 = 𝜎𝑒2′等條件,則這兩個測驗 就稱作「複本測驗」(parallel tests)。
7. 假設有兩個測驗,它們的實得分數分別為為 x 及 x',並且滿足上述 1 至 5 的 假定,而且對每一群體考生而言,亦滿足t1=t2+c12,其中c12為一常數,則 這兩個測驗稱作「相當於複本測驗」(essentially τ-equivalent tests)。
18
貳、 古典測驗理論的缺失與限制
古典測驗理論所採用的公式簡單易懂、應用廣泛,但也有些不足與缺失,學者 余民寧(2011)綜整該理論的缺失如下:
一、古典測驗理論在試題分析時所採用的難度、鑑別度和信度等指標都是一種樣 本依賴(sample dependent),這些指標會因為受試者樣本不同而有所差異,故 同一份測驗不易得到相同的難度、鑑別度或信度等指標。
二、古典測驗理論用一個共同的測量標準誤(standard error of measurement)作為 每個受試者潛在特質估計值的測量誤差,此舉往往會忽略了受試者反應的個 別差異,對於具有高、低兩極端潛在特質的受試者而言,這種指標既不合理 也不精確, 其結果的適當性令人質疑。
三、古典測驗理論對於功能相同但非複本(nonparallel)的測驗所獲得的分數,不 能提供有意義的比較,僅能對相同測驗的前後測或複本測驗分數之間進行有 意義的比較。
四、古典測驗理論的信度是建立在複本(parallel forms)測量概念的假設上,但是 這種假設往往不存在於實際的測驗情境裡,因為在現實測驗下,施測者不可 能讓每個受試者在接受多次相同測驗後,還保持每次反應結果都彼此獨立不 互相影響;此外,不是每種測驗都會在編製測驗時就同時製作複本。
五、古典測驗理論對於測驗得分相同的受試者,就視為具有相同的潛在特質估計 值,沒有考慮到受試者作答的試題反應組型(item response pattern)所代表的 意義,但事實上總分相同的受試者其反應組型並不一定相同, 故表示的意義 應該也不會一樣,所以最後估算出來的潛在特質估計值應該也會不同。
由於古典測驗理論有以上缺失,學者們為了改善、解決此問題,就轉而尋求理 論與方法均較嚴謹的當代測驗理論,進而發展出試題反應理論 。
參、 試題反應理論
相對於古典測驗理論,試題反應理論是依據強勢假設(strong assumption)而
19
來,其假設更為合理且結構嚴謹,採用的公式複雜且計算艱澀。試題反應理論認 為受試者在個別試題上的表現,與其背後的潛在特質具有某種關係,此關係可透 過一條連續遞增函數來表示,此即為試題特徵曲線(Item characteristic curve,簡稱 ICC)。在試題反應理論中,每一種試題反應模式都有一條相對應的試題特徵曲線,
它的涵義為描述受試者答對某一題的機率:若潛在特質的程度愈高,則作答反應 正確的機率就愈高,反之則越小。試題反應理論依計分方式的不同,主要分為二 元化計分(dichotomous scoring)及多元化計分(polytomous scoring)兩大類;依函數中 採用的參數多寡,可被區分為不同的模式,常用的有單參數、雙參數及三參數等,
都是僅適用於二元計分法,其試題特徵函數公式如下(余民寧,2009):
1. 單參數模式:𝑃𝑖𝑗(𝜃𝑗) = 1
1+𝑒𝑥𝑝[−𝐷(𝜃−𝑏𝑖)]
2. 雙參數模式:𝑃𝑖(𝜃𝑗) = 1
1+𝑒[−𝐷𝑎𝑖(𝜃−𝑏𝑖)]
3. 三參數模式:𝑃𝑖𝑗(𝜃𝑗) = 𝑐𝑖 + (1 − 𝑐𝑖) 1
1+𝑒𝑥𝑝[−𝐷𝑎𝑖(𝜃−𝑏𝑖)]
其中,𝐷 = 1.702;i 為題目編號;j 為受試者編號;𝜃𝑗為第j 位受試者的能力值;
𝑎𝑖、𝑏𝑖、𝑐𝑖分別為第i 題的鑑別度參數、難度參數、猜測度參數;𝑃𝑖𝑗(𝜃𝑗)為受試者 答對該試題的機率,其圖形是一種S 形曲線,值介於 0 和 1 之間。
單參數模式只有難易度參數,若受試者能力值等於試題難度參數時,表示答對 機率為0.5;若能力值高於試題難度時,答對機率就高於 0.5,反之則低於 0.5。雙 參數模式中有難易度與鑑別度兩個參數,三參數模式包含難易度、鑑別度與猜測 度參數三個參數。一般而言,鑑別度值a 介於 0~2 之間為多,其值以介於 0.8~1.25 之間最為有效;難易度b 大部分介於-3~3 之間,其值愈高難度愈難;猜測度 c 則 宜為0 ≤ c < 1
選項數(王寶墉,1995)。
相對於古典測驗理論,試題反應理論應具有:(1)能力估計不變性;(2)具有 題目參數估計不變性,以及(3)測量精準度較合理;(4)應用層面較廣等優點。
相對於古典測驗理論,試題反應理論具有以下特色:
20
一、參數不變性
試題反應理論具有參數不變性(parameter invariance)之特色,表示用來描述某試 題的試題參數(如:難度、鑑別度、猜測度等),其估計值不會因為受試者不同而有 所影響;而用來描述某位受試者的能力參數值,也不受到使用哪一組測驗試題之 影響(Hambleton & Swaminathan, 1985)。
二、訊息函數
訊息函數分成兩類:試題的訊息函數(item information function)與測驗的訊息函 數(test information function)。試題的訊息函數是指試題特徵曲線微分的平方與該題 變異數的比值,而測驗訊息函數是指試題訊息函數的總和。訊息函數在測驗編製、
試題挑選、電腦化適性測驗發展等方面皆扮演重要角色,對於診斷測驗的測量精 確度上也有很大幫助(余民寧,2009)。
依上述所言,試題反應理論似乎優於古典測驗理論,但實際上比起試題反應理 論被應用的情形不如古典測驗理論,歸究其原因為:試題反應理論建立在嚴謹的 數理統計學模式上,其理論公式艱澀難懂,對一般大眾來說不易理解,而且公式 複雜計算不易,往往需借助電腦套裝軟體進行運算,在應用上更受限制。此外,
礙於試題反應理論嚴苛的基本假設,能適用的資料有限並需要大樣本的配合,所 以較難讓一般使用者接受。
綜合以上兩種測驗理論可知,古典測驗理論雖然不夠嚴謹,但理論淺顯易懂,
所以易於在實際測驗情境中實施(特別是小規模的資料);試題反應理論雖然較為嚴 謹,但理論艱深難懂,僅適用於大樣本測驗資料的分析。所以,這兩派測驗理論 在運用上各有其優勢限制,可依需求選取運用。
本研究以古典測驗理論分析試題難易度、鑑別度及誘答選項分析;以試題反應 理論單參數模式估計試題的難易度及學生的能力值。