試題反應理論

第二章文獻探討

第一節試題反應理論

針對古典測驗理論 (classical test theory, CTT) 的缺失，心理計量與測驗學者提出了現代測驗理論 (modern test theory, MTT)，主要架構為 IRT，是依據強假設 (strong assumption) 而來，雖然公式較為複雜，但假設合理、嚴謹，其應用層面之廣且發展迅速，成為當代測驗學界的主流 (Bock & Zimowski, 1996; Embretson

& Reise, 2000; Hambleton, 1989; Hambleton & Cook, 1977; Lord, 1980)：

壹、基本假設

欲使用 IRT 模式進行分析，必須在 IRT 假設成立下，使用 IRT 才方無疑慮。

IRT 的基本假設 (王寶墉，1995；余民寧，1991；Hambleton & Swaminathan, 1985;

Hambleton, Swaminathan, & Rogers, 1991)，敘述如下：

1.單向度：一份測驗中的每一題試題都必須測量同一種的潛在特質或能力。

經出現，而 Tucker (1946) 便是第一位使用「試題特徵曲線」 (item characteristic curve, ICC) 一詞的心理計量學家 (余民寧，1991)。試題反應模式是將受試者的能力與試題反應結果間的關係，以一種數學函數表達，若將此數學函數以圖形表示，即為 ICC。IRT 中有許多試題反應模式，也有許多其他新的模式不斷地產生及發展 (Embretson, 1997; Thissen & Steinberg, 1986)，而在有關 IRT 的研究中，有三種常見的對數模式，分別為單參數邏輯斯模式、雙參數邏輯斯模式和三參數邏輯斯模式，介紹如下：

1.單參數邏輯斯模式 (one–parameter logistic model, 1-PL)

) (

1 ) (

i i

b b

i e

P e

-θ

θ θ

= + ^，i=1,2, L,n (2) 單參數邏輯斯模式，有 Rasch 模式之稱，在試題參數部份只包含了一個難度參數。P_i(θ)代表能力為θ^{的受試者，其在試題}i的答對機率，b_i表示試題i的試題難度 (difficulty)，

n

^{是該測驗的總試題數，}

e

為自然對數的底數。因此，單參數邏輯斯模式的 ICC 圖為圖 1 所示。

圖 1 單參數邏輯斯模式試題特徵曲線圖

由公式(2)得知，當考生能力θ^{與試題難度}b相等時，其P_i(θ)剛好為 0.5，亦即當正確反應的機率為 0.5，其對應 ICC 所落在能力量尺 (ability scale) 上的值，

恰好為該試題的難度值。當考生的能力θ^{大於試題難度}b^{，則考生答對該試題的} 機率超過 0.5，反之則小於 0.5。因此，圖 1 所示的 ICC，其三試題的難度分別為

−2、0 和 2，而三條曲線形狀一致，這表示在單參數邏輯斯模式下，影響考生在試題上的表現只有試題的難度。

2.雙參數邏輯斯模式 (two–parameter logistic model, 2-PL)

) (

) 1 (

i i

b a

i e

P e

-θ

θ θ

= + ，i=1,2, L,n (3) 雙參數邏輯斯模式比單參數邏輯斯模式多了一個試題的鑑別度參數a_i，用來描述試題i鑑別力 (discrimination) 的大小，其 ICC 圖為圖 2 所示。

圖 2 雙參數邏輯斯模式試題特徵曲線圖

試題的鑑別度參數a會與 ICC 所對應的斜率 (slope)，呈某種正向比例，表示 ICC 越陡 (steeper) 的試題，斜率越大，其鑑別度參數也越大。而鑑別力越大的試題，其區別不同能力的效果也越好。

就理論而言，試題的鑑別度參數a應該介於±∞之間，但學者認為鑑別度參數a值不太可能為負的，因為能力越大而正確反應的機率越低是有違背常理，鑑別度參數a值太高亦可能性不大，因此鑑別度參數a值通常介於 0~2 之間。

圖 2 所示為雙參數邏輯斯模式的三個例子，從圖中可得知，當試題鑑別度參

3.三參數邏輯斯模式 (three–parameter logistic model, 3 -PL)

) parameter)。一般而言，猜測參數c比受試者在隨機猜測下作答的機率還小，即

的 ICC，其 Y 軸的截距並不相同，亦即猜測參數c對 ICC 的形狀也是決定的因素之一。

參、參數估計

試題反應模式中，影響答對機率的重要參數，分別為受試者能力參數與試題參數，因此需要從已知的作答反應，估計未知的參數。藉由著試題局部獨立的假設，在二元計分的試題中，得知受試者反應組型的聯合機率 (joint probability) ，可以視為個別試題反應機率的連乘積，反應的情形只有 0 與 1 (余民寧，1991)：代，透過電腦程式輔助，求出參數的最大概似估計值 (Hambleton & Swaminathan, 1985)。

上述的情形，是在已知試題參數的情況下，利用最大概似函數，估計能力參數，若是能力參數已知，試題參數未知，亦可用同樣的方法。當參數估計值無法收斂，例如在反應全對或全錯時，則可採取貝氏估計法 (Bayesian estimation, BE)。

當試題參數與能力參數同時未知的情況下，通常採取聯合最大概似估計法

(joint maximum likelihood estimation, JMLE) (Hambleton & Swaminathan, 1985)，先決定試題參數的初始值，接而估計能力參數，再用所估計出來的能力參數估計試題參數，直到前後估計值的差距小於收斂的標準才結束，否則不斷地重覆步驟。

除了聯合最大概似估計法，亦還有邊際最大概似估計法 (marginal maximum likelihood estimation, MMLE) (Bock & Aitkin, 1981)、條件化最大概似估計法 (conditiona l maximum likelihood estimation, CMLE) (Andersen, 1973; Rasch, 1980) 和邊際貝氏估計法 (marginal Bayesian estimation, MBE) (Mislevy, 1986;

Swamithan & Gifford, 1982, 1985, 1986)等方法。

肆、IRT 的應用及發展

隨著電腦技術的進步與軟體的開發，許多有關 IRT 的文獻研究不斷地出現，

涵蓋下列各項：(1)心理測驗 (余民寧、謝進昌，2005)；(2)學科能力 (吳毓瑩、吳麗君，2002)；(3)電腦適性測驗 (computer adaptive testing, CAT) (Wainer, 1990;

Weiss, 1982, 1985)；(4)其他相關議題，像是試題等化 (equating) (Kolen & Brennan, 2004)、偏差試題的診斷 (DIF) (Swaminathan & Rogers, 1990)等，都是近年來熱門的議題。除了應用在心理計量領域，IRT 亦與其他科學知識結合而應用到其他領域範疇，作為研究與改進測量的工具之一。

在文檔中違反試題局部獨立性之參數估計－BILOG-MG與HLM軟體的比較 (頁 17-22)

第二章 文獻探討

第一節 試題反應理論

壹、基本假設

n

e

參、參數估計

肆、IRT 的應用及發展

第二章文獻探討

第一節試題反應理論