• 沒有找到結果。

第二章 文獻探討

第一節 試題反應理論

針對古典測驗理論 (classical test theory, CTT) 的缺失,心理計量與測驗學者 提出了現代測驗理論 (modern test theory, MTT),主要架構為 IRT,是依據強假設 (strong assumption) 而來,雖然公式較為複雜,但假設合理、嚴謹,其應用層面 之廣且發展迅速,成為當代測驗學界的主流 (Bock & Zimowski, 1996; Embretson

& Reise, 2000; Hambleton, 1989; Hambleton & Cook, 1977; Lord, 1980):

壹、基本假設

欲使用 IRT 模式進行分析,必須在 IRT 假設成立下,使用 IRT 才方無疑慮。

IRT 的基本假設 (王寶墉,1995;余民寧,1991;Hambleton & Swaminathan, 1985;

Hambleton, Swaminathan, & Rogers, 1991),敘述如下:

1.單向度:一份測驗中的每一題試題都必須測量同一種的潛在特質或能力。

經出現,而 Tucker (1946) 便是第一位使用「試題特徵曲線」 (item characteristic curve, ICC) 一詞的心理計量學家 (余民寧,1991)。試題反應模式是將受試者的能 力與試題反應結果間的關係,以一種數學函數表達 ,若將此數學函數以圖形表 示,即為 ICC。IRT 中有許多試題反應模式,也有許多其他新的模式不斷地產生 及發展 (Embretson, 1997; Thissen & Steinberg, 1986),而在有關 IRT 的研究中,有 三種常見的對數模式,分別為單參 數邏輯斯模式、雙參數邏輯斯模式和三參數邏 輯斯模式,介紹如下:

1.單參數邏輯斯模式 (one–parameter logistic model, 1-PL)

) (

) (

1 ) (

i i

b b

i e

P e

θ θ

= + i=1,2, L,n (2) 單參數邏輯斯模式,有 Rasch 模式之稱,在試題參數部份只包含了一個難度 參數。Pi(θ)代表能力為θ的受試者,其在試題i的答對機率,bi表示試題i的試題 難度 (difficulty),

n

是該測驗的總試題數,

e

為自然對數的底數。因此,單參數邏 輯斯模式的 ICC 圖為圖 1 所示。

圖 1 單參數邏輯斯模式試題特徵曲線圖

由公式(2)得知,當考生能力θ與試題難度b相等時,其Pi(θ)剛好為 0.5,亦 即當正確反應的機率為 0.5,其對應 ICC 所落在能力量尺 (ability scale) 上的值,

恰好為該試題的難度值。當考生的能力θ大於試題難度b,則考生答對該試題的 機率超過 0.5,反之則小於 0.5。因此,圖 1 所示的 ICC,其三試題的難度分別為

−2、0 和 2,而三條曲線形狀一致 ,這表示在單參數邏輯斯模式下,影響考生在 試題上的表現只有試題的難度。

2.雙參數邏輯斯模式 (two–parameter logistic model, 2-PL)

) (

) (

) 1 (

i i

i i

b a

b a

i e

P e

θ θ

= + ,i=1,2, L,n (3) 雙參數邏輯斯模式比單參數邏輯斯模式多了一個試題的鑑別度參數ai,用來 描述試題i鑑別力 (discrimination) 的大小,其 ICC 圖為圖 2 所示。

圖 2 雙參數邏輯斯模式試題特徵曲線圖

試題的鑑別度參數a會與 ICC 所對應的斜率 (slope),呈某種正向比例,表示 ICC 越陡 (steeper) 的試題,斜率越大,其鑑別度參數也越大。而鑑別力越大的 試題,其區別不同能力的效果也越好。

就理論而言,試題的鑑別度參數a應該介於±∞之間,但學者認為鑑別度參 數a值不太可能為負的,因為能力越大而正確反應的機率越低是有違背常理,鑑 別度參數a值太高亦可能性不大,因此鑑別度參數a值通常介於 0~2 之間。

圖 2 所示為雙參數邏輯斯模式的三個例子,從圖中可得知,當試題鑑別度參

3.三參數邏輯斯模式 (three–parameter logistic model, 3 -PL)

) parameter)。一般而言,猜測參數c比受試者在隨機猜測下作答的機率還小,即

i

的 ICC,其 Y 軸的截距並不相同,亦即猜測參數c對 ICC 的形狀也是決定的因素 之一。

參、參數估計

試題反應模式中,影響答對機率的重要參數,分別為受試者能力參數與試題 參數,因此需要從已知的作答反應,估計未知的參數。藉由著試題局部獨立的假 設,在二元計分的試題中,得知受試者反應組型的聯合機率 (joint probability) , 可以視為個別試題反應機率的連乘積,反應的情形只有 0 與 1 (余民寧,1991): 代,透過電腦程式輔助,求出參數的最大概似估計值 (Hambleton & Swaminathan, 1985)。

上述的情形,是在已知試題參數的情況下,利用最大概似函數,估計能力參 數,若是能力參數已知,試題參數未知,亦可用同樣的方法。當參數估計值無法 收斂,例如在反應全對或全錯時,則可採取貝氏估計法 (Bayesian estimation, BE)。

當試題參數與能力參數同時未知的情況下,通常採取聯合最大概似估計法

(joint maximum likelihood estimation, JMLE) (Hambleton & Swaminathan, 1985),先 決定試題參數的初始值,接而估計能力參數,再用所估計出來的能力參數估計試 題參數,直到前後估計值的差距小於收斂的標準才結束,否則不斷地重覆步驟。

除了聯合最大概似估計法 ,亦 還 有 邊 際 最 大 概 似 估 計 法 (marginal maximum likelihood estimation, MMLE) (Bock & Aitkin, 1981)、條件化最大概似估計法 (conditiona l maximum likelihood estimation, CMLE) (Andersen, 1973; Rasch, 1980) 和 邊 際 貝 氏 估 計 法 (marginal Bayesian estimation, MBE) (Mislevy, 1986;

Swamithan & Gifford, 1982, 1985, 1986)等方法。

肆、IRT 的應用及發展

隨著電腦技術的進步與軟體的開發,許多有關 IRT 的文獻研究不斷地出現,

涵蓋下列各項:(1)心理測驗 (余民寧、謝進昌,2005);(2)學科能力 (吳毓瑩、吳 麗君,2002);(3)電腦適性測驗 (computer adaptive testing, CAT) (Wainer, 1990;

Weiss, 1982, 1985);(4)其他相關議題,像是試題等化 (equating) (Kolen & Brennan, 2004)、偏差試題的診斷 (DIF) (Swaminathan & Rogers, 1990)等,都是近年來熱門 的議題。除了應用在心理計量領域,IRT 亦與其他科學知識結合而應用到其他領 域範疇,作為研究與改進測量的工具之一。

相關文件