第二章 文獻探討
第一節 試題反應理論
測驗的發展乃是源自古代中國的選士制度,雖然經過數千載的歷史演進,但中 國卻沒有持續將測驗理論發揚光大,反而是在一百多年前,西方國家將測驗理論系 統性量化之後,再傳播到世界各地。測驗廣義地來說是採用一套標準化的刺激,將 個人的潛在特質作有系統客觀量化呈現的程序(郭生玉,1990);而測驗理論則為一 套說明測驗資料間相關實證關係的理論學說(余民寧,2009),主要分成兩大類:首 先為古典測驗理論(classical test theory, CTT),是依據真實分數模式(true score model)
為架構,由於其模式計分容易、簡單,讓它至今仍是而廣受好評的實用理論。但是,
如果要兼顧測量的品質,古典測驗理論仍有樣本依賴、使用共同測量標準誤、忽略 受測者反應組型的等重大缺點;因應上述缺失,試題反應理論(item response theory, IRT),在測量上兼顧較多的面向與客觀性的量化程序,也逐漸取代古典測驗理論成 為一門新穎熱門的測驗理論學派。
試題反應理論相對於修正古典測驗理論(classical test theory, CTT),乃根據強 勢假設(strong assumption),用更精密嚴謹的統計理論,估算出試題參數、對答率 與能力參數值,在測量上較可達到客觀性的要求。主要基本概念是經由測驗的形式,
將受試者(examinee)的潛在特質(latent traits)或能力(ability),藉由作答反應,
經過數學運算公式轉換後來呈現結果。
另外,受試者的施測作答表現情形與潛在特質或能力之間的關係,能以一條連 續性遞增的數學函數來表示,此函數便稱作試題特徵曲線(item characteristic curve, ICC)。如果把能力不同的受試者得分點連接所構成的曲線,即可形成能力不同的受 驗結果的一個「主要成份或因素」(dominant component or factor),就算達到單向度 假設的基本要求。
)
一、單參數對數模式(one-parameter logistic model, 1PL)
單參數對數模式乃由丹麥學者 Rasch(1960)所提出,故又稱為 Rasch 模式,
其試題描述僅考量單一種參數─難度參數與能力值間的相關性,關係式表示如公式
二、二參數對數模式(two-parameter logistic model, 2PL)
由 Birnbaum(1968)提出 2PL,主要由 1PL 加入試題的鑑別度參數,如 公式(2-3)所示:
三、三參數對數模式(three-parameter logistic model, 3PL)
由 Lord(1974)提出 3PL,主要由 2PL 加入試題的猜測度參數,如公式(2-4)
所示:
在參數估計的方法上,最大概似法(maximum likelihood estimate, MLE)普遍為 各學術領域在機率估計上所應用,而在 IRT 的參數估計上,最常見的像條件最大概
似法(conditional maximum likelihood estimate, CMLE)、邊際最大概似法(marginal maximum likelihood estimate, MMLE)、聯合最大概似法(joint maximum likelihood estimate, JMLE)、期望後驗法估計法(expected a posteriori , EAP)、最大後驗估計法
(maximum a posteriori , MAP)等等,PARSCALE 在估計受試者能力值時,使用的 估計方法有最大概似估計法(maximum likelihood estimation , MLE)、期望後驗法估 計法(expected a posteriori , EAP)等,又以期望後驗法估計法為預設值,兩種方法 的差別在於最大概似估計法對於極端情形無法處理,也就是有受試者全部答對或全 錯時,則無法進行能力參數的估算。而期望後驗法估計法則無此限制,但它所估得 的能力參數值會較集中於母群體的平均值附近(shrink toward the mean),可是只要 標準誤不高時,產生的誤差則相當微小(楊孟麗、譚康榮、黃敏雄,2003)。
至於參數估計軟體有:BICAL(Wright, 1979)、LOGIST(Wingersky, 1983)、
MULTILOG(Thissen, 1991)、BILOG-MG(Zimowski, Muraki, Mislevy, & Bock, 2003)、
PARSCALE(Muraki & Bock, 2003)等等,又以 BILOG-MG 最常被運用,但由於 BILOG-MG 最大限制是只能使用於二元計分題型,無法使用於多元計分題型上,為 了考量未來研究的延伸性,本研究採用與 BILOG-MG 在程式碼及使用上都非常類似,
又可以使用多元計分題型的 PARSCALE 作為參數估計軟體。