第二章 文獻探討
第一節 試題反應理論
壹、試題反應理論的內涵
測 驗 與 評 量 是 一 種 用 來 解 釋 潛 在 特 質 和 反 應 資 料 實 證 關 係 (empirical relationships) 的理論學說。若從 Binet-Simon 所發展的第一個智力測驗開始算起,
測驗與評量發展至今已約有一百多年的歷史。測驗理論學者將測驗與評量理論依 其基本的理論觀點劃分成古典測驗理論 (classical test theory, 簡稱 CTT) 和現代 測驗理論 (modern test theory),而現代測驗理論中就屬試題反應理論 (item response theory, 簡稱 IRT) 最為重要,因此部分學者認為現代測驗理論的發展就 是試題反應理論的發展。
我們常用古典測驗理論來進行試題分析,不過在這分析的過程中往往都有缺 點產生,如採用的指標 (難度、鑑別度、信度) 都有樣本依賴的問題,抑或把同 一測驗的測量標準誤 (standard error of measurement),當作為每位受試者的測量 誤差。測驗學者們為了改進古典測驗理論這些缺失,於是發展出試題反應理論。
試題反應理論是依據強勢假設 (strong assumption),它是用一個函數關係,將受 試者的潛在能力和實際得分情形聯結在一起,受試者的測驗成績是由一些看不見 的潛在特質來決定,而受試者的潛在特質會經由測驗後反應出來,測驗學家會用 數值的方式來表達不同受試者潛在特質能力上的相對程度,亦即試題反應理論中 受試者的能力值。
試題反應理論是為改進古典測驗理論的缺點而來,它具有下列幾項特點,
這些特點正是古典測驗理論所無法具備的 (Hambleton, Swaminathan & Rogers, 1991;Lord, 1980):
(一) 試題反應理論所採用的試題參數 (item parameters),如難度、鑑別度與猜測 度等,是一種不受樣本影響 (sample free) 的指標;換言之,這些參數的獲得,
不會因為接受測驗的受試者樣本的不同而改變。
(二) 試題反應理論能夠針對每位受試者,提供個別差異的測量誤差指標,而非單 一相同的測量標準誤,因此能夠精確推估受試者的能力估計值。
(三) 試題反應理論可經由適用於同質性試題組成的分測驗,測量估計出受試者個 人的能力,不受測驗的影響,並且可以對於不同受試者間的分數,亦可進行 有意義的比較 (引自洪宏鳴,2006)。
此外古典測驗理論難以適用在題庫建立 (item bank building)、試題等化 (item equating) 與試題偏誤 (item bias) 等分析上 (陳英豪、吳裕益,1986;Hambleton &
Swanminathan, 1985)。試題反應理論雖然可以克服這些問題,不過由於計算繁複 的特性,以致於推廣不易,近年來,因為資訊科技發展迅速,電腦運算功能的強 大,加快試題反應理論發展的演進,因此,以試題反應理論為基礎的應用亦蓬勃 發展,玆舉部分的應用如下:
(一) 測驗的編製
許多大型測驗的編製逐漸採用試題反應理論來發展,如國內的國中基本學力 測驗,依照標準化測驗的編製程序、施測流程之外,在測驗分數的計算與解釋上 融入試題反應理論的精神與方法,於測驗前掌握試題難易度,並於測驗施行後計 算出學生的能力,考生依此能力作為升學的分發依據。
(二) 建立題庫
試題反應理論具有局部獨立的特性,所以適合用來題庫的建置,試題反應取 向的題庫一般而言,是將題目以及其相關的試題特性與試題參數建立在同一個資
料庫中,以便未來施測者能夠從此資料庫中依據測驗目的抽選出所適當的試題來 進行測驗。
(三) 電腦適性測驗
適性測驗是指在測驗的實施過程中,下一次施測的題目的選取是根據受試者 先前的反應,每經施測一題後便對受試者反應進行評分,評分後再選取最適合此 受試者的施測題目,循此反覆進行,直到達到施測的預定題數,或預定的測量精 確水準為止。因為試題反應理論具有局部獨立的特性,因此適合適性測驗發展的 需求。
(四) 選項的不同加權
對於多選項測驗題中的誘答選項的編制,可以反映出不同程度學生的認知正 確性;即針對不同題目選項與以加權計分,將可改進對於低程度受試者的能力估 計。試題反應理論中的名義反應模式,正適合用來對選項做不同加權。
(五) 分數的等化
等化是使用統計方法將某一次測驗的得分轉換至另一測驗分數量尺之過 程。其主要的目的是使不同測驗所得的結果能互相比較,如我國的國中基本學力 測驗,運用了試題反應理論的測驗等化技術,將兩次測驗予以等化,考生便可由 兩次測驗成績中任選一次成績作為升學成績,免除考生一試定終生的壓力。
(六) 試題偏向的檢驗
對能力相同的考生測驗同一試題而言,如果考生答完試題後有不同結果的出 現就是一種試題偏向。試題反應理論可以用來診斷試題偏差的方法玆舉三種如 下:一為比較試題特徵曲線的參數;另一為比較介於試題特徵曲線間的面積;最 後一種為比較反應模式與資料間的適合度。
當運用試題反應理論模式分析測驗資料時,應同時注意該模式所適用的情境 與限制,如此才不會造成錯用誤解的分析結果,試題反應理論具有幾項基本假 設,唯有在這些假設都成立的前提下,試題反應理論模式才能被用來分析所有的
測驗資料。以下是試題反應理論模式之假設 (余民寧,1991,1992):
(一) 單向性 (unidimensionality)
試題反應理論各種模式中有個共同假設,亦即是測驗中的各個試題都是測量 到同一種能力或潛在特質,這種能力或潛在特質必須包含在測驗試題裡。
(二) 局部獨立性 (local independence)
當影響測驗表現的能力被固定不變時,受試者在任何一對試題上的反應,在 統計學上而言是獨立的;換言之,在考慮受試者的能力因素後,受試者在不同試 題上的反應間沒有任何關係存在。此意謂著涵蓋在試題反應模式裡的能力因素,
才是唯一影響受試者在測驗試題上做反應的因素。
(三) 非速度性 (nonspeedness)
試題反應模式所適用的情況有個假設,那就是測驗的實施不是在速度限制下 完成的;換言之,測驗的結果只能由於能力因素來解釋,不能考慮時間因素。
(四) 「知道-正確」假設 (know-correct assumption)
這個假設是強調受試者在作答時,每一試題皆是受試者誠實作答的結果,受 試者若知道正確答案,必定答對該試題,沒有任何作弊、粗心大意、故意答錯或 是未作答的情形。
貮、試題反應理論的模式舉例
IRT 按照難易度、鑑別度與猜測度等試題參數的多寡,則有不同的模式。
以下說明為常見到的三種模式 (余民寧,1992):
(一) 單參數羅吉斯模式 (One-parameter logistic model)
單參數羅吉斯模式係指模式中只有一個參數,即為難度,用bi來表示。
( ) [ (
i) ]
i b
P = + − −
θ θ
exp 1
1 i=1,2,L,n 其中:
( )
θPi :能力值為 θ 之受試者答對第i題的機率
θ:受試者能力值 bi:第i題的難易度 n:測驗的總題數 (二) 雙參數羅吉斯模式 (two-parameter logistic model)
雙參數羅吉斯模式係指模式中有二個參數,即為試題的鑑別度和難度,分別
(三) 三參數羅吉斯模式 (three-parameter logistic model)
三參數羅吉斯模式係指模式中有三個參數,即為試題的鑑別度、難度和猜測