第二章 文獻探討
第二節 試題反應理論的探討
測驗理論是一種解釋測驗資料間實證關係的理論學說,它的發展迄今已邁入 不同的新紀元,測驗理論學者通常把它劃分成二大學派:一為古典測驗理論
(Classical Test Theory;簡稱 CTT),主要是以真實分數模式為骨幹,最早提出 者為 Gullikson(1950a, 1987b);另一為現代測驗理論(modern test theory),主 要是以試題反應理論(Item Response Theory;簡稱 IRT)為架構,最早提出者為 Lord(1980),主要為改進古典測驗理論來估計試題與受試者的潛在特質,以幫 助解決過去測量理論所遭遇的難解問題。(以上資料參見余民寧,民 92,頁 10)。
測驗能在今日受到重視,古典測驗理論扮演重要的角色,然而其亦有一些無 法解決的問題,現代測驗理論是其中一個應運而生的解決方法。以下追溯 IRT 相 關研究的歷史,由 Hambleton & Swaminathan(1985, p. 4-9)對現代測驗理論的 發展列舉了以下重要事件: Binet & Simon(1916)首創以圖面表示兩變項間關 係如年齡與答對機率,其中之圖面(plot)即為今日的試題特徵曲線(Item Characteristic Curve;簡稱 ICC)為現代測驗重要觀念之一。 Richardson(1936)
導出現代測驗 IRT 參數與古典測驗試題指數間關係,是獲得現代測驗 IRT 參數 估計最早的方法。 Lawley(1943)發表新的參數估計方法,並首次深入探討現 代測驗 IRT 的理論架構,此架構對後縱橫測驗學界三十年的大師級人物 Lord 影響其大,但因其假定較不符合實際,如試題內在相關相等、猜測不是影響測驗 的因素,故應用時受限制。 Tucker(1946)是第一位使用試題特徵曲線一詞的學 者,並研究古典測驗試題指數與 ICC 間的關係。 Lazarsfeld(1950)專攻態度測 量,可能為最先使用潛在特質一詞的學者。 Lord(1952)發表雙參數常態肩形 模式(two-parameter normal ogive model)的參數估計與應用,其與隔年的研究成 果被視為 IRT 的起源, Lord 也是第一位使用試題反應模式之人,並以其常態 肩型模式的參數估計方法成功地應用於成就及性向測驗上,爾後現代測驗 IRT 的理論便由二分計分發展至多元計分及連續變數上、由單向度模式至多向度模式
等的突破而增加現代測驗 IRT 的實用性。 Birnbaum(1957)以對數模式代替 Lord 的常態肩形模式並奠定對數模式的統計基礎,然現代測驗發展至 1950 及 1960 年代由於較需複雜數學及缺乏方便有效的電腦而導致進展緩慢,也使得此 領域的研究價值受到懷疑,但爾後對於測驗等化、適性測驗及測驗設計與評量等 實用問題的突破而引起不少測驗專家的興趣。 Rasch(1960)出版「智力與成就 測驗的機率模式」(Probabilistic Models for Some Intelligence and Attainment Tests)
一書,提出三種試題反應模式的原理與應用,而深深影響美國的 Wright 及歐洲 的 Fischer 等人的研究工作。 Wright 成為 1970 年代 Rasch 模式在美國推展的 催生者與領導人,在美國教育測驗服務中心所舉辦的測驗問題研討會中,演講 Rasch 模式的測驗編製而大受矚目,因而在美國教育研究學會之年會中,設立 Rasch 模式講習班,以造就應用 Rasch 模式的人才,講習班亦維持約十二年,對 於電腦程式的研發,實際應用上皆頗有貢獻,廣獲支持。 Lord & Novick(1968)
出版「心理測驗分數的統計理論」(Statistical Theories of Mental Test Scores)一 書中有五章(其中四章為 Birnbaumn 所作)討論潛在特質論,對現代測驗的研 究具啟發作用。 Wright & Panchapakesan(1969)發表 Rasch 模式的參估計法及 電腦程式 BICAL , BICAL 亦為 Rasch 模式應用時最重要的電腦程式。
Samejima(1969)開始發表一系列新的試題反應模式的理論與應用,其模式能處 理多元計分及連續變數之資料,且將單向度模式擴展至多向度模式。 Bock(1972)
提出一些重要的參數估計新理念。 Lord(1974)發展新參數估計法並為電腦程 式 LOGIST 所使用。 Fischer(1974)提出線性對數模式(linear logistic model)。
Lord(1976)等將對數模式的參數估計法使用在電腦程式 LOGIST。 Baker(1977)
綜合分析不同的參數估計法。學者如 Bashaw, Lord, Marco, Rentz, Urry & Wright 等人(1977)於教育測量季刊中發表六篇有關 IRT 的重要文獻。 Wright & Stone
(1979)出版「最佳測驗設計」(Best Test Design)一書以闡明 Rasch 模式的理 論與應用。Lord(1980)出版「試題反應理論在測驗的應用」(Applications of Item Response Theory to Practical Testing Problems)一書中介紹現代測驗 IRT 的發展
7
與三參數模式(three-parameter model)的應用。 Weiss 主編 1979 年電腦適性測 驗研討會資料,資料涵蓋適性測驗最新研究文獻,而適性測驗則為 IRT 之主要 應用方式之一。 Lord(1982)及其在美國教育測驗服務中心的同僚完成第二版 LOGIST 電腦程式,比 1976 年的第一版 LOGIST 更方便更快捷。
由於對 IRT 這方面的研究需要複雜的計算過程,因此在電子計算機出現後,
才有更多的學者在 1970 年代末期投入這方面的領域,到了 1980 及 1990 年代 則迅速蓬勃發展。自從 Lord 在 1980 年發表第一本以「試題反應理論」為名的 專書後,現代測驗理論正式以試題反應理論為其中心架構;在此之前,試題反應 理論有個別稱:「潛在特質理論」,由於潛在特質理論一詞還包括「因素分析」、
「多元度量法」、「潛在結構分析」等,涵蓋面甚廣,無法精確反應出受試者在 試題上的反應狀況,因此自 Lord 發表專書後,試題反應理論於是正式正名,且 宣告誕生。所以自 1980 年後,測驗學者逐漸以試題反應理論為現代測驗理論的 代表。試題反應理論雖然自 1980 年才正式正名成立,然而在 1930 和 1940 年 代,試題反應理論便已有初步的理論架構,其中 Tucker(1946)便是第一位使用 試題特徵曲線(Item Characteristic Curve;簡稱 ICC)一詞的心理計量學家,這 一名詞也逐漸成為試題反應理論的中心概念。隨著近年來人類在電腦科技上的突 飛猛進,各種適用於試題反應理論的電腦軟體程式(如:目前最常用,也最有名 的程式 BILOG 和 LOGIST 等)相繼誕生與再版修訂,已使得美國很多研究機 構、地方政府機關和私人團體,都率先採用試題反應理論作為他們編製測驗、施 測、計分、解釋與提供諮詢服務的依據。(以上資料參見余民寧,民 81)
試題反應理論具有下列幾項基本假設(參見余民寧,民 81),唯有在這些假 設都成立的前提下,試題反應模式才能被用來分析所有的測驗資料。
一、單向度:假設同一份測驗都只測量到一種共同的能力或潛在特質。
二、局部獨立性:當影響測驗表現的能力被固定不變時,受試者在任何試題上的 作答反應,在統計學上而言是獨立的;換句話說,在考慮受試者的能力因素
後,受試者在不同試題上的作答反應間沒有任何關係存在。假設θ為能力因 素,
U
i代表某位受試者在第 i 試題上的作答反應組型,P U (
i|θ)
代表具有能 力為θ的受試者在第 i 試題上的作答反應機率,且P
i =P U (
i =1|θ)
為正確作 答反應的機率,Q
i =P U (
i =0 |θ)
= −1P
i為錯誤作答反應的機率,則局部獨立 性的涵義即是:P U U U (
1, 2, 3,K,U
n|θ)
=P U (
1|θ) (
⋅P U
2|θ) (
⋅P U
3|θ)
⋅ ⋅LP U (
n |θ)
( )
1
|
n i i
P U
θ=
=
∏
,即說明了對某一特定能力的受試者而言,在某份測驗上的作 答反應組型的機率,等於在單獨一題試題上作答反應機率的連乘積。三、非速度測驗:測驗的實施不是在速度限制下完成的;換句話說,受試者的考 試成績不理想,是由於能力不足所引起,而不是由於時間不夠答完所有試題 所致。這項假設亦隱含在單向度假設裡。
四、知道—正確假設:如果受試者知道某一試題的正確答案,必然會答對該試題;
換句話說,如果受試者答錯某一試題,他必然不知道該試題的答案。而把正 確答案填錯在別的格子上以致整個試卷都錯的例子,不在本假設所考慮的範 圍內,因為人為的疏忽不是任何測驗理論所能顧及到的。此外,省略不答的 試題和未答完的試題有所不同,前者是受能力影響所致,後者是受施測速度 影響所致。本假設僅能適用於前者,它和前個假設一樣,都隱含在單向度假 設裡,故殊少被提及。
雖然試題反應模式歸類方式不盡相同,到目前為止,大多數已發展出來並且 已在使用中的試題反應模式,還是以適用於二元化計分的性向或成就測驗資料為 主。在此介紹試題反應理論中最常用的基本模式及其具有的特性,常用的試題反 應模式,有下列三種(參見余民寧,民 81),每一種模式都依其採用的試題參數 的數目多寡來命名,都僅適用於二元化的作答反應資料(即有正確作答反應者登 錄為 1 ,錯誤作答反應者為 0 的資料):
一、單參數對數模式(one-parameter logistic model)
9
這 個 模 式 的 數 學 公 式 如 右 所 示 :
( )
( ( ) ) 1 ( ) 1二、雙參數對數模式(two-parameter logistic model)
這 個 模 式 的 數 學 公 式 如 右 所 示 :
( )
( ( ) ) 1 ( ) 1 Birnbaum(1968)修改自 Lord(1952)的原始雙參數常態肩形模式(normal態肩形模式,而成為主要的試題反應模式。
三、三參數對數模式(three-parameter logistic model)
這 個 模 式 的 數 學 公 式 如 右 所 示 :
( ) (
1)
( ( ) )1
i i
i i
a b
i i i a b
P c c e
e
θ
θ = + − ⋅ ⋅ −⋅ −θ
+ ,
1, 2,3, ,
i
= Kn
,其中各符號的定義與上面相同,唯又多出一個猜測度c
i 參 數。這個參數提供試題特徵曲線一個大於零的下限,它代表著能力很低的受 試者答對某試題的機率。三參數對數模式是由雙參數對數模式延伸演變而 來,它多增加一個猜測度參數,即是把低能力受試者的猜題現象也考慮在模 式裡。通常 c 參數的值比受試者在完全隨機猜測下猜答的機率值稍小。11