試題反應理論的探討 - 文獻探討 - 廣義隱藏式馬可夫模型應用於不完全資料之二元計分IRT混合模式

第二章文獻探討

第二節試題反應理論的探討

測驗理論是一種解釋測驗資料間實證關係的理論學說，它的發展迄今已邁入不同的新紀元，測驗理論學者通常把它劃分成二大學派：一為古典測驗理論

（Classical Test Theory；簡稱 CTT），主要是以真實分數模式為骨幹，最早提出者為 Gullikson（1950a, 1987b）；另一為現代測驗理論（modern test theory），主要是以試題反應理論（Item Response Theory；簡稱 IRT）為架構，最早提出者為 Lord（1980），主要為改進古典測驗理論來估計試題與受試者的潛在特質，以幫助解決過去測量理論所遭遇的難解問題。（以上資料參見余民寧，民 92，頁 10）。

測驗能在今日受到重視，古典測驗理論扮演重要的角色，然而其亦有一些無法解決的問題，現代測驗理論是其中一個應運而生的解決方法。以下追溯 IRT 相關研究的歷史，由 Hambleton & Swaminathan（1985, p. 4-9）對現代測驗理論的發展列舉了以下重要事件： Binet & Simon（1916）首創以圖面表示兩變項間關係如年齡與答對機率，其中之圖面（plot）即為今日的試題特徵曲線（Item Characteristic Curve；簡稱 ICC）為現代測驗重要觀念之一。 Richardson（1936）

導出現代測驗 IRT 參數與古典測驗試題指數間關係，是獲得現代測驗 IRT 參數估計最早的方法。 Lawley（1943）發表新的參數估計方法，並首次深入探討現代測驗 IRT 的理論架構，此架構對後縱橫測驗學界三十年的大師級人物 Lord 影響其大，但因其假定較不符合實際，如試題內在相關相等、猜測不是影響測驗的因素，故應用時受限制。 Tucker（1946）是第一位使用試題特徵曲線一詞的學者，並研究古典測驗試題指數與 ICC 間的關係。 Lazarsfeld（1950）專攻態度測量，可能為最先使用潛在特質一詞的學者。 Lord（1952）發表雙參數常態肩形模式（two-parameter normal ogive model）的參數估計與應用，其與隔年的研究成果被視為 IRT 的起源， Lord 也是第一位使用試題反應模式之人，並以其常態肩型模式的參數估計方法成功地應用於成就及性向測驗上，爾後現代測驗 IRT 的理論便由二分計分發展至多元計分及連續變數上、由單向度模式至多向度模式

等的突破而增加現代測驗 IRT 的實用性。 Birnbaum（1957）以對數模式代替 Lord 的常態肩形模式並奠定對數模式的統計基礎，然現代測驗發展至 1950 及 1960 年代由於較需複雜數學及缺乏方便有效的電腦而導致進展緩慢，也使得此領域的研究價值受到懷疑，但爾後對於測驗等化、適性測驗及測驗設計與評量等實用問題的突破而引起不少測驗專家的興趣。 Rasch（1960）出版「智力與成就測驗的機率模式」（Probabilistic Models for Some Intelligence and Attainment Tests）

一書，提出三種試題反應模式的原理與應用，而深深影響美國的 Wright 及歐洲的 Fischer 等人的研究工作。 Wright 成為 1970 年代 Rasch 模式在美國推展的催生者與領導人，在美國教育測驗服務中心所舉辦的測驗問題研討會中，演講 Rasch 模式的測驗編製而大受矚目，因而在美國教育研究學會之年會中，設立 Rasch 模式講習班，以造就應用 Rasch 模式的人才，講習班亦維持約十二年，對於電腦程式的研發，實際應用上皆頗有貢獻，廣獲支持。 Lord & Novick（1968）

出版「心理測驗分數的統計理論」（Statistical Theories of Mental Test Scores）一書中有五章（其中四章為 Birnbaumn 所作）討論潛在特質論，對現代測驗的研究具啟發作用。 Wright & Panchapakesan（1969）發表 Rasch 模式的參估計法及電腦程式 BICAL ， BICAL 亦為 Rasch 模式應用時最重要的電腦程式。

Samejima（1969）開始發表一系列新的試題反應模式的理論與應用，其模式能處理多元計分及連續變數之資料，且將單向度模式擴展至多向度模式。 Bock（1972）

提出一些重要的參數估計新理念。 Lord（1974）發展新參數估計法並為電腦程式 LOGIST 所使用。 Fischer（1974）提出線性對數模式（linear logistic model）。

Lord（1976）等將對數模式的參數估計法使用在電腦程式 LOGIST。 Baker（1977）

綜合分析不同的參數估計法。學者如 Bashaw, Lord, Marco, Rentz, Urry & Wright 等人（1977）於教育測量季刊中發表六篇有關 IRT 的重要文獻。 Wright & Stone

（1979）出版「最佳測驗設計」（Best Test Design）一書以闡明 Rasch 模式的理論與應用。Lord（1980）出版「試題反應理論在測驗的應用」（Applications of Item Response Theory to Practical Testing Problems）一書中介紹現代測驗 IRT 的發展

與三參數模式（three-parameter model）的應用。 Weiss 主編 1979 年電腦適性測驗研討會資料，資料涵蓋適性測驗最新研究文獻，而適性測驗則為 IRT 之主要應用方式之一。 Lord（1982）及其在美國教育測驗服務中心的同僚完成第二版 LOGIST 電腦程式，比 1976 年的第一版 LOGIST 更方便更快捷。

由於對 IRT 這方面的研究需要複雜的計算過程，因此在電子計算機出現後，

才有更多的學者在 1970 年代末期投入這方面的領域，到了 1980 及 1990 年代則迅速蓬勃發展。自從 Lord 在 1980 年發表第一本以「試題反應理論」為名的專書後，現代測驗理論正式以試題反應理論為其中心架構；在此之前，試題反應理論有個別稱：「潛在特質理論」，由於潛在特質理論一詞還包括「因素分析」、

「多元度量法」、「潛在結構分析」等，涵蓋面甚廣，無法精確反應出受試者在試題上的反應狀況，因此自 Lord 發表專書後，試題反應理論於是正式正名，且宣告誕生。所以自 1980 年後，測驗學者逐漸以試題反應理論為現代測驗理論的代表。試題反應理論雖然自 1980 年才正式正名成立，然而在 1930 和 1940 年代，試題反應理論便已有初步的理論架構，其中 Tucker（1946）便是第一位使用試題特徵曲線（Item Characteristic Curve；簡稱 ICC）一詞的心理計量學家，這一名詞也逐漸成為試題反應理論的中心概念。隨著近年來人類在電腦科技上的突飛猛進，各種適用於試題反應理論的電腦軟體程式（如：目前最常用，也最有名的程式 BILOG 和 LOGIST 等）相繼誕生與再版修訂，已使得美國很多研究機構、地方政府機關和私人團體，都率先採用試題反應理論作為他們編製測驗、施測、計分、解釋與提供諮詢服務的依據。（以上資料參見余民寧，民 81）

試題反應理論具有下列幾項基本假設（參見余民寧，民 81），唯有在這些假設都成立的前提下，試題反應模式才能被用來分析所有的測驗資料。

一、單向度：假設同一份測驗都只測量到一種共同的能力或潛在特質。

二、局部獨立性：當影響測驗表現的能力被固定不變時，受試者在任何試題上的作答反應，在統計學上而言是獨立的；換句話說，在考慮受試者的能力因素

後，受試者在不同試題上的作答反應間沒有任何關係存在。假設_θ為能力因素，

_U

_i代表某位受試者在第 i 試題上的作答反應組型，

P U (

i^|θ

)

代表具有能力為_θ的受試者在第 i 試題上的作答反應機率，且

P

i =

P U (

i =^1|θ

)

為正確作答反應的機率，

Q

i =

P U (

i =^{0 |}θ

)

= −¹

P

i為錯誤作答反應的機率，則局部獨立性的涵義即是：

P U U U (

1, 2, 3,K,

U

_n|θ

)

P U (

1|θ

) (

⋅

P U

2|θ

) (

⋅

P U

3|θ

)

⋅ ⋅L

P U (

_n |θ

)

( )

n i i

P U

∏

，即說明了對某一特定能力的受試者而言，在某份測驗上的作答反應組型的機率，等於在單獨一題試題上作答反應機率的連乘積。

三、非速度測驗：測驗的實施不是在速度限制下完成的；換句話說，受試者的考試成績不理想，是由於能力不足所引起，而不是由於時間不夠答完所有試題所致。這項假設亦隱含在單向度假設裡。

四、知道—正確假設：如果受試者知道某一試題的正確答案，必然會答對該試題；

換句話說，如果受試者答錯某一試題，他必然不知道該試題的答案。而把正確答案填錯在別的格子上以致整個試卷都錯的例子，不在本假設所考慮的範圍內，因為人為的疏忽不是任何測驗理論所能顧及到的。此外，省略不答的試題和未答完的試題有所不同，前者是受能力影響所致，後者是受施測速度影響所致。本假設僅能適用於前者，它和前個假設一樣，都隱含在單向度假設裡，故殊少被提及。

雖然試題反應模式歸類方式不盡相同，到目前為止，大多數已發展出來並且已在使用中的試題反應模式，還是以適用於二元化計分的性向或成就測驗資料為主。在此介紹試題反應理論中最常用的基本模式及其具有的特性，常用的試題反應模式，有下列三種（參見余民寧，民 81），每一種模式都依其採用的試題參數的數目多寡來命名，都僅適用於二元化的作答反應資料（即有正確作答反應者登錄為 1 ，錯誤作答反應者為 0 的資料）：

一、單參數對數模式（one-parameter logistic model）

這個模式的數學公式如右所示：

( )

⁽ ₍ ⁾ ₎ ¹ ⁽ ⁾ ¹

二、雙參數對數模式（two-parameter logistic model）

這個模式的數學公式如右所示：

( )

⁽ ₍ ⁾ ₎ ¹ ⁽ ⁾ ¹ Birnbaum（1968）修改自 Lord（1952）的原始雙參數常態肩形模式（normal

態肩形模式，而成為主要的試題反應模式。

三、三參數對數模式（three-parameter logistic model）

這個模式的數學公式如右所示：

( ) (

)

⁽ ₍ ⁾ ₎

i i

a b

i i i a b

P c c e

e

θ = + − ⋅ ^{⋅ −}_{⋅ −}θ

+ ，

1, 2,3, ,

i

= K

n

，其中各符號的定義與上面相同，唯又多出一個猜測度

c

_i 參數。這個參數提供試題特徵曲線一個大於零的下限，它代表著能力很低的受試者答對某試題的機率。三參數對數模式是由雙參數對數模式延伸演變而來，它多增加一個猜測度參數，即是把低能力受試者的猜題現象也考慮在模式裡。通常 c 參數的值比受試者在完全隨機猜測下猜答的機率值稍小。

在文檔中廣義隱藏式馬可夫模型應用於不完全資料之二元計分IRT混合模式 (頁 12-18)

試題反應理論的探討

第二章 文獻探討

第二節 試題反應理論的探討

U

P U (

)

P

P U (

)

Q

P U (

)

P

P U U U (

U

)

P U (

) (

P U

) (

P U

)

P U (

)

( )

P U

∏

( )

( )

( ) (

)

P c c e

e

i

n

c

第二章文獻探討

第二節試題反應理論的探討

_U