試題反應理論

第三章研究架構及方法

3.5 研究假設

3.6.4 試題反應理論

心理計量學是一門研究心理測驗與評斷的科學，是一門包括量化心理學 quantitative psychology）、個別差異（individual differences）、和心理測驗理論

（mental test theories）等研究範圍的學問。測驗理論（test theory）是一種解釋測驗資料間實證關係(empirical relationships）的有系統的理論學說。目前並行流通於測驗學界中，測驗理論主要劃分成二大學派：一為古典測驗理論（classical test theory），主要是以真實分數模式(true score model）為骨幹；另一為當代測驗理論（modern test theory），主要是以試題反應理論（item response theory）為架構。

一、兩派測驗理論之比較

古典測驗理論的內涵，主要是以真實分數模式（亦即，觀察分數等於真實分數與誤差分數之和，數學公式為X=T+E）為理論架構，依據弱勢假設（weak assumption）而來，其理論模式的發展已為時甚久，且發展得相當規模，所採用的計算公式簡單明瞭、淺顯易懂，適用於大多數的教育與心理測驗資料，以及社會科學資料的分析，為目前測驗學界使用與流通最廣的理論依據。

然而，除上述各項優點外，古典測驗理論卻有下列諸項先天的缺失：

1. 古典測驗理論所採用的指標，諸如：難度（ difficulty ）、鑑別度

（discrimination)、和信度（reliability）等，都是一種樣本依賴的指標；也就是說，這些指標的獲得會因接受測驗的受試者樣本的不同而不同，因此，

同一份試卷很難獲得一致的難度、鑑別度、或信度。

2. 古典測驗理論以一個相同的測量標準誤（standard error of measurement），

作為每位受試者的測量誤差指標，這種作法並沒有考慮受試者能力的個別差異，對高、低能力兩極端組的受試者而言，這種指標極為不合理且不準確，致使理論假設的適當性受到懷疑。

3. 古典測驗理論對於非複本（nonparallel）但功能相同的測驗所測得的分數間，無法提供有意義的比較，有意義的比較僅侷限於相同測驗的前後測分數或複本測驗分數之間。

4. 古典測驗理論對信度的假設，是建立在複本（parallel forms）測量的概念假設上，但是這種假設往往不存在於實際測驗情境裡。道理很簡單，因為不可能要求每位受試者接受同一份測驗無數次，而仍然假設每次測量間都彼此獨立不相關，況且，每一種測驗並不一定同時都有製作複本，因此複本測量的理論假設是行不通的，從方法學邏輯觀點而言，它的假設也是不合理的、矛盾的。

古典測驗理論忽視受試者的試題反應組型（item response pattern），認為原始得分相同的受試者，其能力必定一樣；其實不然，即使原始得分相同的受試者，

其反應組型亦不見得會完全一致，因此，其能力估計值應該會有所不同。

為了克服古典測驗理論的缺失，才有當代測驗理論的誕生。當代測驗理論的內涵，主要是以試題反應理論為理論架構，依據強勢假設（strong assumptions）

而來，其理論的發展為時稍晚，理論模式也不斷的在發展當中，所採用的計算公式複雜深奧、艱澀難懂，為一立論與假設均合理與嚴謹的學說，所適用的測驗資料種類雖屬有限，但深受測驗學者的青睞，已有逐漸凌駕古典測驗理論之上，甚至進而取而代之之勢。當代測驗理論是為改進古典測驗理論的缺失而來，它具有下列幾項特點，這些特點正是古典測驗理論所無法具備的：

1. 當代測驗理論所採用的試題參數（item parameters）（如：難度、鑑別度、

猜測度等），是一種不受樣本影響（sample-free）的指標；也就是說，這些參數的獲得，不會因為所選出接受測驗的受試者樣本的不同而不同。

2. 當代測驗理論能夠針對每位受試者，提供個別差異的測量誤差指標，而非單一相同的測量標準誤，因此能夠精確推估受試者的能力估計值。

3. 當代測驗理論可經由適用的同質性試題組成的分測驗，測量估計出受試者個人的能力，不受測驗的影響（test-free），並且對於不同受試者間的分數，亦可進行有意義的比較。

4. 當代測驗理論提出以試題訊息量（item information）及試卷訊息量（test information）的概念，來作為評定某個試題或整份試卷的測量準確性，倒有取代古典測驗理論的「信度」，作為評定試卷內部一致性指標之勢。

5. 當代測驗理論同時考慮受試者的反應組型與試題參數等特性，因此在估計個人能力時，除了能夠提供一個較精確的估計值外，對於原始得分相同的受試者，也往往給予不同的能力估計值。

6. 當代測驗理論所採用的適合度考驗值（statistic of goodness-of-fit），可以

提供考驗模式與資料間之適合度、受試者的反應是否為非尋常（unusual）

等參考指標。

由上述兩派測驗理論的比較可知，古典測驗理論雖然不夠嚴謹，但理論淺顯易懂，便於在實際測驗情境（尤其是小規模資料）實施；當代測驗理論雖然嚴謹，

但理論艱深難懂，僅適用於大樣本測驗資料的分析。所以，這兩派測驗理論各有所長，在應用上也各有其限制。

二、測驗理論的發展趨勢

自 Lord (1980)發表第一本以「試題反應理論」為名的專書後，當代測驗理論正式以試題反應理論為其中心架構；在此之前，試題反應理論有個別稱：「潛在特質理論」（latent trait theory），由於潛在特質理論一詞還包括「因素分析」

（factor analysis)、「多元度量法」（multidimensional scaling）、與「潛在結構分析」（latent structure analysis）等，涵蓋面甚廣，無法精確反應出受試者在試題上的反應狀況，因此，自 Lord 發表專書後，試題反應理論於是正式正名，且宣告誕生。所以自1980 年後，測驗學者逐漸以試題反應理論為當代測驗理論的代表。試題反應理論雖然自1980 年才正式正名成立，然而在 30 和 40 年代，試題反應理論便已有初步的理論架構。其中，Tucker (1946)便是第一位使用「試題特徵曲線」（item characteristic curve，簡稱 ICC）一詞的心理計量學家，這一名詞也逐漸成為試題反應理論的中心概念。對試題反應理論有貢獻的學者非常的多，

茲簡單歸納部分學者的貢獻表示如表3.2：

表3.2 對試題反應理論的發展有實際貢獻的代表性作者與其著作

作者代表作與其貢獻

Tucker(1946) 第一位提出試題特徵曲線概念的人。

Lord(1952) 第一位導出兩個參數常態肩形模式的參數估計公式，並考慮試題反應理論應用性的人。

Rasch(1960) 試題反應理論中Rasch 模式的創始者。

Wright &

Stone(1979) 第一本描述各種Rasch 模式理論及其應用的專書。

Masters(1982) 第一位發表部份知識計分模式，對改進Likert 式評定量表的計分與次序反應資料的計分貢獻不小。

Wright &

Masters(1982)

闡述Rasch 模式的各種模式成員，證明皆與部份計分模式相通，對Likert 式評定量表與次序反應資料的計分方式改進不少。

資料來源：【51】

三、基本概念

試題反應理論建立在兩個基本概念上：(1)考生在某一測驗試題上的表現情

形，可由一組因素來加以預測或解釋，這組因素叫作潛在特質（latent traits）或能力（abilities）；(2)考生的表現情形與這組潛在特質間的關係，可透過一條連續性遞增的函數來加以詮釋，這個函數便叫作試題特徵曲線（item characteristic curve，簡寫為 ICC）。我們把能力不同的考生得分點連接起來所構成的曲線，

便是能力不同的考生在某一測驗試題上的試題特徵曲線，把各試題的試題特徵曲線加總起來，便構成所謂的試卷特徵曲線（test characteristic curve，簡寫為 TCC）。

試題特徵曲線即是一條試題得分對能力因素所作的迴歸線，這條迴歸線在基本上是非直線的，但直線的試題特徵曲線也是有可能的，端視所選用的試題反應模式（item response model）而定。。因此，試題特徵曲線即是一條試題得分對能力因素所作的迴歸線，這條迴歸線在基本上是非直線的，但直線的試題特徵曲線也是有可能的，端視所選用的試題反應模式（item response model）而定。

試題特徵曲線所表示的涵義，即是某種潛在特質的程度與其在某一試題上正確反應的機率，二者之間的關係；這種潛在特質的程度愈高（或愈強），其在某一試題上的正確反應機率便愈大。在試題反應理論中，每一種試題反應模式就有其相對應的一條試題特徵曲線，此一曲線通常包含一個或多個參數來描述試題的特性，以及一個或多個參數來描述考生的潛在特質；因此，所選用的試題反應模式所具有的參數個數及其數值的不同，所畫出的試題特徵曲線形狀便不同。

四、基本假設

任何一條試題特徵曲線所代表的涵義是：答對某一試題的機率，是由考生的能力和試題的特性所共同決定。因此，試題反應理論具有下列幾項基本假設，唯有在這些假設都成立的前提下，試題反應模式才能被用來分析所有的測驗資料。

1. 單向度（unidimensionality）：試題反應理論中的各種模式有個最常用的共同假設，那就是測驗中的各個試題都測量到同一種共同的能力或潛在特質；這種單一能力或潛在特質（因素）必須包含在測驗試題裡的假設，便是單向度的假設。適用於含有單一主要因素測驗資料的試題反應模式，便稱作單向度模式。適用於含有多種主要因素的試題反應模式，便叫作多向度（multidimensional）模式。

2. 局部獨立性（local independence）：它的涵義是說，當影響測驗表現的能力被固定不變時，考生在任何一對試題上的反應，在統計學上而言是獨立的；換句話說，在考慮考生的能力因素後，考生在不同試題上的反應間沒有任何關係存在。簡單地說，這意謂著涵蓋在試題反應模式裡的能力因素，

才是唯一影響考生在測驗試題上做反應的因素；這組能力因素代表整個潛

在文檔中影響小客車駕駛人駕駛技能與行為之因素研究 (頁 41-46)

第三章 研究架構及方法

3.5 研究假設

3.6.4 試題反應理論

第三章研究架構及方法