• 沒有找到結果。

第三章 研究架構及方法

3.5 研究假設

3.6.4 試題反應理論

心理計量學是一門研究心理測驗與評斷的科學,是一門包括量化心理學 quantitative psychology)、個別差異(individual differences)、和心理測驗理論

(mental test theories)等研究範圍的學問。測驗理論(test theory)是一種解釋測 驗資料間實證關係(empirical relationships)的有系統的理論學說。目前並行流通 於測驗學界中,測驗理論主要劃分成二大學派:一為古典測驗理論(classical test theory),主要是以真實分數模式(true score model)為骨幹;另一為當代測驗理 論(modern test theory),主要是以試題反應理論(item response theory)為架構。

一、兩派測驗理論之比較

古典測驗理論的內涵,主要是以真實分數模式(亦即,觀察分數等於真實分 數與誤差分數之和,數學公式為X=T+E)為理論架構,依據弱勢假設(weak assumption)而來,其理論模式的發展已為時甚久,且發展得相當規模,所採用 的計算公式簡單明瞭、淺顯易懂,適用於大多數的教育與心理測驗資料,以及社 會科學資料的分析,為目前測驗學界使用與流通最廣的理論依據。

然而,除上述各項優點外,古典測驗理論卻有下列諸項先天的缺失:

1. 古 典 測 驗 理 論 所 採 用 的 指 標 , 諸 如 : 難 度 ( difficulty ) 、 鑑 別 度

(discrimination)、和信度(reliability)等,都是一種樣本依賴的指標;也 就是說,這些指標的獲得會因接受測驗的受試者樣本的不同而不同,因此,

同一份試卷很難獲得一致的難度、鑑別度、或信度。

2. 古典測驗理論以一個相同的測量標準誤(standard error of measurement),

作為每位受試者的測量誤差指標,這種作法並沒有考慮受試者能力的個別 差異,對高、低能力兩極端組的受試者而言,這種指標極為不合理且不準 確,致使理論假設的適當性受到懷疑。

3. 古典測驗理論對於非複本(nonparallel)但功能相同的測驗所測得的分數 間,無法提供有意義的比較,有意義的比較僅侷限於相同測驗的前後測分 數或複本測驗分數之間。

4. 古典測驗理論對信度的假設,是建立在複本(parallel forms)測量的概念 假設上,但是這種假設往往不存在於實際測驗情境裡。道理很簡單,因為 不可能要求每位受試者接受同一份測驗無數次,而仍然假設每次測量間都 彼此獨立不相關,況且,每一種測驗並不一定同時都有製作複本,因此複 本測量的理論假設是行不通的,從方法學邏輯觀點而言,它的假設也是不 合理的、矛盾的。

古典測驗理論忽視受試者的試題反應組型(item response pattern),認為原始 得分相同的受試者,其能力必定一樣;其實不然,即使原始得分相同的受試者,

其反應組型亦不見得會完全一致,因此,其能力估計值應該會有所不同。

為了克服古典測驗理論的缺失,才有當代測驗理論的誕生。當代測驗理論的 內涵,主要是以試題反應理論為理論架構,依據強勢假設(strong assumptions)

而來,其理論的發展為時稍晚,理論模式也不斷的在發展當中,所採用的計算公 式複雜深奧、艱澀難懂,為一立論與假設均合理與嚴謹的學說,所適用的測驗資 料種類雖屬有限,但深受測驗學者的青睞,已有逐漸凌駕古典測驗理論之上,甚 至進而取而代之之勢。當代測驗理論是為改進古典測驗理論的缺失而來,它具有 下列幾項特點,這些特點正是古典測驗理論所無法具備的:

1. 當代測驗理論所採用的試題參數(item parameters)(如:難度、鑑別度、

猜測度等),是一種不受樣本影響(sample-free)的指標;也就是說,這 些參數的獲得,不會因為所選出接受測驗的受試者樣本的不同而不同。

2. 當代測驗理論能夠針對每位受試者,提供個別差異的測量誤差指標,而非 單一相同的測量標準誤,因此能夠精確推估受試者的能力估計值。

3. 當代測驗理論可經由適用的同質性試題組成的分測驗,測量估計出受試者 個人的能力,不受測驗的影響(test-free),並且對於不同受試者間的分 數,亦可進行有意義的比較。

4. 當代測驗理論提出以試題訊息量(item information)及試卷訊息量(test information)的概念,來作為評定某個試題或整份試卷的測量準確性,倒 有取代古典測驗理論的「信度」,作為評定試卷內部一致性指標之勢。

5. 當代測驗理論同時考慮受試者的反應組型與試題參數等特性,因此在估計 個人能力時,除了能夠提供一個較精確的估計值外,對於原始得分相同的 受試者,也往往給予不同的能力估計值。

6. 當代測驗理論所採用的適合度考驗值(statistic of goodness-of-fit),可以

提供考驗模式與資料間之適合度、受試者的反應是否為非尋常(unusual)

等參考指標。

由上述兩派測驗理論的比較可知,古典測驗理論雖然不夠嚴謹,但理論淺顯 易懂,便於在實際測驗情境(尤其是小規模資料)實施;當代測驗理論雖然嚴謹,

但理論艱深難懂,僅適用於大樣本測驗資料的分析。所以,這兩派測驗理論各有 所長,在應用上也各有其限制。

二、測驗理論的發展趨勢

自 Lord (1980)發表第一本以「試題反應理論」為名的專書後,當代測驗理 論正式以試題反應理論為其中心架構;在此之前,試題反應理論有個別稱:「潛 在特質理論」(latent trait theory),由於潛在特質理論一詞還包括「因素分析」

(factor analysis)、「多元度量法」(multidimensional scaling)、與「潛在結構 分析」(latent structure analysis)等,涵蓋面甚廣,無法精確反應出受試者在試 題上的反應狀況,因此,自 Lord 發表專書後,試題反應理論於是正式正名,且 宣告誕生。所以自1980 年後,測驗學者逐漸以試題反應理論為當代測驗理論的 代表。試題反應理論雖然自1980 年才正式正名成立,然而在 30 和 40 年代,試 題反應理論便已有初步的理論架構。其中,Tucker (1946)便是第一位使用「試題 特徵曲線」(item characteristic curve,簡稱 ICC)一詞的心理計量學家,這一名 詞也逐漸成為試題反應理論的中心概念。對試題反應理論有貢獻的學者非常的多,

茲簡單歸納部分學者的貢獻表示如表3.2:

表3.2 對試題反應理論的發展有實際貢獻的代表性作者與其著作

作者 代表作與其貢獻

Tucker(1946) 第一位提出試題特徵曲線概念的人。

Lord(1952) 第一位導出兩個參數常態肩形模式的參數估計公式,並考 慮試題反應理論應用性的人。

Rasch(1960) 試題反應理論中Rasch 模式的創始者。

Wright &

Stone(1979) 第一本描述各種Rasch 模式理論及其應用的專書。

Masters(1982) 第一位發表部份知識計分模式,對改進Likert 式評定量表 的計分與次序反應資料的計分貢獻不小。

Wright &

Masters(1982)

闡述Rasch 模式的各種模式成員,證明皆與部份計分模式 相通,對Likert 式評定量表與次序反應資料的計分方式改 進不少。

資料來源:【51】

三、基本概念

試題反應理論建立在兩個基本概念上:(1)考生在某一測驗試題上的表現情

形,可由一組因素來加以預測或解釋,這組因素叫作潛在特質(latent traits)或 能力(abilities);(2)考生的表現情形與這組潛在特質間的關係,可透過一條連 續性遞增的函數來加以詮釋,這個函數便叫作試題特徵曲線(item characteristic curve,簡寫為 ICC)。我們把能力不同的考生得分點連接起來所構成的曲線,

便是能力不同的考生在某一測驗試題上的試題特徵曲線,把各試題的試題特徵曲 線加總起來,便構成所謂的試卷特徵曲線(test characteristic curve,簡寫為 TCC)。

試題特徵曲線即是一條試題得分對能力因素所作的迴歸線,這條迴歸線在基 本上是非直線的,但直線的試題特徵曲線也是有可能的,端視所選用的試題反應 模式(item response model)而定。。因此,試題特徵曲線即是一條試題得分對 能力因素所作的迴歸線,這條迴歸線在基本上是非直線的,但直線的試題特徵曲 線也是有可能的,端視所選用的試題反應模式(item response model)而定。

試題特徵曲線所表示的涵義,即是某種潛在特質的程度與其在某一試題上正 確反應的機率,二者之間的關係;這種潛在特質的程度愈高(或愈強),其在某 一試題上的正確反應機率便愈大。在試題反應理論中,每一種試題反應模式就有 其相對應的一條試題特徵曲線,此一曲線通常包含一個或多個參數來描述試題的 特性,以及一個或多個參數來描述考生的潛在特質;因此,所選用的試題反應模 式所具有的參數個數及其數值的不同,所畫出的試題特徵曲線形狀便不同。

四、基本假設

任何一條試題特徵曲線所代表的涵義是:答對某一試題的機率,是由考生的 能力和試題的特性所共同決定。因此,試題反應理論具有下列幾項基本假設,唯 有在這些假設都成立的前提下,試題反應模式才能被用來分析所有的測驗資料。

1. 單向度(unidimensionality):試題反應理論中的各種模式有個最常用的 共同假設,那就是測驗中的各個試題都測量到同一種共同的能力或潛在特 質;這種單一能力或潛在特質(因素)必須包含在測驗試題裡的假設,便 是單向度的假設。適用於含有單一主要因素測驗資料的試題反應模式,便 稱作單向度模式。適用於含有多種主要因素的試題反應模式,便叫作多向 度(multidimensional)模式。

2. 局部獨立性(local independence):它的涵義是說,當影響測驗表現的能 力被固定不變時,考生在任何一對試題上的反應,在統計學上而言是獨立 的;換句話說,在考慮考生的能力因素後,考生在不同試題上的反應間沒 有任何關係存在。簡單地說,這意謂著涵蓋在試題反應模式裡的能力因素,

才是唯一影響考生在測驗試題上做反應的因素;這組能力因素代表整個潛

才是唯一影響考生在測驗試題上做反應的因素;這組能力因素代表整個潛

相關文件