古典測驗理論與試題反應理論

第二章文獻探討

第四節古典測驗理論與試題反應理論

基於對評量的逐漸重視，測驗理論的發展及研究更顯重要。因為一個良好的測驗不僅提供教師作為改進教學的診斷，更提供學生於學習上的困難自覺及動機激發（傅怡銅，2003）。測驗理論(test theory)，全稱叫「心理測驗理論」，是一種解釋測驗資料間實證關係(empirical relationships)之有系統的理論學說。測驗理論學者通常把它劃分成二大學派：一為古典測驗理論(classical test theory)，主要是以真實分數模式(true score model)為骨幹；另一為當代測驗理論(modern test theory)，主要是以試題反應理論 ( Item response theory)為架構。

古典測驗理論一直是各種心理測驗編製與解釋之主要依據，但是由於此種理論沒有較強的假定，因此它的功能自然也受到相當程度的限制（黃國清，2004）。

它對很多測驗問題，如測驗設計（test design）、測驗分數等化（test score equating）

和試題偏誤（item bias）等問題，均無法提供滿意的解答。基於這些因素，心理計量學者乃發展出更適宜的心理測量理論，此即為試題反應理論（item response theory）。

本節將就古典測驗理論（Classical test theory,CTT）及試題反應理論（Item response theory,IRT）兩大部份分別探討，再將兩種理論作一比較。最後經由上述文獻的探討，針對本研究提出研究的理論基礎。

壹、古典測驗理論(classical test theory)

古典測驗理論乃依據弱勢假設(weak assumption)而來，故古典測驗理論又稱為「古典真分數理論」（classical true-score theory）或稱為「弱真分數理論」（weak true-score theory）。此模式的發展為時甚久，且發展得相當有規模，所採用的計算公式簡單明瞭淺顯易懂，適用於大多數的教育與心理測驗資料以及社會科學資料的分析，為目前測驗學界使用與流通最廣的理論依據（余民寧，1993）。

一、古典測驗理論的模式

古典測驗理論的內涵，主要是真實分數模式，是一種直線關係的數學模式，

亦即觀察分數等於真實分數與誤差分數之和，數學公式為X = T + E （X 表實得

分數，T 表真實分數， E 表誤差分數)。

所謂的真實分數指的是研究者真正想測量的特質，誤差分數指的是非研究者欲測量的特質，且極力避免的部分。根據古典測驗理論的假設，單一的測量並無法真正的反應出真實的潛在特質，必須透過多次的測量，並加以平均後才能得到特質的不偏估計，也就是真實分數的部分，而且真實分數是不會改變的。而單一測量的分數相對於平均後的真實分數，都會有一個差距存在，這個部分即為誤差分數。此誤差部份可以是一致的、穩定存在的，也可以是可變的、隨機出現的。

因此可將誤差的來源可分為「系統性誤差」以及「非系統性誤差」或「隨機誤差」

(Crocker & Algina , 1986)。

「系統性誤差」指的是有些無關乎測量構念的因素，穩定的影響個人在測驗分數上表現。例如，實施速度測驗，未遵守指導語的時間限制，多給受試者 5 分鐘的時間作答，因而產生一致性的高估，在分數的表現上都產生一致及穩定的影響效果。

「隨機誤差」的影響則是因為機率所造成的，這些因素是在隨機，沒有規則和不可預測的方式下，隨著情境不同而影響測驗分數，可以是正向或負向的。隨機誤差的來源包括猜測、分心、施測程序的錯誤、計分誤差以及受試者的身心狀況（如動機、注意與情緒）等。例如誤解題意、抄錯數學題目或是暫時的遺忘答案等。如果受試者重複多次相同測驗，則影響第一次測驗的隨機因素並不會穩定的影響後面的測驗結果，但是後面的測驗卻可能會受其他隨機因素的影響。

在測量分數的考慮上，系統性誤差與隨機誤差都應該被考量。雖然系統性誤差並不會影響測量結果的一致性，但是卻可能使測量分數不準確，降低實際上的效用；而隨機誤差則是除了降低測量結果的一致性，也降低測量結果的效用。因此，在測驗的使用上，我們必須考慮測驗本身的限制與可能影響測驗結果的因素為何，這方面必須透過實證研究來加以展示，而通常是藉由理論模式來加以描述隨機誤差的影響程度。

二、古典測驗理論的假設

典真分數理論是描述測量誤差如何影響觀察分數的一個簡單且很有用的模

式。此模式提出幾個基本假定，如果這些假定是合理的，則從這個模式所導出的定理也是合理的。然而，如果這些基本假定是不合理的，則使用此種模式將會導致錯誤的結論（黃國清，2004）。Allen ＆Yen（1979）認為古典真分數理論有下列七個假定，第六及第七兩個假定是平行測驗的定義。

（一）X = T+E (觀察分數為真實分數與誤差分數的總和)

在古典真分數理論中，假定真分數與誤差分數具有可相加的關係（而不是其他的關係，如乘法的關係）。在統計上常有可加性的假定，如變異數分析及因素分析。

（二）E(X)=T (觀察分數的期望值即為真實分數)

此假定是T 的定義：T 是 X 分數的理論分配之平均數，而 X 分數的理論分配是重複對同一受試者實施同一測驗所得測驗分數之分配。

（三）ρTE=0 (同次測量中真實分數與誤差之間為零相關)

此假設對於進一步的推演至為重要。其意為「誤差分數與真分數是沒有關聯的」。也就是說真分數較高的受試者，其測量誤差沒有比真分數較低的受試者高或低之傾向。

（四）ρE1,E2=0 (不同測量之間的誤差為零相關)

此假設是在說明「兩個不同測驗的誤差分數是無關的」。那就是說，如果一個人在測驗 1 的誤差分數是正的，那麼他在測驗 2 的誤差並沒有更可能是正或負的傾向。如果測驗分數受疲勞、練習效果、作答時的心情或環境因素之影響很大時，則此假定就不合理。

（五）ρT1,E2=0 (不同測量的誤差分數與真實分數間呈零相關)

此假設是在說明某一測驗的誤差分數（E1）與另一測驗的真分數（T1）無關。如果測驗 1 所測量的特質與測驗 2 的誤差分數有關，那就違反了這個假定，同時也違反了假定（三）。

（六）假設有兩個測驗，滿足上述五個假設，其觀察分數分別為X1= T1+E1、X2= T2+E2。若T1 =T2、σ²_E1 = σ²_E2，則這兩個測驗便稱作「複本測驗」 (parallel tests)。

（七）假設有兩個測驗，其實得分數分別為X1和X2，並且滿足上述五個假設，且對每一群體考生而言，兩測驗的真實分數關係相差一個常數，T1=T2+C12，則這兩個測驗稱作「本質上相等測驗」（essentially τ-equivalent tests）。

根據這七個基本假設，可以推導出其他項結論。古典測驗理論便依據基本的

以0.4 至0.8 之間的難度值範圍作為選擇題挑選之標準。

（二）鑑別力分析的方法

依分析時所依據的標準，可有兩種鑑別力分析：一是內部一致性(internal consistency)分析，一是外在效度(external validity)分析。茲分別說明如下：

1.內部一致性分析(internal consistency)

內部一致性分析旨在瞭解各個試題的功能是否和整個測驗的功能相符一致。

此種分析的一個基本假設是：整個測驗的分數具有某種程度的效度。如果此假設成立，則個別試題的反應和總分間如具有一致性，就表示題目有某種程度的效度

。換言之，若高分組答對的比例顯著大於低分組的比例，則該題的作用和總分的作用一致。基於此，鑑別力的分析方法，採用下列公式：D＝PH^－PL　　

D：鑑別力指數

P^H：高分組答對百分比(全體受試者當中分數最高的27%) P^L：低分組答對百分比(全體受試者當中分數最低的27%)

當測驗分數是常態分配時，以27%分組可以獲得試題鑑別度的最大可靠性。百分比低於27%時，結果的可靠性較低，而百分比太大時會影響題目的鑑別作用。

對教師而言，合理的分組百分比可在25%到33%之間。

鑑別力指數(item discrimination index)通常以小數表示，其值介於±1之間。指數愈高，表示鑑別力愈大；指數愈低，表示鑑別力愈小。如果指數為0，表示題目沒有鑑別作用，此種現象可能是：(1)因為題目太容易或太艱難，所有人均答對或所有人均答錯；(2)因為題目不清楚。

如果低分組答對百分比高於高分組，則鑑別力將是負的，此種試題具有反向作用，應淘汰之。人數太少、題目不清楚或正確答案錯誤，均有可能導致此種情形。

2.外在效度分析(external validity)

外在效度分析的目的在於檢驗題目是否具有預定的某種鑑別作用，其分析的過程與上述內部一致性分析方法，大致相同。唯一不同之處，為外在效度分析系依據外在效標的分數分為高、低兩組。例如，英語成就測驗的編製，可用學校英語

科成績為外在效標而分成高低兩組。內部一致性分析則依預試測驗總分分為高低分組。前者在於使測驗的外在效度變得最大，而後者在於使測驗的內部一致性變得最大。這兩者均為測驗編製所希望的目標，應以何者為分析依據，須視測驗的目的而定。

美國的測驗學者Ebel & Frisbie（1991）亦曾提出一套鑑別度的判斷標準，供試題命題者作為選題的參考，如表2-3。

表2-3 鑑別度評鑑標準表

鑑別度試題評鑑

0.40 以上非常優良

0.30 以上，未滿0.4 優良，但需小幅度修改 0.20 以上，未滿0.3 尚可，但需部分修改

未滿0.2 劣，需要大幅度修改或刪除

除使用上述方法分析鑑別力之外，亦可採用二系列相關(biserial correlation) 和點二系列相關(point-biserial correlation)分析。此種分析方法是依個人在某試題反應的對與錯和個人的測驗總分求相關，而以相關係數表示鑑別力指數。此種鑑別力指數和上述公式的分析結果，具有高度的相關。

貳、試題反應理論 ( Item response theory)

試題反應理論是現代測驗理論重要的基礎，根據其所發展的適性測驗，不僅適用於精熟式適性測驗，且適用於成就測驗與人格測驗，半世紀以來普遍受到重視與運用。其特點是以機率的概念來解釋受試者能力和測驗反應間之關係，亦即觀察其測驗反應結果，再經數學模式的運算，即可估計受試者(examinee)的能力 (ability)或心理特質(latent traits)（黃國清，2004）。

一、試題反應理論的基本概念

試題反應理論(item response theory)乃是建立在兩個基本概念上（余民寧

(一)受試者(examinee)在某一測驗試題上的表現情形，可由一組因素來加以預測或解釋，這組因素叫作潛在特質(latent traits)或能力(abilities)。

在文檔中國小四年級學童中文閱讀理解測驗編製與其相關研究 (頁 45-59)

第二章 文獻探討

第四節 古典測驗理論與試題反應理論

壹、古典測驗理論(classical test theory)

貳、試題反應理論 ( Item response theory)

第二章文獻探討

第四節古典測驗理論與試題反應理論