測驗理論

第二章文獻探討

2.4 測驗理論

則我們可以獲得許多有關該受試者的實得分數。這些實得分數的平均數（又稱為期望值（expected value）），即代表該受試者能力的不偏估計值（unbiased estimate)，稱之為「真實分數」。

「誤差分數」(error score）即為單獨一次測量所得的實得分數，總會與真實分數間產生一段差距，這段差距即稱作「隨機誤差分數」（random error score），或簡稱為「誤差」（error）；誤差分數深受測量工具之精確度的影響很大，它代表某次測量結果「可變」的部份。

若以數學公式來表示，上述兩種分數與實得分數間的關係可以表示如下：

χ = t ＋ e

其中，χ 代表實得分數， t 代表真實分數， e 代表誤差分數。

當代測驗理論是為改進古典測驗理論的缺失而來，古典測驗理論先天的缺失如下 (Guion & Ironson，1983; Wright，1977)：

古典測驗理論所採用的指標，諸如：難度(difficulty)、鑑別度(discrimination)、和信度(reliability)等，都是一種樣本依賴(sample dependent)的指標；也就是說，這些指標的獲得會因接受測驗的受試者樣本的不同而不同，因此，同一份試卷很難獲得一致的難度、鑑別度、或信度。

1. 古典測驗理論以一個相同的測量標準誤(standard error of measurement)，作為每位受試者的測量誤差指標，這種作法並沒有考慮受試者能力的個別差異，對高、低能力兩極端組的受試者而言，這種指標極為不合理且不準確，致使理論假設的適當性受到懷疑。

2. 古典測驗理論對於非複本(nonparallel)但功能相同的測驗所測得的分數間，無法提供有意義的比較，有意義的比較僅侷限於相同測驗的前後測分數或複本測驗分數之間。

3. 古典測驗理論對信度的假設，是建立在複本(parallel forms)測量的概念假設上，但是這種假設往往不存在於實際測驗情境裡。因為不可能要求每位受試者接受同一份測驗無數次，而仍然假設每次測量間都彼此獨立不相關，況且，每一種測驗並不一定同時都有製作複本。

4. 古典測驗理論忽視受試者的試題反應組型(item response pattern)，認為原始得分相同的受試者，其能力必定一樣；其實不然，即使原始得分相同的受試者，

其反應組型亦不見得會完全一致，因此，其能力估計值應該會有所不同。

為了克服古典測驗理論的缺失，當代測驗理論具有下列幾項特點，這些特點正是古典測驗理論所無法具備的(Hambleton, 1989; Hambleton & Cook, 1977; Hambleton &

Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Lord, 1980)：

1. 當代測驗理論所採用的試題參數(item parameters)（如：難度、鑑別度、猜測度等），是一種不受樣本影響(sample-free)的指標；也就是說，這些參數的獲得，

不會因為所選出接受測驗的受試者樣本的不同而不同。

2. 當代測驗理論能夠針對每位受試者，提供個別差異的測量誤差指標，而非單一相同的測量標準誤，因此能夠精確推估受試者的能力估計值。

3. 當代測驗理論可經由適用的同質性試題組成的分測驗，測量估計出受試者個人的能力，不受測驗的影響(test-free)，並且對於不同受試者間的分數，亦可進行有意義的比較。

4. 當代測驗理論提出以試題訊息量 (item information) 及試卷訊息量 (test information)的概念，來作為評定某個試題或整份試卷的測量準確性，倒有取代古典測驗理論的「信度」，作為評定試卷內部一致性指標之勢。

5. 當代測驗理論同時考慮受試者的反應組型與試題參數等特性，因此在估計個人能力時，除了能夠提供一個較精確的估計值外，對於原始得分相同的受試者，

也往往給予不同的能力估計值。

6. 當代測驗理論所採用的適合度考驗值(statistic of goodness-of-fit)，可以提供考驗模式與資料間之適合度、受試者的反應是否為非尋常(unusual)等參考指標。

當代測驗理論主要是以試題反應理論(IRT)為理論架構，根據余民寧(1993)發表之有關試題反應理論的說明，IRT 的特色具有樣本獨立、測驗試題獨立、能精確估計到每一受試者的能力估計值、以試題資訊（item information）和測驗試題資訊（test information）的概念來評定某個試題或測驗的測量準確性、同時考慮受試者的反應模式及試題參數等特性、適合度檢驗等等。本研究根據上述論述整理了古典測驗理論與當代測驗理論兩大學派之差異性比較，如表8 所示。

表8 測驗理論兩大學派之比較

特徵項目古典測驗理論當代測驗理論

主要架構以真實分數模式為骨幹以試題反應理論為架構

樣本(獨立/依賴) 樣本依賴樣本獨立

每位受試者的測量誤

差指標採單一相同的測量標準誤提供個別差異的測量誤差指標

同質性試題組成

有意義的比較侷限於相同測驗的前後測分數或複本測驗分數之間。

可作分次測驗，測量估計出受試者個人的能力，不受測驗的影響(test-free)

測驗理論的「信度」

建立在複本(parallel forms) 測量的概念假設上，是行不通。

提出以試題訊息量(item information)及試卷訊息量(test information)的概念，測量準確性。

面對受試者的試題反應模式(item response pattern)

採忽略的態度同時考慮受試者的反應

模式與試題參數等特性。

適合度考驗值 (statistic of goodness-of-fit)

未提供提供考驗模式與資料間

之適合度等指標。

資料來源:余民寧(1993)。IRT 學理與應用-試題反應理論之有關測驗理論

本研究以當代測驗理論為主，希望能夠提供學生個別差異的測量誤差指標，不以學生的真實分數為考量依據，允許同質性的試題可以分次測驗，測量估計出受試者個人的能力，不受測驗的影響(test-free)，同時考慮受試者的反應模式與試題參數等特

性，來觀測學生的知識概念的精熟模式，以進行分析及建議。

在文檔中摘要 (頁 38-42)

第二章 文獻探討

2.4 測驗理論

第二章文獻探討