• 沒有找到結果。

測驗理論

在文檔中 摘要 (頁 38-42)

第二章 文獻探討

2.4 測驗理論

則我們可以獲得許多有關該受試者的實得分數。這些實得分數的平均數(又稱為期望 值(expected value)),即代表該受試者能力的不偏估計值(unbiased estimate),稱 之為「真實分數」。

「誤差分數」(error score)即為單獨一次測量所得的實得分數,總會與真實分數 間產生一段差距,這段差距即稱作「隨機誤差分數」(random error score),或簡稱 為「誤差」(error);誤差分數深受測量工具之精確度的影響很大,它代表某次測量 結果「可變」的部份。

若以數學公式來表示,上述兩種分數與實得分數間的關係可以表示如下:

χ = t + e

其中,χ 代表實得分數, t 代表真實分數, e 代表誤差分數。

當代測驗理論是為改進古典測驗理論的缺失而來,古典測驗理論先天的缺失如下 (Guion & Ironson,1983; Wright,1977):

古典測驗理論所採用的指標,諸如:難度(difficulty)、鑑別度(discrimination)、和 信度(reliability)等,都是一種樣本依賴(sample dependent)的指標;也就是說,這些指 標的獲得會因接受測驗的受試者樣本的不同而不同,因此,同一份試卷很難獲得一致 的難度、鑑別度、或信度。

1. 古典測驗理論以一個相同的測量標準誤(standard error of measurement),作為每 位受試者的測量誤差指標,這種作法並沒有考慮受試者能力的個別差異,對 高、低能力兩極端組的受試者而言,這種指標極為不合理且不準確,致使理論 假設的適當性受到懷疑。

2. 古典測驗理論對於非複本(nonparallel)但功能相同的測驗所測得的分數間,無 法提供有意義的比較,有意義的比較僅侷限於相同測驗的前後測分數或複本測 驗分數之間。

3. 古典測驗理論對信度的假設,是建立在複本(parallel forms)測量的概念假設 上,但是這種假設往往不存在於實際測驗情境裡。因為不可能要求每位受試者 接受同一份測驗無數次,而仍然假設每次測量間都彼此獨立不相關,況且,每 一種測驗並不一定同時都有製作複本。

4. 古典測驗理論忽視受試者的試題反應組型(item response pattern),認為原始得 分相同的受試者,其能力必定一樣;其實不然,即使原始得分相同的受試者,

其反應組型亦不見得會完全一致,因此,其能力估計值應該會有所不同。

為了克服古典測驗理論的缺失,當代測驗理論具有下列幾項特點,這些特點正是 古典測驗理論所無法具備的(Hambleton, 1989; Hambleton & Cook, 1977; Hambleton &

Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Lord, 1980):

1. 當代測驗理論所採用的試題參數(item parameters)(如:難度、鑑別度、猜測度 等),是一種不受樣本影響(sample-free)的指標;也就是說,這些參數的獲得,

不會因為所選出接受測驗的受試者樣本的不同而不同。

2. 當代測驗理論能夠針對每位受試者,提供個別差異的測量誤差指標,而非單一 相同的測量標準誤,因此能夠精確推估受試者的能力估計值。

3. 當代測驗理論可經由適用的同質性試題組成的分測驗,測量估計出受試者個人 的能力,不受測驗的影響(test-free),並且對於不同受試者間的分數,亦可 進行有意義的比較。

4. 當 代 測 驗 理 論 提 出 以 試 題 訊 息 量 (item information) 及 試 卷 訊 息 量 (test information)的概念,來作為評定某個試題或整份試卷的測量準確性,倒有取代 古典測驗理論的「信度」,作為評定試卷內部一致性指標之勢。

5. 當代測驗理論同時考慮受試者的反應組型與試題參數等特性,因此在估計個人 能力時,除了能夠提供一個較精確的估計值外,對於原始得分相同的受試者,

也往往給予不同的能力估計值。

6. 當代測驗理論所採用的適合度考驗值(statistic of goodness-of-fit),可以提供考 驗模式與資料間之適合度、受試者的反應是否為非尋常(unusual)等參考指標。

當代測驗理論主要是以試題反應理論(IRT)為理論架構,根據余民寧(1993)發表之 有關試題反應理論的說明,IRT 的特色具有樣本獨立、測驗試題獨立、能精確估計到 每一受試者的能力估計值、以試題資訊(item information)和測驗試題資訊(test information)的概念來評定某個試題或測驗的測量準確性、同時考慮受試者的反應模 式及試題參數等特性、適合度檢驗等等。本研究根據上述論述整理了古典測驗理論與 當代測驗理論兩大學派之差異性比較,如表8 所示。

8 測驗理論兩大學派之比較

特徵項目 古典測驗理論 當代測驗理論

主要架構 以真實分數模式為骨幹 以試題反應理論為架構

樣本(獨立/依賴) 樣本依賴 樣本獨立

每位受試者的測量誤

差指標 採單一相同的測量標準誤 提供個別差異的測量誤 差指標

同質性試題組成

有意義的比較侷限於相同測 驗的前後測分數或複本測驗 分數之間。

可作分次測驗,測量估計 出受試者個人的能力,不 受測驗的影響(test-free)

測驗理論的「信度」

建立在複本(parallel forms) 測量的概念假設上,是行不 通。

提出以試題訊息量(item information)及試卷訊息 量(test information)的概 念,測量準確性。

面對受試者的試題反 應模式(item response pattern)

採忽略的態度 同時考慮受試者的反應

模式與試題參數等特性。

適合度考驗值 (statistic of goodness-of-fit)

未提供 提供考驗模式與資料間

之適合度等指標。

資料來源:余民寧(1993)。IRT 學理與應用-試題反應理論之有關測驗理論

本研究以當代測驗理論為主,希望能夠提供學生個別差異的測量誤差指標,不以 學生的真實分數為考量依據,允許同質性的試題可以分次測驗,測量估計出受試者個 人的能力,不受測驗的影響(test-free),同時考慮受試者的反應模式與試題參數等特

性,來觀測學生的知識概念的精熟模式,以進行分析及建議。

在文檔中 摘要 (頁 38-42)