古典測驗理論

第二章文獻探討

第一節古典測驗理論

古典測驗理論(classical test theory，簡稱 CTT)是最早發展的測驗理論，至今仍是最實用的測驗理論。古典測驗理論的主要目的是估計某個測驗「實得分數的信度」(reliability of the observed score)，也就是估計「實得分數」(observed score) 與「真實分數」(true score)之間的關聯性強度，以真實分數為理論架構，因此又被稱為「真實分數理論」(true score theory)或「古典信度理論」(classical reliability theory)。

壹、基本假設

古典測驗理論建立在真實分數的模式上，也就是當受試者接受一份測驗後，

他在該測驗的得分稱為「實得分數」，但是有許多因素會影響受試者在測驗上的表現，即使內容範圍相同但只要試題樣本不同、時間不同、施測地點不同等條件下，都有可能有不同的測驗結果，造成不同測驗的結果就稱為「誤差」。因此，

在可能的施測情境下，將同一位受試者進行多次同樣的測驗而得的實得分數加以平均，這些實得分數的平均數即代表受試者能力的不偏估計值，也就是「真實分數」。

真實分數模式用來表示任何可以觀察到、測量到的實得分數。因此，實得分

數是由兩個部份所構成的數學函式關係：

1. 真實分數(true score，以 T 代表)：真實分數是觀察不到，但卻是研究者真正要測量的潛在特質。

2. 誤差分數(error score，以 E 代表)：誤差分數也是觀察不到，但卻是研究者想極力避免或降低的部份。

真實分數是固定不變的，不受測量的次數影響，代表受試者真正的能力 (ability)，但是實際上每一次的測量所得的實得分數都會和真實分數有差距，這段差距就是誤差分數，因此，以數學公式來表示這三者之間的關係可以表示為：

χ=T+E (公式 2-1) χ 代表實得分數，T 代表真實分數，E 代表誤差分數。

真實分數模式的成立，必須滿足一些基本假設，可以歸納成下列七項：(余民寧，2002)

1. χ＝T＋E (實得分數等於真實分數與誤差分數之和) 2. E(χ)＝T (實得分數的期望值等於真實分數)

3. ρte＝0 (真實分數與誤差分數之間呈零相關) 4. ρe1e2＝0 (不同測驗的誤差分數間呈零相關)

5. ρe1t2＝0 (不同測驗的誤差分數與真實分數間呈零相關)

6. 假設有兩個測驗，其實得分數分別為 χ 和 χ^’，並且滿足上述1 到 5 的假設，

且對每一群體考生而言，亦滿足 t＝t^’和 σ²e＝σ²e’等條件，則這兩個測驗便稱作「複本測驗」(parallel tests)

7. 假設有兩個測驗，其實得分數分別為 χ 和 χ^’，並且滿足上述1 到 5 的假設，

且對每一群體考生而言，亦滿足t1＝t2＋c12，其中c12為一常數，則這兩個測驗稱作「本質上τ 相等測驗」(essentially τ-equivalent tests)

根據以上七個基本假設可對古典測驗理論做出下列的詮釋：(余民寧，2002) 1. 假設具有潛在特質存在。

2. 多次測量的推論結果。

一份好的測驗，應該具有.80 以上的信度係數值(Carmines & Zeller, 1979;余民寧，

2002；陳英豪、吳裕益，2003)。常用的估計信度方法有下列幾項：

(一) 重測信度(test-retest reliability coefficient)

以同一個測驗，在不同時間對同一群體實施兩次測驗，此兩次測驗分數的相關係數就是重測信度。主要目的是估計測驗分數是否穩定，所以又稱為「穩定係數」。

兩次測驗間隔的時間也會影響受試者的表現，因此，間隔時間的長短，必須視測驗的性質和目的而定，避免造成測驗誤差。一般而言，兩次測驗時間間隔太短，重測信度越高，若時間間隔太長，重測信度就會越低。

(二) 複本信度(parallel forms test)

複本測驗是指兩份試題在題數、形式、內容、難度、鑑別度都一致，用來測驗相同的潛在能力或特質，但是試題不同的測驗。以複本測驗來測量同一群受試者，再求受試者在兩份測驗得分的相關係數，就是複本信度。主要目的是估計兩份測驗的等值性。

造成複本信度誤差的來源，通常是試題抽樣所產生的，若兩份測驗試題抽樣代表性越高，所測量到的相同能力或特質也越高，複本信度係數就會越高。

複本信度可分為兩種：一種是在同一時間內連續實施兩次測驗，這種信度就是「等值係數」；另外一種是間隔一段時間後在實施測驗，也就是在不同的時間實施兩份等值的測驗，這種信度係數就是「穩定和等值係數」。

(三) 內部一致性(internal consistency)

重測信度和複本信度都必須施測兩次，但是使用內部一致性的信度估計法，則只需測驗一次，最常使用的估計方法有下列三種：

1. 折半法(split-half method)

折半法是先按照正常的程序實施測驗，然後將全部試題區分成相等的兩

的方式或是按題目的單雙數分成兩半，但最常被使用的是將試題依據難度大

2. 庫李法(Kuder-Richardson method，簡稱 K-R 法)

庫李法是由 Kuder 和 Richardson 兩位學者在 1937 年所創的，根據受試

KR21＝

根據 1985 年美國教育研究學會(American Education Research)、美國心理學會 (American Psychological Association)和國立教育測量委員會(National council on Measurement in Education)所組成的聯席委員會出版關於測驗編製與使用方面的規範準則─「教育與心理測驗標準」，其中針對測驗使用目的的不同，規定在推論和解釋分數時，應報告三種不同測驗效度(余民寧，2002)。可分為：內容效度、

效標關聯效度、建構效度。

(一) 內容效度(content validity)

內容效度是指一個測驗能否測量到具有代表性的教材內容和所預期的行為改變(陳英豪、吳裕益，2003)，所以「教材內容」與「教學目標」，是內容效度的兩個要素。因此，要具有良好的內容效度，可以製作「雙向細目表」，

確定試題的內容具有代表性或是請專家鑑定。內容效度最適用於成就測驗的效度考驗(陳英豪、吳裕益，2003)，因為成就測驗的目的在於測量學生是否充分學習到教材的內容，若有良好的內容效度，就能準確測驗出學生學習的效果。

(二) 效標關聯效度(criterion-related validity)

如果我們要以測驗的分數來預測未來的行為表現，或是估計目前在其他測驗上的表現，那就要用到「效標關聯效度」(陳英豪，吳裕益，2003)，所以效標關聯效度就是測驗分數和外在效標(external criterion)之間的關聯性。效標關聯效度可以分為下列兩種：

1. 同時效度(concurrent validity)

測驗分數和效標分數大約再同一時間取得，就叫做同時效度，其目的在利用測驗分數估計個人在外在效標方面的目前實際表現情況。

2. 預測效度(predictive validity)

先取得測驗分數後，過一段時間再取得效標分數，就稱為預測效度，其目的在利用測驗分數預測個人在外在效標的未來表現。兩種資料間的相關係

數，就是該測驗的預測效度。

(三)建構效度(construct validity)

內容效度能幫助我們決定測驗分數能否代表某種學習結果的成就，而效

由上述計算方式可以知道，難度的定義為答對百分比，因此，難度值(P值) 越大，代表試題越簡單，越多學生答對該道題目。難度值介於0到1之間，越接近 1代表題目越簡單，越接近0則代表題目越難。Martuza(1977)認為在常模參照測驗中，試題難度以0.3-0.7較佳，但平均難度應接近0.5；Chase(1978)指出四個選項的選擇題難度應在0.4-0.8 之間，是非題難度則應在 0.55-0.85 之間較適當； Anastasi(1982)指出當難度指標越接近0.5 時區別力越高。另外，國內學者余民寧 (2002)提出整份測驗的平均難度以接近0.5作為共同的挑選原則，陳英豪與吳裕益 (2003)認為良好的是非題難度在0.75左右，填充題在0.5左右。

除了以答對百分比計算試題難度之外，還可以將試題難度轉換成為具有相同單位的等距量尺，美國教育測驗服務社(Educational Testing Service，簡稱 ETS)將難度轉換成標準差4，平均數 13 的標準分數量表，△值介於 1 到 25 之間，數字越大試題越困難。公式如下：

△＝13＋4X (公式2-8) 四、鑑別度(discrimination)

分析試題的鑑別度主要是在了解試題區分學生能力高低的功能如何。試題的鑑別度可以分為「內部一致性分析法」，和「題目效度分析」或稱為「外在效度分析」。

(一) 內部一致性分析法(internal consistency)

內部一致性分析法是探討個別試題得分和測驗總得分之間的一致性。我們希望每一道試題高能力的學生答對的人數比低能力的學生多，若能準確的區分出學生能力的高低，即代表這道試題具有鑑別度，因此，以下列的公式來計算：

D＝PH－PL (公式 2-9) D 代表試題的鑑別度，PH代表高分組答對百分比，PL代表低分組答對百分比。

試題的鑑別度介於1到-1之間，若全部學生都答對或全部都答錯，鑑別度

為0；若高分組學生全部答對，低分組學生全部答錯，鑑別度為1；若高分組學生全部答錯，低分組學生全部答對，鑑別度為-1。因此，一道好的試題，

高分組答對的人數要多於低分組答對的人數。根據Noll, Scannell, 與 Craig在 1976年提出鑑別度最低標準應該要0.25以上，低於0.25應視為鑑別度不佳或品質不良的試題(余民寧，2002)。國內學者郭生玉(1990)、余民寧(2002)引用美國學者Ebel在1979年提出的鑑別度標準：0.4以上非常優良，0.30-0.39優良，

0.20-0.29尚可，0.19以下試題為劣，需要大幅度修改或刪除。

(二) 外在效度分析(external validity)

外在效度是分析學生在試題上的反應與在效標上的表現之間的關係。將學生在每道試題上的作答反應，和效標上的作答反應分析其相關情形，作為試題的鑑別度。常用的有下列三種方法：

1. 點二系列相關(point-biserial correlation)：適用於試題為二分變項，效標為連續變項的情況，點二系列相關系數值越高，代表試題與測驗總分的作用越一致，鑑別度越高。

2. 二系列相關(biserial correlation)：適用於受試者在試題上的反應是常態分配，但是由人為方式將其分為答對與答錯兩種情況。

3. φ 相關(phi coefficient)：適用於題目與效標都是二分變項的情況。

在文檔中布魯姆認知分類適用之互動式多媒體題型研究 (頁 21-30)

第二章 文獻探討

第一節 古典測驗理論

壹、基本假設

第二章文獻探討

第一節古典測驗理論