測驗與試題分析

第二章文獻探討

第二節測驗與試題分析

壹、測驗的品質

一個良好的測驗應具備陳英豪、吳裕益(1990)所述的適切性(relevance)、平衡性(balance)、有效性(eff1c1ency)、客觀性(object1v1ty)、特殊性(specificity)、適當的難度(difficulty)、良好的鑑別度(discrimination)、信度(reliability)、效度(validity)、

公平性(fairness)、非「速度性」(speededness) 等十一項品質。要了解一個測驗是否具備上述各項品質，就必需對測驗結果進行分析。

貮、試題分析

所謂「試題分析」(item analysis)是指利用「品質分析」(qualitative analysis)與

「量化分析」(quantitative analysis)，篩選出品質較佳的試題，這不僅有助於提高編製測驗的品質，檢討改善編製測驗技能、實施補救教學及改進教學，並作為日後使用或選取適切試題重編測驗之依據。一個測驗信度與效度之高低完全取決於試題的品質，所以經由試題分析的技術，可提高測驗的信度與效度。

質的分析可由分析試題的內容和形式、有效命題原則、教學目標、內容效度分析，以及編擬試題技術方面等評鑑工作來進行。量的分析主要分成傳統題目分析及試題反應理論題目分析。以統計學方法來分析每個試題的特徵指標，傳統題目分析內容包括難度、鑑別度、和誘答力。試題反應理論題目分析包括難度參數、

鑑別度參數、猜測度參數。

基本上，古典測驗理論所使用的難度與鑑別度，都是一種樣本依賴的指標，

亦即試題分析的結果會隨著所使用的樣本不同，而獲得不同的分析結果。

因此，傳統試題分析的結果，只是獲得一個暫時性的統計特徵指標，它們並不是固定不變的特質。此外，像受試者人數的多寡、教育背景、能力水準、及教學型態等因素，都可能影響試題分析的結果。這些限制在解釋測驗結果時必須特別注意。

一、難度分析

難度以「通過比率」表示，以 1.計算全體受試通過或答對某題上通過的比率或 2.計算高分組與低分組在某一試題上通過的比率來表示，試題愈容易，則通過的比率愈高。

P 值愈大，試題愈容易；當 P 值大到 1 時，表示全部答對；當 P 值小到 0 時，

表示全部答錯。因此，P 值介於 0 到 1 之間。

以「通過比率」表示試題難度值乃屬於次序量尺(ordinal scale)，只顯示難度的等級順序或相對困難程度，無法進行四則運算比較，即數值間差異的涵義無法直接進行有意義的比較。

二、鑑別度分析

試題在條件相等的情況下(例如：同樣的測驗情境、沒有猜題)，能讓有能力、

會正確回答的受試者答對，而沒有能力、不會答的受試者答錯，則這種具有分辨的功能，便稱為試題的「鑑別度」。

鑑別度之目的在了解試題具備區別受試者能力高低的程度，區別不同能力受試者的功能愈強，則鑑別度愈高，表示愈能區別高低能力受試者的表現，即高分組傾向答對，低分組傾向答錯。反之，試題具有區別不同能力受試者的功能愈弱(例如：全部答對或全部答錯)，則它的鑑別度便愈低。一道良好的試題，應具有較高的鑑別度。

Noll、Scannell 和 Craig(1979)等認為鑑別度之最低標準至少為.25 以上，若低 於此最低標準者，可視為鑑別度欠佳或品質不良之試題。

三、誘答力分析

選擇題較其他試題類型，可再進一步進行誘答力分析，因為選擇題除了正確選項外，還有數個誘答選項(不正確選項)。誘答具有吸引或迷惑某些知識不完整、

概念不清晰的受試者，若誘答能充分發揮功能，則能提升試題的鑑別度，因此選擇題應強化誘答的編擬技巧與經驗。

分析不正確選項是否具有誘答功能，可探討高、低分組受試者在每個試題選項選答的次數分配與比率，再加以判斷。選項判斷原則為 1.至少有一個低分組受試者選擇任何一個不正確選項。2.選擇不正確選項的比率，低分組應高於高分組。

3.選擇正確選項的比率，高分組應高於低分組。

根據受試者在每道試題各選項上選答次數的結果判斷，若有違反上述原則者，即表示該試題的某個不正確選項缺乏誘答功能，必須加以修改、潤飾、甚至刪除，才能維持試題品質。

參、測驗的信度分析

庫李方法主要是依據受試者對所有試題的作答反應，分析其試題間的一致性 (inter-item consistency)，以確定測驗中的試題是否都能測量到相同特質的一種信度估計方法。因此，庫李方法對於所要分析的測驗試題有幾個基本假設：1.試題的計分是使用二元計分方式；2.試題不受作答速度的影響；3.試題都是具有同質性，亦即都測量到一個相同的因素(余民寧，2002)。

庫李方法的測量誤差，主要來自於測驗內容的抽樣誤差，特別是受到抽樣內容的同質性(homogeneity)或異質性(heterogeneity)程度的影響很大。一般而言，當測驗中的每道試題都能測量到相同能力或潛在特質時(即為內容同質性高)，即表示試題的測量功能間一致性愈高，信度將會愈大；反之，當測驗中試題具備測量到兩種以上的能力或潛在特質時(即為內容異質性高)，即表示試題的測量功能間愈不一致，信度將會愈小(Anastasi，1988)。

肆、優良試題的挑選標準

由難度與鑑別度的關係可知，要選擇優良試題，必須檢視不同的測驗目的而定，不能一概等同視之。但是，不論是何種測驗目的，選擇優良試題的方法，仍有其共通的標準，那就是：1.依據測驗用途：作為常模參照測驗的試題，多半是選擇難易適中的試題，而作為效標參照測驗的試題，則應選擇具有教學內容代表性的試題。2.依據試題效度：所選擇的試題必須能夠測量到它所要測量的能力目標。

3.依據試題品質：選擇鑑別度較高或教學敏感度指標較大的試題。簡單地說，上述選擇試題標準的最終目標，在於確保組成測驗的每一道試題均是優良試題(余民寧，2002)。

經過試題分析後，在鑑別度方面，已知試題鑑別度所代表的意義是試題品質的優劣。而評鑑試題品質的優劣，是一種主觀的價值判斷，並沒有一致性的標準。

因此，比較常用的挑選標準，是「先挑出鑑別度較高的試題，然後，再從中挑選出難度較為適中的試題」(郭生玉，2001)。

一般而言，作為常模參照測驗的試題鑑別度值是愈高愈好，但一般可接受的最低標準至少.25 以上，低於此標準，則可視為鑑別度不佳或品質不良的試題(Noll, Scannell & Craig,1979)。

在難度方面，建議選擇難易適中(即難度接近.50)的試題為最恰當，因為試題在難易適中時，它的鑑別度可以達到最大。不過，要從符合鑑別度挑選條件的試題中，再找出所有的試題難度都接近.50 者，實際上是有困難的；因此，Ahmanan & &

Glock (1981)主張以.40 到.70 之間的難度作為選擇標準；Chase (1978)則主張以.40 到.80 之間的難度作為選擇題的挑選標準。一般而言，整份測驗的平均難度，還是以接近.50 作為共同的選擇原則。

在進行優良試題的選擇時，雖然可以根據試題分析的結果作為選擇優良試題

的參考標準，但是，必須參考雙向細目表的詳細說明，以及兼顧教學評量的目標，

選出具有課程內容代表性(即內容效度)的試題，才能算是優良試題。

伍、解釋測驗結果的原則

解釋測驗結果時，除了要了解測驗目的及施測群體的特性外，還要注意到下列各項原則(陳英豪、吳裕益，1990；余民寧，2002)。

一、測驗分數的解釋，需以使用該項測驗的特殊場合為依據。

二、測驗分數需以該測驗所測量的真正特質來解釋。

三、試題的鑑別度值低未必表示試題具有缺點。

四、內部一致性鑑別度不能表示具有外在效度。

五、試題分析資料為暫時性，而非固定不變的特質。

六、測驗分數需以其他的證據作為佐證。

七、解釋測驗分數時必須考慮到受試者身心狀況及家庭背景。

在文檔中線上適性測驗系統之建置以婦產科學為例 (頁 26-30)

第二章 文獻探討

第二節 測驗與試題分析