第二章 文獻探討
第二節 測驗與試題分析
壹、測驗的品質
一個良好的測驗應具備陳英豪、吳裕益(1990)所述的適切性(relevance)、平衡 性(balance)、有效性(eff1c1ency)、客觀性(object1v1ty)、特殊性(specificity)、適當 的難度(difficulty)、良好的鑑別度(discrimination)、信度(reliability)、效度(validity)、
公平性(fairness)、非「速度性」(speededness) 等十一項品質。要了解一個測驗是否 具備上述各項品質,就必需對測驗結果進行分析。
貮、試題分析
所謂「試題分析」(item analysis)是指利用「品質分析」(qualitative analysis)與
「量化分析」(quantitative analysis),篩選出品質較佳的試題,這不僅有助於提高編 製測驗的品質,檢討改善編製測驗技能、實施補救教學及改進教學,並作為日後 使用或選取適切試題重編測驗之依據。一個測驗信度與效度之高低完全取決於試 題的品質,所以經由試題分析的技術,可提高測驗的信度與效度。
質的分析可由分析試題的內容和形式、有效命題原則、教學目標、內容效度 分析,以及編擬試題技術方面等評鑑工作來進行。量的分析主要分成傳統題目分 析及試題反應理論題目分析。以統計學方法來分析每個試題的特徵指標,傳統題 目分析內容包括難度、鑑別度、和誘答力。試題反應理論題目分析包括難度參數、
鑑別度參數、猜測度參數。
基本上,古典測驗理論所使用的難度與鑑別度,都是一種樣本依賴的指標,
亦即試題分析的結果會隨著所使用的樣本不同,而獲得不同的分析結果。
因此,傳統試題分析的結果,只是獲得一個暫時性的統計特徵指標,它們並 不是固定不變的特質。此外,像受試者人數的多寡、教育背景、能力水準、及教 學型態等因素,都可能影響試題分析的結果。這些限制在解釋測驗結果時必須特 別注意。
一、難度分析
難度以「通過比率」表示,以 1.計算全體受試通過或答對某題上通過的比率 或 2.計算高分組與低分組在某一試題上通過的比率來表示,試題愈容易,則通過 的比率愈高。
P 值愈大,試題愈容易;當 P 值大到 1 時,表示全部答對;當 P 值小到 0 時,
表示全部答錯。因此,P 值介於 0 到 1 之間。
以「通過比率」表示試題難度值乃屬於次序量尺(ordinal scale),只顯示難度的 等級順序或相對困難程度,無法進行四則運算比較,即數值間差異的涵義無法直 接進行有意義的比較。
二、鑑別度分析
試題在條件相等的情況下(例如:同樣的測驗情境、沒有猜題),能讓有能力、
會正確回答的受試者答對,而沒有能力、不會答的受試者答錯,則這種具有分辨 的功能,便稱為試題的「鑑別度」。
鑑別度之目的在了解試題具備區別受試者能力高低的程度,區別不同能力受 試者的功能愈強,則鑑別度愈高,表示愈能區別高低能力受試者的表現,即高分 組傾向答對,低分組傾向答錯。反之,試題具有區別不同能力受試者的功能愈弱(例 如:全部答對或全部答錯),則它的鑑別度便愈低。一道良好的試題,應具有較高 的鑑別度。
Noll、Scannell 和 Craig(1979)等認為鑑別度之最低標準至少為.25 以上,若低 於此最低標準者,可視為鑑別度欠佳或品質不良之試題。
三、誘答力分析
選擇題較其他試題類型,可再進一步進行誘答力分析,因為選擇題除了正確 選項外,還有數個誘答選項(不正確選項)。誘答具有吸引或迷惑某些知識不完整、
概念不清晰的受試者,若誘答能充分發揮功能,則能提升試題的鑑別度,因此選 擇題應強化誘答的編擬技巧與經驗。
分析不正確選項是否具有誘答功能,可探討高、低分組受試者在每個試題選 項選答的次數分配與比率,再加以判斷。選項判斷原則為 1.至少有一個低分組受 試者選擇任何一個不正確選項。2.選擇不正確選項的比率,低分組應高於高分組。
3.選擇正確選項的比率,高分組應高於低分組。
根據受試者在每道試題各選項上選答次數的結果判斷,若有違反上述原則 者,即表示該試題的某個不正確選項缺乏誘答功能,必須加以修改、潤飾、甚至 刪除,才能維持試題品質。
參、測驗的信度分析
庫李方法主要是依據受試者對所有試題的作答反應,分析其試題間的一致性 (inter-item consistency),以確定測驗中的試題是否都能測量到相同特質的一種信度 估計方法。因此,庫李方法對於所要分析的測驗試題有幾個基本假設:1.試題的計 分是使用二元計分方式;2.試題不受作答速度的影響;3.試題都是具有同質性,亦 即都測量到一個相同的因素(余民寧,2002)。
庫李方法的測量誤差,主要來自於測驗內容的抽樣誤差,特別是受到抽樣內 容的同質性(homogeneity)或異質性(heterogeneity)程度的影響很大。一般而言,當 測驗中的每道試題都能測量到相同能力或潛在特質時(即為內容同質性高),即表示 試題的測量功能間一致性愈高,信度將會愈大;反之,當測驗中試題具備測量到 兩種以上的能力或潛在特質時(即為內容異質性高),即表示試題的測量功能間愈不 一致,信度將會愈小(Anastasi,1988)。
肆、優良試題的挑選標準
由難度與鑑別度的關係可知,要選擇優良試題,必須檢視不同的測驗目的而 定,不能一概等同視之。但是,不論是何種測驗目的,選擇優良試題的方法,仍 有其共通的標準,那就是:1.依據測驗用途:作為常模參照測驗的試題,多半是選 擇難易適中的試題,而作為效標參照測驗的試題,則應選擇具有教學內容代表性 的試題。2.依據試題效度:所選擇的試題必須能夠測量到它所要測量的能力目標。
3.依據試題品質:選擇鑑別度較高或教學敏感度指標較大的試題。簡單地說,上述 選擇試題標準的最終目標,在於確保組成測驗的每一道試題均是優良試題(余民 寧,2002)。
經過試題分析後,在鑑別度方面,已知試題鑑別度所代表的意義是試題品質 的優劣。而評鑑試題品質的優劣,是一種主觀的價值判斷,並沒有一致性的標準。
因此,比較常用的挑選標準,是「先挑出鑑別度較高的試題,然後,再從中挑選 出難度較為適中的試題」(郭生玉,2001)。
一般而言,作為常模參照測驗的試題鑑別度值是愈高愈好,但一般可接受的 最低標準至少.25 以上,低於此標準,則可視為鑑別度不佳或品質不良的試題(Noll, Scannell & Craig,1979)。
在難度方面,建議選擇難易適中(即難度接近.50)的試題為最恰當,因為試題在 難易適中時,它的鑑別度可以達到最大。不過,要從符合鑑別度挑選條件的試題 中,再找出所有的試題難度都接近.50 者,實際上是有困難的;因此,Ahmanan & &
Glock (1981)主張以.40 到.70 之間的難度作為選擇標準;Chase (1978)則主張以.40 到.80 之間的難度作為選擇題的挑選標準。一般而言,整份測驗的平均難度,還是 以接近.50 作為共同的選擇原則。
在進行優良試題的選擇時,雖然可以根據試題分析的結果作為選擇優良試題
的參考標準,但是,必須參考雙向細目表的詳細說明,以及兼顧教學評量的目標,
選出具有課程內容代表性(即內容效度)的試題,才能算是優良試題。
伍、解釋測驗結果的原則
解釋測驗結果時,除了要了解測驗目的及施測群體的特性外,還要注意到下 列各項原則(陳英豪、吳裕益,1990;余民寧,2002)。
一、測驗分數的解釋,需以使用該項測驗的特殊場合為依據。
二、測驗分數需以該測驗所測量的真正特質來解釋。
三、試題的鑑別度值低未必表示試題具有缺點。
四、內部一致性鑑別度不能表示具有外在效度。
五、試題分析資料為暫時性,而非固定不變的特質。
六、測驗分數需以其他的證據作為佐證。
七、解釋測驗分數時必須考慮到受試者身心狀況及家庭背景。