第二章 文獻探討
第四節 試題分析
構成測驗最基本的單位是試題,有良好的試題才有良好的測驗。但必須先透 過試題質與量的分析,才能評鑑試題的好壞,也就是做邏輯與統計分析。試題分 析在測驗編製過程中,目的在透過客觀的量化分析,找出每個試題所具有的統計 特徵,以供教師瞭解自編測驗試題的特性,作為評鑑測驗的標的,更可以協助教 師做為改進教學和診斷出學生的學習困難,作為補救教學之依據。試題分析的重 要性有以下幾點:1.可作為改進學生學習的參考,教師可逐題澄清學生的錯誤概 念、矯正不當的學習方法;2.作為實施補救教學的依據,教師針對學生感到困難 的地方對症下藥,設計出有效的校正方案;3.作為修改課程的依據,幫助教師評 鑑學習成果與課程內容是否適合學生;4.增進教師編製測驗的經驗,試題的難度、
鑑別度、選項誘答力等資訊,都可提供教師修訂或刪改試題的依據;5.增進測驗
題庫運用的功能,經過試題分析留下的試題具有優良試題特徵,日後,教師可從 題庫中隨機抽取適合的試題,有系統的組成新的測驗(余民寧,2006)。由上述可 知,作為評鑑整份測驗良窳,進而改進教學方法,試題分析是絕對必要的過程。
以下將進一步說明質與量的分析:
壹、質的分析
每一份不同的測驗均有其不同的目的和適用的範圍,因此在編製試題時,應 配合測驗的目的與命題的基本原則,才能編出適當的試題。可就試題的內容請學 者專家或資深教師,對內容審查、有效命題原則及教學目標等評鑑工作,此為試 題在質的方面做的邏輯分析(余民寧,1997)。
貳、量的分析
試題經過質的分析後,僅只確定試題是否符合測驗的基本原則。但為避免測 驗中出現過難或鑑別度過低的試題,所有命完的試題均須經過預試,再根據預試 結果進行測驗統計分析,以確定各個試題的有關量的分析數值(曾建銘,2006)。
以下將本研究相關之量的分析方法逐一介紹:
一、難易度(古典測驗理論)
難易度適當的試題是構成優良測驗的必要條件。常用的試題難度分析方法有 三(簡茂發,1991):
(一) 10000 N
P R
其中 P 表試題難度,R 表答對該題人數,N 表全體受試人數。例如:一個數 學測驗,若有 200 名受試者,其中一題答對人數為 150 人,則此題的難度為
200
150
P ×100%=0.75。
(二) 2
L
H P
P P
PH為高分組答對該題人數的百分比,PL為低分組答對該題人數的百分比
適中的試題,因為此試題的鑑別度可達到最大。不過在實際的情況下,要選出每 一題的難度都接近 0.5 是有困難的,因此,有學者主張以 0.4 到 0.8 之間的難度範 圍做為選題標準(Chase, 1978),但平均而言,整份測驗的平均難度值還是以接近 0.5 為佳。
二、鑑別度
試題的鑑別度高低與測驗的信度和效度有密切的關係,若要增進測驗診斷與 評量的功能,因此良好的鑑別度對試題相當重要。鑑別度的分析方法有二:
(一)試題反應與測驗總分的關聯性:
若試題為選擇題,考生的作答反應則為答對或答錯之二分變項;而對整份測 驗而言總分可視為連續變項,兩者之間的關係可用點二系列相關係數(rpb)來表示 其內部一致性的高低,即該試題的鑑別度。
(二)鑑別度指數 D:
L
H P
P
D
其中 D 表示鑑別度指數,PH與PL之定義同難度所述。由鑑別度的定義可知,
鑑別度高的試題可以清楚地分辨能力高與能力低者,但該如何判定鑑別度的高 低?根據 Noll、Scannell & Craig(1979)的看法,至少要達 0.25 以上,低於 0.25 者 即為鑑別度不佳或品質不良之試題。美國測驗學者 Ebel(1979)曾提出一套鑑別度 判斷的標準如表 2-5,供試題命題者作為選題的參考。
表 2-5 鑑別度評鑑標準表
鑑別度 試題評鑑
0.40 以上 非常優良
0.30~0.40 優良,但需小幅度修改 0.20~0.30 尚可,但需部分修改
0.19 以下 劣,需要大幅修改或刪除
三、難度、鑑別度與猜測度
在試題反應理論中,若以三參數模式為例,模式中有三個參數:a、b、c,代 表的是試題的鑑別度、難度與猜測度。一般而言,鑑別度只取正,值愈大代表鑑 別度愈大;難度值則通常介於-3~3 之間,同樣地,值愈大代表試題愈難(與古典 測驗理論的難度相反);猜測度則介於 0~1 之間,值愈大代表試題猜測度愈大,
選項的多寡往往影響猜測度的大小。
參、選項分析
選擇題的選項包括正確選項與誘答選項,正確選項必須明確,而誘答選項則 需有一定的誘答力,為了判斷試題編製的好壞與各選項是否符合性質,則必須進 行選項分析。選項分析可以讓施測者了解每道試題的選項是否符合命題原則,並 進一步提供試題分析的指標。因此,經過試題的選項誘答力分析,可協助教師改 進編製試題的技巧及了解學生的答題情形,更可進一步調整或改變教學策略 (Ha1adyna, 1994)。
選項分析是比較高分組與低分組對正確與誘答選項的選答率,如果分析的結 果符合下面兩項原則,則表示該試題的所有選項是合理有效的(郭生玉,2004):
一、正確選項的選答率,高分組必須高於低分組。
二、每一個誘答選項應有一位低分組的受試者選答,而低分組的選答率則須高於 高分組。
肆、試題分析的功能
試題經過質的分析,對試題內容進行檢測後,再透過量的分析,可分析出每 道試題的統計特徵,幫助命題者了解試題的品質,若經過測驗後,確認該試題為 優良試題,則可納入題庫,作為日後編製試卷時使用。試題在經過質與量的分析
後,可以讓命題者知道試題是否具備預期的測量功能,以及試題的資訊:如難度、
鑑別度、猜測度、試題特徵曲線、選項誘答力等,教師可利用這些資訊與教材內 容及教學目標相結合,作為日後實施測驗的參考依據。未來可從題庫中選出適切 的試題,自編出一份測驗,不但可節省時間,人力、物力的花費,而且選出的試 題均為經過試題分析的優良試題。老師更可憑此作為加強學生學習盲點的參考、
作為實施補救教學的依據、修改課程內容,提供更符合學生需求的學習內容。
第五節 數學表現在性別上的差異
影響學生數學文字題解題能力低落可能為閱讀困難、數學句法及符號理解發 生障礙、解題策略或計算能力不佳等其中一種或兩種以上之能力。
在數學文字題解題表現方面,許多研究者也探討了性別此變項。Henney(1970)
研究四年級國小學童,女生在文字題後測之閱讀分測驗上的平均得分顯著高於男 生(引自陳世杰,2005)。陳濱興(2001)研究國小四年級學童,女生在數學解題歷程 之理解題意上優於男生。蕭美琪(2003)研究國小二年級學童,發現男女學童在乘 法解題各歷程中與整合認知能力等方面的表現沒有差異。
國內學者曾對大學聯考或標準化測驗的試題進行 DIF 調查(王振世,1997;
陳明終,1996;簡茂發等,1995;戴麗紅,1994),調查結果一致指出有相當高比 例的試題被鑑定為呈現 DIF,舉一個最嚴重的例子來說,例如戴麗紅(1994)指出 八十二年大學聯考國文科的二十六個試題(含作文)中,96%的試題被檢定為呈現 性別 DIF。
在數學成就測驗上,因男、女性別而產生的差異表現,一直是教育及心理研 究者關心的議題。許多研究聚焦在試題本身特徵對受試者的影響,其重點在於受 試者在受測過程中的認知運作是否相同(Ryan & Chiu, 2001)。有部分研究結果發
現某些因素(如試題的內容、形式、認知背景等)對不同性別受試者有不同的影響,
如:Harris & Carlton(1993)、Lane, Wang & Magone(1996)、O'Neil & McPeek(1993) 等人發現代數題對女生較有利;但亦有研究指出不同的結果(Becker, 1990;Wang
& Lane, 1996;Zhang & Manon, 2000)。由此可見在數學測驗中,因性別產生有關 的 DIF 現象之研究結果存在著歧異性。
第六節 DIF 的檢定方法
壹、DIF 的定義
有關 DIF(Differential item function)的研究最初在 1960 年代,美國的人權運 動興起,重視機會均等,測驗公平性乃受到廣泛注意。當時是稱為試題偏誤(item bias)(Angoff, 1993),由於試題偏誤中的「偏誤」一詞涵蓋許多不同的意義:光以 字面上來看,可能代表某些違背事實或真理的隱喻;若站在統計的觀點上,則代 表某一估計值偏離所欲測量的真正數值。因為「偏誤」一詞可能代表多種意涵,
加上牽涉到價值判斷,所以心理計量上的客觀研究有必要對此用語加以釐清,因 此有學者提出以「試題差異功能」(Differential Item Functioning,以下簡稱 DIF) 一詞來代替(Holland&Thayer, 1988),意涵著試題發揮了不同的功用,不一定單指 負面的功能(余民寧、謝進昌,2006)。Camilli 和 Shepard(1994)進一步針對試題偏 誤與 DIF 做區分,認為 DIF 僅是統計分析的結果,而對被檢定為 DIF 的試題做更 詳 盡 的 審 視 和 判 斷 後 , 若 發 現 試 題 含 有 與 測 驗 本 身 欲 測 量 的 構 念 無 關 (construct-irrelevant)的因素,而造成試題的難度對不同背景的應試群體不相等,
方可稱該試題為偏誤試題(biased item)。對於在欲測量特質上已相配對的不同群體 而言,DIF 是一種意料之外的測驗表現差異(Dorans&Holland, 1993)。
在實際進行 DIF 檢定時,通常稱研究者感興趣的受試群體為焦點組(focus
group) , 另 一 個 用 來 與 焦 點 組 答 題 表 現 作 對 照 的 群 體 稱 為 參 照 組 (reference group)。參照組和焦點組之受試者配組的依據稱為配組變項(matching variable)或 配 組 效 標 (matching criterion) , 接 受 調 查 或 檢 定 的 試 題 稱為 受 評 試題 (studied item)。其中焦點組是研究者所感興趣的群體,參照組則是用以對照的另一群體。
(盧雪梅,2000)我們常是以總測驗分數或分測驗分數作為焦點組和參照組的配對 標準,有些人對 DIF 的看法認為:「在某個試題上,如果多數族群和少數族群在 測驗上的表現有所差異,該試題便顯現出 DIF 的現象」。然而真是如此嗎?因為 有可能原本這兩個族群的能力本來就不同,因此才導致在某個試題(測驗)上表現 產生差異(Lord, 1980),上述的情況只能稱做 Impact,並不能說試題有 DIF 的存在。
目前,比較令心理統計學者所接受的 DIF 的定義為:來自不同族群,但能力相同
目前,比較令心理統計學者所接受的 DIF 的定義為:來自不同族群,但能力相同