試題分析

第二章文獻探討

第四節試題分析

構成測驗最基本的單位是試題，有良好的試題才有良好的測驗。但必須先透過試題質與量的分析，才能評鑑試題的好壞，也就是做邏輯與統計分析。試題分析在測驗編製過程中，目的在透過客觀的量化分析，找出每個試題所具有的統計特徵，以供教師瞭解自編測驗試題的特性，作為評鑑測驗的標的，更可以協助教師做為改進教學和診斷出學生的學習困難，作為補救教學之依據。試題分析的重要性有以下幾點：1.可作為改進學生學習的參考，教師可逐題澄清學生的錯誤概念、矯正不當的學習方法；2.作為實施補救教學的依據，教師針對學生感到困難的地方對症下藥，設計出有效的校正方案；3.作為修改課程的依據，幫助教師評鑑學習成果與課程內容是否適合學生；4.增進教師編製測驗的經驗，試題的難度、

鑑別度、選項誘答力等資訊，都可提供教師修訂或刪改試題的依據；5.增進測驗

題庫運用的功能，經過試題分析留下的試題具有優良試題特徵，日後，教師可從題庫中隨機抽取適合的試題，有系統的組成新的測驗(余民寧，2006)。由上述可知，作為評鑑整份測驗良窳，進而改進教學方法，試題分析是絕對必要的過程。

以下將進一步說明質與量的分析：

壹、質的分析

每一份不同的測驗均有其不同的目的和適用的範圍，因此在編製試題時，應配合測驗的目的與命題的基本原則，才能編出適當的試題。可就試題的內容請學者專家或資深教師，對內容審查、有效命題原則及教學目標等評鑑工作，此為試題在質的方面做的邏輯分析(余民寧，1997)。

貳、量的分析

試題經過質的分析後，僅只確定試題是否符合測驗的基本原則。但為避免測驗中出現過難或鑑別度過低的試題，所有命完的試題均須經過預試，再根據預試結果進行測驗統計分析，以確定各個試題的有關量的分析數值(曾建銘，2006)。

以下將本研究相關之量的分析方法逐一介紹：

一、難易度(古典測驗理論)

難易度適當的試題是構成優良測驗的必要條件。常用的試題難度分析方法有三(簡茂發，1991)：

(一)  100⁰₀ N

P R

其中 P 表試題難度，R 表答對該題人數，N 表全體受試人數。例如：一個數學測驗，若有 200 名受試者，其中一題答對人數為 150 人，則此題的難度為

200

150

P ×100％＝0.75。

(二) 2

H P

P P 



PH為高分組答對該題人數的百分比，PL為低分組答對該題人數的百分比

適中的試題，因為此試題的鑑別度可達到最大。不過在實際的情況下，要選出每一題的難度都接近 0.5 是有困難的，因此，有學者主張以 0.4 到 0.8 之間的難度範圍做為選題標準(Chase, 1978)，但平均而言，整份測驗的平均難度值還是以接近 0.5 為佳。

二、鑑別度

試題的鑑別度高低與測驗的信度和效度有密切的關係，若要增進測驗診斷與評量的功能，因此良好的鑑別度對試題相當重要。鑑別度的分析方法有二：

(一)試題反應與測驗總分的關聯性：

若試題為選擇題，考生的作答反應則為答對或答錯之二分變項；而對整份測驗而言總分可視為連續變項，兩者之間的關係可用點二系列相關係數(rpb)來表示其內部一致性的高低，即該試題的鑑別度。

(二)鑑別度指數 D：

H P

D 

其中 D 表示鑑別度指數，P_H與P_L之定義同難度所述。由鑑別度的定義可知，

鑑別度高的試題可以清楚地分辨能力高與能力低者，但該如何判定鑑別度的高低？根據 Noll、Scannell & Craig(1979)的看法，至少要達 0.25 以上，低於 0.25 者即為鑑別度不佳或品質不良之試題。美國測驗學者 Ebel(1979)曾提出一套鑑別度判斷的標準如表 2-5，供試題命題者作為選題的參考。

表 2-5 鑑別度評鑑標準表

鑑別度試題評鑑

0.40 以上非常優良

0.30~0.40 優良，但需小幅度修改 0.20~0.30 尚可，但需部分修改

0.19 以下劣，需要大幅修改或刪除

三、難度、鑑別度與猜測度

在試題反應理論中，若以三參數模式為例，模式中有三個參數：a、b、c，代表的是試題的鑑別度、難度與猜測度。一般而言，鑑別度只取正，值愈大代表鑑別度愈大；難度值則通常介於-3～3 之間，同樣地，值愈大代表試題愈難(與古典測驗理論的難度相反)；猜測度則介於 0～1 之間，值愈大代表試題猜測度愈大，

選項的多寡往往影響猜測度的大小。

參、選項分析

選擇題的選項包括正確選項與誘答選項，正確選項必須明確，而誘答選項則需有一定的誘答力，為了判斷試題編製的好壞與各選項是否符合性質，則必須進行選項分析。選項分析可以讓施測者了解每道試題的選項是否符合命題原則，並進一步提供試題分析的指標。因此，經過試題的選項誘答力分析，可協助教師改進編製試題的技巧及了解學生的答題情形，更可進一步調整或改變教學策略 (Ha1adyna, 1994)。

選項分析是比較高分組與低分組對正確與誘答選項的選答率，如果分析的結果符合下面兩項原則，則表示該試題的所有選項是合理有效的(郭生玉，2004)：

一、正確選項的選答率，高分組必須高於低分組。

二、每一個誘答選項應有一位低分組的受試者選答，而低分組的選答率則須高於高分組。

肆、試題分析的功能

試題經過質的分析，對試題內容進行檢測後，再透過量的分析，可分析出每道試題的統計特徵，幫助命題者了解試題的品質，若經過測驗後，確認該試題為優良試題，則可納入題庫，作為日後編製試卷時使用。試題在經過質與量的分析

後，可以讓命題者知道試題是否具備預期的測量功能，以及試題的資訊：如難度、

鑑別度、猜測度、試題特徵曲線、選項誘答力等，教師可利用這些資訊與教材內容及教學目標相結合，作為日後實施測驗的參考依據。未來可從題庫中選出適切的試題，自編出一份測驗，不但可節省時間，人力、物力的花費，而且選出的試題均為經過試題分析的優良試題。老師更可憑此作為加強學生學習盲點的參考、

作為實施補救教學的依據、修改課程內容，提供更符合學生需求的學習內容。

第五節數學表現在性別上的差異

影響學生數學文字題解題能力低落可能為閱讀困難、數學句法及符號理解發生障礙、解題策略或計算能力不佳等其中一種或兩種以上之能力。

在數學文字題解題表現方面，許多研究者也探討了性別此變項。Henney(1970)

研究四年級國小學童，女生在文字題後測之閱讀分測驗上的平均得分顯著高於男生(引自陳世杰，2005)。陳濱興(2001)研究國小四年級學童，女生在數學解題歷程之理解題意上優於男生。蕭美琪(2003)研究國小二年級學童，發現男女學童在乘法解題各歷程中與整合認知能力等方面的表現沒有差異。

國內學者曾對大學聯考或標準化測驗的試題進行 DIF 調查(王振世，1997；

陳明終，1996；簡茂發等，1995；戴麗紅，1994)，調查結果一致指出有相當高比例的試題被鑑定為呈現 DIF，舉一個最嚴重的例子來說，例如戴麗紅(1994)指出八十二年大學聯考國文科的二十六個試題(含作文)中，96％的試題被檢定為呈現性別 DIF。

在數學成就測驗上，因男、女性別而產生的差異表現，一直是教育及心理研究者關心的議題。許多研究聚焦在試題本身特徵對受試者的影響，其重點在於受試者在受測過程中的認知運作是否相同(Ryan & Chiu, 2001)。有部分研究結果發

現某些因素(如試題的內容、形式、認知背景等)對不同性別受試者有不同的影響，

如：Harris & Carlton(1993)、Lane, Wang & Magone(1996)、O'Neil & McPeek(1993) 等人發現代數題對女生較有利；但亦有研究指出不同的結果(Becker, 1990；Wang

& Lane, 1996；Zhang & Manon, 2000)。由此可見在數學測驗中，因性別產生有關的 DIF 現象之研究結果存在著歧異性。

第六節 DIF 的檢定方法

壹、DIF 的定義

有關 DIF(Differential item function)的研究最初在 1960 年代，美國的人權運動興起，重視機會均等，測驗公平性乃受到廣泛注意。當時是稱為試題偏誤(item bias)(Angoff, 1993)，由於試題偏誤中的「偏誤」一詞涵蓋許多不同的意義：光以字面上來看，可能代表某些違背事實或真理的隱喻；若站在統計的觀點上，則代表某一估計值偏離所欲測量的真正數值。因為「偏誤」一詞可能代表多種意涵，

加上牽涉到價值判斷，所以心理計量上的客觀研究有必要對此用語加以釐清，因此有學者提出以「試題差異功能」(Differential Item Functioning，以下簡稱 DIF) 一詞來代替(Holland＆Thayer, 1988)，意涵著試題發揮了不同的功用，不一定單指負面的功能(余民寧、謝進昌，2006)。Camilli 和 Shepard(1994)進一步針對試題偏誤與 DIF 做區分，認為 DIF 僅是統計分析的結果，而對被檢定為 DIF 的試題做更詳盡的審視和判斷後，若發現試題含有與測驗本身欲測量的構念無關 (construct-irrelevant)的因素，而造成試題的難度對不同背景的應試群體不相等，

方可稱該試題為偏誤試題(biased item)。對於在欲測量特質上已相配對的不同群體而言，DIF 是一種意料之外的測驗表現差異(Dorans＆Holland, 1993)。

在實際進行 DIF 檢定時，通常稱研究者感興趣的受試群體為焦點組(focus

group) ，另一個用來與焦點組答題表現作對照的群體稱為參照組 (reference group)。參照組和焦點組之受試者配組的依據稱為配組變項(matching variable)或配組效標 (matching criterion) ，接受調查或檢定的試題稱為受評試題 (studied item)。其中焦點組是研究者所感興趣的群體，參照組則是用以對照的另一群體。

(盧雪梅，2000)我們常是以總測驗分數或分測驗分數作為焦點組和參照組的配對標準，有些人對 DIF 的看法認為：「在某個試題上，如果多數族群和少數族群在測驗上的表現有所差異，該試題便顯現出 DIF 的現象」。然而真是如此嗎？因為有可能原本這兩個族群的能力本來就不同，因此才導致在某個試題(測驗)上表現產生差異(Lord, 1980)，上述的情況只能稱做 Impact，並不能說試題有 DIF 的存在。

目前，比較令心理統計學者所接受的 DIF 的定義為：來自不同族群，但能力相同

在文檔中小六數學科試題與性別的試題差別功能(DIF)現象與能力指標達成率分析研究 (頁 27-0)

第二章 文獻探討

第四節 試題分析