試題鑑別度的理論 - 文獻探討 - 以相關係數探討題組型試題之鑑別度

第二章文獻探討

2.1 試題鑑別度的理論

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

關於試題鑑別度之研究，已有許多學者曾探討其定義，大致可分成古典測驗理論的鑑別度以及試題反應理論的鑑別度兩類型，但因考慮本文研究方向，本章僅針對古典測驗理論的鑑別度進行回顧與探討。第一節簡介古典測驗理論，以及其延伸出對教育測驗的分類，進而闡述試題分析的方法，並扼要說明試題分析的量化指標，即難度與鑑別度；接續概略介紹常模參照測驗的試題鑑別度定義，包含：高低分組通過率之差、二系列相關、點二系列相關、Φ 相關與積差相關，其中，點二系列相關與積差相關的鑑別度定義方式為本文討論的重點；最後，介紹題組試題的題目形式及其優缺點。第二節則回顧國內應用統計方法於試題鑑別度之相關研究。

2.1 試題鑑別度的理論

古典測驗理論(classical test theory)是最早的測驗理論，又稱作真實分數理論 (true score theory)，它建立在以真實分數模式(true score model)及其假設的基礎上，針對測驗資料間的實證關係，進行有系統解釋的一門學問。假設在所有可能的施測情境下、在所有可能的不同時間範圍內、或儘可能使用不同試題，來針對同一位受試者進行同樣的測驗多次(理論上是無窮多次)，則可獲得許多有關該受試者的實得分數(observed score)，這些實得分數的平均，即代表該受試者能力的不偏估計值，該估計值被定義為真實分數(true score)。真實分數不受測量次數的影響，它代表長期測量結果不變的部份；但實際上，單獨一次測量所得的實得分數總會與真實分數間有差距，此差距稱為誤差分數(error score)。誤差分數深受測量工具之準確度影響很大，它代表某次測量結果可變的部份。將上述以數學公式表示即為

實得分數＝真實分數＋誤差分數

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

古典測驗理論模式所採用的計算公式簡單明瞭、淺顯易懂，適用大多數的教育測驗、心理測驗及社會科學研究資料的分析，是目前心理計量學界應用廣泛的測驗理論之一。

教育測驗可根據教育目標類型、試題類型、編製過程的標準化程度及分數的解釋方法來分類，如表2-1。

表2-1 教育測驗的分類

分類標準教育測驗類型常見的測驗

依教育目標類型 認知測驗

情意測驗

動作技能測驗

成就測驗

民意調查、人格測驗實作測驗

依試題類型 選擇型試題測驗

補充型試題測驗

選擇題、是非題、填充題簡答題、論文式測驗依編製過程的標準化程度 標準化測驗

教師自編測驗

實驗性測驗依分數的解釋方式 常模參照測驗

效標參照測驗

段考、模擬考隨堂測驗

然而，試題分析在整個測驗編製過程扮演非常重要的角色，它不僅能提供客觀的試題特徵指標供使用者參考，以作為評鑑測驗良莠、驗證測驗效度、和增進命題巧外，還可以協助教師作為改進教學和診斷學生學習困難之處，以作為補救教學之依據。試題分析的方法大致上分為品質分析(qualitative analysis)與量化分析(quantitative analysis)兩種，品質分析可由試題的內容審查、有效命題原則與教學目標等評鑑工具來進行；量化分析即針對每個試題所具備的統計特徵—難度 (difficulty)與鑑別度(discrimination)來分析。由於古典測驗理論所使用的難度與鑑別度指標是一種樣本依賴(sample dependent)的指標，即試題分析的結果會隨著使

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

用的樣本不同而獲得不同的分析結果，因此，試題分析的結果只是獲得暫時性的統計特徵指標，它會因為應試學生人數的多寡、教育背景與能力水準等因素而受影響。因試題鑑別度為本文討論重點，接下來將針對試題鑑別度作更進一步的說明。

測驗編製者通常都希望編製的試題能夠盡量讓有能力、會答的學生答對，而沒有能力、不會答的學生答錯，試題的這種分辨功能或作用，即稱為「試題鑑別度」。試題具有區別不同能力學生的功能愈強，則其鑑別度愈高，反之，試題具有區別不同能力學生的功能愈弱，則其鑑別度愈低；一個良好的試題，通常具有較高的鑑別度(余民寧，1997)。常模參照測驗的試題鑑別度因分析時所依據的標準不同，主要可分成兩大類：一種為比較高分組和低分組受試者對個別試題的答題情形，另一種為探求全部受試者對各試題的答題情形和測驗總分之間的關連性 (李坤崇，2006)。茲分別說明如下：

一、比較高分組和低分組受試者對個別試題的答題情形

當我們以測驗總分來代表學生成就高低時，我們多半期望高能力學生在每個試題上答對的百分比應該比低能力學生在每個試題上答對百分比高。當高分組和低分組的選取方式確定以後，則定義高分組和低分組在該試題的通過百分比之差 為該試題的鑑別度指標，記為 D，如公式(2.1)，並且定義高分組和低分組在該試 題的通過百分比之平均為該試題的難度指標，記為 P，如公式(2.2)。目前也經常 使用通過率作為難度的計算方式，如公式(2.3)。

鑑別度指標 DP_H P_L………(2.1) 難度指標

H L

P P

P  ………(2.2) 通過率 R

P N ……….………(2.3) 其中，

PH：高分組在該試題的通過百分比 PL：低分組在該試題的通過百分比

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

R：答對人數 N：受測總人數

舉例來說，如果高分組答對第一題的百分比是0.85，低分組是 0.40，則第一題的鑑別度為D0.85 0.40 0.45  ，難度為 0.85 0.40

0.625 P 2

  。如果受試者共有

50 人，答對第一題人數共 30 人，則第一題的通過率為 30 50 0.6

P  。鑑別度指標通常以小數表示，其值域介於－1.00 到＋1.00 之間，指標愈高，表示鑑別度愈大；

反之，則鑑別度愈小。如果指標為0，則表示題目沒有鑑別作用，此種現象可能原因是題目太容易或太艱難，即所有人均答對或所有人均答錯，亦或題目不清楚也會造成沒有鑑別作用。另外，如果低分組答對百分比高於高分組，則鑑別度是負值，此種試題具有反向作用，應淘汰之。美國測驗學者Ebel& Frisbie(1991)曾提出一套鑑別度的評鑑標準供參考(如表 2-2)，使用者可根據這個評判標準與考量測驗目的，挑選具有良好鑑別度的試題。

表2-2 鑑別度值的評鑑標準 鑑別度值 D 試題評鑑

0.40 以上非常優良 0.30-0.39 優良，但可能需修改 0.20-0.29 尚可，但通常需修改 0.19 以下劣，需淘汰或修改

一般而言，難度適中的題目對整體受試者的鑑別度較高，因此常模參照測驗在選題時，應該多選難易適中的題目。但是若編製錄取率很低的篩選性測驗，則應該多選較難的題目才能發揮鑑別作用。當在編製多水準(multiple level)的測驗時，應該就每一年級(或年齡)計算難度指標，研究該指標隨著年齡變動的情形，

進而找出最適合各年級的試題(歐滄和，2002)。

二、探求全部受試者對各試題的答題情形和測驗總分之間的關連性

此種分析方法是探求受試者對該試題的答題情形和其測驗總分之間的相關

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

程度，以相關係數來表示該試題的鑑別度。若答題情形屬於二分變項(dichotomous variable)，即受試者的答題情形只有答對和答錯兩種，且受試者的測驗總分屬於連續性變項(continuous variable)，則可採用二系列相關(biserial correlation)、點二系列相關(point- biserial correlation)與 Φ 相關(phi correlation)方法；若受試者的答題情形不是只有答對與答錯兩種，則可採用皮爾森積差相關係數(Pearson’s product-moment correlation coefficient)。接下來扼要說明上述四種方法：

1. 二系列相關

此方法適用兩個變項均為常態的連續變項，但其中一個變項因為某種理由而被以人為方式劃分為兩個類別的情況；以某一測驗為例，試題得分原為常態的連續變項，但以人為方式將其區分為二分變項(如：答對以 1 表示，答錯以 0 表示)，

而測驗總分屬於常態分配的情形，如公式(2.4)。

p t

X X p

r S y

   ………(2.4)

其中，

Xp：答對該題之受試者測驗總分的平均數

X ：所有受試者測驗總分的平均數 t

S ：所有受試者測驗總分的標準差 t

p：答對該題之人數百分比

y：常態分配下面積為 p 時的常態分配曲線高度 2. 點二系列相關

點二系列相關與二系列相關相似，主要的差別在於：點二系列相關是適用在一個變項為等距或比率變項(如：測驗總分 0 分到 100 分不等)，而另一個變項卻是真正的名義二分變項的資料(如：答對以 1 表示、答對以 0 表示)，如公式(2.5)。

p q

X X

r pq

   ………(2.5)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

其中，

Xp：答對該題之受試者測驗總分的平均數

Xq：答錯該題之受試者測驗總分的平均數 S ：所有受試者測驗總分的標準差 t

p：答對該題之人數百分比 q：答錯該題之人數百分比 3. Φ 相關

此方法適用於試題與測驗總分均為名義二分變項的情形(如：答對以 1 表示、

答錯以0 表示；測驗總分 60 分以上為及格、未滿 60 分為不及格)，如公式(2.6)。

xy x y

x x y y

p p p p q p q

   ………(2.6)

其中，

p ：答對該題且及格之人數百分比 xy

p ：答對該題之人數百分比 x

q ：答錯該題之人數百分比 x

p ：及格人數百分比 y

q ：不及格人數百分比 y

將所有受試者對於該試題的作答情形人數依下列的2×2 列聯表分類(如表 2-3)，

再將列聯表中的資料，代入公式(2.7)求出 Φ 值。

表2-3 Φ 相關的 2×2 列聯表範例答錯答對

及格 A B

不及格 C D

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表2-4 Garrett(1969)相關係數解釋表 相關係數 r 值範圍 相關程度解釋

0.00～ 0.20 不重要或可忽略的相關

 0.20～  0.40 低相關

 0.40～  0.70 顯著相關

 0.70～  1.00 高度相關

表2-4 這樣的分類解釋是概括且有點試驗性質的，僅能夠當成是一般的指導原則，並不具任何統計的意義。再者，從不同樣本人數中所求出來的積差相關係數即使相同，但它所代表的意義卻不一定相同，因為樣本人數的多寡對於積差相關係數的解釋有很大的影響。一般來說，相關係數依據其值域的不同，可區分成兩大類：一類為A 型相關，這類相關係數的值域介於 0 與 1 之間，其值愈接近 1 者，代表兩個變項間的關聯程度愈強，反之，其值愈接近0 者，代表兩個變項間的關聯程度愈弱；另一類為B 型相關，這類相關係數的值域介於－1 與 1 之間，

其絕對值愈接近1 者，代表兩個變項間的關聯程度愈強，反之，其絕對值愈接近

在文檔中以相關係數探討題組型試題之鑑別度 - 政大學術集成 (頁 10-18)

試題鑑別度的理論

第二章 文獻探討

2.1 試題鑑別度的理論

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章 文獻探討

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

立政治大學

第二章文獻探討

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學