試題分析與測驗分析

第二章、文獻探討

第四節、試題分析與測驗分析

在測驗施測完畢後，接著就要進行試題分析與測驗分析，以統計方法獲得客觀

的量化數據，作為判斷試題品質與教師改進命題與教學之參考。如何判定一份試題的品質優劣，一般可由品質分析(qualitative analysis)及量化分析(quantitative analysis)兩方面著手(余民寧，2011)：

1、對試題內容進行品質分析

品質分析可從試題的內容審查、有效命題原則及教學目標等評鑑工作來進行，

透過試題的測驗審查與邏輯審查，能確保試題優良及具有一定的內容效度。

2、對試題統計特徵進行量化分析

個別試題分析主要在分析難度指標、鑑別度指標、誘答力與注意係數指標；而測驗分析主要在分析信度係數、效度係數與差異係數指標。

本研究在試題分析方面，透過量化數據分析每道試題的難度(difficulty)與鑑別 (discrimination)，若為選擇題型亦可分析其選項誘答力(distraction)；在測驗分析方面，分析整份測驗的信度與效度，茲說明如下。

壹、試題分析一、難度分析

難度是用來表示試題困難或容易的一種指標，與該題的答對率有關，一般來說計算公式為𝑃_𝑖 = ^𝑅^𝑖

𝑁，其中𝑃_𝑖為第𝑖題的答對率，𝑁為總人數，𝑅_𝑖為該題答對人數。若答對率越高表示該題越容易，反之則表示該題越難。若進一步依測驗總分將全體受試者分成高分組與低分組(分別佔全體受試者測驗分數的前、後 27%~33%)，將高分組與低分組的答對率平均後即為該題的難度指標（difficulty index），計算公式為𝑃_𝑖 = ^𝑃^𝐻^+𝑃^𝐿

2 ，其中𝑃_𝐻為高分組在第𝑖題的答對率，𝑃_𝐿為低分組在該題的答對率，𝑃_𝑖為該題的難度指標，其值介於0~1 之間，越接近 1 表示答對人數越多，試題越簡單；

越接近0 表示答對人數越少，試題越困難(周文欽、歐滄和、許擇基、盧欽銘、金樹人、范德鑫，1995；郭生玉，2004；Ebel

& Frisbie,1991)。

通常在常模參照測驗中，試題的難度指標是以接近0.5 左右最理想，表示試題

最能區辨學生的能力高低；而在標準參照測驗中，測驗目的是在檢核學生的學習是否已達到預定的精熟程度，故會期望學生在試題的難度指標 (即答對率)都能接近1。因此，教師應依據教學情況與測驗目的來選擇適當難度指標的試題(余民寧，

2011)。本研究採用 Ebel 與 Frisbie（1991）的難易度等級表作為本研究試題難易度的判斷準則，如表2-4-1 所示：

表2-4-1 難度等級表

難度值𝑃 難度等級備註

0.8 ≤ 𝑃 極容易鑑別度低

0.6 ≤ 𝑃 < 0.8 容易

0.4 ≤ 𝑃 < 0.6 難易適中鑑別度高 0.2 ≤ 𝑃 < 0.4 困難

𝑃 < 0.2 極困難鑑別度低

資料來源：Ebel & Frisbie（1991）

二、鑑別度分析

鑑別度分析的目的是想確定試題是否具有區辨受試者能力高低的功能。鑑別度越高，表示試題越能區辨出高能力與低能力的受試者；反之，鑑別度越低，表示試題區辨高、低能力受試者的功能越弱。

鑑別度指標（discrimination index）依分析時所依據的標準不同，可分為內部一致性（internal consistency）分析法與外在效度（external validity）分析法。兩種方法之說明如下：

1、內部一致性分析法

內部一致性分析法其目的為了解各別試題的功能是否和整個測驗功能相同，也就是檢測各試題是否能讓高能力受試者傾向答對，低能力受試者傾向答錯。鑑別度分析時，將全體受試者分成高分組與低分組(分別佔全體受試者測驗分數的前、

後27%~33%)，把高、低兩組受試者答對率相減即為試題的鑑別度指標，計算公式為𝐷_𝑖 = 𝑃_𝐻− 𝑃_𝐿，其中𝑃_𝐻為高分組在第𝑖題的答對率，𝑃_𝐿為低分組在該題的答對率，

𝐷_𝑖為該題的鑑別度指標，其值介於-1~1 之間，越高表示試題鑑別度越好，越低則表示鑑別度越差。(周文欽等，1995；郭生玉，2004；Ebel & Frisbie,1991)。當鑑別度過低時，可能是試題太困難或太容易，使多數的受試者皆答錯或答對，或可能是試題題意不清。若鑑別度為0，則表示該試題無鑑別作用。若鑑別度為負時，表示高分組的答對率低於低分組，該題應做修改或刪除。一般來說，鑑別度最低標準至少要0.2 以上，低於此標準之試題其鑑別度不佳。本研究採用 Ebel 與 Frisbie

（1991）的鑑別度等級表作為試題鑑別度的判斷依據，如表 2-4-2 所示：

表2-4-2 鑑別度等級表

鑑別度𝐷 鑑別度等級備註

0.4 ≤ 𝐷 非常優良 0.3 ≤ 𝐷 < 0.4 優良

0.2 ≤ 𝐷 < 0.3 尚可試題須部分修改 𝐷 < 0.2 劣試題須大幅修改或刪除

資料來源：Ebel & Frisbie（1991）

2、外在效度分析法

外在效度分析法是在分析受試者對試題的反應與在效標上的表現之間的關係，

檢驗試題是否有達到預期的鑑別作用，目的在使試題反應與測驗外在效度變得最大，以增強效標關聯效度。其常用的分析方法有點二系列相關（point-biserial correlation）、二系列相關（biserial correlation）及φ相關等(余民寧，2011)。本研究採用點二係數相關法計算選擇題試題的相關係數，探求試題的作答反應與測驗總分之間的關聯性，亦即該試題的鑑別度指標。若點二系列相關係數值越大，表示該試題的功能與測驗總分之間的關聯性越高，其鑑別功能越強；反之，若相關

係數數值越低，表示該試題的功能與測驗總分之間的關聯性越低，其鑑別功能越弱(余民寧，2011)。

三、選項誘答力分析

選擇題選項有篩選的功能，學習狀況佳的受試者較可能選正確的選項，而對課程內容尚有迷思、一知半解的受試者則可能選擇錯誤選項，故提高錯誤選項的誘答力可增加試題的鑑別度，並可了解受試者的學習狀況(Haladyna,1996)。進行誘答力分析時，也是將全體受試者分成高分組與低分組(分別佔全體受試者測驗分數的前、後27%~33%)，以受試者的作答反應組型為依據，分別計算高高分組與低分組在每一個選項的選答率。若試題選項具有良好的誘答功能，則每個錯誤選項至少要有一位低分組考生選答，此外選擇錯誤選項的受試者中，高分組人數應少於低分組(余民寧，2011；郭生玉，2004；Ebel

& Frisbie,1991)

。

若錯誤選項沒有任何高分組或低分組的受試者選答，則表示該選項不具有誘答力，應於試題修改時變更此選項；若錯誤選項高分組的選答率高於低分組的選答率，則表示該選項可能有內容敘述不清、誘導錯誤作答的狀況，或者高分組同學對該題具有迷思概念，以致錯誤率較低分組來的高，因此在試題修改時要留意此選項，必要行進行修改或刪除。

貳、測驗分析

信度（reliability）與效度（validity）是測驗的兩大特徵，一份優良的測驗都具有較高的信度與效度。為了讓教師了解自編成就測驗是否具有使用價值，確保該測驗具有優良教育測驗的特徵，能成為一份公正、客觀且優良的教學評量工具，

分析測驗試題的信度與效度是必要的步驟，以下分別就信度與效度做說明(余民寧，

2011)。

一、信度

信度指的是經由多次複本測驗測量得到的結果間的一致性(consistency)、穩定性(stability) (Anastasi，1982)，或是估計測量分數中測驗誤差與真實分數的差距與

所佔比率的一種指標(Gulliksen, 1987)。若測驗分數中測量誤差所佔的比例降低，

真實分數所佔的比例就會相對提高，信度係數就會提高；反之若測量誤差的比例提高，真實分數所佔的比例就會相對降低，信度係數就會因此降低。信度係數一般介於0~1 之間，若數值越接近 1 則表示信度越高，若數值越接近 0 則表示信度越低，當測驗的信度值為1 時，表示測驗具有完全信度，而當測驗的信度值為 0 時則表示測驗完全沒有信度，其信度係數可能會受試題題數多寡、試題難易程度、

評分方式、受試者能力分配或不同的信度估計方法等因素影響，但信度係數為0 或1 的極端情況通常不容易出現。

估計信度的方法有許多種，依選用的估計方法不同，就會有各種不同的測量誤差來源，以及產生不同大小的誤差估計值，但無論哪種方法，若信度越高則表示誤差越小，反之若信度越低則表示誤差越大。學者余民寧(2011)綜整常見的信度估計方法有以下四類：再測方法（test-retest method）、複本方法（equivalent-forms method）、內部一致性方法（internal-consistency method）與評分者方法(scorer method），因前兩種信度估計方法都需要進行兩次施測或是使用兩份測驗，在實際實施上有其困難和限制，故本研究採用內部一致性方法估計選擇題試題信度，計算試題的Cronbach-α 信度指數。內部一致性方法是利用一次測驗結果來計算信度係數，關心的是受試者在測驗評量上表現的一致程度，目的是在了解個別試題的測驗功能是否和整份測驗的測驗功能相同，若刪除個別試題後測驗的總信度提高，

則表示將該題刪除有益於提高整份測驗的信度，反之若刪除該試題後測驗的總信度降低，則表示該題對於測驗之內部一致性有助益。

一般來說，一份優良的教育測驗應至少具備0.80 以上的信度值，測驗試題才具有使用的價值（Carmines & Zeller，1979）。一般信度係數α的判斷依據如表2-4-3 所示：

表2-4-3

信度係數參考表

信度係數α 備註

0.9 ≤ α 十分可信

0.8 ≤ α < 0.9 不錯 0.7 ≤ α < 0.8 尚可接受 0.6 ≤ α < 0.7 勉強可接受

α < 0.6 不能接受

二、效度

效度指的是測驗分數的有效程度，也就是該測驗是否有測量到想要測量的潛在能力的程度，或是測驗目標與測驗結果的一致性程度，測驗如果缺乏效度，就沒有應用的價值，其可能受到測驗編製的品質、測驗施測程序與情境、受試者作答時的身心反應、受試者能力分配或外在效標等因素影響(余民寧，2011)。

和估計信度一樣，估計效度的方法也有許多種，即使是同一份測驗也會因為使用目的的不同，而採用不同的估計方法。依據1999 年，由美國教育研究學會 (American Education Research Association，AERA)、美國心理學會(American Psychological Association，APA)和美國國立教育測量委員會(National Council on Measurement in Education，NCME)等三個教育專業團體組成之聯席委員會，建議將效度分為三種類型，分別是內容效度(content validity)、效標關聯效度

(criterion-related validity)及建構效度(construct validity)。本研究採用的是內容效度，

在文檔中八年級數學段考試題分析研究-以新北市某中學為例 (頁 28-36)

第二章、 文獻探討

第四節、 試題分析與測驗分析

& Frisbie,1991)。

& Frisbie,1991)

第二章、文獻探討

第四節、試題分析與測驗分析