四、題目的分析與信度效度研究 - 二、教學評量的目的評量的本質應該是以提升學習者的學習為第一要務

本研究由於時間、人力的限制等因素，無法進行測驗的預試，是以探討測驗的可研究性，主要為測驗後試題的可信度與效度準備。以下探討一些試題分析的理論，並同時說明本測驗欲採用的方法。

（一）試題分析的功用

1. 余民寧(民 86)，認為有（1）作為改進學生學習的參考（2）作為實施補就教學的依據（3）作為修改課程建議的憑據（4）增進教師編製測驗的經驗（5）增進測驗題庫運用的效能。

2. 陳英豪、吳裕益（民 87）認為有（1）有助於測驗結果的討論（2）可作為實施補救教學的依據（3）可作為改進班級教學的依據（4）可增進編製測驗的技能（5）

可以提高測驗的信度和效度。

（二）試題的難度與鑑別度、選項分析

本研究採用『常模參照測驗』的試題分析步驟（余民寧，民 86）（1）將學生依測驗成績高低依序排列，並分為高中低分組（2）計算高低分組學生在每一個試題的答對率（3）計算每一個試題的難度指數（4）計算每個試題的鑑別度指數（5）對每個試題的選項進行『正答』與『誘答』分析。

上述試題分析法的理論相當多，歸納國內外學者專家（余民寧，民 86；陳英豪、

吳裕益，民 87；簡茂發，民 85；郭玉生，民 81；陳李綢，民 81；黃政傑，民 85；Kennth D.Hopkins，1990）的見解，概略介紹於後。

（1）高低分組法：高分組為全體學生總分前 25％或前 33％的學生群，低分組為全體學生總分後 25％或後 33％的學生群，其餘歸類為中分組。由於『大考中心』對聯考的試題分析較常採用前後 33％的分組方法，且由數學統計觀點知採用前後 33％的分組方法較為嚴僅，故本研究採用此分組法。

（2）答對率（number correct ratio）：即計算答對每個試題的人數佔總人數的比值。

本研究分為全體答對率（PR）、高分組（前 33％）答對率（PH）、低分組（後 33

％）答對率（PL）。

（3）難度指數（difficulty）（P）：表示法有二

（a）以答對率表示：試題的難度一般均以答對率來表示。也有測驗專家以高分組答對率（PH）與低分組答對率（PL）相加除以 2 來表示。如此，P 值越高，表示題目越容易。而難度指數以 0.30 至 0.70 為理想，越接近 0.5，區分高低分組的能

力越高。

（b）以等距量尺表示：由於答對率所建立的難度指數，只能用來表示試題難易的相對位置，無法指出各難度間差異大小的數學涵義。假設所有試題所測量的特質均呈常態分配，可根據常態曲線概率表，將試題的難度轉換成具有相等單位的等距量尺（interval scale），如此就可比較各試題的難度數值。

本研究採用美國教育測驗服務社（Educational Testing Service，簡稱 ETS）的等距量尺來表示試題的難度指數，為將難度指數轉化為正值之等距量尺分數。其轉換公式為：△＝13+4Z；其中，△（delta）代表試題難度指數，Z 為標準化常態分配量尺上的標準分數，13 代表轉換公式的平均難度，4 為轉換公式的標準差。△值愈大，表示難度愈高。而經由 PH，PL 值可以透過『范式試題分析表』（Fan‘s item analysis table）查得相關的 P、△值及 r（試題反應與效標的二列相關係數）。

（4）鑑別度指數（discrimination index）（D）：分為兩類

（a）內部一致性（internal consistency）的鑑別度指標：探討個別試題得分和整個測驗總分間的相關。指標公式為高分組答對率（PH）與低分組答對率（PL）差，

即 D＝PH-PL。D 值介於-1.00 至 1.00 之間，試題的鑑別指數愈高（即 D 值愈高）

代表愈具有鑑別作用。一般測驗專家的看法：鑑別指數以 0.40 以上為理想，0.30 至 0.39 之間為良好，0.10 至 0.29 間尚可，而 0.10 以下則為劣等鑑別度試題，

若鑑別度為負值，則需淘汰。

（b）外在效度（external validity）的鑑別度指標：探討受試者在每一個試題的反應與在效標上的表現之相關情形。大多採用相關係數法，如點二系列相關

（point-biserial correlation）、二系列相關（biserial correlation）等，

由於本研究非屬『效標參照測驗』且未有外在效標，不予討論。

（5）選項分析：每個選項所附的可能答案中，正確的答案稱為『正答』，其他稱為『誘答』（distractors）。而所有可能答案稱為選項。為瞭解試題的有效性，將考生的作答情況統計成選項分析表（如表 3-4.3）。

可以藉由試題分析的指標，做為判斷試題的優劣與診斷學生反應的依據。一般判斷原則為：（a）至少有一位低分組學生選擇任何一個不正確選項（b）選擇不正確選項的低分組學生人數應該比高分組的學生人數還多。

（三）信度的分析理論與研究

本研究的測驗，比對『入學考試』的選材成就測驗，測驗分析則採用常模參照測驗的信度分析方法。信度分析的理論相當多，整理國內外學者專家（余民寧，民 86；

陳英豪、吳裕益，民 87；簡茂發，民 85；郭玉生，民 81；黃政傑，民 85；何英奇，

民 81；王文科，民 91；Kennth D.Hopkins，1990）的見解，概略介紹如後。

（1）信度的意義：

依據古典測驗理論（余民寧，民86），信度的定義為真實分數的變異數（variance）

佔實得分數的總變異數的百分比，即信度＝真實分數的變異數

/

實得分數的變異數。

信度的涵義指經由多次測量所得結果的一致性或穩定性，或估計測量誤差有多少，以反映出真實量數（true measure）程度的一種指標（Gulliksen，1950/1987）。

當測驗分數中測量誤差所佔的比率降低時，則真實量數所佔的比率就相對提高，如此信度就高。

（2）估計信度的方法：

一般信度的估計方法有四類（余民寧，民86；陳英豪、吳裕益，民87；何英奇，

民81；王文科，民91）（a）重測信度（test-retest reliability）（b）複本信度

（parallel-forms或equivalent-forms reliability）（c）內部一致性信度（internal consistency reliability）－分為折半信度、庫李信度、α係數（d）評分者信度（scorer reliability）－分為評分者間相關係數、評分者內同質性信度係數。其名詞解釋，

於本章第三節中（三、評量工具的特徵）說明不再贅述。

本研究中，由於時間、人力的限制，未實施預試、重測與複本施測，所以信度的研究限於內部一致性信度與評分者信度，分別採用折半信度（ split-half reliability）、交互評分者信度（interscorer reliability）之相關係數。綜合幾種信度係數的類型、目標、使用程序、統計量數與誤差來源，如表2-5.2。

僅施測一次；使用 Cronbach

所發明的α係數公式。相關係數內容抽樣與

數的變異數相等，若變異數不相等，則需使用 Guttman 公式（請參考第一章第四節）。

（3）影響信度的因素：

測驗的信度低，將使測驗失去意義，是以瞭解影響測驗信度的因素，並進而降低其影響或進行補救，皆是重要課題。

學者余民寧（民 86）認為較常見的影響測驗信度的因素為（a）試題數的多寡：

試題數越多，信度會增加（b）樣本能力分配：能力分配的變異數越大，相關係數越高，信度係數越大（c）試題難易程度：難易適中的測驗試題，得分分配越趨近於常態分配，變異程度達最大，信度係數會較大（d）評分的客觀性：計分方式愈主觀者，

由於評分者誤差愈大，信度係數愈低。測驗的信度值要高，以選用客觀式的測驗為佳（e）信度的估計方法：選用測驗及解釋其信度資料時，應該考量該測驗所採用的信度估計方法、信度的適用情境、試題間的關連性、及測量誤差的可能來源等因素，

方不致於造成濫用或誤用測驗的情勢發生。

本研究考量學生的作答時間，並參考『入學考試』的難度，以致試題的概念數雖達 50 題（參考表 2-5.1），但總完整實驗題數僅為 10 大題，以致影響信度係數。

但在樣本能力分配及評分的客觀性上，皆能順利達成，請參考第三章。

（四）效度的分析理論與研究

整理國內外學者專家（余民寧，民 86；陳英豪、吳裕益，民 87；簡茂發，民 85；

郭玉生，民 79；何英奇，民 81；王文科，民 91；Kennth D.Hopkins，1990）的觀點，

概略介紹如後。

（1）效度的意義（余民寧，民 86）：

效度是指測驗分數的有效程度，亦即是測驗能夠提供適切資料以做決策的程度。也就是測驗分數能夠代表它所要測量之潛在特質的程度或測驗能夠達到其編製

目的的程度。

因此，測驗分數必然與所要測量之潛在特質間具有某種程度的關係（即共同變異部分），故根據統計學理論，定義效度為某個測驗和其他測驗（通常指的是外在效標）所共同分享的變異數部分佔該測驗總變異數的比率。即效度＝（共同因素的變異數）/（總變異數的比值）。

（2）信度與效度的關係：

從前述的信度與效度的定義知（余民寧，民 86）：信度＝效度+獨特性（獨特性即獨特變異數（specific variance）/總變異數）。可知，效度包含於信度之內，

信度所涵蓋的範圍比效度所涵蓋的範圍大。

學者簡茂發（民 67）認為：信度低，效度一定低，但信度高，效度不一定高；

效度高，信度一定高，但效度低，信度不一定低。學者郭玉生（民 79）則認為效度需要測驗的一致性與正確性；但信度僅需要測驗的一致性即可。

（3）效度的類型與考驗方法：

效度的種類很多，使用最廣泛的是美國心理學會（American Psychological Association，APA，1974）所採用的分類法：內容效度（content validity），效標關聯效度（criterion-related validity），建構效度（construct validity）三類。

學者陳英豪、吳裕益（民 87）將其意義和考驗方法整理為表 2-5.3。

茲將其意義與內涵詳述於後（余民寧，民 86）。

（a）內容效度：一般而言，測驗試題若能涵蓋所要的教學目標和教材內容，並且是根據雙向細目表來命題，且具有足夠的代表性試題，即能夠確立該測驗內容效度的適當性。因此，教材目標與教學內容即是確立內容效度的兩種重要因素。

表 2-5.3 效度的意義和考驗的方法特質－多方法分析（multitrait－multimethod aproach）。

而內部一致性分析法，可以採用(a)相關分析法（b）團體對照法：依據學生的測驗總分高低，分成高低兩組，然後比較這兩組學生在每個試題上答對的百分比值。經過統計考驗後，若有顯著差異，表示試題具有較高的內部一致性。

本研究並無外在效標，是以僅採用內部一致性的效度分析法，包含相關分析與團體對照法，來考驗試題的效度，並驗證測驗的可研究性。

在文檔中二、教學評量的目的評量的本質應該是以提升學習者的學習為第一要務 (頁 40-48)