標準化評量編製

第二章文獻回顧

第九節標準化評量編製

標準化測驗特別的地方在於，一為該測驗經由標準化的程序編製而成，此程序需經過客觀、嚴謹的測驗題目編寫，並經由「預試」加以修正，然後定稿，因此具備一定的信度與效度；二為該測驗有標準化的實施方式與計分方法，因此不管施測者為任何人，其測驗結果均無差異；三為該測驗具有解釋測驗結果的標準，

此標準即為常模，這也是「好測驗」應具備的條件(吳明清，2006)。因此綜合類防災素養檢測如為標準化測驗，可提升測驗的品質，並透過常模的建立，可以用來了解各年段學生與中小學教師的綜合類防災素養程度，成為推動綜合類防災教育的參考外；亦可以做為綜合類防災教育推動前後成效評估的檢測工具，得見標準化評量之重要性。

編製標準化測驗的步驟包括：(1)確定測驗的目的(2)確認題型及發展測驗題

67

目(3)進行預試及試題分析(4)修正試題及編輯正式測驗(5)正式施測，驗證信效度與建立常模(周文欽等人，1996)。詳細過程說明如下：

二、確定測驗目的與內容

編製測驗之前，首先要了解的是測驗目的為何，確認目的之後，才能進一步地確認所要測量的內容，以成就評量的測驗的目的而言，主要有四種範疇(陳英豪、吳裕益，1994；郭生玉，2004):

(一) 評估學習者的起點行為，以便將學生安置在適合的教學計畫中，為安置測驗

(二) 了解學習者進步的情形，藉由評量結果提供回饋給教師及學生，為形成性測驗。

(三) 診斷學生的學習困難，作為補救學習者教學的評斷依據，為診斷測驗。

(四) 評量學習者在教學結束之後，學生的成就表現，而得知是否有達到教學目標，為總結性測驗。

而此上述四種範疇可能會有某部分的重疊，因此有時候一個測驗的設計可同時用來達成一種以上的功能。如：形成性測驗可提供回饋與教師與學生，亦可以用來了解學生對於學習主題的精熟程度，使得測驗的目的具多功能性(郭生玉，2004)。確定測驗目的之後，接著進行測驗內容的確定，測驗內容的獲得可由文獻或現有的測驗分析或諮詢相關人員而來(周文欽等人，1996)。

教師可利用本研究之綜合類防災素養標準化評量評估於學習者對於綜合類災害與防災之了解程度及需要加強的部分，並依據檢測結果對學生進行教學；

此外，評量亦可用教學中施測，以作為教師調整課程的參考；以及評量實施於課程之後，可了解學生的學習情形與教師教學之成效。

二、確認題型及發展測驗題目

試題的題型繁多，大多可分為兩大類：

(一)選擇反應試題:如是非題、選擇題、配合題等。

68

(二)建構反應試題:如簡答題、填充題、申論題等。

因每種試題的測量功能、目的、施測對象等不同，需考慮前述因素以決定適合的題型，題型決定之後，便可依據欲測量的內容發展測驗題目。

本研究之測驗題型為選擇式題型，選擇題有下列特點(周文欽等，1996；陳英豪、吳裕益，2003；王文中等人，2013)：

1.選擇題易於實施、易於計分，具備客觀性，適合用於團體施測中進行。

2. 選擇題適用於各種不同層次學習結果與各種不同的教材內容的測量。

3. 題目選項通常在 3-5 個之間，使得猜題的機會較是非題低，答題的可靠性較高，並且可由學生答的答案中發現學生錯誤觀念之所在，因此具有診斷的效果。

三、進行預試及試題分析

編擬好的測驗題目，需進行預試的工作，預試的測驗題目應經過專家(測驗專家與內容專家)的審查，並依據專家的建議做適當的修改後，再實際進行預試，

其樣本需選自正式施測時擬實施測驗的母群體當中，且實施的程序與正式施測的程序應力求一致(王文科，2003；周文欽等人，1996)。

試題分析是分析預試之後，受試者在在測驗當中各個試題的反應，主要目的在於檢視題目的品質，良好的題目加以保留；不佳的題目則加以修正或捨棄，以提升測驗的品質。試題分析可分作兩種，一種為質的分析，屬於主觀性的分析；

一種為量的分析，為客觀性的分析(王文中等，2013；周文欽等，1996)

(一)質的分析:在編擬試題之後及預試前，會邀請測驗專家、內容專家或是相關從事教學的教師，針對試題的內容、形式，進行適切度與否的評鑑(馮關富，

1983)；評鑑之項目可以包括答案正確性、題意的明確性及清晰程度、內容的重要性、答題的難易度、試題的偏差與否，以及與課程的關聯性或教學的關聯性(歐滄和，2002)。

(二)量的分析:預試後，依受試者各題的答題反應，進行試題的(1)難度與(2)鑑

69

別度的分析，並將分析過後的結果作為試題修改的依據(王文中等，2013)。

1.難度(P)：指的是每個試題的難易程度，有兩種程度的分析方法：(1)通過百分比分析(2)等距量尺分析，其中以通過百分比法最為簡單與實用，通過百分比主要是計算全體受測者答對每個試題的人數百分比，計算方式有二(王文科，2003)：

(1) 以全體受試者通過或答對某題人數的百分比求得，題目越容易，通過百分比越高，計算公式如下：

P = R

N× 100%

P：難度指數。

R：通過某一題目的人數。

N：全體受試者人數。

(2) 將受試者得分情形分為三組，得分最前面的 27%為高分組，得分位於最後面的 27%為低分組，得分中間組占整體人數 46%，計算公式如下：

U L L P U^P ^P



 

P：難度指數。

U_P：高分組通過某一題目的人數。

L_P：低分組通過某一題目的人數。

U：高分組總人數。

L：低分組總人數。

以通過百分比表示難度時，其數值 P 越大表示題目越容易；數值 P 越小則題目越難，當 P 值越接近 0.5 時，表示該題難度適中，且鑑別度也最大，，

70

越能區別不同能力的受試者，不過要找到所有的題目的 P 值都接近.50，實際上是有困難(郭生玉，2004)。因此學者 Ahmanan & Glock(1981)提出 P 值可介於.40-.70；而學者 Chase 則主張選擇題的選題標準，P 值可為.40-.80。

2.鑑別度(D)：一個良好的試題往往需要較高的鑑別度。分析試題鑑別度主要是了解各個試題是否具有區別學生能力高低的作用，如果某試題鑑別度很高，高分組的學生傾向答對，而低分組的學生傾向答錯；如果鑑別度越低，

該試題區辨學生能力的作用也愈弱(余民寧，1995)，鑑別度的分析方法有兩種類別：一為內部性一致效度分析，一為題目(項目)效度分析(王文科，

2003)

(1) 內部一致性效度分析:主要在了解各個試題的功能是否能和整個測驗的功能一致，此種分析有一個基本假設，整個測驗總分具有某種程度的效度，如果此假設成立，每個試題的反應若和總分具有一致性，即表示個別試題也具有某種程度的效度，因此高分組答對的比例如果高於低分組，

該試題的作用即視為與總分的作用一致(余民寧，1995)，計算公式如下：

U L D U





D：鑑別度指數。

U：高分組總人數。

：高分組通過某一題目的人數。

LP：低分組通過某一題目的人數。

(2) 題目(項目)效度分析：通常是在分析題目與外在效標的關係，一個題目的效度指數越高，用來預測的效標的用途越大，通常採用點二系列係數來分析題目(項目)效度(王文科，2003)

71

試題的鑑別度越高，測驗的信度越高(Ebel, 1967)，因此一個比較可靠的測驗，試題的鑑別度應該偏高。鑑別度越高越好，但一般可接受的最低標準為.25 以上，低於此以下就是為鑑別力不佳的試題(Noll, Scaccell &

Graig, 1976)，鑑別度的評鑑標準見表 2-19。

表 2-19 試題鑑別度指數之評鑑標準

鑑別度指數(D) 鑑別度之評鑑 .40 以上非常優良

.30~.39 優良，如能再改進則更佳 .20~.29 尚可，仍須再改進

.19 以下劣，必須淘汰或再修改資料來源：郭生玉(2004)。教育測驗與評量。

四、編輯正式施測試題

為能建立好的評量試題，問卷要經過專家審查內容效度與過預試之過程，每次預試都要檢視各試題信度、難度、鑑別度後，再依專家審查意見與試題分析結果之範圍標準，進行試題的修正、保留與篩選，以編輯成正式問卷之試題。進行正式問卷編輯時，同時注意問卷測驗時間長短是否適當、題目編排是否合宜、作答說明是否詳盡等事項。最後而能完成正式問卷之編製(王文科，2003)。

五、正式施測，驗證信效度與建立常模

正式施測問卷完成後，從母群體當中抽出具代表性的樣本進行正式施測，此施測結果用以驗證測驗的信效度與常模，以作為測驗品質的考驗及解釋測驗結果的依據。

(一) 信度(reliability)的建立：

正式施測前後會進行信度、效度分析，正式施測前會以預試的結果進行信效度分析，以作為試題的修正或刪除的依據，以確定測驗的品質；正式施測後亦會依正式施測結果驗證信效度，作為正式問卷的品質考驗。

72

信度指的是相同的學生在不同的時間、不同的情境進行相同測驗，其結果一致性如何，每一種測驗在不同測驗情況所得的結果多少都具備差異，如依前述的條件進行測驗，進行的兩次測驗結果相當一致，可說明測量分數具可靠性與穩定性，可信程度高。

從測量誤差來看，信度指的是測驗或測驗中反應受試者的真實分數的程度或沒有誤差的程度，兩次測驗的結果越趨一致，則測量誤差會越小，則代表該測驗可測出受試者的真實分數精確度越佳，顯示測驗的信度越高(余民寧，1995；

郭生玉，2004)。信度的估計方法常見的有四類，說明如下：

1. 重測信度(test-rest reliability)：指的是同一個測驗在不同的時間，重複測量同一群受試者兩次，依據兩次的分數求得的相關而得的信度係數(余民寧，

1995)。如果兩次測驗結果一致性高，表示測驗具備穩定性，且擁有很高的信度。但可能會受施測時間間隔距離之長短、受測當日學生身心狀況等因素而影響產生誤差(郭生玉，2004)。

2. 複本信度(parallel-forms reliability)：指的是兩份在內容、形式、難度、題數、施測時間限制等都相類似或相當的測驗，且兩份測驗的試題皆不相同但都是用來測量相同的潛在特質與屬性(余民寧，1995)。兩個複本測驗實施於同一群相同的受試者，依據施測者的得分數求取相關，即為複本信度，

在文檔中各年段學生及中、小學教師綜合類防災素養標準化評量建置與檢測之研究 (頁 80-91)

第二章 文獻回顧

第九節 標準化評量編製

67

68

69



 

70

U L D U





71

72

第二章文獻回顧

第九節標準化評量編製