標準化評量編製

第二章文獻探討

第八節標準化評量編製

本研究所編製之地震類防災素養問卷為標準化評量，原因在於標準化評量的編製過程須經由客觀嚴謹的程序編寫測驗題目，並透過預試結果修正題目之難易度及鑑別度，修正完成後所建立之題庫，即具有一定之信度及效度。而且此評量量表以標準化的施測方式及計分方法進行，即使施測者不同，其施測結果仍具有

一定可信度及效度。最終的測驗結果也可依據一定的標準，即常模來予以解釋(吳明清，2006)。因此，待本研究建立常模，日後推行地震防災教育時，即可據以檢測各學習階段師生地震防災素養程度，了解防災教育推行成效。

標準化評量的編製步驟包括：(1)確定測驗的目的；(2)決定題型及編擬試題；

(3)預試和試題分析；(4)編輯測驗；(5)驗證信效度與建立常模等五個步驟(郭生玉，1994)。詳細過程說明如下:

一、確定測驗的目的

編製成就評量最重要的是確認所要評量的學習結果；明確的界定學習結果能使評量發揮最大的功效(陳英豪、吳裕益，2003)。郭生玉(1994)指出標準化成就測驗編製的目的不外乎：

(一)確定學生學習的基本技能(安置性測驗)。

(二)確定學生某一學科之成就水準(單科成就測驗)。

(三)確定學生的一般成就水準(綜合成就測驗)。

(四)診斷學生的學習困難(診斷性測驗)。

透過地震類防災素養標準化評量檢測用於評估各學習階段師生對於地震災害之了解程度或不足之處，並可依評量結果進行補救教學或修正教學內容。

二、決定題型及編擬試題

在確定測驗的目的之後，就可依測驗內容及受測對象來選擇合適的試題類型，

以編製試題。通常測驗的題型可分為兩大類(郭生玉，1994；歐滄和，2002；

Gronlund, 1982)：

(一)建構反應式題型：包含填充題、簡答題、申論題、建構式轉換題等。

(二)選擇反應式題型：包含是非題、選擇題、配合題、重組題等。

本研究採用之題型為選擇式題型，因選擇式題型最具結構性，適用於各種性質不同的教材內容，可以測量到各種不同層次的態度學習結果，而且作答方式簡單、易於計分、又具客觀性，是測驗中最常出現的題型，在團體標準化評量中經

常被使用(陳英豪、吳裕益，2003；凃金堂，2009；郭生玉，1994；歐滄和，2002)。

而且題目選項介於 3 到 5 個之間，不易猜題，且能從學生的答案中發現學生錯誤觀念之所在，具診斷之效果。

態度及技能評量是對某一事物的看法和能力所能及的程度，因此適合用「非常同意」到「非常不同意」或「非常能夠做到」到「非常不能做到」的五等第量表。

三、預試和試題分析

試題編擬彙整完畢後，經過測驗專家與內容專家審查，依專家意見適度修正後進行預試。預試樣本須選自母群體，預試和正式施測的實施程序應相同；過程中應注意受測者反應，以作為修定測驗或施測程序之參考，確保測驗品質(王文科、王智弘，2008；陳漢宗，1993；郭生玉，1994)。

試題分析的目的在於提高測驗的信度與效度，通常可根據試題的形式與內容做質的分析，為主觀性的試題分析；或根據試題的統計特性進行量的分析，即為客觀性的試題分析(余民寧，2003；李坤崇，2006；陳英豪，吳裕益，2003；郭生玉，1994；張淑慧，1999；簡茂發，1982；Kubiszyn & Borich, 1990)。

(一)質的分析：在試題編擬完成之後或預試之前，聘請測驗專家、學科專家及實際從事現場教學的教師等共同針對試題的內容與形式進行評鑑(馮觀富，

1983)；評鑑之項目可包含答案正確性、題意的明確性及清晰程度、答題難易度、內容重要性、試題偏差與否、與測驗計量符合性、與課程關聯性及與教學關聯性等(歐滄和，2002)。因本研究目的在建立全國性常模表，需要一定比例之樣本進行施測，因此採用量的分析。

(二)量的分析：在試題編寫完成後，從研究母群體中選取具代表性的樣本進行預試，藉由施測所得的作答反應，分析試題的難度與鑑別度，作為試題修改的依據(王文中等，2013)。

1.難度(

P

)分析：分析每一個試題的難易程度(一般知識性試題以通過率表示)，

一般而言，

P

值越接近.50，越能區隔出不同能力的受試者，是比較理想的試題(凃金堂，2009；陳英豪、吳裕益，2003；郭生玉，1994)，但要找到鑑別度高，

P

值又接近.05 的試題，實際上有困難。王文科、王智弘(2008)認為

P

值介於.20-.80 之間為宜。本研究為廣泛測知學生所具備的地震防災素養之通過率，故以難度指數.20-.80 為試題挑選標準。主要的計算方式有二：

(1)以全體受試者答對某題人數的百分比求得，題目越容易，通過的百分比越高。本研究之地震防災素養標準化評量量表態度方面是以勾選「同意」

以上(五等第 4 分以上)視為通過(即得分)，技能方面則以勾選「能夠做到」以上(五等第 4 分以上)視為通過，依次為通過人數之百分比計算。

(2)將受測者分為三組，得分最前面的 27％為高分組，得分最後面的 27％

為低分組，中間組則佔 46％，難度的計算公式如下：

L U

L P U

^P ^P



 

P：難度指數。

UP：高分組通過某一題目的人數。

LP：低分組通過某一題目的人數。

U：高分組總人數。

L：低分組總人數。

2.鑑別度(D)分析：鑑別度分析的目的，在於分辨各個題目區辨高分組與低分 組能力高下的程度。鑑別度高的題目，高分組的受測者答對人數多，低分組答對的人數則偏少，反之亦然。鑑別度分析有兩種方法：

(1)內部一致性分析：本研究採用內部一致性分析，以確定各題目是否與整個測驗的作用一致。其中高分組答對的比例若高於低分組，則該題的作用即視為與總分的作用一致。計算方式如下：

U L D U





D：鑑別度指數。

U：高分組總人數。

U_p：高分組答對某一題的人數。

L^p：低分組答對某一題的人數。

(2)題目效度分析：用來分析題目與外在效標的關係，當兩者關聯效度指數愈高，用來預測之外在效標的用途愈大，為此最常被用來作為試題鑑別度分析的工具就是點二系列係數 (林清山，1996)。

採用題目效度分析時，通常會先選出鑑別度較高的試題，再從中選出難度指數較適中的題目。目前國內多以美國學者 Ebel(1972)所提出之鑑別度指數標準作為選題之依據(表 2-5)。雖然，試題鑑別度愈高愈好，但 一般只要 D 值達.25 即可被接受，故本研究以鑑別度指數.25 為試題挑選 標準。

表 2-5 試題鑑別度指數之評鑑標準

鑑別度指數(D) 鑑別度之評鑑 .40 以上非常優良

.30~.39 優良，如能再改進則更佳 .20~.29 尚可，仍須再改進

.19 以下劣，必須淘汰或再修改

(郭生玉，1994) 四、編輯測驗

在將一定數量的題目編製成測驗題本時，應當考量下列幾個原則(王文科、

王智弘，2008)：

(一)測驗時間是否足夠：

ㄧ般中學以上程度的測驗，選擇題的做答時間以一題一分鐘為原則，而且 80％以上的學生都要能作答完畢，如果施測對象是小學生，則標準可能還要

再降低一些(Aiken, 1985)。

(二)題目編排是否合宜：

為使作答過程更加流暢，測驗相同學習成果的題目或隸屬於同一類型的試題皆應盡量編排在一起。而且題目的排列順序也要由易而難，以避免打擊受測者的信心，並提高作答動機(陳英豪、吳裕益，2003)。

(三)作答說明是否明確：

試題編製者應以淺顯易懂、簡單扼要的文字來說明測驗的目的、施測時間長短、計分方式、作答的方法，以及在無法確定答案時，是否允許猜測答案。

五、驗證信效度與建立常模

為了考驗測驗品質以及解釋測驗結果時能有所依據，在問卷題本編輯完成後

，即須從母群體中抽取具代表性的樣本進行正式施測，並利用施測結果來建立測驗的信效度及常模。

(一)測驗信度的建立：

一種測驗工具的信度，即在於顯示不論在何時測量，所得結果前後的一致性程度。一種測驗的信度係數愈高，測驗誤差便會被減到最低程度，其施測所得的分數便可供比較。現今一般最常被專家學者們所採用的信度類型如下 (王文科、王智弘，2008；陳英豪、吳裕益，2003；凃金堂，2009；郭生玉，

1994)：

1.重測信度(test–retest reliability)：

重測信度是估量一種測驗最明顯的方法。即對同一組受測者在兩個不同時間測得的分數求其相關，藉此種程序求得的相關係數，稱之為重測信度。

此係數乃是在標示受測者在不同時間得分的一致性。由於所使用的試題是相同的，測驗結果易受記憶與練習或其他偶發因素的影響，故再測信度的高低和兩次測試時間的間隔長短有密切的關係，間隔時間愈長信度愈低；反之，

間隔時間愈短信度愈高，較為適當的間隔時間以一至兩週最為合適(郭生玉，

1994；余民寧，2003)。但仍需考慮測驗的種類、用途以及受試者的年齡等因素。

2.複本信度(parallel–forms reliability)：

同一測驗編製甲、乙兩式，且這兩份測驗在試題格式、題目數量、難度、

鑑別度、指導說明語、例題、時間限制等方面均相似或相同，並針對同一群受試者施測，根據測驗的分數求其相關。當其所測量的試題樣本愈可靠，所欲測量之內容範圍愈相近，所得的複本信度就愈高。使用複本信度可以避免因記憶或練習帶來的影響，最適用於估量受試者的學業與心理量數的信度。

3.內部一致性信度(internal consistency reliability)：

重測信度和複本信度受測者均需要接受兩次測驗，因此很容易受到合作意願、疲勞等不利因素影響。而若採用內部一致性信度，則只需施測一次即可(余民寧，2003)。此分析方法的重點在於題目之間是否具有同質性，作法包含：折半方法(split-half method)、庫李方法(Kuder-Richardson method)、

α

係數(coefficient alpha)及霍意特變異數分析法( Hoyt’s analysis of variance procedure)。最常使用的方法為前三種，茲分述使用時機如下(郭生玉，1994；余民寧，2003)：

(1)折半方法：係用以估量同一測驗內兩部份等量題目的一致程度。而將測驗分成兩半的方法有隨機抽樣或分為奇數題及偶數題兩種方式。通常折半信度愈高，表示兩半測驗的內容愈一致，即為內容選樣愈適當。

(2)庫李方法：著重於分析受測者對每一個題項所做的反應是否具有一致性，

此一致性大小又受到內容取樣及測驗特質的異質性所影響。測驗特質的同質性愈高，反應一致性愈高，庫李信度的係數也愈高。庫李信度非常適用於二元化計分方法選項。所謂二元化計分方法的測驗題級是一般常

在文檔中各年段學生及中小學教師地震類防災素養標準化評量建置與檢測之研究 (頁 44-55)

第二章 文獻探討

第八節 標準化評量編製

P

P

P

P

L U

L P U



 

U L D U





α

第二章文獻探討

第八節標準化評量編製