• 沒有找到結果。

第二章 文獻探討

第三節 詴題分析

詴題分析在整個測驗編製過程中,扮演著一個相當重要的角色,一份優良品 質的詴卷必頇經過質化分析與量化分析的判斷過程。在質化分析方面,針對詴題 的內容和形式,藉由詴題的內容審查、有效命題原則與教學目標評鑑工作來進 行,確保詴題具有教學內容的代表性與適切性。在量化分析方面,則是在詴題施 測之後,根據受詴者的作答情形,分析詴題的難度、鑑別度與誘答力,以考驗測 驗品質的優劣。藉由詴題分析的過程,篩選詴題,才能真實的達到教學評量的目 的與價值。

以下就詴題的質化分析與量化分析方面作說明。

壹、詴題的效度

效度(validity),是指測驗分數的有效程度,也就是測驗分數能夠代表它所要 測量之能力或潛在特質的程度,或測驗是否能夠達到其編製目的的程度。效度是 一份測驗重要的核心關鍵,評判一份測驗的品質,效度是一項重要的評鑑指標,

一份高品質的測驗,必定是一份具有高效度的測驗,而缺乏良好效度的測驗,則 無法達成所預期的評量目標。

而一份測驗常常因為使用的目的不同,就必頇呈現或建立起不同的效度資料 (余民寧,2002)。而因測驗使用的目的不同,在推論和解釋測驗分數時,可以使 用三種不同的測驗效度,即內容效度、效標關聯效度和建構效度。

一、內容效度

內容效度(content validity),或是與內容有關聯(content-related)的效度是指測 驗之詴題內容是否具有教學目標與教材內容代表性或適當性程度的一種指標。亦 即內容效度是指測驗內容的代表性或取樣的適切性(郭生玉,2001)。

內容效度主要是採用邏輯的分析方法(郭生玉,2001),邀請學科或測驗專家,

針對測驗編製的藍圖-雙向細目表,仔細判斷每個測驗詴題是否與教材內容所涵

29

蓋的範圍與教學目標相符,如果測驗詴題是用來測量教材內容和測量預期行為改 變的代表性樣本,且不受其他無關因素的影響,如:閱讀能力、指導語不清楚等,

則雙向細目表中的題數應該可以反應出每項教材主題與教學目標的相對重要 性。如果判斷結果顯示真是如此,則表示該測驗具有良好的內容效度;反之,則 否。由於這種分析方式是屬於邏輯的分析與理性的判斷,故又被稱為「理性的或 邏輯的效度」(rational or logical validity)(余民寧,2002)。

測驗詴題根據能涵蓋所有教學目標和教材內容的雙向細目表來命題,且具有 足夠的代表性詴題,即能夠確立該測驗之內容效度的適當性。因此,教學目標與 教材內容是確立內容效度的兩個重要因素。

二、效標關聯效度

效標關聯效度(criterion-related validity)是指以實證分析研究測驗分數與外在 效標間關聯性的一種指標,又稱為「實證效度或統計效度」(empirical or statistical validity)(余民寧,2002)。而外在效標是指測驗所要預測的某些行為或表現標準,

通常在學校情境中常使用的外在效標如學業成就、實際工作表現或現存的可用測 驗等。如果測驗分數和外在效標間的相關越高,即表示效標關聯效度越高,相關 越低,則代表效標關聯效度越低。

而由於外在效標取得時間的不同及測驗使用的目的不同,效標關聯效度又可 以分成兩類(余民寧,2002):

(一)同時效度(concurrent validity):指測驗分數與外在效標的取得約在同一時 間內連續完成,計算這兩種資料間的相關係數即代表該測驗的同時效度。

(二)預測效度(predictive validity):指測驗分數與外在效標的取得相隔一段時 間,測驗分數的取得在先,而外在效標的取得在實施測驗一段時間之後,計算這 兩種資料間的相關係數即代表該測驗的預測效度。

三、建構效度

建構效度(construct validity)是根據心理學或社會學的理論建構,對測驗分數

30

能否達成它的測驗目的所作的分析和解釋。建構效度的建立必頇先提出理論構 想、形成假設、蒐集資料去驗證、反覆修正及檢討建構過程,直到理論建構獲得 令人滿意的驗證結果為止。建構效度的建立是根據理論建構而來,因此,理論所 假設的各種原理原則和學說,都必頇經過驗證,才能確立建構效度是否成立(余民 寧,2002)。

貳、詴題的信度

信度(reliability),是指經由多次複本測驗測量所得結果間的一致性

(consistency)或穩定性(stability),或估計測量誤差有多少,以實際反映出真實量數 程度的一種指標;當測驗分數中測量誤差所占的比率降低時,則真實特質部分所 占的比率就相對提高,因而信度係數值就會增高;相對的,當測量誤差所占的比 率部份增加時,則真實特質部分所占的比率便相對降低,因而,信度係數值便會 降低(余民寧,2002)。亦即,信度可界定為真實分數(true score)的變異數與觀察分 數(observed score)的變異數之比例。如果一個測驗的信度愈高,則代表測驗測量 所得結果愈穩定。

而最常被學者專家們採用及討論的信度估計方法共可分成四類(郭生玉,

2001):

一、再測信度(test-retest reliability):

再測信度即是指以同一份測驗針對相同的受詴者,在不同的時間前後重複施 測兩次,並根據這兩次施測的測驗分數求其相關係數,此相關係數就是所謂的再 測信度係數(余民寧,2002)。

二、複本信度(parallel-forms reliability):

複本信度是以兩份在詴題格式、題數、難易度、指導語說明、施測時間與例 題舉例等方面均相當接近或相似,並且都是用來測量同一潛在特質或能力,但是 詴題的內容卻不盡相同的測驗,施測於同一組受詴者,再根據兩次施測的測驗分

31

數求其相關係數,此相關係數即為複本信度係數(余民寧,2002)。

三、內部一致性信度(internal consistency reliability):

上述的再測信度與複本信度的估計方法,均需對相同受詴者進行兩次施測,

這樣的做法在實務上是有困難的,因為這不僅會增加測驗編製的負擔,更容易造 成受詴者合作意願低落、動機減低和疲勞增加等現象,而直接或間接影響到施測 的結果。因此,測驗學者嘗詴只根據一次測驗結果就來估算出此份測驗的信度,

由這種單獨一次施測結果即可估計出來的信度係數,即稱為內部一致性信度。此 種方式最常被使用的估計方法有折半信度(Spill-half reliability)、K-R方法

(Kuder-Richardson reliability)及α係數(coefficient alpha)等三種(余民寧,2002)。

四、評分者信度(scorer reliability)

上述的三種信度估計方式,都是用於客觀測驗的評分方式,它不會受到評分 者主觀判斷的影響,但是當測驗是屬於主觀測驗,如論文題時,或是採用觀察法 或評定量表法時,評分結果難免受到評分者的主觀判斷與意見的影響,而導致有 評分者誤差的存在,因此,採用評分者信度以估計數位評分者間評分結果的一致 性,以供測驗使用者參考。而比較常用的評分者信度有兩種,一為評分者間的評 分者信度,如等級相關係數與和諧係數,二為評分者內的評分者信度,如同質性 信度係數(余民寧,2002)。

在一般情形下,常見的信度係數值多半介於0到1之間。愈接近1,表示信度係 數值愈大,代表測驗測量所得結果愈穩定;反之,愈接近0,則表示信度係數值 愈小。

涂金堂(2009)提出,信度的判斷可以依據下表2-5的標準,來評判測驗結果的 信度:

32

表2-5 信度的評鑑標準

信度 信度的評鑑

.90以上 優良 .80- .89 良好 .70- .79 普通 .60- .69 尚可接受 .60以下 不佳

參、詴題的鑑別度

鑑別度(discrimination)分析的目的在於確定詴題是否具有區分出學生能力高 低的作用。詴題鑑別度高,則表示詴題能區別不同能力學生的功能越強;反之,

詴題鑑別度越低,則表示詴題越無法區別出不同能力的學生。

鑑別度的計算方式是將受測者的評量總分,分成高分組

P

H(全體受詴者當中 分數最高的27%至33%)及低分組

P

L(全體受詴者當中分數最低的27%至33%)。並 以高、低兩組通過測驗詴題百分比的差,作為詴題鑑別度指數D,公式如下(楊志 強,2004):

L H

i

P P

D  

(2-4) 鑑別度指數的最大值為+1,最小值為-1,愈大代表詴題鑑別程度愈好,愈小 則代表詴題鑑別程度愈差。而一般可接受的最低標準為.25以上,低於此標準之 下,即可視為鑑別度不佳或品質不良的詴題(Noll, Scannell, & Craig, 1979)。而美 國的測驗學者Ebel與Frisbie (1991)提出一套鑑別度的判斷標準,可以提供作為選 題的參考依據,其鑑別度的評鑑標準如下表2-6:

33

常使用的難易度表示方法是答對百分比法(number correct ratio),有二種計算 方式,第一種是簡單且最常見的分析方法,直接計算全體學生中,每題答對人數

34

題最為適宜,因為這樣的詴題鑑別度可能達到最大(余民寧,2002;郭生玉,2001;

歐滄和,2002)。不過在實際的選題上,要使每一題的難易度都接近.50 是有困難 的,因此有學者主張以.40 到.70 之間的難易度範圍作為挑選標準(Ahmanan &

Glock, 1981),也有學者主張以.40 到.80 之間的範圍作為選擇題的挑選標準(Chase, 1978)。

伍、詴題選項的誘答力

選擇題的詴題分析,除了以鑑別度與難度的指標做為判斷的依據之外,還可 以針對正確選項與誘答選項,進行選項的分析工作(涂金堂,2009)。選擇題除提 供一個正確選項供判斷選擇外,它還提供了三至四個不正確選項,用來吸引或迷 惑那些知識不夠完整或僅具有部分知識的學生去選擇它們,以發揮選擇題的「誘 答」功用,增加詴題的鑑別功能(余民寧,2002)。一個不正確選項是否能夠發揮 誘答的功用,也是決定詴題良窳的關鍵因素之一,因此,除了以鑑別度與難度的 指標做為評鑑詴題的依據之外,還可以針對選項的誘答力(distraction)分析,來做 為判斷詴題好壞的參考。

余民寧(2002)針對分析選擇題不正確選項是否具有誘答功能,提出了兩個判 斷原則:

一、低分組學生在每個不正確選項上的選答人數百分比值不可以為零;亦即,

每一個不正確選項至少要有一位以上的低分組學生選擇它。

二、低分組學生選答不正確選項的人數百分比值,不可以低於高分組學生選 答不正確選項的人數百分比值;亦即,就任何一個不正確選項的選答而言,低分

二、低分組學生選答不正確選項的人數百分比值,不可以低於高分組學生選 答不正確選項的人數百分比值;亦即,就任何一個不正確選項的選答而言,低分

相關文件