• 沒有找到結果。

第二章 文獻探討

第三節 試題編製與分析理論

試題是構成測驗的基本單位,其性能的優劣關係著整份測驗的品質(沈怡伶,

2006)。余民寧(2002)提到在教師自編成就測驗的過程中,如何判定所編製出 來的測驗試題就一定是品質優良的試題呢。可以由下列兩個方面著手:

壹、針對試題內容做品質分析(qualitative analysis):

品質分析可由試題的內容審查輯一些有效的命題原則與教學目標等評鑑工具 來進行(Linn,& Gronlund,2000)。在正常的教學情境下,教師透過試題的邏輯審 查,通常都能確保試題具有教學內容的代表性,都能測量到他所要測量的教學目 標的功能,亦可以達成確保試題具有一定的內容效度。

貳、針對試題的統計特徵進行量化分析(quantitative analysis):

主要在分析每個試題所具備的三大統計特徵:難度(difficulty)、鑑別度

(discrimination)、誘答力(distraction)。以下就難度、鑑別度和難度指標及鑑別 度指標間的關係做簡單說明。

一、試題的難度分析 (一)答對百分比法

試題的難度與測驗的效率(effectiveness )有闕,難度適當的試題是構成優良 測驗的必要條件。試題的難易程度通常以全體妥試者答對或通過該是富的百分比 ( percentage passing) 表示之。共計算公式為:

P= ×100%

上式中, P 代表試題難度,N 為全體受試人數, R 為答對該題的人數。例如:在 200 名預試學生中,答對某一試題者有 54 人,則其難度為 ×100%= .27( 27%) 另一種試題難度的求法,係先將受試者依照測驗總分的高低次序排列,然後把得 分最高與得分最低的受試者各取全體人數的 27%左右,定為高分組和低分組,

26

再分別求出此兩組在某一試題上通過人數的百分比,以兩組百分比的平均數作為 該試題的難度。其計算公式如下:

P = P + P 2

上式中,P 代表試題難度,PH 為高分組且通過該題人數百分比 ,PL 為低分組通 過該題人數百分比。例如:在某題作答中,高分組有 74% 答對,低分組有 22% 答 對,則該題難度為P = =.48 (或 48% )。

以 P 表示試題的難度, P 值愈大,難度愈低; P 值愈小,難度愈高 例如:在某一 測驗中,第一題、第二題、第三題的通過人數百分比(P)依次為 20% 、30%、 40% , 則第一題的難度最高,第二題的難度次之,第三題的難度最低。不過, P 值是一 種順序尺度( ordinal scale), 差距單位並不相等,因而只能表示試題難易的相對 位置,均無法指出各難度之間差異的大小。上例中的第一題與第二題在難度上的 差別量,並不等於第二題與第三題在難度上的差別量。

(二)等距量尺分析

針對上一缺點,看美國教育測驗服務社(Educational Testing Service) 另創一類 具有等距尺度(interval scale )特性的難度指數,以Δ(delta)示之。它是一個以 13 為平均數、4 為標準差、下限為 1 、上限為 25 的標準分數。Δ值愈小,難度念 低;Δ值愈大,難度愈高。它不但可以表示試題難度的相對位置,認且可以指出 不同雞皮之間的差異數值。這種難度指數係基於試題所側量的特質呈常態分配的 假設,認為試題的難度可在常態分配曲線的橫軸上某一點以離差分數(deviation score)示之。其求法係根據答對某一試題的人數百分比與答錯該題的人數(包括未 作答者〕百分比,使前者在右,後者在左,找出兩者在常態分配曲線橫軸上的分 界點,此點的相對位置以標準差為單位表示之,即為 Z, 再按下列公式求出Δ值:

Δ=13+4Z

Δ為試題難度指標,Z 為標準化常態分配的標準分數(江仲翔,2003)。

27

常用的Δ值介於 1~25 之間,平均難度指標值為 13。Δ值愈大,表示試題的 愈困難;Δ值愈小,表示試題愈簡單。事實上,Δ值在轉換的過程是相當繁瑣的,

因此已有學者(Fan,1952)將 P 值、Z 值和Δ值之間的轉換製成表,稱作「范氏 試題分析表」(Fan’s item analysis table),使用者可以直接從表上查詢Δ值(張雅 婷,2012)。

難度分級如下表 2-3-1

表 2-3-1 難度等級評鑑表

難度值 難度等級

P>0.80 極容易 0.60 ≤P≤0.80 容易 0.40 ≤P≤ 0.60 難易適中 0.20 ≤P≤ 0.40 困難

P<0.20 極困難 二、試題的鑑別度分析

構成測驗的試題必須具有鑑別某種心理特蟹的作用,始能使測驗成為有教可 靠的測量工具。試題的鑑別力 (discriminating. power) 之大小與測驗的信度和效 度皆有密切的關係。欲增進測驗的預測與診斷功能,必須著重試題的鑑別度分析。

試題的鑑別度分析可分為內部一致性 (internal consistency) 與外在效度分析

(external validity)兩方面,其目的在於分析受試者對試題的作答反應與某些參 照標準之間的相關程度,藉以判定個別試題的性能及其對整個測驗的貢獻和影 響。。

(一)內部一致性分析

此即一般所謂「諧度分析」,其目的在於檢查個別試題與整個測驗的作用之一 致性。分析的方法有下列兩種:

28

1.探求試題反應(item response) 與測驗總分之間的關連性

受試者對某一個別試題的作答反應可分為答對與答錯兩種情形,屬於二分的變項 (dichotomous variable) 。 每 人 各 有 其 測 驗 總 分 , 屬 於 連 續 的 變 項 (continuous variable) 。兩者之間的關聯性,可應用雙列相關(biserial correlation)或點值雙列 相關(point-biserial correlation)的方法,求得相關係數,以表示內部一致性的高 低。

2.比較高分組和低分組在個別試題上通過人數百分比

先將測驗總分最高的 27%受試者列為高分組,最低的 27%受試者列為低分組,然 後分別求出這兩組受試者在個別試題上的答對人數百分比,再以高分組的百分比 減去低分組的百分比所得的差數,作為鑑別指數 (index of discrimination) 。其計 算公式如下:

D=PH-PL

其中,D 代表鑑別指數. PH為高分組答對百分比, PL為低分組答對百分比。

例如:高分組通過某試題的答對百分比為 .63,低分組通過該試題的答對百分比 為 .21, 則其鑑別指數( D)為 .63− .21= .4。鑑別指數愈大,表示個別試題反 應與測驗總分的一致性愈高。

Kelly(1939)指出當測驗分數為常態分配時,以 27%分組可以獲得試題最可 靠的試題鑑別力。當低於 27%時,結果的可靠性較低,而百分比太大時,會影響 題目的作用。所以對教師而言,合理的分組百分比為 25%-33%之間。

鑑別度指標通常以小數表示,其值介於-1.00 到 1.00 之間。當指數愈高,表 示鑑別力愈大,反之指標數愈小,則鑑別力愈小。當鑑別力過低時,其可能原因 為:

(1)題目太容易或太艱難,使的大部分的人皆答對或答錯。

(2)題目題義不清。

如有試題其鑑別度為負時,則為一種很不尋常的狀態,教師應就試題刪除或修改

29

(江仲翔,2003)。

美國測驗學者 Ebel&Frisbie(1991)提出一套鑑別度的評鑑標準如表 2-3-2,以 供試題命題者作為選題的參考。

表 2-3-2 鑑別度等級評鑑表

鑑別度值 鑑別度等級

0.19 以下 劣,需大幅修改或刪除 0.2~0.29 尚可,但須部分修改 0.3~0.39 優良,但須小幅度修改

0.4 以上 非常優良

(二)外在效度分析

此即試題的效度分析,其目的在於檢驗每一個試題是否具有預定的某種鑑別 作用。它是以外在效標 (external validation criterion )為依攘,衡量試題反應與效 標分數的相關程度,或分別求出各效標組(criterion groups) 在某一試題上答對人 數百分比,以其差數作為效度指數(index of validity)。外在效度分析的方法和步 驟,與前述內部一致性的分析相彷彿,所不同者只是參照標準不同而已。通常首 先必須決定一個外在的效標,諸如學業成績、工作表現或評定的分數等,然後依 據效標分數,將受試者區分為高分組和低分組,各占總人數的 27%左右,再分別 求出高分組和低分組在各個試題上答對的百分比,然後以前者減去後者,其差數 的大小,即可顯示各個試題在預定功能上的鑑別力。

三、選項誘答力分析

Haladyna(1944)指出客觀測驗(如選擇題)之所以要進行選項的誘答力分析

(distraction analysis),乃因可借此來提供教師進一步的試題分析指標,協助教師 改進編製試題的技巧與初步瞭解整體學生的作答情況。而要分析試題選項是否具 有誘答力,我們仍然只要分析高、低分組學生在個試題選項中的選答次數,再加

30

以判斷即可。主要的判斷基本原則為:

(一)、每個不正確的選項,都至少有一位低分組的學生來選。

(二)、低分組選擇不正確的答案要比高分組選擇不正確的答案的人更多。

若發現有違反上述兩個參考原則之醫者,則表示該試題不正確的選項需要加以修 改或者是刪除,以保持選擇型試題的基本誘答功能。

叁、信度、效度分析理論

一、信度

信度(reliability)與效度(validity)是測驗上的兩大特徵(Gronlund,1976),

教師在編製每一份測驗評量時,都希望測驗具有較高的信度與效度。也為了使測 驗能成為一份公具有公正、客觀且優良的教學評量工具,分析試題的信度與效度 更是必要的步驟。

(一)、信度的意義

信度是測量工具本身之精確程度,可以由兩個不同的方面來解釋,一是由測 量的一致性來看,二是由測量誤差來看。如果測量結果具有穩定的一致程度,那 就表示這個測量有可靠性、可預測性及區別的能力。如果從測量誤差來看,根據 古典測驗理論的假設,當測驗分數中測量誤差所佔的比率較低,則真實分數所佔 的比率較高,即信度係數較高。反之,當測驗分數中測量誤差所佔的比率較高,

則真實分數所佔的比率較低,即信度係數則較低。一般而言,一份優良的教育測 驗至少應該具有0.80以上的信度係數值,才比較具有使用的價值(Carmines &Zeller, 1979)。

(二)、信度的種類

估計信度的方法有許多種,在常模參照測驗下,最常被學者專家們採用及討 論的信度估計方法共可分成四種,分別是:再測方法(test-retest method)

、複本方法(parallel-forms method)、內部一致性方法(internal-consistency method)、

31

評分者方法(scorer method)(郭生玉,1990;陳英豪、吳裕益,1991;Carmines

&Zeller, 1979; Dick &Hagerty, 1971; Feldt &Brennan, 1989; Gronlund, 1993;Kaplan & Saccuzzo, 1993)。

1.再測方法

此方法就是將同一份測驗在不同時間對相同受試者前後重複測量兩次,根據 兩次測驗結果,求出兩次得分間的相關係數,該係數即稱作「再測信度係數」

(test-retest reliability coefficient),或簡稱「再測信度」。由於再測信度是在不同時 間下測量,有些欲測量的潛在特質或能力是會隨時間而改變的,因此,其測量誤 差來源,主要是來自不同時間下測量所造成的誤差。

(test-retest reliability coefficient),或簡稱「再測信度」。由於再測信度是在不同時 間下測量,有些欲測量的潛在特質或能力是會隨時間而改變的,因此,其測量誤 差來源,主要是來自不同時間下測量所造成的誤差。

相關文件