• 沒有找到結果。

第二章 文獻探討

第三節 測驗分析

在測驗中的兩大特徵是信度( reliability )與效度( validity ),一份優良的測驗須 具有較高的信度與效度值(余民寧,1997);而一份在標準化情境下所編製的測驗,

更必須具備理想的信度與效度(周文欽,1995)。換言之,測驗分數之信度與效度 的分析是測驗之所以成為優良測驗的必要步驟。一份測驗,除了透過個別試題的 分析(即試題分析)之外,若能針對整份測驗做測驗整體的分析(即測驗分析), 必能提高測驗的品質。本研究在信度指標方面,介紹古典測驗理論中常用的 Cronbach

信度係數。在效度方面,則從題本的檢核表與雙向細目表著手。

壹、信度

一、信度的意義

信度的意義是指(洪碧霞,1991a):

1. 在不同時間裡測驗結果的穩定性。

2. 在不同次測驗下分數的一致性。

3. 不同評分者之間評定的一致性。

4. 評量結果的精確性。

- 39 -

上述四點實際上是從兩個觀點來解釋信度的涵義:一是由測量的一致性來 看,信度是指相同的個人在不同的時間,以相同的測驗測量或以複本測驗測量,

或在不同的情境下測量,所得測量結果間的一致性。二是由測量的誤差來看,信 度是在估計測量的誤差有多少,亦即在測驗分數中,信度能反映出有多少比例是 由特質的真實差異所造成,以及測量誤差所佔的比例(余民寧,1995;郭生玉,

1989)。換句話說,信度高就表示包含的誤差成分很少;反之,信度低就表示包含 了很多的誤差成分(陳佳秀,2004)。

一般而言,信度也可以說是可靠度,從字面上的意義來解釋,就是一份測驗 的結果是否「可靠」。由此可知,信度所關心的是測驗分數的一致性或穩定性,也 可以說是一份測驗的可靠度。如果一個成就測驗具有良好的信度,則在不同的 主 事者、評分者、時間、情境,或使用類似的試題下,其所得的分數應該接近或者 一致。

二、信度的種類與求法

常用估計信度的方法有四種:重測法、複本法、內部一致性方法、評分者方 法(余民寧,1997),茲介紹如下:

(一)重測法( test-retest method )

採用同一份測驗在不同的時間,針對相同的受試者重複施測兩次,再根據這 兩次分數求得的相關係數,稱為重測信度係數( test-retest reliability coefficient ),或 稱再測信度。此法的大前提假設是受試者的特質相當稱定,在兩次施測的時距內 不隨時間而改變,但重測易受記憶的影響,且前後施測的時距沒有一定的規準,

加上重測耗費較多成本易造成不便,此適用於動作人格等測驗,而認知性測驗較 不適用。(余民寧,1995;洪碧霞,1991 a;郭生玉,1989;歐滄和,1995)

(二)複本法( equivalent-forms method )

以複本重測法來估計信度,要以兩份測驗在試題格式、題數難度、鑑別度等 方面均相當接近或相似,但不同試題,來測量同一組受試者,再根據兩次施測的 測驗分數求相關係數,即為複本信度係數( parallel-forms reliability coefficient )。此 信度係數可以說明兩個複本測驗測量相同行為或內容的程度。依實施複本測驗時 距的不同,又可分兩種,一種是在同一時間連續施測,另一種是間隔一段時間施 測。前者可反映出測驗工具內容所造成的誤差故又稱為等值係數( coefficient of

- 40 -

equivalence );後者則可同時反映出測驗工具及受試者本身狀況所造成的誤差,此 時該係數又叫穩定等值係數( coefficient of stability and equivalance )。複本重測法同 時兼顧時間間隔及測驗工具內容取樣上的誤差,是檢驗測驗分數真正信度的嚴格 方法,但其他重測信度問題仍存在,再者,真正的複本測驗編製相當困難,故不 建議採用此一方式(余民寧,1995;陳英豪、吳裕益,2001;郭生玉,1989;歐 滄和,1995;簡茂發,1987)。

(三)內部一致性方法( internal-consistency method )

上述兩種信度的估計方法,均需對相同受試者進行兩次施測,才能求得兩次 估計方法有很多種,諸如:折半方法( split-half method )、庫李方法

( Kuder-Richardson method )、Cronbach’s

和霍意特變異數分析法( Hoyt’s analysis of variance procedure )。以下將只介紹本論文所採用 Cronbach’s

的信度 係數之計算方法。

- 41 -

他方法所估算 出來的信度,因此我們可以說

係數為信度估計的下限( lower bound )( Novick & Lewis, 1967 )。

係數的測量誤差主要來自於測驗內容抽樣的誤 差,尤其是受到抽樣內容同質性或異質性誤差的影響較大。

由於

係數是所有

信度估計值的下限,所以

係數的值很高時,表示真正 的信度值比它還高,由此我們可以斷定所分析的測驗,是一份值得信賴的測驗;

如果係數偏低時,則無法提供有關測驗較準確的訊息,也就是說,我們不能判斷 該測驗是否真的值得我們的信賴,這是我們在解釋

係數信度時應特別注意的。

一般而言,一份優良的教育測驗至少應該具有 0.80 以上的信度值才具有使用的價 值( Carmines & Zeller, 1979 )。

(四)評分者方法

採用不同評分者評閱試卷,來估計評分者的一致性,稱為評分者信度( scorer reliability )。若為客觀測驗評分不會受不同評分者判斷影響,就不需估計評分者信 度;但若測驗計分會受到評分者主觀影響,則需考慮評分者信度,其評分的方法 為先從測驗卷中抽取一些樣本,單獨由幾位評分者評分,然後根據所評分數求相 關。當評分者間評分愈一致,評分者信度高;反之則愈低(何世欽,2001)。

三、提高信度的方法

信度既然是整份測驗優劣的重要指標之一,在從事命題工作時自然要更加注 意,以期提高試題的品質,一般而言,要讓一份測驗有較高的信度,有下列幾個 方式:

(一)命題要清楚

題幹的說明不可模稜兩可、不可故意導入錯誤的思考方向,也不可命出一些 稀奇古怪的題目。因為不清楚的命題,對不同社經背景的受試者,可能會有不同 的理解和解讀。所以命題最好能根據測驗所要測量的內容和目的來加以設計,而 不是在玩文字遊戲,造成受試者的困惑,無法針對題目真正的題意作答。

(二)試題的數目要適量

一般而言,測驗的試題數愈多其信度也會愈高;試題數愈少則其信度愈低。

但是在施測時,還是要考慮到受試時間的長短,施測時間短的測驗,題目不可過 多,以免受試者因作答不完,而以亂猜題的方式作答,而這樣的作答的情形必定 會影響到測驗的信度。

- 42 -

(三)不要出太過難或過於簡單的試題

過於困難或鑽牛角尖的試題,造成只有少數的受試者會做,大部分的受試者 往往會以猜題的方式作答;而過於簡單的試題,則大部分的受試者都答對,這兩 種狀況都將使測驗分數的變異程度變小。由上述信度的計算公式我們知道,變 異 程度變小則信度將跟著變小。所以為了有較高的信度,我們應該讓試題的變異程 度加大,而由以往測驗分析的結果可知,難易程度適中的試題(試題難易度指數 在 0.50 左右的試題)的變異程度往往是最大的,其信度也會跟著提高。

(四)以客觀性計分試題為主

如果試題是採用主觀性的計分方式為主,將可能會造成評分者在不同的情況 下而有不同的評分標準,因此造成測驗分數的差異,最後導致測驗的信度偏低。

所以,要有較高的信度,必須採用客觀性計分的題型。例如:是非題、選擇題或 配合題……等這些題型的試題,在評分上較不受評分者主觀判斷的影響。

由以上幾點可以知道,如果測驗的平均分數過低(可能是試題過難或試題數 過多)而造成信度的偏低。因此,一份良好的測驗應該以「能測出受試者真正的 能力」為其主要目的,而不應該以考倒受試者為目的。

表 2-4 提供一般判斷信度與其意義的關係。信度對傳統只考一次的升學聯合考 試是很重要的,因此,施測者在出題上必須要特別考慮到試題的難易度和鑑別度,

使整份測驗的信度提高,如此才不會讓社會各界和學生對升學考試抱持著「運氣 比實力重要」的錯誤觀念。

表 2-4 信度係數參考指標表

信度係數 意義

0.90    0.99

理想

0.80    0.89

不錯

0.70    0.79

尚可接受

0.60    0.69

勉強可接受

  0.60

不能接受

總之,一份優良的教育測驗至少應該具有 0.80 以上的信度值,才具有使用的

- 43 -

價值(Carmines & Zeller, 1979)。所以,施測者在出題上必須要特別考慮到試題的 難易度和鑑別度,使整份測驗的信度提高,如此才不會讓學生對於考試的公平性 產生質疑,也才使得學生更願意為測驗而努力。

貳、效度( ablidity )

效度是指測驗分數的正確性,亦即是指測驗能夠測量到它想要測量之特質或 功能的程度,也就是「測驗所得的測驗分數」代表「施測者原本想測試的濳在特 質」的程度,或者是測驗能多達到其編製目的的程度。效度高表示該測驗能夠達 到它所要測量的目標,或說測驗能夠實現其測量目的。商一種測驗工具的效度甚 低,則無法發揮其測量的功能,故編妥測驗後,考驗其效度是極為重要之事。在 鑑定一個測驗的效度時,必須以該測驗的目的為依據,蓋因一種測驗工具對某特 定的目的有效,但對其它的目的,可能缺乏效用(簡茂發,1993)。例如:命題者 絕不會出一篇作文來測量受試的數學能力。因為就算是受試者的作文得滿分,我 們也不能確定他的數學能力是否和其作文能力一樣好?因此,就測驗的目的而 言,效度(正確性)比信度(可靠性)來得重要。

一、效度的特質

效度是測驗裡很重要的特徵,所以在使用測驗時,充分了解效度的一些特質,

是十分重要的,以下介紹四點效度的特質( Gronlund, 1976 ):

1. 效度是指「測驗結果」正確性的程度,而非指工具本身為了方便起見,我 們常說「測驗的效度」,實際上,應該說是「測驗結果的效度」較為恰當。

更為明確的說法是「測驗結果解釋的效度」。

2. 效度不是「全有」或「全無」,而是「程度」的差別,應避免評鑑某一個測

2. 效度不是「全有」或「全無」,而是「程度」的差別,應避免評鑑某一個測

相關文件