測驗分析

第二章文獻探討

第三節測驗分析

在測驗中的兩大特徵是信度( reliability )與效度( validity )，一份優良的測驗須具有較高的信度與效度值（余民寧，1997）；而一份在標準化情境下所編製的測驗，

更必須具備理想的信度與效度（周文欽，1995）。換言之，測驗分數之信度與效度的分析是測驗之所以成為優良測驗的必要步驟。一份測驗，除了透過個別試題的分析（即試題分析）之外，若能針對整份測驗做測驗整體的分析（即測驗分析），必能提高測驗的品質。本研究在信度指標方面，介紹古典測驗理論中常用的 Cronbach



信度係數。在效度方面，則從題本的檢核表與雙向細目表著手。

壹、信度

一、信度的意義

信度的意義是指（洪碧霞，1991a）：

1. 在不同時間裡測驗結果的穩定性。

2. 在不同次測驗下分數的一致性。

3. 不同評分者之間評定的一致性。

4. 評量結果的精確性。

- 39 -

上述四點實際上是從兩個觀點來解釋信度的涵義：一是由測量的一致性來看，信度是指相同的個人在不同的時間，以相同的測驗測量或以複本測驗測量，

或在不同的情境下測量，所得測量結果間的一致性。二是由測量的誤差來看，信度是在估計測量的誤差有多少，亦即在測驗分數中，信度能反映出有多少比例是由特質的真實差異所造成，以及測量誤差所佔的比例（余民寧，1995；郭生玉，

1989）。換句話說，信度高就表示包含的誤差成分很少；反之，信度低就表示包含了很多的誤差成分（陳佳秀，2004）。

一般而言，信度也可以說是可靠度，從字面上的意義來解釋，就是一份測驗的結果是否「可靠」。由此可知，信度所關心的是測驗分數的一致性或穩定性，也可以說是一份測驗的可靠度。如果一個成就測驗具有良好的信度，則在不同的主事者、評分者、時間、情境，或使用類似的試題下，其所得的分數應該接近或者一致。

二、信度的種類與求法

常用估計信度的方法有四種：重測法、複本法、內部一致性方法、評分者方法（余民寧，1997），茲介紹如下：

（一）重測法( test-retest method )

採用同一份測驗在不同的時間，針對相同的受試者重複施測兩次，再根據這兩次分數求得的相關係數，稱為重測信度係數( test-retest reliability coefficient )，或稱再測信度。此法的大前提假設是受試者的特質相當稱定，在兩次施測的時距內不隨時間而改變，但重測易受記憶的影響，且前後施測的時距沒有一定的規準，

加上重測耗費較多成本易造成不便，此適用於動作人格等測驗，而認知性測驗較不適用。（余民寧，1995；洪碧霞，1991 a；郭生玉，1989；歐滄和，1995）

（二）複本法( equivalent-forms method )

以複本重測法來估計信度，要以兩份測驗在試題格式、題數難度、鑑別度等方面均相當接近或相似，但不同試題，來測量同一組受試者，再根據兩次施測的測驗分數求相關係數，即為複本信度係數( parallel-forms reliability coefficient )。此信度係數可以說明兩個複本測驗測量相同行為或內容的程度。依實施複本測驗時距的不同，又可分兩種，一種是在同一時間連續施測，另一種是間隔一段時間施測。前者可反映出測驗工具內容所造成的誤差故又稱為等值係數( coefficient of

- 40 -

equivalence )；後者則可同時反映出測驗工具及受試者本身狀況所造成的誤差，此時該係數又叫穩定等值係數( coefficient of stability and equivalance )。複本重測法同時兼顧時間間隔及測驗工具內容取樣上的誤差，是檢驗測驗分數真正信度的嚴格方法，但其他重測信度問題仍存在，再者，真正的複本測驗編製相當困難，故不建議採用此一方式（余民寧，1995；陳英豪、吳裕益，2001；郭生玉，1989；歐滄和，1995；簡茂發，1987）。

（三）內部一致性方法( internal-consistency method )

上述兩種信度的估計方法，均需對相同受試者進行兩次施測，才能求得兩次估計方法有很多種，諸如：折半方法( split-half method )、庫李方法

( Kuder-Richardson method )、Cronbach’s



和霍意特變異數分析法( Hoyt’s analysis of variance procedure )。以下將只介紹本論文所採用 Cronbach’s



的信度係數之計算方法。

- 41 -

他方法所估算出來的信度，因此我們可以說



係數為信度估計的下限( lower bound )( Novick & Lewis, 1967 )。



係數的測量誤差主要來自於測驗內容抽樣的誤差，尤其是受到抽樣內容同質性或異質性誤差的影響較大。

由於



係數是所有



信度估計值的下限，所以



係數的值很高時，表示真正的信度值比它還高，由此我們可以斷定所分析的測驗，是一份值得信賴的測驗；

如果係數偏低時，則無法提供有關測驗較準確的訊息，也就是說，我們不能判斷該測驗是否真的值得我們的信賴，這是我們在解釋



係數信度時應特別注意的。

一般而言，一份優良的教育測驗至少應該具有 0.80 以上的信度值才具有使用的價值( Carmines & Zeller, 1979 )。

（四）評分者方法

採用不同評分者評閱試卷，來估計評分者的一致性，稱為評分者信度( scorer reliability )。若為客觀測驗評分不會受不同評分者判斷影響，就不需估計評分者信度；但若測驗計分會受到評分者主觀影響，則需考慮評分者信度，其評分的方法為先從測驗卷中抽取一些樣本，單獨由幾位評分者評分，然後根據所評分數求相關。當評分者間評分愈一致，評分者信度高；反之則愈低（何世欽，2001）。

三、提高信度的方法

信度既然是整份測驗優劣的重要指標之一，在從事命題工作時自然要更加注意，以期提高試題的品質，一般而言，要讓一份測驗有較高的信度，有下列幾個方式：

（一）命題要清楚

題幹的說明不可模稜兩可、不可故意導入錯誤的思考方向，也不可命出一些稀奇古怪的題目。因為不清楚的命題，對不同社經背景的受試者，可能會有不同的理解和解讀。所以命題最好能根據測驗所要測量的內容和目的來加以設計，而不是在玩文字遊戲，造成受試者的困惑，無法針對題目真正的題意作答。

（二）試題的數目要適量

一般而言，測驗的試題數愈多其信度也會愈高；試題數愈少則其信度愈低。

但是在施測時，還是要考慮到受試時間的長短，施測時間短的測驗，題目不可過多，以免受試者因作答不完，而以亂猜題的方式作答，而這樣的作答的情形必定會影響到測驗的信度。

- 42 -

（三）不要出太過難或過於簡單的試題

過於困難或鑽牛角尖的試題，造成只有少數的受試者會做，大部分的受試者往往會以猜題的方式作答；而過於簡單的試題，則大部分的受試者都答對，這兩種狀況都將使測驗分數的變異程度變小。由上述信度的計算公式我們知道，變異程度變小則信度將跟著變小。所以為了有較高的信度，我們應該讓試題的變異程度加大，而由以往測驗分析的結果可知，難易程度適中的試題（試題難易度指數在 0.50 左右的試題）的變異程度往往是最大的，其信度也會跟著提高。

（四）以客觀性計分試題為主

如果試題是採用主觀性的計分方式為主，將可能會造成評分者在不同的情況下而有不同的評分標準，因此造成測驗分數的差異，最後導致測驗的信度偏低。

所以，要有較高的信度，必須採用客觀性計分的題型。例如：是非題、選擇題或配合題……等這些題型的試題，在評分上較不受評分者主觀判斷的影響。

由以上幾點可以知道，如果測驗的平均分數過低（可能是試題過難或試題數過多）而造成信度的偏低。因此，一份良好的測驗應該以「能測出受試者真正的能力」為其主要目的，而不應該以考倒受試者為目的。

表 2-4 提供一般判斷信度與其意義的關係。信度對傳統只考一次的升學聯合考試是很重要的，因此，施測者在出題上必須要特別考慮到試題的難易度和鑑別度，

使整份測驗的信度提高，如此才不會讓社會各界和學生對升學考試抱持著「運氣比實力重要」的錯誤觀念。

表 2-4 信度係數參考指標表

信度係數意義

0.90    0.99

理想

0.80    0.89

不錯

0.70    0.79

尚可接受

0.60    0.69

勉強可接受

  0.60

不能接受

總之，一份優良的教育測驗至少應該具有 0.80 以上的信度值，才具有使用的

- 43 -

價值（Carmines & Zeller, 1979）。所以，施測者在出題上必須要特別考慮到試題的難易度和鑑別度，使整份測驗的信度提高，如此才不會讓學生對於考試的公平性產生質疑，也才使得學生更願意為測驗而努力。

貳、效度( ablidity )

效度是指測驗分數的正確性，亦即是指測驗能夠測量到它想要測量之特質或功能的程度，也就是「測驗所得的測驗分數」代表「施測者原本想測試的濳在特質」的程度，或者是測驗能多達到其編製目的的程度。效度高表示該測驗能夠達到它所要測量的目標，或說測驗能夠實現其測量目的。商一種測驗工具的效度甚低，則無法發揮其測量的功能，故編妥測驗後，考驗其效度是極為重要之事。在鑑定一個測驗的效度時，必須以該測驗的目的為依據，蓋因一種測驗工具對某特定的目的有效，但對其它的目的，可能缺乏效用（簡茂發，1993）。例如：命題者絕不會出一篇作文來測量受試的數學能力。因為就算是受試者的作文得滿分，我們也不能確定他的數學能力是否和其作文能力一樣好？因此，就測驗的目的而言，效度（正確性）比信度（可靠性）來得重要。

一、效度的特質

效度是測驗裡很重要的特徵，所以在使用測驗時，充分了解效度的一些特質，

是十分重要的，以下介紹四點效度的特質( Gronlund, 1976 )：

1. 效度是指「測驗結果」正確性的程度，而非指工具本身為了方便起見，我們常說「測驗的效度」，實際上，應該說是「測驗結果的效度」較為恰當。

更為明確的說法是「測驗結果解釋的效度」。

2. 效度不是「全有」或「全無」，而是「程度」的差別，應避免評鑑某一個測

在文檔中數學科試題分析之研究－以100學年度四技二專商業類聯合模擬考為例 (頁 46-0)

第二章 文獻探討

第三節 測驗分析

















