• 沒有找到結果。

第二章 文獻探討

第四節 測驗理論

壹、 試題與測驗

所謂的試題一般分成題幹(stem)和作答反應(response)兩部分,其中 前者提供受試者一個刺激(stimuli),後者則提供受試者一些作答的提示(hint)。

例如:選擇題(multiple choices),題幹就是一句話或者一個問句,作答反應 則是選項。試題是一種測驗工具,用於瞭解受試者在某方面的能力。一份測 驗通常是由很多不同形式的試題組成,所以測驗編製 (test construction)是指

16

在某些教學指引或目標的規範下,製作一系列的試題。廣義的來說,所謂測 驗編製涵蓋測驗題目的設計,預試,以及測驗編輯和修正。(余民寧,2009)

貳、 古典測驗理論

古典測驗理論(Classical Test Theory,CTT)是從整體的觀點來解釋測驗 分數的涵義。也就是說理論的依據是以受試者在所有題目得到的總分的解釋。

這個理論又被稱作「古典信度理論」,因為理論中求得的信度是估計某個測 驗實得分數的信度(余民寧,2009)。古典測驗理論企圖估計實際得到分數 與真實分數之間的關聯程度。古典測驗理論(CTT)可以用以下公式來說明:

E T

X   (1) 公式中的 X 為觀察分數;T 為真實分數;E 為誤差分數;觀察分數等於 真實分數與誤差分數的和(王寶墉,1995)。古典理論的發展至今已為時甚 久,並且頗具規模,也因為所使用的計算公式簡單明瞭、淺顯易懂,而被廣 泛適用於大多數的教育與心理測驗資料,以及社會科學資料的分析,為目前 測驗學界使用與流通最廣的理論依據之一。

然而,凡事都是一體兩面,有利也有幣。歸納起來,古典測驗理論的缺 點如下(余民寧,2009):

1. 理論中所採用的指標包括難度(difficulty)、鑑別度(discrimination)、信度 (reliability)皆是一種樣本依賴(sample dependent)的指標。

2. 古典測驗理論以一個相同的測量標準誤(standard error of measurement)當 作每位受試者的測量誤差指標,而沒有將受試者能力的個別差異列入考量。

3. 古典測驗理論忽視了受試者的試題反應組型 (item response pattern),認為 原始得分相同的受試者,其能力必定一樣;但事實不然。

參、 試題反應理論:

17

試題反應理論(Item Response Theory)的誕生是為了克服古典理論中的種 種缺失。兩種理論最大的不同是,有別於古典理論是以整份測驗的得分為思

所謂的電腦化測驗主要有兩大類,其一是指 Computer Based Tests,簡

18

稱 CBT;另一個是指 Computer Adaptive Tests,簡稱 CAT。前者是一般的電 腦化測驗,後者則是一種電腦化適性測驗(余民寧,2002)。

貳、電腦化適性測驗

電腦化測驗是指運用電腦來實施測驗。電腦化適性測驗(CAT,Computer Adaptive Tests)是一種新科技時代量身訂製的測驗。每位受試者的評量題目 會隨著其在上一題的答題狀況而即時改變,整份測驗是根據受試者的能力與 技能而設計編製的。簡單來說,每位受試者所被施測的試題和題數會因為受 試者能力的不同和作答反應的不同而有所不同(Thompson & Weiss, 2011;

余民寧,2002)。

事實上,以電腦化適性測驗來施測不僅可以達到因才施測般精確估計受 試者的能力,更可以節省施測時間與成本,同時兼具與傳統紙筆測驗相當的 信度和效度(Weiss, 1982; Weiss & Kingsbury, 1984)。電腦化測驗之所以漸漸 受到各領域教師們的喜愛,其優點可以歸納如下(余民寧,2009;Lord, 1980):

1. 加強測驗的安全性。

2. 依據需求施測。

3. 不需使用任何紙張,符合環保要求。

4. 適合每位考生的作答速度。

5. 立即的計分和報告成績。

6. 降低學生作答時的挫折感。

7. 加強施測的標準化過程。

8. 容易從題庫中找出並刪除不良試題。

9. 對於試題類型的選擇更具彈性。

10. 減少監視的時間。

19

然而,工欲善其事,必先利其器。要達到以上 CAT 施測時的優勢,做 到因才施測,必須搭配下列條件,才能事半功倍(余民寧,2002):

1. 已建置好的題庫或電腦化題庫系統。

2. 欲建立的電腦化測驗試題必須經過校準或量尺化(calibration)。 3. 適當的心理計量學理論基礎(e.g. IRT)。

4. 電腦及其週邊設備。

5. 適當的軟體程式。

6. 具使用適性測驗理論與實務經驗的專業教師。

圖 2-2 電腦化適性測驗流程圖(余民寧,2009)

余民寧(2009)曾經在「試題反應理論及其應用」一書中提到電腦化適 性測驗之實施步驟(如圖2-2)的第一步是一組3-5題的練習題,以確認受試 者的能力起始值。所以為提高測驗的精準度,在進行正式的適性測驗前要有

否 開始測驗

測驗結束 能力估計值

開始選題

受試者作答

終止條件滿足?

輸出考試成績

電腦化題庫系統(運算、挑題、呈現下 一題)

提供練習題數題,同時估計受試者能力值 的起始值

20

一個簡單的預試,讓電腦系統瞭解受試者的能力以利精準選題,真正做到省 時省題。以下僅將電腦適性測驗的實施要點包括測驗題庫、測驗起點、能力 估計、選題策略、測驗終止條件,逐一說明如下:

一、測驗題庫

CAT的施測原則是依據試題參數來選擇試題,題庫品質與試題參數有絕 對的相關,也就是說試題品質的優劣直接影響測驗的精準度。要設計出一個 良好的CAT題庫需要具備幾個要點:(1)題庫的試題量要達到紙筆測驗的十 倍以上;(2)受試者的能力分佈則要呈現常態分配;(3)測驗試題的難度參 數需介於-3~3之間;(4)試題的鑑別度參數應介於0~2之間;試題的猜測度 指數應小於試題選項分之一。(余民寧,2009)

二、測驗起點

CAT 的設計原則是依據受試者的能力來選擇作答題目,但是在施測起始 時,因為尚無數據來掌握受試者的能力,所以受試者需要作答的第一題試題 庫中難度適中的題目。換句話說,所謂依據受試者實際能力選題的原則是從 其作答的第二題開始。

三、選題策略

就電腦化適性測驗而言,常用的選題方法有以下三種(Chen, Ankenmann

& Chang, 2000;余民寧,2009):

1. 從題庫中隨機抽取能夠確實針對受試者提供最大訊息量的試題。

2. 以常態分配作為受試者的能力分配,結合貝氏選題法挑選試題。

3. 選擇難度最接近受試者現階段能力估計值的試題。

四、能力估計

就電腦化適性測驗而言,受試者在每作答一題後,電腦都會依據其作答 反應重新估計其能力值,用以做為選擇下一個受試題目的依據。目前測驗界,

21

最被廣泛應用的三種能力值估計法是最大近似值估計法(Maximum

Likelihood Estimation,MLE)、貝氏期望後驗法(Expected a Posteriorin,EAP)

與最大後驗法(Maximum a Posteriori,MAP)(Cheng & Liou, 2000)。在實際 進行電腦化施測時,通常是三種估計法交替使用以便更精準的估計受試者的 能力(洪碧霞,1989)。

以下僅將 MLE、EAP、MAP 三種能力估計法逐一說明:

1. 最大近似值估計法(MLE)(Birnbaum, 1968):

此估計法的原理是將受試者的反應組型代入公式(3),計算出其最大概

2. 貝氏期望後驗法(EAP)(Bock & Mislevy,1982):

Bock 與 Mislevy (1982)主張 EAP 估計法的目的是用以找出受試者能力

22

公式中,U 為所有作答反應的向量,L(Uq)為概似函數,

q為受試者真實能力, q 為計算能力的期望值時所切割的分割點,

k 為切割點的總和,q k 的值愈大,則計算出的能力值愈精準。 q

3. 最大後驗法(MAP)(Samejima, 1969):

此估計法 MAP 是依據受試者的事前能力分布 f()作為加權值,在計算

23

卻沒有真正針對國小六年級畢業學童設計,用以評量這些學童在畢業時應該 具備的英語閱讀理解能力。所以本研究的初衷是編製一份可以作為國小教師 檢測學生學習成效的測驗,同時也提供國小學童在英語學習過程中自我檢測,

及時補救相關英語閱讀能力的工具。

總結來說,電腦化測驗,特別是一個針對國小學生設計的國小英語閱讀 電腦化測驗,在科技日益進步的今天可作為第一線的國小英語教師在教學過 程中的一個重要工具,也可成為協助國小學童自我英語閱讀能力檢測的一項 利器,這也是本研究的目的之一。

24

25

第三章 研究設計與方法

本研究的主旨是以國民中小學九年一貫課程綱要英語領域的閱讀分段 能力指標與內涵和臺灣 TASA 英語領域的題型架構與範例為依據,針對國小 六年級學童設計一份國小英語閱讀電腦化適性測驗。本章分為五小節來說明 整體研究設計與方法。

26

第一節 研究流程與步驟

圖 3-1 研究流程圖

本研究主題的研究設計如圖 3-1 所示,並敘述如下:

1. 確認研究主題:

在國小擔任中高年級的英語專任教師至今快十年,發現國小英語教室中 的雙峰現象愈趨嚴重,其中又以國小六年級學童最嚴重。測驗既是一種評量 的工具,更是一種發掘問題的工具。期望可以設計一份真正可以評量國小六 年級學生英語能力的電腦化測驗來發掘雙峰問題的原因,進而解決之。

電腦化測驗

結論與建議 確認研究主題

文獻探討

編製測驗試題

預試與題目修正

正式施測

收集學生作答反應

試題分析

結果與成效分析

27

(1) your watching (2) watching (3) watch

選項 A B C 無作答

高分組 100 113 14 0

低分組 78 93 23 0

28

29

30

D 大題 5-1-5 能看懂日常生活應對中常用語

句(如問候、致謝、道歉、道 別等),並能作適當的回應。

C 大題 (2,4,7,8)

參、 題型介紹

本研究中的測驗題目皆是 3 選 1 的選擇題,最適合於國小六年級學童在 進行電腦化測驗中使用,進而以學生作答反應精準分析出受試者的能力範圍。

選擇題(multiple choice items)是由兩個部分組成 – 題幹(stem)和選項 (option),其命題的優點如下(郭生玉,1985):

1. 選擇題的題意比是非題或填充題清楚明確。

2. 選擇題的信度比是非題高,因為受猜測因素影響較少。

3. 選擇題計分方式迅速而且準確。

4. 選擇題的試題難度可以藉由調整選項的同質性而受到控制。

5. 降低學生作答時的焦慮。

研究者將本研究中試題選項設定在三個的原因是依據教育部九年一貫 課程綱要中規範的國小學童在國小畢業時必須掌握的字彙、文法、會話等標 準設計。換句話說,國小學童在單字、基礎會話、文法句型等的基礎是非常 有限的。

第三節 研究對象

本研究的施測對象為臺中、彰化地區的國小六年級學童,共計 690 位,

本研究的施測對象為臺中、彰化地區的國小六年級學童,共計 690 位,

相關文件