• 沒有找到結果。

在多元計分下部分給分S-P表模型於國小高年級數學成就測驗上的應用

N/A
N/A
Protected

Academic year: 2021

Share "在多元計分下部分給分S-P表模型於國小高年級數學成就測驗上的應用"

Copied!
115
0
0

加載中.... (立即查看全文)

全文

(1)

國 立 臺 中 教 育 大 學 教 育 測 驗 統 計 研 究 所

國民小學教師在職進修教學碩士學位班碩士論文

指導教授:許天維 博士

在多元計分下部分給分 S-P 表模型於

國小高年級數學成就測驗上的應用

研究生:劉曉霞 撰

(2)

I

謝 辭

光陰似箭,日月如梭。轉眼碩士研究生階段的學習就將結束了。衷心感謝諸 位老師的辛勤教育和培養,兩年來自己取得的點滴進步無不凝聚著各位老師的殷 殷關切之情。 還記得 碩士班一年級 時,還在摸索自 己的研究 方向,但如今卻 翻閱著即 將付梓的論文,心情有點澀、有點苦,隨即揚起的是由淡轉濃的甘甜,回甘的滋 味,從心裡到記憶,久久不去。師長的指導、好友的鼓勵、家人的支持,支撐著 疲累卻又滿載學習的喜悅,在忙碌的夾縫中點滴累積,在穿梭的時空中逐漸成形。 在論文完成的此時,沒有激動的情緒,而是感恩的心不斷湧起。 走 過 這 一遭 , 發現 原 來論 文 沒有 想 像中的 困 難 ,但 也 沒有 想 像中 的 簡 單。看 似一個人的文章,但背後卻是許多師長 在專業上的指 導 ,同學們的 加油打 氣,以及學長 姐們經驗的傳 授。首先我 要感謝我的指 導教授 許 天 維 老 師 , 從 論 文 計 畫 書 到 後 續 研究 的 進 行 , 都 給 我 許 多 空 間 和 機 會 去摸索 研究的方向,創 造屬於自己的 論文;另 一方面,在我遭 遇分析和寫 作的瓶 頸時給我許多 寶貴的建議 , 有如醍醐灌 頂,令我豁然 開朗。 再來感謝口試委員的斧正指導!陳進春教授及胡豐榮教授百忙撥冗擔任口試 委員。指導教授與口試委員們對於本論文的修整與指正,讓文獻探討從連篇累牘、 搜章摘句到文從字順、斐然成章,讓研究方法能詞理同洽、順理成章;不僅協助 論文順利完成,委員們給予的鼓勵、指正與提供未來研究的啟發,讓我如解倒懸 並能援筆成章,提攜策進之恩,銘感在心! 最後,向所有關心和幫助過我的師長和朋友致以誠摯的敬意和衷心的感謝。

(3)

II

中文摘要

本文主要的目的係在探討部分給分 S-P 表分析法之學生注意係數、試題注意 係數與差異係數的應用,並重新詮釋學生注意係數分析、學生注意係數,來擴展 佐藤隆博的 S-P 表分析法理論,以便於試題呈現部分給分時亦能運用。再來就是 對試題做試題分析。從受試者選擇各個選項的反應情形,來了解受試者在數學科 的學習情形,以提供老師在進行數學教學及補救教學時的參考。 本研究的資料來源為國小六年級的學生,共 258 人受試以作為研究樣本,並 以試題選項特徵曲線來分析試題。本研究提出下列結論: 一、部分給分 S-P 表分析法可應用於數學成就測驗上,確實計算出此次測驗的差 異係數為 0.3659 二、試題 Cronbach α一致性檢驗的信度為 0.743。 三、試題的平均難度為 0.48,題目難度適中。 四、學生作答反應結果分析,可有效提供教師在教學上之應用。 關鍵字:部分給分 S-P 表、注意係數、試題選項特徵曲線

(4)

III

Abstract

The main purpose of this paper focuses on the formulas of Partial Credit Student-Problem Chart Analysis, the caution index for students and items, and Disparity index. Then it re-interprets the caution index for students analysis

Chart to exploit Sato′s S-P Chart Analysis Theory, so that the item presented in Partial Credit Scoring can be used. The second purpose of this paper was to explore a math test.

By means of the analysis of the multiple-choice items, we can get a clear idea how students learn math, which would be a good reference for teachers to adjust their teaching methods and proceed to remedial instruction. In this study, the subjects were 258 students. The data of this study was analyzed through the item option

characteristic curve model.The findings from this study were as follows:

1. The Disparity Coefficient value bases on Partial Credit S-P Chart Analysis formula is 0.3659.

2. The Consistency Reliablity Coefficient of questions is 0.743 3. The average Difficulty of the questions is 0.48.

4. The results of students’ performance analysis offer teachers to apply in teaching effectively.

(5)

IV

目錄

第一章 緒論

... 1

第一節 研究動機

...

1

第二節 研究目的

...2

第三節 名詞釋義

... 3

第二章 文獻探討

... 5

第一節 S-P 表

... 5

第二節 部分給分

... ... 22

第三節 試題編製與分析理論

... 25

第三章 研究方法

... 41

第一節 研究架構

... 41

第二節 研究對象

... 42

第三節 研究工具

...43

第四節 資料處理與分析

... 47

第四章 研究結果與討論

...49

第一節 部分給分 S-P 表分析結果與討論

... 49

(6)

V

第二節 試題題本分析

... 53

第三節 個別試題分析

... 56

第五章 結論與建議

... 83

第一節 結論

... 83

第二節 建議

... 85

參考文獻

...86

中文部分

...86

英文部分

...88

日文部分

... 89

附錄

附錄一 原始分數矩陣表

... 90

附錄二 學生注意係數表

... 101

附錄三 內容效度檢核表

... 105

(7)

VI

表目錄

表 2-1-1 S-P 原始資料表... 6 表 2-1-2 排序後的 S-P 資料表... 7 表 2-1-3 S 曲線... 7 表 2-1-4 完成之 S-P 表... 8 表 2-1-5 差異係數說明... 9 表 2-1-6 部分給分 S-P 表... 13 表 2-1-7 按學生總分高低,由上往下排列... 14 表 2-1-8 按試題答對人數積分多寡,由左至右排列... 15 表 2-1-9 畫出 S 曲線、P 曲線... 16 表 2-1-10 學生注意係數... 17 表 2-1-11 S-P 表的相關研究... 18 表 2-3-1 難度等級評鑑表... 27 表 2-3-2 鑑別度等級評鑑表... 29 表 2-3-3 信度係數參考指標... 35 表 3-2-1 受試者統計表... 42 表 3-3-1 數學成就評量能力指標檢核表... 45 表 4-1-1 學生診斷分析表... 50 表 4-1-2 試題注意係數... 51 表 4-2-1 數學內涵與數學能力雙向細目表... 53 表 4-2-2 試題題本信度分析表... 54 表 4-3-1 單選題試題的難度及鑑別度指標... 56 表 4-3-2 部分給分試題的難度指標... 57 表 4-3-3 第 16 題的得分情形... 77

(8)

VII

表 4-3-4 第 17 題的得分情形... 78

表 4-3-5 第 18 題的得分情形... 79

表 4-3-6 第 19 題的得分情形... 80

(9)

VIII

圖目錄

圖 2-1-1 學生診斷分布圖... 10 圖 2-1-2 試題診斷分布圖... 11 圖 2-2-1 PCM 的步驟類別... 22 圖 3-1-1 研究架構圖... 41 圖 4-1-1 部分給分 S-P 表... 49 圖 4-1-2 學生診斷分布圖... 50 圖 4-1-3 試題診斷分布圖... 52 圖 4-2-1 信度曲線... 55 圖 4-3-1 試題 1 之試題選項特徵曲線... 62 圖 4-3-2 試題 2 之試題選項特徵曲線... 63 圖 4-3-3 試題 3 之試題選項特徵曲線... 64 圖 4-3-4 試題 4 之試題選項特徵曲線... 65 圖 4-3-5 試題 5 之試題選項特徵曲線... 66 圖 4-3-6 試題 6 之試題選項特徵曲線... 67 圖 4-3-7 試題 7 之試題選項特徵曲線... 68 圖 4-3-8 試題 8 之試題選項特徵曲線... 69 圖 4-3-9 試題 9 之試題選項特徵曲線... 70 圖 4-3-10 試題 10 之試題選項特徵曲線... 71 圖 4-3-11 試題 11 之試題選項特徵曲線... 72 圖 4-3-12 試題 12 之試題選項特徵曲線... 73 圖 4-3-13 試題 13 之試題選項特徵曲線... 74 圖 4-3-14 試題 14 之試題選項特徵曲線... 75 圖 4-3-15 試題 15 之試題選項特徵曲線... 76

(10)

1

第一章 緒論

自古以來,測驗一直是評量能力、篩選人才、診斷盲點及未來發展潛力的不 可或缺的工具。隨著時代的進步,測驗結合科技,突破了許多以往的限制,更職 稱地發揮了它的功能。從文獻及實證經驗上,發覺目前常用之測驗模式,一般均 採用二元計分模式,二元計分之觀點是將所有錯誤選項之誘答力視為相同,實為 損失訊息之欠佳模式,不能忠實反應資料訊息。本研究針對國小高年級學童數學 能力編制測驗工具,以部分給分模式進行概念探討,期能提供教師們針對不同能 力學童之教學參考。本章首先介紹研究背景,並說明本研究之目的,最後再界定 本研究所使用之專有名詞,以釐清其意義。

第一節 研究動機

測驗依計分方式不同可分為二元計分與多元計分。二元計分意指受試者的答 題反應,結果只有對或錯二種情況,只考慮正確與錯誤兩種資料,並將未作答視 同錯誤資料,成為正確(1)與錯誤(0)之二元資料。常見的單選題、是非題均 屬於二元計分的題型。單憑最後答案的對錯,以決定受試者能力的方式,並未考 慮到受試者答題的歷程及作答反應情形,可能會有答對總分相同,但作答反應組 型不同,其表示的意義也可能不同(Harnisch, D.L. & Linn, R.L.,1981a)。如果只 探討正確選項而忽略其他誘答選項,則會有損失不同誘答力的選答訊息,所以有 多元計分選項分析模式的產生。 多元計分係指將受試者的作答反應區分為數種型態,再對應到數個類別之中, 不同的類別會有不同的分數(秦靜儀,1999),不只探討正確選項的選答情形, 還兼顧了同一試題各誘答選項誘答力不盡相同所影響的訊息,且各誘答選項有專 有的反應特徵曲線,所以多元計分模式所估得的參數值,必較以二元計分模式所 估得的參數值,訊息充分且有效,可以較精確地估計受試者的特質,甚至更可進 一步達到診斷的功能。

(11)

2 由於目前的 S-P 表分析理論僅能適用於二元資料(0、1 或對、錯);如果遇 到有分段給分的計算題、證明題之類的評量,每個學生在每個試題上的反應類型 可能得分 0 分、1 分、2 分、3 分、…等的多元計分模式,其試題反應類型就不再 單純是屬於對或錯的二元資料,此時 S-P 表分析方法就無法針對多元計分的資料 型態,提供類似分析結果,非常可惜(林原宏,1999)。本研究欲發展既有的 S-P 表分析理論,使得能夠分析多元計分測驗資料。在計分的模式上採取多元計分下 部分給分模式,並以佐藤隆博曼哈頓距離量尺概念,來發展部分給分 S-P 表,以 獲得 S-P 表的差異係數(D*

)、學生的注意係數(caution index of student,簡稱 CS) 和試題的注意係數(caution index of problem,簡稱 CP)。

S-P 表提供受試者學習狀況的診斷資料,但 S-P 表受限於二元計分的測驗資 料,綜觀現今許多的測驗資料裡,有許多的施測資料不再局限於二元計分的試題, 如:數學情境的文字題、證明題等,評分者根據受試者答題正確性程度,給予部 分給分(partial credit),亦即試題的計分點數不再只是兩點,極為常見的多元計 分(polytomous)。此時傳統 S-P 表分析理論便無法分析多元計分的測驗資料。因 此,如何發展既有 S-P 表分析模式,使得能夠分析多元計分的測驗資料,其有比 要可行之處(陳慶恩,2010)。如果能夠將其是用範圍擴大,相信日後將協助教 師能更深入的掌握學生的學習認知動態。

第二節 研究目的

基於上述研究動機,本研究的主要目的包含: 壹、應用部分給分 S-P 表的差異係數(D*)、試題注意係數(CP)和學生注意係 數(CS),進行試題診斷分析及學生學習診斷分析。 貳、對試題做質的分析,包括試題內容分析、內容效度分析、雙向細目表分析。 參、對試題做量的分析,包括難度、鑑別度、信度分析及試題選項要素。 肆、根據以上的研究結果提出具體建議,作為日後增進教學效能及進一步研究的

(12)

3 參考。

第三節 名詞釋義

為了使本研究所使用的名詞意義更為明確,,茲將重要名詞加以界定如下:

壹、部分給分

本研究所定義的部分給分,非有順序性的部分給分模式(秦靜儀,1999);而 是整題區分為若干個部分,若答對整題的若干部分,得分為若干部分所配分數加 總。

貳、部分給分差異係數

以俞克斌、許天維(2012)採用佐藤隆博的曼哈頓距離量尺概念,所修正而 來的公式: 1 1 1 B 1 4 ( ) ( ) 2 1 D N n N n i j ij ij i j i j NnP P M x x a b D        



其中,aij max{min{1,xi  j 1}, 0}, bij max{min{1,x j i 1}, 0} 1 1 1 N 1 n i j i j P x x NnNn  

M [ Nn0.5],[ ] 係指 Gauss 整數值符號,表示若m為整數且mxm1時, 則[ ]xm。 1 ( 1) 1 CS 1 ( ) n kj j k j k m j m k k j x x x x x x x m x x         

1 ( 1) 1 CP 1 ( ) N ik i k i k m i m k k i x x x x x x x m x x         

(13)

4 其中 1 1 N i i x x N  

m[xk]。在兩個注意係數的公式中,[ ] 係指 Gauss 整數值符號。

叁、雙向細目表

雙向細目表示測驗的架構藍圖他描述了一份測驗中所應包含的內容以及所評 量到的能力,也是命題的依據。他是以教學目標和學習內容為兩個軸,分別說明 各項評量目標。其目的可以幫助命題者釐清教學目標和學習內容的關係,以確保 測驗反映教材的內容,並能夠真正評量到預期之學習結果。

肆、信度

信度(reliability)是指衡量工具的正確性或是精確性。亦指測驗分數未受測 量誤差影響的程度。信度有兩分面的意義,一是穩定性:在不同時間點重複衡量 相同的事務或個人,然後比較兩次衡量分數的相關程度;一是一致性:一個態度 的尺度中,各個項目間具有一致性或內部同質性。

伍、內容效度

內容效度(content validity)是指該衡量工具能足夠涵蓋主體的程度。從測量工具 的內容來檢查,看看是否符合測量目標所預期的內容。

(14)

5

第二章 文獻探討

本章分為三節,第一節探討 S-P 表分析理論之內容與意義;第二節探討部分 給分;第三節則是針對試題分析的內容予以探討。

第一節 S-P 表

壹、S-P表

S-P表理論(Student-Problem Chart Analysis Theory),是用來加以分析學生 與問題的作答反應組型,由日本學者佐藤隆博(Takahiro Sato)博士所提出(Sato, T. 1980),其中的S代表的是學生(Student),而P代表的是問題(Problem), 也就是試卷中的試題。 作答的結果是由對和錯來反應,也就是沒有所謂的答對一半的結果,由「1」、 「0」來表示,沒有所謂0.5的結果,所以比較適合是非題或單選的選擇題題型, 因而在國中、國小的試題題型中,最常出現的是非題和選擇題就非常適合用以S-P 表分析理論來加以分析。 S-P表理論歸納學生的學習類型與試題優劣,幫助老師了解學生的學習行為與 狀況,也可以改善試題好壞(葉律吟,2009),進而能更有效的提升整體學生的 學習方向。 一、製作S-P表 在進行S-P表分析之前,都要先將測驗結果做適當的整理,在經過整理後的資 料,就可以歸納出一些規則,再由統計學的角度來分析這些差異後,就可以當作 測驗後的檢討依據。以下再針對S-P原始資料表、排序後S-P資料表、S曲線、P 曲線、差異係數和完美量尺詳加說明之。 (一) S-P原始資料表 將學生的考試結果資料蒐集整理後,先以學生的座號和試題的題號排序,可 以得出一個N×M階矩陣資料,而N代表學生的數量,M代表考試題目的數量,而

(15)

6 矩陣上的資料中,其中「1」代表答題為第n個學生中的第m題的答題結果為正確, 而「0」則代表相反,為答題錯誤,這個NxM階矩陣且未經任何處理的考試結果 資料稱之為「S-P原始資料表」,如表2-1-1所示(余民寧,2002)。 表2-1-1 S-P原始資料表 (二) 排序後S-P資料表 先依據學生答對題數的多寡,由上往下排列,答對題數越多的學生排在越上 面,越少排在越下面,相同步驟,再依據試題的答對人數的多寡,由左至右排列, 答對人數越多的試題排在越左邊,越少排在越右邊,如表2-1-2為完成排序後的 S-P資料表(余民寧,2002)。 P S 試題號碼 總 分 1 2 3 4 5 6 7 8 9 10 學 生 座 號 1 1 1 1 1 1 1 1 1 1 1 10 2 1 0 0 1 1 1 1 1 0 1 7 3 1 1 0 1 1 0 1 0 1 0 6 4 1 1 1 0 1 1 0 1 0 1 7 5 0 1 0 1 1 0 1 1 1 1 7 答對 人數 4 4 2 4 5 3 4 4 3 4 37

(16)

7 表2-1-2 排序後S-P資料表 P S 試題號碼 總 分 5 1 2 4 7 8 10 6 9 3 學 生 座 號 1 1 1 1 1 1 1 1 1 1 1 10 2 1 1 0 1 1 1 1 1 0 0 7 4 1 1 1 0 0 1 1 1 0 1 7 5 1 0 1 1 1 1 1 0 1 0 7 3 1 1 1 1 1 0 0 0 1 0 6 答對人數 5 4 4 4 4 4 4 3 3 2 37 (三)S曲線 如表2-1-3所示,根據每位學生的答對題數,在試題排列順序數的右邊顯示直 線,將所有學生的直線連線起來就會顯示出一條區隔線,如此一來形成的階梯狀 曲線,稱作「S曲線」(為圖中虛線之曲線)。由此S曲線可以得知,在S曲線左側 的試題,是被答對機率較高的試題,相對的也是應該被答對的題目,而在右側的 試題,則剛好相反,是被答對機率較低的試題,相對的也是應該被答錯的試題。 所以由這些推論可得知,S曲線左側是應該答對「1」的部份,而S曲線的右側是 可以答錯「0」的部份,如果該答對而沒有答對的部份和預期會答錯而答對的部 份,都是需要之後提出來討論(余民寧,2002)。 表2-1-3 S曲線 P S 試題號碼 總 分 5 1 2 4 7 8 10 6 9 3 學 生 座 號 1 1 1 1 1 1 1 1 1 1 1 10 2 1 1 0 1 1 1 1 1 0 0 7 4 1 1 1 0 0 1 1 1 0 1 7 5 1 0 1 1 1 1 1 0 1 0 7 3 1 1 1 1 1 0 0 0 1 0 6

(17)

8 答對人數 5 4 4 4 4 4 4 3 3 2 37 (四)P曲線 P曲線跟S曲線的產生方法雷同,如表2-1-4所示,根據每題試題被答對的答 對人數,在學生排列順序數的下方顯示橫線,所有試題的橫線連線起來就會顯示 出一條區隔線,如此一來形成的階梯狀曲線,稱作「P曲線」(為表中實現之曲線)。 由此P曲線可以得知,在P曲線上方的學生,是答對機會較高的學生,相對的也是 應該答對的學生,而在下方的學生,則剛好相反,是答對機會較低的學生,相對 的也是應該答錯的學生,所以由這些推論可得知,P曲線上方是應該答對「1」的 部份,而P曲線的下方是可以答錯「0」的部份,如果該答對而沒有答對的部份和 預期會答錯而答對的部份,都是需要之後提出來討論。 表 2-1-4 完成之 S-P 表(實線為 P 曲線) P S 試題號碼 總 分 5 1 2 4 7 8 10 6 9 3 學 生 座 號 1 1 1 1 1 1 1 1 1 1 1 10 2 1 1 0 1 1 1 1 1 0 0 7 4 1 1 1 0 0 1 1 1 0 1 7 5 1 0 1 1 1 1 1 0 1 0 7 3 1 1 1 1 1 0 0 0 1 0 6 答對人數 5 4 4 4 4 4 4 3 3 2 37 (五)S-P 學習診斷表之分析指標 S-P 學習診斷表之量化指標包含差異係數、試題注意係數及學生注意係數等, 教師從中獲取有用的診斷訊息,及指出個別學生與試題呈現的異常程度。 1.差異係數(Disparity index) 當 S 曲線以左或 P 曲線以上的不分皆出現為「1」時,我們稱之為「完美量 尺」的反應組型(Guttman,1944),此時 S 曲線與 P 曲線會相互重疊。「不完美量

(18)

9 尺」是 S 曲線與 P 曲線分離的情形,用以測量兩曲線分離程度的量化指標,即為 差異係數,通常以 D* 符號來表示。 佐藤隆博認為在正常情況下,差異係數 D* 會介於 0 到 1 之間(佐藤隆博,1975; 1985)。在大多數的實例中,當 D* 0.4 時,係指教師授課與學習者反應兼具高 密切性(宮地功,1997;勘久保庆一,1988);形成性測驗是以 D* 0.4 前後而 標準學力測驗是以 D* 0.5 左右為標準值;標準學力測驗或形成性測驗以 D* 0.6,形成性非選擇測驗以 D* 0.5,來顯示教師應注意學習者對測驗表徵含有異 質因素,應檢討對學習者的指導過程,並適當的修改(佐藤隆博,1985;勘久保 庆一,1988)。 表 2-1-5 差異係數說明 差異係數 情況說明 正常的範圍 0~1 之間 0.4~0.5 標準值 0 學生能力與試題難度相符,是為最完美狀態 >0.6或 0.4 表示測驗含有異質因素,應注意學生的作答狀況,或對試題做 檢討與修改

2.學生注意係數(caution index for student,簡稱 CS)

S-P 表理論的「注意係數」是使用於判斷個別學生和試題是否有異常現象的 指標,一為「學生注意係數」,一為「試題注意係數」。注意係數指的是 S-P 表資 料的實際反應組型與完美反應組型的差異,佔完美反應組型之最大差異的一種比 值,當注意係數值愈大,即表示反應組型愈為異常或不尋常的情況愈嚴重,注意 係數值愈小則相反。學生注意係數以下列公式表示之:

(19)

10 學生 i 對應於 S 曲線左方答「0」 的試題之答對人數之和 − [ 學生 i 對應於 S 曲線右方答「1」 的試題之答對人數之和 ] 學生 i 在 S 曲線左方各試題 之答對人數之和 − 學生 i 之總分 × [試題之平均答對人數] 資料來源:教育測驗與評量(頁 350)。余民寧(2002)。台北:心理出版社。 以學生注意係數當橫軸,以學生得分百分比值當縱軸,再依這兩項數值,將 學生標示在以下座標圖即可診斷學生的學習類型(余民寧,2002)。

資料來源:Sato, 1980; Sato & Kurata, 1997 圖 2-1-1 學生診斷分布圖

本研究應用學生注意係數分析,將學生的學習類型,區分成六大類型:學習 穩定型、粗心大意型、努力不足型、缺乏充分型、學力不足型、學習異常型等六 種學習類型。

3.試題注意係數(caution index for items,簡稱 CP)

根據試題的注意係數和答對人數百分比,診斷個別試題品質的良窳與適當性, 可協助教師進行試題的篩選。試題注意係數的計算基本上就是 S-P 表資料中實際 反應組型與完美反應組型間的一種比值,可以以下列公式表之: 學 生 答 對 試 題 的 百 分 率 100% 75% 50% 0 A 學習穩定型 學習良好,穩定性高,學習成就 較高 A′粗心大意型 穩定性較低,能力好,但考試卻 易因粗心大意、不細心造成錯誤 學生注意係數 B′缺乏充分型 偶而粗心,準備不充分,需要再努力 C′學習異常型 學習極不穩定,具有隨性的讀書習 慣,對考試的內容沒有充分準備 B 努力不足型 學習尚稱穩定良好,需要再用功一點 C 學力不足型 基本能力不足,學習不夠充分, 學習成就偏低 0.5 1

(20)

11 試題 j 對應於 P 曲線上方答「0」 學生總分之和 − [ 試題 j 對應於 P 曲線下方答「1」 學生總分之和 ] 試題 j 在 P 曲線上方 各學生總分之和 − 試題 j 答對人數 × [學生之平均得分] S-P 表分析法將試題診斷結果,依答對試題學生的百分率及 CP 分成四類:A 優良 試題、A′異質型試題、B 困難型試題、B′拙劣型試題,如圖 2-1-2 所示 圖 2-1-2 試題診斷分析圖

資料來源:Sato, 1980; Sato & Kurata, 1997 二、部分給分 S-P 表 俞克斌、許天維(2012)提出部分給分 S-P 表分析理論,佐藤隆博的 S-P 表 只針對答對得 1 分答錯得 0 分的二元計分情況進型分析,即使遇到部分給分的情 形,也是裡用四捨五入的方式修正為二元計分,以致造成訊息流失的現象。因此 重 新 考 慮 部 分 給 分 的 情 形 , 亦 即 不 再 考 慮 χ ∈ {0,1} 而 是 直 接 考 慮 得 分 為 χ ∈ [0,1]的狀況。差異係數的公式並未改變,但第 K 位學生的注意係數同樣採用 佐藤隆博的曼哈頓距離量尺概念,可得公式為 答 對 試 題 的 學 生 人 數 百 分 率 100% 50% 0 試題注意係數 0.5 1 A 優良試題 表示試題得當,可以用作區分低 成就者與其他學生之不同 A′異質型試題 表示試題需做局部修正,或試題 中含有拙劣的選項 B′拙劣型試題 表示試題極為拙劣,含有相當異質成分 在內,可能資料登入錯誤或題意含糊不 清,必須加以修改 B 困難型試題 表示試題困難度高,適合用作區 別高成就者的好題目

(21)

12 1 ( 1) 1 CS 1 ( ) n kj j k j k m j m k k j x x x x x x x m x x         

其中 = ∑ X且 = [X ]。同理,第 k 題的注意係數為 1 ( 1) 1

CP

1

(

)

N ik i k i k m i m k k i

x x

x x

x

x

x

m

x x

  

 

其中 1

1

N i i

x

x

N

m

[

x

k

]

。這兩個注意係數的公式中,[∙]係指 Gauss 整數值符 號。 假設學生 N=10,試題 n=10 的原始得分矩陣,其中第 1,3,10 題為部分給 分試題,如表 2-1-6 所示:

(22)

13 表 2-1-6 部分給分 S-P 原表 試題 學生 1 2 3 4 5 6 7 8 9 10 總分 1 0 1 .7 1 1 0 0 1 1 .3 6 2 0.5 1 .9 1 1 1 1 1 1 .6 9 3 0.5 1 .6 1 1 1 1 0 1 .4 7.5 4 1 1 .7 1 1 0 0 1 1 .3 7 5 1 1 1 1 1 1 1 1 1 1 10 6 1 1 .8 1 1 1 1 1 0 .7 8.5 7 0.5 1 .5 1 1 1 1 1 0 .5 7.5 8 1 1 .7 1 1 0 1 1 1 .3 8 9 0 1 .5 1 1 0 1 1 1 .5 7 10 0.5 1 .6 1 0 0 1 1 1 .4 6.5 積分 6 10 7 10 9 5 8 9 8 5 77 資料來源:俞克斌、許天維(2012) 由表 2-1-6 可知學生 1 答對題目 2,4,5,8,9;答錯 1,6;部分答對 3,10,喔 而得總分 6 分,將原表依照每位學生得分總分高低,由上往下依序排列,如有總 分相同時,則依與積分的點二系列相關係數從大道小順序排列,如表 2-1-7。

(23)

14 表 2-1-7 按學生總分高低,由上往下排列 試題 學生 1 2 3 4 5 6 7 8 9 10 總分 5 1 1 1 1 1 1 1 1 1 1 10 2 .5 1 .9 1 1 1 1 1 1 .6 9 6 1 1 .8 1 1 1 1 1 0 .7 8.5 8 1 1 .7 1 1 0 1 1 1 .3 8 3 .5 1 .6 1 1 1 1 0 1 .4 7.5 7 .5 1 .5 1 1 1 1 1 0 .5 7.5 4 1 1 .7 1 1 0 0 1 1 .3 7 9 0 1 .5 1 1 0 1 1 1 .5 7 10 .5 1 .6 1 0 0 1 1 1 .4 6.5 1 0 1 .7 1 1 0 0 1 1 .3 6 積分 6 10 7 10 9 5 8 9 8 5 77 接下來,按照試題答對人數積分多者,由左到右依序排列,遇有相同積分之 試題,亦可依與總分的點二系列相關從大到小順序排列,如表 2-1-8。

(24)

15 表 2-1-8 按試題答對人數積分多寡,由左至右排列 試題 學生 2 4 5 8 7 9 3 1 6 10 總分 5 1 1 1 1 1 1 1 1 1 1 10 2 1 1 1 1 1 1 .9 .5 1 .6 9 6 1 1 1 1 1 0 .8 1 1 .7 8.5 8 1 1 1 1 1 1 .7 1 0 .3 8 3 1 1 1 0 1 1 .6 .5 1 .4 7.5 7 1 1 1 1 1 0 .5 .5 1 .5 7.5 4 1 1 1 1 0 1 .7 1 0 .3 7 9 1 1 1 1 1 1 .5 0 0 .5 7 10 1 1 0 1 1 1 .6 .5 0 .4 6.5 1 1 1 1 1 0 1 .7 0 0 .3 6 積分 10 10 9 9 8 8 7 6 5 5 77 最後,根據每位學生答對題數的總分,從左向右數出與總分相同之試題個數, 並在右邊畫上一條分界線,由高分往低分畫出每位學生總分相對應的分界線,再 將這些分界線的下方利用直線連接,則會形成一階梯狀之曲線,此曲線即稱為「S 曲線」,如表 2-1-9 的實線所示。同理,依據每道試題答對人數的積分,從上往 下數出與積分相同之學生個數,並在旗下邊畫上一條分界線,由左端往右端分別 畫出每道試題之答對人數積分所對應的分界線,則會形成一階梯狀之曲線,此曲 線即稱為「P 曲線」,如無表 2-1-9 的虛線所示。

(25)

16 表 2-1-9 畫出 S 曲線(實線)P 曲線(虛線) 試題 學生 2 4 5 8 7 9 3 1 6 10 總分 5 1 1 1 1 1 1 1 1 1 1 10 2 1 1 1 1 1 1 .9 .5 1 .6 9 6 1 1 1 1 1 0 .8 1 1 .7 8.5 8 1 1 1 1 1 1 .7 1 0 .3 8 3 1 1 1 0 1 1 .6 .5 1 .4 7.5 7 1 1 1 1 1 0 .5 .5 1 .5 7.5 4 1 1 1 1 0 1 .7 1 0 .3 7 9 1 1 1 1 1 1 .5 0 0 .5 7 10 1 1 0 1 1 1 .6 .5 0 .4 6.5 1 1 1 1 1 0 1 .7 0 0 .3 6 積分 10 10 9 9 8 8 7 6 5 5 77 S 曲線士紙學生得分的累加分不曲線,是用來區分學生答對與答錯的分界線。 而 P 曲線士紙試題答對人數的累加分佈曲線,是用來區分試題答對與答錯人數的 分界線。排列再 S-P 表左上者,代表能力較好之學生愈較簡單之試題,大多數是 被期望答對的試題,所以,這個區域應該出現大多數的 1。相反,在 S-P 表右下 方者,應該出現大多數的 0。以學生 3 為例,x = 7.5;m = [x ] = [7.5] = 7; 又 x= = 7.7,故得 CS3= 1 − × × . × . × . . × . × . . × . = 1 −59.2 − 57.75 64 − 57.75 = 1 − 0.232 = 0.768 此外,又以題目 3 為例,x = 7; = [x ] = [7] = 7;

(26)

17 又 x= . . . . = 7.7,故得 CP3= 1 − . . . × . . . . × . = 1 −55.25 − 53.9 57.5 − 53.9 = 1 − 1.35 3.6 = 1 − 0.375 = 0.625 由上可知學生注意係數,如表 2-1-10;試題注意係數, 如表 2-1-11 表 2-1-10 學生注意係數 S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 .205 .259 .768 .366 0 .840 .64 .111 .141. .443 表 2-1-10 試題注意係數 三、S-P 表相關研究 國內對 S-P 表分析的研究上,有將 S-P 表整合其他測驗理論,期得到更詳盡 的研究结果:林孟嫻(2008)以 S-P 表整合次序理論分析國小學童小數加減表現, 研究結果顯示應用 S-P 表理論的學生注意係數和試題注意係數,可以診斷學童的 學習成效,針對學童的學習表現類型予以分類,並從中獲得有關改進小數加減教 學及學習輔導的訊息。朱芹儀(2009)以 S-P 表及加權多元計分 IRS 整合分析國 小高年級學童分數加減法,將其原始的二元計分資料,轉換成多元計分的模式, 以進行概念結構之分析,將原始資料透過 S-P 表分析得到出 A、A′、B、B′、C、 C′等類別的學生,再將二元計分資料矩陣×試題概念矩陣而獲得多元資料矩陣,以 繪製 A、A′、B、B′、C、C′等類別的學生類別之概念結構圖,研究結果顯示可深 入瞭解不同學力學生之認知概念及解題策略,也提供教學者針對不同類型學生進 行補救教學。林原宏(1999)將 Sato 的二元資料(0、1)推論到三元模式(0、1、 2),使其在三元計分模式下,依舊能夠發揮 S-P 表診斷功能,其測驗得分標準為 P1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 .461 0 .625 0 .294 .111 .172 .882 1.207. .2

(27)

18 答對了該題,就以 2 表示;答對一半,就以 1 表示;答錯了該題,就以 0 表示。 近年來網路發達,亦有不少學者將 S-P 表與線上分析系統做結合:徐志 煌(2007)整合 S-P 表於數位學習平台之教學評量,將線上學習結果使用 S-P 表 分析,不但能夠快速分析學習結果,並能提供教學者及學習者即時回饋,提升學 習成效。陳慶恩(2010)推廣 Sato 的 S-P 表至多元計分 S-P 表,將測驗試題採用 多元計分方式,因此各題滿分可能有所不同,為使各題的總分相同,將原有矩陣 進行標準化運算,可得標準化得分矩陣,再排序標準化得分矩陣而繪製 S-P 表, 並結合多元計分次序理論,作為發展認知診斷分析之服務系統演算法基礎,以診 斷學生學習成效,提供教師補救教學之依據。劉修全(2011)線上 S-P 檢測平台 之建置研究,測驗試題都為選擇題,且為單選題,其研究結果顯示教師、學生及 家長可以利用分析平台幫助他們瞭解在測驗上的問題,讓三種種不同角色的使用 者可以即時瞭解問題點,進而將問題解決。 以下 S-P 表研究的相關文獻整理列表如下: 表 2-1-11 S-P 表的相關研究 學者 研究對象與方法 研究結果 林原宏(1999) 採取了三元計分方式(0、1、 2) 擴展了佐藤隆博的 S-P 表 朱芹儀(2009) 其原始的二元計分資料,轉換 成多元計分的模式,以進行概 念結構之分析。 將原始資料透過 S-P 表分 析得到出 A、A′、B、B′、 C、C′等類別的學生,再 將二元計分資料矩陣×試 題概念 矩陣而 獲得 多元 資料矩陣,以繪製 A、A′、 B、B′、C、C′等類別的學

(28)

19 生類別之概念結構圖。 陳慶恩(2010) 依據多元計分次序理論、多元 計分 S-P 表分析及詮釋結構模 式等相關理論模式,應用網際 網路技術,建置一套「認知診 斷測驗分析即時服務系統」, 提供教師或相關研究人員作 為測驗資料分析的工具軟體。 1.使用 者使用 效益 整體 滿 意 度 其 平 均 值 介 於 3.84-4.42,使用者對於 系 統 所 提 供 訊 息 與 服 務,給予正面的肯定。 2.應用 相關學 習診 斷理 論,透過電腦程式形式, 應用於教學活動,對於教 學者與學習者都有助益。 蔡依萍(2011) 針對國中三年級學生做國中 數學之統計教學與評量 獲得學生的學習成效,學 習表現類型的分類,進行 改進教學及學習的輔導。 瞭解自編試題的優劣,並 建立自己的題庫。 俞克斌(2012) 針對某國中 27 名的學生,進 行 20 題數學測驗(包括 5 題 部分給分試題)。學生的作答 狀況為全對者給 1 分、全錯者 給 0 分;不全對者在 0 與 1 之 間部分給分。 擴展了佐藤隆博的 S-P 表 為部分給分 S-P 表。 林宜靜(2012) 數學成就測驗試卷內容分別 為選擇題、填填看、算算看、 比大小、回答問題、應用題, 1.應用 S-P 表於學習回饋 對學生 學業成 就未 有影 響。

(29)

20 除選擇題為單選形式外,旗魚 皆由學生進行數學計算後填 答,每題僅有一正確解答。 2.應用 S-P 表於學習回饋 於數學 學習態 度未 達顯 著差異。 3.實驗組學生在獲得 S-P 表學習回饋後,數學學習 態度未有提升。 4.應用 S-P 表於學習回饋 對學生 自我調 整學 習未 達顯著差異。 5.應用 S-P 表於學習回饋 未能顯 著提升 實驗 組學 生之自我調整學習能力。 6.應用 S-P 表於學習回饋 對自我調整學習中「期望 調整策 略」產 生負 向影 響。 賴盈州(2011) 施測對象為 28 名七 年級學 生,施測內容為 24 題的填空 題,依解題情況分別給予 0 或 1 分,答案正確給 1 分,錯誤 或空白則不給分。 藉由 S-P 表分群分析和 CAISM 所繪製的個人化 概念結構圖,探討國中七 年級學 生比與 比例 式的 概念結構發展情形,並經 由分群依據,選取個案學 生進行個案晤談,進一步 瞭解個 案學生 的概 念結

(30)

21 構。 許芳郡(2009) 施測對象為國小五年級 934 位 學生及國小六年級 724 位學 生,施測內容為 16 題的填空 題,依解題情況分別給予 0 或 1 分,答案正確給 1 分,錯誤 或空白則不給分。 整合 S-P 表以及多元計分 次序理論的分析,可發現 不同類 型的學 生之 概念 階層結構特徵,顯示整合 分析具 有實務 上之 重要 功能,可提供教師在認知 診斷及 進行補 救教 學上 之參考。 在相關研究中,發覺 S-P 表的研究中,大都是使用二元計分的測驗,甚少使 用非二元計分的測驗,本研究採取部分給分 S-P 表以協助老師及學生瞭解其學習 狀況。

(31)

22

第二節 部分給分

壹、部分給分模型

是由 G.Masters(1982)提出。此模型可以說是單參數對數模型的延伸。當可以 對多分計分題作計分的部份計分模型,應用於二分計分題上時,部分計分模型就 和單參數對數模型一模一樣了。 由於部分計分模型是由單參數對數模式延伸而來,因此,除了題目反應理論 的基本假設之外,此一模型也繼承了單參數對數模型的幾個假設:一、整個測驗 的所有題目的區辨力相同,或是說區辨力參數相同。二、在測驗中,沒有所謂的 猜測值,亦即猜測直接為零,亦即猜測直接為零;也就是說,受試者不會因為猜 測的因素而選擇某一個答案。 此一模式的發展主要在分析有多個階段的題目,每完成某一個階段則給予部 分分數,在此一模式中,計分不只是對與錯,而是依據所回答的重要性給予分數, 只要題目是依其知識程度的不同或依其回答的重要不同而給予不同的分數時,皆 可以使用這一個部分給分模式,可視為等級反應模式的一個特例(Baker,1992), Master 重新參數話反應類別間的邊界曲線,以總除方式表示(陳政漳,2003)。 在部分給分模式中類別數比步驟數多 1。例如 82 +7=?,共需二個步驟,分 別為 82 =64 以及 64+7=71。然而,此例卻可分為三個類別。如圖 2-2-1 所示, 分別為類別 0-答對 0 個步驟(全錯)、類別 1-答對步驟 1 且答錯步驟 2 以及類別 2-答對步驟 2(全對)。 題目:82 +7=? 步驟 類別 類別 0 類別 1 類別 2 步驟 1:82 =64 錯 對 對 步驟 2:64+7=71 - 錯 對 圖 2-2-1 PCM 的步驟與類別

(32)

23 在部分給分模式中各類別(選項)有順序性,類別 1 一定在類別 0 之後、類 別 2 一定在類別 1 之後等,以 82 +7=?為例,一定要先完成第一個步驟 82 =64 後, 才能繼續計算第二個步驟 64+7=71。然而每一個試題中,個類別的難度並無順序 性,也就是說,類別 2 並不一定比類別 1 難(秦靜儀,1999)。 一、部分給分的能力估計公式 部分給分的能力估計公式如下: P (θ ) = exp ∑ (θ − ) ∑ exp ∑ (θ − ) (θ − ) = 0 其中,n 代表受試者; i 表第 i 題; 表第 i 題第 k 個步驟的閾限值; m 表步驟數; x 表受試者的答案所屬類別。

貳、部分給分的相關研究

國內研究也有將部分給分模式應用於測驗中,如李怡錚(1994)應用項目反 應理論(Item Response Theory;簡稱 IRT)的部份給分模式和等級反應模式(Graded Response Model)分析大學聯考考生的實際答題資料,並且探討此二測驗模式是 否可以取代傳統測驗理論的可能性,經研究發覺這是可行性的。陳美吟(2003) 改進多元計分核平滑化部分給分試題分析法,可孤得個試題之難度、鑑別度、正 確選項之正答力、所有錯誤選項之又達利或部分給分及所有受試者實際能力、或 真正分數。藉此有效之試題選項分析模式,在進行多選項單一選達之標準化測驗 時,更易評量、診斷受試者之學習成就表現。陳政漳(2003)應用項目反應理論 中部分給分模式及等級反應模式,針對大學多元入學考試-學科能力測驗自然科

(33)

24 進行分析,並比較在不同的計分模式下,何者具有較佳之適配性。秦靜儀(1999) 應用電腦技術,結合測驗等相關理論,發展一部分給分支電腦化適性測驗,能提 供一兼顧達題結果與作答歷程又不失精確性的適性評量方式。 李源煌、楊玉女(2000)提出試卷內部分題目為 0 分或 1 分計分,部分題目 為多分計分,混合以上數種模式可採用之方法。例如當世卷內部分試題為選擇題, 部分試題為問答題之情況,三參數模式可用於選擇題,而一般性多分際分法模式 可用於問答題。國內研究上缺少部分給分結合 S-P 表瞭解學生在測驗上的問題輯 提供教師補救教學的依據,本研究期望能結合部分給分和 S-P 表來瞭解分析學生 的作答反應情形。

(34)

25

第三節 試題編製與分析理論

試題是構成測驗的基本單位,其性能的優劣關係著整份測驗的品質(沈怡伶, 2006)。余民寧(2002)提到在教師自編成就測驗的過程中,如何判定所編製出 來的測驗試題就一定是品質優良的試題呢。可以由下列兩個方面著手:

壹、針對試題內容做品質分析(qualitative analysis):

品質分析可由試題的內容審查輯一些有效的命題原則與教學目標等評鑑工具 來進行(Linn,& Gronlund,2000)。在正常的教學情境下,教師透過試題的邏輯審 查,通常都能確保試題具有教學內容的代表性,都能測量到他所要測量的教學目 標的功能,亦可以達成確保試題具有一定的內容效度。

貳、針對試題的統計特徵進行量化分析(quantitative analysis):

主要在分析每個試題所具備的三大統計特徵:難度(difficulty)、鑑別度 (discrimination)、誘答力(distraction)。以下就難度、鑑別度和難度指標及鑑別 度指標間的關係做簡單說明。 一、試題的難度分析 (一)答對百分比法 試題的難度與測驗的效率(effectiveness )有闕,難度適當的試題是構成優良 測驗的必要條件。試題的難易程度通常以全體妥試者答對或通過該是富的百分比 ( percentage passing) 表示之。共計算公式為: P= ×100% 上式中, P 代表試題難度,N 為全體受試人數, R 為答對該題的人數。例如:在 200 名預試學生中,答對某一試題者有 54 人,則其難度為 ×100%= .27( 27%) 另一種試題難度的求法,係先將受試者依照測驗總分的高低次序排列,然後把得 分最高與得分最低的受試者各取全體人數的 27%左右,定為高分組和低分組,

(35)

26 再分別求出此兩組在某一試題上通過人數的百分比,以兩組百分比的平均數作為 該試題的難度。其計算公式如下: P = P + P 2 上式中,P 代表試題難度,PH 為高分組且通過該題人數百分比 ,PL 為低分組通 過該題人數百分比。例如:在某題作答中,高分組有 74% 答對,低分組有 22% 答 對,則該題難度為P = % % =.48 (或 48% )。 以 P 表示試題的難度, P 值愈大,難度愈低; P 值愈小,難度愈高 例如:在某一 測驗中,第一題、第二題、第三題的通過人數百分比(P)依次為 20% 、30%、 40% , 則第一題的難度最高,第二題的難度次之,第三題的難度最低。不過, P 值是一 種順序尺度( ordinal scale), 差距單位並不相等,因而只能表示試題難易的相對 位置,均無法指出各難度之間差異的大小。上例中的第一題與第二題在難度上的 差別量,並不等於第二題與第三題在難度上的差別量。 (二)等距量尺分析

針對上一缺點,看美國教育測驗服務社(Educational Testing Service) 另創一類 具有等距尺度(interval scale )特性的難度指數,以Δ(delta)示之。它是一個以 13 為平均數、4 為標準差、下限為 1 、上限為 25 的標準分數。Δ值愈小,難度念 低;Δ值愈大,難度愈高。它不但可以表示試題難度的相對位置,認且可以指出 不同雞皮之間的差異數值。這種難度指數係基於試題所側量的特質呈常態分配的 假設,認為試題的難度可在常態分配曲線的橫軸上某一點以離差分數(deviation score)示之。其求法係根據答對某一試題的人數百分比與答錯該題的人數(包括未 作答者〕百分比,使前者在右,後者在左,找出兩者在常態分配曲線橫軸上的分 界點,此點的相對位置以標準差為單位表示之,即為 Z, 再按下列公式求出Δ值: Δ=13+4Z Δ為試題難度指標,Z 為標準化常態分配的標準分數(江仲翔,2003)。

(36)

27

常用的Δ值介於 1~25 之間,平均難度指標值為 13。Δ值愈大,表示試題的 愈困難;Δ值愈小,表示試題愈簡單。事實上,Δ值在轉換的過程是相當繁瑣的, 因此已有學者(Fan,1952)將 P 值、Z 值和Δ值之間的轉換製成表,稱作「范氏 試題分析表」(Fan’s item analysis table),使用者可以直接從表上查詢Δ值(張雅 婷,2012)。 難度分級如下表 2-3-1 表 2-3-1 難度等級評鑑表 難度值 難度等級 P>0.80 極容易 0.60 ≤P≤0.80 容易 0.40 ≤P≤ 0.60 難易適中 0.20 ≤P≤ 0.40 困難 P<0.20 極困難 二、試題的鑑別度分析 構成測驗的試題必須具有鑑別某種心理特蟹的作用,始能使測驗成為有教可 靠的測量工具。試題的鑑別力 (discriminating. power) 之大小與測驗的信度和效 度皆有密切的關係。欲增進測驗的預測與診斷功能,必須著重試題的鑑別度分析。 試題的鑑別度分析可分為內部一致性 (internal consistency) 與外在效度分析 (external validity)兩方面,其目的在於分析受試者對試題的作答反應與某些參 照標準之間的相關程度,藉以判定個別試題的性能及其對整個測驗的貢獻和影 響。。 (一)內部一致性分析 此即一般所謂「諧度分析」,其目的在於檢查個別試題與整個測驗的作用之一 致性。分析的方法有下列兩種:

(37)

28

1.探求試題反應(item response) 與測驗總分之間的關連性

受試者對某一個別試題的作答反應可分為答對與答錯兩種情形,屬於二分的變項 (dichotomous variable) 。 每 人 各 有 其 測 驗 總 分 , 屬 於 連 續 的 變 項 (continuous variable) 。兩者之間的關聯性,可應用雙列相關(biserial correlation)或點值雙列 相關(point-biserial correlation)的方法,求得相關係數,以表示內部一致性的高 低。 2.比較高分組和低分組在個別試題上通過人數百分比 先將測驗總分最高的 27%受試者列為高分組,最低的 27%受試者列為低分組,然 後分別求出這兩組受試者在個別試題上的答對人數百分比,再以高分組的百分比 減去低分組的百分比所得的差數,作為鑑別指數 (index of discrimination) 。其計 算公式如下: D=PH-PL 其中,D 代表鑑別指數. PH為高分組答對百分比, PL為低分組答對百分比。 例如:高分組通過某試題的答對百分比為 .63,低分組通過該試題的答對百分比 為 .21, 則其鑑別指數( D)為 .63− .21= .4。鑑別指數愈大,表示個別試題反 應與測驗總分的一致性愈高。 Kelly(1939)指出當測驗分數為常態分配時,以 27%分組可以獲得試題最可 靠的試題鑑別力。當低於 27%時,結果的可靠性較低,而百分比太大時,會影響 題目的作用。所以對教師而言,合理的分組百分比為 25%-33%之間。 鑑別度指標通常以小數表示,其值介於-1.00 到 1.00 之間。當指數愈高,表 示鑑別力愈大,反之指標數愈小,則鑑別力愈小。當鑑別力過低時,其可能原因 為: (1)題目太容易或太艱難,使的大部分的人皆答對或答錯。 (2)題目題義不清。 如有試題其鑑別度為負時,則為一種很不尋常的狀態,教師應就試題刪除或修改

(38)

29 (江仲翔,2003)。 美國測驗學者 Ebel&Frisbie(1991)提出一套鑑別度的評鑑標準如表 2-3-2,以 供試題命題者作為選題的參考。 表 2-3-2 鑑別度等級評鑑表 鑑別度值 鑑別度等級 0.19 以下 劣,需大幅修改或刪除 0.2~0.29 尚可,但須部分修改 0.3~0.39 優良,但須小幅度修改 0.4 以上 非常優良 (二)外在效度分析 此即試題的效度分析,其目的在於檢驗每一個試題是否具有預定的某種鑑別 作用。它是以外在效標 (external validation criterion )為依攘,衡量試題反應與效 標分數的相關程度,或分別求出各效標組(criterion groups) 在某一試題上答對人 數百分比,以其差數作為效度指數(index of validity)。外在效度分析的方法和步 驟,與前述內部一致性的分析相彷彿,所不同者只是參照標準不同而已。通常首 先必須決定一個外在的效標,諸如學業成績、工作表現或評定的分數等,然後依 據效標分數,將受試者區分為高分組和低分組,各占總人數的 27%左右,再分別 求出高分組和低分組在各個試題上答對的百分比,然後以前者減去後者,其差數 的大小,即可顯示各個試題在預定功能上的鑑別力。 三、選項誘答力分析 Haladyna(1944)指出客觀測驗(如選擇題)之所以要進行選項的誘答力分析 (distraction analysis),乃因可借此來提供教師進一步的試題分析指標,協助教師 改進編製試題的技巧與初步瞭解整體學生的作答情況。而要分析試題選項是否具 有誘答力,我們仍然只要分析高、低分組學生在個試題選項中的選答次數,再加

(39)

30 以判斷即可。主要的判斷基本原則為: (一)、每個不正確的選項,都至少有一位低分組的學生來選。 (二)、低分組選擇不正確的答案要比高分組選擇不正確的答案的人更多。 若發現有違反上述兩個參考原則之醫者,則表示該試題不正確的選項需要加以修 改或者是刪除,以保持選擇型試題的基本誘答功能。

叁、信度、效度分析理論

一、信度 信度(reliability)與效度(validity)是測驗上的兩大特徵(Gronlund,1976), 教師在編製每一份測驗評量時,都希望測驗具有較高的信度與效度。也為了使測 驗能成為一份公具有公正、客觀且優良的教學評量工具,分析試題的信度與效度 更是必要的步驟。 (一)、信度的意義 信度是測量工具本身之精確程度,可以由兩個不同的方面來解釋,一是由測 量的一致性來看,二是由測量誤差來看。如果測量結果具有穩定的一致程度,那 就表示這個測量有可靠性、可預測性及區別的能力。如果從測量誤差來看,根據 古典測驗理論的假設,當測驗分數中測量誤差所佔的比率較低,則真實分數所佔 的比率較高,即信度係數較高。反之,當測驗分數中測量誤差所佔的比率較高, 則真實分數所佔的比率較低,即信度係數則較低。一般而言,一份優良的教育測 驗至少應該具有0.80以上的信度係數值,才比較具有使用的價值(Carmines &Zeller, 1979)。 (二)、信度的種類 估計信度的方法有許多種,在常模參照測驗下,最常被學者專家們採用及討 論的信度估計方法共可分成四種,分別是:再測方法(test-retest method)

(40)

31

評分者方法(scorer method)(郭生玉,1990;陳英豪、吳裕益,1991;Carmines &Zeller, 1979; Dick &Hagerty, 1971; Feldt &Brennan, 1989; Gronlund, 1993;Kaplan & Saccuzzo, 1993)。

1.再測方法

此方法就是將同一份測驗在不同時間對相同受試者前後重複測量兩次,根據 兩次測驗結果,求出兩次得分間的相關係數,該係數即稱作「再測信度係數」 (test-retest reliability coefficient),或簡稱「再測信度」。由於再測信度是在不同時 間下測量,有些欲測量的潛在特質或能力是會隨時間而改變的,因此,其測量誤 差來源,主要是來自不同時間下測量所造成的誤差。 2.複本方法 所謂的複本測驗,是指兩份在試題格式、題數、難度、指導語說明及施測時 限等方面都相當,且都用來測量相同特質或潛在能力,但試題內容卻不相同的測 驗。將兩份複本測驗實施於相同的受試者,根據所測量到的分數求其相關係數, 即為「複本信度係數」(parallel-forms reliability coefficient),或簡稱「複本信度」。 因此,複本信度愈高,表示這兩份測驗所測量到相同特質或潛在能力的程度愈高, 而其測量誤差來源,主要是來自試題抽樣所產生的誤差。 3.內部一致性信度 前面所述兩種方式,都有個共通限制,即必須做兩次的測驗。在實施上,除 了耗時、增加測驗編製的負擔外,也會造成受試者的合作意願低落、動機減低及 厭煩等現象產生,因而影響施測的結果。因此內部一致性方法只需一次測驗結果 就可以估計信度,屬於較受歡迎的方法。由這種單獨一次施測結果即估計出來的 信度係數,即稱作「內部一致性係度係數」(internal consistency reliability coefficient), 或簡稱「內部一致性信度」,較常被使用的有三種估計方法:(1)折半方法(split-half method);(2)K-R方法(Kuder-Richardson method);(3)α係數(coefficient alpha)等三 種。因本研究採用Cronbach(1951)的Cronbach’s α係數,故僅將其信度係數之計

(41)

32 算方法介紹如下: 僅將其信度係數之計算方法介紹如下: α = − 1 1 − ∑ S S 其中,為測驗的估計信度係數,n為題數,S 為每一題得分的變異數,S 為測驗 總分的變異數。 上述公式只是信度係數公式的一個特例,亦即信度係數公式只是信度估計 值的一個通式,而使用信度係數有下列幾項特質: (1).測驗信度是測驗所包含試題間彼此正相關的一個函數。 (2).可以用在二元化計分法的試題上。 (3).假設試題間的彼此相關均相同。 (4).不適用於速度函數。 (5).所有題目都評量相同的特質。 (6).接近所有可能折半信度係數的平均。 因此,當測驗試題呈現同質性時,係數值將接近折半方法所估計出信度係 數;當測驗試題呈現異質性時,係數值就會低於折半方法所估計出信度係數。 總而言之,係數值頗高時,則表示真正的信度係數值比它還高;相反,係數 值較低時,則無法提供有關該測驗任何有意義訊息。此時我們便無法判斷該測驗 是否仍然可靠。 4.評分者信度 採用不同評分者評閱試卷,來估計評分者的一致性,稱為「評分者信度」(score reliability)。若為客觀測驗評分不會受到不同評分者判斷的影響,就不需要估計評 分者信度;但若測驗計分會受到評分者主觀的影響,則需考慮評分者信度,其評 分的方法為先從測驗卷中抽取一些樣本,單獨由幾位評分者評分,然後再根據所 評分數求相關。當評分者間評分愈一致,評分者信度愈高;反之,評分者間評分

(42)

33 愈不一致,評分者信度就愈低。因此,其測量誤差來源,主要是來自評分者的主 觀判斷或意見影響,導致評分者誤差的存在。 (三)、影響信度的因素 在編製測驗過程中,一些與樣本特質和試題特質有關的因素,都可能會影響 到測驗信度的高低。因此,下列幾種是常見的因素,也是測驗編製者可以掌控的 因素(余民寧,2002): 1.試題題數多寡 測驗長度愈長,其信度係數愈高;測驗長度愈短,信度係數愈低。 2.樣本能力分配 在其他條件相等情況下,參與該次測驗的受試者能力分配的變異數愈大者(即 個別差異大或異質性高的受試者團體),所計算出來的信度係數值愈高;反之,參 與該次測驗的受試者能力分配的變異數愈小者(即個別差異小或同質性高的受試 者團體),所計算出來的信度係數值便愈低。 3.試題難易程度 當試題使用難易適中的測驗試題時,受試者答對和答錯者的測驗得分分配, 比較趨近於常態分配,此時的測驗得分分布範圍最廣,變異程度最大,因而所計 算出的信度係數值愈高。因此,試題難易程度會影響信度係數大小。 4.計分的客觀性 一份測驗作答結果的計分方式是否客觀,將會影響信度係數的大小。計分方 式愈主觀者(如:申論題),由於評分者誤差較大,故信度係數值較低;反之,計 分方式愈客觀者(如:選擇題),由於不受評分者主觀判斷的影響,其係度係數值 會較高。 5.信度估計方法 不同的信度估計方法,就有不同的測量誤差來源及不同大小的誤差估計值產 生。因此,在選用測驗及解釋其信度的資料時,應考量該測驗所採用的信度係數

(43)

34 估計方法、信度適用的環境、試題間關聯性及測量誤差的可能來源等因素。 (四)、提高信度的方法 信度既然是整份測驗優劣的重要指標之一,在編製測驗時,應更加注意命題, 以提高試題的品質。一般而言,要讓一份測驗有較高的信度,有下列幾個方式: 1.命題要清楚 題幹的說明不應模稜兩可、不可故意導入錯誤的思考方向,也不可命題出一 些稀奇古怪的題目。因為不清楚的命題,對不同社經背景的受試者,可能會有不 同的理解和解讀。所以命題最好能根據測驗所要測量內容和目的來設計,而不是 在玩文字遊戲,造成受試者的困擾,無法針對題目真正的中心概念作答。 2.試題的題數要適量 一般而言,測驗的試題數愈多其信度也會愈高;試題數愈少則其信度愈低。 但是在施測時,還是要考慮到受試時間長短,施測時間短的測驗,題目不可過多, 以免受試者因答不完,而以亂猜題的方式作答,這種受試者猜答的情形必定會影 響到測驗的信度。 3.不要出過難或過於簡單的試題 過於困難或鑽牛角尖的試題,只有少數的受試者會做,其他的受試者往往都 以猜題的方式作答;而過於簡單的試題,則易讓大部分的受試者都答對,上述這 兩種狀況都會使測驗分數的變異程度變小,使得信度也會跟著變小。因此為了讓 試題的變異程度加大,根據測驗分析結果可知,難易適中的試題變異程度往往是 最大的,則其信度也會跟著提高。 4.以客觀性計分試題為主 如果試題是採用主觀性的計分方式為主,可能會造成評分者在不同情況下有 不同的評分標準,因而影響到測驗分數,導致測驗的信度偏低。因此,要有較高 的信度,必須採用客觀性計分的題型。如:選擇題、是非題或配合題…等客觀性 的試題題型,在評分上較不受評分者主觀判斷的影響。

(44)

35 由以上幾點可知,一份良好的測驗應該以「能測出受試者真正能力」為主要目的, 而不應該以考倒受試者為目的。而Cronbach(1951)提出了信度係數及其意義的關 係如表2-3-3。 表2-3-3 信度係數參考指標 信度係數值 意義 0.90≦<0.99 理想 0.80≦<0.89 不錯 0.70≦<0.79 尚可接受 0.60≦<0.69 勉強可接受 <0.6 不能接受 總而言之,一份優良測驗至少應該具有0.80以上的信度係數,才具有使用的 價值(Carmines &Zeller,1979)。因此,施測者在出題上必須要特別考慮到試題的難 易度和鑑別度,使整份測驗信度提高。 二、 效度 (一)、效度的意義 效度是指測驗分數的有效程度,亦即是測驗能夠提供適切資料以做成決策的 程度(Thorndike, Cunningham, Thorndike,&Hagen,1991);也就是指測驗分數能夠代 表它所要測量的能力或潛在特質之程度,或測驗能夠達到其編製目的的程度。效 度高表示該測驗能達到所要測量目標,若效度甚低,則無法發揮其測量的功能, 故編妥測驗後,考驗其效度是極為重要之事(簡茂發,1993)。

(二)、效度的種類

根據1985年美國教育研究學會(American Education Research Association)、美 國心理學會(American Psychological Association)和國立教育測量委員會(National Council on Measurement in Education)等三個教育專業團體所組成的聯席委員會,

(45)

36

出版一本有關測驗編製與使用方面的規範標準:《教育與心理測驗標準》(Standards

for Educational and Psychological Testing),其中針對測驗使用目的不同,規定在

推論和解釋分數時,應該報告三種不同的測驗效度,分別如下(余民寧,2002): 1.內容效度(content validity) 內容效度是指抽樣的測驗試題樣本內容是否具有教學目標與教材代表性或適 當性程度一種指標。換句話說,內容效度主要是被測驗的範圍所決定,除此之外, 還要考慮此測驗中是否能提供該範圍內的適當或具代表性的試題而定。例如:要 測驗學生有關「整數的四則運算」的概念,那所使用的測驗試題都必須和整數的 四則運算有關,含有其他概念的試題就不適合該測驗,所以就不能出含有分數的 四則運算,如此,這份測驗才會有較高的內容效度。一般來說,測驗試題若能涵 蓋所有的教學目標和教學內容,並且是根據雙向細目表而來命題,且具有充分的 代表性,即能夠確立該測驗具有適當的內容效度。因此,教材目標與教學內容是 確立內容效度的兩個重要的層面(余民寧,2002)。由於要使選入的試題包含所要 的教材目標與教學內容,以系統邏輯方法詳細分析成就測驗中試題特性,故又稱 課程效度(curricular validity)或邏輯效度(logical validity)(簡茂發,1993)。一般來說, 內容效度較適合用於教育測驗(尤其是成就測驗)情境中,較不適合用在心理測驗 (如:性向與人格測驗)上。實施成就測驗的目的,就是要測量受試者對於學習內 容的精熟度,因此內容效度是很重要的。 一般人常把表面效度(face validity)和內容效度相混淆,事實上,兩者意義是 不同。表面效度是指測驗給人的第一個印象「好像」是在測量某種特質的指標, 而不是指測驗事實上能測量到什麼樣的能力或潛在特質。表面效度的存在較容易 吸引受試者注意,並激勵受試者認真的作答,但是表面效度並不是真正的內容效 度,不可以被用來代替客觀的內容效度。因此,一份具有適當內容效度的教育測 驗,通常也會有良好的表面效度;反之,光是具有表面效度的教育測驗,卻不一 定會具有良好的內容效度(余民寧,2002)。

(46)

37

2.效標關聯效度(criterion-related validity)

效 標 關 聯 效 度 又 稱 實 證 效 度 (empirical validity) 或 是 統 計 效 度 (statistical validity),是以測驗分數和效度標準(validity criterion)之間的相關係數,表示測驗 效度的高低(簡茂發,1993)。一般而言,因適當的外在效標取得不易,使得建立 效標關聯效度時易遭遇困難。外在效標即是指測驗所要預測的某些行為或表現標 準。由於外在效標取得的時間不同及測驗使用目的不同,效標關聯效度又可以分 成同時效度(concurrent validity)與預測效度(predictive validity)。若測驗分數與外在 效標的取得約在同一時間內連續完成,則稱同時效度;若測驗分數與外在效標的 取得相隔一段時間,測驗分數的取得在先,而外在效標的取得在實施測驗一段時 間後,計算這兩種資料間的相關係數即代表該測驗的預測效度。總之,同時效度 與預測效度有兩點不同: (1).效標取得的時間不同: 同時效度是在測驗的同時間蒐集效標;預測效度則是在測驗實施後,等待一 段適合的時間再蒐集效標。 (2).測驗的目的不同: 同時效度是在評估目前的情形;預測效度是在預測未來的行為。 效標關聯效度值範圍從-1~+1,當愈接近-1或+1時,表示關聯性愈強,也就是從一 個變項上的分數,可以完全預測出另一個變項上的分數;愈接近0時,則表示關 聯性愈弱。 3.建構效度(construct validity) 建構效度又稱為構念效度,就是指測驗能夠測量到理論上概念或特質的程度, 句話說,就是指測驗分數能夠依據某一學說的理論概念加以解釋的程度(郭生玉, 2003)。 通常,建構效度的建立,都是經過一定的步驟和過程來完成,並且都已經被 視 為 是 個 發 展 測 驗 工 具 的 標 準 化 程 序 (Gronlund,1993; Hopkins, Stanley, &

(47)

38 Hopkins,1990)。有四個步驟如下: (1).先提出有關理論建構說明,並據此設計評量用的試題。 (2).提出可以考證該理論建構是否存在的預測或假設說明。 (3).採用各種方法收集實際資料,考驗第2步驟所提出的預測或假設的正確性。 (4).收集其他型態的輔助證據,淘汰與理論建構相反試題,或是修正理論,並 重複第2和第3步驟,直到上述的預測或假設得到驗證,測驗的建構效度獲得支持 為止。 由上述可知建構效度的建立過程,其實是非常的嚴密,因此有更多新測驗工 具的研發工作,越來越重視建構效度的建立,以期獲得理論與實務資料適配 (goodness-of-fit between model and data)之驗證效果(Bollen, 1989;Marsh, Balla, & McDonald,1988;Mulaik, James,Van Alstine, Bennett, Lind,& Stillwell,1989)。

(三)、影響效度的因素 在編製與使用測驗過程中,有許多因素可能會影響到測驗的效度,以下為較 常見的影響因素: 1.測驗編製過程是否得當 在編製測驗時,若未能遵照雙向細目表來編擬試題,則易造成測驗試題品質 不良,直接或間接影響試題所要測量功能,而降低測驗的效度。 2.施測程序與情境是否良好 測驗實施的程序與情境,對測驗效度的建立也有很大影響。因此,宜安排一 個照明良好、溫度適中、通風寬敞、安靜的施測環境,並給予一個明確遵照測驗 指導語進行施測的程序,才能確保測驗的效度。 3.受試者的身心反應 受試者在接受測驗時身心狀態,例如,學生的作答動機、情緒、焦慮、健康 狀態、疲勞等生理或心理因素,都是影響效度重要因素之一。 4.外在效標品質的良窳

(48)

39 外在效標如果挑選不當或其原本的品質就不良,則容易造成與測驗分數間絲 毫沒有關係,因而降低效標關聯效度;反之,外在效標挑選得當且品質優良,則 與測驗分數間就容易有高相關存在,因而提高效標關聯效度。 5.樣本能力分配的變異程度 如同影響信度係數的因素一樣,當建立效度係數的樣本能力分配的變異程度 愈大時,效度係數值便愈高;反之,樣本能力分配的變異程度愈小時,效度係數 值就愈低。因此,受試者能力分配的變異程度大小,是影響效度係數值高低的因 素之一。 (四)、提高內容效度的方法 內容效度特別適用於成就測驗的效度考驗,在成就測驗中,所著重的在於此 測驗能否充分測量到所學過教材重點和所期望學習結果。在編製成就測驗時,若 能遵循下列步驟,將可提高測驗的內容效度(陳英豪、吳裕益,2001): 1.分別列出教材內容的各項重點和所要測量各類學習結果。通常我們在擬定教學 計畫時,就已決定了教學各項重要內容和所欲達成目標。因此,可以直接參照教 材大綱和所預期目標來列出各項教材重點及各類學習結果。如果所編製的測驗要 適用於全校,則此項工作最好由有關的教師組織一個委員會共同來擬定。 2.各項教材重點和各類學習結果要以其相對的重要性來加權。要決定各項教材重 點和行為改變的相對權數,並沒有什麼較為簡單的方法。一般而言,可根據教學 時各項要點所使用時間及該學科專家意見等來決定相對性的重要性。 3.編製雙向細目表。表中各細格的數字代表各項教材重點及學習結果的相對權數。 因此,此表已說明了在編製測驗時,每項教材重點及學習結果相對重要性或是所 對應題數。 4.依據雙向細目表來編製測驗,所編製的測驗越是符合雙向細目表各細格所佔比 重,則內容效度越高。

(49)

40 三、信度與效度的關係 在測驗中的兩大特徵是效度與信度,兩者之間並非是獨立的。一個有高信度 的試題,未必具有高效度,因為可能測到的部分並非是所要的特質。但是若是這 份試題的效度很高,則信度也一定很高,可以這麼說:「信度是效度的必要條件, 但非充分條件」。簡單來說,有信度不能保證有效度;但是,效度卻可以保證某 種程度的信度(余民寧,2002)。國內學者簡茂發(1978)即認為信度與效度間的關係 可以合理推論為:「信度低,效度一定低,但信度高,效度不一定高;效度高, 信度一定高,但效度低,信度不一定低」。 一份試題的優良與否取決於信度與效度及其他相關的統計量。因此,教學者 要能對試題分析的統計量與專業知識多做了解,測驗才能兼具有效發揮測驗的功 效又能達到幫助學習者學習目的。

(50)

41

第三章 研究方法

本研究主要目的是在多元計分下部分給分 S-P 表在國小高年級數學成就測驗 上的應用,以獲得訊息來幫助教學者作為補較教學的依據。本章研究方法共分為 四節,第一節研究架構,第二節研究對象,第三節研究工具,第四節資料處理與 分析。

第一節 研究架構

本研究主要分成三部分: 一、測驗資料的分析,包含繪製部分給分 S-P 表、D* 及注意係數及其類型。 二、對試題作質的分析,包含試題內容分析、內容效度分析及雙向細目表。 三、對試題作量的分析,包含鑑別度、難度、選項分析及信度分析。 圖 3-1-1 研究架構圖 試題題本檢核 個別試題 質的分析 量的分析 信度 試題內容 內容效度 雙向細目表 繪製 S-P 表 差異係數 注意類型 類型 測驗資料 選項 分析 難度 鑑別度 綜合分析

數據

圖 4-2-1  信度曲線

參考文獻

相關文件

• elearning pilot scheme (Four True Light Schools): WIFI construction, iPad procurement, elearning school visit and teacher training, English starts the elearning lesson.. 2012 •

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in

• Any node that does not have a local replica of the object periodically creates a QoS-advert message contains (a) its δ i deadline value and (b) depending-on , the ID of the node

In the table boldface line was the S curve means students and dotted line was the P curve means problem.

Based on the tourism and recreational resources and lodging industry in Taiwan, this paper conducts the correlation analysis on spatial distribution of Taiwan

This study focuses on the need of walking to school for middle-grades students and designs related teaching plans.This study firstly conducts a questionnaire

This research focuses on the analysis of the characteristics of the Supreme Court verdicts on project schedule disputes in order to pinpoint the main reason for delay

Based on a sample of 98 sixth-grade students from a primary school in Changhua County, this study applies the K-means cluster analysis to explore the index factors of the