部分給分S-P表的分析與運用 -以自然科大型成就評量為例-

(1)

國立臺中教育大學教育測驗統計研究所

國民小學教師在職進修教學碩士學位班碩士論文

指導教授：許天維博士

部分給分 S-P 表的分析與運用

-以自然科大型成就評量為例-

研究生：楊宗憲撰

中

華

民

國

一

○ 一

年

七

月

(2)

I

謝辭

回首這兩年的研究所生活，真是令我受益甚多，期間雖然遇到一些瓶頸，然而，終究能完成碩士論文，心中除了喜悅之外，還有著無數的感謝。對於論文研究時，許多給予我協助和鼓勵的人，在此致上無限的感謝之意。首先，非常感謝指導教授許天維老師這二年來的引導與鼓勵，在我對論文內容束手無策，手足無措之時，老師以無比的耐心，指導我前進的方向，讓我能繼續支持下去，走到最後；在許老師精心的指導中，讓我能夠順利完成論文，這對我的工作上助益甚大，感謝許老師的付出與辛勞。感謝研究所的同學，在我心情低落時，給予溫馨的安慰及鼓勵；感謝學校同事們給予研究方面的建議與協助。一路走來，若沒有這些貴人的相助，我可能就沒有動力走下去，順利完成論文、完成學業。同時，也要感謝口試委員胡豐榮教授以及陳進春教授在口試時提供的寶貴意見，使我的論文更加完善與豐富。最後，再次感謝給予我協助和鼓勵的人，您們的協助與支持是我能順利完成論文的重要動力。在此，分享喜悅給所有幫助過我的人，感恩大家！

(3)

II

中文摘要

部分給分 S-P 表的分析與運用-以自然科大型成就評量為例-

本研究主要的目的為利用國內學者許天維教授採用 Manhattan Scoring 概念來擴充日本學者佐藤隆博的 S-P 表（student problem chart）分析法的理論公式，以應用於大型能力測驗評量之中，並探究國小高年級學生在自然科能力測驗中的理解情形和作答情況。首先利用試題分析來了解試題編制的情況及特性，再分析出學生在自然科能力測驗的理解情形以及學生答題反應與學習類型，以作為日後進行教學時的參考。由於 S-P 表分析法只能運用在班級的小樣本研究，運用在大型測驗上時具有一定的難度，即使透過國內余民寧教授所使用的 TESTER 程式，所獲得的差異係數(disparity coefficient)仍會有異常的現象，而差異係數是使用注意係數的重要指標；故本研究亦將修正後的公式透過電腦應用軟體程式操作，以求能正確且快速的獲得 S 曲線和 P 曲線的分離程度，避免差異係數的誤差，以確認整份測驗的合宜性。為達成此目的，本研究分兩部分進行：第一部份，以某中學學生入學能力測驗為原始資料，將受試學生的答題反應資料藉由統計分析軟體以試題選項特徵曲線和Ｓ-Ｐ表分析法，取得試題編製與試卷特性進行信度與效度分析，以分析此份試卷的好壞，提供給命題者作為日後修審試題的參考。第二部分則是利用學生診斷分析圖分析應試學生的作答表現，並推論出學生的學習類型，以便在學生入學後，讓教師能減少磨合及判斷學生類型的時間，使教學能盡快步入正軌，並因應學生類型，提供合適的指導方式。關鍵字：試題分析、S-P 表分析法、差異係數、學生注意係數。

(4)

III

Abstract

This research mainly utilizes the Manhattan Scoring Concept to expand the theoretic formula of S-P Table （student problem chart）Analysis Method that was found by a Japanese scholar named Takahiro Sato. The Manhattan Scoring Concept, utilized by a Taiwan scholar carrying the name Tian-Wei sheu, uses this concept to apply large scale ability evaluations, and study the understanding and test performance of high grade elementary students in science ability examinations. Firstly, this research uses item analysis to understand the situation and characteristics of items establishment. After that, students are analyzed of their understanding, test performance and learning type in their science ability examinations, in order to make a reference for future teaching methods.

Due that S-P Table Analysis Method can only be utilized in small sample research; this method shows certain difficulties when applied at large scale examinations. Even by using the TESTER program utilized by Professor Min-Ning Yu, the disparity coefficient received by this program still shows some aberrant phenomenon. In fact, disparity coefficient is an important index when using item caution index. Therefore; this research also operates the revised formula through computer application programs, in order to accurately and rapidly receive the separating degree of S Curve and P Curve. All this is done so that the situation of disparity coefficient error can be prevented, and that the conformance of the entire examination is not compromised.

Finally, in order to achieve its goal, this research is carried out in two parts. In the first part, the entrance ability exam of some certain middle school is used as the original data. The response data of the tested students are first analyzed by statistic analysis software. In this software, the items option characteristics curve and S-P Table Analysis Method receives the item establishment and test paper characteristics to conduct reliability and validity analysis. This is to analyze the quality of this examination, and to provide a reference for future test question assignment. In the second part, students diagnostic analysis diagram are used to analyze the performance of the tested students, to infer the learning type of students, so that teachers can shorten their time in adjusting and determining the students' learning type. This way, teachers can start right on track after the students' enrollment, and provide the students the teaching method most suitable to them according to their learning types.

(5)

IV

第一章緒論

第一節

研究動機﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 1

第二節

研究目的﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 2

第三節

研究問題﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 2

第四節

名詞釋義﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 3

第二章文獻探討

第一節

S-P 表分析理論﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 5

第二節

試題分析﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 10

第三節

古典測驗理論﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 19

第三章研究方法與設計

第一節

研究流程﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 23

第二節

研究對象﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 25

第三節

分析工具﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 25

第四章研究結果與討論

第一節

測驗結果分析﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 27

第二節

試題編寫情形分析﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 31

第三節

學生學習類型分析﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 32

第四節

綜合分析﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 34

第五章結論與建議

第一節

結論﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 61

(6)

V

第二節

建議﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 62

參考文獻

一、中文部分﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 65

二、英文部分﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 65

三、日文部分﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 66

附錄

附錄 1

試卷﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 69

(7)

VI

表目錄

表 2-1 S-P 表……… 6

表 2-2 CP 或 CS 的反應組型表……… 8

表 2-3 鑑別度判別標準表……… 13

表 4-1 測驗分析結果表……… 27

表 4-2 成績次數分配表……… 27

表 4-3 信度水準表……… 29

表 4-4 試題難度與鑑別度表……… 30

表 4-5 試題難度與鑑別度表……… 31

表 4-6 試題判定類別表……… 32

表 4-7 學生診斷分析表……… 33

表 4-8 試題 13 綜合分析表……… 34

表 4-9 試題 14 綜合分析表……… 36

表 4-10 試題 15 綜合分析表……… 38

表 4-11 試題 16 綜合分析表……… 40

表 4-12 試題 17 綜合分析表……… 42

表 4-13 試題 18 綜合分析表……… 44

表 4-14 試題 19 綜合分析表……… 46

表 4-15 試題 20 綜合分析表……… 48

表 4-16 試題 21 綜合分析表……… 50

表 4-17 試題 22 綜合分析表……… 52

表 4-18 試題 23 綜合分析表……… 54

表 4-19 試題 24 綜合分析表……… 56

表 4-20 試題 25 綜合分析表……… 58

(8)

VII

圖目錄

圖 2-1 試題診斷分析圖……… 9

圖 2-2 學生診斷分析圖 … … … 10

圖 4-1

學生成績分布圖

……… 28

圖 4-2

信度曲線圖

……… 30

圖 4-3

試題注意係數分布圖

……… 32

圖 4-4

學生診斷分析圖

……… 33

(9)

1

第一章緒論

本研究藉由使用 S-P 表以分析台南市某私立國民中學學生入學考試測驗分數，以求從其中得知該年段入學學生的學習狀況和學習類型，並提供學校及家長在提供補救教學與其他相關輔導的依據，以增加教學效率，並提升學生的學科能力。

第一節研究動機

教育是人的事，是人所特有的事。犬馬牛羊只能有行為機械的訓練，惟人才能有心靈變化的教育。而中華民國憲法第 21 條：「人民有受國民教育之權利與義務。」因此，台灣百年來的教育理念，遵循著孔子所提倡「有教無類」之精神，期許學子們能夠在師長的教導下成長，學成後能為社會貢獻一己之力。然而，隨著時代的進步，社會環境的變遷，近來課堂上所教導的知識，是否適用於每位學生，抑或是只適用於部分中間份子？而現代人一方面承受著中國五千年之教育薰陶，另方面又吸收了歐美各國文化的精義，若能夠集中外之精華，加以融合創新，是否更可對現在的教育學子有更大之幫助？近年來，許多教育學者紛紛提倡人本教育，但心物合一的人本教育思想，不全然為自然本位教育，順兒童所欲發展者而發展之，也不完全為社會本位教育，為全體生命之適應與促進，尚需加入精神本位教育，為人類精神文化之創造與發揚，故所謂人本思想教育，實要綜合自然、社會與精神三種本位教育之優長而貫通之，以完成一種空前完美的教育系統。若在有教無類的教育理念下，對於不同學生而給予不同的教材，是必須要先了解學生的資質與吸收能力，也因此，統計分析的數據結果，能夠提供現在許多教師作為改善教材與輔導學生之依據。而 S-P 量表之數據，為目前最多人使用之參考依據。

(10)

2 所謂 S-P 量表，係指英文”Student(學生)”的 S，以及”Problem(問題)”的 P。是日本學者佐藤隆博於一九七 O 年代所創，而後又由龍岡誠博士於一九七 O 年代末引進日本。於民國七十二年，經彰化師範大學陳騰祥教授介紹至國內。 S-P 表分析，利用「圖形化」的方法分析學生在試題上的作答反應。該方法分析每位學生及每個試題的作答反應組型，嘗試以幾個指標化數據作為診斷或判讀該反應組型是否為不尋常或異常的一種測驗分析方法。其目的在獲得每位學生的學習診斷資料，以提供教師實施有效的教學回饋參考。透過 S-P 量表作試題分析之相關論文已有許多，故我們了解到 S-P 量表可診斷學童的學習成效，針對學童的學習表現類型予以分類，並從中獲得有關改進教學及學習輔導的訊息。尚無人以該統計方式分析大型能力測驗之結果是否亦可作為參考依據，故在與教授之討論後，決定以該類型作為研究論文，進行研究與探討，希能得到預期中之結果，讓後續研究者可以更嚴謹的研究方法進行研究。

第二節研究目的

本研究藉由使用 S-P 表以分析台南市某私立國民中學學生入學考試測驗分數，以求從其中得知該年段入學學生的學習狀況和學習類型，並提供學校及家長在提供補救教學與其他相關輔導的依據，以增加教學效率，並提升學生的學科能力。根據以上的研究目標，所要達成的研究目的有以下三項：一、根據試題分析，了解測驗試題的編寫狀況。二、運用 S-P 表分析以了解試題編寫情形。三、分析學生學習類型以供教師診斷與分析。

第三節研究問題

根據以上的研究目的，本研究有以下的研究問題：

(11)

3 一、根據試題分析測驗試題的編寫狀況： 1. 試題的信度分析指數為何？ 2. 試題的難度為何？ 3. 試題的鑑別力是否足夠？ 4. 試題中誘答選項的誘答力是否合理且有效？二、運用 s-p 表中的試題注意係數了解試題編寫情形： 1. 優良型試題的分布狀況為何？ 2. 異質型試題的分布狀況為何？ 3. 困難型試題的分布狀況為何？ 4. 拙劣型試題的分布狀況為何？三、分析學生學習類型以供教師診斷與分析： 1. 學習穩定型學生的分布狀況為何？ 2. 粗心大意型學生的分布狀況為何？ 3. 努力不足型學生的分布狀況為何？ 4. 欠缺充分型學生的分布狀況為何？ 5. 學力不足型學生的分布狀況為何？ 6. 學習異常型學生的分布狀況為何？

第四節名詞釋義

一、S-P 表分析：

S-P 表分析 ( Student-Problem chart analysis) 是由日本學者佐藤隆博(Takahiro

Sato) 於 1970 年代所創，是一種將學生在試題上的作答反應情形予以圖形化分析

的方法，其目的在獲得每位學生的學習診斷資料，以提供教師實施有效的學習

輔導之參考。由於 S-P 具有分析簡易、以圖像呈現結果易於判讀、適合以班級為單位使用及對教學以計試題編製節提供有效資訊等優點，故自從 1982 年佐藤隆

(12)

4

博博士出版多本適合小學到高中的 S-P 表教學書籍後，在日本受到各界教師的好評及廣泛使用。時至今日，日本的中小學仍頗為重視 S-P 表的使用（余民寧，

2002）。

二、試題選項特徵曲線：

試題選項特徵曲線（ Item option characteristic curves，簡稱 IOCC）是由加

拿大麥克基爾大學心理計量學教授 J.O.Ramsay 發展出的一種無參數的試題反應理論。該方法利用圖形化的方式來記錄或比較資料及數據，相較於文字敘述的複雜和數字的繁瑣，該方法較為簡單易懂。該方法以受試者的能力為橫軸，以受試者在某一題的選答率為縱軸，配合核平滑化法，完成一平滑的曲線圖。利用該一曲線圖，決定是否重新命題以修正不夠明確的試題選項或是提供較合理的誘答選項(楊志強、楊志堅，2003)。

(13)

5

第二章文獻探討

本章分為三節，第一節探討 S-P 表分析理論之內容與意義；第二節針對試題分析的內容予以探討，第三節則是將重點放在古典測驗理論上，探討古典測驗理論之優缺點。

第一節 S-P 表分析理論

S-P 表分析(Student-Problem chart analysis)是日本學者佐藤隆博(Takahiro Sato) 於 1970 年代所創。所謂的 S-P 表是指英文中學生的 S 與問題的 P 所組合而成。是一種將學生在試題上的作答反應情形予以圖形化分析的方法，其目的在獲得每位學生的學習診斷資料，以提供教師實施有效的學習輔導之參考。 S-P 表的繪製方法是先將學生分數以 1 表示正確，0 表示錯誤。在編寫完成之後，依照學生得分總分之高低，將學生的整個反應組型及其總分，由上往下依序排列。依照每道試題答對人數之多寡，將試題的反應組型及其答對人數，由左往右依序排列。排列完成之後，依據每位學生所得總分，從左端往右端數出和其總分相同的試題個數，並在其右邊畫一條直線（即分界線）-S 曲線。並依據每道試題之答對學生人數，從上往下數起，數出答對學生人數相同的學生個數，並在其下邊畫一條直線，由左端往右端分別畫出與每道試題答對學生入數相對應的分界線，該曲線即稱作-P 曲線。畫出 S 曲線和 P 曲線之後，如下表所示，即為完整的 S-p 表。

(14)

6 表 2-1 S-P 表試題號碼總分 2 3 7 4 9 1 6 5 10 8 學生座號 7 1 1 1 1 1 1 1 1 1 1 10 S 曲線 P 曲線 5 1 1 1 1 1 1 1 1 1 0 9 9 1 1 1 1 1 1 1 1 0 1 8 4 1 1 1 1 1 1 1 0 0 0 7 10 1 1 1 0 1 0 1 0 1 0 6 2 1 1 0 1 1 0 1 1 0 0 6 14 1 1 1 1 0 1 0 0 0 0 5 1 1 1 1 0 1 0 0 0 1 0 5 13 1 1 0 1 0 0 1 0 0 1 5 6 1 0 0 1 0 1 0 1 1 0 5 15 0 1 1 1 0 1 0 0 0 0 4 11 1 0 0 0 0 1 0 1 0 1 4 3 1 0 1 0 1 0 0 0 0 0 3 8 0 0 1 0 0 1 0 0 0 0 2 12 0 1 0 0 0 0 0 0 0 0 1 答對人數 12 11 10 9 8 8 7 6 5 4 80 S-P 表在分析時，可根據 S 曲線及 P 曲線的形狀和所在位置，以及兩曲線分離的程度，來判斷分析的結果。在 S 曲線的判斷方面，由於 S 曲線代表學生答對試題的分配情形，故 S 曲線左上方的面積越大，代表本分測驗學生的達成度（答對率）較高。在 P 曲線的判斷方面，由於 P 曲線是代表各試題答對人數的分配狀況，可判斷各試題答對率的分配狀況。目前在中小學裡實施的常模參照測驗，主要偏重於考試得分的記敘，缺乏評量的回饋與學習診斷功能。S-P 表不但可在學習前提供診斷評量，在形成性評量中也能充分發揮其效用。佐藤隆博指出，S-P 表在教學評量上的使用優點有以下五項（陳騰祥，1986）：一、 S-P 表的編寫以及分析十分容易，一般教師皆可獨力完成，沒有繁雜的

(15)

7 計算方式及內容解釋。二、 S-P 表的內容不僅可以用來掌握班級學習狀況，也可以做為個別學生和個別試題的分析。三、 S-P 表分析所得到的數值，在教學內容、提供補教教學策略或是試題是否是何方面，皆可提供足以佐證的數據。四、 S-P 表在學生學習的診斷上，可以針對質的分析（Qualitative analysis）對試題的內容進行檢驗，也可以透過量的分析（Quantitative analysis），分析出每個學生的學習特質，功用極為廣泛。五、 S-P 表的分析除了可以用在平時測驗結果上，對習題和前後測的分析，亦有很大功用。 S-P 表分析所用的指標有:差異係數（Disparity coefficient）、同質性係數

（Homogeneity coefficient）以及注意係數（Caution index）等，其功能主要是用來作為判斷學生或試題在反應組型中的注意係數，以及整份測驗的差異係數和同質性係數。教師可利用這些指標瞭解學生或試題的狀況與問題所在，以作為提供補救教學、改善教學方式以及未來命題上的參考。以下針對注意係數的部分予以說明。一般在實際的測驗資料裡，S-P 表所分析的對象幾乎都是一種不完美的反應組型，以一個量化指標（即注意係數）來表示其嚴重性；所謂的注意係數，即是指 S-P 表資料中，實際反應組型與完美反應組型間的差異，佔完美反應組型之最大差異的一種比值（Sato，1975）。注意係數的值均為正值，數值越大，即代表學生或試題的反應越不尋常，值得注意。在實際情境中，一般有以下的判別標準：

(16)

8 表 2-2 CP 或 CS 的反應組型表 CP 或 CS 的值試題或學生的反應組型 CS > 0 或 CP < .50 該試題或學生的反應組型發生不尋常的狀況並不嚴重，在可容許範圍之內。 CS ≥ .50 或 CP < .75 該試題或學生的反應組型發生不尋常的狀況已經很嚴重，應予以注意。 CS 或 CP ≥ .75 該試題或學生的反應組型發生不尋常的狀況非常嚴重，應予特別注意。

注意係數分為試題注意係數（Caution index for problems，簡稱 CP）及學生

注意係數（Caution index for students，簡稱 CS），以下分別針對兩種注意係數予

以說明：

一、試題注意係數

試題注意係數的公式如下：

第 j 題試題問題注意係數的公式為：CP_j = 1 −∑ni=1(yij)(yi)−(yj)(μ)

∑yi_i=1yi−(yj)(μ) y_ij代表學生 i 在第 j 題的答題狀況。 yi為學生 i 的總分。 y_j是試題 j 的答對人數。 μ 是學生平均得分注意係數的數值越大，表示學生或試題的反應組型越不正常，需要更加注意。以試題注意係數為橫軸，答對試題的學生人數百分比(答對率)為縱軸，將試題類型分成四個區塊，並將每一試題的注意係數標示於其中，即成為試題診斷分析圖(余民寧，2002)。試題診斷分析圖可將試題分為(A)優良型、(A′)異質型、(B)困難型和(B′)拙劣型四種：

(17)

9 答對學生人數百分比 100% 50% (A)優良型試題適當，可以區別低成就者與其他學生的不同 (A`)異質型試題含有異質成份，需要局部修正 (B) 困難型試題困難度高，適合用作區別高成就者 (B`)拙劣型試題含有相當異質成份在內，可能資料登錄錯誤或題意含糊不清，必須修改 0.5 1 圖 2-1 試題診斷分析圖二、學生注意係數學生注意係數的公式如下：第 i 個學生的學生注意係數：CS_i = 1 −∑nj=1(yij)(yj)−(yi)(μ`) ∑yi_j=1yi−(yi)(μ`) y_ij代表學生 i 在第 j 題的答題狀況。 y_i為學生 i 的總分。 y_j是試題 j 的答對人數。 μ`代表學生的平均得分。以學生的注意係數為橫軸，以學生得分之百分比為縱軸，將試題類型分成六個區塊，並將每一學生的注意係數標示於其中，即成為學生診斷分析圖(余民寧，2002)。學生診斷分析圖可以將學生分成(A)學習穩定型、(A′)粗心大意型、(B) 努力不足型、(B′)欠缺充分型、(C)學力不足型和(C′)學習異常型六種類型，其分布圖如下所示：

(18)

10 學生得分之百分比 100% 75% 50% A：學習穩定型學習良好，穩定性高 A`：粗心大意型粗心大意，不細心造成錯誤 B：努力不足型學習尚稱穩定，需要再用功一點。 B`欠缺充分型偶爾粗心，準備不充分，需要再努力。 C：學力不足型學力不足，學習不夠充分，需要更加努力用功。 C`：學習異常型學習極不穩定，具有隨性讀書習慣，對考試內容沒有充分準備 0 0.5 1 圖 2-2 學生注意係數圖

第二節試題分析

試題分析的主要功能在於針對質的分析（Qualitative analysis）對試題的內容進行檢驗後，再透過量的分析（Quantitative analysis），以分析出每個試題的統計特徵，協助命題者分析試題的質，以供修改或日後出題時的依據。試題在經過分析後，可以知道試題的難度是否適中、各選項是否具有誘答力、試題選項特徵曲線等，這些資訊可提供以下幾個功能（黃國清，2004）：一、受試者加強其學習盲點的參考：透過測驗可讓受試者在學習中並未發現的盲點找出，並了解自己在學習上，有哪些地方不是很清楚，需要加以補強。二、教學者實施補救教學的依據：教學者可利用試題分析結果中所呈現的學習困難為依據，為受試者提供補救教學及相關學習策略，增加學生的學習效率，以求事半功倍。

(19)

11 三、提供課程修改的參考：根據試題分析可以知道教學內容是否符合學生的學習成果，若課程內容不符合學生的學習，則必須適度的修改甚至刪除。四、增進測驗題庫運用的效能：試題分析可提供命題者各試題相關的統計特徵訊息，包括鑑別度、選項誘答力、試題選項特徵曲線、難易度等。這些訊息可供給命題者修改試題或刪除試題，並提高命題者對試題編製的敏銳度，提升命題能力。五、增進測驗題庫運用的效能：將篩選過的優秀題目集結成題庫，將來教學者在進行類似測驗時，可直接由題庫中選取題目，如此可節省出題所需的時間。且所選取出的題目皆為經過篩選的優秀題目，對評量的結果亦有幫助。 壹、傳統試題分析方法 就測驗理論而言，試題必須經過質和量兩方面的分析，才能夠成為一分可靠的試題，進而發揮其功能。傳統測驗用來分析試題是否為優良品質，可由兩方面著手（Linn&Gronlund,2000）：一、試題內容的品質分析：品質分析可由試題的內容審查、有效命題原則及教學目標等評鑑工作來進行。一般而言，在正常的教學情境下，教師透過試題的邏輯審查，通常都能確保試題具有教學內容的代表性與測量到它所要測量的教學目標的功能，亦即可以確保試題具有一定的內容效度（余民寧，2002）。二、試題統計特徵的量化分析量化分析主要是依據試題的統計特徵進行分析，其分析的主要對象包括難度指標（Difficulty index）、鑑別度指標（Discriminiation index）、選項誘答力（Distraction）、信度（Reliability）及效度（Validity）等，經過試題統計特徵的量化分析，可明確了解試題的特性及優劣。以下根據量化分析的難度等各項指

(20)

12 標進行探討：（一）難度指標難度指標為判斷某一試題難易度的依據，適當的難易度是構成一個優質試題 的條件之一。一般以P值代表難易度，P值為一介於1與0之間的數，P值越大代表 試題越容易，相對的，P值越小代表試題越難。難度指標可由以下兩種方式來計 算： 1. 答對百分比：在難易度的計算中，最常用也最簡單的計算方式為計算答對人數的百分比，利用答對人數除以總人數，其計算公式如下： Pi = Ri Ni × 100%

其中，為第i題的難度，為答對試題i的人數，為作答試題i的總人數。

此種方式雖然簡單，但當有兩試題答對人數百分比為相同時，並無法顯示出兩試題時因為高分組的同學答對的多或試低分組的同學答對得多所致，連帶影響對兩試題難易度的判斷。為了解決以上的問題，提出了另一種計算方法，將學生分為高分組及低分組，分別計算高分組的答對百分比以及低分組的百分比，再用這兩個值來計算該題的答對百分比，其計算公式如下： P =PH + PL 2 × 100% 2. 等距量尺：由於答對百分比僅能代表試題難度的等級順序或相對的困難程度，無法說明各試題難度間之差異的數學涵義。為了解決這個問題，美國教育測驗服務社 (ETS)另外發展出具有等巨量尺特性的難度指標。假設每道試題所要測量的能力或潛在特質呈現標準常態分配，認為試題的難易度可以在常態分配曲線的橫軸上某一點，以離差分數表示之。其求法係根據答對某一試題的人數百分比與答

(21)

13 錯該題的人數(包括未作答者)百分比，使前者在右，後者在左，找出二者在常態分配曲線橫軸上的分界點，該點的相對位置以標準差為單位表示之，即為X。再按照△=13+4X的公式，可求出該題的難度指數△。其為一平均數為13，標準差為 4的標準分數。（二）鑑別度指標：鑑別度指標的功用是在於是否能區別學生能力高低，鑑別度越高，區別不同能力學生的功能愈強；反之，鑑別度指標值愈低的試題，區別不同能力學生的功能愈弱。一道良好的測驗試題，往往具有較高的鑑別度指標值。計算方法為將受測者通過測驗試題的百分比，分成高分組（全體受試者當中分數最高的27%至33%）及低分組（全體受試者當中分數最低的27%至33%），並計算高低兩組通過測驗試題百分比的差，即為試題鑑別度指數D。其公式如下： D = P_H− P_L 根據Ebel&Frisble（1991）、陳英豪與吳裕益（1992）、郭玉生（1996）、余民寧（2002）等提出的試題評鑑原則，鑑別度0.4以上是屬於非常優良試題； 0.3～039屬於優良試題，可能需要局部修改；0.2～0.29屬於尚可試題，需要修改； 0.2以下屬於劣質試題，建議刪除。一般鑑別度的最低標準至少要大於0.25，低於此標準，即可視為鑑別度不佳或品質不佳的試題（Noll, Scannell&Craig,1979）。美國測驗學者 Ebel & Frisble（1991）便提出一套鑑別度的判斷標準，可作為選題參考的依據：表2-3 鑑別度判別標準表 鑑別度指標 試題評鑑結果 .40以上非常優秀 .30～.39 優良，但可能需修改 .20～.29 尚可，但須做局部修改

(22)

14 .19以下劣，須修改或建議刪除（三）選項誘答力由於選擇題的部分無法看出學生的思考過程，因此，選項誘答力便有其存在的必要性。Haladyna（1994）指出客觀測驗之所以進行選項的誘答力分析，是因為可以藉由此分析來提供教師做進一步的試題分析指標，協助施測者改進編制的技巧與了解學生的作答狀況。一般選擇題除了一個正確選項之外，其餘的選項可以影響那些知識不足或是僅具有部分知識的受試者，誘導他們做出錯誤選擇，以發揮誘答的功用，增加試題的鑑別力。除此之外，教師還可以藉由受試者選擇的選項來了解學生的缺失，進而提供適當的補救教學。要知道正確選項是否明確，誘答選項是否有誘答的功能，需要透過選項分析。選項分析是透過比較高分組和低分組對正確與誘答選項的選答率，來了解每一試題的所有選項符合命題原則與否。如果分析的結果符合下列要求，代表該試題的正確選項和誘答選項是合理且有效的（郭玉生，1996） 1. 低分組學生在每個不正確選項上的選答人數百分比值不可以為零，也就是說，每個選項至少要有一位低分組的學生選擇他。 2. 低分組學生選答不正確選項上的人數百分比值，不可低於高分組學生選答不正確選項上的人數百分比值。如果該選項選擇的人數為0，或者是出現違反以上兩項規則者，即代表該選項不具備誘答功用，必須加以修改或是刪除重擬（余民寧，2002）（四）信度：信度是指測量結果的一致性、穩定性和可靠性。簡單來說是說一份測驗可靠與否。統計學家Anastasi（1988）表示，信度的意思是指同一個體在不同的時間，以相同的測驗或複本測驗測量兩次以上，所得結果的一致性（Consistency）與穩定性（Stability）。若從測量的誤差來看，信度的目的就是在判斷測量分數有多大的程度可以反映出真實的測量結果，能估計的測量誤差有多少。如果測

(23)

15

驗中含有較少的誤差成份，測驗的結果就會高，相反的結果就會低。由此可知，信度高表示測驗具有精確性和可靠性。有關信度的計算方法，一般較常見的有三種：

1. 重測信度（Test-retest reliability coefficient）：

同一份測驗針對相同受試者，在相隔一定時間後重複施測，若第二次測驗的結果不受到第一次測驗的影響，計算兩次測驗的相關係數，即為重測信度。由於該方法須針對相同受試者測驗兩次，受試者易受到各種事件影響，故在實施上較為不易。

2. 複本信度（Parallel-forms reliability coefficient）：

受試者在同一時間，施測兩份相似的測驗。這兩份測驗在格式、難易度、指導語、等各方面相當接近或類似，且用來測驗同一內容或特質，但兩份測驗的內容卻並不完全相同。之後再根據兩次測驗的測驗結果求出相關係數，此結果即為複本信度係數。

3. 內部一致性信度（Internal consistency reliability coefficient）：

內部一致性信度的目的，是為了彌補以上兩種方法均須測驗兩次以上，造成測驗編製者與受試者兩方面的困擾所產生。該種信度係數是目前最常用的信度係數，目前的估計方法主要分為三種： (1)折半方法折半方法是利用一次測驗的結果，將其分數分成兩半，求這兩邊分數的相關係數，此相關係數被稱為折半相關（Split-half correlation）。通常折半信度越高，代表兩邊測驗的內容越相等，其適當性也越高。然而，由於指使用了一半的測驗來估計信度，顧其試題長度的測驗信度一定會被低估。 (2)庫李方法此測驗方法是由學者Kuder和Richardson在1937年所發明的估計信度法，無須將測驗分成兩半，也不必測驗兩次，一般稱為K-R方法。此法主要適用於二元化

(24)

16 計分的測驗資料，並依據受試者對所有試題的反應，分析試題間的一致性，以確定測驗中的試題，是否都測量到相同特質的一種信度估計方法。使用庫李方法估計測驗的信度，通常使用的是庫李20號公式，其公式如下： KR20 = n n − 1[1 − ∑n p_iq_i i=1 Sx2 ] 其中KR20代表測驗的信度，n代表測驗題數，p_i是答對每一題的百分比，q_i則是答錯每一題的百分比。使用庫李20號公式時，基本假設試題記分接使用二元計分方式、試題皆為同質的且不受作答速度的影響。若測驗中各題的變異量趨於一致，則改用庫李21號公式計算，其公式如下所示： KR₂₁ = n n − 1[1 − X̅(n − X̅) nS_x2 ] 其中，為測驗分數的平均數，一般來說，庫李21號公式所估計出的信度係數會低於庫李20號公式所估計的（邱皓政，2006），除非所有的難度都相等。若所有的難度都相等，那麼KR20=KR21。 (3)α係數方法由於庫李方法無法處理多元計分的測驗，所以學者Lee J. Cronbach在1951年研究出α係數方法，此方法彌補了庫李方法只能計算二元計分的測驗的缺點，可以處理多元計分的測驗。α係數方法的公式是由庫李20號公式所發展出來的，其公式如下： α = n n − 1[1 − ∑n 𝑆_𝑖2 i=1 Sx2 ] 其中，為第i個試題得分的變異數。該方法在測驗試題呈現同質性時，所估計出的信度與其他方法所估計出的信度較接近。相對的，當測驗試題呈現異質性時，α係數方法所估算出的信度就會比其他方法所估計出的信度來得低，由

此可以推斷出，α係數為信度估計的下限（Novick & Lewis,1968）。也因為如此，

(25)

17 推斷該份測驗為一值得信賴的測驗。反之，若α係數偏低時，便無法判斷該份測驗值得信賴與否。一般而言，測驗學家認為一分可信賴的教育測驗，其信度值至少應該在0.80以上，才有使用上的價值（余民寧，2002）。（五）效度：在測驗的重要條件中，效度為最重要的特性之一（Ahmanan＆Glock, 1981）。所謂的效度指的即是測驗分數的正確性，也就是一測驗所能測量到該測驗想要測量到的特質之程度。效度可以提供施測者了解一份測驗能否正確的測量導所預測的受試者之能力或特質。當效度分數越高，其測驗的分數就越正確。 貳、試題選項特徵曲線：

試題選項特徵曲線（Item option characteristic curves，簡稱 IOCC）是由加拿大麥克基爾大學心理計量學教授 J.O.Ramsay 發展出的一種無參數的試題反應理論。該方法利用圖形化的方式來記錄或比較資料及數據，相較於文字敘述的複雜和數字的繁瑣，該方法較為簡單易懂。該方法以受試者的能力為橫軸，以受試者在某一題的選答率為縱軸，配合核平滑化法，完成一平滑的曲線圖。利用該曲線圖，決定是否重新命題以修正不夠明確的試題選項或是提供較合理的誘答選項(楊志強、楊志堅，2003)。該方法的優點有：一、在命題上，可以利用試題選項特徵曲線找出具有良好鑑別力的選項，保留良好的選項，排除題意不清或鑑別力不足的題目，提升試題的品質。二、在教學方面，試題選項特徵曲線可配合雙向細目表使用，讓教學者了解受試者的學習困難，進而成為提供補教教學或是相關教學輔導的依據。試題選項特徵曲線的圖形種類眾多，以下對正答選項特徵曲線與誘答選項特徵曲線的圖形特徵加以討論：一、正答選項特徵曲線：正答選項特徵曲線依照其形狀，可歸納為A、B、C、D、E五種類型（林育柔，2002）。以下分述此五種類型如下：

(26)

18 1. A型：呈現嚴格遞增凹向下之曲線由於能力較低的區域部分曲線斜率較大，故此類型對於能力較低的受試者，較具鑑別度。對於前二分之一或三分之一的受試者，缺乏鑑別度。 2. B型：呈現嚴格遞增凹向上之曲線此類型與A型完全相反，對於前二分之一或三分之一的受試者，較具鑑別度。而對於後三分之一的受試者而言，幾乎毫無鑑別度。 3. C型：呈現無水平嚴格遞增直線趨向此種類型曲線主要的特徵為大部分能力範圍內之斜率變動不大，幾乎維持定值，只有在小部分能力範圍內之曲線斜率有稍微的變動而已。該種類型的試題較能區分能力值高與能力值低的受試者之鑑別度，是屬於鑑別度較優良的試題。 4. D型：呈現嚴格遞增S型曲線此種類型的圖形為一先呈現凹向上後，再呈現凹向下，且有一個反曲點之曲線，此種類型曲線其主要的特性為對中間階段能力值範圍的受試者，其鑑別度特別高；但如果離開此一範圍，則其鑑別度明顯下降甚至趨近於零。 5. E型：呈現嚴格遞增反S型曲線此種類型的曲線圖形與D型完全相反，先呈現一段凹向下後，經過一反曲點，在呈現一凹向上。由於該圖形在中間某一段值幾乎呈水平，故對該段能力值的受試者幾乎不具鑑別度，相對的，對於兩端的受試者，具有相當高的鑑別度。二、誘答選項特徵曲線：誘答選項特徵曲線，能決定是否重新命題以消除題意不清的試題選項或提供較具誘答力的誘答選項，對診斷試題的選項能提供有效的幫助（林育柔，2002；楊志強、楊志堅，2003）。根據分析，可將該種曲線分為 A、B、C、D 四種類型予以說明： 1. A 型：

(27)

19 有一個誘答選項的選項特徵曲線與正確答案的選項特徵曲現彼此對稱。該類型的曲線顯示，此一選項具備高誘答力，是極為優良的誘答選項。 2. B 型：該類型的圖顯示有兩個誘答選項的選項特徵曲線與極為相似。該類型的曲線顯示，有兩個選項具備高誘答力，是誘答力優秀的選項。但有一個選項不具誘答力，是誘答力較弱的誘答選項，可考慮針對該選項作修改。 3. C 型：該類型的圖選項的選項特徵曲線互相纏繞。該類型的曲線顯示此題的誘答選項具良好的誘答力，為一優秀的試題。 4. D 型：該類圖形中誘答選項的選項特徵曲線對能力較高的受試者具備高誘答力。此種圖型代表誘答選項對能力較高的受試者產生的誘答力比能力較低的受試者產生的誘答力高，使屬於誘答能力較不佳的試題。

第三節古典測驗理論

最早的測驗與評量可追朔至西漢時期，當時為了挑選人才實施的科舉制度，可說是能力測驗最早的雛形。而西方社會在十三世紀的大學畢業考試中，也開始採用面試的方式。由此可見，當社會文化發展到一個層次時，能夠適當地評估了解人類特質和內在心理歷程，以求對社會的進步和發展做出貢獻，避免造成團體或個人錯誤的決策，將會是一個重要的需求（余民寧，2002）。然而，雖然測驗的起源極早，但對”測驗”這門學科進行量化的分析，將評量過程科學化，則是從19世紀開始。從Francis Galton開始，許多學者對測驗建置了很多不同的方法，這方法通稱為古典測驗理論（Classical test theory，簡稱CTT），也稱為古典信度理論（Classical reliability theory）。其主要目的在於估計實得分數與真實分數的關聯程度，並探討實得分數的信度。古典測驗理論認為，觀察

(28)

20

分數為真實分數與誤差分數的和（X=T+E），其理論依據弱勢假設而來，故又稱

為古典真分數理論（ Classical true-score theory）或是弱真分數理論（ Weak

true-score theory）（吳裕益，2000）。古典測驗理論的基本假定，可歸納為以下七項：一、假定觀察分數可分為真實分數T及誤差分數E，而觀察分數為真實分數與誤差分數的和（X=T+E）。在古典驗理論中假定，真分數與誤差分數有可相加的關係，故在統計上常有可相加的假定。二、 T是X分數的理論分配之平均數，而X分數的理論分配是重複對同一受試者實施同一測驗所得測驗分數之分配，亦即ε（X）=T。三、假定誤差分數與真分數之間並無關聯(ρ_ET = 0)，也就是說真分數的高低，並不代表測驗誤差的高低。

四、假定ρ_E1E2 = 0，E₁為測驗1的誤差分數，E₂為測驗2的誤差分數，不同測驗

間的誤差分數並無相關，。

五、假定ρ_E1T2 = 0，E₁為測驗1的誤差分數，T₂為測驗2的真實分數，某一測驗

的誤差分數與另一測驗的真實分數無相關。

六、若兩測驗的觀察分數（Observed score）或實得分數（Obtained score）分別

為X或X`，此兩測驗滿足以上的假定1至假定5且T=T`及σ_E2 _{= σ} E` 2_{，此兩測驗} 稱為複本測驗（Parallel tests）（Lord，1980）。七、若兩個測驗的觀察分數分別為X1及X2，此二測驗會滿足以上的假定1至假定 5，且對每一受試群體而言，T₁ = T₂+ C₁₂(C₁₂為一常數)，則此二測驗稱為

「本質上τ相等測驗」（ Essentially τ-equivalent tests).

由於古典測驗理論是依據弱勢假設（Weak assumption）而來，所以儘管理論簡單易明瞭、淺顯易懂，但仍有以下幾項的限制（Allen & Yen，1979；Hambleton

(29)

21 1. 試題參數包括難度（Difficulty）、鑑別度（Discrimination）皆受樣本依賴（Sample dependent）限制：古典測驗理論中的難度與鑑別度值受到考生平均能力，及能力分散程度的影響。換言之，考生的能力將會影響試題難度值的大小；而考生母群體的同質性程度，亦會影響試題的鑑別度值，同質性高的受試群，其鑑別度將高於同質性低的受試群。 2. 不同測驗中不易比較不同受試者能力的差異：根據古典測驗理論，受試者間能力的比較必須仰賴平行測驗或相同測驗的使用，而一般的成就測驗與性向測驗都只是針對中等能力學生所設計，對於能力較高或能力較低之受試者，其估計誤差較大。 3. 平行測驗的建構有其困難：根據古典測驗理論觀點，信度乃是建立在平行測驗之理論上，但實質上，平行測驗的編製有困難。因為受試者有可能因為遺忘、學習、焦慮與動機等因素影響下，而難以在兩份測驗上都能達到相同的測驗結果。

4. 假設相同的測量標準誤（Standard error of measurement）與事實不和：古典測驗理論假定所有受試者的測量標準誤皆相等，這是與事實不合的，因為每位受試者在接受測驗時，其表現能力之穩定狀況並不相同。 5. 缺乏題目訊息：古典測驗理論無法提供一個受試者可能答對個別試題機率的題目訊息，而這個訊息在於對某些受試群題設計某種特性之測驗時，卻是必要的。而其所提供的難度與鑑別度指標並非是針對某能力考生所得，僅是當下的受試群體表現情形。

(30)

(31)

23

第三章研究方法與設計

本研究主要以 S-P 表分析台南市某私立國中入學測驗應試學生在自然領域的測驗試題以及分析應試學生學習狀況。根據分析結果協助教師診斷學生學習類型，以了解學生的學習狀況和每位學生的個別差異，並提供學生可行的輔導策略及補救教學，以增加學生的學習興趣與動機。本章主要分成研究流程、研究對象、研究工具和資料分析處理等四個章節，其主要內容如下：

第一節研究流程

本研究以國中入學測驗自然領域試題與受測學生為主要研究對象，透過s-p 表、傳統試題分析與試題選項特徵曲線，針對該試題的編製情況與學生學習狀況分析加以探討。本研究根據研究動機與目的，並參考相關文獻研究之內容，以作為擬定研究流程並完成研究進行之依據。本研究進行之程序依序為：訂定研究主題、文獻搜尋探討、測驗數據分析、測驗結果討論等。各階段內容如下圖所示：

(32)

24

訂定論文主題

文獻搜尋探討

測驗數據分析

試題分析

S-P 表分析

試題選項特徵曲線

分析

試題診斷分析

學生診斷分析

試題編製狀況探討

學生學習狀況探討

(33)

25

第二節研究對象

本研究施測對象以 101 學年度台南市某私立中學入學測驗成績為數據，參與測驗者共計 1133 位，主要來自大台南地區國小高年級學生。施測地點為入學考試考場，並由監考老師協助測驗進行。

第三節分析工具

本研究所使用工具主要有二：TESTER for Windows 程式 2.0 版及試題選項

特徵曲線分析軟體－TestGraf98。其相關說明如下： 一、 TESTER for Windows 程式 2.0 版：

本程式為余民寧(2002)教授所設計，在使用上除了可以作為S-P表的分析使用之外，也可以進行傳統試題分析。在S-P表的分析上，本程式有使用的最大容量範圍限制：試題數在250題以內，選項在五以內的單選選擇題，且學生數須在一萬人以內，每題輸入的資料格式必須是數值型的作答反映資料。在繪圖功能方面，本程式的繪圖功能僅限學生數60人以下，試題數小於50的資料，才能使用。 二、試題選項特徵曲線分析軟體－TestGraf98： TestGraf98 為一免費分享軟體，可用來估計試題選項特徵曲線。本軟體兼具學術研究及實務功能，期望教師也都能廣泛使用資訊科技與網路資源分享，降低教育投資的成本，提升教育服務的品質(楊志強，2004)。

(34)

(35)

27

第四章研究結果與討論

以下根據本論文的研究動機、研究目的和待答問題進行研究活動，針對本次測驗收集到的資料，在試題表現與試卷內容方面作質與量方面的分析。

第一節

測驗結果分析

由表 4-1 所示，本測驗的差異係數為 0.44，介於 0.4~0.6 之間，代表對本次的受試者而言，本測驗適合大部分受試者使用。測驗的平均答對率為 0.76，難度偏易，但仍具有相當的鑑別度。由表 4-2 可以看出，本研究中研究對象答對題數主要分布在 8~13 題之間，佔了全部的 86.23%。而答對人數以 11 題的人最多，佔了全部的 18.36%，其人數並未呈現常態分配。但整份試題仍可用來鑑別出學生的能力。表 4-2 成績次數分配表答對題數人數相對次數(%) 累積人數累積次數 0 0 0 0 0 1 4 0.35 4 0.35 表 4-1 測驗分析結果表項目數值資料個數 1133 平均數 9.84 標準差 2.34 最高分 13.00 最低分 1.00 平均答對率 0.76 差異係數 0.44 內部一致性 0.75

(36)

28 2 8 0.71 12 1.06 3 12 1.06 24 2.12 4 12 1.06 36 3.18 5 14 1.24 50 4.41 6 35 3.09 85 7.50 7 71 6.27 156 13.77 8 110 9.71 266 23.48 9 164 14.47 430 37.95 10 192 16.95 622 54.90 11 208 18.36 830 73.26 12 204 18.01 1034 91.26 13 99 8.74 1133 100.00 總計 1133 100 圖 4-1 學生成績分布圖 壹、試題信度分析 在信度方面，藉由統計軟體計算出本測驗的Cronbach's Alpha 值皆在0.7以上， 0 50 100 150 200 250 0 1 2 3 4 5 6 7 8 9 10 11 12 13 學生成績分布曲線

(37)

29 表示該測驗有良好的信度。除此之外，本測驗亦使用TestGraf98編繪出該分測驗的信度曲線圖，從圖4-2中可以得知，本測驗對能力在50%以下的受試者，其信度約在95%之間；但在能力在50%以上的受試者，其信度能力卻呈現下降的狀態。由此可見，本測驗對於能力低於50%之受試者的信度優於能力高於50%受試者的信度。表4-3 信度水準表題號項目刪除時的 Cronbach's Alpha 值信度水準 13 .741 高信度水準 14 .712 高信度水準 15 .740 高信度水準 16 .720 高信度水準 17 .736 高信度水準 18 .746 高信度水準 19 .713 高信度水準 20 .745 高信度水準 21 .721 高信度水準 22 .727 高信度水準 23 .723 高信度水準 24 .716 高信度水準 25 .708 高信度水準

(38)

30 圖 4-2 信度曲線圖 貳、試題難度與鑑別度分析 在試題難度方面，本研究中的試題難度如表所示，由下表可知，本試題中以難度中易的試題為主，共有 10 題，佔全部題目的 77%。難度為難的題目則只有 3 題，佔全部題目的 23%。由此可知，本試題主要針對中低程度學生進行測驗，若要針對高程度學生進行測驗，在試題難度的編製上，仍須做適度的修改。在鑑別度方面，非常優秀的題目有 6 題，佔全部試題的 46%；優良的題目有 1 題，佔全部試題的 8%；尚可的題目則有 6 題，佔全部試題的 46%。可見本試題的鑑別度尚可，沒有需要刪除的題目。表 4-4 試題難度與鑑別度表題號答對人數答對率難度鑑別度 13 1017 90% .87 .23 14 942 83% .83 .27 15 411 36% .42 .32 16 737 65% .61 .62 17 592 52% .54 .63 18 804 71% .67 .57 19 894 79% .73 .48

(39)

31 20 656 58% .59 .51 21 1038 92% .86 .27 22 1102 97% .90 .20 23 1034 91% .87 .22 24 1058 93% .90 .20 25 895 79% .72 .51 叄、試題誘答力分析 將正確選項特徵曲線的表現加以統計之後，可以得到表 4-5。從表 4-5 中可得知，A 型的試題最多，佔全部的 54%，可見本試卷對於能力低到中的學生誘答力表現良好。 4-5 選項誘答力分析表類型題號題數所佔百分率 A 13、19、21、22、23、24、25 7 54% B 14、15、16、17 4 31% C 18、20 2 15% D 無 0 0%

第二節

試題編寫情形分析

在試題編寫方面，利用試題注意係數和學生答對百分比可分析出試題診斷類型，將本次測驗的試題類型統計出表 4-6。由表 4-6 可得知本次試題中 A 型的有 7 題，佔全部的 53.85%數量最多；A′型的有 5 題，佔總題數的 38.46%；B′型的有一題，佔全部的 7.69%。其中屬於 A′的第 16、17、18、20 和第 25 題含有異質成分，可能需要做局部的修正。而屬於B′的第 15 題含有異質成分，必須加以修改。

(40)

32

表 4-6 試題判定類別表

題號注意係數判定類別題號注意係數判定類別 13 .29 A 19 .48 A 14 .22 A 20 .64 A′ 15 .60 B′ 21 .33 A 16 .66 A′ 22 .15 A 17 .83 A′ 23 .23 A 18 .63 A′ 24 .22 A 25 .53 A′

診斷結果

A

A’

B

B’

次數

7

5

0

1 比例

53.85%

38.46%

0%

7.69%

圖 4-3 試題注意係數分布圖

第三節

學生學習類型分析

由表 4-6 可得知本次受試者中屬於 A 型的有 570 人，佔總人數的 50.31%數量最多；A’型的人數為 177 人，佔全部人數的 15.62%。B 型的人數有 117 人， 0.00 50.00 100.00 0.00 0.50 1.00

(41)

33 佔全部的 10.33%；B’型的人數為 117 人，佔全部的 10.33%。C 型的人數為 19 人，佔總人數的 1.68%數量最少；C’型的人數有 36 人，佔總人數的 3.18%。由以上數據可看出本次受試者有半數以上學習良好，穩定性高。而大約有 5%的學生對該科呈現放棄狀態，可將這些學生提供給未來的班級導師參考，以進行相關的課業輔導。表 4-7 學生診斷分析表 A A’ B B’ C C’ 人數 570 177 214 117 19 36 比例 50.31% 15.62% 18.89% 10.33% 1.68% 3.18% 圖 4-4 學生診斷分析圖 0 25 50 75 100 0 0.5 1

(42)

34

第四節

綜合分析表

本節將依照以上幾節的研究結果作综合分析整理成表，最後再從各試題以質與量的分析作综合討論。表 4-8 試題 13 綜合分析表題目內容 13.( ) 下列何者最適合本文的標題？ (A)電和磁的故事 (B)科學家的故事 (C)發明家的故事 (D)人類文明故事選項 A* B C D 選項率 1017/.90 52/.05 41/.04 23/.02 高分組 343/.98 2/.01 2/.01 2/.01 低分組 219/.75 32/.11 29/.10 11/.04 難度 0.87 難度等級易鑑別度 0.23 鑑別度等級尚可試題注意係數 0.29 判別等級 A 選項特徵曲線

(43)

35 誘答力分析本試題的正確選項是 1，其正確選項具有良好的鑑別度，能力越高的受試者通過率越高，能力越低的受試者通過率越低。在錯誤選項方面，選項 2 和 3 對能力低的受試者具有高誘答力，能力越低的學生選答的機率越高，選項 4 則缺乏誘答力，選擇人數極少。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(44)

36 表 4-9 試題 14 綜合分析表題目內容 14.( ) 英國科學家威廉斯特金發明甚麼物品？ (A)電報機 (B)電視機 (C)電磁鐵 (D)電冰箱選項 A B C* D 選項率 164/.14 24/.01 942/.83 2/.00 高分組 12/.03 2/.01 335/.96 0/.00 低分組 75/.26 12/.04 202/.69 1/.00 難度 0.83 難度等級易鑑別度 0.27 鑑別度等級尚可試題注意係數 0.22 判別等級 A 選項特徵曲線

(45)

37 誘答力分析本試題的正確選項是 3 ，其正確選項對能力值在 5%~25%的學生較不具備誘答力，但對其他的學生誘答力良好。在錯誤選項方面，選項 2 對能力低的受試者具有高誘答力，能力越低的學生選答的機率越高，選項 3 和 4 則較不具備誘答力。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(46)

38 表 4-10 試題 15 綜合分析表題目內容 15.( ) _{根據上述內容，下列與電有關的製品哪一項最} 早發明？ (A)電池 (B)電磁鐵 (C)電話 (D)電報機選項 A* B C D 選項率 411/.36 619/.55 12/.01 86/.08 高分組 201/.58 137/.39 0/.00 11/.03 低分組 74/.25 166/.57 7/.02 41/.14 難度 0.42 難度等級難鑑別度 0.32 鑑別度等級優良試題注意係數 0.60 判別等級 B- 選項特徵曲線

(47)

39 誘答力分析本試題的正確選項是 1，其正確選項具有良好的鑑別度，能力越高的受試者通過率越高，能力越低的受試者通過率越低。錯誤選項方面，選項 2 對能力低和中等的受試者具有高誘答力，能力越低的學生選答的機率越高；選項 4 的選項則對能力低的受試者具有較好的誘答力；選項 3 則不具備誘答力。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(48)

40 表 4-11 試題 16 綜合分析表題目內容 16.( ) 產生「磁力使物品動起來的想法」，最早出現在哪一年？ (A)1819 年 (B)1820 年 (C)1825 年 (D)1831 年選項 A B* C D 選項率 299/.26 737/.65 47/.04 50/.04 高分組 24/.07 319/.91 1/.00 5/.01 低分組 142/.49 87/.30 35/.12 27/.09 難度 0.61 難度等級中鑑別度 0.62 鑑別度等級非常優良試題注意係數 0.66 判別等級 A- 選項特徵曲線

(49)

41 誘答力分析本試題的正確選項是 2，其正確選項具有良好的鑑別度，能力越高的受試者通過率越高，能力越低的受試者通過率越低。在錯誤選項方面，選項 1 對能力低和中等的受試者具有高誘答力，能力越低的學生選答的機率越高；選項 3 和 4 的選項則對能力低的受試者具有較好的誘答力。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(50)

42 表 4-12 試題 17 綜合分析表題目內容 17.( ) 發現電線裡會產生電流的科學家是哪一國人？ (A)法國 (B)英國 (C)丹麥 (D)德國選項 A B* C D 選項率 286/.25 592/.52 250/.22 2/.00 高分組 38/.11 298/.85 13/.04 0/.00 低分組 93/.32 66/.23 129/.44 0/.00 難度 0.54 難度等級難鑑別度 0.63 鑑別度等級非常優良試題注意係數 0.83 判別等級 A- 選項特徵曲線

(51)

43 誘答力分析本試題的正確選項是 2，其正確選項具有良好的鑑別度，能力越高的受試者通過率越高，能力越低的受試者通過率越低。在錯誤選項方面，選項 1 和 3 對能力低和中等的受試者具有高誘答力，能力越低的學生選答的機率越高，選項 4 的誘答力則不佳。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(52)

44 表 4-13 試題 18 綜合分析表題目內容 18.( ) 發現通電的導線會產生磁力的科學家是哪一國人？ (A)法國 (B)英國 (C)丹麥 (D)德國選項 A B C* D 選項率 124/.11 197/.17 804/.71 3/.00 高分組 7/.02 10/.03 332/.98 0/.00 低分組 67/.23 106/.36 112/.38 3/.01 難度 0.67 難度等級中鑑別度 0.57 鑑別度等級非常優良試題注意係數 0.63 判別等級 A- 選項特徵曲線

(53)

45 誘答力分析本試題的正確選項是 3，其正確選項具有良好的鑑別度，能力越高的受試者通過率越高，能力越低的受試者通過率越低。在錯誤選項方面，選項 2 和 1 對能力低的受試者具有高誘答力，能力越低的學生選答的機率越高，選項 4 的誘答力則不佳。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(54)

46 表 4-14 試題 19 綜合分析表題目內容 19.( ) 下列何者最為適合本文的標題？ (A)颱風的形成 (B)颱風的位置 (C)颱風的結構 (D)颱風的方向選項 A B C* D 選項率 132/.12 66/.06 894/.79 39/.03 高分組 5/.01 1/.00 338/.97 5/.01 低分組 86/.30 42/.14 143/.49 18/.06 難度 0.73 難度等級中鑑別度 0.48 鑑別度等級非常優良試題注意係數 0.48 判別等級 A 選項特徵曲線

(55)

47 誘答力分析本試題的正確選項是 3，其正確選項具有良好的鑑別度，能力越高的受試者通過率越高，能力越低的受試者通過率越低。在錯誤選項方面，選項 1 和 2 對能力低的受試者具有高誘答力，能力越低的學生選答的機率越高，選項 4 的誘答力則不佳。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(56)

48 表 4-15 試題 20 綜合分析表題目內容 20.( ) 颱風的暴風範圍大約有多廣？ (A)半徑約 100~150 公里 (B) 直徑約 200~300 公里 (C)半徑約 400~600 公里 (D) 直徑約 400~600 公里選項 A B C D* 選項率 28/.02 434/.38 13/.01 656/.58 高分組 1/.00 54/.15 0/.00 294/.84 低分組 17/.06 167/.57 9/.03 96/.33 難度 0.59 難度等級難鑑別度 0.51 鑑別度等級非常優良試題注意係數 0.64 判別等級 A- 選項特徵曲線

(57)

49 誘答力分析本試題的正確選項是 4，其正確選項具有良好的鑑別度，能力越高的受試者通過率越高，能力越低的受試者通過率越低。在錯誤選項方面，選項 2 對能力低和中等的受試者具有高誘答力，能力越低的學生選答的機率越高，選項 1 和 4 的誘答力則不佳。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(58)

50 表 4-16 試題 21 綜合分析表題目內容 21.( ) 颱風眼區域的天氣狀況如何？ (A)無風無雨 (B)雨量最多 (C)狂風暴雨 (D)風力最強選項 A* B C D 選項率 1038/.92 16/.01 57/.05 17/.02 高分組 347/.99 0/.00 2/.01 0/.00 低分組 210/.72 15/.05 46/.16 15/.05 難度 0.86 難度等級易鑑別度 0.27 鑑別度等級尚可試題注意係數 0.33 判別等級 A 選項特徵曲線

(59)

51 誘答力分析本試題的正確選項是 1，該選項對能力低的學生鑑別度較高，對中高能力的學生，鑑別力較不佳。在錯誤選項方面，選項 3 對能力低和中等的受試者具有高誘答力，能力越低的學生選答的機率越高；選項 4 的選項對能力低的受試者具有較好的誘答力；選項 1 的誘答力則不佳。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(60)

52 表 4-17 試題 22 綜合分析表題目內容 22.( ) 衛星雲圖上，颱風頂部的雲帶呈現什麼狀？ (A)螺旋狀雲帶 (B)積狀雲帶 (C)花菜狀雲帶 (D)層狀雲帶選項 A* B C D 選項率 1074/.95 17/.02 20/.02 18/.02 高分組 349/1.00 0/.00 0/.00 0/.00 低分組 232/.80 17/.06 20/.07 18/.06 難度 0.90 難度等級易鑑別度 0.20 鑑別度等級尚可試題注意係數 0.15 判別等級 A 選項特徵曲線

(61)

53 誘答力分析本試題的正確選項是 1，該選項對能力低的學生鑑別度較高，對中高能力的學生，鑑別力較不佳。在錯誤選項方面，選項 2 和 3 對能力低和中等的受試者具有高誘答力，能力越低的學生選答的機率越高，選項 4 的誘答力則不佳。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(62)

54 表 4-18 試題 23 綜合分析表題目內容 23.( ) 通常我們會用哪一種圖形表示颱風的位置和暴風範圍？ (A)等高線圖 (B)雨量統計圖 (C)等壓線圖 (D)雲層統計圖選項 A B C* D 選項率 21/.02 6/.01 1034/.91 69/.06 高分組 2/.01 0/.00 344/.99 3/.01 低分組 13/.04 6/.02 222/.76 47/.16 難度 0.87 難度等級易鑑別度 0.22 鑑別度等級尚可試題注意係數 0.23 判別等級 A 選項特徵曲線

(63)

55 誘答力分析本試題的正確選項是 3，其正確選項具有良好的鑑別度，能力越高的受試者通過率越高，能力越低的受試者通過率越低。在錯誤選項方面，選項 1 對能力低的受試者具有高誘答力，能力越低的學生選答的機率越高，選項 2 和 4 的誘答力則不佳。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(64)

56 表 4-19 試題 24 綜合分析表題目內容 24.( ) 下列對於颱風風向的敘述，何者正確？ (A)在北半球是反時鐘方向旋轉 (B)在東半球是順時鐘方向旋轉 (C)在南半球是反時鐘方向旋轉 (D)在西半球是順時鐘方向旋轉選項 A* B C D 選項率 1058/.93 17/.02 39/.03 12/.01 高分組 348/1.00 0/.00 0/.00 1/.00 低分組 232/.80 14/.05 32/.11 9/.03 難度 0.90 難度等級易鑑別度 0.20 鑑別度等級尚可試題注意係數 0.22 判別等級 A 選項特徵曲線

(65)

57 誘答力分析本試題的正確選項是 1，其正確選項對能力在中等以下的受試者具有良好的鑑別度，能力在中等以上的學生，則不具備良好鑑別力。在錯誤選項方面，選項 4 對能力低的受試者具有高誘答力，能力越低的學生選答的機率越高，選項 2 和 3 的誘答力則不佳。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(66)

58 表 4-20 試題 25 綜合分析表題目內容 25.( ) 在颱風的衛星雲圖上，從雲帶的旋轉情形可知道什麼現象？ (A)雨的多寡 (B) 風的強度 (C)雲的類型 (D) 風的吹向選項 A B C D* 選項率 53/.05 96/.08 83/.07 895/.79 高分組 1/.00 2/.01 7/.02 339/.97 低分組 36/.12 63/.22 54/.19 134/.46 難度 0.72 難度等級中鑑別度 0.51 鑑別度等級非常優良試題注意係數 0.53 判別等級 A- 選項特徵曲線

(67)

59 誘答力分析本試題的正確選項是 4，其正確選項具有良好的鑑別度，能力越高的受試者通過率越高，能力越低的受試者通過率越低。在錯誤選項方面，其他選項對能力低的受試者具有高誘答力，能力越低的學生選答的機率越高。整體而言，本試題是鑑別度和誘答力皆極為良好的試題。

(68)

(69)

61

第五章結論與建議

本章主要根據第四章的研究結果與討論，歸納出本研究的結論，並提供些許建議，以供未來相關研究。

第一節結論

壹、根據古典試題理論分析測驗試題的編寫狀況：一、難度：本試題中以難度中易的試題為主，共有 10 題，佔全部題目的 77%。難度為難的題目則只有 3 題，佔全部題目的 23%。由此可知，本試題主要針對中低程度學生進行測驗，若要針對高程度學生進行測驗，在試題難度的編製上，仍須做適度的修改。二、鑑別度：整份測驗中非常優秀的題目有 6 題，佔全部試題的 46%；優良的題目有 1 題，佔全部試題的 8%；尚可的題目則有 6 題，佔全部試題的 46%。可見本試題的鑑別度尚可，沒有需要刪除的題目。三、信度本測驗內部一致性係數為 0.75，且每一試題的 Cronbach's Alpha 值皆在 0.7 以上，表示該測驗有良好的信度。四、選項誘答力：表 4-5 中可得知，A 型的試題最多，佔全部的 54%，可見本試卷對於能力低到中的學生誘答力表現良好。貳、運用 sp 表了解試題編制狀況：本次試題中 A 型的有 7 題，佔全部的 53.85%數量最多；A′型的有 5 題，佔總題數的 38.46%；B′型的有一題，佔全部的 7.69%。其中屬於 A′的第 16、17、 18、20 和第 25 題含有異質成分，可能需要做局部的修正。而屬於 B′的第 15 題

部分給分S-P表的分析與運用 -以自然科大型成就評量為例-

國 立 臺 中 教 育 大 學 教 育 測 驗 統 計 研 究 所

國民小學教師在職進修教學碩士學位班碩士論文

指導教授：許天維 博士

部分給分 S-P 表的分析與運用

-以自然科大型成就評量為例-

研究生：楊宗憲 撰

中

華

民

國

一

○

一

年

七

月

謝辭

中文摘要

部分給分 S-P 表的分析與運用-以自然科大型成就評量為例-

Abstract

目 錄

第一章 緒論

第一節

研究動機﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 1

第二節

研究目的﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 2

第三節

研究問題﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 2

第四節

名詞釋義﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 3

第二章 文獻探討

第一節

S-P 表分析理論﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 5

第二節

試題分析﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 10

第三節

古典測驗理論﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 19

第三章 研究方法與設計

第一節

研究流程﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 23

第二節

研究對象﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 25

第三節

分析工具﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 25

第四章 研究結果與討論

第一節

測驗結果分析﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 27

第二節

試題編寫情形分析﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 31

第三節

學生學習類型分析﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 32

第四節

綜合分析﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 34

第五章 結論與建議

第一節

結論﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 61

第二節

建議﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 62

參考文獻

一、中文部分﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 65

二、英文部分﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 65

三、日文部分﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 66

附錄

附錄 1

試卷﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒﹒ 69

表目錄

表 2-1 S-P 表……… 6

表 2-2 CP 或 CS 的反應組型表……… 8

表 2-3 鑑別度判別標準表……… 13

表 4-1 測驗分析結果表……… 27

表 4-2 成績次數分配表……… 27

表 4-3 信度水準表……… 29

表 4-4 試題難度與鑑別度表……… 30

表 4-5 試題難度與鑑別度表……… 31

表 4-6 試題判定類別表……… 32

表 4-7 學生診斷分析表……… 33

表 4-8 試題 13 綜合分析表……… 34

表 4-9 試題 14 綜合分析表……… 36

表 4-10 試題 15 綜合分析表……… 38

國立臺中教育大學教育測驗統計研究所

指導教授：許天維博士

研究生：楊宗憲撰

目錄

第一章緒論

第二章文獻探討

第三章研究方法與設計

第四章研究結果與討論

第五章結論與建議

圖 2-2 學生診斷分析圖 … … … 10

第一章緒論

第一節研究動機

第二節研究目的

第三節研究問題

第四節名詞釋義

第二章文獻探討

第二節試題分析

第三節古典測驗理論

第三章研究方法與設計

第一節研究流程

第二節研究對象

第三節分析工具

第四章研究結果與討論