國立台東大學教育學系教學科技碩士班

(1)

國立台東大學教育學系教學科技碩士班

碩士論文

指導教授：李偉俊博士

教師資格檢定考試線上適性測驗系統開發之研究—以教育測驗與教學評量學習

概念為例

研究生：孫瑋廷撰

中華民國九十九年七月

(2)

(3)

國立台東大學教育學系教學科技碩士班

碩士論文

教師資格檢定考試線上適性測驗系統開發之研究—以教育測驗與教學評量學習

概念為例

研究生：孫瑋廷撰指導教授：李偉俊博士

中華民國九十九年七月

(4)

(5)

(6)

誌謝辭

兩年的碩士時光，轉眼間就過了，在這期間最要感謝李偉俊老師的指導，因為有李老師的指導讓我的論文能夠順利的完成。李老師在教育以及測驗領域的專業，以及做學問認真謹慎的態度，更是我學習的楷模，在研究的過程中時常的請教老師，一步一步的完成內容，可以說是沒有李老師的指導就不會有這研究的完成。

同時也要感謝郭達源老師與黃振榮老師在論文計畫審查和口試時，詳細的指出本研究的問題，由於兩位老師寶貴的意見，讓我的論文因此能夠更加的完整。

在研究進行以及撰寫論文的這段時間，要感謝學長姐、同學、學弟妹們的幫助與關懷，很高興有你們在，對我的論文撰寫有著莫大的助力，不論是格式編排、

內容校閱、題目的整理、系統的建置、測驗的實施，給了相當多的幫助、建議，

我謹在此向你們致上我最深的謝意。

最後我要感謝我父母的支持，沒有他們在我背後默默的關心與鼓勵，我也無法順利完成學業。在此與大家分享本論文完成後的愉悅心情，最後再次謝謝大家。

瑋廷謹誌 2010 年 7 月

(7)

教師資格檢定考試線上適性測驗系統開發之研究—以教育測驗與教學評量學習

概念為例

作者：孫瑋廷

國立臺東大學教育學系

摘要

本研究目的在以教師資格檢定考試的測驗試題，並透過測驗理論和項目反應理論題目分析，建置線上適性測驗系統，並分析與比較紙筆測驗和線上適性測驗系統在能力估計的差異情形。

本研究先蒐集九十四至九十八年教師資格檢定考的試題，並勾選其中與教育測驗與教學評量概念相關之題目，經過重新編制之後進行紙筆測驗，之後將所蒐集的測驗卷進行資料分析，包含使用 TESTER 和 BILOG 軟體進行試題分析，再以每個題目的難易度及鑑別度整理排列，並建置金字塔式適性排列的線上適性測驗題庫。

本線上適性測驗系統使用了 Apache、PHP 和 MySQL 這三

個軟體來建置，此系統的好處在於能夠隨時進行線上適性測

驗，並且比一般傳統測驗還要節省作答題數以及時間。

關鍵詞：教師資格檢定考、電腦化適性測驗、線上適性測驗系統

(8)

The Research In The Development of the Teacher Qualification Assessment Online Adaptive Testing System –

a case study on the concept of Educational Measurement and Assessment

Wei-Ting Sun

Abstract

The purpose of the study is to establish an online adaptive testing system, through the analysis of the test theory and item response theory, using the test items of Teacher Qualification Assessment. Plus, compare pencil and paper tests with online adaptive testing system to estimate the differences in ability.

For this research, first I collected the test items of Teacher

Qualification Assessment from 2005 to 2009 and then selected some ones related to Educational Measurement and Assessment. After compiling them as pencil and paper tests, I processed data analysis of the collected test papers with the software including TESTER and BILOG.

Third, according to the Difficulty and Discrimination, each question was piled up into a pyramid-like online adaptive testing bank.

The online adaptive testing system uses three kinds of software, the Apache, PHP and MySOL, to build. The benefit of the system is that it can be tested at any time. In addition, not only does it save more time, but it takes fewer questions than the traditional test. .

Keyword ： Teacher Qualification Assessment 、 Computerized Adaptive

Testing 、 online adaptive testing system

(9)

第一章緒論………1

第一節研究背景與動機………1

第二節研究目的………3

第三節名詞解釋………4

第四節研究範圍與限制………5

第二章文獻探討………6

第一節高級中等以下之教師資格檢定的制度特性………6

第二節電腦測驗的發展和項目反應理論………8

第三節測驗理論比較與發展………12

第三章研究方法………16

第一節研究架構………16

第二節研究對象………17

第三節研究程序………18

第四節資料分析程式………20

第五節系統開發工具………21

第四章研究結果與討論………23

第一節教師資格檢定考試線上適性測驗題庫建置………23

第二節教師資格檢定考試線上適性測驗系統發展建置………35

第三節比較傳統紙筆測驗與線上適性測驗之差異………41

(10)

第五章結論與建議………44

第一節結論………44 第二節建議………45

(11)

參考文獻………46

一、中文部份………46

二、西文部份………48

附錄………51

附錄一高級中等以下學校及幼稚園教師資格檢定考試命題總則…………51

附錄二系統使用的軟體(Apache、PHP、MySQL)………53

附錄三九十四至九十八年度高級中等以下學校及幼稚園教師資格檢定考試公開試題(教育測驗與教育評量概念部分試題)………60

附錄四項目特徵曲線圖與訊息曲線圖………69

(12)

表次

表 2-1 電腦化適性測驗相關研究………9

表 3-1 國立台東大學大學部班級人數統計表………17

表 4-1 D 值說明………24

表 4-2 軟體分析結果統整表………24

表 4-3 正式施測題庫表………26

表 4-4 b 值轉換成百分數………33

表 4-5 分數對照表………34

表 4-6 傳統紙筆測驗與電腦適性測驗比較表………41

表 4-7 成對樣本統計量與檢定結果………42

表 4-8 成對樣本統計量與檢定結果………43

(13)

圖次

圖 3-1 研究架構圖………16

圖 3-2 研究流程圖………19

圖 3-3 本研究線上適性測驗系統開發流程圖………22

圖 4-1 八層金字塔式適性排列的線上適性測驗題庫………32

圖 4-2 教師資格檢定考試線上適性測驗之事項說明………36

圖 4-3 教師資格檢定考試線上適性測驗之初始題………37

圖 4-4 教師資格檢定考試線上適性測驗之輸入學號………38

圖 4-5 教師資格檢定考試線上適性測驗之輸入學號 0000001 測試………39

圖 4-6 教師資格檢定考試線上適性測驗之測驗結果………40

(14)

第一章緒論

第一節研究背景與動機

一、研究背景

隨著電腦科技及網際網路的快速發展，電腦化測驗早已取代傳統的紙筆測驗，而GRE 等測驗發展至電腦化適性測驗(computerized adaptive test; CAT) 更是目前的趨勢，因為能夠使用比傳統測驗較少的試題，就能精確地估算受試者的能力水準。另外由於網路技術的發展成熟，線上課程如雨後春筍般的出現，故線上適性測驗(online adaptive test)更有其需要性。

本研究主要是結合測驗理論(test theory)、項目反應理論(item response theory; IRT)、網路技術及資料庫管理技術等，建置線上適性測驗系統(online adaptive test system)，以提供台東大學大學部學生進行教師檢定測驗的另一種選擇。藉由本系統能夠達到個別化適性測驗，並能節省測驗的時間而不失測驗的精準度。本研究特以教師資格檢定試題為例，建置出線上適性測驗系統。

二、研究動機

根據國家通訊傳播委員會 (NCC)統計，台灣寬頻帳號數普及率由 92 年之 12.4%大幅提升至 97年 11月之 30.4%(自 95年 9月起加計 3G上網戶 )，

各類寬頻用戶數合計由 304.1萬戶增至 700.4萬戶，其中 ADSL用戶由 255 萬戶增至 429.4萬戶。以目前教育現況來看，我國各類測驗主要還是以紙筆測驗為主，但是以目前我國的網路發展來看，網路的普及率算是很高，但是並沒有線上測驗的國家考試，因此希望藉由建置此線上測驗系統，提供台東大學大學部學生進行教師檢定測驗的另一種選擇。此為研究者研究動機之一。

此外，由於電腦化適性測驗能夠使用較少的試題，就能精確地估算受試者的能力水準，結合項目反應理論可以實施個別化適性測驗，並能精確分析各試題的特性，測驗的評分更為客觀及公正，希望能以線上適性測驗系統蒐集學生作答訊息以進行分析。此為研究者研究動機之二。

因為電腦化適性測驗可以應用在不同功能的測驗，例如「分級測驗」

(placement tests)、「成就測驗」(achievement tests)、「能力測驗」(proficiency

(15)

tests)和「診斷測驗」(diagnostic tests)等，如果在電腦程式設計時搭配良好的題目編碼(item codes)，除了能做分級測驗外，也可以概略知道學生在那一方面的單元較弱，可以提供日後授課老師教學之改進。此為研究者研究動機之三。

(16)

第二節研究目的

基於以上的問題背景與研究動機，本研究擬定的研究目的如以下所述：

一、以教師檢定資格考試的測驗試題(本研究將以心理教育測驗和教學評量概念為主)，透過 CTT 和 IRT 題目分析建置線上適性測驗題庫系統。

二、以 Apache、PHP 和 MySQL 程式設計開發教師檢定資格考試線上適性測驗系統。

三、以台東大學大學部學生為施測對象，分析與比較傳統紙筆測驗和線上適性測驗系統在能力估計的差異情形。

(17)

第三節名詞解釋

一、 教師資格檢定考

高級中等以下學校及幼稚園教師資格檢定考試，簡稱為教師資格檢定考，

是中華民國教育部在師資培育制度上的一大變革，逐步停止實習教師在中、小學及幼稚園教師實習一年並領有津貼的制度（舊制），改為實習學生在上述學校實習半年並支付四學分實習學分費的制度（新制）。

由於政府浮濫開放教育學程，造成舊制實習津貼超出預算，故設計出新制實習。此制度在教育實習上有三大改變：第一為身份的改變，在舊制中，實習者被稱為實習教師；在新制中被改為實習學生。第二即停止實習津貼發放，舊制實習教師每月由教育部發下新臺幣八千元津貼，新制實習學生則無權得到津貼，並須支付支付四學分實習學分費。第三為實習時間的縮減，舊制實習教師須得實習一年，始得教師證書，新制實習學生改為實習半年，但必須經過教師資格檢定考，通過者始可獲教師證書。

此考試有意建立教師證照考試制度，自此，若要在臺灣擔任中、小學及幼稚園教師，必須在修畢各類科教師師資職前教育之後，通過這項考試，以取得教師證書，以示完整師資培育課程業已修畢。

本考試一年一考，通常以當年度的四月一日或三月三十一日進行，於 2005 年首次舉辦後，已舉辦五次。應考人通過教師資格檢定考取得教師證後，應考人即成為正式教師，即可參加臺灣各縣市或各校獨招的教師甄試。

二、 電腦化適性測驗(Computerized Adaptive Testing)

所謂的適性測驗呢，就是在測驗的初始給予受測者難度相等的考題，再根據受測者的答題表現，調整下一個題目的內容，根據不同能力的受測者會給予不同難度的題目，電腦適性化測驗最大的優點就是能運用最少的題目測出受測者的真正能力。電腦適性化測驗的發展重點在於題庫的建立，題庫的建立是既費時又費力的工作，再加上需要複雜的運算與線上即時的能力，所以運算速度的快慢將會影響到施測的速度，這些因素都是需要系統設計者依照測驗的需求來決定。

三、 線上適性測驗系統(online adaptive testing system)

線上適性測驗系統是結合適性測驗以及網際網路的一種測驗系統，系統管理者將測驗題庫安裝於平台的資料庫內，使用者即可經由網路隨時進行自我檢測。

(18)

第四節研究範圍與限制

一、研究範圍

本研究之對象以國立台東大學大學的學生，選修大二共選、大四共選教育測驗與評量教育專業課程的學生。計有社教系、語教系、特教系、教育系、美勞系、自教系等共 92 人。

本研究將針對以上對象進行「民國 94 至 98 年度高級中等以下學校及幼稚園教師資格檢定考試」之國民小學試題傳統紙筆測驗與線上適性測驗。

二、研究限制

本研究只探討國立台東大學大學部的學生在傳統紙筆測驗與線上適性測驗的得分情形，不宜推論到非國立台東大學大學部的學生。

本研究測驗內容僅以民國 94 年度至 98 年度高級中等以下學校及幼稚園教師資格檢定考試之國民小學試題中教育測驗與教學評量學習概念為範圍，不宜推論至其他學習概念的試題內容。

(19)

第二章文獻探討

第一節高級中等以下之教師資格檢定的制度沿革

一、教師專業與教師資格檢定

教師從事育人的工作，必須具備一定的專業素養和知能，才能勝任愉快。

Shulman（1986）提出教師內容知識分為三部分：

一、學科內容知識（subject matter content knowledge）：理解學科內容架構知識和不同組織教材方式。

二、教學內容知識（pedagogical content knowledge）：理解學科內容教學方法與技巧。

三、課程知識（curricular knowledge）：理解教學材料、教科書、軟體、教學方案。基於這些知識與教師是否能勝任其教學工作息息相關，所以Shulman 特別指出：

假如這些教師知識的觀念可以做為教師學科內容知識測驗的基礎，那麼這項的測驗應該深入測量學科內容和架構知識，以及與學科內容的相關教學知識和學科本身的課程知識，有了這種測驗的形式，才能適切評估專業能力。」（Shulman, 1986:

10）

依此而論，教師檢定之目標和形式，應該考量教師專業知識的評量，尤其對於學科的架構及組織、學科教材、學科教學等方面的知識，在教師檢定是有其重要性。

國內簡茂發等人（1998）從事「中小學基本素質分析與評量」研究發現，中小學教師基本素質包括下列五大項：一、普通素養：人文素養和科技素養；二、

專業知能：專業知識（含理論基礎、課程與教材、教育方法、教育管理、學習與發展）、專業能力（含教學能力、教學計畫與準備、教學實施、教學評量、輔導能力、行政能力、參與校務能力、主持班務能力、溝通能力、語文表達、社會技巧、研究能力）；三、專業態度（含教育信念、教育態度）；四、人格特質；五、

專門學科知能。其中前四項在該研究有實證性支持。

基本上，教師資格檢定，要能達到其選才的效果，將來能夠在實際的教育職場發揮功能，不管是檢定的目標、方式和內容，都要以教師專業為基本的考量。

平心而論，教師資格檢定涉及到教師專業與素質的測量，是一個相當複雜、多面向的過程，所以要建立一套大家所共同接受的資格檢定方式，的確是相當不容易的一件事。

Fabiano（1999）曾將美國教師資格測量分為四大範疇：

一、能力或性向：標準化能力測驗，例如：學術性向測驗（SAT）或國家教師考

(20)

試（National Teacher Examination）和系列測驗的第一部分（Praxis I，

測量讀、寫、算等能力）。

二、內容知識：例如：系列測驗的第二部分（Praxis II）、美國研究生入學考試（GRE）學科測驗分數、修習課程的數量與類型、修習學分、大學或研究所的主修與副修。

三、教學知識：教學知識之測量要比內容知識更為複雜，主要有：全國專業教學標準委員會（National Board for Professional Teaching Standards , NBPTS）的認證、系列測驗的第三部分（Praxis III）--班級實作評量、州際新教師評量和支持協會（Interstate New Teacher Assessment And Support Consortium, INTASC）的教學知識測驗。

四、教學證件：包括學位證書、學位證書頒授機構，整個學業成就。

所以，在美國一位初任教師要取得合格教師證書，各州方式不一，至少需具備下列的條件：

1. 至少具有學士學位，在有些州，還需學士後的第五年或碩士學位。

2. 完成經認可的師資培育課程。

3. 必須有主修或副修（針對小學）。

4. 必須有任教學科主修（針對中學）。

5. 具有高度的人文藝術基礎。

6. 通過州規定的考試，例如：系列測驗或其他測驗（How to Become a Teacher, nodate）。各州測驗的情形，不外乎有下列的測驗：一、基本能力測驗；二、學科測驗；三、教學知識測驗；四、教學實作評量。

因此，國內未來教師資格檢定，不管採取何種方式，基本的考量就是要能測量出教師的專業知能，使其取得合格教師之後，能夠在未來的教育職場上得心應手，駕輕就熟，遊刃有餘。

(21)

第二節電腦測驗的發展和項目反應理論

本節將分別探討電腦測驗的發展階段和項目反應理論的基本概念以及電腦化適性測驗相關研究。

一、電腦測驗的發展

電腦技術的快速發展，帶動了電腦化測驗的興起，電腦測驗的發展可以分成四個階段(王淑敏、邱美秀、柳玉清等譯，1997；林鴻源，1999；葉千綺，1999)：

1.電腦化測驗(Computerized Testing，CT)

單純的將傳統的紙筆測驗應用到電腦上，改進的重點僅在於是題目的呈現技術的開發，例如文字、圖形如何呈現在螢幕上，近年來由於多媒體的發展，逐漸加入聲音與動畫。另外一個重點在於如何管理題目、題庫與資料庫的應用，提供測驗的編製和列印是電腦化測驗系統開發時主要的問題。

2.電腦化適性測驗(Computerized Adaptive Testing，CAT)

所謂的適性測驗呢，就是在測驗的初始給予受測者難度相等的考題，再根據受測者的答題表現，調整下一個題目的內容，根據不同能力的受測者會給予不同難度的題目，電腦適性化測驗最大的優點就是能運用最少的題目測出受測者的真正能力，在美國的GRE(Graduate Record Examination)就是屬於這一類的電腦化測驗。電腦適性化測驗的發展重點在於題庫的建立，題庫的建立是既費時又費力的工作，再加上需要複雜的運算與線上即時的能力，所以運算速度的快慢將會影響到施測的速度，這些因素都是需要系統設計者依照測驗的需求來決定。

3.連續性測驗(Continuous Measurement，CM)

除了具有適性測驗的特點外，連續性測驗是與教學場景互相的結合，試題的安排是出現在課程中的，並強調測驗是用來監控學生學習，所以連續性測驗的重點在於開發多元化的試題與作業，所以需要投入更多的心力。

4.智慧型測驗(Intelligent Measurement，IM)

智慧型測驗，不但可以建立學生個人的學習模式，還可以進行個人學習成長的追蹤，並且提供即時的補救建議與個體的分析，這樣的測驗使得教學與評量能夠充份的配合，提供最佳的學習環境。但是智慧型測驗的開發，除了遇到連續性測驗所遇到的問題外，還需要建立專家的知識庫與個人學習模式，所以不但需要花費更多心力，更要與具有此一方面電腦專業素養的專家通力合作才能完成。

二、項目反應理論

(22)

項目反應理論(Item Response Theory ，IRT)，主要用於適性化測驗上面，

最近幾年已經普遍使用於許多的大型測驗上，像TOEFL 也是採用項目反應理論來建立適性化測驗，另外項目反應理論也廣泛用於其他領域，例如能有效的做醫療上的智能評估(Teresia ,2006)。以下說明項目反應理論的基本概念如下

( Hambleton & Swamination ,1985)：

1.受試者在某測驗試題上的表現情形，可由一組因素來加以預測或解釋，這組因素稱為潛在特質(latent traits)或能力(abilities)，用θ 代表， θ 的測量值是放在中心點為0、單位為1 的尺度上， θ的可能值介於∞到− ∞之間，

但實務上大多介於-3 到3 之間。

2.受試者的表現和這組潛在特質之間的關係，可透過一條連續嚴格遞增 (monotonically increasing)的函數來加以詮釋，此函數稱為項目特徵函數 (item characteristic function; ICF)，而把不同能力的學生在某項目(item) 的得分期望連結成線，此曲線稱為項目特徵曲線(item characteristic cure;

ICC)。

3.項目反應理論的目的在於提供能力的估計值(θ)且具有群體不變性 (group invariance)。由於IRT 是針對古典測驗理論的缺失而發展出來的，所以它還有下面幾項特色( Hambleton & Swamination ,1985)：

(1)在受試母群中，項目參數估計值是不受取樣波動(sampling fluction) 的影響，不同的取樣結果，只呈現ICC 的局部區間，連結了不同的取樣結果，則可呈現完整的ICC 圖。

(2)在試題的選擇中，受試者能力估計值不受取樣波動的影響。

(3)受試者能力可以確切估計求出。

三、電腦化適性測驗相關研究

根據教育論文線上資料庫搜尋有關於電腦化適性測驗的相關研究。

表 2-1 電腦化適性測驗相關研究

研究者年代電腦適性測驗相關研究內容洪碧霞、

吳鐵雄

1989 對我國大專聯考電腦適性化的可能作一初探.

(23)

表 2-1 電腦化適性測驗相關研究(續)

研究者年代電腦適性測驗相關研究內容

洪碧霞 1989 以 76 年大專聯考英文科及生物科選擇題的題目參數特質為基礎, 產生英文科及生物科模擬題庫, 對電腦化適性測驗 (ＣＡＴ)計分方法中的方法選擇、先前分配標準差及起始點的決定在不同的測驗長度下所產生的影響做一系統的探討

何榮桂 1991 探討題庫中不同項目參數分配型態對電腦化適性測驗選題的影響。

吳裕益 1991 探討電腦化適性測驗與傳統測驗之比較：(一)測驗精確性；(二)測驗情境標準化，主試者效應之控制、計分客觀性及材料保密性；(三)作答動機與態度；(四)提供測驗過程的訊息。

溫玲玉、

洪銘建

1996 探討電腦測量結果的解釋、電腦應用在測量上的倫理問題。

陳新豐 1999 探討結合網路與教育測量的理論,突破傳統測驗的時空限制。

章舜雯 2002 針對使用 SLC 試題曝光控制法,探討淘汰單一試題以及不曾被選用施測試題之後,對於題庫存留試題之試題曝光控制參數可能造成的影響,整個研究採電腦程式模擬電腦適性測驗程序進行。

孫光天、

楊振印

2002 提出一套分散式多媒體題目編輯與適性測驗系統,讓各地教師可藉此直接編製測驗,並且設計一個自動化題目相似性檢查系統。

朱錦鳳 2002 應用 IRT 單參數模式選題及評估學生能力,並以學生學業成績為效標,驗證其效度及分析再測信度。

陳新豐 2003 結合試題反應理論、題庫等化,探討線上題庫等化連結策略之優劣,以提供建置電腦化線上適性測驗系統之基礎條件,並且連結不同的時間點所收集的線上題庫,進行題庫等化連結,並比較其連結效益。

(24)

表 2-1 電腦化適性測驗相關研究(續)

研究者年代電腦適性測驗相關研究內容陳柏熹、

王文中

2004 使用三種曝光率控制(嚴格控制、寬鬆控制、不控制)對 2001 年國中基本學力測驗之資料進行不同終止題數的題間多向度電腦化適性測驗(BMCAT)。

陳淑英 2004 探討如何藉著機率理論來推導試題曝光率及能力估計精確度,並以此推導出的結果來評估電腦模擬研究在三個不同模擬次數下(100、500 及 1,000)的效率及準確性。

陳建宏 2004 藉由教師課堂上課搭配使用 Web 線上測驗系統，使得教師可以設定及掌握學生的學習進度，即時得知學生的學習狀況，藉此調整教學目標、教學方法、教學進度及命題難度。

陳柏熹 2006 分析不同能力估計方法對多向度電腦化適性測驗 (multidimensional computerizedadaptive testing,MCAT)測量精準度的影響。

(25)

第三節測驗理論比較與發展

一、測驗理論的兩大派別

測驗理論(test theory) 是一種解釋測驗資料間實證關係(empirical relationships)的有系統的理論學說，此理論的發展，迄今已邁入不同的新紀元，測驗理論學者通常把它劃分成二大學派：一為古典測驗理論 (classical test theory)——主要是以真實分數模式(true score model) 為骨幹

(Gullikson, 1987; Lord & Novick, 1968)；另一為現代測驗理論——主要是以項目反應理論(item response theory) (Hambleton & Swaminathan, 1985;

Hambleton, Swaminathan, & Rogers, 1991; Hulin, Drasgow, & Parsons, 1983;

Lord, 1980)為架構。這兩派理論目前並行流通於測驗學界，但項目反應理論卻有後來居上，逐漸凌駕古典測驗理論之上，甚至進而取而代之之勢(余民寧 , 2001)。

二、兩派測驗理論之比較

比奈－賽門的第一個心理測驗問世後，正是心理計量學誕生之始，後經諸多學者（如：Cronbach, 1951; Guilford, 1954; Gullikson, 1987; Guttman, 1944;

Lord & Novick, 1968; Richardson, 1936; Terman, 1916; Thurstone, 1929;

Tucker, 1946）的研究與闡述，終於歸納形成古典測驗理論等學說。

古典測驗理論的內涵，主要是以真實分數模式（亦即，觀察分數等於真實分數與誤差分數之和，數學公式為）為理論架構，並依據弱勢假設(weak assumption)而來，其理論模式的發展已為時甚久，且發展得相當規模，所採用的計算公式簡單明瞭、淺顯易懂，適用於大多數的教育與心理測驗資料，以及社會科學資料的分析，為目前測驗學界使用與流通最廣的理論依據。

然而，除上述各項優點外，古典測驗理論卻有下列諸項先天的缺失(Guion &

Ironson, 1983; Wright, 1977)：

1. 古典測驗理論所採用的指標，諸如：難度(difficulty)、鑑別度

(discrimination)、和信度(reliability)等，都是一種樣本依賴(sample dependent)的指標；也就是說，這些指標的獲得會因接受測驗的受試者樣本的不同而不同，因此，同一份試卷很難獲得一致的難度、鑑別度、或信度。

2. 古典測驗理論以一個相同的測量標準誤(standard error of

measurement)，作為每位受試者的測量誤差指標，這種作法並沒有考慮受試者能力的個別差異，對高、低能力兩極端組的受試者而言，這種指標極為不合理且不準確，致使理論假設的適當性受到懷疑。

(26)

3. 古典測驗理論對於非複本(nonparallel)但功能相同的測驗所測得的分數間，無法提供有意義的比較，有意義的比較僅侷限於相同測驗的前後測分數或複本測驗分數之間。

4. 古典測驗理論對信度的假設，是建立在複本(parallel forms)測量的概念假設上，但是這種假設往往不存在於實際測驗情境裡。道理很簡單，因為不可能要求每位受試者接受同一份測驗無數次，而仍然假設每次測量間都彼此獨立不相關，況且，每一種測驗並不一定同時都有製作複本，因此複本測量的理論假設是行不通的，從方法學邏輯觀點而言，它的假設也是不合理的、矛盾的。

5. 古典測驗理論忽視受試者的試題反應組型(item response pattern)，認為原始得分相同的受試者，其能力必定一樣；其實不然，即使原始得分相同的受試者，其反應組型亦不見得會完全一致，因此，其能力估計值應該會有所不同。

一般說來，為了克服古典測驗理論的缺失，才有現代測驗理論的誕生。現代測驗理論的內涵，主要是以試題反應理論為理論架構，並依據強勢假設(strong assumptions)而來，其理論的發展為時稍晚，理論模式也不斷的在發展當中，所採用的計算公式複雜深奧、艱澀難懂，為一立論與假設均合理與嚴謹的學說，所適用的測驗資料種類雖屬有限，但深受測驗學者的青睞，已有逐漸凌駕古典測驗理論之上，甚至進而取而代之之勢。

當代測驗理論是為改進古典測驗理論的缺失而來，它具有下列幾項特點，這些特點正是古典測驗理論所無法具備的(Hambleton, 1989; Hambleton & Cook, 1977; Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Lord, 1980)：

1. 當代測驗理論所採用的試題參數(item parameters)（如：難度、鑑別度、

猜測度等），是一種不受樣本影響(sample-free)的指標；也就是說，這些參數的獲得，不會因為所選出接受測驗的受試者樣本的不同而不同。

2. 當代測驗理論能夠針對每位受試者，提供個別差異的測量誤差指標，而非單一相同的測量標準誤，因此能夠精確推估受試者的能力估計值。

3. 當代測驗理論可經由適用的同質性試題組成的分測驗，測量估計出受試者個人的能力，不受測驗的影響(test-free)，並且對於不同受試者間的分數，亦可進行有意義的比較。

4. 當代測驗理論提出以試題訊息量(item information)及試卷訊息量(test information)的概念，來作為評定某個試題或整份試卷的測量準確性，倒有取代古典測驗理論的「信度」，作為評定試卷內部一致性指標之勢。

5. 當代測驗理論同時考慮受試者的反應組型與試題參數等特性，因此在估計個人能力時，除了能夠提供一個較精確的估計值外，對於原始得分相同的受試者，也往往給予不同的能力估計值。

(27)

6. 當代測驗理論所採用的適合度考驗值(statistic of goodness-of-fit)，

可以提供考驗模式與資料間之適合度、受試者的反應是否為非尋常 (unusual)等參考指標。

綜合上述，現代測驗理論似乎是絕對優於古典測驗理論，但是事實上，現代測驗理論被採用於解決真實測驗資料者，比起古典測驗理論廣泛地被應用的情形而言，尚屬少數。其主要原因有下列諸點：

1. 當代測驗理論係建立在理論假設嚴謹的數理統計學機率模式上，是一種複雜深奧、艱澀難懂的測驗理論，這對於在數學方面訓練有限的教育與心理學界學者而言，無非是一大挑戰。閱讀有關此理論之數學方面的研究報告與專書，已頗感困難，實在更難以深入將之發揚光大。

2. 多數當代測驗理論學者都是出身自數學界或曾是數學主修者，或至少在數理統計學上訓練有素者，他們偏愛對理論模式的探討，遠勝於對實際應用的推廣工作。

3. 過去，電腦科技的進步有限，沒有電腦套裝軟體程式的即時配合，當代測驗理論中對模式參數的估計，難以用手算或小型計算機順利進行，因此，

在應用上更受限制。

4. 有些古典測驗理論的擁護者，對當代測驗理論的研究與發展，所能獲致之成效與應用性深表懷疑。為了證明與解釋疑惑，當代測驗理論學派的支持者，便更朝理論模式的量化技術方面探討，致使當代測驗理論的發展愈趨數學化、數量化、與電腦化。

5. 礙於嚴苛的基本假設，當代測驗理論所能適用的教育與心理測驗資料有限，並且需要大樣本的配合，因此使得它的應用性大打折扣，未獲一般測驗使用者的全力擁護。

由上述兩派測驗理論的比較可知，古典測驗理論雖然不夠嚴謹，但理論淺顯易懂，便於在實際測驗情境中來實施；現代測驗理論雖然嚴謹，但理論艱深難懂。

所以，這兩派測驗理論各有所長，在應用上也各有其限制。

三、測驗理論的發展趨勢

自從 Lord(1980)發表第一本以「試題反應理論」為名的專書後，現代測驗理論正式以試題反應理論為其中心架構；在此之前，試題反應理論有個別稱：「潛在特質理論」(latent trait theory)，由於潛在特質理論一詞還包括「因素分析」(factor analysis)、「多元度量法」(multidimensional scaling)、與「潛在結構分析」(latent structure analysis)等，由於涵蓋面甚廣，無法精確反

(28)

應出受試者在試題上的反應狀況，因此，自 Lord 發表專書後，項目反應理論於是正式正名且宣告誕生。所以自 1980 年後，測驗學者逐漸以項目反應理論為現代測驗理論的代表。

項目反應理論雖然自 1980 年才正式正名成立，然而在 30 和 40 年代，項目反應理論便已有初步的理論架構。其中，Tucker(1946)便是第一位使用「項目特徵曲線」（item characteristic curve，簡稱 ICC）一詞的心理計量學家，這一名詞也逐漸成為項目反應理論的中心概念。

其實，隨著近年來人類在電腦科技上的突飛猛進，各種適用於項目反應理論的電腦軟體程式（例如目前最常用也最有名的程式 BILOG 和 LOGIST 等）相繼誕生與再版修訂，已使得美國很多研究機構、地方政府機關、和私人團體，都率先採用試題反應理論作為他們編製測驗、施測、計分、解釋、與提供諮詢服務的依據。

此外，現代測驗理論的發展趨勢不外朝理論的發展愈趨數學化與理論的應用愈依賴電腦同步進行。相信在可預期的將來，測驗理論的使用者必須同時具備數學與電腦方面的良好訓練，方能對試題反應理論的瞭解與應用駕輕就熟，而測驗理論在愈趨專業化、專家化後，也唯有在專家或專家指導下方能推廣應用項目反應理論，不過照目前的發展趨勢來看，項目反應理論要取代古典測驗理論是指日可待的事。

(29)

第三章研究方法

本章共分為五小節，第一節研究架構，第二節研究對象，第三節研究程序，

第四節資料分析，第五節系統開發工具。

第一節研究架構

本研究以「教師資格檢定考試線上適性測驗系統開發之研究—以教育測驗與教學評量學習概念為例」為主題進行研究。前章進行文獻探討，作為本研究的理論基礎，形成初步研究架構(參見圖 3-1)。

圖 3-1 研究架構圖

(30)

第二節研究對象

本研究之對象以國立台東大學大學部大二級大四的學生，包含教育系、語教系、社教系、體育系、幼教系、美教系、特教系、自教系、數學系、應用系、

資工系、資管系、生科系、英美系、華語系、音樂系、美術系、心動系，自由選修 98 學年度第二學期大二共選和大四共選「教育測驗與評量」課程之學生。

表 3-1 國立台東大學大學部班級人數統計表

教育系 4 班 175

語教系 1 班 47

社教系 4 班 176 體育系 4 班 184 幼教系 4 班 185

美教系 1 班 53

特教系 4 班 175 自教系 2 班 114 數學系 4 班 203 應用系 4 班 219 資工系 7 班 379 資管系 4 班 229 生科系 3 班 164 英美系 4 班 228 華語系 4 班 229 音樂系 4 班 132 美術系 3 班 153 心動系 3 班 156 大學部 33 班 3201 人

文學院

系班級人數

國立臺東大學九十八學年度第一學期

師範學院

理工學院

大學部：班級/人數統計表

(31)

第三節研究程序

為蒐集研究資料，本研究蒐集「九十四至九十八年度高級中等以下學校及幼稚園教師資格檢定考試」的國民小學部分試題，其中所勾選的試題是與測驗評量概念相關之題目，經過重新編製之後進行紙筆測驗，施測對象為國立台東大學大一至大四學生，之後將所蒐集的測驗卷進行資料分析，包含CTT以及IRT分析，接著開發線上適性測驗系統，在系統完成之後進行實際上線測驗，最後將測驗結果進行比較分析並撰寫研究報告，本研究的研究流程圖如圖3-2所示。

(32)

蒐集

94-98年五年的考古題 1.教育原理與制度 2.兒童發展與輔導 3.國民小學課程與輔導

編製成紙筆測驗(45題)

由學者專家進行專業審題並勾選出與測驗評量概念相關之題目

(99年3月) 施測

國立台東大學大二和大四學生 (前測)

(99年4月) 資料分析 CTT分析 IRT分析

(99年5月) 開發

線上適性測驗系統

(99年6月) 測驗

線上適性測驗系統 (後測)

結果分析

撰寫研究報告

圖 3-2 研究流程圖

(33)

第四節資料分析程式

一、CTT題目分析：TESTER

TESTER for Windows 程式 2.0 版可執行古典測驗理論(CTT)下的試題分析、

測驗分析、和學生問題表分析。

本程式使用的最大容量範圍限制：學生數在 10000 人以內、試題數在 250 題以內、5 個選項以內的單選題之選擇型試題、且每題的輸入資料格式必須是數值型(numerical)的作答反應資料(例如：即使選項為 A、B、C、D 的文字格式，

也必須轉成 1、2、3、4 的數字格式來輸入)。此外本程式的 S-P 表繪圖功能，僅限於學生數 60 人、試題數在 50 題以內的資料，才能啟動使用。

利用 TESTER for Windows 2.0 版程式進行 S-P 表分析，計算注意係數與判定類別。根據學生的注意係數當作橫軸，學生得分之百分比當作縱軸，繪製學生診斷分析圖，並將學生的學習狀況分為六大類：學習穩定型（A）、粗心大意型

（A'）、努力不足型（B）、欠缺充分型（B'）、學力不足型（C）與學習異常型（C'），這六種種學習類型各有不同的學習特性（余民寧，2002）。

二、IRT 題目分析：BILOG-MG

BILOG 是二元試題 logistic 模式的題目分析和測驗統計(item analysis and test scoring with binary logistic model)，適用於二元計分試題的傳統及 IRT 題目分析。由於 BILOG 同時兼具傳統及題目反應理論之題目分析功能，而且使用者可作的選擇很多，又可同時分析多個分測驗，是一個相當好用的題目及測驗分析軟體。

(34)

第五節系統開發工具

一、Apache 簡介

Apache 是 Linux 系統上最廣泛用來架設 WWW 伺服器的架站軟體，由 Apache Group 在開發維護，1999 年 6 月 30 日成立 Apache Software Foundation。從原本的業餘玩家所組成的 Apache Group，到現在有幾家主要的公司如 IBM、Sun Microsystem、Oracle 等在背後支持後續的計畫，使得 Apache 伺服器可以持續的發展。

Apache Server 服務的對象：

1. 若您的機關單位的 Web Server 需要提供個人網頁空間，也需要對個人網頁空間的大小做限制，選用 Linux+Apache 將是最佳的抉擇

2. 企業團體及教育單位用來作為 Web Server 的最佳利器二、PHP 簡介

PHP 的全名為 Hypertext Preprocessor，它是個被廣泛運用在網頁程式撰寫的語言，尤其是它能適用於網頁程式的開發及能夠嵌入 HTML 文件之中，它的語法和 C、Java 及 Perl 等語法相似，且學習起來更容易上手。PHP 的目地是為了能使網站開發者可以快速地撰寫動態網頁。

PHP 的程式碼是在伺服器上執行，所以如果你將類似上面範例的程式放在你的伺服器上執行的話，用戶端所獲得的是程式執行之後的結果，因此用戶端無法知道程式碼的內容是什麼。

三、MySQL 簡介

“MySQL”中的 SQL 代表“Structured Query Language”（結構化查詢語言）。一個數據庫是一個結構化的數據集合。它可以是從一個簡單的銷售表到一個美術館、或者一個社團網絡的龐大的信息集合。如果要添加、訪問和處理存儲在一個計算機數據庫中的數據，你就需要一個像 MySQL 這樣的數據庫管理系統。從計算機可以很好的處理大量的數據以來，數據庫管理系統就在計算機處理中和獨立應用程序或其他部分應用程序一樣扮演著一個重要的角色。

四、系統設計

本研究的系統設計將會用到 Apache、PHP、MySQL 這三個軟體。本研究的系統開發流程說明如圖 3-3 所示。

(35)

開始

受試者(學生) 前端後端

題庫

測驗說明

初始題

金字塔選題策略選題

受試者作答

估計能力值

終止條件是否滿足

顯示測驗結果 (學號)(級分)

結束測驗 YES

NO

輸入學號

資料庫

記錄 ID(學號)、級分

圖 3-3 本研究線上適性測驗系統開發流程圖

(36)

第四章研究結果分析

本研究目的在開發一個「教師資格檢定考試線上適性測驗系統」，以提供教師一個增進教學效能的輔助工具，並能幫助學生量身訂做一個適合個人能力的測驗。本章的重點在於題庫的建置，利用金字塔式的適性排列設計成符合學生能力的適性題庫，還有教師資格檢定考試線上適性測驗系統的開發，最後並比較紙筆測驗與線上適性測驗之差異。

第一節教師資格檢定考試線上適性測驗題庫建置

本題庫測驗的建置利用 TESTER 2.0 以及 Bilog MG 3.0 來進行題目的篩選分析，再與適性測驗整合，成為符合學生能力的教師資格檢定考試線上適性測驗題庫。

一、初試題庫建置過程

在試題方面，此測驗中的題目皆為「民國 94 至 98 年度高級中等以下學校及幼稚園教師資格檢定考試」中的題目所選出來，並從「國民小學課程與教學」、「兒童發展與輔導」、「教育原理與制度」三科目中挑選與「教育測驗與評量」相關的題目，挑選過後，共有單選選擇題四十五題。

二、紙筆題庫初試結果分析

分為以下「受試樣本」、「分析軟體」以及「試題分析」三部分。

1. 受試樣本

紙筆測驗題庫初試的樣本為有修習「教育測驗與評量」的學生，包含大二共選、大四共選(班級) 教育測驗與評量(科目) 教育專業課程(類別)有社教系、語教系、特教系、教育系、美勞系、自教系，受試者共有 84 人。

2. 分析軟體

使用 TESTER for Windows 程式 2.0 版軟體、Bilog MG 3.0 軟體

(37)

3. 試題分析

由 tester 2.0 軟體執行後的報表中刪除鑑別度不佳的題目，先將 tester 2.0 的測驗結果中 D≦0 的先刪除，共有第三題(D=-0.0952)、第十五題

(D=-0.0476) 、第二十題(D=-0.0476)、第三十八題(D=0.0000)。

表 4-1 D 值說明

-1.00≦D 值≦＋1.00 說明

D 值愈大表示鑑別度愈大。

D 值>0

D 值愈小表示鑑別度愈小。

D 值=0 表示沒有鑑別度，可能是因為試題太容易或太艱難，

使得所有人均答對或均答錯，或是題目不清，題目宜刪除。

D 值<0 表示低分組學生答對百分比高於高分組，此為沒有鑑別度的題目，應刪除。

用 BilogMG3.0 軟體分析結果之後，將古典 CTT 分析中點二相關和二系列相關<0 的題目做第二次篩選，共有第八題、第九題、第三十三題、第三十六題，

並驗證第一次刪除的第三題、第十五題、第二十題、第三十八題中的點二相關和二系列相關也都是<0，因為我所要做的測驗是金字塔測驗，所需要的題數為 36 題，可分為八個階層，也就是總題數 36 題的測驗只需要做 8 題測驗即可，在第一次刪除 4 題以及第二次刪除 4 題之後還會多出一題，因此將古典 CTT 分析中點二相關和二系列相關最接近 0 的題目刪除，此題為第二十八題，最後留下 36 題作為教師資格檢定考試線上適性測驗題庫，並將軟體分析結果整理成下表 4-2：

表 4-2 軟體分析結果統整表

題號

人數

難度鑑別度類

別答對率

點二相關

二系列相關

a b c 決

策 01 84 0.8810 0.1429 A’ 89.29 0.121 0.203 0.583 -2.137 0.208 02 84 0.5238 0.1905 B’ 44.05 0.094 0.119 0.624 1.573 0.279 03 84 0.0952 -0.0952 B’ 13.10 -0.110 -0.174 刪 04 84 0.3095 0.0476 B’ 28.57 0.138 0.183 0.856 1.953 0.203 05 84 0.4524 0.4286 A’ 54.76 0.215 0.270 0.597 0.344 0.208 06 84 0.7381 0.4286 A 67.86 0.262 0.342 0.776 -0.318 0.224 07 84 0.1667 0.2381 B’ 20.24 0.139 0.198 0.877 2.506 0.166 08 84 0.3810 0.0952 B’ 40.48 -0.112 -0.142 刪

(38)

表 4-2 軟體分析結果統整表(續)

題號

人數

難度鑑別度類

別答對率

點二相關

二系列相關

a b c 決

策 09 84 0.3333 0.1905 B’ 39.29 -0.014 -0.018 0.389 2.052 0.218 刪 10 84 0.6429 0.3333 A’ 55.95 0.147 0.185 0.648 0.637 0.282 11 84 0.2857 0.1905 B’ 26.19 0.126 0.170 0.672 2.117 0.171 12 84 0.6905 0.6190 A 59.52 0.340 0.431 0.973 0.078 0.218 13 84 0.4524 0.2381 B’ 44.05 0.041 0.052 0.532 1.881 0.289 14 84 0.2619 0.4286 B 25.00 0.335 0.457 1.189 1.408 0.146 15 84 0.6905 -0.0476 A’ 72.62 -0.054 -0.072 0.339 -1.006 0.231 刪 16 84 0.4524 0.4286 B’ 42.86 0.257 0.324 0.665 0.984 0.199 17 84 0.2857 0.2857 B’ 26.19 0.242 0.326 0.741 1.914 0.165 18 84 0.5000 0.2381 B’ 48.81 0.056 0.070 0.440 1.066 0.230 19 84 0.2619 0.2381 B’ 23.81 0.170 0.234 0.960 2.179 0.185 20 84 0.0714 -0.0476 B’ 10.71 -0.128 -0.215 刪 21 84 0.6429 0.3333 A’ 65.48 0.148 0.191 0.478 -0.308 0.216 22 84 0.3333 0.2857 B’ 30.95 0.186 0.243 0.830 1.875 0.215 23 84 0.5714 0.0952 A’ 58.33 0.019 0.024 0.411 0.626 0.275 24 84 0.3571 0.2381 B’ 29.76 0.118 0.156 0.602 2.387 0.210 25 84 0.2857 0.2857 B’ 26.19 0.162 0.219 0.829 2.269 0.201 26 84 0.6667 0.1905 A’ 66.67 0.035 0.045 0.423 -0.307 0.239 27 84 0.5000 0.2381 B’ 41.67 0.067 0.084 0.776 1.674 0.289 28 84 0.0714 0.0476 B’ 5.95 0.019 0.038 0.590 4.542 0.079 刪 29 84 0.5952 0.3333 A’ 54.76 0.156 0.195 0.523 0.389 0.210 30 84 0.3333 0.5714 B 27.38 0.410 0.550 0.925 1.170 0.110 31 84 0.8333 0.1429 A’ 82.14 0.091 0.134 0.460 -1.696 0.213 32 84 0.4524 0.4286 B’ 46.43 0.220 0.276 0.549 0.828 0.192 33 84 0.5476 0.1429 A’ 57.14 -0.062 -0.078 0.332 0.561 0.239 刪 34 84 0.6429 0.2381 A’ 63.10 0.112 0.143 0.516 -0.091 0.224 35 84 0.6190 0.3810 A’ 55.95 0.212 0.267 0.713 0.420 0.247 36 84 0.0714 0.0476 B’ 7.14 -0.029 -0.054 0.560 4.740 0.090 刪 37 84 0.3810 0.4762 B 42.86 0.296 0.373 0.818 0.689 0.165 38 84 0.4762 0.0000 B’ 38.10 -0.009 -0.011 0.816 2.503 0.312 刪 39 84 0.0952 0.1905 B’ 15.48 0.246 0.374 0.866 2.640 0.131 40 84 0.2143 0.2381 B’ 14.29 0.189 0.292 0.813 2.604 0.115 41 84 0.4762 0.3810 B’ 48.81 0.222 0.278 0.716 0.594 0.200

(39)

表 4-2 軟體分析結果統整表(續)

題號

人數

難度鑑別度類

別答對率

點二相關

二系列相關

a b c 決

策 42 84 0.4048 0.2381 B’ 38.10 0.187 0.238 0.824 1.506 0.245 43 84 0.5952 0.2381 A’ 65.48 0.098 0.126 0.444 -0.303 0.220 44 84 0.1905 0.1905 B’ 14.29 0.281 0.435 1.153 2.126 0.113 45 84 0.3571 0.5238 B 41.67 0.297 0.375 0.677 0.935 0.180

三、題庫與適性測驗的整合

將最後留下 36 題的題目按照題號排列成下表 4-3。

表 4-3 正式施測題庫表

難度鑑別度題目題號 0.88 0.14 (A)在教學開始或學習困難時，為了全面瞭解學生學習 1 困難的原因所進行的評量，稱為：(A)診斷性評量 (B) 形成性評量 (C)總結性評量 (D)安置性評量

0.52 0.19 (C)彩虹國小在學校本位課程發展過程中進行評鑑，主 2 要目的在蒐集課程草案的優缺點資料，作為改進或修

訂課程之用。這屬於下列哪一類評鑑？(A)內部人員評鑑 (B)總結性評鑑 (C)形成性評鑑 (D)目標評鑑

0.30 0.04 (B)在教學中常使用標準參照測驗 (criterion 4 referenced test, CRT)，下列哪一項是其特點？(A)

通常涵蓋較大範疇的學習作業 (B)強調個人所能與不能完成之學習結果(C)偏好平均難度的試題 (D)需以明確界定的團體作解釋

0.45 0.42 (B)訂定教材內容和認知層次雙向細目表，作為命題的 5 藍圖，有助於改進教師自編測驗的何種性能？(A)信度 (B)效度 (C)客觀性 (D)實用性

(40)

表 4-3 正式施測題庫表(續)

0.73 0.42 (D)以下有關「標準化心理測驗」的描述，何者正確？ 6 (A)藉標準化心理測驗可充分且完全瞭解兒童(B)標準

化心理測驗有常模參照，所以結果精準正確(C)標準化心理測驗有常模參照，能避免文化差異而有的偏誤(D) 標準化心理測驗的結果，需輔以非正式評量所得資料才能有適切的解釋

0.16 0.23 (A)從心理測驗的用途或功能而言，可分為篩選性 7 （screening）和診斷性（diagnosis）的是何種性質的心理測驗？(A)成就測驗 (B)智力測驗 (C)人格測驗 (D)興趣測驗

0.64 0.33 (A)考試中的選擇題屬於記憶測量中的哪一種方法？ 10 (A)再認法 (B)節省法 (C)回憶法 (D)重習法

0.28 0.19 (A) 小明是國中一年級學生，他的魏氏智力測驗分數 11 是 100，請問下列何者正確？(A)小明的魏氏智力測驗成績顯示他的 IQ 贏過 50%的國中一年級學生(B)小明的魏氏智力測驗的心智年齡與他的生理年齡相等(C)小明在魏氏智力測驗測得滿分(D)小明的學校成績應有中等以上之表現

0.69 0.61 (A) 教師想要了解學生長時間的學習歷程與進步情形 12

，最適合採用下列何種評量？(A)檔案評量 (B)紙筆評量 (C)實作評量 (D)診斷評量

0.45 0.23 (C) 如果一種評量強調受試者依其既有的先備知識作 13 為基礎，將新學習連結到舊知識之上，統整調和成一

個有組織、有系統、有階層的知識結構，這屬於何種評量？(A)真實性評量 (B)檔案評量 (C)概念圖評量 (D)總結性評量

0.26 0.42 (C) 以折半法估計信度，是為了顯示信度測量的哪一種 14 性質？(A)穩定性 (B)等值性 (C)一致性 (D)正確性

(41)

0.45 0.42 (D) 龍山國小決定使用一份音樂性向測驗做為篩選音 16 樂班學生的工具，請問該測驗最需要強調下列何種效

度？(A)建構效度 (B)表面效度 (C)內容效度 (D)效標關聯效度

0.28 0.28 (A) 教學之前，教師為瞭解學生對學習新知識應具備 17 之基本條件，宜採用何種評量方式？(A)安置性評量

(B)診斷性評量 (C)形成性評量 (D)總結性評量

0.50 0.23 (A) 有些考試採用倒扣(校正猜測)的方式來避免學 18 生胡亂猜測，但是蔡老師認為學校考試不必這樣做，

因為考試目的在於協助學生的學習。下列哪一個敘述，最可能是蔡老師的基本假定？(A)學生答錯試題，並非純粹亂猜(B)倒扣會增加計分的複雜性，又浪費時間 (C)學校考試非正式成就測驗，不需要校正猜測(D)未做校正猜測，對試題的信度沒有重大影響

0.26 0.23 (D)林老師發現小美的學習不佳。她先幫小美做智力測 19 驗，結果智力中等，所以排除了智力的因素。接著她

找了成績好的學生與小美分享學習的方法，效果也不怎麼好。此時應採用哪一種評量方式來診斷小美的學習困難？(A)總結性評量 (B)安置性評量 (C)形成性評量 (D)動態性評量

0.64 0.33 (A)某次段考中，由於有半數同學不及格，老師決定每 21 人加 10 分。下列有關這項處理可能造成測驗品質和測驗得分統計變化的描述，哪一項是正確的？(A)測驗效度不變 (B)測驗信度提高 (C)得分平均數降低 (D)得分標準差縮小

0.33 0.28 (C) 林老師發現小威有學習困難，就把小威轉介給心理 22 師，心理師利用智力測驗評估他的認知能力。下列何者是這位心理師的評估方式？(A)因素分析 (B)精神分析 (C)心理計量 (D)結構分析

(42)

0.57 0.09 (A) 想要瞭解學生的學習潛能，評估其接受特定教育 23 或訓練之適合程度，以及預測未來相關之學習成就，

應採用何種測驗工具？(A)性向測驗 (B)智力測驗 (C) 興趣測驗 (D)成就測驗

0.35 0.23 (A) 下列何者最具有結合教學、診斷和評量的功能？ 24 (A)動態評量 (B)標準化測驗 (C)常模參照評量 (D)標

準參照評量

0.28 0.28 (A) 教師在教學前對班上進行學科成就評量，以確定 25 學生的起點行為。此作法屬於下列何種評量？ (A)安

置性評量 (B)形成性評量 (C)診斷性評量 (D)總結性評量

0.66 0.19 (D) 黃老師將這次的段考界定為常模參照測驗的考試 26 ，請問出題時應如何設定題目的難度(P)與鑑別度(D)

較為恰當？ (A)P = .2；D = .2 (B)P = .7；D = .4 (C) P = .6；D = .1 (D)P = .5；D = .6

0.50 0.23 (B) 下列雙向細目表的甲、乙各表示什麼？ 27

(A)教學目標、教材內容 (B)教材內容、教學目標 (C)教學項目、教學歷程 (D)教學歷程、教學項目

0.59 0.33 (C) 選用心理測驗時，效度與信度是必須要考慮的 29 標準之一。以下對於效度與信度的關係何者有誤？

(A)信度是效度的必要條件，但非充分條件(B)測驗要具有效度之前，必須先具有信度(C)信度高的測驗，

其效度一定高(D)效度可以保證某種程度的信度

0.33 0.57 (A) 智力測驗編製的先驅是哪一位？ (A)比奈 30 (A. Binet) (B)葛敦納(H. Gardner) (C)塞斯通

(L. Thurstone) (D)魏克斯勒(D. Wechsler)

(43)

0.83 0.14 (C) 小美的數學成績一直不理想，為協助了解其學 31 習數學困難的原因所在，數學老師宜實施哪一種評量

？ (A)預備性評量 (B)形成性評量 (C)診斷性評量 (D) 總結性評量

0.45 0.42 (B) 劉老師剛接一個新班級，她利用社會測量法 32 (sociometric method)來加強對班級的了解與輔導

。下列有關社會測量法的描述，何者最為正確？ (A) 由美國社會學家墨頓(R. Merton)所創用(B)測量班級的次級制度結構或非制度性結構(C)測量班級學生家長社會經濟地位的整體狀況(D)預測班上學生未來的社會經濟地位

0.64 0.23 (D) 下列何者是教學評量的最主要目的？ (A)了解 34 學生在班上的排名 (B)對學生進行區別及篩選 (C)

了解班上學生個別差異 (D)做為輔導學生學習之用

0.61 0.38 (A) 教師在教學過程中，應適時檢視教學成效與學生 35 反應，以調整其教學法和課程內容。此屬於下列哪一

種課程評鑑之概念？ (A)形成性評鑑 (B)檔案式評鑑 (C)總結性評鑑 (D)後設性評鑑

0.38 0.47 (D) 在一次六年級數學基本能力抽考中，教務處給六 37 年八班方老師的資訊為「貴班數學成績的 T 分數為

54.50」。以下有關該資訊的描述，何者最為適切？ (A) 是全年級平均最低的 (B)是全年級平均最高的 (C)原始平均成績不及格 (D)不是全年級平均最低的

0.09 0.19 (B) 下列何者是「標準參照測驗」 39 (criterion-referenced test)的特性之一？ (A)與

其他學生的測驗表現進行比較 (B)與教師設定的精熟標準進行比較 (C)原始資料的測量分數之變異性較大 (D)以百分等級和標準分數解釋測量分數

(44)

0.21 0.23 (A) 側面圖分析(profile analysis)常用於測驗結 40 果的呈現，其用途主要是作為下列何種比較之用？

(A)個體內的比較 (B)與常模的比較 (C)個體間的比較 (D)與預設標準的比較

0.47 0.38 (D) 李老師在評量進行時或測驗剛完成時，要求他的 41 學生小琳將其當時心裡所想的任何事情或程序，用口

語的方式表達出來。此法為下列何者？ (A)實作評量 (performance assessment) (B)臨床晤談(clinical interview) (C)靜態評量(static assessment) (D)放聲思考(thinking aloud)

0.40 0.23 (B) 把新編測驗與效標測驗一併施測所得的相關，是 42 屬於何種效度？ (A)內容效度 (B)同時效度 (C)表面

效度 (D)預測效度

0.59 0.23 (C) 李老師想了解期末考數學考題是否適切，於是他 43 做了試題分析，請判斷下列哪一個試題分析結果最為

理想？ (A)P = 0.10，D = 0.15 (B)P = 0.46，D = -0.15 (C)P = 0.51，D = 0.75 (D)P = 0.85，D = 0.30 0.19 0.19 (A) 有關測驗效度的說法，下列哪一項是對的？ (A) 44 效度高，信度一定高 (B)效度是可靠性，信度是正確性 (C)信度低的測驗，效度可能高也可能低 (D)效度是信度的必要條件，但非充分條件

0.35 0.52 (B) 李老師剛接一個新班級，她運用社會測量法 45 (sociometric method)來加強對學生的了解，下列何

者為社會測量法的正確描述？ (A)可了解班級學生之學業表現 (B)調查後經整理可以得到社會關係圖 (C) 可了解班級學生家長的社會經濟地位 (D)由美國社會學家墨頓(R. Merton)所創用

在初試之後所篩選留下的 36 題題目即為教師資格檢定考試線上適性測驗所要施測的內容，而線上適性測驗題目的編排順序是以金字塔式測驗來排列，將最

(45)

後留下的試題依照難度的高低，並依照金字塔適性測驗理論的題目排序方式，由上到下、由左到右將題目依序排列。

選題方式為由上到下，從第一階層到第八階層，每層只會答一個試題，

答對就選右下方的題目，答錯就選左下方的題目，最下面的 1 至 16 是測驗的結果，分為 16 個級分，呈現如下圖 4-1：

16

32 27

30

41 17

37 2 44

5

18

42 10

45 22

13 35

21 25

12

26 11 24

34 23

40

31 43 29 19

6

1 14 4 7 39

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

第一層第二層

第三層第四層

第五層第六層

第七層第八層

圖 4-1 八層金字塔式適性排列的線上適性測驗題庫

(46)

表 4-4 b 值轉換成百分數表

b 值 Z T T 轉換+30 新分數 <b >b

2.64 1.12 61.17 91.17 99.96 99 100 2.5 1.03 60.31 90.31 97.04 93 98 1.95 0.69 56.93 86.93 85.57 82 89 1.4 0.36 53.56 83.56 74.1 70 78 0.62 -0.12 48.77 78.77 57.83 50 65 -0.09 -0.56 44.42 74.42 43.02 40 46 -0.31 -0.69 43.07 73.07 38.43 37 39 -2.14 -1.82 31.84 61.84 0.26 0 20 其轉換方程式為新分數=62+34Z

級分(滿分為 16 級分)、分數(滿分為 100 分) 與一般分數對照，其中的轉換分數為使用上面轉換方程式所得的新分數，一般分數為滿分除以題數，為 100 分分成 16 等分(一題一等分，共 16 題)。

(47)

表 4-5 分數對照表級分轉換分數一般分數

1 0 6.25 2 20 12.5 3 37 18.75 4 39 25 5 40 31.25 6 46 37.5 7 50 43.75 8 65 50 9 70 56.25 10 78 62.5 11 82 68.75 12 89 75 13 93 81.25 14 98 87.5 15 99 93.75 16 100 100

以級分的概念來看，所轉換成的分數會比我們一般測驗所用的一般分數成績都來的高，以 2 級分來看同樣是對一題但是得分卻不同，為 20 和 12.5，是有些差距，但是以第 15 級分來看同樣都是錯一題，分數為 99 與 93.75，所代表的是錯一題為 99 分與全對的 100 分其實能力值是差不多的。

(48)

第二節教師資格檢定考試線上適性測驗系統發展建置

本研究所設計的教師資格檢定考試線上適性測驗系統目的在利用電腦作為施測工具，以「教育測驗與評量」為測驗內容，期能更準確的評估學生的能力以及減少測驗題數和時間。

一、系統的硬體部分 1. 研究者端

(1) CPU : AMD Athlon II X2 245 (2) RAM : 2 GB

(3) HDD : WD 500GB (4) 網路卡： 10/100Mbps 2.使用者端

(1) CPU : Intel Core 2 Duo Processor E4400 (2) RAM : 2 GB

(3) HDD : WD 250GB (4) 網路卡： 10/100Mbps

二、系統的軟體部分

1. 研究者端

(1) Apache HTTP server (2) MySQL

(49)

(3) PHP

2.使用者端

(1) 作業系統：Microsoft Windows XP (2) 瀏覽器：Internet Explorer 三、測驗方式

1. 如圖 4-2 所示，開頭畫面說明測驗範圍及測驗題數，按下藍色開始按鈕後即可作答。

圖 4-2 教師資格檢定考試線上適性測驗之事項說明

(50)

2. 如圖 4-3 所示，難度中等的測驗初始題。若答對這題則下一題會往難度更難的題目繼續作答，若答錯這題則下一題會往難度更簡單的題目繼續作答。

圖 4-3 教師資格檢定考試線上適性測驗之初始題

(51)

3. 如圖 4-4 所示，當作完八個題目之後，就會出現此畫面。

圖 4-4 教師資格檢定考試線上適性測驗之輸入學號

(52)

4. 如圖 4-5 所示，輸入學號 0000001 作測試。

圖 4-5 教師資格檢定考試線上適性測驗之輸入學號 0000001 測試

(53)

5. 如圖 4-6 所示，顯示測驗的結果，包含所輸入之學號乙級測驗所得之級分，共分為 1 至 16 級，級分越高代表答對的題目越多，也就代表學生的

「教育測驗與評量」的能力越高，反之越低。

圖 4-6 教師資格檢定考試線上適性測驗之測驗結果

(54)

第三節比較傳統紙筆測驗與線上適性測驗之差異

本節在探討傳統紙筆測驗與所開發之教師資格檢定考試線上適性測驗兩者間的差異。

研究者於民國九十九年六月七日至十四日這一周實施線上適性測驗的實測。施測人數二班，兩次測驗都有參與的共有 81 人，並針對兩次測驗的答對題數，比較傳統紙筆測驗與線上適性測驗的差異。從表中看出兩者整體平均有明顯差異，說明了線上適性測驗的可行性，其中線上適性測驗的題數較少，也可節省答題時間，符合經濟及成本效益，且以研究者的從旁觀察，不管測驗結果的高低，學生願意接受線上適性測驗的接受度較傳統紙筆測驗的意願高。

表 4-6 傳統紙筆測驗與線上適性測驗比較表

傳統紙筆測驗線上適性測驗時間(分) 40 5

測驗題數 45 8 平均答對題數 18.70 4.38 平均答錯題數 26.3 3.62 平均答對率 41.56 54.78 平均答錯率 58.44 45.22

使用SPSS軟體分析傳統紙筆測驗與線上性測驗的結果，根據相依樣本t檢定，將受試者分成大二共選、大四共選兩班，大二共選的班級共有32人，大四共選的班級共有49人，分別比較紙筆答對率和線上適性測驗。

國立台東大學教育學系 教學科技碩士班

國立台東大學教育學系 教學科技碩士班

碩士論文

指導教授：李偉俊 博士

教師資格檢定考試線上適性測驗系統開 發之研究—以教育測驗與教學評量學習

概念為例

研究生：孫瑋廷 撰

中華民國九十九年七月

國立台東大學教育學系 教學科技碩士班

碩士論文

教師資格檢定考試線上適性測驗系統開 發之研究—以教育測驗與教學評量學習

概念為例

研究生：孫瑋廷 撰 指導教授：李偉俊 博士

中華民國九十九年七月

誌謝辭

教師資格檢定考試線上適性測驗系統開 發之研究—以教育測驗與教學評量學習

概念為例

作 者 ： 孫 瑋 廷

摘 要

本 線 上 適 性 測 驗 系 統 使 用 了 Apache、PHP 和 MySQL 這 三

個 軟 體 來 建 置 ， 此 系 統 的 好 處 在 於 能 夠 隨 時 進 行 線 上 適 性 測

驗 ， 並 且 比 一 般 傳 統 測 驗 還 要 節 省 作 答 題 數 以 及 時 間 。

The Research In The Development of the Teacher Qualification Assessment Online Adaptive Testing System –

a case study on the concept of Educational Measurement and Assessment

Wei-Ting Sun

Abstract

For this research, first I collected the test items of Teacher

Qualification Assessment from 2005 to 2009 and then selected some ones related to Educational Measurement and Assessment. After compiling them as pencil and paper tests, I processed data analysis of the collected test papers with the software including TESTER and BILOG.

Third, according to the Difficulty and Discrimination, each question was piled up into a pyramid-like online adaptive testing bank.

The online adaptive testing system uses three kinds of software, the Apache, PHP and MySOL, to build. The benefit of the system is that it can be tested at any time. In addition, not only does it save more time, but it takes fewer questions than the traditional test. .

Keyword ： Teacher Qualification Assessment 、 Computerized Adaptive

Testing 、 online adaptive testing system

目 次

第一章 緒論………1

第二章 文獻探討………6

第三章 研究方法………16

第四章 研究結果與討論………23

第五章 結論與建議………44

參考文獻………46

附錄………51

表 次

圖 次

第一章 緒論

第二章 文獻探討

第二節 電腦測驗的發展和項目反應理論

第三章 研究方法

第四章 研究結果分析

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

國立台東大學教育學系教學科技碩士班

國立台東大學教育學系教學科技碩士班

指導教授：李偉俊博士

教師資格檢定考試線上適性測驗系統開發之研究—以教育測驗與教學評量學習

研究生：孫瑋廷撰

國立台東大學教育學系教學科技碩士班

教師資格檢定考試線上適性測驗系統開發之研究—以教育測驗與教學評量學習

研究生：孫瑋廷撰指導教授：李偉俊博士

教師資格檢定考試線上適性測驗系統開發之研究—以教育測驗與教學評量學習

作者：孫瑋廷

摘要

本線上適性測驗系統使用了 Apache、PHP 和 MySQL 這三

個軟體來建置，此系統的好處在於能夠隨時進行線上適性測

驗，並且比一般傳統測驗還要節省作答題數以及時間。

目次

第一章緒論………1

第二章文獻探討………6

第三章研究方法………16

第四章研究結果與討論………23

第五章結論與建議………44

表次

圖次

第一章緒論

第二章文獻探討

第二節電腦測驗的發展和項目反應理論

第三章研究方法

第四章研究結果分析