教師資格檢定考試線上適性測驗系統發展建置

第四章研究結果與討論

第二節教師資格檢定考試線上適性測驗系統發展建置

本研究所設計的教師資格檢定考試線上適性測驗系統目的在利用電腦作為施測工具，以「教育測驗與評量」為測驗內容，期能更準確的評估學生的能力以及減少測驗題數和時間。

一、系統的硬體部分 1. 研究者端

(1) CPU : AMD Athlon II X2 245 (2) RAM : 2 GB

(3) HDD : WD 500GB (4) 網路卡： 10/100Mbps 2.使用者端

(1) CPU : Intel Core 2 Duo Processor E4400 (2) RAM : 2 GB

(3) HDD : WD 250GB (4) 網路卡： 10/100Mbps

二、系統的軟體部分

1. 研究者端

(1) Apache HTTP server (2) MySQL

(3) PHP

2.使用者端

(1) 作業系統：Microsoft Windows XP (2) 瀏覽器：Internet Explorer 三、測驗方式

1. 如圖 4-2 所示，開頭畫面說明測驗範圍及測驗題數，按下藍色開始按鈕後即可作答。

圖 4-2 教師資格檢定考試線上適性測驗之事項說明

2. 如圖 4-3 所示，難度中等的測驗初始題。若答對這題則下一題會往難度更難的題目繼續作答，若答錯這題則下一題會往難度更簡單的題目繼續作答。

圖 4-3 教師資格檢定考試線上適性測驗之初始題

3. 如圖 4-4 所示，當作完八個題目之後，就會出現此畫面。

圖 4-4 教師資格檢定考試線上適性測驗之輸入學號

4. 如圖 4-5 所示，輸入學號 0000001 作測試。

圖 4-5 教師資格檢定考試線上適性測驗之輸入學號 0000001 測試

5. 如圖 4-6 所示，顯示測驗的結果，包含所輸入之學號乙級測驗所得之級分，共分為 1 至 16 級，級分越高代表答對的題目越多，也就代表學生的

「教育測驗與評量」的能力越高，反之越低。

圖 4-6 教師資格檢定考試線上適性測驗之測驗結果

第三節比較傳統紙筆測驗與線上適性測驗之差異

本節在探討傳統紙筆測驗與所開發之教師資格檢定考試線上適性測驗兩者間的差異。

研究者於民國九十九年六月七日至十四日這一周實施線上適性測驗的實測。施測人數二班，兩次測驗都有參與的共有 81 人，並針對兩次測驗的答對題數，比較傳統紙筆測驗與線上適性測驗的差異。從表中看出兩者整體平均有明顯差異，說明了線上適性測驗的可行性，其中線上適性測驗的題數較少，也可節省答題時間，符合經濟及成本效益，且以研究者的從旁觀察，不管測驗結果的高低，學生願意接受線上適性測驗的接受度較傳統紙筆測驗的意願高。

表 4-6 傳統紙筆測驗與線上適性測驗比較表

傳統紙筆測驗線上適性測驗時間(分) 40 5

測驗題數 45 8 平均答對題數 18.70 4.38 平均答錯題數 26.3 3.62 平均答對率 41.56 54.78 平均答錯率 58.44 45.22

使用SPSS軟體分析傳統紙筆測驗與線上性測驗的結果，根據相依樣本t檢定，將受試者分成大二共選、大四共選兩班，大二共選的班級共有32人，大四共選的班級共有49人，分別比較紙筆答對率和線上適性測驗。

表 4-7 成對樣本統計量與檢定結果

平均數人數 SD t 大二共選紙筆答對率 40.83 32 8.95 -4.24***

線上答對率 49.21 32 12.67

大四共選紙筆答對率 42.04 49 11.35 -7.21***

線上答對率 58.41 49 16.01

***p<.001

表 4-7 顯示大二共選的傳統紙筆答對率和線上適性測驗 p<0.001，代表傳統紙筆測驗答對率和線上適性測驗答對率有顯著的差異，由平均數可看出，大二共選的線上適性測驗答對率顯著高於傳統紙筆測驗答對率，因此本研究的研究對象使用線上適性測驗的答對率(M=49.21)顯著高於傳統紙筆測驗的答對率

(M=40.83)，可見有其教學成效；大四共選的傳統紙筆測驗答對率和線上適性測驗 p<0.001，代表傳統紙筆測驗答對率和線上適性測驗答對率有顯著的差異，由平均數可看出，大四共選的線上適性測驗答對率顯著高於傳統紙筆測驗答對率，

因此本研究的研究對象使用線上適性測驗的答對率(M=58.41)顯著高於傳統紙筆測驗的答對率(M=42.04)，可見有其教學成效。大四共選的線上適性測驗答對率 (M=58.41)和傳統紙筆測驗的答對率(M=42.04)皆高於大二共選的線上適性測驗答對率(M=49.21)和傳統紙筆測驗的答對率(M=40.83)，可見大四共選班級學生的平均能力明顯高於大二共選班級學生的平均能力。

將兩個班級的測驗結果合在一起，只有比較傳統紙筆測驗答對率和線上適性測驗答對率，如表 4-8 總共有 81 個受試者，線上適性測驗答對率比傳統紙筆測驗答對率要高。

表 4-8 成對樣本統計量與檢定結果

平均數人數 SD t 大二+大四共選紙筆答對率 41.56 81 10.43 -8.10***

線上答對率 54.78 81 15.38

***p<.001

表 4-8 顯示兩班的傳統紙筆測驗答對率和線上適性測驗 p<0.001，代表傳統紙筆測驗答對率和線上適性測驗答對率有顯著的差異，由平均數可看出，線上適性測驗答對率(M=54.78)顯著高於傳統紙筆測驗答對率(M=41.56)，因此本研究的研究對象使用線上適性測驗的答對率顯著高於傳統紙筆測驗的答對率，可見有其教學成效。

第五章結論與建議

第一節結論

本研究利用金字塔型電腦適性測驗及紙筆測驗，來探討其中的差異性，其研究結論如下：

一、由於測驗的題目為教學測驗與評量的題目，是屬於專業科目，而必須挑選修習過此門科目的施測者，使測驗結果的資料可以表現出測驗的代表性。

二、初試時受試者並未修習過教學測驗與評量的課程，加上測驗的題數有 45 題，而後測是經過一學期的修課之後所做的電腦適性測驗，對於所測驗的內容會比較熟悉，而且題目只需要做 8 題即可完成測驗，兩相比較第一次測試時間大約是 40 分鐘，第二次大約 5 分鐘之內即可完成，時間上減少了許多，因此對於測試學生的能力測驗更快更省時。

三、本研究中發現以級分的概念來看，所轉換成的分數會比我們一般測驗所用的一般分數成績都來的高，以 2 級分來看同樣是對一題但是得分卻不同，

為 20 和 12.5，是有些差距，第是以第 15 級分來看同樣都是錯一題，分數為 99 與 93.75，所代表的是錯一題為 99 分與全對的 100 分其實能力值是差不多的。

四、金字塔測驗所得到的分數是以 IRT 試題分析結果的 b 值(難度參數)所設計的，因此跟我們一般的測驗分配分數每題都是一樣的分數是不同的，整個測驗能夠更精準的估計受試者的能力值，在一般的測驗中每題的得分數都是相同的而且必須做的題目又多，金字塔測驗只需要做相對於少的題目即可精準的得知受試者能力，代表每個題目得到的分數並不相同，是依照題目的難易度來配分。

第二節建議

本研究針對結論與研究過程中所遇到的困難與發現提出研究建議，做為以後相關研究的參考。

一、本研究所使用的題目皆是從民國 94 至 98 年度高級中等以下學校及幼稚園教師資格檢定考試」中的題目所選出來，可能無法涵蓋到所有「教育測驗與評量」的各章節內容，假如能夠多加入一些自行設計或者一般參考書的題目，可以增加此測驗的準確度。

二、本研究所設計的金字塔型測驗，由於並未讓受試者知道正確答案，以及所做錯的題目，所以只能夠進行初步的能力值估計，無法讓受試者反覆測驗，當作自我檢定並提升能力。

三、題庫的開發需要有足夠的人力以及時間和金錢的支援，最好能由該科目的專業人員與測驗以及電腦系統、介面方面的專家共同合作，如果還要更吸引人的話，勢必還需要電腦動畫及美工的專業人才加入，比較能夠成功為大眾所接受。

四、電腦適性測驗是將來的趨勢，能夠大幅降低現行測驗的題數以及大量節省時間，是非常有經濟效益的，並且能夠結合補救系統，讓測驗完的人知道自己哪種類型或是哪個章節的題目不會，並自我加強，然後系統能夠挑出受試者第一次已經達對題目的範圍並刪去，以受試者尚未答對的範圍進行第二次的測驗，之後還可以進行第三次、第四次….，直到完全答對，相信這樣的系統對於使用者能有很大幫助。

參考文獻

陳柏熹(2006)。能力估計方法對多向度電腦化適性測驗測量精準度的影響。教 育心理學報，38(2)，195-211。

陳柏熹、王文中(2004，3 月)。曝光率控制對多向度電腦化適性測驗能力估計信 度之影響:以 2001 年國中基本學力測驗資料為例。教育與心理研究，

27(1)，181-213。

陳淑英(2004)。分析「電腦適性測驗」的試題曝光率及能力估計精確度。測驗學 刊，51(1)，103-115。

陳新豐(1999)。多媒體線上適性測驗系統發展之探討。臺灣教育，577，45-48。

陳新豐(2003)。線上題庫等化連結方式之比較。花蓮師院學報，17，153-192。

章舜雯(2002)。題庫變動對電腦適性測驗試題曝光控制參數之影響。中國測驗學 會測驗年刊，49(2)，265-291。

溫玲玉、洪銘建(同撰)(1996)。電腦在測驗與評量上的應用。商業職業教育，66，

38-42。

葉千綺(1999)。測驗電腦化的理論與實務國小教學評量的反省與前瞻。台南師院 測驗發展中心。

鄒慧英(1998)。實作評量的研發---以國小說話課為例。測驗與輔導，149，

3082-3087。

鄒慧英(1999)。多元化的檔案評量。國教之友，51（6）。

熊召弟、田麗娟、陳嘉成、徐喜美(2000)。卷宗評量的設計及應用-以自然科為 例。發展小班教學精神宣導專書 5---「新世紀優質學習的經營」研討會論 文集。國立台南師範學院測驗發展中心。

簡茂發、彭森明、李虎雄、毛連塭、吳清山、吳明清、林來發、黃長司、黃瑞榮、

張敏雪和唐書志（1998）。中小學教師基本素質之分析與評量。台北：台 灣師範大學。教育部委託專案研究。

二、西文部份

Andersen, E. B. (1973). Conditional inference and models for measuring.

Copenhagen:Mentalhygiejnisk Forlag.

Andersen, E. B. (1980) Discrete statistical models with social science applications.Amsterdam: North-Holland.

Baker, F.B. (1977). Advances in item analysis. Review of Educational Research, 47,151-178.

Baker, F. B. (1985). The basics of item response theory. Portsmouth, NH: Heinemann.

Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37, 29-51.

Bock, R. D., & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: An application of an EM algorithm. Psychometriks, 46, 443-459.

Cohen, R. j., Montague, P., Nathanson, L. S., & Swerdlik, M. E. (1988).

Psychalogical testing: An introduction to tests and measurement. Mountain View, CA: Mayfield.

Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory.

New York: Holt, Rinehart & Winston.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.

Psychometrika, 16, 297-334.

Embretson, S. E. (Ed.) (1985). Test design: Developments in psychology and psychometrics. Orlando, FL: Academic.

Freedle, R. (Ed.) (1990). Artificial intelligence and the future of testing. Hillsdale, NJ:

Lawrence Erlbaum Associates.

Fabiano, L. (1999). Measuring teacher qualification. Washington, D.C.: U.S.

Department of Office Educational Research and Improvement.

Guttman, L. (1944). A basis for scaling qualitative data. American Sociological Review, 9,139-150.

Guilford, J. P. (1954). Psychometric methods. New York: McGraw-Hill.

Guion, R. M., & Ironson, G. H. (1983). Latent trait theory for organizational research.

在文檔中國立台東大學教育學系教學科技碩士班 (頁 48-0)

第四章 研究結果與討論

第二節 教師資格檢定考試線上適性測驗系統發展建置

第五章 結論與建議

參考文獻

第四章研究結果與討論

第二節教師資格檢定考試線上適性測驗系統發展建置

第五章結論與建議