國立台東大學教育學系 教學科技碩士班
碩士論文
指導教授:李偉俊 博士
教師資格檢定考試線上適性測驗系統開 發之研究—以教育測驗與教學評量學習
概念為例
研究生:孫瑋廷 撰
中華民國九十九年七月
國立台東大學教育學系 教學科技碩士班
碩士論文
教師資格檢定考試線上適性測驗系統開 發之研究—以教育測驗與教學評量學習
概念為例
研究生:孫瑋廷 撰 指導教授:李偉俊 博士
中華民國九十九年七月
誌謝辭
兩年的碩士時光,轉眼間就過了,在這期間最要感謝李偉俊老師的指導,因 為有李老師的指導讓我的論文能夠順利的完成。李老師在教育以及測驗領域的專 業,以及做學問認真謹慎的態度,更是我學習的楷模,在研究的過程中時常的請 教老師,一步一步的完成內容,可以說是沒有李老師的指導就不會有這研究的完 成。
同時也要感謝郭達源老師與黃振榮老師在論文計畫審查和口試時,詳細的指 出本研究的問題,由於兩位老師寶貴的意見,讓我的論文因此能夠更加的完整。
在研究進行以及撰寫論文的這段時間,要感謝學長姐、同學、學弟妹們的幫 助與關懷,很高興有你們在,對我的論文撰寫有著莫大的助力,不論是格式編排、
內容校閱、題目的整理、系統的建置、測驗的實施,給了相當多的幫助、建議,
我謹在此向你們致上我最深的謝意。
最後我要感謝我父母的支持,沒有他們在我背後默默的關心與鼓勵,我也無 法順利完成學業。在此與大家分享本論文完成後的愉悅心情,最後再次謝謝大家。
瑋廷 謹誌 2010 年 7 月
教師資格檢定考試線上適性測驗系統開 發之研究—以教育測驗與教學評量學習
概念為例
作 者 : 孫 瑋 廷
國 立 臺 東 大 學 教 育 學 系摘 要
本 研 究 目 的 在 以 教 師 資 格 檢 定 考 試 的 測 驗 試 題,並 透 過 測 驗 理 論 和 項 目 反 應 理 論 題 目 分 析 , 建 置 線 上 適 性 測 驗 系 統 , 並 分 析 與 比 較 紙 筆 測 驗 和 線 上 適 性 測 驗 系 統 在 能 力 估 計 的 差 異 情 形 。
本 研 究 先 蒐 集 九 十 四 至 九 十 八 年 教 師 資 格 檢 定 考 的 試 題 , 並 勾 選 其 中 與 教 育 測 驗 與 教 學 評 量 概 念 相 關 之 題 目 , 經 過 重 新 編 制 之 後 進 行 紙 筆 測 驗 , 之 後 將 所 蒐 集 的 測 驗 卷 進 行 資 料 分 析 , 包 含 使 用 TESTER 和 BILOG 軟 體 進 行 試 題 分 析 , 再 以 每 個 題 目 的 難 易 度 及 鑑 別 度 整 理 排 列 , 並 建 置 金 字 塔 式 適 性 排 列 的 線 上 適 性 測 驗 題 庫 。
本 線 上 適 性 測 驗 系 統 使 用 了 Apache、PHP 和 MySQL 這 三
個 軟 體 來 建 置 , 此 系 統 的 好 處 在 於 能 夠 隨 時 進 行 線 上 適 性 測
驗 , 並 且 比 一 般 傳 統 測 驗 還 要 節 省 作 答 題 數 以 及 時 間 。
關 鍵 詞 : 教 師 資 格 檢 定 考 、 電 腦 化 適 性 測 驗 、 線 上 適 性 測 驗 系 統The Research In The Development of the Teacher Qualification Assessment Online Adaptive Testing System –
a case study on the concept of Educational Measurement and Assessment
Wei-Ting Sun
Abstract
The purpose of the study is to establish an online adaptive testing system, through the analysis of the test theory and item response theory, using the test items of Teacher Qualification Assessment. Plus, compare pencil and paper tests with online adaptive testing system to estimate the differences in ability.
For this research, first I collected the test items of Teacher
Qualification Assessment from 2005 to 2009 and then selected some ones related to Educational Measurement and Assessment. After compiling them as pencil and paper tests, I processed data analysis of the collected test papers with the software including TESTER and BILOG.
Third, according to the Difficulty and Discrimination, each question was piled up into a pyramid-like online adaptive testing bank.
The online adaptive testing system uses three kinds of software, the Apache, PHP and MySOL, to build. The benefit of the system is that it can be tested at any time. In addition, not only does it save more time, but it takes fewer questions than the traditional test. .
Keyword : Teacher Qualification Assessment 、 Computerized Adaptive
Testing 、 online adaptive testing system
目 次
第一章 緒論………1
第一節 研究背景與動機………1
第二節 研究目的………3
第三節 名詞解釋………4
第四節 研究範圍與限制………5
第二章 文獻探討………6
第一節 高級中等以下之教師資格檢定的制度特性………6
第二節 電腦測驗的發展和項目反應理論………8
第三節 測驗理論比較與發展………12
第三章 研究方法………16
第一節 研究架構………16
第二節 研究對象………17
第三節 研究程序………18
第四節 資料分析程式………20
第五節 系統開發工具………21
第四章 研究結果與討論………23
第一節 教師資格檢定考試線上適性測驗題庫建置………23
第二節 教師資格檢定考試線上適性測驗系統發展建置………35
第三節 比較傳統紙筆測驗與線上適性測驗之差異………41
第五章 結論與建議………44
第一節 結論………44 第二節 建議………45參考文獻………46
一、 中文部份………46
二、 西文部份………48
附錄………51
附錄一 高級中等以下學校及幼稚園教師資格檢定考試命題總則…………51
附錄二 系統使用的軟體(Apache、PHP、MySQL)………53
附錄三 九十四至九十八年度高級中等以下學校及幼稚園教師資格檢定考試 公開試題(教育測驗與教育評量概念部分試題)………60
附錄四 項目特徵曲線圖與訊息曲線圖………69
表 次
表 2-1 電腦化適性測驗相關研究………9
表 3-1 國立台東大學大學部班級人數統計表………17
表 4-1 D 值說明………24
表 4-2 軟體分析結果統整表………24
表 4-3 正式施測題庫表………26
表 4-4 b 值轉換成百分數………33
表 4-5 分數對照表………34
表 4-6 傳統紙筆測驗與電腦適性測驗比較表………41
表 4-7 成對樣本統計量與檢定結果………42
表 4-8 成對樣本統計量與檢定結果………43
圖 次
圖 3-1 研究架構圖………16
圖 3-2 研究流程圖………19
圖 3-3 本研究線上適性測驗系統開發流程圖………22
圖 4-1 八層金字塔式適性排列的線上適性測驗題庫………32
圖 4-2 教師資格檢定考試線上適性測驗之事項說明………36
圖 4-3 教師資格檢定考試線上適性測驗之初始題………37
圖 4-4 教師資格檢定考試線上適性測驗之輸入學號………38
圖 4-5 教師資格檢定考試線上適性測驗之輸入學號 0000001 測試………39
圖 4-6 教師資格檢定考試線上適性測驗之測驗結果………40
第一章 緒論
第一節 研究背景與動機
一、研究背景
隨著電腦科技及網際網路的快速發展,電腦化測驗早已取代傳統的紙筆測 驗,而GRE 等測驗發展至電腦化適性測驗(computerized adaptive test; CAT) 更是目前的趨勢,因為能夠使用比傳統測驗較少的試題,就能精確地估算受試者 的能力水準。另外由於網路技術的發展成熟,線上課程如雨後春筍般的出現,故 線上適性測驗(online adaptive test)更有其需要性。
本研究主要是結合測驗理論(test theory)、項目反應理論(item response theory; IRT)、網路技術及資料庫管理技術等,建置線上適性測驗系統(online adaptive test system),以提供台東大學大學部學生進行教師檢定測驗的另一 種選擇。藉由本系統能夠達到個別化適性測驗,並能節省測驗的時間而不失測驗 的精準度。本研究特以教師資格檢定試題為例,建置出線上適性測驗系統。
二、研究動機
根 據 國 家 通 訊 傳 播 委 員 會 (NCC)統 計 , 台 灣 寬 頻 帳 號 數 普 及 率 由 92 年 之 12.4%大 幅 提 升 至 97年 11月 之 30.4%(自 95年 9月 起 加 計 3G上 網 戶 ),
各 類 寬 頻 用 戶 數 合 計 由 304.1萬 戶 增 至 700.4萬 戶 , 其 中 ADSL用 戶 由 255 萬 戶 增 至 429.4萬 戶 。 以 目 前 教 育 現 況 來 看 , 我 國 各 類 測 驗 主 要 還 是 以 紙 筆 測 驗 為 主 , 但 是 以 目 前 我 國 的 網 路 發 展 來 看 , 網 路 的 普 及 率 算 是 很 高 , 但 是 並 沒 有 線 上 測 驗 的 國 家 考 試 , 因 此 希 望 藉 由 建 置 此 線 上 測 驗 系 統 , 提 供 台 東 大 學 大 學 部 學 生 進 行 教 師 檢 定 測 驗 的 另 一 種 選 擇 。 此 為 研 究 者 研 究 動 機 之 一 。
此 外,由 於 電腦化適性測驗能夠使用較少的試題,就能精確地估算受試者 的能力水準,結合項目反應理論可以實施個別化適性測驗,並能精確分析各試題 的特性,測驗的評分更為客觀及公正,希望能以線上適性測驗系統蒐集學生作答 訊息以進行分析。此 為 研 究 者 研 究 動 機 之 二 。
因為電腦化適性測驗可以應用在不同功能的測驗,例如「分級測驗」
(placement tests)、「成就測驗」(achievement tests)、「能力測驗」(proficiency
tests)和「診斷測驗」(diagnostic tests)等,如果在電腦程式設計時搭配良好 的題目編碼(item codes),除了能做分級測驗外,也可以概略知道學生在那一方 面的單元較弱,可以提供日後授課老師教學之改進。此 為 研 究 者 研 究 動 機 之 三 。
第二節 研究目的
基於以上的問題背景與研究動機,本研究擬定的研究目的如以下所述:
一、 以教師檢定資格考試的測驗試題(本研究將以心理教育測驗和教學評量 概念為主),透過 CTT 和 IRT 題目分析建置線上適性測驗題庫系統。
二、 以 Apache、PHP 和 MySQL 程式設計開發教師檢定資格考試線上適性測驗 系統。
三、 以台東大學大學部學生為施測對象,分析與比較傳統紙筆測驗和線上適 性測驗系統在能力估計的差異情形。
第三節 名詞解釋
一、 教師資格檢定考
高級中等以下學校及幼稚園教師資格檢定考試,簡稱為教師資格檢定考,
是中華民國教育部在師資培育制度上的一大變革,逐步停止實習教師在中、小 學及幼稚園教師實習一年並領有津貼的制度(舊制),改為實習學生在上述學校 實習半年並支付四學分實習學分費的制度(新制)。
由於政府浮濫開放教育學程,造成舊制實習津貼超出預算,故設計出新制 實習。此制度在教育實習上有三大改變:第一為身份的改變,在舊制中,實習 者被稱為實習教師;在新制中被改為實習學生。第二即停止實習津貼發放,舊 制實習教師每月由教育部發下新臺幣八千元津貼,新制實習學生則無權得到津 貼,並須支付支付四學分實習學分費。第三為實習時間的縮減,舊制實習教師 須得實習一年,始得教師證書,新制實習學生改為實習半年,但必須經過教師 資格檢定考,通過者始可獲教師證書。
此考試有意建立教師證照考試制度,自此,若要在臺灣擔任中、小學及幼 稚園教師,必須在修畢各類科教師師資職前教育之後,通過這項考試,以取得 教師證書,以示完整師資培育課程業已修畢。
本考試一年一考,通常以當年度的四月一日或三月三十一日進行,於 2005 年首次舉辦後,已舉辦五次。應考人通過教師資格檢定考取得教師證後,應考 人即成為正式教師,即可參加臺灣各縣市或各校獨招的教師甄試。
二、 電腦化適性測驗(Computerized Adaptive Testing)
所謂的適性測驗呢,就是在測驗的初始給予受測者難度相等的考題,再根據 受測者的答題表現,調整下一個題目的內容,根據不同能力的受測者會給予不同 難度的題目,電腦適性化測驗最大的優點就是能運用最少的題目測出受測者的真 正能力。電腦適性化測驗的發展重點在於題庫的建立,題庫的建立是既費時又費 力的工作,再加上需要複雜的運算與線上即時的能力,所以運算速度的快慢將會 影響到施測的速度,這些因素都是需要系統設計者依照測驗的需求來決定。
三、 線上適性測驗系統(online adaptive testing system)
線上適性測驗系統是結合適性測驗以及網際網路的一種測驗系統,系統管理 者將測驗題庫安裝於平台的資料庫內,使用者即可經由網路隨時進行自我檢測。
第四節 研究範圍與限制
一、 研究範圍
本研究之對象以國立台東大學大學的學生,選修大二共選、大四共選 教育 測驗與評量教育專業課程的學生。計有社教系、語教系、特教系、教育系、美勞 系、自教系等共 92 人。
本研究將針對以上對象進行「民國 94 至 98 年度高級中等以下學校及幼稚園 教師資格檢定考試」之國民小學試題傳統紙筆測驗與線上適性測驗。
二、 研究限制
本研究只探討國立台東大學大學部的學生在傳統紙筆測驗與線上適性測驗 的得分情形,不宜推論到非國立台東大學大學部的學生。
本研究測驗內容僅以民國 94 年度至 98 年度高級中等以下學校及幼稚園教師 資格檢定考試之國民小學試題中教育測驗與教學評量學習概念為範圍,不宜推論 至其他學習概念的試題內容。
第二章 文獻探討
第一節 高級中等以下之教師資格檢定的制度沿革
一、教師專業與教師資格檢定
教師從事育人的工作,必須具備一定的專業素養和知能,才能勝任愉快。
Shulman(1986)提出教師內容知識分為三部分:
一、學科內容知識(subject matter content knowledge):理解學科內容架構 知識和不同組織教材方式。
二、教學內容知識(pedagogical content knowledge):理解學科內容教學方 法與技巧。
三、課程知識(curricular knowledge):理解教學材料、教科書、軟體、教學 方案。基於這些知識與教師是否能勝任其教學工作息息相關,所以Shulman 特別指出:
假如這些教師知識的觀念可以做為教師學科內容知識測驗的基礎,那麼這項的測 驗應該深入測量學科內容和架構知識,以及與學科內容的相關教學知識和學科本 身的課程知識,有了這種測驗的形式,才能適切評估專業能力。」(Shulman, 1986:
10)
依此而論,教師檢定之目標和形式,應該考量教師專業知識的評量,尤其對 於學科的架構及組織、學科教材、學科教學等方面的知識,在教師檢定是有其重 要性。
國內簡茂發等人(1998)從事「中小學基本素質分析與評量」研究發現,中 小學教師基本素質包括下列五大項:一、普通素養:人文素養和科技素養;二、
專業知能:專業知識(含理論基礎、課程與教材、教育方法、教育管理、學習與 發展)、專業能力(含教學能力、教學計畫與準備、教學實施、教學評量、輔導 能力、行政能力、參與校務能力、主持班務能力、溝通能力、語文表達、社會技 巧、研究能力);三、專業態度(含教育信念、教育態度);四、人格特質;五、
專門學科知能。其中前四項在該研究有實證性支持。
基本上,教師資格檢定,要能達到其選才的效果,將來能夠在實際的教育職 場發揮功能,不管是檢定的目標、方式和內容,都要以教師專業為基本的考量。
平心而論,教師資格檢定涉及到教師專業與素質的測量,是一個相當複雜、多面 向的過程,所以要建立一套大家所共同接受的資格檢定方式,的確是相當不容易 的一件事。
Fabiano(1999)曾將美國教師資格測量分為四大範疇:
一、 能力或性向:標準化能力測驗,例如:學術性向測驗(SAT)或國家教師考
試(National Teacher Examination)和系列測驗的第一部分(Praxis I,
測量讀、寫、算等能力)。
二、內容知識:例如:系列測驗的第二部分(Praxis II)、美國研究生入學考 試(GRE)學科測驗分數、修習課程的數量與類型、修習學分、大學或研究 所的主修與副修。
三、教學知識:教學知識之測量要比內容知識更為複雜,主要有:全國專業教學 標準委員會(National Board for Professional Teaching Standards , NBPTS)的認證、系列測驗的第三部分(Praxis III)--班級實作評量、州 際新教師評量和支持協會(Interstate New Teacher Assessment And Support Consortium, INTASC)的教學知識測驗。
四、教學證件:包括學位證書、學位證書頒授機構,整個學業成就。
所以,在美國一位初任教師要取得合格教師證書,各州方式不一,至少需 具備下列的條件:
1. 至少具有學士學位,在有些州,還需學士後的第五年或碩士學位。
2. 完成經認可的師資培育課程。
3. 必須有主修或副修(針對小學)。
4. 必須有任教學科主修(針對中學)。
5. 具有高度的人文藝術基礎。
6. 通過州規定的考試,例如:系列測驗或其他測驗(How to Become a Teacher, nodate)。各州測驗的情形,不外乎有下列的測驗:一、基本 能力測驗;二、學科測驗;三、教學知識測驗;四、教學實作評量。
因此,國內未來教師資格檢定,不管採取何種方式,基本的考量就是要能測 量出教師的專業知能,使其取得合格教師之後,能夠在未來的教育職場上得心應 手,駕輕就熟,遊刃有餘。
第二節 電腦測驗的發展和項目反應理論
本節將分別探討電腦測驗的發展階段和項目反應理論的基本概念以及電腦 化適性測驗相關研究。
一、 電腦測驗的發展
電腦技術的快速發展,帶動了電腦化測驗的興起,電腦測驗的發展可以分成 四個階段(王淑敏、邱美秀、柳玉清等譯,1997;林鴻源,1999;葉千綺,1999):
1.電腦化測驗(Computerized Testing,CT)
單純的將傳統的紙筆測驗應用到電腦上,改進的重點僅在於是題目的呈現技 術的開發,例如文字、圖形如何呈現在螢幕上,近年來由於多媒體的發展,逐漸 加入聲音與動畫。另外一個重點在於如何管理題目、題庫與資料庫的應用,提供 測驗的編製和列印是電腦化測驗系統開發時主要的問題。
2.電腦化適性測驗(Computerized Adaptive Testing,CAT)
所謂的適性測驗呢,就是在測驗的初始給予受測者難度相等的考題,再根據 受測者的答題表現,調整下一個題目的內容,根據不同能力的受測者會給予不同 難度的題目,電腦適性化測驗最大的優點就是能運用最少的題目測出受測者的真 正能力,在美國的GRE(Graduate Record Examination)就是屬於這一類的電腦化 測驗。電腦適性化測驗的發展重點在於題庫的建立,題庫的建立是既費時又費力 的工作,再加上需要複雜的運算與線上即時的能力,所以運算速度的快慢將會影 響到施測的速度,這些因素都是需要系統設計者依照測驗的需求來決定。
3.連續性測驗(Continuous Measurement,CM)
除了具有適性測驗的特點外,連續性測驗是與教學場景互相的結合,試題的 安排是出現在課程中的,並強調測驗是用來監控學生學習,所以連續性測驗的重 點在於開發多元化的試題與作業,所以需要投入更多的心力。
4.智慧型測驗(Intelligent Measurement,IM)
智慧型測驗,不但可以建立學生個人的學習模式,還可以進行個人學習成長 的追蹤,並且提供即時的補救建議與個體的分析,這樣的測驗使得教學與評量能 夠充份的配合,提供最佳的學習環境。但是智慧型測驗的開發,除了遇到連續性 測驗所遇到的問題外,還需要建立專家的知識庫與個人學習模式,所以不但需要 花費更多心力,更要與具有此一方面電腦專業素養的專家通力合作才能完成。
二、項目反應理論
項目反應理論(Item Response Theory ,IRT),主要用於適性化測驗上面,
最近幾年已經普遍使用於許多的大型測驗上,像TOEFL 也是採用項目反應理論來 建立適性化測驗,另外項目反應理論也廣泛用於其他領域,例如能有效的做醫療 上的智能評估(Teresia ,2006)。以下說明項目反應理論的基本概念如下
( Hambleton & Swamination ,1985):
1.受試者在某測驗試題上的表現情形,可由一組因素來加以預測或解釋,這 組因素稱為潛在特質(latent traits)或能力(abilities),用θ 代表, θ 的 測量值是放在中心點為0、單位為1 的尺度上, θ的可能值介於∞到− ∞之間,
但實務上大多介於-3 到3 之間。
2.受試者的表現和這組潛在特質之間的關係,可透過一條連續嚴格遞增 (monotonically increasing)的函數來加以詮釋,此函數稱為項目特徵函數 (item characteristic function; ICF),而把不同能力的學生在某項目(item) 的得分期望連結成線,此曲線稱為項目特徵曲線(item characteristic cure;
ICC)。
3.項目反應理論的目的在於提供能力的估計值(θ)且具有群體不變性 (group invariance)。由於IRT 是針對古典測驗理論的缺失而發展出來的,所以 它還有下面幾項特色( Hambleton & Swamination ,1985):
(1)在受試母群中,項目參數估計值是不受取樣波動(sampling fluction) 的影響,不同的取樣結果,只呈現ICC 的局部區間,連結了不同的取 樣結果,則可呈現完整的ICC 圖。
(2)在試題的選擇中,受試者能力估計值不受取樣波動的影響。
(3)受試者能力可以確切估計求出。
三、電腦化適性測驗相關研究
根據教育論文線上資料庫搜尋有關於電腦化適性測驗的相關研究。
表 2-1 電腦化適性測驗相關研究
研究者 年代 電腦適性測驗相關研究內容 洪碧霞、
吳鐵雄
1989 對我國大專聯考電腦適性化的可能作一初探.
表 2-1 電腦化適性測驗相關研究(續)
研究者 年代 電腦適性測驗相關研究內容
洪碧霞 1989 以 76 年大專聯考英文科及生物科選擇題的題目參數特 質為基礎, 產生英文科及生物科模擬題庫, 對電腦化適 性測驗 (CAT)計分方法中的方法選擇、先前分配標準 差及起始點的決定在不同的測驗長度下所產生的影響做 一系統的探討
何榮桂 1991 探討題庫中不同項目參數分配型態對電腦化適性測驗選 題的影響。
吳裕益 1991 探討電腦化適性測驗與傳統測驗之比較:(一)測驗精確 性;(二)測驗情境標準化,主試者效應之控制、計分客 觀性及材料保密性;(三)作答動機與態度;(四)提供測 驗過程的訊息。
溫玲玉、
洪銘建
1996 探討電腦測量結果的解釋、電腦應用在測量上的倫理問 題。
陳新豐 1999 探討結合網路與教育測量的理論,突破傳統測驗的時空 限制。
章舜雯 2002 針對使用 SLC 試題曝光控制法,探討淘汰單一試題以及 不曾被選用施測試題之後,對於題庫存留試題之試題曝 光控制參數可能造成的影響,整個研究採電腦程式模擬 電腦適性測驗程序進行。
孫光天、
楊振印
2002 提出一套分散式多媒體題目編輯與適性測驗系統,讓各 地教師可藉此直接編製測驗,並且設計一個自動化題目 相似性檢查系統。
朱錦鳳 2002 應用 IRT 單參數模式選題及評估學生能力,並以學生學 業成績為效標,驗證其效度及分析再測信度。
陳新豐 2003 結合試題反應理論、題庫等化,探討線上題庫等化連結策 略之優劣,以提供建置電腦化線上適性測驗系統之基礎 條件,並且連結不同的時間點所收集的線上題庫,進行題 庫等化連結,並比較其連結效益。
表 2-1 電腦化適性測驗相關研究(續)
研究者 年代 電腦適性測驗相關研究內容 陳柏熹、
王文中
2004 使用三種曝光率控制(嚴格控制、寬鬆控制、不控制)對 2001 年國中基本學力測驗之資料進行不同終止題數的 題間多向度電腦化適性測驗(BMCAT)。
陳淑英 2004 探討如何藉著機率理論來推導試題曝光率及能力估計精 確度,並以此推導出的結果來評估電腦模擬研究在三個 不同模擬次數下(100、500 及 1,000)的效率及準確性。
陳建宏 2004 藉由教師課堂上課搭配使用 Web 線上測驗系統,使得教 師可以設定及掌握學生的學習進度,即時得知學生的學 習狀況,藉此調整教學目標、教學方法、教學進度及命 題難度。
陳柏熹 2006 分析不同能力估計方法對多向度電腦化適性測驗 (multidimensional computerizedadaptive testing,MCAT)測量精準度的影響。
第三節 測驗理論比較與發展
一、測驗理論的兩大派別
測驗理論(test theory) 是一種解釋測驗資料間實證關係(empirical relationships)的有系統的理論學說,此理論的發展,迄今已邁入不同的新紀 元,測驗理論學者通常把它劃分成二大學派:一為古典測驗理論 (classical test theory)——主要是以真實分數模式(true score model) 為骨幹
(Gullikson, 1987; Lord & Novick, 1968);另一為現代測驗理論——主要是以 項目反應理論(item response theory) (Hambleton & Swaminathan, 1985;
Hambleton, Swaminathan, & Rogers, 1991; Hulin, Drasgow, & Parsons, 1983;
Lord, 1980)為架構。這兩派理論目前並行流通於測驗學界,但項目反應理論卻 有後來居上,逐漸凌駕古典測驗理論之上,甚至進而取而代之之勢(余民寧 , 2001)。
二、兩派測驗理論之比較
比奈-賽門的第一個心理測驗問世後,正是心理計量學誕生之始,後經諸多 學者(如:Cronbach, 1951; Guilford, 1954; Gullikson, 1987; Guttman, 1944;
Lord & Novick, 1968; Richardson, 1936; Terman, 1916; Thurstone, 1929;
Tucker, 1946)的研究與闡述,終於歸納形成古典測驗理論等學說。
古典測驗理論的內涵,主要是以真實分數模式(亦即,觀察分數等於真實分 數與誤差分數之和,數學公式為 )為理論架構,並依據弱勢假設(weak assumption)而來,其理論模式的發展已為時甚久,且發展得相當規模,所採用 的計算公式簡單明瞭、淺顯易懂,適用於大多數的教育與心理測驗資料,以及社 會科學資料的分析,為目前測驗學界使用與流通最廣的理論依據。
然而,除上述各項優點外,古典測驗理論卻有下列諸項先天的缺失(Guion &
Ironson, 1983; Wright, 1977):
1. 古典測驗理論所採用的指標,諸如:難度(difficulty)、鑑別度
(discrimination)、和信度(reliability)等,都是一種樣本依賴(sample dependent)的指標;也就是說,這些指標的獲得會因接受測驗的受試者樣 本的不同而不同,因此,同一份試卷很難獲得一致的難度、鑑別度、或信 度。
2. 古典測驗理論以一個相同的測量標準誤(standard error of
measurement),作為每位受試者的測量誤差指標,這種作法並沒有考慮受 試者能力的個別差異,對高、低能力兩極端組的受試者而言,這種指標極 為不合理且不準確,致使理論假設的適當性受到懷疑。
3. 古典測驗理論對於非複本(nonparallel)但功能相同的測驗所測得的分數 間,無法提供有意義的比較,有意義的比較僅侷限於相同測驗的前後測分 數或複本測驗分數之間。
4. 古典測驗理論對信度的假設,是建立在複本(parallel forms)測量的概念 假設上,但是這種假設往往不存在於實際測驗情境裡。道理很簡單,因為 不可能要求每位受試者接受同一份測驗無數次,而仍然假設每次測 量間 都彼此獨立不相關,況且,每一種測驗並不一定同時都有製作複本,因此 複本測量的理論假設是行不通的,從方法學邏輯觀點而言,它的假設也是 不合理的、矛盾的。
5. 古典測驗理論忽視受試者的試題反應組型(item response pattern),認 為原始得分相同的受試者,其能力必定一樣;其實不然,即使原始得分相 同的受試者,其反應組型亦不見得會完全一致,因此,其能力估計值應該 會有所不同。
一般說來,為了克服古典測驗理論的缺失,才有現代測驗理論的誕生。現代 測驗理論的內涵,主要是以試題反應理論為理論架構,並依據強勢假設(strong assumptions)而來,其理論的發展為時稍晚,理論模式也不斷的在發展當中,所 採用的計算公式複雜深奧、艱澀難懂,為一立論與假設均合理與嚴謹的學說,所 適用的測驗資料種類雖屬有限,但深受測驗學者的青睞,已有逐漸凌駕古典測驗 理論之上,甚至進而取而代之之勢。
當代測驗理論是為改進古典測驗理論的缺失而來,它具有下列幾項特點,這 些特點正是古典測驗理論所無法具備的(Hambleton, 1989; Hambleton & Cook, 1977; Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Lord, 1980):
1. 當代測驗理論所採用的試題參數(item parameters)(如:難度、鑑別度、
猜測度等),是一種不受樣本影響(sample-free)的指標;也就是說,這 些參數的獲得,不會因為所選出接受測驗的受試者樣本的不同而不同。
2. 當代測驗理論能夠針對每位受試者,提供個別差異的測量誤差指標,而非 單一相同的測量標準誤,因此能夠精確推估受試者的能力估計值。
3. 當代測驗理論可經由適用的同質性試題組成的分測驗,測量估計出受試者 個人的能力,不受測驗的影響(test-free),並且對於不同受試者間的分 數,亦可進行有意義的比較。
4. 當代測驗理論提出以試題訊息量(item information)及試卷訊息量(test information)的概念,來作為評定某個試題或整份試卷的測量準確性,倒 有取代古典測驗理論的「信度」,作為評定試卷內部一致性指標之勢。
5. 當代測驗理論同時考慮受試者的反應組型與試題參數等特性,因此在估計 個人能力時,除了能夠提供一個較精確的估計值外,對於原始得分相同的 受試者,也往往給予不同的能力估計值。
6. 當代測驗理論所採用的適合度考驗值(statistic of goodness-of-fit),
可以提供考驗模式與資料間之適合度、受試者的反應是否為非尋常 (unusual)等參考指標。
綜合上述,現代測驗理論似乎是絕對優於古典測驗理論,但是事實上,現代 測驗理論被採用於解決真實測驗資料者,比起古典測驗理論廣泛地被應用的情形 而言,尚屬少數。其主要原因有下列諸點:
1. 當代測驗理論係建立在理論假設嚴謹的數理統計學機率模式上,是一種複 雜深奧、艱澀難懂的測驗理論,這對於在數學方面訓練有限的教育與心理 學界學者而言,無非是一大挑戰。閱讀有關此理論之數學方面的研究報告 與專書,已頗感困難,實在更難以深入將之發揚光大。
2. 多數當代測驗理論學者都是出身自數學界或曾是數學主修者,或至少在數 理統計學上訓練有素者,他們偏愛對理論模式的探討,遠勝於對實際應用 的推廣工作。
3. 過去,電腦科技的進步有限,沒有電腦套裝軟體程式的即時配合,當代測 驗理論中對模式參數的估計,難以用手算或小型計算機順利進行,因此,
在應用上更受限制。
4. 有些古典測驗理論的擁護者,對當代測驗理論的研究與發展,所能獲致之 成效與應用性深表懷疑。為了證明與解釋疑惑,當代測驗理論學派的支持 者,便更朝理論模式的量化技術方面探討,致使當代測驗理論的發展愈趨 數學化、數量化、與電腦化。
5. 礙於嚴苛的基本假設,當代測驗理論所能適用的教育與心理測驗資料有 限,並且需要大樣本的配合,因此使得它的應用性大打折扣,未獲一般測 驗使用者的全力擁護。
由上述兩派測驗理論的比較可知,古典測驗理論雖然不夠嚴謹,但理論淺顯 易懂,便於在實際測驗情境中來實施;現代測驗理論雖然嚴謹,但理論艱深難懂。
所以,這兩派測驗理論各有所長,在應用上也各有其限制。
三、測驗理論的發展趨勢
自從 Lord(1980)發表第一本以「試題反應理論」為名的專書後,現代測驗 理論正式以試題反應理論為其中心架構;在此之前,試題反應理論有個別稱:「潛 在特質理論」(latent trait theory),由於潛在特質理論一詞還包括「因素分 析」(factor analysis)、「多元度量法」(multidimensional scaling)、與「潛 在結構分析」(latent structure analysis)等,由於涵蓋面甚廣,無法精確反
應出受試者在試題上的反應狀況,因此,自 Lord 發表專書後,項目反應理論於 是正式正名且宣告誕生。所以自 1980 年後,測驗學者逐漸以項目反應理論為現 代測驗理論的代表。
項目反應理論雖然自 1980 年才正式正名成立,然而在 30 和 40 年代,項目 反應理論便已有初步的理論架構。其中,Tucker(1946)便是第一位使用「項目特 徵曲線」(item characteristic curve,簡稱 ICC)一詞的心理計量學家,這 一名詞也逐漸成為項目反應理論的中心概念。
其實,隨著近年來人類在電腦科技上的突飛猛進,各種適用於項目反應理論的電 腦軟體程式(例如目前最常用也最有名的程式 BILOG 和 LOGIST 等)相繼誕生與 再版修訂,已使得美國很多研究機構、地方政 府機關、和私人團體,都率先採 用試題反應理論作為他們編製測驗、施測、計分、解釋、與提供諮詢服務的依據。
此外,現代測驗理論的發展趨勢不外朝理論的發展愈趨數學化與理論的應用 愈依賴電腦同步進行。相信在可預期的將來,測驗理論的使用者必須同時具備數 學與電腦方面的良好訓練,方能對試題反應理論的瞭解與應用駕輕就熟,而測驗 理論在愈趨專業化、專家化後,也唯有在專家 或專家指導下方能推廣應用項目 反應理論,不過照目前的發展趨勢來看,項目反應理論要取代古典測驗理論是指 日可待的事。
第三章 研究方法
本章共分為五小節,第一節研究架構,第二節研究對象,第三節研究程序,
第四節資料分析,第五節系統開發工具。
第一節 研究架構
本研究以「教師資格檢定考試線上適性測驗系統開發之研究—以教育測驗與 教學評量學習概念為例」為主題進行研究。前章進行文獻探討,作為本研究的理 論基礎,形成初步研究架構(參見圖 3-1)。
圖 3-1 研究架構圖
第二節 研究對象
本研究之對象以國立台東大學大學部大二級大四的學生,包含教育系、語 教系、社教系、體育系、幼教系、美教系、特教系、自教系、數學系、應用系、
資工系、資管系、生科系、英美系、華語系、音樂系、美術系、心動系,自由 選修 98 學年度第二學期大二共選和大四共選「教育測驗與評量」課程之學生。
表 3-1 國立台東大學大學部班級人數統計表
教育系 4 班 175
語教系 1 班 47
社教系 4 班 176 體育系 4 班 184 幼教系 4 班 185
美教系 1 班 53
特教系 4 班 175 自教系 2 班 114 數學系 4 班 203 應用系 4 班 219 資工系 7 班 379 資管系 4 班 229 生科系 3 班 164 英美系 4 班 228 華語系 4 班 229 音樂系 4 班 132 美術系 3 班 153 心動系 3 班 156 大學部 33 班 3201 人
文 學 院
系 班級 人數
國立臺東大學九十八學年度第一學期
師 範 學 院
理 工 學 院
大學部:班級/人數統計表
第三節 研究程序
為蒐集研究資料,本研究蒐集「九十四至九十八年度高級中等以下學校及幼 稚園教師資格檢定考試」的國民小學部分試題,其中所勾選的試題是與測驗評量 概念相關之題目,經過重新編製之後進行紙筆測驗,施測對象為國立台東大學大 一至大四學生,之後將所蒐集的測驗卷進行資料分析,包含CTT以及IRT分析,接 著開發線上適性測驗系統,在系統完成之後進行實際上線測驗,最後將測驗結果 進行比較分析並撰寫研究報告,本研究的研究流程圖如圖3-2所示。
蒐集
94-98年五年的考古題 1.教育原理與制度 2.兒童發展與輔導 3.國民小學課程與輔導
編製成 紙筆測驗(45題)
由學者專家進行專業審題並勾選出 與測驗評量概念相關之題目
(99年3月) 施測
國立台東大學大二和大四學生 (前測)
(99年4月) 資料分析 CTT分析 IRT分析
(99年5月) 開發
線上適性測驗系統
(99年6月) 測驗
線上適性測驗系統 (後測)
結果 分析
撰寫研究報告
圖 3-2 研究流程圖
第四節 資料分析程式
一、CTT題目分析:TESTER
TESTER for Windows 程式 2.0 版可執行古典測驗理論(CTT)下的試題分析、
測驗分析、和學生問題表分析。
本程式使用的最大容量範圍限制:學生數在 10000 人以內、試題數在 250 題以內、5 個選項以內的單選題之選擇型試題、且每題的輸入資料格式必須是數 值型(numerical)的作答反應資料(例如:即使選項為 A、B、C、D 的文字格式,
也必須轉成 1、2、3、4 的數字格式來輸入)。此外本程式的 S-P 表繪圖功能,僅 限於學生數 60 人、試題數在 50 題以內的資料,才能啟動使用。
利用 TESTER for Windows 2.0 版程式進行 S-P 表分析,計算注意係數與判 定類別。根據學生的注意係數當作橫軸,學生得分之百分比當作縱軸,繪製學生 診斷分析圖,並將學生的學習狀況分為六大類:學習穩定型(A)、粗心大意型
(A')、努力不足型(B)、欠缺充分型(B')、學力不足型(C)與學習異常型(C'), 這六種種學習類型各有不同的學習特性(余民寧,2002)。
二、IRT 題目分析:BILOG-MG
BILOG 是二元試題 logistic 模式的題目分析和測驗統計(item analysis and test scoring with binary logistic model),適用於二元計分試題的傳統及 IRT 題目分析。由於 BILOG 同時兼具傳統及題目反應理論之題目分析功能,而且 使用者可作的選擇很多,又可同時分析多個分測驗,是一個相當好用的題目及測 驗分析軟體。
第五節 系統開發工具
一、Apache 簡介
Apache 是 Linux 系統上最廣泛用來架設 WWW 伺服器的架站軟體,由 Apache Group 在開發維護,1999 年 6 月 30 日成立 Apache Software Foundation。從原 本的業餘玩家所組成的 Apache Group,到現在有幾家主要的公司如 IBM、Sun Microsystem、Oracle 等在背後支持後續的計畫,使得 Apache 伺服器可以持續 的發展。
Apache Server 服務的對象:
1. 若您的機關單位的 Web Server 需要提供個人網頁空間,也需要對個人網頁空 間的大小做限制,選用 Linux+Apache 將是最佳的抉擇
2. 企業團體及教育單位用來作為 Web Server 的最佳利器 二、PHP 簡介
PHP 的全名為 Hypertext Preprocessor,它是個被廣泛運用在網頁程式撰寫 的語言,尤其是它能適用於網頁程式的開發及能夠嵌入 HTML 文件之中,它的語 法和 C、Java 及 Perl 等語法相似,且學習起來更容易上手。PHP 的目地是為了 能使網站開發者可以快速地撰寫動態網頁。
PHP 的程式碼是在伺服器上執行,所以如果你將類似上面範例的程式放在你 的伺服器上執行的話,用戶端所獲得的是程式執行之後的結果,因此用戶端無法 知道程式碼的內容是什麼。
三、MySQL 簡介
“MySQL”中的 SQL 代表“Structured Query Language”(結構化查詢語 言)。一個數據庫是一個結構化的數據集合。它可以是從一個簡單的銷售表到一 個美術館、或者一個社團網絡的龐大的信息集合。如果要添加、訪問和處理存儲 在一個計算機 數據庫中的數據,你就需要一個像 MySQL 這樣的數據庫管理系 統。從計算機可以很好的處理大量的數據以來,數據庫管理系統就在計算機處理 中和獨立應用程序 或其他部分應用程序一樣扮演著一個重要的角色。
四、系統設計
本研究的系統設計將會用到 Apache、PHP、MySQL 這三個軟體。本研究的系 統開發流程說明如圖 3-3 所示。
開始
受試者(學生) 前端 後端
題庫
測驗說明
初始題
金字塔選題策略 選題
受試者作答
估計能力值
終止條件 是否滿足
顯示測驗結果 (學號)(級分)
結束測驗 YES
NO
輸入學號
資料庫
記錄 ID(學號)、級分
圖 3-3 本研究線上適性測驗系統開發流程圖
第四章 研究結果分析
本研究目的在開發一個「教師資格檢定考試線上適性測驗系統」,以提供教 師一個增進教學效能的輔助工具,並能幫助學生量身訂做一個適合個人能力的測 驗。本章的重點在於題庫的建置,利用金字塔式的適性排列設計成符合學生能力 的適性題庫,還有教師資格檢定考試線上適性測驗系統的開發,最後並比較紙筆 測驗與線上適性測驗之差異。
第一節 教師資格檢定考試線上適性測驗題庫建置
本題庫測驗的建置利用 TESTER 2.0 以及 Bilog MG 3.0 來進行題目的篩選分 析,再與適性測驗整合,成為符合學生能力的教師資格檢定考試線上適性測驗題 庫。
一、初試題庫建置過程
在試題方面,此測驗中的題目皆為「民國 94 至 98 年度高級中等以下學校及 幼稚園教師資格檢定考試」中的題目所選出來,並從「國民小學課程與教學」、「兒 童發展與輔導」、「教育原理與制度」三科目中挑選與「教育測驗與評量」相關的 題目,挑選過後,共有單選選擇題四十五題。
二、紙筆題庫初試結果分析
分為以下「受試樣本」、「分析軟體」以及「試題分析」三部分。
1. 受試樣本
紙筆測驗題庫初試的樣本為有修習「教育測驗與評量」的學生,包含大二共 選、大四共選(班級) 教育測驗與評量(科目) 教育專業課程(類別)有社教系、語 教系、特教系、教育系、美勞系、自教系,受試者共有 84 人。
2. 分析軟體
使用 TESTER for Windows 程式 2.0 版軟體、Bilog MG 3.0 軟體
3. 試題分析
由 tester 2.0 軟體執行後的報表中刪除鑑別度不佳的題目,先將 tester 2.0 的測驗結果中 D≦0 的先刪除,共有第三題(D=-0.0952)、第十五題
(D=-0.0476) 、第二十題(D=-0.0476)、第三十八題(D=0.0000)。
表 4-1 D 值說明
-1.00≦D 值≦+1.00 說明
D 值愈大 表示鑑別度愈大。
D 值>0
D 值愈小 表示鑑別度愈小。
D 值=0 表示沒有鑑別度,可能是因為試題太容易或太艱難,
使得所有人均答對或均答錯,或是題目不清,題目宜 刪除。
D 值<0 表示低分組學生答對百分比高於高分組,此為沒有鑑 別度的題目,應刪除。
用 BilogMG3.0 軟體分析結果之後,將古典 CTT 分析中點二相關和二系列相 關<0 的題目做第二次篩選,共有第八題、第九題、第三十三題、第三十六題,
並驗證第一次刪除的第三題、第十五題、第二十題、第三十八題中的點二相關和 二系列相關也都是<0,因為我所要做的測驗是金字塔測驗,所需要的題數為 36 題,可分為八個階層,也就是總題數 36 題的測驗只需要做 8 題測驗即可,在第 一次刪除 4 題以及第二次刪除 4 題之後還會多出一題,因此將古典 CTT 分析中點 二相關和二系列相關最接近 0 的題目刪除,此題為第二十八題,最後留下 36 題 作為教師資格檢定考試線上適性測驗題庫,並將軟體分析結果整理成下表 4-2:
表 4-2 軟體分析結果統整表
題 號
人 數
難度 鑑別度 類
別 答對 率
點二相 關
二系列 相關
a b c 決
策 01 84 0.8810 0.1429 A’ 89.29 0.121 0.203 0.583 -2.137 0.208 02 84 0.5238 0.1905 B’ 44.05 0.094 0.119 0.624 1.573 0.279 03 84 0.0952 -0.0952 B’ 13.10 -0.110 -0.174 刪 04 84 0.3095 0.0476 B’ 28.57 0.138 0.183 0.856 1.953 0.203 05 84 0.4524 0.4286 A’ 54.76 0.215 0.270 0.597 0.344 0.208 06 84 0.7381 0.4286 A 67.86 0.262 0.342 0.776 -0.318 0.224 07 84 0.1667 0.2381 B’ 20.24 0.139 0.198 0.877 2.506 0.166 08 84 0.3810 0.0952 B’ 40.48 -0.112 -0.142 刪
表 4-2 軟體分析結果統整表(續)
題 號
人 數
難度 鑑別度 類
別 答對 率
點二相 關
二系列 相關
a b c 決
策 09 84 0.3333 0.1905 B’ 39.29 -0.014 -0.018 0.389 2.052 0.218 刪 10 84 0.6429 0.3333 A’ 55.95 0.147 0.185 0.648 0.637 0.282 11 84 0.2857 0.1905 B’ 26.19 0.126 0.170 0.672 2.117 0.171 12 84 0.6905 0.6190 A 59.52 0.340 0.431 0.973 0.078 0.218 13 84 0.4524 0.2381 B’ 44.05 0.041 0.052 0.532 1.881 0.289 14 84 0.2619 0.4286 B 25.00 0.335 0.457 1.189 1.408 0.146 15 84 0.6905 -0.0476 A’ 72.62 -0.054 -0.072 0.339 -1.006 0.231 刪 16 84 0.4524 0.4286 B’ 42.86 0.257 0.324 0.665 0.984 0.199 17 84 0.2857 0.2857 B’ 26.19 0.242 0.326 0.741 1.914 0.165 18 84 0.5000 0.2381 B’ 48.81 0.056 0.070 0.440 1.066 0.230 19 84 0.2619 0.2381 B’ 23.81 0.170 0.234 0.960 2.179 0.185 20 84 0.0714 -0.0476 B’ 10.71 -0.128 -0.215 刪 21 84 0.6429 0.3333 A’ 65.48 0.148 0.191 0.478 -0.308 0.216 22 84 0.3333 0.2857 B’ 30.95 0.186 0.243 0.830 1.875 0.215 23 84 0.5714 0.0952 A’ 58.33 0.019 0.024 0.411 0.626 0.275 24 84 0.3571 0.2381 B’ 29.76 0.118 0.156 0.602 2.387 0.210 25 84 0.2857 0.2857 B’ 26.19 0.162 0.219 0.829 2.269 0.201 26 84 0.6667 0.1905 A’ 66.67 0.035 0.045 0.423 -0.307 0.239 27 84 0.5000 0.2381 B’ 41.67 0.067 0.084 0.776 1.674 0.289 28 84 0.0714 0.0476 B’ 5.95 0.019 0.038 0.590 4.542 0.079 刪 29 84 0.5952 0.3333 A’ 54.76 0.156 0.195 0.523 0.389 0.210 30 84 0.3333 0.5714 B 27.38 0.410 0.550 0.925 1.170 0.110 31 84 0.8333 0.1429 A’ 82.14 0.091 0.134 0.460 -1.696 0.213 32 84 0.4524 0.4286 B’ 46.43 0.220 0.276 0.549 0.828 0.192 33 84 0.5476 0.1429 A’ 57.14 -0.062 -0.078 0.332 0.561 0.239 刪 34 84 0.6429 0.2381 A’ 63.10 0.112 0.143 0.516 -0.091 0.224 35 84 0.6190 0.3810 A’ 55.95 0.212 0.267 0.713 0.420 0.247 36 84 0.0714 0.0476 B’ 7.14 -0.029 -0.054 0.560 4.740 0.090 刪 37 84 0.3810 0.4762 B 42.86 0.296 0.373 0.818 0.689 0.165 38 84 0.4762 0.0000 B’ 38.10 -0.009 -0.011 0.816 2.503 0.312 刪 39 84 0.0952 0.1905 B’ 15.48 0.246 0.374 0.866 2.640 0.131 40 84 0.2143 0.2381 B’ 14.29 0.189 0.292 0.813 2.604 0.115 41 84 0.4762 0.3810 B’ 48.81 0.222 0.278 0.716 0.594 0.200
表 4-2 軟體分析結果統整表(續)
題 號
人 數
難度 鑑別度 類
別 答對 率
點二相 關
二系列 相關
a b c 決
策 42 84 0.4048 0.2381 B’ 38.10 0.187 0.238 0.824 1.506 0.245 43 84 0.5952 0.2381 A’ 65.48 0.098 0.126 0.444 -0.303 0.220 44 84 0.1905 0.1905 B’ 14.29 0.281 0.435 1.153 2.126 0.113 45 84 0.3571 0.5238 B 41.67 0.297 0.375 0.677 0.935 0.180
三、題庫與適性測驗的整合
將最後留下 36 題的題目按照題號排列成下表 4-3。
表 4-3 正式施測題庫表
難度 鑑別度 題目 題號 0.88 0.14 (A)在教學開始或學習困難時,為了全面瞭解學生學習 1 困難的原因所進行的評量,稱為:(A)診斷性評量 (B) 形成性評量 (C)總結性評量 (D)安置性評量
0.52 0.19 (C)彩虹國小在學校本位課程發展過程中進行評鑑,主 2 要目的在蒐集課程草案的優缺點資料,作為改進或修
訂課程之用。這屬於下列哪一類評鑑?(A)內部人員評 鑑 (B)總結性評鑑 (C)形成性評鑑 (D)目標評鑑
0.30 0.04 (B)在教學中常使用標準參照測驗 (criterion 4 referenced test, CRT),下列哪一項是其特點?(A)
通常涵蓋較大範疇的學習作業 (B)強調個人所能與不 能完成之學習結果(C)偏好平均難度的試題 (D)需以明 確界定的團體作解釋
0.45 0.42 (B)訂定教材內容和認知層次雙向細目表,作為命題的 5 藍圖,有助於改進教師自編測驗的何種性能?(A)信度 (B)效度 (C)客觀性 (D)實用性
表 4-3 正式施測題庫表(續)
0.73 0.42 (D)以下有關「標準化心理測驗」的描述,何者正確? 6 (A)藉標準化心理測驗可充分且完全瞭解兒童(B)標準
化心理測驗有常模參照,所以結果精準正確(C)標準化 心理測驗有常模參照,能避免文化差異而有的偏誤(D) 標準化心理測驗的結果,需輔以非正式評量所得資料才 能有適切的解釋
0.16 0.23 (A)從心理測驗的用途或功能而言,可分為篩選性 7 (screening)和診斷性(diagnosis)的是何種性質的心 理測驗?(A)成就測驗 (B)智力測驗 (C)人格測驗 (D)興 趣測驗
0.64 0.33 (A)考試中的選擇題屬於記憶測量中的哪一種方法? 10 (A)再認法 (B)節省法 (C)回憶法 (D)重習法
0.28 0.19 (A) 小明是國中一年級學生,他的魏氏智力測驗分數 11 是 100,請問下列何者正確?(A)小明的魏氏智力測驗 成績顯示他的 IQ 贏過 50%的國中一年級學生(B)小明 的魏氏智力測驗的心智年齡與他的生理年齡相等(C)小 明在魏氏智力測驗測得滿分(D)小明的學校成績應有中 等以上之表現
0.69 0.61 (A) 教師想要了解學生長時間的學習歷程與進步情形 12
,最適合採用下列何種評量?(A)檔案評量 (B)紙筆 評量 (C)實作評量 (D)診斷評量
0.45 0.23 (C) 如果一種評量強調受試者依其既有的先備知識作 13 為基礎,將新學習連結到舊知識之上,統整調和成一
個有組織、有系統、有階層的知識結構,這屬於何種評 量?(A)真實性評量 (B)檔案評量 (C)概念圖評量 (D)總 結性評量
0.26 0.42 (C) 以折半法估計信度,是為了顯示信度測量的哪一種 14 性質?(A)穩定性 (B)等值性 (C)一致性 (D)正確性
表 4-3 正式施測題庫表(續)
0.45 0.42 (D) 龍山國小決定使用一份音樂性向測驗做為篩選音 16 樂班學生的工具,請問該測驗最需要強調下列何種效
度?(A)建構效度 (B)表面效度 (C)內容效度 (D)效標 關聯效度
0.28 0.28 (A) 教學之前,教師為瞭解學生對學習新知識應具備 17 之基本條件,宜採用何種評量方式?(A)安置性評量
(B)診斷性評量 (C)形成性評量 (D)總結性評量
0.50 0.23 (A) 有些考試採用倒扣(校正猜測)的方式來避免學 18 生胡亂猜測,但是蔡老師認為學校考試不必這樣做,
因為考試目的在於協助學生的學習。下列哪一個敘述 ,最可能是蔡老師的基本假定?(A)學生答錯試題,並 非純粹亂猜(B)倒扣會增加計分的複雜性,又浪費時間 (C)學校考試非正式成就測驗,不需要校正猜測(D)未做 校正猜測,對試題的信度沒有重大影響
0.26 0.23 (D)林老師發現小美的學習不佳。她先幫小美做智力測 19 驗,結果智力中等,所以排除了智力的因素。接著她
找了成績好的學生與小美分享學習的方法,效果也不 怎麼好。此時應採用哪一種評量方式來診斷小美的學 習困難?(A)總結性評量 (B)安置性評量 (C)形成性評 量 (D)動態性評量
0.64 0.33 (A)某次段考中,由於有半數同學不及格,老師決定每 21 人加 10 分。下列有關這項處理可能造成測驗品質和測 驗得分統計變化的描述,哪一項是正確的?(A)測驗效 度不變 (B)測驗信度提高 (C)得分平均數降低 (D)得分 標準差縮小
0.33 0.28 (C) 林老師發現小威有學習困難,就把小威轉介給心理 22 師,心理師利用智力測驗評估他的認知能力。下列何者 是這位心理師的評估方式?(A)因素分析 (B)精神分析 (C)心理計量 (D)結構分析
表 4-3 正式施測題庫表(續)
0.57 0.09 (A) 想要瞭解學生的學習潛能,評估其接受特定教育 23 或訓練之適合程度,以及預測未來相關之學習成就,
應採用何種測驗工具?(A)性向測驗 (B)智力測驗 (C) 興趣測驗 (D)成就測驗
0.35 0.23 (A) 下列何者最具有結合教學、診斷和評量的功能? 24 (A)動態評量 (B)標準化測驗 (C)常模參照評量 (D)標
準參照評量
0.28 0.28 (A) 教師在教學前對班上進行學科成就評量,以確定 25 學生的起點行為。此作法屬於下列何種評量? (A)安
置性評量 (B)形成性評量 (C)診斷性評量 (D)總結性 評量
0.66 0.19 (D) 黃老師將這次的段考界定為常模參照測驗的考試 26 ,請問出題時應如何設定題目的難度(P)與鑑別度(D)
較為恰當? (A)P = .2;D = .2 (B)P = .7;D = .4 (C) P = .6;D = .1 (D)P = .5;D = .6
0.50 0.23 (B) 下列雙向細目表的甲、乙各表示什麼? 27
(A)教學目標、教材內容 (B)教材內容、教學目標 (C)教學項目、教學歷程 (D)教學歷程、教學項目
0.59 0.33 (C) 選用心理測驗時,效度與信度是必須要考慮的 29 標準之一。以下對於效度與信度的關係何者有誤?
(A)信度是效度的必要條件,但非充分條件(B)測驗要 具有效度之前,必須先具有信度(C)信度高的測驗,
其效度一定高(D)效度可以保證某種程度的信度
0.33 0.57 (A) 智力測驗編製的先驅是哪一位? (A)比奈 30 (A. Binet) (B)葛敦納(H. Gardner) (C)塞斯通
(L. Thurstone) (D)魏克斯勒(D. Wechsler)
表 4-3 正式施測題庫表(續)
0.83 0.14 (C) 小美的數學成績一直不理想,為協助了解其學 31 習數學困難的原因所在,數學老師宜實施哪一種評量
? (A)預備性評量 (B)形成性評量 (C)診斷性評量 (D) 總結性評量
0.45 0.42 (B) 劉老師剛接一個新班級,她利用社會測量法 32 (sociometric method)來加強對班級的了解與輔導
。下列有關社會測量法的描述,何者最為正確? (A) 由美國社會學家墨頓(R. Merton)所創用(B)測量班級 的次級制度結構或非制度性結構(C)測量班級學生家長 社會經濟地位的整體狀況(D)預測班上學生未來的社會 經濟地位
0.64 0.23 (D) 下列何者是教學評量的最主要目的? (A)了解 34 學生在班上的排名 (B)對學生進行區別及篩選 (C)
了解班上學生個別差異 (D)做為輔導學生學習之用
0.61 0.38 (A) 教師在教學過程中,應適時檢視教學成效與學生 35 反應,以調整其教學法和課程內容。此屬於下列哪一
種課程評鑑之概念? (A)形成性評鑑 (B)檔案式評鑑 (C)總結性評鑑 (D)後設性評鑑
0.38 0.47 (D) 在一次六年級數學基本能力抽考中,教務處給六 37 年八班方老師的資訊為「貴班數學 成績的 T 分數為
54.50」。以下有關該資訊的描述,何者最為適切? (A) 是全年級平均最低的 (B)是全年級平均最高的 (C)原始 平均成績不及格 (D)不是全年級平均最低的
0.09 0.19 (B) 下列何者是「標準參照測驗」 39 (criterion-referenced test)的特性之一? (A)與
其他學生的測驗表現進行比較 (B)與教師設定的精 熟標準進行比較 (C)原始資料的測量分數之變異性 較大 (D)以百分等級和標準分數解釋測量分數
表 4-3 正式施測題庫表(續)
0.21 0.23 (A) 側面圖分析(profile analysis)常用於測驗結 40 果的呈現,其用途主要是作為下列何種比較之用?
(A)個體內的比較 (B)與常模的比較 (C)個體間的比較 (D)與預設標準的比較
0.47 0.38 (D) 李老師在評量進行時或測驗剛完成時,要求他的 41 學生小琳將其當時心裡所想的任何事情或程序,用口
語的方式表達出來。此法為下列何者? (A)實作評量 (performance assessment) (B)臨床晤談(clinical interview) (C)靜態評量(static assessment) (D)放 聲思考(thinking aloud)
0.40 0.23 (B) 把新編測驗與效標測驗一併施測所得的相關,是 42 屬於何種效度? (A)內容效度 (B)同時效度 (C)表面
效度 (D)預測效度
0.59 0.23 (C) 李老師想了解期末考數學考題是否適切,於是他 43 做了試題分析,請判斷下列哪一個試題分析結果最為
理想? (A)P = 0.10,D = 0.15 (B)P = 0.46,D = -0.15 (C)P = 0.51,D = 0.75 (D)P = 0.85,D = 0.30 0.19 0.19 (A) 有關測驗效度的說法,下列哪一項是對的? (A) 44 效度高,信度一定高 (B)效度是可靠性,信度是正確性 (C)信度低的測驗,效度可能高也可能低 (D)效度是信度 的必要條件,但非充分條件
0.35 0.52 (B) 李老師剛接一個新班級,她運用社會測量法 45 (sociometric method)來加強對學生的了解,下列何
者為社會測量法的正確描述? (A)可了解班級學生之 學業表現 (B)調查後經整理可以得到社會關係圖 (C) 可了解班級學生家長的社會經濟地位 (D)由美國社會 學家墨頓(R. Merton)所創用
在初試之後所篩選留下的 36 題題目即為教師資格檢定考試線上適性測驗所 要施測的內容,而線上適性測驗題目的編排順序是以金字塔式測驗來排列,將最
後留下的試題依照難度的高低,並依照金字塔適性測驗理論的題目排序方式,由 上到下、由左到右將題目依序排列。
選題方式為由上到下,從第一階層到第八階層,每層只會答一個試題,
答對就選右下方的題目,答錯就選左下方的題目,最下面的 1 至 16 是測驗的結 果,分為 16 個級分,呈現如下圖 4-1:
16
32 27
30
41 17
37 2 44
5
18
42 10
45 22
13 35
21 25
12
26 11 24
34 23
40
31 43 29 19
6
1 14 4 7 39
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
第一層 第二層
第三層 第四層
第五層 第六層
第七層 第八層
圖 4-1 八層金字塔式適性排列的線上適性測驗題庫
表 4-4 b 值轉換成百分數表
b 值 Z T T 轉換+30 新分數 <b >b
2.64 1.12 61.17 91.17 99.96 99 100 2.5 1.03 60.31 90.31 97.04 93 98 1.95 0.69 56.93 86.93 85.57 82 89 1.4 0.36 53.56 83.56 74.1 70 78 0.62 -0.12 48.77 78.77 57.83 50 65 -0.09 -0.56 44.42 74.42 43.02 40 46 -0.31 -0.69 43.07 73.07 38.43 37 39 -2.14 -1.82 31.84 61.84 0.26 0 20 其轉換方程式為新分數=62+34Z
級分(滿分為 16 級分)、分數(滿分為 100 分) 與一般分數對照,其中的轉換 分數為使用上面轉換方程式所得的新分數,一般分數為滿分除以題數,為 100 分分成 16 等分(一題一等分,共 16 題)。
表 4-5 分數對照表 級分 轉換分數 一般分數
1 0 6.25 2 20 12.5 3 37 18.75 4 39 25 5 40 31.25 6 46 37.5 7 50 43.75 8 65 50 9 70 56.25 10 78 62.5 11 82 68.75 12 89 75 13 93 81.25 14 98 87.5 15 99 93.75 16 100 100
以級分的概念來看,所轉換成的分數會比我們一般測驗所用的一般分數成績 都來的高,以 2 級分來看同樣是對一題但是得分卻不同,為 20 和 12.5,是有些 差距,但是以第 15 級分來看同樣都是錯一題,分數為 99 與 93.75,所代表的是 錯一題為 99 分與全對的 100 分其實能力值是差不多的。
第二節 教師資格檢定考試線上適性測驗系統發展建置
本研究所設計的教師資格檢定考試線上適性測驗系統目的在利用電腦作為 施測工具,以「教育測驗與評量」為測驗內容,期能更準確的評估學生的能力以 及減少測驗題數和時間。
一、系統的硬體部分 1. 研究者端
(1) CPU : AMD Athlon II X2 245 (2) RAM : 2 GB
(3) HDD : WD 500GB (4) 網路卡: 10/100Mbps 2.使用者端
(1) CPU : Intel Core 2 Duo Processor E4400 (2) RAM : 2 GB
(3) HDD : WD 250GB (4) 網路卡: 10/100Mbps
二、系統的軟體部分
1. 研究者端
(1) Apache HTTP server (2) MySQL
(3) PHP
2.使用者端
(1) 作業系統:Microsoft Windows XP (2) 瀏覽器:Internet Explorer 三、測驗方式
1. 如圖 4-2 所示,開頭畫面說明測驗範圍及測驗題數,按下藍色開始按鈕 後即可作答。
圖 4-2 教師資格檢定考試線上適性測驗之事項說明
2. 如圖 4-3 所示,難度中等的測驗初始題。若答對這題則下一題會往難度 更難的題目繼續作答,若答錯這題則下一題會往難度更簡單的題目繼續 作答。
圖 4-3 教師資格檢定考試線上適性測驗之初始題
3. 如圖 4-4 所示,當作完八個題目之後,就會出現此畫面。
圖 4-4 教師資格檢定考試線上適性測驗之輸入學號
4. 如圖 4-5 所示,輸入學號 0000001 作測試。
圖 4-5 教師資格檢定考試線上適性測驗之輸入學號 0000001 測試
5. 如圖 4-6 所示,顯示測驗的結果,包含所輸入之學號乙級測驗所得之級 分,共分為 1 至 16 級,級分越高代表答對的題目越多,也就代表學生的
「教育測驗與評量」的能力越高,反之越低。
圖 4-6 教師資格檢定考試線上適性測驗之測驗結果
第三節 比較傳統紙筆測驗與線上適性測驗之差異
本節在探討傳統紙筆測驗與所開發之教師資格檢定考試線上適性測驗兩者 間的差異。
研究者於民國 九十九年 六月 七日至 十四日這一周實施線上適性測驗的 實測。施測人數二班,兩次測驗都有參與的共有 81 人,並針對兩次測驗的答對 題數,比較傳統紙筆測驗與線上適性測驗的差異。從表中看出兩者整體平均有明 顯差異,說明了線上適性測驗的可行性,其中線上適性測驗的題數較少,也可節 省答題時間,符合經濟及成本效益,且以研究者的從旁觀察,不管測驗結果的高 低,學生願意接受線上適性測驗的接受度較傳統紙筆測驗的意願高。
表 4-6 傳統紙筆測驗與線上適性測驗比較表
傳統紙筆測驗 線上適性測驗 時間(分) 40 5
測驗題數 45 8 平均答對題數 18.70 4.38 平均答錯題數 26.3 3.62 平均答對率 41.56 54.78 平均答錯率 58.44 45.22
使用SPSS軟體分析傳統紙筆測驗與線上性測驗的結果,根據相依樣本t檢 定,將受試者分成大二共選、大四共選兩班,大二共選的班級共有32人,大四共 選的班級共有49人,分別比較紙筆答對率和線上適性測驗。