• 沒有找到結果。

貝氏網路在教育測驗分析上的應用

N/A
N/A
Protected

Academic year: 2021

Share "貝氏網路在教育測驗分析上的應用"

Copied!
123
0
0

加載中.... (立即查看全文)

全文

(1)

國立台中師範學院教育測驗統計研究所碩士論文

指導教授:郭伯臣 博士

貝氏網路在教育測驗分析上的應用

研究生:許雅菱 撰

(2)

I

摘要

本 研 究 的 主 要 目 的 為 探 討 以 證 據 中 心 的 評 量 設 計 (evidence-centered

assessment design)為基礎,依照步驟建立一個完整的評量傳送模式(assessment delivery model),並利用四程序(four process)來傳送在此評量傳送模式中其子模式 之間的資訊,設計一份以證據中心為設計理念的評量。先將上述模式規則化,並 實際以此評量傳送模式建立一份評量進行實測,以了解利用此法所編製的評量是

否有其可行性。另外,在概念性的評量架構(conceptual assessment framework )中 的學生模式採用以機率推理為基礎的貝氏網路(Bayesian network)作為分析工具,

應用在國小面積學習單元的評量中,用來診斷學生錯誤類型(bug)及子技能

(sub-skill)的有無。研究結果發現以評量傳送模式所編製的證據中心認知診斷評量

(cognitive diagnostic assessment, CDA)能有效將子技能、錯誤類型做適當的分類。 本研究討論貝氏網路在教育測驗的應用,並設計可診斷關於個人的技能的測 驗,結果證明將技能的相依性模式化之後,可以有效的進行診斷並呈現學童在「面 積」單元的實徵結果。此研究證實利用貝氏網路將技能之間的關係模式化有益於 測驗的設計。結果發現: 1. 以證據中心為主的評量設計原則與步驟,結合貝氏網路建構以概念性的評量 架構為主的評量傳送模式,可有效應用於診斷學生之錯誤類型與子技能。 2. 根據貝氏網路欲測之錯誤類型來設計選項,發現不同的作答資料輸入值對辨 識率造成影響,其中以二元資料輸入值在錯誤類型與子技能的辨識率較佳。 3. 將所有的錯誤類型與子技能的決斷值固定,並不能得到最好的辨識結果,若 採以「動態決斷值選取法」來選取決斷值,其辨識結果較佳。 4. 欲建構出一個完整且有效的貝氏網路,首先進行文獻探討建立貝氏網路,利 用實徵資料進行分析修正,再結合刪去法,可改良專家所建立貝氏網路。 關鍵詞:貝氏網路、評量傳送模式、學習診斷

(3)

II

Abstract

The main purpose of the research to explorer Evidence-Centered assessment

design (ECD) to construct educational assessments in terms of evidentiary inference. The research provides an introduction to basic ideas of ECD, including some of the

terminology and models that have been developed to implement the approach. And it presents the high-level models of the Conceptual Assessment Framework and the

four-process architecture for assessment delivery systems. We use Bayesian networks for modeling assessment data and identifying bugs and sub-skills in area with

decimals after students have learned the related contents and use probability-based reasoning in accumulating evidence across task performances, in terms of belief about

unobservable variables that characterize the knowledge, skill, and abilities of students. Four steps are involved in this study: developing the student model based on Bayesian

networks that can describe the relations between bugs and sub-skills; constructing and administering test items in order to measure the bugs and sub-skills; estimating the

network parameters using the training sample and applying the generated networks to bugs and sub-skills diagnosis using the testing sample; and assessing the effectiveness

of the generated Bayesian network models work in predicting the existence of bugs and sub-skills. This brief overview of evidence-centered design provides the reader

with a feel for where and how graphical models fit into the larger enterprise of educational and psychological assessment. The results show that using Bayesian

networks to diagnose the existence of bugs and sub-skills in individual students can get good performance.

(4)

III

目次

第一章 緒論 1

第一節 研究動機 1

第二節 研究目的 4

第三節 名詞界定 5

第二章 文獻探討 7

第一節 認知診斷評量 7

第二節 貝氏網路 11

第三節 評量設計與評量傳送系統 16

第三章 研究設計與實施 38

第一節 研究方法 38

第二節 研究流程 41

第三節 研究樣本 42

第四章 研究結果 48

第一節 貝氏網路應用在診斷測驗之成效 48

第二節 改良貝氏網路方法之探究 50

第五章 結論與建議 62

參考文獻 64

(5)

IV

一、中文部分 64

二、外文部分 65

附錄 67

附錄一、給老師的話 67

附錄二、四下數學第八冊第十單元面積試卷 69

附錄三、試卷參考解答 70

附錄四、第一次修正學生模式之貝氏網路 71

附錄五、第一次修正貝氏網路之辨識率 72

附錄六、第二次修正學生模式之貝氏網路 73

附錄七、第二次修正貝氏網路之辨識率 74

附錄八、修正作業模式二元計分之貝氏網路 92

附錄九、修正作業模式多元計分之貝氏網路 93

附錄十、第三次修正貝氏網路之辨識率 94

(6)

V

表次

表 2-1 面積迷思概念 35

表 2-2 面積單元解題策略 37

表 3-1 面積測驗題型編製架構 44

表 3-2 「面積」單元測驗試題涉及錯誤類型成分 44

表 4-1 面積貝氏網路二元計分決斷值之辨識率 48

表 4-2 面積貝氏網路多元計分決斷值之辨識率 49

表 4-3 面積貝氏網路二元計分決斷值之辨識率 52

表 4-4 面積貝氏網路多元計分決斷值之辨識率 52

表 4-5 刪去一題後不同貝氏網路之辨識率 55

表 4-6 刪去一題後不同貝氏網路之辨識率之比較 55

表 4-7 刪去二題後不同貝氏網路之辨識率 58

表 4-8 刪去二題後不同貝氏網路之辨識率之比較 59

(7)

VI

圖次

圖 2-1 貝氏網路的例子 13

圖 2-2 有七個節點的貝氏網路例子 14

圖 2-3 完整的 ECD 模式 17

圖 2-4 評量系統中的四個程序 18

圖 2-5 在學生模式中以機率來解釋證據模式中的

可觀察變數 20

圖 2-6 以學生模式的圖形來呈現帶分數減法能力

的關係 21

圖 2-7 GRE 測驗的學生模式 21

圖 2-8 作業表現及可觀察變數的關係 22

圖 2-9 GRE-電腦化適性測驗的測驗模式 23

圖 2-10 以 IRT 為統計模式的簡單貝氏網路架構 24

圖 2-11 作業模式的要素 25

圖 2-12 作業架構中模式變數的作用 26

圖 2-13 將多種作業組成一個評量的情形 28

圖 3-1 面積單元錯誤類型之貝氏網路 40

圖 3-2 本研究之研究流程 42

(8)

VII

圖 4-1 修正學生模式之貝氏網路 51

圖 4-2 刪去第九題之二元計分錯誤類型貝氏網路 60

圖 4-3 刪去第十五題之多元計分面積錯誤類型貝氏網路 61

(9)

第一章 緒論

第一節 研究動機

教學評量是國小教師在教學現場中常使用的工具,在教學中經常需要利用評 量來獲知學生的學習情形。評量的目的不僅是為了評定學生學習成就的高低,或 是預測學生將來的發展,最主要的目的在於學生在學習特定範圍的知識後,能藉 由評量來了解自己的缺失所在,並進而加強之,使學生在學習時能得到最好的協 助。因此,如何將評量結果經由輸出來提供教師與學生充足的診斷資訊,是現今 測驗評量欲探討的重要課題。爲了瞭解學生的認知缺失所在,以利進行後續的補 救教學,過去多半是以個別訪談與原案分析的方式為主,這些方式雖然可以比較 深入地了解學生的想法及其迷思,但是對研究者而言十分耗時耗力,更遑論教學 工作相當繁重的國小教師,因此上述的方式在實際教學情境中無法普遍推行。這 樣的缺失使許多致力心理計量學的研究者對傳統評量的作用不甚滿意,因而開始 發展並思考多元化評量之間的優缺點及差異,進而開始發展認知評量、多元化評 量、診斷評量等等。經過許多國內外的心理與教育測驗的研究者積極致力於相關 研究,終於慢慢發展評量特定認知能力的測驗方式,來偵測學生的認知缺失。包

括 Mislevy, Almond, Lukas(2003)以證據為主的評量設計的介紹,利用證據中心的 評量設計,使研究者能在受試者的作答反應中獲取更多受試者本身所擁有的知 識,並結合學生模式來推論所欲知的資訊;余民寧(民 92)以路徑搜尋法的方法 論為基礎所建立的線上認知診斷評量模式;施淑娟(民 86)結合 Marshall 的 可 評 量 基 模 與 試 題 反 應 理 論 建 立 認 知 網 路 評 量 模 式 等 研 究 。這些研究都能夠 達到偵測學生的缺失所在。但是,在現今的教學現場中,這樣的結果仍不足以應 付教學壓力沉重的現今教育環境中。因此,吾人希望除了能夠深入了解造成學生 錯誤學習的缺失所在,更希望能夠利用評量所得到的資訊進行分析,以提供教師

(10)

在教學現場參考使用,並讓教師能夠有效且快速的將學生的錯誤類型進行分類, 以利補救教學的實施。在這樣的需求下,除了要有強大的診斷分析模式外,尚需 更為完備的推理模式才能達到。 在國內的相關研究中,研究者大多採用比「錯誤類型」或「bug」更大的「成 份」(components)-技能或概念做為診斷分析模式的因子。這樣的診斷單位雖然 得以獲得穩定的診斷結果,但是卻無法獲得每個人較微觀的認知診斷訊息(黃桂 君,民 91)。大體而言,個體演算法則的變動表現可反應出其潛在運思型態的情 形,診斷分析模式需能忠實地呈現此一現象。因此,為了建立一個更符合實際所 需的診斷評量模式,本研究欲建立一個以「評量傳送模式」來進行組卷,並利用 實徵研究來進行學生作答反應的分析,包括個體的迷思概念與所缺少的技能,並 同時能夠自動給分且告知受試者診斷的結果與分析情形。利用模式化的組卷方 式,將可提供設計更為完備的評量,幫助教學者獲得受試者的相關訊息,並可提 供教學用。 為了達到以上的想法,研究者擬以功能強大的貝氏網路為推論工具。貝氏網 路的概念主要是以機率的方式來整合問題的不確定性。許多心理計量的先進以此 統計方法應用於教育評量,例如 Mislevy(1995, 1998)、Almond(2003)等等。這些 文獻均顯示貝氏網路應用在教育評量有許多優點,以下就數點簡述之:1.以機率 為基礎來進行推論,可有效處理、描述與評估模式變項的不確定性。2.可有效整 合專家意見、先前的研究結果、理論及相關實徵資料的經驗值至模式中,提升其 推論的精確性。3.可有效表現知識的模組化特徵。4.推論與學習採用較為符合實 際的分散式規則。5.貝氏網路可以圖形來表徵,其優點是可清楚表現並管理每一 個變項的機率及變項間的相互關係。6.變項間的因果關係可透過貝氏網路加以檢 視,隨時可彈性修正。7.有健全的理論,提供強而有力的機率推理模式,並可藉 由模式中一組可觀測變項的機率作為證據,估計另一組欲研究的變項之機率,並

(11)

可隨時依任一觀測證據的變動,動態更新整個模式架構(施淑娟,2005)。基於 貝氏網路擁有上述優勢,本研究欲以具有強大推論功能的貝氏網路為工具,並參 考國外的文獻,實地建立評量傳送模式架構並應用在實際例子中。 有鑑於此,本研究採用證據中心的評量設計理念,按照步驟來建立評量傳送 架構,利用此架構所組出的評量來進行實徵研究,發展以構念取向的貝氏網路, 並使用貝氏網路來建立診斷模式。其目的在於自動化設計證據中心的評量,用來 處理關於個人的技能的診斷,證明將技能的相依性模式化之後,可以更快速的進 行診斷。以國小四年級「面積」單元為例,並以「面積單元錯誤類型」為診斷單 位,顧及迷思概念的不穩定特質,嘗試採用以機率推理為基礎的貝氏網路作為分 析工具,以探討應用貝氏網路來設計一個評量傳送模式,藉由所組成的測驗來評 量學生並診斷學生的迷思概念。同時,吾人亦考慮到教師在教學上欲了解哪些數 學技能的缺失而造成學生迷思概念的產生,其成因及影響是相當重要的。所以, 本研究之貝氏網路亦將數學技能納入分析。此外,由於實際的測驗資料作答型 態、分類決斷值之不同,都有可能影響診斷分析的有效性,因此本研究亦將針對 此二變項對診斷模式的影響加以探討之。本研究證實利用貝氏網路將技能之間的 關係模式化之後有益於適性測驗的設計與實施。

(12)

第二節 研究目的

基於上述,本研究欲先結合認知理論與概念性的評量設計理念著手設計完整 且有效的評量傳送模式,利用此模式所組合成的評量加以實際應用,將評量的結 果與貝氏網路的方法論結合,建立一個以貝氏網路為基礎的錯誤類型診斷模式, 而後進行評估如何訓練貝氏網路,才可獲得最佳的辨識率,並且建立最佳化的學 生分群的決策。教學者在教學現場面臨的是獨立個體的學生,每一個學生可能犯 的錯誤類型不盡相同,利用分群的方式,進而提供教師進行補救教學的參考。因 此,在評量輸出及訓練貝氏網路的過程中,首先逐步介紹傳送評量架構與四個程 序的評量設計理念,再應用所輸出的評量進行實徵研究,利用子技能、錯誤類型 與學生的反應組型來建立貝氏網路,並利用不同決斷值的選取來評估貝氏網路的 辨識率。基本上,本研究的目的為: 一、根據文獻探討去釐清以證據中心的評量設計為基礎的設計原則與步驟,再以 貝氏網路為基礎,建構以概念性的評量架構為主的評量傳送模式。 二、探討如何利用評量傳送模式應用在面積單元認知診斷評量中,並以貝氏網路 來進行此診斷評量的分析。 三、探討在貝氏網路模式中,學生作答反應的不同資料輸入值形式,對於學生學 習面積單元的錯誤類型與技能之辨識率。 四、比較不同學生模式與作業模式對貝氏網路辨識率的影響。

(13)

第三節 名詞界定

一、認知診斷評量

認知診斷評量是指在「有意義的學習」及「認知建構過程」的理論背景下, 結合心理計量學所形成的評量取向。本研究中的認知診斷評量即依據此理念,結 合相關研究理論(包含學童的錯誤類型及迷思概念等)與貝氏網路,來進行編製 所需的認知診斷測驗以了解學童的錯誤類型與概念技能並進行診斷分析。

二、貝氏網路

貝氏網路也叫做貝氏信念網路(Bayesian belief networks)、因果關係網路

(casual networks)、機率網路(probabilistic networks)或者為知識地圖(knowledge map),主要以有向的無迴路圖 (directed acycle graph, DAG)為基礎,應用其變數之 間的因果關係與其相互影響的機率。完整的貝氏網路包含二個部分,分別是節點 (node)及連結(link)。在貝氏網路中,節點代表欲研究的變項;連結代表的是變項 之間的相互關係。連結的有無即代表其節點之間的關係是否為條件相依或條件獨 立的情形,其影響程度則是以條件機率來表徵。

三、評量傳送模式

評量傳送模式為一證據中心的評量模式,其設計包含二部分,分別為概念評 量架構與呈現模式,而概念評量架構包含學生模式、證據模式、作業模式及組合 模式。此模式經由四個程序來進行組卷的工作,並將組合完成的評量以呈現模式 來提供給受試者進行測驗。

(14)

四、錯誤類型

本研究中所謂的錯誤類型為學童解決數學面積概念時可能發生的一些錯誤 組型(即迷思概念),這類錯誤可以分成二種:一是學童自身學習時的錯誤組型。 二是團體共有的錯誤組型。在本研究中將依學童錯誤之處進行更細部的探討,經 由相關文獻的研究,再定義出常見的錯誤類型,並進行分類。但個體的錯誤組型 的出現十分不穩定,常會造成分類上的困難。

五、子技能

本研究所謂的子技能為學童解決面積概念問題所需的基本能力,在此面積單 元中較為著重在計算的能力方面,通常會影響錯誤類型的發生。

(15)

第二章 文獻探討

本研究的目的是基於認知診斷評量與概念評量架構與傳送模式的理念,嘗試 以四個程序的方式來編製認知診斷評量,並試著以貝氏網路為工具結合證據中心 評量設計的理念,建立以貝氏網路為基礎的認知診斷模式,而後應用在診斷國小 四年級第八冊第十單元的「面積」單元的學習上,學童經由班級教學後可能產生 的錯誤類型與概念缺失,並提供造成錯誤概念的原因所在(缺乏子技能)。因此, 在本章中,將針對認知診斷評量、貝氏網路、面積教材與錯誤類型、子技能等相 關研究文獻進行分析整理。此外,本研究的另一目的為了解以「證據中心」的評 量設計,並探討結合四個程序的評量傳遞模式進行組合評量結合之可行性,以下 將詳細敘述其內容。

第一節 認知診斷評量

認知診斷評量主要是在診斷學生認知學習上的困難、提供教師教學和學生學 習的方向與方式。若能藉由診斷評量深入了解學生概念的盲點,對症下藥提供補 救教學,才能利於下一階段的教學。以下就分別探討認知診斷評量的意義、發展 及相關研究。

一、認知診斷評量的意義

認知診斷測驗是指基於學童「有意義的學習」及「認知建構過程」的情形下, 結合心理計量學與統計方法進行評量設計,主要在分析個人在認知學習領域的優 缺點,並指出學習困難的可能原因,根據學習者的條件與需要來設計補救教學。 因此,評量的主要目的在於探討學童學科成績背後的認知結構與潛在的解題過程 與策略,這些過程之間具有何種關係,都是本評量欲了解之處。

(16)

二、認知診斷評量的發展

近年來,診斷評量的發展慢慢朝向結合認知心理學和心理計量學的研究領

域,逐漸發展成為一門獨立的學科研究領域,稱為「認知診斷評量」(Nichols,

1994)。認知診斷評量主要以現代測驗理論為基礎,結合認知心理學對學習心理 學的研究與發現,來探討三個問題:1.受試者在測驗領域中所使用的認知程序 (cognitive process)和知識結構(knowledge structure)為何? 2.這些認知程序和

知識結構在測驗過程中如何被使用?3.學生與專家的表現有何不同?因此,本研 究除了要討論受試者在作答錯誤時的認知程序需歸類至何種錯誤類型,也希望了 解受試者缺少何種子技能而造成錯誤的反應。在未來的教學與課程改革中,CDA 可以提供學生在解決問題時所需的策略、知識概念間的關係並用來了解某個特定 領域的訊息,所以能提供教學者制定適合學生個別需求的教學活動和有效的補救 教學課程。 認知診斷評量結合現代測驗理論與認知心理學對學習理論的研究而來,雖然 具有相當的參考價值,但因其施測過程與結果核計十分複雜,因此需與人工智慧 (artificial intelligence)的電腦科技結合使之為可行。目前結合人工智慧所發展出 來的診斷系統有 Marshall(1993)的「故事問題解決者」 (story problem solver, 簡

稱 SPS)和 Langley, Wogulis, & Ohlsson(1990)的「自動認知模型化」(automated

cognitive modeler, 簡稱 ACM)系統等,這系統都是依據認知心理學理論以人工 智慧電腦系統來建構及模擬人類解決算數習題時的認知程序與知識結構。這些系 統不僅診斷受試者在解題時所使用的「基模知識」(schema knowledge)、區別

擁有不同基模知識結構的受試者之表現,並且可根據不同受試者的診斷結果中, 將不同受試者的反應組型分辨出具有不同意義的組型,這些組型通常具有認知錯

(17)

三、認知診斷評量的相關研究

近年來,國內外的學者致力於認知診斷評量領域,其研究範圍相當廣泛。在

此整理出幾篇較具代表性的研究,簡要敘述認知診斷在教育評量研究方面的成 果。

(一)在思考適性控制模式下程式設計教學的學生模組相關研究

在思考適性控制模式 (adaptive control of thought, ACT)下程式設計教學的 「學生模組」研究(student modeling in the ACT programming tutor)中,主要是 探討學生在認知技巧獲取過程中改變知識結構的情形,並且去預測學生表現程

度,欲使在短期內使學生在高層次學習環境之下充分達到學習滿意的狀態。此研 究假設在一個具有知識技巧的系統模式下,試著去探討問題狀態和目標行為結果

是否有相關的現象(Corbett, Albert T., Anderson, John R., & O’Brien, Alison T., 1995)。

(二)應用智慧型教學系統解決問題的診斷評量

Gitomer(1995)認為透過智慧型教學系統(intelligent tutoring system, ITS)將 可推論學生對於所遇到的問題的理解程度,以及給予適當教學的回饋。學生是否

能在規定的時間內達成教師的教學目標,這些目的都可以在此研究中顯示出來。 再者,學者們更希望在 ITS 中,可以運用認知診斷、基礎機率的推論、教育評量,

以及心理計量學等策略,來發展出一個概念化的學生模組型態。

(三)概念知識的概念網路

Naveh-Benjamin, Linn, & Mckeachie(1995)以描述概念知識的概念網路

(18)

關係填入概念結構圖中,亦即應用於評量中的「概念構圖」。國內宋德忠(1998)、

陳淑芬(1998)等人亦曾進行類似的研究。

(四)以機率為基礎的推理方式應用於認知診斷研究

以機率為基礎的推理方式可應用於認知診斷研究(probability-based inference in cognitive diagnosis)中,Snow & Lohmann(1989)在「認知心理學在教育測驗 上的應用」中指出認知心理學能夠提供一些模式給予學生在學習能力上的回饋反 應,這些回饋可提供老師在教學上的參考與改進的訊息。有別於以往的傳統測驗 只能提供測驗之結果,認知診斷評量已經逐漸改善傳統測驗的弊病,可提供學生 在學習問題上解決疑惑的方法,甚至能針對個人的問題提供更完善的解釋,以充 分達到個別化的評量效果。 以上介紹此四方面的研究均有其實際應用上的意義,其中尤以機率為基礎的 推理方式應用於認知診斷的相關研究最為研究者感興趣。學者 Mislevy(1995) 運用機率表來呈現學生學習問題所發生的機率,他首先界定「學生模式」(student model),由於學生在其知識、技巧、和策略上皆有不同的型態。因此,在某個 事件中不同的問題就會有不同的發生機率,透過這樣的分析方式,可以得知學生 問題類型出現的機率與情形。 綜合上述國內外的相關研究可知,各種方法因取向不同,各有其適用的情境 與限制所在。但從這些研究中可以明顯看出國外運用認知診斷的學理,已經有一 定的完整模式,這些都可作為國內針對運用認知心理學理論,來發展適合本國教 育需求的評量形式、因此,本研究將利用 Mislevy 等人所發展出的模式,主要以 機率為基礎的推理方式來應用於認知診斷評量,以呈現出受試者在學生模式中所 有概念節點的精熟機率,使其符合真實情境,並利用學生的作答反應與概念形成

(19)

「Fuzzy」特質,來探討學生的概念與知識的關係,並將之延伸,將錯誤類型加入

(20)

第二節 貝氏網路

一、基本概念

貝氏網路是一個應用十分廣泛的工具,主要以機率圖形模式的方式呈現,利 用機率分佈將特定領域中的不確定性組合成模型。因為應用其變數之間的因果關 係與其相互影響的機率,所以貝氏網路也叫做貝氏信念網路、機率網路。此模型 一開始使用在遺傳理論上,後來經轉變應用在許多領域中,例如專家系統領域

(expert system domain)、肌動電流描記術(electromyography munin)和導航器系統

(pathfinder system)、認知科學和人工智慧等領域中。貝氏網路在各種領域均能有 效應用,主要是因為其中的圖形模式不只是能針對數百個變數的不確定性有效地 作推論,而且能幫助人類更了解模型化的領域。 完整的貝氏網路包含二個部分,分別是節點及連結。在貝氏網路中,節點對 應於有限範圍中的任意變數(例如:病人的性別、疾病的種類等等),而節點之間 的連結有無即代表其節點之間的關係是否為條件相依或條件獨立的情形。在貝氏 網路中,圖示扮演了一個十分重要的角色,在機率和統計學上有三個意義:1.提 供較為簡單的方法來表示獨立的假設。2.可以經濟地表示其聯合機率函數。3.可 有效地從觀察中推論。例如,在任意聯合機率分佈P(x1,...,xn) 中,n代表變數的 個數,當電腦儲存(x1,x2...,xn)時,在變數均為二分類時,需要2n個儲存空間,意 味著需要很大的存放的記憶體,較為經濟的方式是使變數僅條件依賴少數變數, 使變數之間形成條件獨立,這樣的關係將可使存在多個變數的機率分佈表示成變 數較少的機率分佈的乘積。圖示在網路中扮演一個本質上的角色,能將變數組清 晰的表示出來,在任何節點所給定的狀態中,彼此具有關聯性的特點如下:1.資 訊的主觀性質。2.以貝氏條件當基礎來更新資訊。3.因果和推理證據模式之間的 差異。

(21)

二、數學模式

在一具有因果關係的網路中,當變數 A 為因,而變數 B 為果時,從 A 到 B 將產生一個相依的連結邊。此時,節點 A 稱為節點 B 的父節點,而節點 B 稱為 節點 A 的子節點。當存在許多像這樣的因果關係時,B 的父集合被稱為pa(B), 設變數 A 存在

{

a1,a2,...,an

}

的狀態集合時,亦即a1 =x1,a2 = x2,...,an = xn,而P( A)是 這些狀態集合的機率,這種情形以數學算式來表示為: ) ,..., , ( ) (A P x x xn P = 1 2 , xi ≥0,

= = n i i x 1 1 若xi是 A 在ai狀態時的機率,B 為另一個變數,其狀態有

{

b1,b2,...,bn

}

,若連 結到有因果關係的 A 節點時,將產生對應P(A|B)的機率表。若變數 A 和變數 B 的狀態符合aibj,其機率為P(A=ai|B=bj)(Pearl,1988),在這樣的一個基礎下 進行推論就稱為貝氏定理。在機率模型中放入一群資料,藉由在模型上的參數和 不可觀測的數量的機率分佈,推論出結果的過程,如此再對最新的觀測的數量做 預測。 在貝氏網路中,DAG 提供欲分解概念的架構,其定義為機率分佈Pn個隨 機變數X1,X2,...,Xn機率計算的連鎖法則(chain rule),可將P分解成n個條件機率 的乘積 =

j j j n P X X X X X P( 1,..., ) ( | 1,..., 1)。若有父節點時,變數Xj的條件機率僅 和其父節點有關,與非父節點為獨立關係,所以亦可表示成 ) | ( ) ,..., | (Xj X Xj P Xj paj P 1 −1 = ,j=1...nXj的機率設定條件在其父節點可能出現

(possible realization),可能出現的集合paj稱為Xj的馬可夫父節點(Markovian

parents)。

(22)

) ,..., , (A1 A2 An PP(U)可以從貝氏網路的條件機率中被求出,只要在U 中條件獨立 成立,聯合機率分佈P(U)即為所有的條件機率的乘積,其數學式子如下(Lee, 2003): ) ,..., , ( ) (U P A1 A2 An P =

= − = n i i i A A A A P 1 1 2 1, ,..., ) | (

= = n i i i pa A A P 1 )) ( | ( 在進行貝氏網路的推論前,必須先建立一個有效的網路,進而利用它來計算 多個變數的聯合機率分佈,這些變數集合即為貝氏網路中主要欲了解之能力。貝 氏網路使預測的工作更加容易,因為使用者所輸入的可觀測值和研究者所預測得 的資訊兩者之間的關係,可用數學式子來簡化P(y|x)的計算工作,例如,x是一 組可觀測到的變數,y是一組所預測的變數,在給定一個聯合機率分佈 P 的條件 下,應用貝氏規則所得的P(y|x)如下式:

= ) , , ( ) , , ( ) | ( , P y x s s x y P x y P s y s s: x,y之外的變數集合 每個貝式網路均會先行定義其聯合機率分佈P,所以可從 DAG 的圖G中求 得P(y|x)和條件機率P(xi |pai)。若圖G=(V,E)中每個節點iV對應一個隨機變數 i

X ,有著互斥狀態的有限集合X i和條件機率表(conditional probability table, CPT)P(Xi |(Xj)jpa(i),pa(i)表示節點i在圖G的父節點集合。下圖 2-1 為貝氏網路 的例子。 1 X P(X1) X2 P(X2) ) | (X3 X1 P 3 X X4 P(X4|X2) 5 X P(X5|X1) 6 X P(X6 |X3,X4) X7 X8 X9 P(X9 |X6)

(23)

) | (X7 X5 P P(X8|X7,X6) 圖 2-1:貝氏網路的例子 雖然貝氏網路有許多優點,但也有其限制。每個變數當有條件機率時,其局 部邊際與條件機率是兩兩結合在一起的。當網路中的變數僅具有兩個或三個的狀 態時,計算聯合機率是可行的。然而,當變數逐漸增加時,條件機率的計算將更 加困難。因此,本研究試著將 Huang(1999)的研究結果應用在貝氏網路上,以另 一種修改過的形式來建構貝氏網路。例如,在貝氏網路中定義七個二元變項

{

A,B,C,D,E,F,G

}

及八種條件相依的情形(如圖 2-2),並就此例來解釋這個變數 集合的聯合機率的意義。 圖 2-2:有七個節點的貝氏網路例子(摘自 Lee,2003) 以上圖為例,根據網路中條件獨立的主張來估測其聯合機率,其式子如下: G) F, E, D, C, B, P(A, ) , | ( ) , | ( ) | ( ) | ( ) | ( ) | ( ) (A P B A P C A P D A P E A P F B C P G D E P × × × × × × = 假若變數G被加入證據g;給定G= g的機率,要去計算A;也就是 ) | (A G g P = ,以較簡潔的方式來表現其聯合機率的計算如下: ) ( ) , ( g) G | P(A g G P g G A P = = = = A B C D E

(24)

[

]

[

]

[

]

=

= = A B C D E F F D E C B ) C , B ( P ) E , D | g G ( P ) A | E ( P ) A | D ( P ) A | C ( P ) A | B ( P ) A ( P ) C , B | F ( P ) E , D | g G ( P ) A | E ( P ) A | D ( P ) A | C ( P ) A | B ( P ) A ( P

[

]

[

]

[

]

= = = A D E D E ) E , D | g G ( P ) A | E ( P ) A | D ( P ) A ( P ) E , D | g G ( P ) A | E ( P ) A | D ( P ) A ( P (1) 貝氏網路的模式使得聯合機率分佈的計算是根據變數集合為條件獨立假 設,並藉由分解聯合機率分佈至數個條件機率分佈(Huang,1999)。 另一方面,假如關於網路其他的變數沒有任何的資訊,其算式將變為: ) ( ) , ( g) G | P(A g G P g G A P = = = =

= = = F E D C B A F E D C B g G F E D C B A P g G F E D C B A P , , , , , , , , , ) , , , , , , ( ) , , , , , , ( (2) 像上述的情形公式(2)則必須明確定義出 6 2 個變數,也就是 64 個局部條件機 率,與公式(1)中 16 個局部條件機率相較之下,使用圖 2-1 的貝氏網路表示法顯 得較為簡單。 一般來說,若所有n個變數均為二分變數時,貝氏網路最多需要n 2k個條件 機率做明確的推論,在此變數有二個條件,n代表節點數,k是網路中父節點存

在最大的數目(Russell & Norvig,1995)。相對的,聯合機率分佈的計算其總和為 n

2 個。變數的個數以指數的形式增加,因此在大部分的情況下,使用 n 2 個參數的聯 合機率進行推論是較不可行的方式。因此,以貝氏網路的架構來計算變數集的聯 合機率分佈是最為可行的方式。

三、貝氏網路在測驗上的應用

一個測驗的設計者必須先明確定義一套欲測出的技能、能力、迷思概念等 等,以及試題庫。令S =

{

S1,...,Sk

}

代表受測的技能、能力、及迷思概念的集合。

{

X Xm

}

X = 1,..., 代表試題的集合。設計者要能明確的定義技能,使其能直接與每個 問題有關聯。

(25)

Almond & Mislevy (1999)提出 CAT 的圖形模式。每個技能Si及每個問題Xj是 代表任意變數有限集合值SiXj。令S=(S1,...,Sk)表多維任意變數。X代表多維任 意變數(X1,...,Xm)。Almond 和 Mislevy 的模式由學生模式P(S)及證據模式 (X |S ) j j P 所組成,在此每個問題XjX ,假設 j S 代表與問題Xj有關技能所形成的集合, 為一個多維度的變數的向量,此時 jS S 。基本假設是從Sj的技能只有直接關聯 到問題Xj,並已知多維變數 j S 的狀態。學生模式主要描述在學生模式變數的定義 以及聯合機率分佈 P(S)與技能之間的關係。使用 Almond & Mislevy 的方法可定義 所有的問題機率模式為貝氏網路來分析學生的作答資料。

∈ ⋅ = χ j X j j S X P P P(S,X) (S) ( | )。 在此假設有一些已知的資料D=

{

(x1,s1),...,(xn,sn)

}

,可利用這些資料來建立不 同的貝氏網路模式,其目的在於預測是否缺乏或呈現技能SS可能是用不同模 式所測出的分數,此時已知D的條件下以對數概似值(conditional likelihood)來呈現 模型P

= = n i i i x s P D P CLL 1 ) | ( log ) | ( , i=1,2,...,n 由上式可知,貝氏網路可以分析如上的資料。當受試者的反應組型為已知條 件,可用對數概似機率來呈現貝氏網路模式中節點所代表變項發生的機率,此方 法將使用在以下的實徵研究的資料分析上。

第三節 評量設計與評量傳送系統

良好的評量需要根據教學的目的來設計,才能了解學生的學習認知情形。在 這樣的訴求下,如何設計良好的評量成為一個十分重要的課題。根據 Schum(1987,

(26)

1994)的主張,從推論的觀點來看評量的設計,以證據中心的概念所設計的評量有 其發展的空間。Schum 根據近代相關領域的研究,制定測驗的設計主題及其相關 規定。他主張所有人類的活動都有其行為特色,根據可觀察到的資訊來做為證 據 , 並 用 來 發 展 相 關 的 方 法 來 確 認 其 活 動 的 基 本 規 則 和 架 構 。 另 有 學 者 Messick(1992)主張設計以構念為中心的評量。他十分重視獲得證據的階段與推論 所獲得的證據,並在推論的過程中形成主要的概念。當研究者獲得所需的行為證 據時,這些證據可用來推論其目標知識的有無或程度的高低。這樣的想法可用來 解決一些人類行為上的問題,當一般所熟知的方法不能解決時,基本的證據推論 規則能有效地解決此類問題。因此,在認知診斷測驗的需求下,欲了解學生在學 科中所學得的知識內容的理解程度,就必須依賴一份良好的評量來達成此目的。 依據上述的概念,設計一份良好的評量來取得證據是必要的。設計以證據中 心為主的評量時,欲獲得完整的證據來進行正確的推論,必須考慮到以下三點: 1. 研究者以構念為導向將欲測的知識、技能、或其他特徵應用在試題的編製 中,並用來測驗受試者。 2. 研究者需編製何種作業或工作來引出研究者預測的行為,並定義何種行為 或表現的出現代表受試者具有的構念。 3. 研究者需先建立可取得證據的作業架構,並選擇以構念導向的分數規則的 題目來測驗受試者,來得到受試者的作答反應來做為推論的證據。 根據上述,研究者欲取得相關證據進行推論所欲預測的行為或認知概念,則 需設計出可獲得證據的評量,這種評量設計稱之為「證據中心的評量設計」,利 用這種評量所得到的資訊,配合相關模式架構來進行資訊的傳遞,進而可推論出 受試者的認知學習情形。

一、證據中心的評量設計

(27)

證據來編製教育評量的方法。ECD 剛開始以分析個別的知識範圍(substantive

domain)與評量目的(assessment purpose)為主,學者 Mislevy et al.(2003)認為一個 ECD 評量系統可視為一評量傳送模式(delivery model),其中包含五個子模式:學 生模式(student model)、證據模式(evidence model)、作業模式(task model)、組合模 式(assembly model)及呈現模式(presentation model)。圖 2-3 為完整 ECD 評量系統

中不同模式間的關係。圖 2-4 則是描述在不同的模式之間如何傳遞訊息的過程。 本 研 究 將 著 重 在 與 測 驗 關 係 密 切 的 二 個 部 分 , 分 別 為 概 念 性 的 評 量 架 構

(conceptual assessment framework,簡稱 CAF)與評量傳送系統中四程序結構 (four-process architecture),這二部分主要是探討評量的設計與傳遞過程,茲將此 二部分介紹如下。 概念性的評量架構包含了四個模式,而此四個模式所產生的資訊將影響所組 合完成的評量,再將評量輸出至可讓受試者操作的呈現介面。以下就針對此二部 分逐一介紹。 圖 2-3:完整的 ECD 模式 完整的 ECD 模式的設計由概念性的評量架構與呈現模式所組成,其中概念 性的評量架構包含學生模式、證據模式、作業模式及組合模式。模式之間的訊息 則靠四個程序來傳遞。 組合模式 證據模式 作業模式 呈現模式 學生模式 測量模式 特徵值 證據規則

(28)

圖 2-4:評量系統中的四個程序 受試者在接受測驗時,評量系統所進行的內部過程中不同模式所得到的訊息 由四個不同的程序來傳遞。在開始之初,活動選擇的程序中會先選定了一個作業 (例如試題或其他活動)以及利用相關工具經由呈現的程序將活動內容顯示出 來。當受試者完成與試題的「互動」後,系統經由反應的程序來輸出其作業成果。 此過程明確的說明受試者藉由答題來建立可觀察的結果,完成所有的題目後經由 總結分數的程序可得一總結分數,評量系統根據先前所得到的受試者的知識信念 來更新分數的記錄。受試者將接受四個程序的循環直至測驗結束,當受試者完成 測驗後,系統會將所得到的資訊增至儲存結果的資料庫中。

二、 概念性的評量架構

Mislevy, Steinberg, Almond(2002) 認為 CAF 為設計評量的藍圖,CAF 包含四 個模式,分別稱之為學生模式、證據模式、作業模式及組合模式。這些模式是評 量參數及評量系統的運算活動之間的橋樑。評量的參數提供一個基本架構來說明 研究者欲測的知識和技能。當受試者完成這些試題,證據才能被收集並用來證實 之後的推論。評量系統的運算活動則描述在 ECD 中所需要的步驟。在特定的評 量中,CAF 中的物件與之間的關係都是為了滿足評量的目的所設計的。其中,學 工作/證 據混合 資料庫 總結分數程序 反應程序 總結回饋 管理者 選擇活動程序 呈現程序 作業層次回饋 受試者

(29)

生模式主要描述受試者知識、技能及在評量中所表現的能力;證據模式描述如何 根據受試者的作答反應來更新研究者對受試者能力的信念;作業模式描述如何建 構作業來獲得研究者所需的觀察組型;組合模式描述如何由作業組成測驗的過程 與規則。以這四個模式所組成的概念性的評量架構,其設計的重點在於以證據為 主的推論過程。 無論是傳統的評量架構,亦或是學者 Schum、Messick、Mislevy 等人的研究, 均顯示所有應用心理計量學的評量架構均脫離不了四個模式的應用。為了使評量 可以更靈活的使用,因此將 CAF 細分為四個模式。每個模式提供明確的說明來解 決「測量什麼」或者是「如何測量」等問題,以下就這四個模式來詳細介紹。 1.學生模式 學生模式主要探討在一份測驗中研究者欲測的知識、技能、或態度。模 式中的變數代表在評量中欲推論的能力,也就是說變數代表在評量中受試者 的某種知識、技能、或態度。學生模式變數描述受試者的特徵,例如知識、 技能、能力等等;以及評量的設計者需要做的推論,例如決定、報告、診斷 性回饋或忠告。其模式定義一個或多個變數-包含知識、技能以及研究者欲 測的能力值。簡單的學生模式明確指出學生在那些領域的作業能答對;較複 雜的模式則可以說明學生在那幾種知識、或不同作業結合的程度或種類的表 現。作業模式裡所累積的證據可提供證據來推論學生模式的變數集。 定義學生模式變數之前必須先明確說明其推論的目的。在開始給學生評 量時,研究者知道一些有關於學生的變數的資訊並希望能使推論的結果更為 清楚。因此,研究者需要先慢慢地觀察並且一點一滴的收集證據,以及結合 新的資訊來建立其信念。 貝氏網路是用來呈現學生模式的一種方法,而學生模式的變數必須成為 網路的變數。這些變數在某個時間點的聯合機率代表個別受試者的知識符合 程度。當受試者接受測驗並有其作答反應,網路會一併更新此分佈。系統需

(30)

先給定受試者的背景資訊或先前經驗(例如接受前測),才能評量受試者的信 念。若不提供事前訊息的機率分佈,其模式通常會使用高風險的先驗機率。 在本研究中,將使用貝氏網路的架構來呈現學生模式。 圖 2-5:在學生模式中以機率來解釋證據模式中的可觀察變數 從圖 2-5 可看出,在學生模式的變數中如何用機率來解釋證據模式中的 可觀察變數。在某個狀態下系統以一些未知的模式變數值來將受試者的作答 反應特徵化。這些變數都是從受試者作答反應中提供的證據所組成,這些狀 態下的可觀察變數將給定某個起始機率值(即為先驗機率)。並使用貝氏網 路架構將這些關係模式化,將所收集到的證據傳送給學生模式來進行推估。 在學生模式變數及可觀察變數之間的有向邊則代表兩者之間的關係,並以條 件機率分佈來表示其影響的強度。 在學生模式中如何推估受試者能力是一個相當重要的問題。以 TOFEL 及 GRE 的紙筆測驗和電腦適性測驗為例,其學生模式皆以試題反應理論(IRT) 為主,以單一變數θ代表特定作業領域的能力精熟度,在此皆需定量的試題 來分析受試者的能力。 可觀察變數 (反應組型) 證據規則 學生模式 學生模式變數 條件機率分佈

(31)

Mislevy(1995)的學生模式將帶分數減法能力安排成如下圖的架構:一開 始有五個能力變數{α1,...,α5}及一個隱藏能力變數α ,對應於這幾個所定義wn 的技能。這些技能都是指標變數,假如受試者熟練此技能的話其值為 1,反 之則為 0。先驗分佈P(αi |λ)解釋為離散量的貝氏網路或圖形模式,在此α 為i 能力變數,λ則為受試者的能力值(Pearl,1988)。貝氏網路將使用圖形來明確 說明技能變數如何以聯合機率分佈來呈現變數之間的關係。 圖 2-6:以學生模式的圖形來呈現帶分數減法能力的關係。 圖 2-6 顯示經專家分析後所提供的圖形,主要在描述技能參數之間的相 依關係。技能 1 通常已被學習,因此給定技能 1 與其他技能的條件分佈。以 數學式子來表現其能力的機率為 ) ( ) | ( ) , | ( ) , , | ( ) | ( ) | ( ) (α Pα3 α P α4 α Pα α1 α2 α5 Pα5 α1 α2 P α2 α1 P α1 P = WN WN WN (empiric

al comparisons of cognitive diagnostic models)。

在 GRE 的測驗中包含三個不同的能力,每一個能力領域的學生模式構 成了單一不可觀察的變數,即為該領域的能力精熟度。在任何的時間點,受 試者所擁有的能力值可以經由機率分佈來表示。圖 2-7 描述這樣的學生模 式:單一精熟度的變數θ,以及左邊的機率分佈表(probability distribution table),主要是用來說明原有不可觀察的能力值(超參數)的分佈情形。 1 α 5 α wn α 3 α α4 2 α

(32)

圖 2-7:GRE 測驗的學生模式。 在 GRE 的紙筆測驗中,受試者必須接受一份事先彙編的試題,約一百 個問題並分佈於三個不同的能力區中。當受試者回答完所有問題後,在三個 技能中分別建立了起始能力值。在 GRE 的電腦化適性測驗中每一個題目將 自動被選取。為了得到更多能力值的訊息,每一題都是根據受試者先前的反 應來選取最佳試題。因此,若研究者可先得知的資訊θ ,可用來幫助選擇下 一個試題。 在受試者開始接受測驗時,受試者的機率分佈狀態是不可知的。研究者 必須隨時根據其行為來更新其狀態。當了解學生在某些 GRE 試題的反應, 會視學生模式中有幾個變數,每一個代表某些方面的知識、技能或能力,用 來假定影響學生的表現。在每一個事件中,這樣的想法跟試題反應理論模式 類似。這些變數明確說明受試者所具有的知識,其知識無法直接地被觀察 到,需以先前所知的機率分佈來解釋,以及直接地更新機率分佈來允許研究 者更新其知識的信念。簡言之,學生模式主要在於描述受試者所具有的知識 技能及所欲測量概念之間的關係。 2.證據模式 證據模式主要是在描述這樣的一個過程:給定受試者某個作業,根據其 表現來提供資訊並更新學生模式變數的機率分佈。在教育評量中的證據模式 則描述如何從學生所完成的作業中取得可推論學生模式變數的證據。可觀察 的變數即為作業表現的一些特徵。

θ

(33)

圖 2-8:作業表現及可觀察變數的關係 圖 2-8 說明作業表現及可觀察變數之間的關係即為證據規則。研究者從 受試者所呈現的作業特徵中得到證據規則,並以可觀察變數來概述 (summarize)這些證據。 證據模式包含二部分,在參數估計中分別具有不同的意義。此二個部分 分別為證據規則及測量模式。 證據規則描述可觀察變數如何從受試者所完成的作業成果中概述受試 者的表現。這些可觀察值是主要的作業輸出結果。它們可提供二種資訊,其 資訊可被用來更新學生模式變數的信念,以及對受試者所完成的作業給予回 饋。在可操作的評量中,證據規則管理(guide) 反應分數步驟(response scoring

process),並且定義及概述作業內可觀察變數中所蘊含的證據。 在 GRE 試題中,可觀察變數結合每一個試題,無論受試者是否答對此 題。藉由這樣的規則,學生的作答反應被用來與正確答案的關鍵訊息做比 對,判斷其正確與否;一份作業也許需要數個相關的步驟,每個步驟都可以 被當做受試者在該作業中能力的證據。 測量模式是證據模式的一部分,提供有關學生模式變數及可觀察變數的 連結資訊。心理計量(psychometrics)模式即應用在這樣的目的上,包括古 典測驗理論、試題反應理論、潛在模式及認知診斷模式。在可操作的評量中, 測量模式主要在於決定總結分數的過程。 圖 2-9 以 GRE 為例,其電腦化適性測驗中所使用的測驗模式為 IRT。它 證據規則 測量模式 證據規則 可觀察變數(反應組型) 作業表現

(34)

先給定某個試題 j對或錯的機率,即受試者試題反應理論能力變數θ 的函 數。之後再根據受試者對此題的作答反應來更新此信念。 (Xj為題目的分佈) 圖 2-9:GRE-電腦化適性測驗的測驗模式。 根據上述的說明可知,能力值為θ 的受試者在回答試題 j後,其所屬變 數的機率分佈為Xj。當Xj的反應為可知的,使用貝氏定理來更新θ 的信念, 也就是學生模式下的機率分佈。 圖 2-10:以 IRT 為統計模式的簡單貝氏網路架構 圖 2-10 表示 GRE 適性測驗的證據模式中統計的部分,即為試題反應理 論模式。左邊為簡單的貝氏網路架構,可藉由觀察學生對試題 j的反應精熟 度參數來更新其機率分佈。右邊是試題的資料庫,根據貝氏網路的架構來合 併受試者反應的證據。特別的是要事先估計試題的參數,定義試題反應的條 件機率分佈。這些資訊與未完成的部分一起被儲存並用來告知如何去選擇下 一題,所以下一題的反應將會是最佳化的資訊,並且維持試題種類的平衡, 以及記錄試題所呈現的資訊與技能。 當研究者在觀察學生的反應時,可使用評分規則來確定可觀察值,然後 才經由統計模式更新有關學生模式變數的信念。學生模式變數就是綜合以上 簡單的貝氏網路架構 (IRT 模式及X 的試題參數) j γ 1 X 2 X n X

.. ..

θ X

θ

X

j

(35)

情況的資訊所得到的。 3.作業模式 作業是教育評量的中心,藉由受試者的作業表現可以產生證據以及回 饋、決定、預測等基本作用。從認知及教育心理學的觀點可以了解作業的架 構,並且獲得相關的知識與線索。 作業模式變數描述作業的特徵以及這些特徵與作業表現的關聯。作業設 計者藉由設計一個作業環境來提供情境,讓受試者能在此情境中被誘發出符 合評量目的所需要的行為,並使其行為表現提供證據給證據模式來使用。研 究者根據這些要素來設計其作業,並利用組合模式來組成評量。 在作業模式中變數的另一個意義為連結學生模式變數值去預測受試者 可觀察的行為。在一給定的作業中已知作業模式變數值,並用來計算出貝氏 網路架構中證據模式的可觀察變數的條件機率分佈期望值,之後還可以計算 顯著的學生模式變數所對應的機率分佈。 在教育評量中作業是最易見的元素,並可提供直接可見的推論證據。例 如,知道什麼樣程度的受試者可以做些什麼?並能在特定的作業內容中表現 出其程度。評量設計中所設計出的作業必須對評量目的有其作用。作業模式 需滿足「什麼樣的作業或情況可以引出關於目標知識的證據行為」的問題, 主要在提供一個架構來描述受試者在某一份作業上的表現狀況。 1.xxxxxx 2.xxxxxx 3.xxxxxx 4.xxxxxx 5.xxxxxx 6.xxxxxx 明確定義 作業成果 明確定義模擬 情境、條件以及 可提供的物件 作業模式

(36)

圖 2-11:作業模式的要素 由圖 2-11 可知,作業模式的要素必須明確說明作業結果,以及提供能合 乎作業要求的工具。一個給受試者的評量中可能出現多種作業模式,其作業 表現可在不同形式下用來提供證據,或者是在不同能力值觀點以不同的呈現 形式來提供證據。 作業被用來描述一些研究者欲了解的情況,也就是說設計者提供受試者 機會去做一些具體的行動來產生設計者想知道的資訊。作業本身不能描述受 試者應該產生什麼樣的表現,或者如何評量研究者所見的表現。但是,在證 據模式中上述的問題都可以獲得解決的方法。 在 GRE 的作業模式中呈現一組試題時,不同的試題形式即代表不同的 作業模式。題目的種類不同,將有不同的作業模式,因為作業變數集合需要 描述其作業表現的形式。在模式化試題參數或控制選題時,不同的作業特徵 是非常重要的。在紙筆測驗或電腦化適性測驗中所測的內容相同,但是作業 模式卻是不同的,這樣的作法可以明確地說明在這二種模式下試題的呈現方 式是大不相同的。 評量設計的目的在於確定作業的特徵並取得證據。藉由給定的作業,受 試者的反應將構成學生模式下受試者能力值的證據。 學生模式 證據規則 測量模式 證據模式 作業模式 模擬裝置 1.xxxxxx 2.xxxxxx 3.xxxxxx 4.xxxxxx 5.xxxxxx 6.xxxxxx 評量組合規格 概念/理論基礎 環境/介面

(37)

圖 2-12:作業架構中模式變數的作用 圖 2-12 表示在作業架構中模式變數的作用在於連結評量的理論基礎來 建立作業的操作功能,其重點在於什麼樣的情況下可以引發受試者能力的行 為,並視為能力的證據。 以認知的觀點來解釋在評量中的證據即為受試者的知識或表現,在評量 設計中以證據的觀點也能夠符合具有知識或表現下的認知觀點。在數學領域 中認知的作業分析可以找出一些解釋清楚的觀點:1.情境的基本特徵。2.情 境的內部表徵(internal representations)。3.在解題行為與內部表徵之間的關

係。4.如何解決問題。5.什麼原因使問題變難 (Newell & Simon,1972)。評量 設計者需以認知的規則來設計評量,並以人們經常使用的知識來設計作業,

進而取得這些作業的特徵,成為有意義的知識觀點。這些觀點將變成一般的 作業模式變數。Irvine,Collis et al.(1995)與 Dennis et al.(1995)利用這樣的原理

來描述這些操作試題難度的特徵,但有些偶發事件是無法描述的,只有以實 際例子來證明在作業的表現是否合理。 典型的評量有可能包含多種作業模式,用來呈現不同的作業。不同試題 形式需要不同的作業模式,因為不同變數集需要描述不同的刺激物及呈現的 形式,在模組化試題參數或控制試題的選擇時需要不同的特徵。根據證據模 式的觀點,不同作業模式例如以紙筆測驗的形式或電腦化適性測驗的測驗方 式來呈現相同的試題,因為在兩種方法下目前的規格與試題的管理是不同 的。在貝氏網路的研究中,作業模式的決定是一件很重要的事情,包含要測 的內容、其內容的難易度等等,都必須先行定義出來,來成為作業模式的變 數。 4.組合模式 組合模式描述如何將學生模式、證據模式及作業模式一同運作以構成心

(38)

理計量評量。其目的在於描述如何準確地測出每個學生模式的變數,及作業 如何恰當且穩定地反應出測驗範圍的廣度及差異性。組合模式中的限制將使 多種形式的作業結合在一起構成一個評量。簡而言之,組合模式是將所有已 知的資料組成測驗,其形式可能為紙筆測驗或電腦化適性測驗,端視研究者 的目的為何。如電腦化適性測驗所要求的是要達到某種程度的精準度或者是 某種程度的速度;而紙筆測驗主要要決定以何種形式施測?要測幾題?決定 之後再組卷施測。 在 GRE 的紙筆測驗與電腦化適性測驗的形式中,以組合模式中的規則 來限制試題的形式,包括閱讀測驗段落的內容、使用幾何圖形的試題數、抽 象與具體的概念、句型的複雜度、以及其他的作業特徵;在統計學的試題特 徵中,試題的難度也是一個可以考慮的重點。不同的測驗方法適合不同的呈 現方式,例如在紙筆測驗中可以以選擇題、應用題等等不同形式來呈現。GRE 的紙筆測驗形式適合難度相同或是一般分佈的試題。而 GRE 的電腦化適性 測驗模式符合受試者個人的特質,將根據學生一連串的作答反應來增加資 訊。學生答對試題時,下一題就有回答較難問題的傾向,當學生答得不好時, 下一題的問題就可能較簡單。 當確定試題的範圍後,組合模式將明確說明如何管理多種作業來組成一 份給受試者受測的評量。根據作業的統計特徵值;例如受試者作答資訊的期 望值提供給不同的學生模式變數、以及非評量的因素如內容、格式、時間、 試題之間的相依性等特性來構成組合模式的限制條件。這些限制條件可以被 彈性的使用。這些限制條件被定義在作業模式變數中,所以必須定義作業模 式變數來特徵化每個作業給組合評量以便進行組卷提供給受試者作答。

(39)

圖 2-13:將多種作業組成一個評量的情形 圖 2-13 說明在組合評量時作業模式變數的作用在於將作業的特徵集合 起來,並將多種作業組成一個評量,提供受試者接受測驗,而受試者的表現 將被用來定義學生模式中的變數。其中限制條件的集合與作業規格、證據規 則、以及學生模式的貝氏網路架構將組成一個最佳化學生模式變數的評量, 對於評量設計者而言這是一個相當重要的問題。然而,不管是學生模式變數 的功能定義是否與其內含的概念定義相符,都會影響評量的設計。例如,最 大訊息量會限制了試題的 IRT 參數,其組合明確說明對於 GRE 電腦化適性 測驗有一些相同的限制。這些限制確定系統所選的試題對所有受試者有相近 但不同的內容及格式,並且能藉由單一能力值的試題反應理論模式將試題模 式化。 根據 IRT 的理論,選題時除了最大訊息量的限制之外,在 GRE 適性測 驗的組合規則中尚包含二個限制:模組(blocking)與部分重複(overlap)。這些 限制用來收集與管理試題,並使所有給受試者作答的試題有相似的內容、難 度、規格等等,在單一能力值的 IRT 模式中更易於推論且模式化。以下就此 二個限制分別說明之。 模組(blocking)的限制主要是由不同受試者來管理不同試題,當受試 者接受測驗時,在不同層次的難度中,仍然會得到類似的內容、格式、技能 指令等混合試題。Stocking and Swanson(1993)列出 41 條常用於 GRE CAT 的

學生模式 證據規則 測量模式 證據模式 作業模式 模擬裝置 1.xxxxxx 2.xxxxxx 3.xxxxxx 4.xxxxxx 5.xxxxxx 6.xxxxxx 評量組合規格 概念/理論基礎 環境/介面

(40)

標準,因為它不可能同時滿足所有的限制條件,這些作者利用最佳化的程式 來選取試題,且在試題變數中必須滿足模組的限制。換言之,當系統從題庫 中選取試題時,所選的試題都需有相似的內容、格式、技能指令,當受試者 完成作答後,系統都能獲得最大的特徵資訊。 部分重複(overlap)的限制條件包含無法程式化以及記錄(catalogue)特徵 值的試題。當某些試題為已知時(或者是先前已作答過的試題),類似的試 題不能出現在同一個測驗中;因為這些試題可能同時具有共同的特徵,或者 是洩露答案資訊給其他題目;亦或者可能測驗相同的概念。以GRE為例,對 某個特定的試題而言,相同形式的試題集合是不能一起出現在同一個受試者 的測驗中,因為使用相似的試題將減少關於受試者的資訊。雖然每一題都是 可接受的,但是在條件獨立的IRT模式時,其表現會造成證據的「雙重計算」。 (Schum, 1994) IRT的適性測驗就如同改變學生模式變數中知識的狀態,其推論的目的 都是為了找出受試者的能力值。適性測驗使用資訊公式及以大量作業為基 礎,並依循部分相同的限制條件來選題。歸納這些選題過程的類型需要更複 雜的模式,在這樣的模式下學生模式變數可能將焦點轉移到其他地方。在心 理計量學中關於選題與組卷的問題可參考多變量IRT模式與潛在組型模式的 相關研究。 除了上述四個模式外,尚有「呈現模式」,其目的在於呈現不同形式的 評量。例如,紙筆測驗、或是經由電腦上的網頁,甚至透過電話的方式、學 生的檔案資料來評量學生。而呈現模式描述如何以不同的形式來表現作業的 設計,並將相關資料組成某種形式(如組卷)來呈現並記錄。同樣地,GRE 試題也是以紙筆或電腦適性測驗的方式來管理並且呈現,但是使用電腦有較 多的限制。在本研究中尚未探討此部分的設計,因此簡而略之。

(41)

三、評量傳送系統的四個程序

將評量中學生、證據、作業、組合及呈現模式連結在一起並使其運作稱之為 評量的「傳送系統模式」。此模式也需要討論透過其他模式如平台、安全性、時 間等因素的問題。使用評量之前,需先評估此份評量的實用性及目的,為了更能 符合實際的需求,可將評量更進一步地細分為更細部的形式,並針對不同的需求 組合成不同的結構。例如,診斷測驗需要一個比入學測驗更好的學生模式,因為 診斷測驗的目的在於提供受試者較為細部的診斷報告。假如在診斷測驗及入學測 驗中使用相同的作業,就必須有相同的作業模式並滿足這二個完全不同的目的。 然而,這樣的做法將需要不同的證據模式,才能恰如其份地滿足評量的目的。 評量設計的重點在於根據實用性來設計評量。然而,在使用評量時,仍有其 限制。例如,在許多不同的作業平台使用評量,在資訊的流通上尚存在一些困難 點;紙筆測驗是目前最為廣泛的測驗使用方式,口頭測驗則是經過長時間仍被人 們所廣為使用,然而此二種測驗所得到的資訊有限,且費時費力;電腦測驗強大 的功能性不可限量,但仍在發展中。如何將這些不同形式的評量應用於生活中並 且使其有效運作,需仰賴評量傳送系統架構來傳送評量,其方法可能是透過網 頁、電話,以及易攜帶的裝置等方式。 為了協助制定這些不同傳送測驗的方法,ECD 提供一般測驗傳送的架構, 在此架構中不同模式中有個別的評量傳送過程,稱之為傳送評量的四個程序。此 四個程序的傳送架構為一完整的系統,任何評量系統在形式上均需包含這四個程 序。在一個給定的評量系統中,無論是否存在著未完成的步驟,亦或是有步驟不 適合用於人、電腦,或是人與電腦之間互相有所影響的情況,都是可能發生的現 象。因此,以下將就此四個程序的目的與意義分別說明之。 (一)呈現程序(presentation process) 在呈現程序中對於呈現作業、亦或是提供受試者使用的呈現工具,以及收集

(42)

受試者的作業表現是相當重要的。例如以電腦為呈現工具的測驗,其模擬測驗可 以得到活動的過程記錄,針對分類測驗的系統來記錄或對照答案集。在 GRE 紙 筆測驗中,呈現模式包含管理事前的組合測驗及收集受試者隨意反應的答案集。 在電腦適性測驗中,受試者在一連串試題的反應表現,在每一題中都會依其反應 來估計並用來引導下一題的選擇,在此步驟中,受試者如何操作並與其工具媒介 互動為最主要的課題。 (二)反應程序(response processing) 反應程序的重點在於發現受試者的作業表現是否有出現關鍵的特徵,此特徵 即證明受試者具有該解題能力。可觀察的表現可以追溯到所完成的相關作業層次 的回饋或其總結分數的程序,包括受試者所選擇的答案需與正確答案相符、亦或 是執行一個自動給分工具所得的分數,或者是根據規則進行人工閱卷的得分等等 在 CAF 中已明確說明的證據規則。反應程序由多種策略所組成,若已明確定義出 語詞及句法的特徵,則可用迴歸模式來總結其反應並輸出為單一分數。 GRE 電腦化適性測驗及紙筆測驗雖然是兩種不同的形式,但是兩者的反應過 程中所代表的意義是相同的:學生的答案必須與正確答案做比對。但是,在這二 種形式中的作業形式與答題方式、計分方式等等都是不同的。在紙筆測驗的形式 下,受試者必須使用複雜的演算法,並以人工的方式來檢查學生所做的回答,並 視其相關反應程度的強度來給分。在電腦化適性測驗的形式下,系統將會利用學 生回答的選項來比對電腦中所儲存的答案是否完全符合。在反應程序中,如何從 作業表現來獲得證據,是研究者特別重視的地方。 (三)總結分數程序(summary scoring process)

總結分數的程序主要是累積數種的作業所得的可觀察結果來形成部分或評 量層次的得分。例如以 IRT 應用在 GRE 電腦化適性測驗測驗中;將貝氏網路的

證據累積過程應用在 DISC(用於牙醫學的模擬評量)的標準中,簡易地算出正 確反應的數目。在 CAF 的測量模式中以作業模式中的某一個特定的作業來說明如

(43)

何完成此部分。簡而言之,如何從作業中來累積證據,是總結分數的重點。

(四)選擇活動程序(activity selection process)

這個程序的重點在於決定下一個作業為何,以及停止評量的時機。當做這些 決定時,適性測驗需先知道學生目前的狀態,即在總結分數的程序中已經更新學 生模式的變數。此時,系統也由評量模式轉為教學模式。選擇活動的例子包含簡 單的線型序列,如 GRE 紙筆測驗,學生可能選擇的答題順序均在系統所給定的 範圍內;電腦化適性測驗的試題選擇,如 GRE 電腦化適性測驗和可操作的 DISC 評量,學生選擇自行選擇課程並自定進度的練習(self-paced system)時,下一步如 何進行,是選擇活動時需要特別注意的事項。 (五)作業/證據混合資料庫 所有四個程序都需要特定的資料來完成工作:呈現的程序中需要文字、圖片 及其它原始資料來呈現作業的內容與受試者的反應;反應程序需要關鍵規則或其 他證據規則的資料來對照受試者的作答反應;在總結分數的程序中需要提供每個 作業證據比重的參數,才能給予受試者回饋;選擇活動的程序中則需將類別和資 訊寫成程式來平衡(banlance)評量的形式。作業/證據混合資料庫則為一聯合資料 庫,用來儲存以上程序中所產生的資訊。在 GRE 紙筆測驗中,部分資訊被用來 組合測驗,當受試者完成這些程序時,其資訊會被用來給分或者是累積證據;在 GRE 電腦化適性測驗中,受試者在回答題目後,系統獲得資訊並選取下一題。 藉由回答所給定的問題答案的得分,以及最後的測驗分數來獲得資訊。在建立概 念性的評量架構的模式與程序之間,所做的決定都會直接地反應在該程序中,不 管在那個程序中所得到的資訊,都會被存取在作業/證據混合資料庫。 在統計的模式化及估計法的發展中,新的心理計量模式適合於更廣泛的教育 評量中,吾人無法從設計評量的程序中分離自動化給分的可能性。所有的程序必 須一同運作來組成一份評量。給定一個共同的架構,並用來討論在評量傳送過程 中每一個設計要素所代表的參數意義與其重要性。證據中心的評量設計提供這樣

數據

圖 2-4:評量系統中的四個程序  受試者在接受測驗時,評量系統所進行的內部過程中不同模式所得到的訊息 由四個不同的程序來傳遞。在開始之初,活動選擇的程序中會先選定了一個作業 (例如試題或其他活動)以及利用相關工具經由呈現的程序將活動內容顯示出 來。當受試者完成與試題的「互動」後,系統經由反應的程序來輸出其作業成果。 此過程明確的說明受試者藉由答題來建立可觀察的結果,完成所有的題目後經由 總結分數的程序可得一總結分數,評量系統根據先前所得到的受試者的知識信念 來更新分數的記錄。受試者將接受四個程序的循環直至
圖 2-8:作業表現及可觀察變數的關係  圖 2-8 說明作業表現及可觀察變數之間的關係即為證據規則。研究者從 受試者所呈現的作業特徵中得到證據規則,並以可觀察變數來概述 (summarize)這些證據。  證據模式包含二部分,在參數估計中分別具有不同的意義。此二個部分 分別為證據規則及測量模式。  證據規則描述可觀察變數如何從受試者所完成的作業成果中概述受試 者的表現。這些可觀察值是主要的作業輸出結果。它們可提供二種資訊,其 資訊可被用來更新學生模式變數的信念,以及對受試者所完成的作業給予回 饋。在可操作
圖 2-11:作業模式的要素  由圖 2-11 可知,作業模式的要素必須明確說明作業結果,以及提供能合 乎作業要求的工具。一個給受試者的評量中可能出現多種作業模式,其作業 表現可在不同形式下用來提供證據,或者是在不同能力值觀點以不同的呈現 形式來提供證據。  作業被用來描述一些研究者欲了解的情況,也就是說設計者提供受試者 機會去做一些具體的行動來產生設計者想知道的資訊。作業本身不能描述受 試者應該產生什麼樣的表現,或者如何評量研究者所見的表現。但是,在證 據模式中上述的問題都可以獲得解決的方法。  在 GR
圖 2-13:將多種作業組成一個評量的情形  圖 2-13 說明在組合評量時作業模式變數的作用在於將作業的特徵集合 起來,並將多種作業組成一個評量,提供受試者接受測驗,而受試者的表現 將被用來定義學生模式中的變數。其中限制條件的集合與作業規格、證據規 則、以及學生模式的貝氏網路架構將組成一個最佳化學生模式變數的評量, 對於評量設計者而言這是一個相當重要的問題。然而,不管是學生模式變數 的功能定義是否與其內含的概念定義相符,都會影響評量的設計。例如,最 大訊息量會限制了試題的 IRT 參數,其組合明確說明對於
+4

參考文獻

相關文件

就知識及相關理論的最新發展,體育教師可運用他們的專業知識,把新元素例如資訊素養、企 業家精神、人文素養,以及

(2)

記敘文 說明文 說明文 說明文 說明文 實用文 實用文 實用文 實用文 描寫文 描寫文 描寫文 描寫文 抒情文 抒情文 抒情文 抒情文 議論文 議論文 議論文 議論文 其他 其他 其他

我們分別以兩種不同作法來進行模擬,再將模擬結果分別以圖 3.11 與圖 3.12 來 表示,其中,圖 3.11 之模擬結果是按照 IEEE 802.11a 中正交分頻多工符碼(OFDM symbol)的安排,以

圖 2-13 顯示本天線反射損耗 Return Loss 的實際測量與模擬圖,使用安捷倫公司 E5071B 網路分析儀來測量。因為模擬時並無加入 SMA

企業營業活動能夠持續運作,必須仰賴良好的財務狀況;但新創事業 由於受限於資金因素,常面臨財務不確定性風險,導致企業破產或是週轉 不靈黑字倒閉發生。 Abdelsamad、DeGenaro 及

(6) 需業主配合事項:統包商應於決標通知日起 1 個月內,向業主提送

並利用模糊德菲法(Fuzzy Delphi Method;FDM)之方式,探討影響 IC Design House 選擇委外測試廠商的重要因素為何,並藉由模糊層級分析法(Fuzzy