四、在教育測驗上之應用 - 第一節認知診斷評量

為了探討如何將貝氏網路應用於實際教育評量中，近年來已累積了一些相關的研究成果，其中包括理念的闡述(Mislevy, 1994)；學科領域應用 (Mislevy, 1995)；建立以機率推理為基礎的智慧家教系統(Mislevy & Gitomer, 1996)；以貝氏網路建立評量設計的概念架構，再利用 MCMC 技術估計實徵資料所需的條件機率(Mislevy, Almond, Yan, & Steinberg, 1999)；以及如何建立以貝氏網路的圖形模式為基礎的電腦適性測驗 (Almond & Mislevy, 1999) 。ETS 目前也有許多研究者正在進行探討如何使用圖形模式（包括貝氏網路與多向度 IRT）去模擬學生的知識與評量的歷程，特別是在面臨新的評量取向挑戰之際，如何應用一個新的統計方法論去更新我們對學生的瞭解，做更合理的推論。至於在國內的文獻部分，由於將貝氏網路應用於教育評量尚屬新興的研究領域，目前的研究尚不多見。以下將初步已收集到的貝氏網路應用於實際教育評量之相關文獻整理如表 2-2-4：

表 2-2-4 貝氏網路應用於教育評量之相關文獻

作者文獻主題文獻內容

許雅菱(2005) 探討以證據中心的評量設計為基礎，在概念性的評量架構中的學生模式採用以機率推理為基礎的貝氏網路作為分析工具，應用在國小面積學習單元的評量中，用來診斷學生錯誤類型及子技能的有無。

本研究討論貝氏網路在教育測驗的應用，結果發現：

1. 以證據中心為主的評量設計原則與步驟，結合貝氏網路建構以概念性的評量架構為主的評量傳送模式，可有效應用於診斷學生之錯誤類型與子技能。

2. 根據貝氏網路欲測之錯誤類型來設計選項，發現不同的作答資料輸入值對辨識率造成影響，其中以二元資料輸入值在錯誤類型與子技能的辨識率較佳。

3. 將所有的錯誤類型與子技能的決斷值固定，並不能得到最好的辨識結果，若採以「動態決斷值選取法」來選取決斷值，

其辨識結果較佳。

4. 欲建構出一個完整且有效的貝氏網路，首先進行文獻探討建立貝氏網路，利用實徵資料進行分析修正，再結合刪去法，

可改良專家所建立貝氏網路。

表 2-2-4 貝氏網路應用於教育評量之相關文獻（續）

作者文獻主題文獻內容

李俊儀(2005) 將貝氏網路應用到電腦化適性測驗，了解不同的選題策略之推論正確率。

研究結果發現：

1. 動態程式化法與 AO*演算法分類正確率相同。

2. AO*選題策略在建構試題結構的時間明顯較少。

林垣圻(2006) 本研究以國小四年級數學科「面積」單元為例，利用試題證據訓練貝氏網路，選用ＡＯ*演算法來作為選題策略，建構試題結構，以建立基於貝氏網路的實體電腦線上診斷系統，並探討其可行性。

研究發現：

1. 基於貝氏網路的實體線上學習診斷系統之選題數必須至少 5 題以上，才具有可行性。

2. 在達到相同的分類正確率之前提下，採用演算停止閾值方式的適性選題策略較固定選題數 8 題與 15 題可節省更多的試題。

3. 適性選題的策略在基於貝氏網路的實體線上學習診斷系統上，具有節省試題的功效。

Mislevy(1994) 應用以數學機率為基礎的推理方式於教育評量中之理念闡述。

說明以數學機率為基礎的推理，如何應用於各種評量案例。

表 2-2-4 貝氏網路應用於教育評量之相關文獻（續）

作者文獻主題文獻內容

Mislevy(1995) 應用機率式推理進行學習診斷。

1. 提出應用機率式推理進行學習診斷之程序。

2. 將此程序實際應用於數學學科領域進行分數減法的資料分析。

Mislevy &

Gitomer(1996)

建立以機率推理為基礎的智慧家教系統。

檢視貝氏網路的概念與工具，探討貝氏網路應用於飛行器水壓系統疑難排除之智慧家教系統所扮演的可能角色。

Mislevy, Almond, Yan, &

Steinberg(1999)

採用貝氏網路建立以證據推理為中心的評量設計架構。

提出基於貝氏網路的評量設計架構，並試驗如何利用 MCMC 技術從實徵資料中估計所需的條件機率。

Almond &

Mislevy(1999)

整合圖形模式的概念與教育測驗，特別是應用於電腦適性測驗（CAT）的試題反應理論（IRT）。

1. 分析 IRT-CAT（以試題反應理論為基礎的電腦適性測驗）與 GM-CAT（以圖形模式為基礎的電腦適性測驗）的關係。

2. 提出 GM-CAT 之評量設計方式。

3. 多變項的貝氏網路學生模式與證據模式可視為多向度 IRT 的延伸。

表 2-2-4 貝氏網路應用於教育評量之相關文獻（續）

作者文獻主題文獻內容

Lee(2003) 使用貝氏網路診斷多位整數減法的 bugs。

1. 在四個網路中使用不同的決斷值，對四個 bug 的預測率皆高於 85%。

2. 加入子技能後，對 bug 的預測率提昇極小。

3. 使用特定答案作為證據，有助於 bug 預測率之提昇。

4. 最佳 bug 預測率發生於固定決斷值 0.5 時。

Liu(2004a) 採用貝氏網路建立一個模擬的評量環境。

採用貝氏網路所建立模擬器有利於探究評量作業的本質。

Liu(2004b) 提出基於貝氏網路的適性測驗選題策略－mutual

information。

比較 BnMi ， DistMi ， BnHMi ， DistHmi， DistDist，DistRand幾種選題規則，發現BnHMi表現較其他方法為佳。

Vomlel (2004a) 以分數基本運算為例，應用貝氏網路於教育測驗。

試驗結果發現不論是適性測驗，或是固定式測驗使用貝氏網路模擬技能間的關係有助於測驗設計。

Vomlel (2004b) 提出一個架構來建立使用貝氏網路的選題決策策略，並探討其在適性測驗的應用。

提出使用實際資料來建立貝氏網路，在進行選題決策分析時，AO*

規則是可採納的捷思函數。

表 2-2-4 貝氏網路應用於教育評量之相關文獻（續）

作者文獻主題文獻內容

Shih & Kuo (2005)

探討應用貝氏網路於診斷學生錯誤類型的精確度，以及實際的測驗資料作答型態之不同、分類決斷值之不同，對於貝氏網路診斷正確性的影響。

研究結果發現：

1. 貝氏網路模式應用於診斷國小四年級學童「小數加減」錯誤類型可達到不錯的診斷結果。

2. 不同類型的作答資料輸入值在本研究中並未對貝氏網路診斷精準度造成影響，未來應使用根據錯誤類型設計的診斷測驗，進行更進一步的研究。

3. 不同的分類決斷值會對貝氏網路診斷精準度造成影響，但本研究並未發現一致的最佳決斷值。

綜合上述文獻以及本章第一節中有關 CDA 的簡介，可知將此貝氏網路應用在認知評量中，其基本概念為「以貝氏網路為基礎定義一個學生模式的空間，以及一可觀察結果的證據模式空間，透過學生模式中變項及變項間的關係簡化地描述學生的知識、技能與策略的特性，而後根據證據模式進行對學生模式中潛在變項的推論」，換言之，我們可先以貝氏網路來建立學生模式與證據模式，然後根據理論與實際資料，事先假定模式中的學生潛在變項與答題的先驗分布與條件機率，而後再進一步透過前述證據推論的機制，從學生作答行為的觀測值推論出學生模式中參數的可能值。為了進一步落實此概念，Mislevy et al.(1999)在其文章中提出具體設計評量架構如圖 2-2-12 所示：

圖 2-2-12 高層次的評量設計物件（譯自 Mislevy et al., 1999）

上圖中以貝氏網路為基礎的評量設計，包含學生模式、證據模式、作業模式以及測驗組合模式四個重要的評量物件。玆分述如下：

1. 學生模式：由以貝氏網路表示的學生模式(student model based on Bayesian inference network, 簡稱 SM-BIN)組成，包含不可觀察的潛在變項，例如學生的知識、技能、錯誤類型、迷失概念，記為_i (_i₁,,_iK)，其中

i

表示第

i

個受試者，

K

表示學生模式共包含

K

個潛在變項。所有受試者的學生模式變項記為

_θ

，SM-BIN 可管理的不確定性，也是整個評量要推_i 論的目標。

2. 證據模式：由以貝氏網路表示的證據模式 (evidence model based on Bayesian inference network, 簡稱 EM-BIN)與證據規則(evidence rule)組成，描述如何從學生的作答反應抽取關鍵的證據，以進行對潛在變項的推論。證據規則產生可觀察變項的值，記為

x

 ( x

_j₁

,  , x

_jM

)

，其中 j 表

學生模式

（Student Model）

以貝氏網路表示的 學生模式

（SM-BIN）

證據模式

（Evidence Model(s)）

作業模式

（Task Model(s)）

試題特徵 組合模式(Assembly Model)

以貝氏網路 表示的證據

模式

（EM-BIN）

證據規則

（Evidence rule）

示第 j 項作業，

M

表示第

M

個子測驗。EM-BIN 描述

x

_j與的關係。所有受試者在所有作業上的反應集記為

_X

。

3. 作業模式：描述各種試題的特徵、試題內容與每一項作業的關聯，也包含了受試者特徵與作業間之連結，因此可與證據模式整合為一更完整的證據模式。作業模式的主要變項記為

Y

 ( Y

_j₁

,  , Y

_jt

)

，其中 j 表示第 j 項 作業， t 表示第 t 項作業特徵。所有題庫中的作業之所有特徵記為

Y

。 4. 測驗組合模式：描述如何組合作業成一份可執行的評量，可依測驗者需

求組成固定測驗或適性測驗。

本研究之以「錯誤類型」及「子技能」為診斷單位的認知診斷模式，主要聚焦於以貝氏網路建立上述學生模式與證據模式，並涉及初步的作業模式之設計（認知診斷測驗之編製），至於測驗組合模式之建立則尚待診斷題庫系統建立後才能發揮其功能，因此本研究尚未涉及測驗組合模式的設計。

在文檔中第一節認知診斷評量 (頁 23-30)