認知診斷模型

第二章文獻探討

第二節認知診斷模型

壹、認知診斷評量 (Cognitively diagnostic assessment)

認知診斷評量 (Cognitively diagnostic assessment, CDA) 一詞源自於 Nichols (1994) 所創。在教育研究回顧 (Review of Educational Research) 發表的文章中，他除了概述促 使 CDA 發展的社會趨勢外，並提出以心理學為導向而設計的認知診斷評量的架構。

Nichols (1994)指出，起源於 20 世紀初期的傳統評量，其目的在於選才，亦即找出最有可能在特定的教育制度下獲得成功的學生。評量所用的方式是估計受測者在某個潛在變數當中的位置，該變數在古典測驗理論中就是真分數 (True score)，在單維度的試題反應理論中則是潛在特質。同時，傳統評量的設計往往依據邏輯分類與內容細目，原就缺乏在測驗領域的成就背後的歷程與結構的模型，因此測驗分數緊密的聯繫著施測的內容範圍，而非認知機制。

到了 90 年代，由於察覺高品質與廣泛分布的教育緊密連結到國家的表現，因此教育的重心開始放在幫助個體在教育機會中達致成功，而非選擇出能夠在教育機會中成功的個體。在這樣的脈絡下，教育工作者需要的是有助於個體進一步學習的評量，於是許多學者一方面批判傳統評量無法洞察測驗表現背後的心理特點 (Glaser, 1981; Glass, 1986)，另一方面也發展結合認知科學與心理計量學的診斷評量，以提供教學更多的診斷訊息，Nichols 將之稱為認知診斷評量 (Nichols, 1994)。

Nichols (1994)提到了 CDA 的幾項特徵：

1. 以學習與成就背後的心理學研究為基礎，並有系統的設計評量中的問題。

2. 應用統計模型於所觀察到的資料上，以評定學習者的成就分數，並據以推論其歷程與知識結構的品質。

3. CDA 能夠將測驗的發展者對於建構測驗與測驗的評分背後的假定明確化，包括受測者所使用的歷程與知識結構和發展的方式，以及能力高與能力低的受測者之間的差異等。

在 2002 年 1 月，美國簽署了一項聯邦法律《不讓孩子落後法案》 (No Child Left Behind Act of 2001, NCLB)。法案中要求美國全國所有 3－8 年級學生每年必須接受各州政府的閱讀和數學統考，其中統考的目的是診斷學生在閱讀與數學的相關技能或屬性的精熟狀態，以提供學生關於其強項或弱點的詳細訊息，而這項政策也進一步促使了認知診斷評量的迅速發展 (Huebner, 2010)。時至今日，由相關文獻集結而成或專門介紹的相關書籍已陸續出版(Leighton & Girel, 2007; Nichols, Chipman, & Brennan, 1995; Rupp, et al., 2010; Tatsuoka, 2009)，也正說明了此新領域的蓬勃成長。

綜上所述，隨著時代的演進，教育的焦點更加關注於個體的學習，能夠提供個體的認知歷程與知識結構的 CDA 也應運而生。

貳、認知診斷模型 (Cognitively diagnostic model)

關於 CDA 的實施，Nichols (1994) 提出了設計的五個步驟，包含實質理論的建構、

設計的選擇、測驗管理、反應計分與設計修正，如表 2-6 所示。

表 2-6 發展以心理學為導向的認知診斷測驗之五個編製步驟步驟一實質理論的建構

實質理論所關注的是，一方面發展描述個體成就表現涉及的知識與技能的模式或理論，一方面也發展能描述上述知識與技能的試題。

步驟二設計的選擇

在這個步驟，測驗的編製者必須選擇觀測(observation)與測量設計，而選擇的標準必須以步驟一的實質理論為基礎，且所建構的試題必須能預測受試者做答所使用的，以及已經藉由理論判別出的特定知識、技能與其他特徵。建構測量的程序即為讓測量設計操作化。

步驟三測驗管理

測驗管理包括測驗內容的每個部分：試題的形式、反應的種類、計分的工具、施測的環境等。

表 2-6 發展以心理學為導向的認知診斷測驗之五個編製步驟（續）

步驟四反應計分

這個步驟的目標是根據受試者的反應組型，給予某個數值，並將其反應組型與實質理論所建構的策略或錯誤規則相聯結。

步驟五設計修正

設計修正是一個蒐集支持模式或理論的過程，即透過證據的蒐集，可以獲知理論是被支持或被挑戰的。在這個步驟，測驗施測的結果將用來修正實質理論的架構。

資料來源：Nichols (1994); 修改自涂金堂（2003：69）。

DiBello、Roussos 及 Stout (2007) 也將 CDA 的實行歷程概念化為六個主要部分：

1. 描述評量的目標。

2. 描述所欲診斷的潛在屬性的模型（屬性空間）。 3. 發展與分析評量裡的作業（例如測驗題）。

4. 詳述將成就表現連接至潛在屬性的心理計量模型。

5. 選擇估計模型與評鑑結果的統計方法。

6. 發展對受試者、教師與他人報導評量結果的系統。

其中「屬性」一詞在 CDA 的相關研究中，依據脈絡的不同可以是技能、認知歷程、知識狀態與知識表徵 (de la Torre, 2009b; Lee, de la Torre, & Park, 2011)。

前述提及，CDA 結合了認知科學與心理計量學。而在幾十年的發展下，心理計量學家陸續發表了至少十餘種能用於 CDA 的心理計量模型 (Rupp, et al., 2010)，亦即認知診斷模型 (Cognitively diagnostic model, CDM)，如表 2-7 所示。CDM 扮演的重要角色就位於上述 Nichols (1994) 所提的步驟四，以及 DiBello 等人(2007)主張的歷程 4 與 5。

DiBello 等人指出，心理計量模型本身為透過受試者具有之屬性與試題特徵（試題參數）

而指出特定試題反應的數學函數，而在其提到的歷程 5 中，將會估計模型的試題參數與受試者母群體參數，隨後將受試者透過屬性來分類。以二元分類為例，即是會針對每位受試者估計各個屬性是否精熟。

表 2-7 認知診斷模型分類

Full-MCRUM Full-MCRUM

Reduced-MCRUM Reduced-MCRUM

DINO

Full-MCRUM Full-MCRUM

Reduced-MCRUM Reduced-MCRUM

BIN BIN

表 2-7 認知診斷模型分類（續）

註：RSM, rule-space method; AHM, attribute hierarchy method; BIN, Bayesian inference network; DINA, deterministic inputs, noisy “and” gate; HO-DINA, higher-order DINA;

MS-DINA, multistrategy DINA; G-DINA, generalized DINA; DINO, deterministic inputs, noisy “or” gate; NIDA, noisy inputs, deterministic “and” gate; NIDO, noisy inputs,

deterministic “or” gate; GDM, general diagnostic model; HGDM, hierarchical GDM;

MCLCM, multiple classification latent class models; RUM, reparametrized unified

model/fusion model; C-RUM, compensatory RUM; NC-RUM, non-compensatory RUM; full NC-RUM, NC-RUM with continuous latent interaction term; reduced NC-RUM, NC-RUM without latent interaction term; RERUM, randon-effects RUM; LCDM, log-linear cognitive diagnosis model.

1「非補償的」與「補償的」兩類模型的界定將於第 30 頁詳細說明之。

資料來源：出自 Rupp 等人(2010: 98)。

参、DINA 模型

在眾多模型中，Dibello、Roussos 與 Stout (2007)回顧並整理了能適用於二元計分試題，且大多需使用 Q 矩陣 (Tatsuoka, 1983) 的許多模型，如表 2-8 所示。其中單維度的 IRT 與 LLTM 等模型雖通常不列入 CDM 範疇，但基於突顯模型間異同或說明模型發展緣由等因素，Dibello 等人仍然將其納入文章架構中討論，包含在如表 2-8 般的相關表格中一併呈現其模型特徵。此外，在 2001 年 Junker 與 Sijtsma 賦予表中的模型 RLCM 新的名稱「DINA 模型」，以突顯該模型的重要特徵，因此 RLCM 與本研究使用的 DINA 為同一模型。

Dibello 等人(2007)在其文獻中介紹了 Q 矩陣後，提出了一個涵蓋表 2-7 中所有模型的一般化模型，再針對包含 RLCM 在內的各個模型一一詳述與比較。以下茲整理其與相關文獻的內容，依其流程介紹 Q 矩陣、一般化的模型、RLCM 模型與「DINA 模型」

名稱的意義，並進一步比較 DINA 與其他模型的相關特徵，最後說明應用 DINA 模型之相關研究與工具。

表 2-8 認知診斷模型列表

模型縮寫模型名稱參考文獻

1PL One-parameter logistic Rasch (1961) 2PL Two-parameter logistic Birnbaum (1968) 3PL Three-parameter logistic Birnbaum (1968)

DINO Deterministic-Input Noisy-Or Templin and Henson (2006) GLTM General component latent trait Embretson (1985, 1997) HYBRID HYBRID Gitomer and Yamamoto (1991) LLTM Linear logistic test Fischer (1983) MCLCM-C Compensatory MCLCM

(multiple classification latent class)

Maris (1999) MCLCM-D Disjunctive MCLCM Maris (1999) MIRT-C Compensatory multidimensional

IRT

Reckase and McKinley (1991) MIRT-NC Noncompensatory MIRT Sympson (1977)

MLTM Multicomponent latent trait Whitely (1980), Embretson (1997) RLCM Restricted latent class Haertel (1984, 1990)

RUM Reparameterized unified cognitive/psychometric

DiBello et al. (1995)

Hartz (2002), Hartz and Roussos (2005) 資料來源：出自 DiBello 等人 (2007: 997)。

一、Q 矩陣

包含本研究所使用的 DINA 模型在內，Q 矩陣是許多 CDM 所需的工具，能夠指出評量的每一個題目各自所測量的屬性。以 Henson 與 Templin (2007) 所舉的數學測驗試題為例來說明，假設有三道數學試題如下：

1. 2 3 1  2. 4 / 2 3. (4 2) 3 

其中正確解答每個題目各自所需的四則運算不盡相同，其 Q 矩陣可以表示如表 2-9：

表 2-9 試題 Q 矩陣示例 cognitive diagnostic model) 的部份假設而來。根據 DiBello 等人的說明，決定性的認知診斷模型如下所述：

那麼一個受試者正確答對一個試題的機率便可由下列決定性模型 (deterministic model) 了過去文獻曾提出的四個因素(DiBello, et al., 1995)：

1. 策略：受試者可能使用不同於 Q 矩陣中假設的解題策略。

其中v_j  試題 j 的解題策略數。

其中q 的定義承(1)式。因此_jk _ij的意義為第 i 個受試者是否精熟第 j 題試題所需的所有屬 性，若有則其值為 1，無則為 0。

進一步地，DiBello 等人指出 RLCM 引進了值介於 0 與 1 之間的兩個參數以處理缺乏完美的正向性的現象，其定義與意義如下：

( 1 1)

j P Xij ij

     ；r_j P X( _ij 1_ij  0)

即_j代表受試者在精熟第 j 題試題所需的所有屬性時，答對該題的機率；r 代表受試者_j 在未精熟第 j 題試題所需的所有屬性時，答對該題的機率。

最後，RLCM 的試題反應函數為

1 1

( _ij 1 _i) ( _j _j, _i) _j ^ij _j ^ij

P X   P C S   ^ r ^^ . (6) 亦即(6)式呈現了受試者 i 在具備二元的屬性精熟向量_i {_ik}時，答對第 j 題試題的機 率。

在 1977 年，Macready 與 Dayton(1977)首先發展了較(6)式狹義的機率模型，該模型多出的假設為所有分析的試題皆測量同樣的屬性，因此模型僅用於將受試者分為精熟與未精熟所有試題測量屬性的兩類 (DiBello, et al., 2007)。十餘年後可視為該模型的推廣，

允許在各試題測量不同屬性而在各試題恰含兩個分類參數_j與r 的 RLCM 才由 Haertel _j (1989) 所發表。

四、DINA 模型

檢視上述 RLCM 的結構，式(5)中受試者 i 的潛在反應_ij具有以下特質：

1. 具有決定性輸入(deterministic inputs) _ik^q^jk 。

2. 為二元函數，而只有在所有二元輸入值皆為 1 時，其函數值才為 1。

因此 Junker 與 Sijtsma(2001)以“deterministic inputs”與“ ‘and’ gate”兩詞分別描述上述特徵。此外他們引入失誤(slip)參數s 與猜測(guess)參數_j g ，其定義如下： _j

( 0 1) 1

j ij ij j

s P X      , (7) ( 1 0)

j ij ij j

g P X     . (8) r 式(7)與式(8)形成的機率模型連結了_ij與觀測反應X ，而描述了兩者非必然相等的具雜_ij 訊(noise)現象(de la Torre, 2009b)。

將上述描繪_ij特徵的關鍵詞合成後可得 “deterministic inputs, noisy ’and’ gate”，

Junker 與 Sijtsma(2001)並以各詞字首組成的”DINA”一詞簡稱之。而在 Junker 與 Sijtsma 的符號下，式(6)試題反應函數可表為：

1 1

( _ij 1 _i) _j ^ij _j ^ij (1 _j) ^ij _j ^ij P X    ^ r ^^  s ^ g ^^ .

特別地，de la Torre 以精簡的圖示呈現 DINA 模型變數間的關係，如圖 2-2 所示。從圖 示可看出，第 i 個受試者的潛在反應_ij是屬性{_ik}與試題需求{q_jk}的函數，且_ij將會

在文檔中以認知診斷模型分析台灣與亞洲四國（地區）八年級學生在TIMSS 2007的數學學習成就表現：以DINA模型為例 (頁 34-48)

第二章 文獻探討

第二節 認知診斷模型

第二章文獻探討

第二節認知診斷模型