第二章 文獻探討
第二節 認知診斷模型
壹、認知診斷評量 (Cognitively diagnostic assessment)
認知診斷評量 (Cognitively diagnostic assessment, CDA) 一詞源自於 Nichols (1994) 所創。在教育研究回顧 (Review of Educational Research) 發表的文章中,他除了概述促 使 CDA 發展的社會趨勢外,並提出以心理學為導向而設計的認知診斷評量的架構。
Nichols (1994)指出,起源於 20 世紀初期的傳統評量,其目的在於選才,亦即找出 最有可能在特定的教育制度下獲得成功的學生。評量所用的方式是估計受測者在某個潛 在變數當中的位置,該變數在古典測驗理論中就是真分數 (True score),在單維度的試 題反應理論中則是潛在特質。同時,傳統評量的設計往往依據邏輯分類與內容細目,原 就缺乏在測驗領域的成就背後的歷程與結構的模型,因此測驗分數緊密的聯繫著施測的 內容範圍,而非認知機制。
到了 90 年代,由於察覺高品質與廣泛分布的教育緊密連結到國家的表現,因此教 育的重心開始放在幫助個體在教育機會中達致成功,而非選擇出能夠在教育機會中成功 的個體。在這樣的脈絡下,教育工作者需要的是有助於個體進一步學習的評量,於是許 多學者一方面批判傳統評量無法洞察測驗表現背後的心理特點 (Glaser, 1981; Glass, 1986),另一方面也發展結合認知科學與心理計量學的診斷評量,以提供教學更多的診 斷訊息,Nichols 將之稱為認知診斷評量 (Nichols, 1994)。
Nichols (1994)提到了 CDA 的幾項特徵:
1. 以學習與成就背後的心理學研究為基礎,並有系統的設計評量中的問題。
2. 應用統計模型於所觀察到的資料上,以評定學習者的成就分數,並據以推論其歷程 與知識結構的品質。
3. CDA 能夠將測驗的發展者對於建構測驗與測驗的評分背後的假定明確化,包括受測 者所使用的歷程與知識結構和發展的方式,以及能力高與能力低的受測者之間的差 異等。
在 2002 年 1 月,美國簽署了一項聯邦法律《不讓孩子落後法案》 (No Child Left Behind Act of 2001, NCLB)。法案中要求美國全國所有 3-8 年級學生每年必須接受各州 政府的閱讀和數學統考,其中統考的目的是診斷學生在閱讀與數學的相關技能或屬性的 精熟狀態,以提供學生關於其強項或弱點的詳細訊息,而這項政策也進一步促使了認知 診斷評量的迅速發展 (Huebner, 2010)。時至今日,由相關文獻集結而成或專門介紹的相 關書籍已陸續出版(Leighton & Girel, 2007; Nichols, Chipman, & Brennan, 1995; Rupp, et al., 2010; Tatsuoka, 2009),也正說明了此新領域的蓬勃成長。
綜上所述,隨著時代的演進,教育的焦點更加關注於個體的學習,能夠提供個體的 認知歷程與知識結構的 CDA 也應運而生。
貳、認知診斷模型 (Cognitively diagnostic model)
關於 CDA 的實施,Nichols (1994) 提出了設計的五個步驟,包含實質理論的建構、
設計的選擇、測驗管理、反應計分與設計修正,如表 2-6 所示。
表 2-6 發展以心理學為導向的認知診斷測驗之五個編製步驟 步驟一 實質理論的建構
實質理論所關注的是,一方面發展描述個體成就表現涉及的知識與技能 的模式或理論,一方面也發展能描述上述知識與技能的試題。
步驟二 設計的選擇
在這個步驟,測驗的編製者必須選擇觀測(observation)與測量設計,而 選擇的標準必須以步驟一的實質理論為基礎,且所建構的試題必須能預 測受試者做答所使用的,以及已經藉由理論判別出的特定知識、技能與 其他特徵。建構測量的程序即為讓測量設計操作化。
步驟三 測驗管理
測驗管理包括測驗內容的每個部分:試題的形式、反應的種類、計分的 工具、施測的環境等。
表 2-6 發展以心理學為導向的認知診斷測驗之五個編製步驟(續)
步驟四 反應計分
這個步驟的目標是根據受試者的反應組型,給予某個數值,並將其反應 組型與實質理論所建構的策略或錯誤規則相聯結。
步驟五 設計修正
設計修正是一個蒐集支持模式或理論的過程,即透過證據的蒐集,可以 獲知理論是被支持或被挑戰的。在這個步驟,測驗施測的結果將用來修 正實質理論的架構。
資料來源:Nichols (1994); 修改自涂金堂(2003:69)。
DiBello、Roussos 及 Stout (2007) 也將 CDA 的實行歷程概念化為六個主要部分:
1. 描述評量的目標。
2. 描述所欲診斷的潛在屬性的模型(屬性空間)。 3. 發展與分析評量裡的作業(例如測驗題)。
4. 詳述將成就表現連接至潛在屬性的心理計量模型。
5. 選擇估計模型與評鑑結果的統計方法。
6. 發展對受試者、教師與他人報導評量結果的系統。
其中「屬性」一詞在 CDA 的相關研究中,依據脈絡的不同可以是技能、認知歷程、知 識狀態與知識表徵 (de la Torre, 2009b; Lee, de la Torre, & Park, 2011)。
前述提及,CDA 結合了認知科學與心理計量學。而在幾十年的發展下,心理計量 學家陸續發表了至少十餘種能用於 CDA 的心理計量模型 (Rupp, et al., 2010),亦即認知 診斷模型 (Cognitively diagnostic model, CDM),如表 2-7 所示。CDM 扮演的重要角色 就位於上述 Nichols (1994) 所提的步驟四,以及 DiBello 等人(2007)主張的歷程 4 與 5。
DiBello 等人指出,心理計量模型本身為透過受試者具有之屬性與試題特徵(試題參數)
而指出特定試題反應的數學函數,而在其提到的歷程 5 中,將會估計模型的試題參數與 受試者母群體參數,隨後將受試者透過屬性來分類。以二元分類為例,即是會針對每位 受試者估計各個屬性是否精熟。
表 2-7 認知診斷模型分類
Full-MCRUM Full-MCRUM
Reduced-MCRUM Reduced-MCRUM
DINO
Full-MCRUM Full-MCRUM
Reduced-MCRUM Reduced-MCRUM
BIN BIN
表 2-7 認知診斷模型分類(續)
註:RSM, rule-space method; AHM, attribute hierarchy method; BIN, Bayesian inference network; DINA, deterministic inputs, noisy “and” gate; HO-DINA, higher-order DINA;
MS-DINA, multistrategy DINA; G-DINA, generalized DINA; DINO, deterministic inputs, noisy “or” gate; NIDA, noisy inputs, deterministic “and” gate; NIDO, noisy inputs,
deterministic “or” gate; GDM, general diagnostic model; HGDM, hierarchical GDM;
MCLCM, multiple classification latent class models; RUM, reparametrized unified
model/fusion model; C-RUM, compensatory RUM; NC-RUM, non-compensatory RUM; full NC-RUM, NC-RUM with continuous latent interaction term; reduced NC-RUM, NC-RUM without latent interaction term; RERUM, randon-effects RUM; LCDM, log-linear cognitive diagnosis model.
1「非補償的」與「補償的」兩類模型的界定將於第 30 頁詳細說明之。
資料來源:出自 Rupp 等人(2010: 98)。
参、DINA 模型
在眾多模型中,Dibello、Roussos 與 Stout (2007)回顧並整理了能適用於二元計分試 題,且大多需使用 Q 矩陣 (Tatsuoka, 1983) 的許多模型,如表 2-8 所示。其中單維度的 IRT 與 LLTM 等模型雖通常不列入 CDM 範疇,但基於突顯模型間異同或說明模型發展 緣由等因素,Dibello 等人仍然將其納入文章架構中討論,包含在如表 2-8 般的相關表格 中一併呈現其模型特徵。此外,在 2001 年 Junker 與 Sijtsma 賦予表中的模型 RLCM 新 的名稱「DINA 模型」,以突顯該模型的重要特徵,因此 RLCM 與本研究使用的 DINA 為同一模型。
Dibello 等人(2007)在其文獻中介紹了 Q 矩陣後,提出了一個涵蓋表 2-7 中所有模型 的一般化模型,再針對包含 RLCM 在內的各個模型一一詳述與比較。以下茲整理其與 相關文獻的內容,依其流程介紹 Q 矩陣、一般化的模型、RLCM 模型與「DINA 模型」
名稱的意義,並進一步比較 DINA 與其他模型的相關特徵,最後說明應用 DINA 模型之 相關研究與工具。
表 2-8 認知診斷模型列表
模型縮寫 模型名稱 參考文獻
1PL One-parameter logistic Rasch (1961) 2PL Two-parameter logistic Birnbaum (1968) 3PL Three-parameter logistic Birnbaum (1968)
DINO Deterministic-Input Noisy-Or Templin and Henson (2006) GLTM General component latent trait Embretson (1985, 1997) HYBRID HYBRID Gitomer and Yamamoto (1991) LLTM Linear logistic test Fischer (1983) MCLCM-C Compensatory MCLCM
(multiple classification latent class)
Maris (1999) MCLCM-D Disjunctive MCLCM Maris (1999) MIRT-C Compensatory multidimensional
IRT
Reckase and McKinley (1991) MIRT-NC Noncompensatory MIRT Sympson (1977)
MLTM Multicomponent latent trait Whitely (1980), Embretson (1997) RLCM Restricted latent class Haertel (1984, 1990)
RUM Reparameterized unified cognitive/psychometric
DiBello et al. (1995)
Hartz (2002), Hartz and Roussos (2005) 資料來源:出自 DiBello 等人 (2007: 997)。
一、Q 矩陣
包含本研究所使用的 DINA 模型在內,Q 矩陣是許多 CDM 所需的工具,能夠指出 評量的每一個題目各自所測量的屬性。以 Henson 與 Templin (2007) 所舉的數學測驗試 題為例來說明,假設有三道數學試題如下:
1. 2 3 1 2. 4 / 2 3. (4 2) 3
其中正確解答每個題目各自所需的四則運算不盡相同,其 Q 矩陣可以表示如表 2-9:
表 2-9 試題 Q 矩陣示例 cognitive diagnostic model) 的部份假設而來。根據 DiBello 等人的說明,決定性的認知 診斷模型如下所述:
那麼一個受試者正確答對一個試題的機率便可由下列決定性模型 (deterministic model) 了過去文獻曾提出的四個因素(DiBello, et al., 1995):
1. 策略:受試者可能使用不同於 Q 矩陣中假設的解題策略。
其中vj 試題 j 的解題策略數。
其中q 的定義承(1)式。因此jk ij的意義為第 i 個受試者是否精熟第 j 題試題所需的所有屬 性,若有則其值為 1,無則為 0。
進一步地,DiBello 等人指出 RLCM 引進了值介於 0 與 1 之間的兩個參數以處理缺 乏完美的正向性的現象,其定義與意義如下:
( 1 1)
j P Xij ij
;rj P X( ij 1ij 0)
即j代表受試者在精熟第 j 題試題所需的所有屬性時,答對該題的機率;r 代表受試者j 在未精熟第 j 題試題所需的所有屬性時,答對該題的機率。
最後,RLCM 的試題反應函數為
1
1 1
( ij 1 i) ( j j, i) j ij j ij
P X P C S r . (6) 亦即(6)式呈現了受試者 i 在具備二元的屬性精熟向量i {ik}時,答對第 j 題試題的機 率。
在 1977 年,Macready 與 Dayton(1977)首先發展了較(6)式狹義的機率模型,該模型 多出的假設為所有分析的試題皆測量同樣的屬性,因此模型僅用於將受試者分為精熟與 未精熟所有試題測量屬性的兩類 (DiBello, et al., 2007)。十餘年後可視為該模型的推廣,
允許在各試題測量不同屬性而在各試題恰含兩個分類參數j與r 的 RLCM 才由 Haertel j (1989) 所發表。
四、DINA 模型
檢視上述 RLCM 的結構,式(5)中受試者 i 的潛在反應ij具有以下特質:
1. 具有決定性輸入(deterministic inputs) ikqjk 。
2. 為二元函數,而只有在所有二元輸入值皆為 1 時,其函數值才為 1。
因此 Junker 與 Sijtsma(2001)以“deterministic inputs”與“ ‘and’ gate”兩詞分別描述上述特 徵。此外他們引入失誤(slip)參數s 與猜測(guess)參數j g ,其定義如下: j
( 0 1) 1
j ij ij j
s P X , (7) ( 1 0)
j ij ij j
g P X . (8) r 式(7)與式(8)形成的機率模型連結了ij與觀測反應X ,而描述了兩者非必然相等的具雜ij 訊(noise)現象(de la Torre, 2009b)。
將上述描繪ij特徵的關鍵詞合成後可得 “deterministic inputs, noisy ’and’ gate”,
Junker 與 Sijtsma(2001)並以各詞字首組成的”DINA”一詞簡稱之。而在 Junker 與 Sijtsma 的符號下,式(6)試題反應函數可表為:
1 1
( ij 1 i) j ij j ij (1 j) ij j ij P X r s g .
特別地,de la Torre 以精簡的圖示呈現 DINA 模型變數間的關係,如圖 2-2 所示。從圖 示可看出,第 i 個受試者的潛在反應ij是屬性{ik}與試題需求{qjk}的函數,且ij將會
特別地,de la Torre 以精簡的圖示呈現 DINA 模型變數間的關係,如圖 2-2 所示。從圖 示可看出,第 i 個受試者的潛在反應ij是屬性{ik}與試題需求{qjk}的函數,且ij將會