研究動機與目的

第一節研究動機

一個好的評量方法，除了要能測量出學習者的學習現況外，同時也應該能夠提供受試者學習缺失的診斷訊息，以利教學者進行有效的補救教學。如此，評量方法與教學歷程的結合，才能讓教學活動更完善。

而傳統測驗的結果常是一些測驗分數的集合，這些測驗分數反映了學生答對與答錯的題數，這分數可以提供一種可靠且穩定的訊息來將學生按一定的順序排列在某個潛在變量的連續量尺上。在古典測量理論(classical test theory, CTT)下，

這種潛在變量是真分數。而在試題反應理論(item response theory, IRT)中，這種潛在變量是潛在特質。透過訊息函數可以將學生的能力在團體中所佔的相關位置明確的表示出來，但這傳統測驗的評量設計卻無法從受試者的作答反應組型中，顯現出學生是否精熟某種技能的訊息，進而幫助學生或老師更加瞭解分數所代表的涵意，並進行更有效率的學習(Sheehan, 1997)。

近幾年來，國內對於學習成效的評量，已從單一的紙筆測驗，轉變為多樣化的評量方式。雖然多元評量的實施，提供了較廣域的評量內容，較多樣的評量方法，並且創造了較真實與公平的評量情境。然而檢視國內當前所推行的多元評量，

卻未能透過這評量歷程，提供老師足夠訊息，來診斷受試者的學習成效。

Nichols(1994)即主張傳統評量理論並無法提供有效的訊息，讓教師對學生的錯誤學習進行診斷的評量，因此，他提倡將認知科學(cognitive science)與心理計量學(psychometrics)結合，發展新的診斷評量方法，以幫助教學目標的達成。

Nichols 將這種新的診斷評量方法，稱為認知診斷評量(cognitively diagnostic assessment, CDA)。

認知診斷評量著眼於探討學生的潛在知識結構與其作答反應過程的關係。所以只有建構出能夠融合不同認知變量的模型並且模型中的參數能夠被很準確的

估計出來，才能對各個認知變量進行量化的分析，進而了解受試者的認知結構。

因此開發認知診斷模型(cognitive diagnostic models, CDMs)與測驗分析就顯得相當重要。因為只有建構出能夠融合不同認知變量的模型並且模型中的參數能夠被很準確的估計出來，才能對各個認知變量進行量化的分析，進而了解受試者的認知結構。

CDMs 是可以使用在判斷受試者優勢與劣勢的心理計量學模式,並提供給施測者的分數形態是可以有效測量學生的學習和進步的(de la Torre, 2009b)。因此在過去幾年中許多的認知診斷模型(cognitive diagnostic models, CDMs) 迅速發展與開發，並應用於認知診斷上。認知診斷模型可分為潛在特質模型(latent trait model) 和潛在分類模型(latent class model)兩大類。其中，比較具有代表性的是以

Fischer(1973)的線性邏輯潛在特質模型(linear logistic trait model, LLTM)為基礎的潛在特質模型和以 Tatsuoka (1983)的規則空間模型(rule space model, RSM)為基礎的潛在分類模型。

而潛在分類模型主要用于分析受試者的作答過程，從而探討受試者的潛在知識結構。在實際測驗時，有時候測驗所注重的不是受試者的測驗總分或分數，

而是對受試者具有何種的潛在能力缺陷或其在測驗中的典型錯誤分類感到興趣，

而潛在分類模型正好提供了這類訊息。

近年來，潛在分類模型早已發展出了相當多的模型，包括規則空間模型、統一模型(Unified Model)、融合模型(Fusion Model)、DINA模型(Deterministic Inputs, Noisy “and” Gate Model, DINA；Junker & Sijtsma，2001)、NIDA模型(Noisy Inputs, Deterministic “and” Gate model, NIDA)……等。

其中DINA模型採用了較簡單的模型定義，僅涉及「粗心」和「猜測」兩參數，且近年來，又有許多學者，投入此模型的探索與應用。因此本研究主要以DINA 模型為基礎，探討測驗設計時採取不同的Q矩陣設計、不同試題數、不同的學生

認知屬性及使用不同的測量模式，對參數估計準確性及受試者的認知屬性辨識率是否會造成影響。

在認知診斷評量模式中，以 DINA 模式較為簡單且已被應用於各方面，例如 Templin 與 Henson(2006)將這個模型用於病理性賭博的研究，研究得出美國精神病學聯合會頒布的病理性賭博診斷規則中病理性賭博的判斷最相關和最無關的診斷項目，還得到了被試患者病理性賭博的機率和易於達到的診斷規則，通過給予被試者的診斷訊息，可以降低其成為癮君子的可能性。此外，Haertel, Doignon, 與 Falmagne 也在他們的診斷模型中應用了該模型。同時，一些學者對該模型也進行了理論的探討，例如：de la Torre 與 Douglas (2004)認為受試者的能力是多元的，應與試題難度、鑑別度相對應，並以此為基礎建立了 Higher-order DINA 模型，並採用了 MCMC 方法對其模型來進行參數估計。Rupp 與 Templin (2008) 研究了 Q 矩陣的不完整性對 DINA 模型診斷結果的影響。

因此 DINA 模型在國外已被熱烈的討論與應用，但國內卻少有相關的文獻或探討，實為可惜。且認知診斷測驗逐漸結合認知科學、教學研究、及心理計量學而成為一門新科學；有些學者甚至認為診斷測驗與教學是一體的，不可單獨分開處理(Embretson, 1990; Marshall, 1990)。由此可見，未來的認知診斷測驗的新走向也許是：根據某種認知科學的理論為基礎，依據該理論設計新型的診斷測驗試題，

再提出可能評量該理論模式的 IRT 測量模式，以驗證該理論下的評量是否成立，

並予以認知、測量、或教育領域中有意義的結果解釋。

第二節研究目的

使用認知診斷評量模式時，首先就是界定所要評量的概念，依據測驗的目的選擇符合該知識領域的重要成分，作為試題的概念。確定好欲評量的概念後，接著就是將概念組合成試題，每道試題至少必須包含一個概念。試題的編製過程中，

並非任意的將概念組合成試題，必須考量認知屬性的相似程度與難易程度。試題與概念的關係，大多數的認知診斷模型，則藉由關聯矩陣(incidence matrix，通常以Q矩陣表示，Tatsuoka, 1985），表明每個試題所需要具備的概念。

測驗結果藉由受試者的試題反應組型及Q矩陣施測者即可推估受試者具有或缺乏哪些認知屬性的知識，進而據此瞭解受試者的學習狀況，並針對受試者的學習盲點，進行補救教學。

因此Q矩陣在認知診斷評量的測驗設計上實在具有相當重要地位。例如，

Rupp與Templin (2008) 探究不正確使用或不適合的Q矩陣的結果，de la Torre (2009a) 開發在DINA模式下，經驗地驗證Q矩陣有效性的方法，de la Torre與 Douglas (2008) 設計出使用多重Q矩陣來模擬不同的解題策略。

探討Q矩陣設計，對於判斷受試者認知屬性精熟的影響，在目前研究中是較為缺乏的。本研究即針對此點，探討測驗設計時，不同Q矩陣的設定，是否會影響對試題參數的估計及受試者知識狀態的診斷辨識率，以期對未來在測驗編製時，

能做為設計者參考的依據。

根據上述，本研究的研究目的如下：

一、探討 Q 矩陣平衡設計(balance)與不平衡(unbalance)設計對參數估計的影響。

二、探討測驗長度對不同測量模式參數估計精準度的影響。

三、探討試題參數對不同測量模式參數估計精準度的影響。

四、探討認知屬性數量對不同測量模式參數估計精準度的影響。

五、探討受試者認知屬性的分佈對不同測量模式參數估計精準度的影響。

第三節名詞解釋

針對本研究常用的名詞，釋義如下：

壹、 Q 矩陣平衡設計：

Q 矩陣平衡設計是指在整份測驗中每個認知屬性對應到的試題數總和相同。

貳、 Q 矩陣不平衡設計：

Q 矩陣不平衡設計是指在整份測驗中每個認知屬性對應到的試題數總和相同。

參、參數估計精準度：

參數估計精準度是指誤差的大小，亦即估計誤差愈小，則代表估計結果愈準確，本研究使用平均絕對誤差(mean absolute bias, MAB)作為評估指標。

肆、辨識率：

辨識率的概念即是估計出來的受試者認知屬性狀態應該和模擬資料的受試者認知屬性狀態是一樣的，在這樣的概念下，辨識率是指判斷正確的百分比，百分比愈高，則代表估計結果愈準確。

在文檔中 DINA模式與G-DINA模式參數估計比較 (頁 9-14)

第一節 研究動機

第二節 研究目的

第三節 名詞解釋