緒論 - 試題層次與測驗層次之認知診斷模型適合度分析-以國小四年級面積單元診斷測驗為例

本章旨在說明本研究的動機與目的、研究問題、重要名詞的詮釋、以及研究範圍和限制。茲分成五節陳述於後。

第一節研究動機

面積概念在人類生活中常會接觸和使用到，例如：地板磁磚的大小，桌面的大小等，時時刻刻都可接觸到有關面積的物品，所以面積是學童日常生活中最常接觸到也是最實用的經驗教材。

既然兒童對於面積的接觸經驗十分豐富，理論上，在學習方面應具有不錯之成效，然而現今課程實施的結果，卻發現大多數學童只學會了背公式，而無法真正掌握面積的涵義。有太多的例子證明面積的教學常常失敗，探詢學生的面積概念時，發現大多數學生掌握的不過是一連串的公式；至於面積所代表的意義，或不同面積公式之間的關聯性等往往被學生忽略，導致學生面積概念的偏頗不全而影響他們日後的學習（譚寧君，1995）。因此，若能在學生學習面積的過程中，

透過評量方式及時察覺學生的迷思概念，適時給予補救，對於學生面積概念的學習困難勢必能發揮改進之效果。

基於上述，好的評量方法，除了要能測量出學習者的學習現況外，同時也應該提供學習者學習缺失的診斷訊息，以利教學者進行有效的補救教學。如此，評量方法與教學歷程的結合，才能讓教學活動更完善（涂金堂，2003）。因此，本研究試圖以四年級數學課程中之面積單元為評量內容，藉由Tatsuoka (1985) 提出試題與概念間關聯矩陣(Q矩陣)編製一套認知診斷測驗，然而有了好的認知診斷測驗必須加上良好的認知診斷模型來分析測驗結果，才能使診斷測驗所測得的訊息能被有效的揭露，認知診斷模型是一種潛在變量模式，主要朝向評估學生精熟或

非精熟一系列細微技能發展(de la torre, 2011)。因此，可以用來診斷受試者能力的精熟情形或是特定領域的表現情況模式。它不僅比傳統的總結性評量(summative evaluation)以單一總分來表示學生的成就更具預測效力，也可顯現出學生是否精熟某種技能的訊息，進而幫助學生或老師更加瞭解分數所代表的涵意，進行更有效率的學習。

目前常被應用在測驗資料分析的認知診斷模型，包括DINA模型(deterministic input, noisy “and” gate model; de la Torre, 2009b; Junker & Sijtsma, 2001)、DINO模型(deterministic input, noisy “or” gate model; Templin & Henson, 2006)、MC-DINA 模型(multiple-choice DINA model; de la Torre, 2009a)、G-DINA模型( generalized deterministic input, noisy “and” gate model; de la Torre, 2011)等。由於模型十分多元，在測驗實務上如何使選用的認知診斷模型與測驗資料間有最佳的適合度，以獲得較精確的診斷結果，遂成為重要的研究議題。模型適配度越低，模型在統計上或估計出來的結果越不具有任何的意義(Rupp,Templin,& Henson, 2010)，相對地，模型適合度較高其解釋的試題量就提高。de la torre(2011)可透過wald test進行試題層次的模型適合度比較，藉由逐一試題檢驗與模型之間適配度並決定最佳模型；以及利用模型選擇的準則(Akaike information criterion; Akaike, 1973、Bayesian information criterion; Akaike, 1978、consistent Akaike information criterion;

Bozdogan, 1987)來進行測驗層次的模型適合度比較，由整份測驗的觀點看學生作答反應與模型間符合程度。但在文獻中並未將其應用在實徵資料中，因此本研究將應用上述的程序進行實際測驗資料之認知診斷模型選用，以確定所選定的模型能夠最佳適用於所分析的資料。

除此之外，認知診斷模型是否能精確診斷出受試者概念，也是一個令人感興趣的議題，因此模式適合度較佳的模型是否也能獲得較好的診斷正確率亦為本研究探討重點之一。

基於上述，因此本研究嘗試從試題層次、測驗層次之模型適合度檢定探究不

同認知診斷模型間的差異進而決定適合本研究最佳模型，並透過專家教師判定概念的有無的結果與不同認知診斷模型比對概念診斷辨識率之一致性，最後利用成效最佳模型分析學童在面積概念上精熟度表現情況。

第二節研究目的

茲根據前述的動機目的與重要文獻評閱結果，再加上研究者的研究心得與認知，擬定本研究核心目的。茲分別條述如下：

一、編製國小四年級面積單元診斷測驗，並分析其信、效度、難度及鑑別度。

二、探討不同認知診斷模型之試題層次模型適合度檢定。

三、探討不同認知診斷模型之測驗層次模型適合度比較。

四、分析不同認知診斷模型的診斷結果與專家判定結果之一致性並與模型適合度比較結果對照。

五、以最佳認知診斷模型檢視國小四年級學童學習面積概念之精熟程度。

第三節待答問題

根據研究目的，本研究提出下列待答的問題，茲分述如下：

一、如何利用預試結果的信、效度、難度及鑑別度修審診斷測驗內容？

二、如何分析試題層次檢定適合度的結果，針對不同認知診斷模式選擇出與試題最佳適配的模式？

三、在不同選模準則之下，何種認知診斷模型與資料較適配？

四、探討不同認知診斷模型與專家判定結果之個別概念診斷辨識率與平均概念診斷辨識率為何？

五、探究國小四年級受試學童面積概念之精熟情形如何？

5-1 分析國小四年級全體受試學童面積概念精熟表現情形如何？

5-2 分析國小四年級高、低分組受試學童面積概念之精熟情形如何？

第四節名詞釋義

茲針對本研究常見的重要名詞，進行解釋或下操作型定義如后。

壹、Q矩陣

試題與概念之間所形成的關聯矩陣(incidence matrix) 通常以Q來表示。關聯矩陣的階數(order)是由概念的個數(k)乘以試題的數目(n)，若第j道試題包含第k個認知屬性(以下認知屬性本研究將界定為概念)，則qjk=1，否則qjk=0。例如有三道試題j1、j2、j3，有兩個概念k1、k2，其中j1與j3題各含有概念k1，j2 題則包含概念 k2，亦即若想答對j1或j3題，需具備概念k1的知識；若想答對j2題，需具備概念k2

的知識。則該關聯矩陣Q為(3 ×2)矩陣。如圖1-4-1













0 1

1 0

0 1

貳、面積

係指教育部審定通過國小四年級部編版(2010)第八冊面積單元，其課程包含正方形面積、周長；長方形面積、周長；面積單位(平方公分、平方公尺)換算與組合圖形面積。

参、認知診斷模型

認知診斷模型是指施測者可藉由受試者的試題反應組型來推估受試者是否具備或缺乏哪些概念，進而依據此訊息瞭解受試者的學習狀況，進行補救教學。

本研究所探討的認知診斷模型包含：DINA、DINO、G-DINA等三種模型。

試題

概念 k1 k2

圖 1-4-1 三道試題與兩個認知屬性所構成的關聯矩陣

肆、概念診斷辨識率

診斷辨識率是用來估計受試者的概念是否跟專家診斷的結果是一致的，在這樣的概念狀態之下，概念診斷辨識率是指概念判斷的正確性，也就是判斷的百分比愈高，其估計的結果愈準確。

伍、Wald Test

本研究藉由 de la Torre(2011) 提出試題層次模型適合度檢定，以 G-DINA 為飽和模型，並以 DINA、DINO 為精簡模型，透過執行 Wald Test 計算出 W 值以 卡方檢定來檢驗使用精簡模型與飽和模型之間是否有達顯著差異，若 p＞0.05 則 顯示使用較少參數的模型與該試題作答反應資料之模型適合度和 G-DINA 模型在統計上可視為相同，但因使用精簡模型所須估計的參數較少，在模式適合度差不多的情況下，使用精簡模型會是較為經濟的選擇，所以此時試題的最佳模型會判 給精簡模型；反之，若 p＜0.05。顯示使用較少參數的模型與該試題作答反應資 料之模型適合度和 G-DINA 模型在統計上有顯著上差異，表示使用精簡模型無法得到與飽和模型相似的結果，所以試題的最佳模型會判給 G-DINA 模型。

陸、模型選擇準則

以模型為主的試題統計量的期望值與估計值之間指標的檢定(包含：百分率校正值、轉換修正值、或然率對數比)，使模型能夠更加符合測驗資料的特性。

本研究使用AIC、BIC與CAIC三種選模準則，其公式如下：

AIC = -2logL + 2‧ npar BIC= -2logL + log(N) ‧npar CAIC = -2logL +[1 + log (N )] ‧ npar

第五節研究範圍與限制

本研究由於時間、資源、及人力限制的關係，採立意抽樣的方式。僅針對彰化縣兩所國小五年級學生進行診斷研究，研究題材為數學科，因此，本研究結果不可過度推論到其他教育層級的學生和其他學科。

在文檔中試題層次與測驗層次之認知診斷模型適合度分析-以國小四年級面積單元診斷測驗為例 (頁 11-17)

緒論

第一節 研究動機

第二節 研究目的

第三節 待答問題

第四節 名詞釋義