試題反應理論模式 - 以NAEP數學評量中數學能力架構進行國小六年級的幾何測驗編製與分析

一、單向度 IRT 之 Rasch 模式

試題反應理論(item response theory)簡稱 IRT，建立在兩個基本概念上：(1) 考生(examinee)在某一測驗試題上的表現情形，可由一組因素來加以預測或解釋，這組因素叫作潛在特質(latent traits)或能力(abilities)；(2)考生的表現情形與這組潛在特質間的關係，可透過一條連續性遞增的函數來加以詮釋，這個函數便叫作試題特徵曲線（item characteristic curve，簡寫為 ICC）^。試題特徵曲線所表示的涵義，即是某種潛在特質的程度與其在某一試題上正確反應的機率，二者之間的關係；這種潛在特質的程度愈高（或愈強），其在某一試題上的正確反應機率便愈大。任何一條試題特徵曲線是由受試者能力和試題的特性共同決定，代表受試者答對某一試題的機率（余民寧，1992）。

IRT 計分方式可分為二元計分與多點計分，模式有單參數對數模式

（one-parameter logistic model）、二參數對數模式（two-parameter logistic model）

及三參數對數模式（three-parameter logistic model）。

本研究只使用單參數對數模式，僅針對單參數對數模式進行介紹，亦即 Rasch model。

多向度測驗主要可以分為兩種﹙Adams, Wilson, & Wang, 1997﹚。一種是每個試題只測量一種能力（單向度試題），但是一份測驗中包含許多單向度試題，這些試題分別測量幾種不同的能力，這種測驗稱為題間多向度測驗

﹙between-item multidimensional test﹚，如圖 2-4-1 所示。測驗組、人格量表與綜合能力測驗就是屬於這種類型。在人格測驗中，每個試題都是測量某種人格特質，而一份測驗中通常包含許多分量表，分別測量不同的人格特質。綜合能力測驗則是將幾種能力類型相似的試題都放在同一份測驗中。

第二種多向度測驗是測驗中有些試題測量了一種以上的能力，這種類型被稱為題內多向度測驗﹙within-item multidimensional test﹚，如圖 2-4-2 所示。例如，小學高年級的數學測驗中經常包含計算題與應用題兩種題型：其中計算題是屬於單向度試題，純粹是測量四則運算能力；而應用題是屬於二向度試題，

受試者需要使用表徵能力（representation）將問題情境用計算式來表示，然後再使用計算能力將答案算出來。因此單向度 IRT 模式不適合用在這類測驗上。

如果忽略試題多向度的特性，勉強使用單向度 IRT 進行分析，會因為忽略了其中某一項能力而產生偏差的結果，使分數的意義變模糊﹙Ackerman, 1991﹚。

其模式定義如下：

θ：受試者的能力參數矩陣（多向度能力）

ξ：試題參數向量

a ：第 i 題中第ik k個反應類別的設計向量（design vector）

bik：第 i 題在第k個反應類別上的計分向量（scoring vector）

A ：整份測驗的設計矩陣（design matrix）

B：整份測驗的計分矩陣（scoring matrix）

圖 2-4-1 題間多向度測驗

Item1

Item2

Item3

Item4

Item5

θ

圖2-4-2 題內多向度測驗

MRCMLM是延伸Rasch模式而成之多向度IRT模式（Hoskens, & De Boeck，

1997；Wang, Wilson, & Cheng，2000；Wilson, & Adams，1995），其模式定義如下：

A ：整份測驗的設計矩陣（design matrix）

B ：整份測驗的計分矩陣（scoring matrix）

MRCMLM 的優點是可推論單向度多點計分的測驗資料，對於測量模式若存在非獨立的情況可以藉由題組搭配該測量模式來做資料分析、擁有完美的數學性質等，更可以處理多向度多點計分的測驗資料，其應用範圍足以涵蓋多種不同變化的測驗類型，但 MRCMLM 的缺點是只可應用於單一階層資料之推論。

三、HO-IRT 模式

階層式試題反應理論模式，包含兩階層的能力量尺，第一層的能力量尺是測量學生在不同指標下的能力表現，稱為領域量尺；第二層的能力量尺是整合次級量尺預測量之高階的學科能力，稱為整體量尺。

在 HO-IRT 模式中，一測驗可觀察多個單向度的子測驗（subtest）。當不同領域量尺皆測量相同的能力時，則整份測驗就是單向度的測驗。當不同領域量尺間有關聯時，則會藉由一高階層能力來連接這些領域量尺。以下就 de la Torre ＆ Song ,2009 提出單因子高層次試題反應理論模式來進行說明：

測驗主要可觀察多個單向度的子測驗，即領域量尺分數θ ，i^(d⁾ θ 表示第_i^(d⁾ i位受試者在領域量尺d的表現，其中，d =1,2,3,L,D。當不同領域量尺測量相同的能力時，則整份測驗被認為是單向度的測驗，而不同領域量尺間有關聯，則會藉由一整體量尺能力量尺分數θ 來連接這些領域量尺分數，其中_i θ 為第_i i位受試者在整體量尺分數，其中並假設領域量尺分數為整體量尺分數的一線性函數（de la Torre ＆ Song ,2009）： θ_i⁽^d⁾=λ⁽^d⁾θ_i +ε_id

其中，λ 為迴歸參數，^(d⁾ ε 為誤差項，_id ε 假設服從平均數為 0 且變異數為_id

2 )

1−λ(^d 的常態分配，其中|λ⁽^d⁾ |≤1。根據這些假設可得知θ 的分配與_i^(d⁾ θ 相同屬_i

中採用三參數模式（three-parameter logistic 簡稱 3PL），即試題鑑別度參數、

試題難度參數和試題猜測度參數都未知情況下，以模擬研究和實證研究都發現，利用HO-IRT 可以改善試題參數的估計。

研究還發現試題參數在未知情況下，對領域量尺能力的估計、測驗的長度和領域量尺的數量並不會有很大的影響。所以在試題參數事先未知的情形下，

HO-IRT 運用 MCMC 的算法，是一個可行的提高領域量尺能力估計的方法。

（de la Torre ＆ Hong,2010）

四、模式檢定

當利用試題反應理論模式進行測驗資料分析，必須先確定資料與模式間是否匹配，模式選擇是否合適；否則將資料放在不適當的模式分析，結果必定也是不可靠的。本研究利用AIC（Akaike information coefficient）、BIC（Bayesian information coefficient）和 DIC（deviance information coefficient）來檢驗模式的適配度。三種指標的定義如下：

1.AIC（赤池信息量準則，Akaike information coefficient，簡稱 AIC）

AIC 是衡量統計模型優劣性的一種標準，是由日本統計學家赤池弘次創立發展的。赤池信息量準則建立在自由資訊量（information entropy）的概念基礎上，

可以權衡所估計模型的複雜度和此模型適配數據的優良性。在一般情況下，AIC 可以表示為：

AIC＝2K－2ln（L）

其中K 是參數的數量，L 是概似函數，假設條件是模型的誤差服從獨立常態分布。讓

n

為觀察數，RSS 為剩餘平方和，那麼 AIC 變為：

AIC＝2K＋

n

ln（RSS/

n

）

增加自由參數的數目提高了適配的優良性，AIC 鼓勵數據適配的優良性但是避免過度適配（overfitting）的情況。所以優先考慮的模型應該是 AIC 值最小的那一個。赤池信息量準的方法是尋找可以最好的解釋數據但包含最少的自由

參數的模型（Burnham,K.P ＆ D.R.Anderson,2002）。

2.BIC（貝葉斯信息準則 Bayesian information coefficient ）

在統計上BIC 是在有不同參數量的模型下的標準模式選擇指標。當估計參

3.DIC（deviance information coefficient）

DIC 是在高層次模式下，AIC 和 BIC 的歸納用法。即 AIC 和 BIC 的一般化下的Akaike’s information coefficient (AIC)、Bayesian information coefficient (BIC) (Congdon, 2003)與 deviance information coefficient (DIC) ( Spiegelhalter, Best, &

Carlin, 1998)等指標驗證階層式試題反應理論架構下的測驗資料，以了解 AIC、

BIC 及 DIC 在高層次試題反應理論之試題反應函數(item response function; IRF) 選擇的效果。

本研究為了探究HO-IRT、UIRT 和 MIRT 三種模式何者效果佳，所以採用

Congdon(2003)基於貝氏架構的 AIC、BIC 與 DIC，三種指標的公式如下所述

（引自謝典佑等，2009）：

在文檔中以NAEP數學評量中數學能力架構進行國小六年級的幾何測驗編製與分析 (頁 25-33)