• 沒有找到結果。

一、單向度 IRT 之 Rasch 模式

試題反應理論(item response theory)簡稱 IRT,建立在兩個基本概念上:(1) 考生(examinee)在某一測驗試題上的表現情形,可由一組因素來加以預測或解 釋,這組因素叫作潛在特質(latent traits)或能力(abilities);(2)考生的表現情形與 這組潛在特質間的關係,可透過一條連續性遞增的函數來加以詮釋,這個函數 便叫作試題特徵曲線(item characteristic curve,簡寫為 ICC)試題特徵曲線所 表示的涵義,即是某種潛在特質的程度與其在某一試題上正確反應的機率,二 者之間的關係;這種潛在特質的程度愈高(或愈強),其在某一試題上的正確 反應機率便愈大。任何一條試題特徵曲線是由受試者能力和試題的特性共同決 定,代表受試者答對某一試題的機率(余民寧,1992)。

IRT 計 分 方 式 可 分 為 二 元 計 分 與 多 點 計 分 , 模 式 有 單 參 數 對 數 模 式

(one-parameter logistic model)、二參數對數模式(two-parameter logistic model)

及三參數對數模式(three-parameter logistic model)。

本研究只使用單參數對數模式,僅針對單參數對數模式進行介紹,亦即 Rasch model。

18

多向度測驗主要可以分為兩種﹙Adams, Wilson, & Wang, 1997﹚。一種是 每個試題只測量一種能力(單向度試題),但是一份測驗中包含許多單向度試 題,這些試題分別測量幾種不同的能力,這種測驗稱為題間多向度測驗

﹙between-item multidimensional test﹚,如圖 2-4-1 所示。測驗組、人格量表與 綜合能力測驗就是屬於這種類型。在人格測驗中,每個試題都是測量某種人 格特質,而一份測驗中通常包含許多分量表,分別測量不同的人格特質。綜 合能力測驗則是將幾種能力類型相似的試題都放在同一份測驗中。

第二種多向度測驗是測驗中有些試題測量了一種以上的能力,這種類型被 稱為題內多向度測驗﹙within-item multidimensional test﹚,如圖 2-4-2 所示。例 如,小學高年級的數學測驗中經常包含計算題與應用題兩種題型:其中計算題 是屬於單向度試題,純粹是測量四則運算能力;而應用題是屬於二向度試題,

受試者需要使用表徵能力(representation)將問題情境用計算式來表示,然後 再使用計算能力將答案算出來。因此單向度 IRT 模式不適合用在這類測驗上。

如果忽略試題多向度的特性,勉強使用單向度 IRT 進行分析,會因為忽略了其 中某一項能力而產生偏差的結果,使分數的意義變模糊﹙Ackerman, 1991﹚。

其模式定義如下:

19

θ:受試者的能力參數矩陣(多向度能力)

ξ:試題參數向量

a :第 i 題中第ik k個反應類別的設計向量(design vector)

bik:第 i 題在第k個反應類別上的計分向量(scoring vector)

A :整份測驗的設計矩陣(design matrix)

B:整份測驗的計分矩陣(scoring matrix)

圖 2-4-1 題間多向度測驗

Item1

Item2

Item3

Item4

Item5

θ

1

θ

2

20

圖2-4-2 題內多向度測驗

MRCMLM是延伸Rasch模式而成之多向度IRT模式(Hoskens, & De Boeck,

1997;Wang, Wilson, & Cheng,2000;Wilson, & Adams,1995),其模式定義 如下:

21

A :整份測驗的設計矩陣(design matrix)

B :整份測驗的計分矩陣(scoring matrix)

MRCMLM 的優點是可推論單向度多點計分的測驗資料,對於測量模式若 存在非獨立的情況可以藉由題組搭配該測量模式來做資料分析、擁有完美的數 學性質等,更可以處理多向度多點計分的測驗資料,其應用範圍足以涵蓋多種 不同變化的測驗類型,但 MRCMLM 的缺點是只可應用於單一階層資料之推論。

三、HO-IRT 模式

階層式試題反應理論模式,包含兩階層的能力量尺,第一層的能力量尺是 測量學生在不同指標下的能力表現,稱為領域量尺;第二層的能力量尺是整合 次級量尺預測量之高階的學科能力,稱為整體量尺。

在 HO-IRT 模式中,一測驗可觀察多個單向度的子測驗(subtest)。當不 同領域量尺皆測量相同的能力時,則整份測驗就是單向度的測驗。當不同領域 量尺間有關聯時,則會藉由一高階層能力來連接這些領域量尺。以下就 de la Torre & Song ,2009 提出單因子高層次試題反應理論模式來進行說明:

測驗主要可觀察多個單向度的子測驗,即領域量尺分數θ ,i(d) θ 表示第i(d) i位 受試者在領域量尺d的表現,其中,d =1,2,3,L,D。當不同領域量尺測量相同的 能力時,則整份測驗被認為是單向度的測驗,而不同領域量尺間有關聯,則會 藉由一整體量尺能力量尺分數θ 來連接這些領域量尺分數,其中i θ 為第i i位受試 者在整體量尺分數,其中並假設領域量尺分數為整體量尺分數的一線性函數(de la Torre & Song ,2009): θi(d)(d)θiid

其中,λ 為迴歸參數,(d) ε 為誤差項,id ε 假設服從平均數為 0 且變異數為id

2 )

1−λ(d 的常態分配,其中|λ(d) |≤1。根據這些假設可得知θ 的分配與i(d) θ 相同屬i

22

23

中採用三參數模式(three-parameter logistic 簡稱 3PL),即試題鑑別度參數、

試題難度參數和試題猜測度參數都未知情況下,以模擬研究和實證研究都發 現,利用HO-IRT 可以改善試題參數的估計。

研究還發現試題參數在未知情況下,對領域量尺能力的估計、測驗的長度 和領域量尺的數量並不會有很大的影響。所以在試題參數事先未知的情形下,

HO-IRT 運用 MCMC 的算法,是一個可行的提高領域量尺能力估計的方法。

(de la Torre & Hong,2010)

四、模式檢定

當利用試題反應理論模式進行測驗資料分析,必須先確定資料與模式間是 否匹配,模式選擇是否合適;否則將資料放在不適當的模式分析,結果必定也 是不可靠的。本研究利用AIC(Akaike information coefficient)、BIC(Bayesian information coefficient)和 DIC(deviance information coefficient)來檢驗模式的 適配度。三種指標的定義如下:

1.AIC(赤池信息量準則,Akaike information coefficient,簡稱 AIC)

AIC 是衡量統計模型優劣性的一種標準,是由日本統計學家赤池弘次創立發 展的。赤池信息量準則建立在自由資訊量(information entropy)的概念基礎上,

可以權衡所估計模型的複雜度和此模型適配數據的優良性。在一般情況下,AIC 可以表示為:

AIC=2K-2ln(L)

其中K 是參數的數量,L 是概似函數,假設條件是模型的誤差服從獨立常 態分布。讓

n

為觀察數,RSS 為剩餘平方和,那麼 AIC 變為:

AIC=2K+

n

ln(RSS/

n

增加自由參數的數目提高了適配的優良性,AIC 鼓勵數據適配的優良性但 是避免過度適配(overfitting)的情況。所以優先考慮的模型應該是 AIC 值最小 的那一個。赤池信息量準的方法是尋找可以最好的解釋數據但包含最少的自由

24

參數的模型(Burnham,K.P & D.R.Anderson,2002)。

2.BIC(貝葉斯信息準則 Bayesian information coefficient )

在統計上BIC 是在有不同參數量的模型下的標準模式選擇指標。當估計參

3.DIC(deviance information coefficient)

DIC 是在高層次模式下,AIC 和 BIC 的歸納用法。即 AIC 和 BIC 的一般化 下的Akaike’s information coefficient (AIC)、Bayesian information coefficient (BIC) (Congdon, 2003)與 deviance information coefficient (DIC) ( Spiegelhalter, Best, &

Carlin, 1998)等指標驗證階層式試題反應理論架構下的測驗資料,以了解 AIC、

BIC 及 DIC 在高層次試題反應理論之試題反應函數(item response function; IRF) 選擇的效果。

本研究為了探究HO-IRT、UIRT 和 MIRT 三種模式何者效果佳,所以採用

25

Congdon(2003)基於貝氏架構的 AIC、BIC 與 DIC,三種指標的公式如下所述

(引自謝典佑等,2009):

相關文件