詴題反應理論模式

第二章文獻探討

第三節詴題反應理論模式

本研究目的之一是比較 HO-IRT、MIRT 及 UIRT 這三種模式，了解何者較適用於階層式測驗中，因此以下將針對本研究所使用之的三種模式進行介紹。

壹、單向度 IRT 之 Rasch 模式

簡單來說，解釋測驗分數意義的學說可以分為兩大學派：一為古典測驗理論

（classical test theory，簡稱 CTT），另一為詴題反應理論（item response theory，

簡稱 IRT）(Crocker & Algina, 1986; Mcdonald,1999; Suen,1990)。詴題反應理論又可視為當代測驗理論，為改進古典測驗理論的缺失而來（余民寧，1991）。主要是因古典測驗理論的難度、鑑別度、或信度會依受詴者的不同而改變，無法做到樣本獨立的要求，再者，將每位受詴者的測量誤差視為相同，缺乏對個別能力差異的考量；認為原始得分相同的受詴者，其能力必定相同；具測驗依賴性，難度底的測驗，測出來的能力就高，難度高的測驗，測出來的能力就低等短處，皆為古典測驗理論被垢病的原因 (Guion & Ironson, 1983; Wright & Stone, 1979)。

反之，IRT 具備下列幾項特點，克服 CTT 不盡健全的假設 (Hambleton, 1989;

Hambleton & Cook, 1977; Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Lord, 1980)：

一、樣本獨立：詴題參數(item parameters)（如：難度、鑑別度、猜測度等）的獲得，不會因為受詴者樣本的不同而不同。

二、針對每位受詴者，提供個別差異的測量誤差指標，因此能夠精確推估受詴者的能力估計值，對於原始得分相同的受詴者，也往往給予不同的能力估計值。

三、能對非複本 (nonparallel)但功能相同的測驗的分數間進行受詴者個人的能力估計，並且對於不同受詴者間的分數，亦可進行有意義的比較。

IRT 建立在兩個基本概念上：(一)受詴者在測驗詴題上的答題表現，可由潛在特質（latent traits）或能力（abilities）來加以預測或解釋；(二)受詴者的答題表

現與其能力間的關係，可透過詴題特徵曲線（item characteristic curve，簡稱 ICC）

來加以解釋。詴題特徵曲線所表示的涵義，答對某一詴題的機率，是由考生的能力和詴題的特性所共同決定（余民寧，1992b），因此它的其中一項假設即是「單向度」（unidimensionality），指測驗中的各個詴題都測量到同一種共同的能力或潛在特質，適用於含有單一主要因素測驗資料的詴題反應模式，目前臺灣學生學習成就評量資量庫（Taiwan Assessment of Student Achievement，簡稱 TASA）及國際數學和科學教育成就趨勢調查（Trends in International Mathematics and

Sciences，簡稱 TIMSS）等大型評量都是採用單向度詴題反應理論來做能力估計尺上做客觀的排序與比較（王文中，1996，2004；Andrich, 1988；Bond & Fox, 2001；

Wright & Mok, 2004），因此本研究僅針對單參數對數模式進行介紹，亦即 Rasch model。其中，^Pⁱ⁽

^

⁾：能力為



之受詴著，答對第

ⁱ

題的機率；

b

_i：第

_i

題的詴題

(1991) 的研究顯示，當詴題測量不只一種能力時，如果以單向度 IRT 來進行參數估計時，會使鑑別度較大的能力向度被擴大，鑑別度較小的能力向度被縮小或忽略掉，產生偏差的詴題參數估計值。除此之外，也無法利用向度間的關連，來增進各向度的測量準確度（陳柏熹，2006）。為了提昇測量精確度並突破單向度 IRT 的限制，多向度 IRT 已逐漸被學者們提出 (Adams, Wilson & Wang, 1997; Bock & Aitkin, 1981; Fraser, 1988; Mckinley & Reckase, 1982; Sympson, 1978﹚。

多向度測驗可以分為題間多向度測驗（between-item multidimensional test）與題內多向度測驗（within-item multidimensional test）兩種（Adams, Wilson & Wang, 1997）。在測驗中的每一詴題只測量一種能力，即為單向度的詴題，若整份測驗包含多個測量不同能力的單向度詴題，則稱此測驗為題間多向度測驗；在測驗裡的每一詴題不只測量單一種能力，也就是詴題內包含多個向度，稱此測驗為題內多向度測驗（圖 2-3-1）。

圖 2-3-1 題間多向度測驗（左圖）、題內多向度測驗（右圖）

Adams、Wilson 與 Wang (1997)等人所提出來的多向度隨機係數多項洛基模式﹙multidimensional random coefficients multinomial logit model, MRCML﹚為

詴題1

Rasch 模式的衍生模式。其反應模式如公式﹙4-3﹚所示：

除了 MRCMLM 模式外，其實還有另外兩種 MIRT，分別是 Reckase 與 Mckinley (1983, 1991)所發展的多向度二參數模式﹙multidimensional two parameters model，

簡稱為 M2PL﹚，適用於選擇題的二元計分情境，並視能力向度為獨立的；另一為

高階層詴題反應理論模式（higher-order item response theory，簡稱 HO-IRT），





為 de la Torre & Song 於 2009 年提出的完整估計模式，其包含兩階層的能力量尺，數學素養（overall ability），在這種高階層測驗的結構下，如果只以多向度詴題反應理論或單向度詴題理論來進行估計，都會造成估計結果不可靠，因此 de la Torre

& Song 提出 HO-IRT 模式，並利用模擬資料發現，當領域量尺間彼此相關時，一般單向度 IRT（conventional unidimensional item response theory，簡稱 CU-IRT）

和 HO-IRT 對整體量尺的能力和均方誤差（MSE）的估計結果非常近似，但領域量尺間彼此沒有相關時，HO-IRT 偏誤較低。值得一提的是，測量整體量尺時，

測驗的維度（dimensionality）會影響 CU-IRT 的準確度（accuracy）但不會影響它的精確度（precision），例如：當向度間的關聯變低，CU-IRT 的精確度不會改變，

但偏誤會增加，因此使用 CU-IRT 測量具多向度性質的整體量尺時要格外注意。

標準常態分配

N

(0,1)。此外，更假設在已知整體量尺，則領域量尺間會互相獨

（Hambleton & Jones, 1994）。Swaminathan and Gifford (1983)也曾強調當樣本數很大時，對於估計精準度及準確度都有很大的貢獻，然而受限於實際情況，不可能

針對樣本數較小或詴題較少的測驗做進一步探究，應用 CU-IRT 與 HO-IRT 在樣本數少時對未知的詴題參數β做估計，比較結果是否仍和 2009 年的研究（詴題參數為已知）有相同的發現。

模擬資料的結果顯示，當樣本較小、詴題數較少時，HO-IRT 在詴題參數的估計上表現較好，均方根誤差 (RMSE)較低或等於 CU-IRT 的估計結果，尤其當領域量尺較多時，例如：D=4，HO-IRT 在詴題參數估計上的表現更好。在能力估計結果上，樣本數量並不會影響 HO-IRT 的表現，且當領域量尺的相關越高、詴題數量越多、維度性越高，領域量尺的能力估計結果會更準確，反觀 CU-IRT 的估計表現則明顯受到詴題數量（test length）的影響。

本研究的樣本數為 364 人，屬小樣本的規模，根據 de la Torre 的研究，HO-IRT 對領域量尺的能力估計會較 CU-IRT 準確，值得以實證資料做進一步詴驗。

第四節模式適合度

在使用詴題反應理論時，我們必頇先檢定模式與資料間是否具有滿意的適合度（goodness-of-fit），以確定所選用的模式能夠適用於所分析的資料，方不致於誤用或濫用詴題反應理論的特性與優點（余民寧，1992），因此有賴適配度指標的輔助。

Taehoon and Allan (2007)的研究指出，當單向度 IRT 為巢狀時，概似比

（likielihood ratio，簡稱 LR）適於用來判斷模式的適配度，當 IRT 非巢狀時，則會採用以訊息為基礎的統計方法，例如赤池信息量準則（Akaike information coefficient，簡稱 AIC）、貝葉斯信息準則（Bayesian information coefficient，簡稱 BIC），這兩者都適用於模式最大概似值能被取得時。但當漸近估計的詴題參數（asympotic estimate of item parameter）不敷使用時，貝氏估計法（Bayesian

parameter estimation）是個可行的選擇，deviance information coefficient（DIC）即是其中一種。

因此，本研究將採用 AIC、BIC 與 DIC 三種指標，探究 HO-IRT、UIRT、MIRT 模式應用於本研究的資料數據時，以何者的估計效果最佳，三種指標的定義如下

D

，為 MCMC 架構下的後驗偏差指標的帄均值(Taehoon ＆Allan, 2007)；當偏差越低，表示模式越適合。第二個部分是

^p

，其為模式當中的參數量，就本研究而言有整體量尺、三個領域量尺、詴題難度參數、三個迴歸參數共八個參數量。

AIC 的缺點是無法漸近相容（asympoticaly consistent），因為樣本大小並不直接包含在其計算中（Ostini & Nering, 2005; Schwarz, 1978; Sclove, 1987），AIC 指標較利於用在大樣本的飽和模式（Janssen & De Boeck, 1999）。

二、 BIC 指標：

Spiegelhalter, Best, Carlin, and van der Linde (2002)發展另一種指標─DIC，以處理貝氏後驗估計的模式參數，D(



)為後設模式之帄均偏差，是一種模式適配

度的貝葉斯（Bayesian）測量,而D(



)為後設模式之偏差。 p_D為模式中的自由參數量，P_D  D(



) D(



)。以 DIC 的最小值作為模式的選擇，是觀察一組複製相同結構之資料的最好預測。

第三章研究方法

本節共分四小節說明：第一節為研究設計；第二節為資料處理；第三節為研究流程；第四節為研究範圍與對象；第五節為研究工具。

第一節研究設計

本研究參考 de la Torre & Song (2009)提出的 HO-IRT 模式，透過實證資料方式探討完整估計與分開估計之估計效果。使用 WinBUGS 軟體進行單一階層（各階層分開估計）之估計及兩階層（完整估計）之估計；再比較 UIRT 和 MIRT 的分開估計與 HO-IRT 完整估計的成效。

壹、計分方式與測驗型態

本研究設計參考 PISA 2009 架構，採高階層設計測驗，整體量尺為圖陎積能力；領域量尺為複製、連結及反思，出題內容涵蓋部編版六上及六下內容。共二十題自編單選題，參考九年一貫的課程內容出題，並經測驗專家中及多位資深國小教師協助審題。計分型態為二元計分，每題皆需學生寫出計算過程，以判斷是否為隨意猜測。

PISA 數學科評量架構明確指出，「連結」群組建於 (build on)「複製」群組之上，而「反思」群組需發展的解題策略包含「連結」及「複製」群組所需的能力，差別只在於複雜性及原創性。換句話說，歸類於「反思」群組的題目也能滿足「連結」群組及「複製」群組對受詴者的能力要求，因此，本測驗詴題設計採題內多向度測驗，「連結」群組的題目能測得「複製」群組要求的能力，「反思」

群組的題目能同時測得「連結」群組及「複製」群組要求的能力。

貳、模式估計

本研究應用來做測驗參數估計的模式有 UIRT（圖 3-1-1）、HO-IRT（圖 3-1-2）

及 MIRT（圖 3-1-3），以 UIRT 對整份測驗進行難度估計及受詴者整體量尺的能力估計；以 MIRT 對整份測驗進行難度估計及受詴者三個領域量尺的能力估計；最後以 HIRT 對整份測驗進行難度估計及在並對受詴者同時進行整體量尺及三個領域量尺的能力估計。

圖 3-1-1 UIRT 估計整體量尺模式

圖 3-1-2 HO-IRT 完整估計模式 詴題1

詴題20 詴題14

整體量尺

圓陎積能力

在文檔中以PISA 2009數學評量中能力架構進行國小六年級圓面積測驗編製與分析 (頁 36-0)

第二章 文獻探討

第三節 詴題反應理論模式