緒論 - 階層線性模式與Rasch模式在題組效果下之參數估計模擬比較

題組試題為考試常見的題型之一，這類試題往往違反局部獨立性假設，而有部分的研究者或大型測驗機構，可能受限於題組反應模式軟體的不足，仍沿用試題反應理論估計試題參數、能力參數，忽略題組試題產生的題組效果。因此，探討不同數學模式詮釋下的試題反應模式，分析具題組現象的估計效果，有其必要與可行之處。故本研究探討階層線性模式與 Rasch 模式，在忽略題組效果下之參數估計情形，並比較兩個模式的穩健度。本章就研究動機、研究目的、名詞釋義依序說明如下。

第一節研究動機

試題反應理論 (Item Response Theory) 為心理計量常用的分析工具，為使參數方便估計，有「局部獨立性 (local dependence) 」之假設。局部獨立性是指考慮學生的能力後，學生在不同試題的答題反應無任何相關。若忽略違反局部獨立性情形，對受試者的能力參數估計會產生不良影響，也會使試題的信度、難度與鑑別度的標準差被低估，而高估其精準度。試題參數的偏誤會干擾試題等化結果，應用於電腦適性化測驗，就會因參數估計不當而提早結束測驗，無法正確估計受試者的能力 (Jiao, Wang, & Kamata, 2005; Nofer, 2007; Spray & Ackerman, 1987; Wainer, Bradlow, & Du, 2000; Zhang, 2007)。

教育或心理領域的相關測驗，為能充分了解學生學習情形，一份測驗往往包含數個系列的試題，一系列的試題源自相同的題材或刺激 (stimulus)，例如閱讀測驗，學生閱讀完一篇文章後回答的試題，皆以該篇文章為基礎；或是數學測驗裡，根據一個圖表回答某些試題，圖表即為這些試題的共同刺激。諸如此類的試

題，即稱為題組 (testlet) (Wainer & Kiely, 1987)。Wainer et al. (2000) 認為題組可節省出題時間，學生基於一個相同的刺激就可回答數題，使考試更有效率；且相較於其他題型，題組更適合測量高階的技能，尤其在以解決問題為導向的測驗，

題組比單一試題更能測得學生能力 (DeMars, 2006)。

但根據許多研究，題組內的試題往往違反局部獨立性 (Rosenbaum, 1988;

Wang & Wilson, 2005)，這並非表示題組內的試題不佳，而是面對題組試題時，要慎選參數估計模式，減少違反局部獨立性對參數估計產生不良影響。相關研究針對題組試題的參數估計，提出多種改善方法，例如在估計參數時，將題組與受試者的交互作用視為隨機效果，稱作題組效果 (testlet effect)，納入對數模式一併分析後，參數估計的誤差較小 (Bradlow, Wainer, & Wang, 1999; Li, Bolt, & Fu, 2004)。而有些大型測驗以試題反應理論分析學生答題反應時，卻未考慮題組效果，例如國中基本學力測驗，測驗包含多個題組，仍以單參數對數模式 (Rasch 模式) 估計試題難度與學生能力值，忽略題組試題違反局部獨立性造成的影響，

此用法適切性有待評估。

在 Rasch 模式裡，通常使用先估計試題參數，再估計能力值的兩階段分析法 (two-step analysis)，但因能力值的標準誤並不相同，中間的能力值其標準誤較小，

兩側的能力值標準誤較大，這種不等變異性的測量誤差 (heteroscedastic measurement error)，兩階段分析法未考慮之，因而無法提供準確的估計結果。階層線性模式 (Hierarchical Linear Model) 將能力值和試題參數分解，以線性模式同時估計能力值和試題參數，減少估計標準誤 (Zwinderman, 1991)，可改善參數估計的精準度 (Mislevy, 1987)。

Kamata (1998a) 基於廣義階層線性模式 (Hierarchical Generalized Linear Model)，認為一個學生的作答反應，會受該位學生的特質影響，亦即作答反應 (階層一) 包含於該位學生本身 (階層二)，如同學生相嵌於班級內，學生的表現會受班級因素影響，故以二階層的廣義階層線性模式解釋 Rasch 模式，稱為單參數廣

義階層線性對數模式 (One-Parameter Hierarchical Generalized Linear Logistic Model, 以下簡稱 1-P HGLLM)，其將 Rasch 模式視為廣義階層線性模式的特例，

也證明兩個模式在代數上有等價關係，甚而將 Rasch 模式延伸至多層次模型 (multi-level model)，使用途更為廣泛 (Cheong & Raudenbush, 2000; Kamata, 2001)

。

基於上述，可知 1-P HGLLM 與 Rasch 模式，皆能描述單參數模式下之潛在特質 (latent trait) 與答題機率的關係，但此兩者在題組效果下，其參數估計的差異性為何，則甚少見諸於文獻。因題組試題的特性，故本研究以資料模擬的方式，

探討 1-P HGLLM 與 Rasch 模式，在不同因子水準下，估計試題難度與能力值的精準度情形，以檢視兩個模式的穩健度 (robust)，提供給日後研究之參考。

第二節研究目的

本研究旨在探討 1-P HGLLM 與 Rasch 模式，在不同試題數、樣本數、題組效果程度的情況下，兩者估計試題難度與能力值的表現情形。其研究目的臚列如下：

一、在固定試題數下，探討 1-P HGLLM 與 Rasch 模式，在試題難度與能力值的估計情形，並比較兩個模式於試題難度和能力值的估計精準度。

二、在固定樣本數下，探討 1-P HGLLM 與 Rasch 模式，在試題難度與能力值的估計情形，並比較兩個模式於試題難度和能力值的估計精準度。

三、在固定題組效果程度下，探討 1-P HGLLM 與 Rasch 模式，在試題難度與能力值的估計情形，並比較兩個模式於試題難度和能力值的估計精準度。

第三節名詞釋義

一、試題反應理論 (Item Response Theory，以下簡稱 IRT)

假設受試者的答題反應受本身內在因素的影響，這些因素觀察不到，稱為「潛在特質」。IRT 為藉由試題難度、鑑別度、猜測值等試題參數，以數學式描述潛在特質和答題反應之關係的理論。

二、階層線性模式 (Hierarchical Linear Model)

當資料分為兩個以上的層次，亦即個體層次 (individual level) 和群體層次 (group level)，以學生為個體層次，班級為群體層次為例，當研究者有學生的資料，

也有學生所屬的班級資料，此時同一個班級的學生，其各屬性變項彼此間可能存在相關性或相似性，用一般傳統分析方法會造成偏誤。階層線性模式則為將群體層次的變項，用來解釋「個體層次的解釋變項與依變項之關係」，以減少誤差的理論。當資料非連續變數，需以非線性的連結函數 (linking function) 轉換，此即階層線性模式的延伸，稱為廣義階層線性模式。

三、題組反應模式 (testlet response model)

題組是指一群有共同刺激 (common stimulus) 的題目，題組試題和人的交互作用，稱作題組效果，亦即違反局部獨立性的程度。題組反應模式是試題反應理論的延伸，為一種估計參數時，考量題組違反局部獨立性影響的理論。

在文檔中階層線性模式與Rasch模式在題組效果下之參數估計模擬比較 (頁 13-17)

緒論

第一節 研究動機

第二節 研究目的

第三節 名詞釋義

第一節研究動機

第二節研究目的

第三節名詞釋義