緒論 - 不同次級量尺估計法之水平及垂直等化效果比較

第一章第一章

第一章緒論緒論緒論緒論

本研究根據試題反應理論（item response theory, IRT）中單參數 Rasch 模式

（one-parameter logistic model, 1PL）與多向度試題反應理論（multidimensional item response theory, MIRT）中多向度隨機係數多項 logit 模式（multidimensional random coefficients multinomial logit model, MRCMLM），以模擬實驗方式探討不同次級量尺分數估計方法於水平與垂直等化設計的情境中，次級量尺分數估計之效果。本章將針對研究背景與動機、研究目的、待答問題與名詞釋義進行闡述。

第一節研究背景與動機

郭伯臣、王暄博、吳慧珉、張宛婷 (2010) 指出大型測驗（ large-scale assessments）大致可分為兩種類型，一為具有篩選功能之大型測驗，目的在於測量學生的學科能力，以提供學生高中入學或大學入學之參考或依據，例如：台灣的國中基本學力測驗（The Basic Competence Test for Junior High School Students）

與美國的大學入學測驗（American College Test, ACT）等；另一種為建立教育資料庫之大型測驗，目的在建置一套客觀且完善的學生學習成就資料庫，藉由測驗結果以追蹤學生的學習成果與分析其學習變遷趨勢，例如：臺灣學生學習成就評量資料庫（Taiwan Assessment of Student Achievement, TASA）、國家教育進展評量（National Assessment of Educational Progress, NAEP）、國際學生評量計畫

（Program for International Student Assessment, PISA）等。

若是以建立教育資料庫為目的之大型測驗，由於必須考慮施測不同年級與不同學科之情況，例如：TASA施測年級包含國小四年級、六年級、國中二年級、

試者群學生的量尺分數統一，才能對受試者的分數進行比較，所以水平等化

（horizontal equating）與垂直等化（vertical equating）是必須要同時進行的，除了有助於建立相同年級及不同年級之量尺外，並可藉由量尺分數分析來比較學生在各學科及不同年級之學習表現。

測驗之整體分數可以知道個人在全體之等級，而測驗之次級量尺分數通常有助於教師評斷學生的優勢及劣勢（Yen, 1987；Wainer, Vevea, Camacho, Reeve, Rosa, Nelson, Swygert, & Thissen, 2000）。這兩種分數提供受試者對不同重要訊息之解釋，然而若能直接測量學生各領域的能力，會比由學生整體成績來預測學生在此領域表現程度有較好的效果（Bock, Thissen, & Zimowski, 1997）。因此，精準的估計次級量尺分數，可以有效提供受試者更多訊息，所以次級量尺分數的報告亦為許多大型測驗（large-scale assessments）所感興趣的問題（Kahraman & Kamata, 2004）。舉例來說，TIMSS 2007八年級數學能力測驗，測驗內容包含數（number）、代數（algebra）、幾何（geometry）及資料與機率（data and chance）等四個次級量尺，

由測驗的整體分數不但能了解學生的整體表現，且藉由次級量尺分數的測驗報告則能呈現學生在數、代數、幾何與資料與機率等多面向的優缺點（TIMSS 2007），

也可檢視目前國家數學教育政策與體制是否完備。

目前已有許多國內外文獻比較不同次級量尺分數估計之方法，例如：

Gessaroli（2004）、Tate（2004）及 Yao 與 Boughton（2007）皆以多向度試題反應理論估計次級分數（subscore）。郭伯臣、王暄博、吳慧珉、張宛婷(2010) 曾探討次級量尺分數估計方法之單一測驗設計與等化測驗設計之估計效果。謝佳穎

（2009）曾探討在多向度試題反應理論用於次級量尺分數估計之模擬研究，主要比較不同等化設計之次級量尺分數估計效果加入 MIRT 次級量尺分數估計方法，

以比較不同方法之次級量尺分數估計效果，研究結果亦指出 MIRT 之方法有不錯之估計效果；然而，並沒有任何文獻探討次級量尺估計方法的不同對水平與垂直等化設計之影響，因此，本研究延續謝佳穎（2009）之研究，探討不同次級量尺

分數在水平及垂直等化之研究。

根據過去的研究顯示，現今許多大型測驗接使用試題反應理論進行資料分析以建立共同量尺，其採用之測驗題本連結設計為 BIB 設計與定錨不等組設計

（nonequivalent groups with anchor test design, NEAT）等兩種等化設計，惟 NEAT 與 BIB 兩種等化設計在各實驗情境中，各次級量尺分數估計方法之估計精準度幾乎無差異（謝佳穎，2009），因此，本研究連結設計擬以 BIB 等化設計作為測驗題本之連結設計。因此，本研究擬採用 IRT 中的 Rasch 模式（Rasch, 1960）與 MRCMLM，以探討在 BIB 設計中水平與垂直等化測驗對次級量尺分數估計之效果。

第二節研究目的

根據前述的研究背景與動機，在水平等化情境下除了延續先前所做之研究，

本研究將探討在垂直等化同年級受試者群間能力差異，以及定錨試題在次級量尺間所佔比例不同等情況，於不同次級量尺估計方法之次級量尺分數估計效果。

根據上述的研究之成果，本研究以模擬實驗方式探討不同等化設計對於次級量尺分數估計之影響。且在次級量尺分數估計方法上，並討論各估計方法之效果。

綜合上述，茲將本研究計畫目的擬定如下：

一、不同次級量尺分數估計方法於不同受試者人數、題本次級量尺比例、次級

量尺間之相關程度下水平等化效果。

二、不同次級量尺分數估計方法於不同受試者人數、題本次級量尺比例、次級

量尺間之相關程度、題本定錨試題比例、高低年級受試者能力分布下垂直等化效果。

第三節待答問題

依據上述之研究目的，擬於水平等化設計與垂直等化設計的情境中，分別提出下列幾項問題：

壹、水平等化設計

一、不同施測人數是否影響次級量尺分數估計之效果？

二、不同題本次級量尺比例是否影響次級量尺分數估計之效果？

三、不同次級量尺間相關程度是否影響次級量尺分數估計之效果？

貳、垂直等化設計

一、不同施測人數是否影響次級量尺分數估計之效果？

二、不同題本次級量尺比例是否影響次級量尺分數估計之效果？

三、不同次級量尺間相關程度是否影響次級量尺分數估計之效果？

四、不同題本定錨比例是否影響次級量尺分數估計之效果？

五、不同高低年級受試者能力分布是否影響次級量尺分數估計之效果？

第四節名詞釋義

壹、次級量尺分數

次級量尺分數係指學生在學習目標（learning objectives）、子測驗（subtests）

或學習標準（learning standards）之表現（Meyers, Shin, & Nichols, 2008）。如數學學科成就測驗包含數、代數、幾何及資料與機率等面向即為次級量尺。

貳、定錨試題

在不同測驗中作為測驗連結等化之用的共同試題稱為定錨試題（anchor item）。在本研究中，從低年級試題庫中挑選難度較高之試題至高年級試題庫中當作定錨試題。

參、水平等化

水平等化係指利用測驗分數等化之技術，將兩個或兩個以上測量相同特質、

相同能力的測驗，且其受試者能力分佈及試題難度相似，其原始分數轉換之過程，本研究中水平等化是指同年級不同測驗間之等化。

肆、垂直等化

垂直等化係指利用測驗分數等化之技術，將兩個或兩個以上測量相同特質、

相同能力的測驗，且其受試者能力分佈及試題難度不相同，其原始分數轉換之過程，本研究中垂直等化是指不同年級之間不同測驗間之等化。

在文檔中不同次級量尺估計法之水平及垂直等化效果比較 (頁 11-16)

緒論

第一章 第一章

第一章 緒論 緒論 緒論 緒論

第一節 研究背景與動機

第二節 研究目的

第三節 待答問題

壹、 水平等化設計

貳、 垂直等化設計

第四節 名詞釋義