• 沒有找到結果。

第五章 結論與建議

第二節 建議

壹、實務資料分析建議

本研究透過模擬研究及實證資料之結果,提出適當的等化設計及估計方法,

希望能提供國內大型測驗實行之參考依據,以下分別提出幾項建議。

一、可能值方法於群體能力平均數估計結果雖然與其他方法差異不大,但在群體 能力標準差時,估計結果較精準,故如大型測驗於計算群體百分位數或是其 他關於標準差的統計量數時,使用可能值方法會有較準確的估計結果。

二、可能值方法如直接將 5 個可能值平均後作為受試者個體能力,則估計結果不 佳,故大型測驗於使用可能值方法時,需小心計算可能值方法群體能力,避 免錯誤使用可能值方法,造成錯誤估計。

三、在不同等化設計中,BIB 與 NEAT 於可能值方法下,群體能力平均數與標準 差之估計結果差異不大,故如大型測驗於測驗題本設計時,可依據不同科目 之需求,使用 BIB 或 NEAT 設計。

四、在不同估計方法比較中發現加入輔助變項之期望後驗估計法於估計群體能力 平均數時,估計結果與可能值方法相近或者更好,但於本研究中不建議大型 測驗使用加入輔助變項之期望後驗估計法進行估計,因為可能值方法重複抽 取 5 個可能值,其中包含了測量誤差,但加入輔助變項之期望後驗估計法卻 忽略了這項誤差。

貳、未來研究建議

本研究使用模擬資料進行探討,共同變項設定為:三種等化設計(complete、

BIB 與 NEAT);施測人數(5460 人與 8064 人);施測題數(15 題與 30 題)進行 不同估計方法下對於個體能力估計與群體參數估計之比較,並探討在不同估計方 法下,當群體能力有差異時對於回復不同群體參數之效果。茲就本研究未盡完備 的地方,提出一些研究建議,作為後續研究參考。

一、本研究僅考慮一種受試者能力分布,未來可針對不同能力分布設定進行估計 方法與等化設計之比較。

二、本研究於人數與題數設定上,僅針對兩種不同施測人數與題數進行比較,未 來可考量不同施測人數與題數進行估計方法與等化設計之比較。

三、本研究於 BIB 與 NEAT 設計只進行一種試題區塊的配置方式,未來可針對其 他配置方式進行估計方法與等化設計之比較。

四、等化連結方式眾多,本研究只採用 BIB 與 NEAT 兩種等化設計,未來可針對 比較多種等化方法之結果。

五、本研究採用 ConQuest 軟體進行參數估計,未來可針對比較其他估計軟體之 結果。

六、本研究只探討進行測驗水平等化,未來可針對垂直等化進行估計方法與等化 設計之比較。

七、本研究只探討於試題參數分布為N(0, 1),範圍為−3~3,未來可針對不同試 題參數分布進行估計方法與等化設計之比較。

參考文獻

中文部分

王暄博(2006)。BIB 與 NEAT 設計之水平及垂直等化效果比較。未出版之碩士 論文,臺中教育大學教育測驗統計研究所,臺中市。

余民寧(2009),試題反應理論(IRT)及其應用(一版)。臺北市,心理出版社 股份有限公司。

洪碧霞、林素微、林娟如(2006)。認知複雜度分析架構對 TASA-MAT 六年級線 上測驗試題難度的解釋力。教育研究與發展期刊,2(4),69-86。

國家教育研究院籌備處(2009)。2006 年資料使用手冊(未出版)。新北市:國家 教育研究院。

國家教育研究院籌備處(2009)。2007 年資料使用手冊(未出版)。新北市:國家 教育研究院。

張鈺卿(2007)。BIB 與 NEAT 設計在不同年度測驗連結效果之比較。未出版之 碩士論文,臺中教育大學教育測驗統計研究所,臺中市。

曾玉琳、王暄博、郭伯臣、許天維(2006)。不同 BIB 設計對測驗等化的影響。

測驗統計年刊,13(2),209-229。臺中市:國立臺中教育大學。

英文部分

Adams, R. J., Wilson, M., & Wu, M. (1997). Multilevel item response models: An approach to errors in variables regression. Journal of Educational and Behavioral Statistics, 22, 47-76.

Allen, N. L., Carlson J. E., Johnson E. G. ,& Mislevy, R. J. (1999) The NAEP 1998 technical report. Educational Testing Service.

Andrew, R. W. & Terry, L. S., (2001). The NAEP 1998 Technical Report (NCES 2001-509). National Assessment Governing Board, U.S. Department of Education.

Baker, F. B., & Kim, S. H. (2004). Item Response Theory : Parameter Estimation Techniques. Basel, N. Y. : Marcel Dekker, Inc.

Bock, R. D. & Mislevy, R. J. (1982). Adaptive EAP estimation of ability in a microcomputer environment. Applied Psychological Measurement, 6, 431-444.

de la Torre, J., & Song, H. (2009). Improving the quality of ability estimates through multidimensional scoring and incorporation of ancillary variables. Applied Psychological Measurement, 33, 465-485.

Dorans, N. J. & Holland, P. W. (2000). Linking Scores from Multiple Instruments.

Fox, J. P., Klein Entink, R. H., & van der Linden, W. J. (2007). Modeling of responses and response times with the package CIRT. Journal of Statistical Software, 20, 1-14.

Foy, P., Galia, J., & Li, L. (2008). Scaling the data from the TIMSS 2007 Mathematics and Science assessments.In John F. Olson,Michael O. Martin ,Ina V.S. Mullis.

(Eds). TIMSS 2007 Technical Report.TIMSS & PIRLS International Study Center,Lynch School of Education, Boston College

Graham J. R., Christine, Y. O’S., Alka, A., & Ebru, E. (2008). TIMSS 2007 Technical Report. Chestnut Hill, MA: TIMSS & PIRLS International Study Center, Boston College.

Klein, L. W., & Jarjoura, D. (1985). The importance of content representation for common-item equating with non-random groups. Journal of Educational Measurement, 22, 197-206.

Kolen, M. J. & Brennan, R. J. (1995). Test Equating: Methods and Practices. New York: Springer-Verlag.

Lee, J., Grigg, W., & Dion, G. (2007). The Nation’s Report Card: Mathematics 2007.

National Center for Education Statistics, Institute of Education Sciences, U. S.

Department of Education, Washington, D. C.

Mislevy, R. J. (1991). Randomization-based inference about latent variable from complex samples. Psychometrika, 56(2), 177-196.

Mislevy, R. J. (1984). Estimating latent distributions. Psychometrika, 49, 359-381.

Mislevy, R. J., & Sheehan, K. M. (1989). Information matrices in latent-variable models. Journal of Educational Statistics, 14, 335-350.

Mislevy, R. J., Beaton, A. E., Kaplan, B., & Sheehan, K. M. (1992). Estimating population characteristics form sparse matrix samples of item response. Journal of Educational Measurement, 29, 133-161.

Nancy, L. A., James, E. C., & John, R. D. (2001). The NAEP 1998 Technical Report (NCES 2001-509). National Assessment Governing Board, U.S. Department of Education.

Nemhauser, G. L., & Wolsey, L. A. (1999). Integer and Combinatorial Optimization.

New York: John Wiley.

Petersen, N. S., Kolen, M. J., & Hoover, H. D. (1993). Scaling, Norming, and Equating. In R.L. Linn (Ed.), Educational Measurement (3rd ed., pp221-262).

New York: Macmillan.

Rasch, G. (1960). Probabilistic models for some Intelligence and attainment tests.

Chicago: University of Chicago Press.

Tianyou, W. (2005). An Alternative Continuization Method to the Kernel Method in von Davier, Holland and Thayer's (2004) Test Equating Framework.

van der Linden, W. J. (2007). A hierarchical framework for modeling speed and accuracy on test items. Psychometrika, 72, 287-308.

van der Linden, W. J., Veldkamp, B. P., & Carlson, J. E. (2004).Optimizing Balanced Incomplete Block Designs for Educational Assessments. Applied Psychological Measurement, 28, 317-331.

von Davier M., Gonzalez, E., & Mislevy, R. J. (2009).What are plausible values and why are they useful? IERA Monograph Series:Issues and Methodologies in Large-Scale Assessment,2,.9-36.

von Davier, A. A., Holland, P. W., & Thayer, D. T. (2004). The kernel method of test equating. New York: Springer.

Wu, M. (2005). The role of plausible values in large-scale surveys. Studies in Educational Evaluation, 31 (2-3), 114-128.

附錄一

不同方法之個體能力值估計誤差(complete 設計)

附錄二

不同方法之群體能力參數估計誤差(complete 設計)

Mean Standard deviation 施測

附錄三

不同方法之個體能力值估計誤差(BIB 設計)

附錄四

不同方法之個體能力值估計誤差(NEAT 設計)

附錄五

不同方法之群體能力參數估計誤差(BIB 設計)

Mean Standard deviation 施測

附錄六

不同方法之群體能力參數估計誤差(NEAT 設計)

Mean Standard deviation 施測

附錄七

不同估計方法之 Bias

施測題數 30 題、施測人數 5460 人於不同估計方法之 Bias

附錄七(續)

施測題數 15 題、施測人數 8064 人於不同估計方法之 Bias

附錄七(續)

施測題數 30 題、施測人數 8064 人於不同估計方法之 Bias

相關文件