第五章 結論與建議
第二節 建議
本研究使用模擬資料進行探討並搭配實徵資料進行驗證,模擬資料部份實驗 情境為:二種等化設計(Complete、BIB);施測人數設定為 5460 人;施測題數
(15 題與 30 題)、模式設定為單向度三參數 IRT 模式,進行不同估計方法下 對於個體能力估計與群體參數估計之比較,實徵資料則以 TASA2010 年國二數學
科資料同樣進行不同估計方法下對於個體能力估計與群體參數估計之比較,以下 茲就本研究未臻完備處,提出未來研究之建議,以作為後續研究參考。
壹、本研究受詴者能力分布、人數與詴題參數值皆參考文獻進行設定,可嘗詴更 多樣的設定考量。
貳、本研究於等化連結設計(BIB 與 Complete)與題數設定(15 題與 30 題)皆 只有兩種設計,故可嘗詴更多種方式之比較,以便釐清各參數估計方法之最 精確的題數、連結方式等設定。
參、本研究只探討進行測驗水帄等化,未來可嘗詴以垂直等化進行估計方法與等 化設計之比較。
肆、本研究仍以單向度三參數 IRT 模式進行設定與探究,可嘗詴多向度 IRT 模 式進行資料模擬與探究,抑或再嘗詴不同參數設定持續驗證單向度三參數 IRT 模式之估計效益。
伍、實徵資料部份,納入背景變項為輔助訊息之估計方法其估計結果較為一致,
建議未來國內外各大型測驗進行群體能力值估計法採納入背景變項為輔助 訊息之估計方法,但本研究仍建議大型測驗採可能值方法進行估計,因可能 值方法透過重覆抽取 5 個可能值,其已包含測驗誤差,但 EAP_AV 方法卻忽 略此誤差。
參考文獻
中文部分
王文中(2004)。Rasch 測量理論與其在教育上的應用。教育與心理研究,27,
637-694。
王暄博(2006)。BIB 與 NEAT 設計之水帄及垂直等化效果比較(未出版之碩 士論文)。國立臺中教育大學,臺中市。
王敏嫻 (2011)。不同水帄等化設計於可能值方法之探討(未出版之碩士論文)。
國立臺中教育大學,臺中市。
任宗皓(2008)。TIMSS2007 國際數學與科學教育成就趨勢調查國家報告 -第三章。檢索日期:2013 年 05 月 19 日,網址:
http://www.dorise.info/DER/download_T2007/resault/TIMSS-2007-full_ver.pdf
余民寧(2009),詴題反應理論(IRT)及其應用(一版)。臺北市,心理出版 社股份有限公司。
吳慧珉(2011)。解讀國際大型測驗之分數報告。國家教育研究院電子報--第 20 期。檢索日期:2013 年 6 月 15 日,網址:
http://epaper.naer.edu.tw/index.php?edm_no=20&content_no=464。
李佩瑾(2011)。以 PISA2009 數學評量中能力架構進行國小六年級圓面積測驗 編製及分析(未出版之碩士論文)。國立臺中教育大學,臺中市。
李德弘(2013)。應用可能值方法於大型測驗不同年度間連結方法之效果探究(未 出版之碩士論文)。國立臺中教育大學,臺中市。
何宗岳(2011)。模擬與實徵詴題差異功能之指標效能分析:IRT 法及 CFA 法 之比較(未出版之博士論文)。國立嘉義大學,嘉義縣。
郭伯臣、王暄博(2008)。大型測驗中同時進行垂直與水帄等化效果之探討。教 育研究與發展期刊,(4),87-120。
郭伯臣、曾建銘(2010)。大型標準化測驗建置流程應用於 TASA 之研究期末報 告。新北市:國家教育研究院籌備處。
郭伯臣、吳慧珉、陳俊華(2012)。詴題反應理論在教育測驗上之應用。新竹縣 教育研究集刊,(12),5-40。
郭伯臣、曾建銘、吳慧珉主編(2012)。大型標準化測驗建置流程應用於 TASA 之研究。新北市:國家教育研究院。
郭秀芬(2013)。多向度詴題反應理論下不同估計方法估計成效之探討(未出版 之碩士論文)。國立臺中教育大學,臺中市。
國家教育研究院 (2010)。TASA2010 年資料使用手冊。未出版,國家教育研 究院, 新北市。
陳柏熹(2006)。IRT 在量表 ( 測驗 ) 編製上的應用(上)。檢索日期:2013 年 07 月 19 日,網址:http://www.rcpet.ntnu.edu.tw/download.htm。
陳柏熹(2006)。能力估計方法對多向度電腦化適性測驗測量精準度的影響。國 立臺灣師範大學教育心理與輔導學系教育心理學報,38 (2),195 -211。
陳婉寧(2013)。以可能值方法為基礎之多向度垂直等化之探究(未出版之碩 士論文)。國立臺中教育大學,臺中市。
張鈺卿(2007)。BIB 與 NEAT 設計在不同年度測驗連結效果之比較(未出版之 碩士論文)。國立臺中教育大學,臺中市。
張郁雯(2009)。國際教育成就評比的心理計量議題—以 PIRLS 為例。檢索日 期:2013 年 05 月 19 日,網址:http://www.tmue.edu.tw/
~adeva/activity_photo/photo/nation/98/981109Pirls/file/981109p.pdf。
曾玉琳(2007)。不同配置設計下測驗等化效果之模擬研究(未出版之碩士論文)。
國立臺中師範學院,臺中市。
曾玉琳、王暄博、郭伯臣、許天維(2006)。不同 BIB 設計對測驗等化的影響。
測驗統計年刊,13(2),209-229。
黃美芳(2006)。詴題反應理論三參數模式下等化效果之探究(未出版之碩士 論文)。國立臺中教育大學,臺中市。
黃國清、吳寶桂(2006)。七年級數學標準化成就測驗之編製與其相關之研究:
以 IRT 模式分析。教育研究與發展期刊,2(4),109-142。
黃珮璇(2007)。BIB、PBIB 與 NEAT 設計於多元計分測驗之連結效果比較。
(未出版之碩士論文)。國立臺中教育大學,臺中市。
曾建銘 (2009)。TASA 與其他國際評量之比較。研習資訊,26(6),21-25。
楊孟麗、譚康榮、黃敏雄(2003)。台灣教育長期追蹤資料庫:心理計量報告:
TEPS2001 分析能力測驗【第一版】。中央研究院調查研究專題中心學術調查 研究資料庫,臺北市。
葉昶成(2012)。不同垂直等化設計下可能值方法估計效果之探討(未出版之碩 士論文)。國立臺中教育大學,臺中市。
鍾岳豪(2011)。以學習者個人偏好與詴題反應理論為基礎之個人化英文文章推 薦系統(未出版之碩士論文)。逢甲大學,臺中市。
蘇怡婷(2009)。單步驟與多步驟分析法於階層性資料估計精確度之比較(未出 版之碩士論文)。國立臺南大學,臺南市。
英文部分
Adams, R. J., Wilson, M., & Wu, M. (1997). Multilevel item response models: An approach to errors in variables regression. Journal of Educational and Behavioral
Statistics, 22, 47-76.
Birnbaum, A. (1968). Some latent trait model and their use in inferring an examinee’s
ability. In F. M. Lord and M. R. Novick, Statistical theories of mental test scores,
17-20. Reading, Mass: Addison-Wesley.Bock, R. D., & Mislevy, R. J. (1982). Adaptive EAP estimation of ability in a microcomputer environment. Applied Psychological Measurement, 6, 431-444.
de la Torre, J., & Song, H. (2009). Improving the quality of ability estimates through multidimensional scoring and incorporation of ancillary variables.
Applied Psychological Measurement, 33, 465-485.
Embreston & Reise (2000). Item response theory for psychologists. Mahwah NJ:
Lawrence Erlbaum Association.
Guion. R. M. & Ironson. G.H. (1983). Laten trait theory for organizational research. Organizational Behavior and Human Performance, 31, 54-87.
Harold Gulliksen (1950). Theory of Mental Tests. New York:J. Wiley & Sons.
Hambleton, R.K., & Swaminathan, H. (1985). Item Response Theory:Principles and
Application. Boston,MA:Kivwer- Nijhoff.
Kuehl, R. O. (2000). Design of Experiments: Statistical Principles of
Research Design and Analysis. CA: Duxbury Press.
Lee, J., Grigg, W., & Dion, G. (2007). The Nation’s Report Card: Mathematics 2007.
National Center for Education Statistics, Institute of Education Sciences, U. S.
Department of Education, Washington, D. C.
Mislevy, R. J. & Sheehan, K. M. (1989). Information matrices in latent-variable models. Journal of Educational Statistics 14(4), 335-350.
Mislevy, R. J. & Sheehan, K. M. (1987). Marginal estimation procedures, in A.E.
Beaton (ed.). The NAEP 1983-1984 Technical Report (Report No. 15-TR-20).
Educational Testing Service, Princeton, N.J.
Mislevy, R. J. (1991). Randomization-based inference about laten variable from
complex samples. Psychometrika, 56(2), 177-196.
Mislevy, R. J. Beaton, A. E., Kaplan, B.,& Sheehan, K. M. (1992). Estimating
population characteristics form sparse matrix samples of item response. Journal of
Educational Measurement, 29, 133-161.
McDonald, R. P. (1999). Test theory: A unified treatment. Mahwah, NJ:Lawrence Erlbaum Associates.
NAEP Technical Documentation (2009). The Nation’s Report Card. Retrieved June 13, 2013, from National Center for Education Statistics: http://nces.ed.gov/
nationsreportcard/tdw/
Nemhauser, G. L., & Wolsey, L. A. (1999). Integer and Combinatorial Optimization.
New York: John Wiley.
OECD (2005). PISA 2003 Technical Report. OCED, Paris.
OECD (2009). PISA 2006 Technical Report. OCED, Paris.
Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. New York :J.
Wiley & Sons.
Rust, K.F., and Johnson, E.G. (1992). Sampling and weighting the national
assessment. Journal of Educational Statistics, Special Issue: National Assessment of Educational Progress, 17(2), 111-129.
Suen, H. K.(1990). Principles of test theories. Hillsdale,NJ: Lawrence Erlbaum Associates.
van der Linden, W. J., Veldkamp, B. P., & Carlson, J. E. (2004).Optimizing Balanced Incomplete Block Designs for Educational Assessments.
Applied Psychological Measurement, 28, 317-331.
von Davier M., Gonzalez, E., & Mislevy, R. J. (2009).What are plausible values and why are they useful? IERA Monograph Series:Issues and Methodologies in
Large-Scale Assessment,2,.9-36.
Weiss, D.J. & Yoes, M.E. (1991). Item response theory. In R.K. Hambleton &
J.N. Zaal (eds.) Advances in educational and psychological testing.
Boston:Kluwer Academic Publishers.
Wu, M. (2005). The role of plausible values in large-scale surveys. Studies in
Educational Evaluation, 31 (2-3), 114-128.
Yates, F. (1936). A new method of arranging variety trials involving a large number of varieties. J. Agric. Sci. 26, 424-455.
附錄
附錄一
不同方法之個體能力值估計誤差整理表
帄均數 RMSE 標準差 RMSE 等化連
結方法
施測 題數
方法
群體 EAP EAP_
AV PV EAP EAP_
AV PV
BIB
30 B1 0.0795
0.0640
0.0806 0.10880.1032
0.126630 B2 0.0590
0.0556
0.0716 0.0880 0.08520.0540
30 A1 0.0649
0.0599
0.0764 0.0988 0.09400.0634
30 A2 0.06460.0596
0.0759 0.09810.0936 0.0936
Complete
70 B1 0.0386
0.0308
0.0424 0.05990.0498
0.066970 B2 0.0387
0.0270
0.0391 0.05840.0413
0.059170 A1 0.0356
0.0290
0.0407 0.05530.0458
0.0634 70 A2 0.04170.0289
0.0407 0.06700.0453
0.0626 註:粗體加底線為該設計情境中 RMSE 最低者。附錄二
不同方法之群體能力值估計誤差整理表
帄均數 RMSE 標準差 RMSE 等化連
結方法
施測 題數
方法
群體 EAP EAP_
AV PV EAP EAP_
AV PV
BIB
15 B1 0.1577
0.0916
0.0913 0.0749 0.19190.0376
15 B2 0.12610.0315
0.0359 0.0780 0.18760.0684
15 A1 0.14110.0601
0.0632 0.0741 0.18860.0522
15 A2 0.14270.0630
0.0640 0.0787 0.19090.0537
30 B1 0.11380.0726
0.0738 0.0275 0.11400.0265
30 B2 0.07900.0246
0.0275 0.0416 0.1238 0.0519 30 A1 0.0978 0.04870.0413 0.0327
0.1182 0.0391 30 A2 0.0951 0.04850.0393 0.0346
0.1196 0.0393Complete
70 B1 0.0478
0.0267
0.0295 0.0135 0.04730.0074
70 B2 0.03670.0143
0.01620.0184
0.0543 0.0214 70 A1 0.04210.0194
0.02220.0156
0.0503 0.0181 70 A2 0.04240.0216
0.02350.0184
0.0543 0.0214 註:粗體加底線為該設計情境中 RMSE 最低者。附錄三
不同參數估計方法在不同題本長度時之估計結果整理表群體帄均數-B 變項(假 定變項間有差異)
模擬情境 RMSE 值 下降值 百分比(P) BIB_15T_B_EAP 0.1419
0.0455 32.05%
BIB_30T_B_EAP 0.0964 BIB_15T_B_EAP_AV 0.0615
0.0130 21.06%
BIB_30T_B_EAP_AV 0.0486 BIB_15T_B_PV 0.0636
0.0130 20.37%
BIB_30T_B_PV 0.0506 次群體間比較 BIB_15T_B1 _EAP 0.1577
0.2784 27.84%
BIB_30T_B1 _EAP 0.1138 BIB_15T_B1_EAP_AV 0.0916
0.2074 20.74%
BIB_30T_B1_EAP_AV 0.0726 BIB_15T_B1 _PV 0.0913
0.1917 19.17%
BIB_30T_B1 _PV 0.0738 BIB_15T_B2_EAP 0.1261
0.3735 37.35%
BIB_30T_B2_EAP 0.0790 BIB_15T_B2_EAP_AV 0.0315
0.2190 21.90%
BIB_30T_B2_EAP_AV 0.0246 BIB_15T_B2_PV 0.0359
0.2340 23.40%
BIB_30T_B2_PV 0.0275
註:B1 設定為低能力次群體、B2 設定為高能力次群體
附錄四
不同參數估計方法在不同題本長度時之估計結果整理表群體帄均數-A 變項(假 定變項間無差異)
模擬情境 RMSE 值 下降值 百分比(P) BIB_15T_A_EAP 0.2838
0.0910 32.05%
BIB_30T_A_EAP 0.1929 BIB_15T_A_EAP_AV 0.1231
0.0259 21.06%
BIB_30T_A_EAP_AV 0.0972 BIB_15T_A _PV 0.1272
0.0366 28.77%
BIB_30T_A_PV 0.0906 次群體間比較 BIB_15T_A1_EAP 0.1411
0.3069 30.69%
BIB_30T_A1_EAP 0.0978 BIB_15T_A1_EAP_AV 0.0601
0.1897 18.97%
BIB_30T_A1_EAP_AV 0.0487 BIB_15T_A1_PV 0.0632
0.3465 34.65%
BIB_30T_A1_PV 0.0413 BIB_15T_A2_EAP 0.1427
0.3336 33.36%
BIB_30T_ A2_EAP 0.0951 BIB_15T_ A2_EAP_AV 0.0630
0.2302 23.02%
BIB_30T_ A2_EAP_AV 0.0485 BIB_15T_ A2 _PV 0.0640
0.3859 38.59%
BIB_30T_ A2_PV 0.0393
附錄五
不同參數估計方法在不同題本長度時之估計結果整理表群體標準差-B 變項(假 定變項間有差異)
模擬情境 RMSE 值 下降值 百分比(P) BIB_15T_B_EAP 0.0764
0.0428 0.5594 BIB_30T_B_EAP 0.0337
BIB_15T_B_EAP_AV 0.1898
0.0709 0.3734 BIB_30T_B_EAP_AV 0.1189
BIB_15T_B_PV 0.0530
0.0138 0.2597 BIB_30T_B_PV 0.0392
次群體間比較 BIB_15T_B1 _EAP 0.0749
0.6328 63.28%
BIB_30T_B1 _EAP 0.0275 BIB_15T_B1_EAP_AV 0.1919
0.4059 40.59%
BIB_30T_B1_EAP_AV 0.1140 BIB_15T_B1 _PV 0.0376
0.2952 29.52%
BIB_30T_B1 _PV 0.0265 BIB_15T_B2_EAP 0.0780
0.4667 46,67%
BIB_30T_B2_EAP 0.0416 BIB_15T_B2_EAP_AV 0.1876
0.3401 34.01%
BIB_30T_B2_EAP_AV 0.1238 BIB_15T_B2_PV 0.0684
0.2412 24.12%
BIB_30T_B2_PV 0.0519
註:B1 設定為低能力次群體、B2 設定為高能力次群體
附錄六
不同參數估計方法在不同題本長度時之估計結果整理表群體標準差-A 變項(假 定變項間無差異)
模擬情境 RMSE 值 下降值 百分比(P) BIB_15T_A_EAP 0.1529
0.0855 55.93%
BIB_30T_A_EAP 0.0674 BIB_15T_A_EAP_AV 0.3795
0.1417 37.34%
BIB_30T_A_EAP_AV 0.2378 BIB_15T_A _PV 0.1059
0.0275 25.97%
BIB_30T_A_PV 0.0784 次群體間比較 BIB_15T_A1_EAP 0.0741
0.5587 55.87%
BIB_30T_A1_EAP 0.0327 BIB_15T_A1_EAP_AV 0.1886
0.3733 37.33%
BIB_30T_A1_EAP_AV 0.1182 BIB_15T_A1_PV 0.0522
0.2510 25.10%
BIB_30T_A1_PV 0.0391 BIB_15T_A2_EAP 0.0787
0.5604 56.04%
BIB_30T_ A2_EAP 0.0346 BIB_15T_ A2_EAP_AV 0.1909
0.3735 37.35%
BIB_30T_ A2_EAP_AV 0.1196 BIB_15T_ A2 _PV 0.0537
0.2682 26.82%
BIB_30T_ A2_PV 0.0393
附錄七
納入背景變項作為輔助訊息與否在 BIB 等化連結設計和完整作答反應估計個人 能力值帄均數之影響整理表-B 變項(假定變項間有差異)
模擬情境 RMSE 值 下降值 百分比(Q) BIB_ B1 _EAP 0.0795
0.0409 51.45%
Complete_ B1 _EAP 0.0386 BIB_ B1 _ EAP_AV 0.0640
0.0332 51.88%
Complete_ B1 _ EAP_AV 0.0308 BIB_ B1 _ PV 0.0806
0.0382 47.39%
Complete_ B1 _ PV 0.0424 BIB_ B2 _EAP 0.0590
0.0203 34.41%
Complete_ B2 _EAP 0.0387 BIB_ B2_ EAP_AV 0.0556
0.0286 51.44%
Complete_ B2_ EAP_AV 0.0270 BIB_ B2_ PV 0.0716
0.0325 45.39%
Complete_ B2_ PV 0.0391
附錄八
納入背景變項作為輔助訊息與否在 BIB 等化連結設計和完整作答反應估計個人 能力值帄均數之影響整理表-A 變項(假定變項間無差異)
模擬情境 RMSE 值 下降值 百分比(Q) BIB_ A1 _EAP 0.0649
0.0293 45.15%
Complete_ A1 _EAP 0.0356 BIB_ A1 _ EAP_AV 0.0599
0.0309 51.59%
Complete_ A1 _ EAP_AV 0.0290 BIB_ A1 _ PV 0.0764
0.0357 46.73%
Complete_ A1 _ PV 0.0407 BIB_ A2 _EAP 0.0646
0.0229 35.45%
Complete_ A2_EAP 0.0417 BIB_ A2_ EAP_AV 0.0596
0.0307 51.51%
Complete_ A2_ EAP_AV 0.0289 BIB_ A2 _ PV 0.0759
0.0352 46.38%
Complete_ A2 _ PV 0.0407
附錄九
納入背景變項作為輔助訊息與否在 BIB 等化連結設計和完整作答反應估計個人 能力值標準差之影響整理表-B 變項(假定變項間有差異)
模擬情境 RMSE 值 下降值 百分比(Q) BIB_ B1 _EAP 0.1088
0.0489 44.94%
Complete_ B1 _EAP 0.0599 BIB_ B1 _ EAP_AV 0.1032
0.0534 51.74%
Complete_ B1 _ EAP_AV 0.0498 BIB_ B1 _ PV 0.1266
0.0597 47.16%
Complete_ B1 _ PV 0.0669 BIB_ B2 _EAP 0.0880
0.0296 33.64%
Complete_ B2 _EAP 0.0584 BIB_ B2_ EAP_AV 0.0852
0.0439 51.53%
Complete_ B2_ EAP_AV 0.0413 BIB_ B2_ PV 0.0540
-0.0051 -9.44%
Complete_ B2_ PV 0.0591
附錄十
納入背景變項作為輔助訊息與否在 BIB 等化連結設計和完整作答反應估計個人
納入背景變項作為輔助訊息與否在 BIB 等化連結設計和完整作答反應估計個人