建議 - 結論與建議 - 結合輔助訊息之單向度IRT三參數模式估計成效探究

第五章結論與建議

第二節建議

本研究使用模擬資料進行探討並搭配實徵資料進行驗證，模擬資料部份實驗情境為：二種等化設計（Complete、BIB）；施測人數設定為 5460 人；施測題數

（15 題與 30 題）、模式設定為單向度三參數 IRT 模式，進行不同估計方法下對於個體能力估計與群體參數估計之比較，實徵資料則以 TASA2010 年國二數學

科資料同樣進行不同估計方法下對於個體能力估計與群體參數估計之比較，以下茲就本研究未臻完備處，提出未來研究之建議，以作為後續研究參考。

壹、本研究受詴者能力分布、人數與詴題參數值皆參考文獻進行設定，可嘗詴更多樣的設定考量。

貳、本研究於等化連結設計（BIB 與 Complete）與題數設定（15 題與 30 題）皆只有兩種設計，故可嘗詴更多種方式之比較，以便釐清各參數估計方法之最精確的題數、連結方式等設定。

參、本研究只探討進行測驗水帄等化，未來可嘗詴以垂直等化進行估計方法與等化設計之比較。

肆、本研究仍以單向度三參數 IRT 模式進行設定與探究，可嘗詴多向度 IRT 模式進行資料模擬與探究，抑或再嘗詴不同參數設定持續驗證單向度三參數 IRT 模式之估計效益。

伍、實徵資料部份，納入背景變項為輔助訊息之估計方法其估計結果較為一致，

建議未來國內外各大型測驗進行群體能力值估計法採納入背景變項為輔助訊息之估計方法，但本研究仍建議大型測驗採可能值方法進行估計，因可能值方法透過重覆抽取 5 個可能值，其已包含測驗誤差，但 EAP_AV 方法卻忽略此誤差。

參考文獻

中文部分

王文中（2004）。Rasch 測量理論與其在教育上的應用。教育與心理研究，27，

637-694。

王暄博（2006）。BIB 與 NEAT 設計之水帄及垂直等化效果比較（未出版之碩 士論文）。國立臺中教育大學，臺中市。

王敏嫻（2011）。不同水帄等化設計於可能值方法之探討（未出版之碩士論文）。

國立臺中教育大學，臺中市。

任宗皓（2008）。TIMSS2007 國際數學與科學教育成就趨勢調查國家報告 －第三章。檢索日期：2013 年 05 月 19 日，網址：

http://www.dorise.info/DER/download_T2007/resault/TIMSS-2007-full_ver.pdf

余民寧（2009），詴題反應理論（IRT）及其應用（一版）。臺北市，心理出版 社股份有限公司。

吳慧珉（2011）。解讀國際大型測驗之分數報告。國家教育研究院電子報--第 20 期。檢索日期：2013 年 6 月 15 日，網址：

http://epaper.naer.edu.tw/index.php?edm_no=20&content_no=464。

李佩瑾（2011）。以 PISA2009 數學評量中能力架構進行國小六年級圓面積測驗 編製及分析（未出版之碩士論文）。國立臺中教育大學，臺中市。

李德弘（2013）。應用可能值方法於大型測驗不同年度間連結方法之效果探究（未出版之碩士論文）。國立臺中教育大學，臺中市。

何宗岳（2011）。模擬與實徵詴題差異功能之指標效能分析：IRT 法及 CFA 法 之比較（未出版之博士論文）。國立嘉義大學，嘉義縣。

郭伯臣、王暄博（2008）。大型測驗中同時進行垂直與水帄等化效果之探討。教 育研究與發展期刊，(4)，87-120。

郭伯臣、曾建銘（2010）。大型標準化測驗建置流程應用於 TASA 之研究期末報 告。新北市：國家教育研究院籌備處。

郭伯臣、吳慧珉、陳俊華（2012）。詴題反應理論在教育測驗上之應用。新竹縣 教育研究集刊，(12)，5-40。

郭伯臣、曾建銘、吳慧珉主編（2012）。大型標準化測驗建置流程應用於 TASA 之研究。新北市：國家教育研究院。

郭秀芬（2013）。多向度詴題反應理論下不同估計方法估計成效之探討（未出版之碩士論文）。國立臺中教育大學，臺中市。

國家教育研究院（2010）。TASA2010 年資料使用手冊。未出版，國家教育研 究院，新北市。

陳柏熹（2006）。IRT在量表 ( 測驗 ) 編製上的應用（上）。檢索日期：2013 年 07 月 19 日，網址：http://www.rcpet.ntnu.edu.tw/download.htm。

陳柏熹（2006）。能力估計方法對多向度電腦化適性測驗測量精準度的影響。國 立臺灣師範大學教育心理與輔導學系教育心理學報，38 (2)，195 -211。

陳婉寧（2013）。以可能值方法為基礎之多向度垂直等化之探究（未出版之碩士論文）。國立臺中教育大學，臺中市。

張鈺卿（2007）。BIB 與 NEAT 設計在不同年度測驗連結效果之比較（未出版之 碩士論文）。國立臺中教育大學，臺中市。

張郁雯（2009）。國際教育成就評比的心理計量議題—以 PIRLS 為例。檢索日 期：2013 年 05 月 19 日，網址：http://www.tmue.edu.tw/

~adeva/activity_photo/photo/nation/98/981109Pirls/file/981109p.pdf。

曾玉琳（2007）。不同配置設計下測驗等化效果之模擬研究（未出版之碩士論文）。

國立臺中師範學院，臺中市。

曾玉琳、王暄博、郭伯臣、許天維（2006）。不同 BIB 設計對測驗等化的影響。

測驗統計年刊，13（2），209-229。

黃美芳（2006）。詴題反應理論三參數模式下等化效果之探究（未出版之碩士論文）。國立臺中教育大學，臺中市。

黃國清、吳寶桂（2006）。七年級數學標準化成就測驗之編製與其相關之研究：

以 IRT 模式分析。教育研究與發展期刊，2(4)，109-142。

黃珮璇（2007）。BIB、PBIB 與 NEAT 設計於多元計分測驗之連結效果比較。

（未出版之碩士論文）。國立臺中教育大學，臺中市。

曾建銘（2009）。TASA 與其他國際評量之比較。研習資訊，26（6），21-25。

楊孟麗、譚康榮、黃敏雄（2003）。台灣教育長期追蹤資料庫：心理計量報告：

TEPS2001 分析能力測驗【第一版】。中央研究院調查研究專題中心學術調查 研究資料庫，臺北市。

葉昶成（2012）。不同垂直等化設計下可能值方法估計效果之探討（未出版之碩士論文）。國立臺中教育大學，臺中市。

鍾岳豪（2011）。以學習者個人偏好與詴題反應理論為基礎之個人化英文文章推 薦系統（未出版之碩士論文）。逢甲大學，臺中市。

蘇怡婷（2009）。單步驟與多步驟分析法於階層性資料估計精確度之比較（未出版之碩士論文）。國立臺南大學，臺南市。

英文部分

Adams, R. J., Wilson, M., & Wu, M. (1997). Multilevel item response models: An approach to errors in variables regression. Journal of Educational and Behavioral

Statistics, 22, 47-76.

Birnbaum, A. (1968). Some latent trait model and their use in inferring an examinee’s

ability. In F. M. Lord and M. R. Novick, Statistical theories of mental test scores,

17-20. Reading, Mass: Addison-Wesley.

Bock, R. D., & Mislevy, R. J. (1982). Adaptive EAP estimation of ability in a microcomputer environment. Applied Psychological Measurement, 6, 431-444.

de la Torre, J., & Song, H. (2009). Improving the quality of ability estimates through multidimensional scoring and incorporation of ancillary variables.

Applied Psychological Measurement, 33, 465-485.

Embreston & Reise (2000). Item response theory for psychologists. Mahwah NJ：

Lawrence Erlbaum Association.

Guion. R. M. & Ironson. G.H. (1983). Laten trait theory for organizational research. Organizational Behavior and Human Performance, 31, 54-87.

Harold Gulliksen (1950). Theory of Mental Tests. New York：J. Wiley & Sons.

Hambleton, R.K., & Swaminathan, H. (1985). Item Response Theory:Principles and

Application. Boston,MA：Kivwer- Nijhoff.

Kuehl, R. O. (2000). Design of Experiments: Statistical Principles of

Research Design and Analysis. CA: Duxbury Press.

Lee, J., Grigg, W., & Dion, G. (2007). The Nation’s Report Card: Mathematics 2007.

National Center for Education Statistics, Institute of Education Sciences, U. S.

Department of Education, Washington, D. C.

Mislevy, R. J. & Sheehan, K. M. (1989). Information matrices in latent-variable models. Journal of Educational Statistics 14(4), 335-350.

Mislevy, R. J. & Sheehan, K. M. (1987). Marginal estimation procedures, in A.E.

Beaton (ed.). The NAEP 1983-1984 Technical Report (Report No. 15-TR-20).

Educational Testing Service, Princeton, N.J.

Mislevy, R. J. (1991). Randomization-based inference about laten variable from

complex samples. Psychometrika, 56(2), 177-196.

Mislevy, R. J. Beaton, A. E., Kaplan, B.,& Sheehan, K. M. (1992). Estimating

population characteristics form sparse matrix samples of item response. Journal of

Educational Measurement, 29, 133-161.

McDonald, R. P. (1999). Test theory: A unified treatment. Mahwah, NJ:Lawrence Erlbaum Associates.

NAEP Technical Documentation (2009). The Nation’s Report Card. Retrieved June 13, 2013, from National Center for Education Statistics: http://nces.ed.gov/

nationsreportcard/tdw/

Nemhauser, G. L., & Wolsey, L. A. (1999). Integer and Combinatorial Optimization.

New York: John Wiley.

OECD (2005). PISA 2003 Technical Report. OCED, Paris.

OECD (2009). PISA 2006 Technical Report. OCED, Paris.

Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. New York :J.

Wiley & Sons.

Rust, K.F., and Johnson, E.G. (1992). Sampling and weighting the national

assessment. Journal of Educational Statistics, Special Issue: National Assessment of Educational Progress, 17(2), 111-129.

Suen, H. K.(1990). Principles of test theories. Hillsdale,NJ: Lawrence Erlbaum Associates.

van der Linden, W. J., Veldkamp, B. P., & Carlson, J. E. (2004).Optimizing Balanced Incomplete Block Designs for Educational Assessments.

Applied Psychological Measurement, 28, 317-331.

von Davier M., Gonzalez, E., & Mislevy, R. J. (2009).What are plausible values and why are they useful? IERA Monograph Series:Issues and Methodologies in

Large-Scale Assessment,2,.9-36.

Weiss, D.J. & Yoes, M.E. (1991). Item response theory. In R.K. Hambleton &

J.N. Zaal (eds.) Advances in educational and psychological testing.

Boston:Kluwer Academic Publishers.

Wu, M. (2005). The role of plausible values in large-scale surveys. Studies in

Educational Evaluation, 31 (2-3), 114-128.

Yates, F. (1936). A new method of arranging variety trials involving a large number of varieties. J. Agric. Sci. 26, 424-455.

附錄

附錄一

不同方法之個體能力值估計誤差整理表

帄均數 RMSE 標準差 RMSE 等化連

結方法

施測題數

方法

群體 EAP EAP_

AV PV EAP EAP_

AV PV

BIB

30 B₁ 0.0795

0.0640

0.0806 0.1088

0.1032

0.1266

30 B₂ 0.0590

0.0556

0.0716 0.0880 0.0852

0.0540

30 A₁ 0.0649

0.0599

0.0764 0.0988 0.0940

0.0634

30 A₂ 0.0646

0.0596

0.0759 0.0981

0.0936 0.0936

Complete

70 B₁ 0.0386

0.0308

0.0424 0.0599

0.0498

0.0669

70 B₂ 0.0387

0.0270

0.0391 0.0584

0.0413

0.0591

70 A₁ 0.0356

0.0290

0.0407 0.0553

0.0458

0.0634 70 A₂ 0.0417

0.0289

0.0407 0.0670

0.0453

0.0626 註：粗體加底線為該設計情境中 RMSE 最低者。

附錄二

不同方法之群體能力值估計誤差整理表

帄均數 RMSE 標準差 RMSE 等化連

結方法

施測題數

方法

群體 EAP EAP_

AV PV EAP EAP_

AV PV

BIB

15 B₁ 0.1577

0.0916

0.0913 0.0749 0.1919

0.0376

15 B₂ 0.1261

0.0315

0.0359 0.0780 0.1876

0.0684

15 A₁ 0.1411

0.0601

0.0632 0.0741 0.1886

0.0522

15 A₂ 0.1427

0.0630

0.0640 0.0787 0.1909

0.0537

30 B₁ 0.1138

0.0726

0.0738 0.0275 0.1140

0.0265

30 B₂ 0.0790

0.0246

0.0275 0.0416 0.1238 0.0519 30 A₁ 0.0978 0.0487

0.0413 0.0327

0.1182 0.0391 30 A₂ 0.0951 0.0485

0.0393 0.0346

0.1196 0.0393

Complete

70 B₁ 0.0478

0.0267

0.0295 0.0135 0.0473

0.0074

70 B₂ 0.0367

0.0143

0.0162

0.0184

0.0543 0.0214 70 A₁ 0.0421

0.0194

0.0222

0.0156

0.0503 0.0181 70 A₂ 0.0424

0.0216

0.0235

0.0184

0.0543 0.0214 註：粗體加底線為該設計情境中 RMSE 最低者。

附錄三

不同參數估計方法在不同題本長度時之估計結果整理表群體帄均數－B 變項（假定變項間有差異）

模擬情境 RMSE 值下降值 百分比(P) BIB_15T_B_EAP 0.1419

0.0455 32.05%

BIB_30T_B_EAP 0.0964 BIB_15T_B_EAP_AV 0.0615

0.0130 21.06%

BIB_30T_B_EAP_AV 0.0486 BIB_15T_B_PV 0.0636

0.0130 20.37%

BIB_30T_B_PV 0.0506 次群體間比較 BIB_15T_B₁ _EAP 0.1577

0.2784 27.84%

BIB_30T_B₁ _EAP 0.1138 BIB_15T_B₁_EAP_AV 0.0916

0.2074 20.74%

BIB_30T_B₁_EAP_AV 0.0726 BIB_15T_B₁ _PV 0.0913

0.1917 19.17%

BIB_30T_B₁ _PV 0.0738 BIB_15T_B₂_EAP 0.1261

0.3735 37.35%

BIB_30T_B₂_EAP 0.0790 BIB_15T_B₂_EAP_AV 0.0315

0.2190 21.90%

BIB_30T_B₂_EAP_AV 0.0246 BIB_15T_B₂_PV 0.0359

0.2340 23.40%

BIB_30T_B₂_PV 0.0275

註：B1 設定為低能力次群體、B2 設定為高能力次群體

附錄四

不同參數估計方法在不同題本長度時之估計結果整理表群體帄均數－A 變項（假定變項間無差異）

模擬情境 RMSE 值下降值 百分比(P) BIB_15T_A_EAP 0.2838

0.0910 32.05%

BIB_30T_A_EAP 0.1929 BIB_15T_A_EAP_AV 0.1231

0.0259 21.06%

BIB_30T_A_EAP_AV 0.0972 BIB_15T_A _PV 0.1272

0.0366 28.77%

BIB_30T_A_PV 0.0906 次群體間比較 BIB_15T_A₁_EAP 0.1411

0.3069 30.69%

BIB_30T_A₁_EAP 0.0978 BIB_15T_A₁_EAP_AV 0.0601

0.1897 18.97%

BIB_30T_A₁_EAP_AV 0.0487 BIB_15T_A₁_PV 0.0632

0.3465 34.65%

BIB_30T_A₁_PV 0.0413 BIB_15T_A₂_EAP 0.1427

0.3336 33.36%

BIB_30T_ A₂_EAP 0.0951 BIB_15T_ A₂_EAP_AV 0.0630

0.2302 23.02%

BIB_30T_ A₂_EAP_AV 0.0485 BIB_15T_ A₂ _PV 0.0640

0.3859 38.59%

BIB_30T_ A₂_PV 0.0393

附錄五

不同參數估計方法在不同題本長度時之估計結果整理表群體標準差－B 變項（假定變項間有差異）

模擬情境 RMSE 值下降值 百分比(P) BIB_15T_B_EAP 0.0764

0.0428 0.5594 BIB_30T_B_EAP 0.0337

BIB_15T_B_EAP_AV 0.1898

0.0709 0.3734 BIB_30T_B_EAP_AV 0.1189

BIB_15T_B_PV 0.0530

0.0138 0.2597 BIB_30T_B_PV 0.0392

次群體間比較 BIB_15T_B₁ _EAP 0.0749

0.6328 63.28%

BIB_30T_B₁ _EAP 0.0275 BIB_15T_B₁_EAP_AV 0.1919

0.4059 40.59%

BIB_30T_B₁_EAP_AV 0.1140 BIB_15T_B₁ _PV 0.0376

0.2952 29.52%

BIB_30T_B₁ _PV 0.0265 BIB_15T_B₂_EAP 0.0780

0.4667 46,67%

BIB_30T_B₂_EAP 0.0416 BIB_15T_B₂_EAP_AV 0.1876

0.3401 34.01%

BIB_30T_B₂_EAP_AV 0.1238 BIB_15T_B₂_PV 0.0684

0.2412 24.12%

BIB_30T_B₂_PV 0.0519

註：B1 設定為低能力次群體、B2 設定為高能力次群體

附錄六

不同參數估計方法在不同題本長度時之估計結果整理表群體標準差－A 變項（假定變項間無差異）

模擬情境 RMSE 值下降值 百分比(P) BIB_15T_A_EAP 0.1529

0.0855 55.93%

BIB_30T_A_EAP 0.0674 BIB_15T_A_EAP_AV 0.3795

0.1417 37.34%

BIB_30T_A_EAP_AV 0.2378 BIB_15T_A _PV 0.1059

0.0275 25.97%

BIB_30T_A_PV 0.0784 次群體間比較 BIB_15T_A₁_EAP 0.0741

0.5587 55.87%

BIB_30T_A₁_EAP 0.0327 BIB_15T_A₁_EAP_AV 0.1886

0.3733 37.33%

BIB_30T_A₁_EAP_AV 0.1182 BIB_15T_A₁_PV 0.0522

0.2510 25.10%

BIB_30T_A₁_PV 0.0391 BIB_15T_A₂_EAP 0.0787

0.5604 56.04%

BIB_30T_ A₂_EAP 0.0346 BIB_15T_ A₂_EAP_AV 0.1909

0.3735 37.35%

BIB_30T_ A₂_EAP_AV 0.1196 BIB_15T_ A₂ _PV 0.0537

0.2682 26.82%

BIB_30T_ A₂_PV 0.0393

附錄七

納入背景變項作為輔助訊息與否在 BIB 等化連結設計和完整作答反應估計個人能力值帄均數之影響整理表－B 變項（假定變項間有差異）

模擬情境 RMSE 值下降值 百分比(Q) BIB_ B₁ _EAP 0.0795

0.0409 51.45%

Complete_ B₁ _EAP 0.0386 BIB_ B₁ _ EAP_AV 0.0640

0.0332 51.88%

Complete_ B₁ _ EAP_AV 0.0308 BIB_ B₁ _ PV 0.0806

0.0382 47.39%

Complete_ B₁ _ PV 0.0424 BIB_ B₂ _EAP 0.0590

0.0203 34.41%

Complete_ B₂ _EAP 0.0387 BIB_ B₂_ EAP_AV 0.0556

0.0286 51.44%

Complete_ B₂_ EAP_AV 0.0270 BIB_ B₂_ PV 0.0716

0.0325 45.39%

Complete_ B₂_ PV 0.0391

附錄八

納入背景變項作為輔助訊息與否在 BIB 等化連結設計和完整作答反應估計個人能力值帄均數之影響整理表－A 變項（假定變項間無差異）

模擬情境 RMSE 值下降值 百分比(Q) BIB_ A₁ _EAP 0.0649

0.0293 45.15%

Complete_ A₁ _EAP 0.0356 BIB_ A₁ _ EAP_AV 0.0599

0.0309 51.59%

Complete_ A₁ _ EAP_AV 0.0290 BIB_ A₁ _ PV 0.0764

0.0357 46.73%

Complete_ A₁ _ PV 0.0407 BIB_ A₂ _EAP 0.0646

0.0229 35.45%

Complete_ A₂_EAP 0.0417 BIB_ A₂_ EAP_AV 0.0596

0.0307 51.51%

Complete_ A₂_ EAP_AV 0.0289 BIB_ A₂ _ PV 0.0759

0.0352 46.38%

Complete_ A₂ _ PV 0.0407

附錄九

納入背景變項作為輔助訊息與否在 BIB 等化連結設計和完整作答反應估計個人能力值標準差之影響整理表－B 變項（假定變項間有差異）

模擬情境 RMSE 值下降值 百分比(Q) BIB_ B₁ _EAP 0.1088

0.0489 44.94%

Complete_ B₁ _EAP 0.0599 BIB_ B₁ _ EAP_AV 0.1032

0.0534 51.74%

Complete_ B₁ _ EAP_AV 0.0498 BIB_ B₁ _ PV 0.1266

0.0597 47.16%

Complete_ B₁ _ PV 0.0669 BIB_ B₂ _EAP 0.0880

0.0296 33.64%

Complete_ B₂ _EAP 0.0584 BIB_ B₂_ EAP_AV 0.0852

0.0439 51.53%

Complete_ B₂_ EAP_AV 0.0413 BIB_ B₂_ PV 0.0540

-0.0051 -9.44%

Complete_ B₂_ PV 0.0591

附錄十

納入背景變項作為輔助訊息與否在 BIB 等化連結設計和完整作答反應估計個人

在文檔中結合輔助訊息之單向度IRT三參數模式估計成效探究 (頁 75-96)

建議

第五章 結論與建議

第二節 建議

參考文獻

Statistics, 22, 47-76.

ability. In F. M. Lord and M. R. Novick, Statistical theories of mental test scores,

Applied Psychological Measurement, 33, 465-485.

Application. Boston,MA：Kivwer- Nijhoff.

Research Design and Analysis. CA: Duxbury Press.

National Center for Education Statistics, Institute of Education Sciences, U. S.

Department of Education, Washington, D. C.

Educational Measurement, 29, 133-161.

Applied Psychological Measurement, 28, 317-331.

Large-Scale Assessment,2,.9-36.

Educational Evaluation, 31 (2-3), 114-128.

附錄

0.0640

0.1032

0.0556

0.0540

0.0599

0.0634

0.0596

0.0936 0.0936

0.0308

0.0498

0.0270

0.0413

0.0290

0.0458

0.0289

0.0453

0.0916

0.0376

0.0315

0.0684

0.0601

0.0522

0.0630

0.0537

0.0726

0.0265

0.0246

0.0413 0.0327

0.0393 0.0346

0.0267

0.0074

0.0143

0.0184

0.0194

0.0156

0.0216

0.0184

第五章結論與建議

第二節建議