本研究主要的限制包括樣本數較小,在分析多階層結構時,則會因為每個單 位內的人數過少,而造成參數估計值與變異數不穩定,而無法收斂的現象 (McMahon et al., 2006),如考慮出題者之貝氏模式,顯示試務委員會在召開麻醉 科專科醫師考試時,已與該年度 8 位出題者對試題難度達到某種程度的共識。唯 估計時,對於出題者的收斂表現也相較於醫院階層及估計個人階層誤差為差(圖 V-1),由事後機率分佈可以看出,出題者標準誤差較易出現極端值(圖 V-2)。
36
VI 結論
本研究發展非線性迴歸模式及貝氏多階層模式,突破以局部獨立假設下之傳 統最大概似模式估計法,並應用於麻醉專科醫師甄審筆試測驗之多階層結構資料,
雖然相較於傳統最大概似函數估計法而言相當費時,但可以發展較具彈性之 Rasch 模式。
37
表格
表 IV-1 各年度考生的基本資料
年度 2007 2008 2009 2010 合計 p值
考生人數 36 37 34 36 140
(重考生) (0) (0) (0) (3)
平均年齡 31.6 3.6 31.6 3.2 32.3 4.6 31.8 4.2 31.6 3.6 0.87 (範圍) (28~46) (29~47) (29~50) (29~51)
男性人數 (比例)
25 (69.4%)
24 (64.9%)
23 (67.6%)
23 (63.9%)
92 (65.7%)
0.96
原始總分 74.9 6.5 78.7 6.8 60.3 7.9 66.9 8.3 70.7 10.0 <0.001 (範圍) (60~86) (64~94) (43~76) (46~81)
醫院數 15 16 14 16 22
38
表 IV-2 2008 年所有試題前 10 項估計值比較 試題編號 j
(題目類別)
非線性混合模式 最大概似法
相差值 估計值(𝛽̂ ) 標準誤差 估計值(𝛽j ̂ ) 標準誤差 j
7 (老人) 2.94 0.40 2.94 0.40 0.00 9 (骨科) 2.65 0.38 2.64 0.38 0.01 8 (創傷) 1.33 0.36 1.28 0.35 0.05 3 (心臟外科) 0.96 0.37 0.90 0.36 0.06 10 (骨科) 0.20 0.44 0.13 0.43 0.07 4 (一般外科) -0.80 0.62 -0.88 0.61 0.08 2 (產科) -1.24 0.74 -1.32 0.73 0.08 5 (兒科) -1.97 1.02 -2.05 1.02 0.08 6 (兒科) -1.97 1.02 -2.05 1.02 0.08 1 (併發症) -16.41 1340.63 -3.27 1.83 -13.14
σ 0.53 0.09 0.64 0.04
39
表 IV-3 去除 2008 年全對題目後前 9 項試題估計值比較 試題編號 j
(題目類別)
非線性混合模式 最大概似法
相差值 估計值(𝛽̂ ) 標準誤差 估計值(𝛽j ̂ ) 標準誤差 j
7 (老人) 2.91 0.40 2.94 0.40 -0.03 9 (骨科) 2.62 0.38 2.64 0.38 -0.02 8 (創傷) 1.30 0.36 1.28 0.35 0.02 3 (心臟外科) 0.93 0.37 0.90 0.36 0.03 10 (骨科) 0.17 0.44 0.13 0.43 0.04 4 (一般外科) -0.83 0.62 -0.88 0.61 0.05 2 (產科) -1.27 0.74 -1.32 0.73 0.05 5 (兒科) -2.00 1.02 -2.05 1.02 0.05 6 (兒科) -2.00 1.02 -2.05 1.02 0.05
σ 0.53 0.09 0.64 0.04
表 IV-4 2008 年某五位考生能力估計值(θ)比較
考生編號 i
非線性混合模式 最大概似法
相差值 估計值(θ̂ ) 標準誤差 𝑖 估計值(θ̂ ) 𝑖 標準誤差
8 2.55 0.31 2.88 0.38 -0.33 10 2.47 0.3 2.74 0.37 -0.27 7 2.08 0.28 2.15 0.32 -0.07 11 1.73 0.27 1.67 0.3 0.06
9 1.04 0.26 0.8 0.27 0.24
40
表 IV-5 2008 年不同試題答對機率預測值與觀察值比較
試題編號 j
非線性混合模式 最大概似法
觀察值 難度估計(𝛽̂ ) 預測值 j 難度估計(𝛽̂ ) j 預測值
9 (骨科) 2.62 29% 2.64 28% 30%
8 (創傷) 1.30 60% 1.28 61% 59%
3 (心臟外科) 0.93 69% 0.9 69% 68%
10 (骨科) 0.17 82% 0.13 83% 81%
4 (一般外科) -0.83 93% -0.88 93% 92%
2(產科) -1.27 95% -1.32 95% 95%
表 IV-6 2008 年某五位考生平均答對機率預測值與觀察值比較 考生編號
i
非線性混合模式 最大概似法
觀察值 能力估計(θ̂ ) 𝑖 預測值 能力估計(θ̂ ) 𝑖 預測值
8 2.55 93% 2.88 95% 90%
10 2.47 92% 2.74 94% 89%
7 2.08 89% 2.15 90% 84%
11 1.73 85% 1.67 84% 79%
9 1.04 74% 0.8 69% 68%
41
42
表 IV-9 各年度去除全對或全錯題目回答結果估計不同階層的標準誤差
年度
σ̂h(醫院階層) σ̂s (個人階層)
估計值 標準誤差 P 值 估計值 標準誤差 P 值 2007 0.257 0.144 0.082 0.436 0.100 <0.001 2008 0.345 0.152 0.029 0.426 0.110 <0.001 2009 0.133 0.094 0.167 0.365 0.082 <0.001 2010 0.246 0.161 0.135 0.426 0.101 <0.001 2007~2010 0.187 0.083 0.026 0.409 0.040 <0.001
表 IV-10 以各年度難度十分位題目估計不同階層的標準誤差
年度
σ̂h (醫院階層) σ̂s (個人階層)
估計值 標準誤差 P 值 估計值 標準誤差 P 值 2007 0.521 0.419 0.222 0.758 0.457 0.107 2008 0.194 0.171 0.263 0.221 0.191 0.255 2009 0.762 0.364 0.044 0.176 0.159 0.274 2010 0.138 0.109 0.216 0.154 0.121 0.213 2007~2010 0.694 0.230 0.003 0.354 0.189 0.063
43
表 IV-11 各年度難度中間 30 題回答結果估計不同階層的標準誤差
年度
σ̂h (醫院階層) σ̂s (個人階層)
估計值 標準誤差 P 值 估計值 標準誤差 P 值 2007 0.253 0.154 0.110 0.458 0.124 0.001 2008 0.308 0.169 0.078 0.464 0.136 0.002 2009 0.219 0.156 0.169 0.360 0.132 0.010 2010 0.134 0.094 0.162 0.251 0.120 0.043 2007~2010 0.255 0.079 0.002 0.345 0.052 <0.001
表 IV-12 2008 年度去除全對或全錯題目回答結果估計不同階層的標準誤差
估計值 標準誤差 P 值
𝛔̂𝐡(醫院階層) 0.3455 0.1550 0.0258 𝛔
̂𝐬 (個人階層) 0.4269 0.1137 0.0002 𝛔̂𝐫 (出題者) 0.4571 0.5569 0.4118
44
表 IV-13 去除 2008 年全對題目後前 9 項試題在非線性混合模式與貝氏方法含出 題者訊息模式之估計值
試題編號 j (題目類別)
非線性混合模式 貝氏法
估計值(𝛽̂ ) 標準誤差 估計值(𝛽j ̂ ) 標準誤差 j 7 (老人) 2.91 0.40 3.06 0.87 9 (骨科) 2.62 0.38 2.68 0.65 8 (創傷) 1.30 0.36 1.32 0.64 3 (心臟外科) 0.93 0.37 1.00 0.85 10 (骨科) 0.17 0.44 0.15 0.69 4 (一般外科) -0.83 0.62 -0.99 0.88 2 (產科) -1.27 0.74 -1.48 0.99 5 (兒科) -2.00 1.02 -2.71 1.50 6 (兒科) -2.00 1.02 -2.69 1.50
表 IV-14 去除 2008 年全對題目後某五位考生在非線性混合模式與貝氏方法含出 題者訊息模式之估計值
考生編號 i
非線性混合模式 貝氏法
估計值(θ̂ ) 標準誤差 𝑖 估計值(θ̂ ) 𝑖 標準誤差 8 2.55 0.31 2.24 0.35 10 2.47 0.30 2.26 0.38 7 2.08 0.28 1.89 0.32 11 1.73 0.27 1.82 0.31 9 1.04 0.26 1.33 0.30
45
表 IV-15 去除 2008 年全對題目後前 9 項試題在非線性混合模式與貝氏方法含醫 院模式之估計值
試題編號 j (題目類別)
非線性混合模式 貝氏法
估計值(𝛽̂ ) 標準誤差 估計值(𝛽j ̂ ) 標準誤差 j 7 (老人) 2.91 0.40 2.96 0.42 9 (骨科) 2.62 0.38 2.65 0.40 8 (創傷) 1.30 0.36 1.29 0.37 3 (心臟外科) 0.93 0.37 0.90 0.39 10 (骨科) 0.17 0.44 0.12 0.46 4 (一般外科) -0.83 0.62 -0.99 0.67 2 (產科) -1.27 0.74 -1.52 0.83 5 (兒科) -2.00 1.02 -2.54 1.30 6 (兒科) -2.00 1.02 -2.58 1.31
46
10001 15000 20000 25000 30000
0.0
10001 15000 20000 25000 30000
0.0
10001 15000 20000 25000 30000
0.0 2.0 4.0 6.0 8.0
47
圖 V-2 2008 年度去除全對題目後不同階層標準誤差之事後機率分佈 (a) σ̂h(醫院階層) sd.h sample: 20000
0.0 0.5 1.0 0.0
1.0 2.0 3.0
(b) σ̂k (個人階層) sd sample: 20000
0.0 0.5 1.0 0.0
1.0 2.0 3.0 4.0
(c) σ̂r (出題者) sd.R sample: 20000
-2.0 0.0 2.0 4.0 6.0 0.0
1.0 2.0 3.0
48
參考文獻
Agresti, A. (2000). Random‐Effects Modeling of Categorical Response Data.
Sociological Methodology, 30(1), 27-80.
Amtmann, D., Cook, K. F., Jensen, M. P., Chen, W. H., Choi, S., Revicki, D., . . . Lai, J.-S.
(2010). Development of a PROMIS item bank to measure pain interference.
Pain, 150(1), 173-182.
Andrich, D. (1978). A rating formulation for ordered response categories.
Psychometrika, 43(4), 561-573. doi: 10.1007/bf02293814
Andrich, D. (1988). Rasch Models for Measurement. Newbury Park, CA: Sage Publications.
Aronson, S., Butler, A., Subhiyah, R., Buckingham Jr, R. E., Cahalan, M. K., Konstandt, S., . . . Thys, D. (2002). Development and analysis of a new certifying
examination in perioperative transesophageal echocardiography. Anesthesia
& Analgesia, 95(6), 1476-1482.
Bates, D. M., & Watts, D. G. (1988). Nonlinear regression analysis and its applications.
New York: Wiley.
Bond, T. G., & Fox, C. M. (2007). Applying the Rasch Model: Fundamental Measurement in the Human Sciences (2nd ed.). Mahwah, NJ: Lawrence Erlbaum Associates.
Chang, K.-Y., Chan, K.-H., Chang, S.-H., Yang, M.-C., & Chen, T. H.-H. (2008). Decision analysis for epidural labor analgesia with Multiattribute Utility (MAU) Model.
The Clinical journal of pain, 24(3), 265.
Chang, K.-Y., Tsou, M.-Y., Chan, K.-H., & Chen, H.-H. (2011). Application of the Rasch Model to Develop a Simplified Version of a Multiattribute Utility
Measurement on Attitude Toward Labor Epidural Analgesia. Anesthesia &
Analgesia, 113(6), 1444-1449. doi: 10.1213/ANE.0b013e318230b2a8
Chang, K. Y., Tsou, M. Y., Chan, K. H., Chang, S. H., Tai, J. J., & Chen, H. H. (2010). Item analysis for the written test of Taiwanese board certification examination in anaesthesiology using the Rasch model. British Journal of Anaesthesia, 104(6), 717-722.
Cox, C., & Ma, G. (1995). Asymptotic confidence bands for generalized nonlinear regression models. Biometrics, 142-150.
Darrell Bock, R. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37(1), 29-51.
doi: 10.1007/bf02291411
Davidian, M., & Giltinan, D. M. (2003). Nonlinear models for repeated measurement data: an overview and update. Journal of Agricultural, Biological, and
49
Environmental Statistics, 8(4), 387-419.
De Ayala, R. J. (2009). The theory and practice of item response theory. New York:
Guilford Press.
Dobson, A. J., & Barnett, A. G. (2008). An introduction to generalized linear models.
Boca Raton: CRC Press.
Fang, Z., & Bailey, R. L. (2001). Nonlinear mixed effects modeling for slash pine dominant height growth following intensive silvicultural treatments. Forest Science, 47(3), 287-300.
Garibaldi, R. A., Subhiyah, R., Moore, M. E., & Waxman, H. (2002). The in-training examination in internal medicine: an analysis of resident performance over time. Annals of Internal Medicine, 137(6), 505-510.
Kamata, A. (2001). Item Analysis by the Hierarchical Generalized Linear Model.
Journal of Educational Measurement, 38(1), 79-93. doi: 10.2307/1435439 Lesaffre, E., & Spiessens, B. (2001). On the effect of the number of quadrature points
in a logistic random effects model: an example. Journal of the Royal Statistical Society: Series C (Applied Statistics), 50(3), 325-335.
Maier, K. S. (2001). A Rasch hierarchical measurement model. Journal of Educational and Behavioral Statistics, 26(3), 307-330.
Masters, G. (1982). A rasch model for partial credit scoring. Psychometrika, 47(2), 149-174. doi: 10.1007/bf02296272
McMahon, J. M., Pouget, E. R., & Tortu, S. (2006). A guide for multilevel modeling of dyadic data with binary outcomes using SAS PROC NLMIXED. Computational statistics & data analysis, 50(12), 3663-3680.
McRoberts, R. E., Brooks, R. T., & Rogers, L. L. (1998). Using nonlinear mixed effects models to estimate size-age relationships for black bears. Canadian Journal of Zoology, 76(6), 1098-1106. doi: 10.1139/z98-049
Nelder, J. A., & Wedderburn, R. W. (1972). Generalized linear models. Journal of the Royal Statistical Society. Series A (General), 370-384.
O'Neill, T. R., Marks, C. M., & Reynolds, M. (2005). Re-evaluating the NCLEX-RN passing standard. Journal of Nursing Measurement, 13(2), 147-165.
Pauler, D. K., & Finkelstein, D. M. (2002). Predicting time to prostate cancer
recurrence based on joint models for non-linear longitudinal biomarkers and event time outcomes. Statistics in Medicine, 21(24), 3897-3911. doi:
10.1002/sim.1392
Revicki, D. A., Chen, W. H., Harnam, N., Cook, K. F., Amtmann, D., Callahan, L. F., . . . Keefe, F. J. (2009). Development and psychometric analysis of the PROMIS pain behavior item bank. Pain, 146(1-2), 158-169.
Rijmen, F., Tuerlinckx, F., De Boeck, P., & Kuppens, P. (2003). A nonlinear mixed model
50
framework for item response theory. Psychological Methods, 8(2), 185-205.
doi: 10.1037/1082-989x.8.2.185
SAS Institute, I., & Publishing, S. (2011). SAS / STAT 9.3 User's Guide (Book Excerpt):
Sas Inst.
Sheiner, L., & Ludden, T. (1992). Population Pharmacokinetics/Dynamics*. Annual Review of Pharmacology and Toxicology, 32(1), 185-209.
Sheu, C.-F., Chen, C.-T., Su, Y.-H., & Wang, W.-C. (2005). Using SAS PROC NLMIXED to fit item response theory models. Behavior Research Methods, 37(2), 202-218.
doi: 10.3758/bf03192688
Smits, D. M., Boeck, P., & Verhelst, N. (2003). Estimation of the MIRID: A program and a SAS-based approach. Behavior Research Methods, Instruments, &
Computers, 35(4), 537-549. doi: 10.3758/bf03195533
Varni, J. W., Stucky, B. D., Thissen, D., Dewitt, E. M., Irwin, D. E., Lai, J. S., . . . Dewalt, D. A. (2010). PROMIS pediatric pain interference scale: An item response theory analysis of the pediatric pain item bank. Journal of Pain.
Verbeke, G., & Molenberghs, G. (2009). Linear mixed models for longitudinal data:
Springer.
Yang, S. C., Tsou, M. Y., Chen, E. T., Chan, K. H., & Chang, K. Y. (2011). Statistical item analysis of the examination in anesthesiology for medical students using the Rasch model. Journal of the Chinese Medical Association, 74(3), 125-129.
51