• 沒有找到結果。

本研究主要的限制包括樣本數較小,在分析多階層結構時,則會因為每個單 位內的人數過少,而造成參數估計值與變異數不穩定,而無法收斂的現象 (McMahon et al., 2006),如考慮出題者之貝氏模式,顯示試務委員會在召開麻醉 科專科醫師考試時,已與該年度 8 位出題者對試題難度達到某種程度的共識。唯 估計時,對於出題者的收斂表現也相較於醫院階層及估計個人階層誤差為差(圖 V-1),由事後機率分佈可以看出,出題者標準誤差較易出現極端值(圖 V-2)。

36

VI 結論

本研究發展非線性迴歸模式及貝氏多階層模式,突破以局部獨立假設下之傳 統最大概似模式估計法,並應用於麻醉專科醫師甄審筆試測驗之多階層結構資料,

雖然相較於傳統最大概似函數估計法而言相當費時,但可以發展較具彈性之 Rasch 模式。

37

表格

表 IV-1 各年度考生的基本資料

年度 2007 2008 2009 2010 合計 p值

考生人數 36 37 34 36 140

(重考生) (0) (0) (0) (3)

平均年齡 31.6  3.6 31.6  3.2 32.3  4.6 31.8  4.2 31.6  3.6 0.87 (範圍) (28~46) (29~47) (29~50) (29~51)

男性人數 (比例)

25 (69.4%)

24 (64.9%)

23 (67.6%)

23 (63.9%)

92 (65.7%)

0.96

原始總分 74.9  6.5 78.7  6.8 60.3  7.9 66.9  8.3 70.7  10.0 <0.001 (範圍) (60~86) (64~94) (43~76) (46~81)

醫院數 15 16 14 16 22

38

表 IV-2 2008 年所有試題前 10 項估計值比較 試題編號 j

(題目類別)

非線性混合模式 最大概似法

相差值 估計值(𝛽̂ ) 標準誤差 估計值(𝛽j ̂ ) 標準誤差 j

7 (老人) 2.94 0.40 2.94 0.40 0.00 9 (骨科) 2.65 0.38 2.64 0.38 0.01 8 (創傷) 1.33 0.36 1.28 0.35 0.05 3 (心臟外科) 0.96 0.37 0.90 0.36 0.06 10 (骨科) 0.20 0.44 0.13 0.43 0.07 4 (一般外科) -0.80 0.62 -0.88 0.61 0.08 2 (產科) -1.24 0.74 -1.32 0.73 0.08 5 (兒科) -1.97 1.02 -2.05 1.02 0.08 6 (兒科) -1.97 1.02 -2.05 1.02 0.08 1 (併發症) -16.41 1340.63 -3.27 1.83 -13.14

σ 0.53 0.09 0.64 0.04

39

表 IV-3 去除 2008 年全對題目後前 9 項試題估計值比較 試題編號 j

(題目類別)

非線性混合模式 最大概似法

相差值 估計值(𝛽̂ ) 標準誤差 估計值(𝛽j ̂ ) 標準誤差 j

7 (老人) 2.91 0.40 2.94 0.40 -0.03 9 (骨科) 2.62 0.38 2.64 0.38 -0.02 8 (創傷) 1.30 0.36 1.28 0.35 0.02 3 (心臟外科) 0.93 0.37 0.90 0.36 0.03 10 (骨科) 0.17 0.44 0.13 0.43 0.04 4 (一般外科) -0.83 0.62 -0.88 0.61 0.05 2 (產科) -1.27 0.74 -1.32 0.73 0.05 5 (兒科) -2.00 1.02 -2.05 1.02 0.05 6 (兒科) -2.00 1.02 -2.05 1.02 0.05

σ 0.53 0.09 0.64 0.04

表 IV-4 2008 年某五位考生能力估計值(θ)比較

考生編號 i

非線性混合模式 最大概似法

相差值 估計值(θ̂ ) 標準誤差 𝑖 估計值(θ̂ ) 𝑖 標準誤差

8 2.55 0.31 2.88 0.38 -0.33 10 2.47 0.3 2.74 0.37 -0.27 7 2.08 0.28 2.15 0.32 -0.07 11 1.73 0.27 1.67 0.3 0.06

9 1.04 0.26 0.8 0.27 0.24

40

表 IV-5 2008 年不同試題答對機率預測值與觀察值比較

試題編號 j

非線性混合模式 最大概似法

觀察值 難度估計(𝛽̂ ) 預測值 j 難度估計(𝛽̂ ) j 預測值

9 (骨科) 2.62 29% 2.64 28% 30%

8 (創傷) 1.30 60% 1.28 61% 59%

3 (心臟外科) 0.93 69% 0.9 69% 68%

10 (骨科) 0.17 82% 0.13 83% 81%

4 (一般外科) -0.83 93% -0.88 93% 92%

2(產科) -1.27 95% -1.32 95% 95%

表 IV-6 2008 年某五位考生平均答對機率預測值與觀察值比較 考生編號

i

非線性混合模式 最大概似法

觀察值 能力估計(θ̂ ) 𝑖 預測值 能力估計(θ̂ ) 𝑖 預測值

8 2.55 93% 2.88 95% 90%

10 2.47 92% 2.74 94% 89%

7 2.08 89% 2.15 90% 84%

11 1.73 85% 1.67 84% 79%

9 1.04 74% 0.8 69% 68%

41

42

表 IV-9 各年度去除全對或全錯題目回答結果估計不同階層的標準誤差

年度

σ̂h(醫院階層) σ̂s (個人階層)

估計值 標準誤差 P 值 估計值 標準誤差 P 值 2007 0.257 0.144 0.082 0.436 0.100 <0.001 2008 0.345 0.152 0.029 0.426 0.110 <0.001 2009 0.133 0.094 0.167 0.365 0.082 <0.001 2010 0.246 0.161 0.135 0.426 0.101 <0.001 2007~2010 0.187 0.083 0.026 0.409 0.040 <0.001

表 IV-10 以各年度難度十分位題目估計不同階層的標準誤差

年度

σ̂h (醫院階層) σ̂s (個人階層)

估計值 標準誤差 P 值 估計值 標準誤差 P 值 2007 0.521 0.419 0.222 0.758 0.457 0.107 2008 0.194 0.171 0.263 0.221 0.191 0.255 2009 0.762 0.364 0.044 0.176 0.159 0.274 2010 0.138 0.109 0.216 0.154 0.121 0.213 2007~2010 0.694 0.230 0.003 0.354 0.189 0.063

43

表 IV-11 各年度難度中間 30 題回答結果估計不同階層的標準誤差

年度

σ̂h (醫院階層) σ̂s (個人階層)

估計值 標準誤差 P 值 估計值 標準誤差 P 值 2007 0.253 0.154 0.110 0.458 0.124 0.001 2008 0.308 0.169 0.078 0.464 0.136 0.002 2009 0.219 0.156 0.169 0.360 0.132 0.010 2010 0.134 0.094 0.162 0.251 0.120 0.043 2007~2010 0.255 0.079 0.002 0.345 0.052 <0.001

表 IV-12 2008 年度去除全對或全錯題目回答結果估計不同階層的標準誤差

估計值 標準誤差 P 值

𝛔̂𝐡(醫院階層) 0.3455 0.1550 0.0258 𝛔

̂𝐬 (個人階層) 0.4269 0.1137 0.0002 𝛔̂𝐫 (出題者) 0.4571 0.5569 0.4118

44

表 IV-13 去除 2008 年全對題目後前 9 項試題在非線性混合模式與貝氏方法含出 題者訊息模式之估計值

試題編號 j (題目類別)

非線性混合模式 貝氏法

估計值(𝛽̂ ) 標準誤差 估計值(𝛽j ̂ ) 標準誤差 j 7 (老人) 2.91 0.40 3.06 0.87 9 (骨科) 2.62 0.38 2.68 0.65 8 (創傷) 1.30 0.36 1.32 0.64 3 (心臟外科) 0.93 0.37 1.00 0.85 10 (骨科) 0.17 0.44 0.15 0.69 4 (一般外科) -0.83 0.62 -0.99 0.88 2 (產科) -1.27 0.74 -1.48 0.99 5 (兒科) -2.00 1.02 -2.71 1.50 6 (兒科) -2.00 1.02 -2.69 1.50

表 IV-14 去除 2008 年全對題目後某五位考生在非線性混合模式與貝氏方法含出 題者訊息模式之估計值

考生編號 i

非線性混合模式 貝氏法

估計值(θ̂ ) 標準誤差 𝑖 估計值(θ̂ ) 𝑖 標準誤差 8 2.55 0.31 2.24 0.35 10 2.47 0.30 2.26 0.38 7 2.08 0.28 1.89 0.32 11 1.73 0.27 1.82 0.31 9 1.04 0.26 1.33 0.30

45

表 IV-15 去除 2008 年全對題目後前 9 項試題在非線性混合模式與貝氏方法含醫 院模式之估計值

試題編號 j (題目類別)

非線性混合模式 貝氏法

估計值(𝛽̂ ) 標準誤差 估計值(𝛽j ̂ ) 標準誤差 j 7 (老人) 2.91 0.40 2.96 0.42 9 (骨科) 2.62 0.38 2.65 0.40 8 (創傷) 1.30 0.36 1.29 0.37 3 (心臟外科) 0.93 0.37 0.90 0.39 10 (骨科) 0.17 0.44 0.12 0.46 4 (一般外科) -0.83 0.62 -0.99 0.67 2 (產科) -1.27 0.74 -1.52 0.83 5 (兒科) -2.00 1.02 -2.54 1.30 6 (兒科) -2.00 1.02 -2.58 1.31

46

10001 15000 20000 25000 30000

0.0

10001 15000 20000 25000 30000

0.0

10001 15000 20000 25000 30000

0.0 2.0 4.0 6.0 8.0

47

圖 V-2 2008 年度去除全對題目後不同階層標準誤差之事後機率分佈 (a) σ̂h(醫院階層) sd.h sample: 20000

0.0 0.5 1.0 0.0

1.0 2.0 3.0

(b) σ̂k (個人階層) sd sample: 20000

0.0 0.5 1.0 0.0

1.0 2.0 3.0 4.0

(c) σ̂r (出題者) sd.R sample: 20000

-2.0 0.0 2.0 4.0 6.0 0.0

1.0 2.0 3.0

48

參考文獻

Agresti, A. (2000). Random‐Effects Modeling of Categorical Response Data.

Sociological Methodology, 30(1), 27-80.

Amtmann, D., Cook, K. F., Jensen, M. P., Chen, W. H., Choi, S., Revicki, D., . . . Lai, J.-S.

(2010). Development of a PROMIS item bank to measure pain interference.

Pain, 150(1), 173-182.

Andrich, D. (1978). A rating formulation for ordered response categories.

Psychometrika, 43(4), 561-573. doi: 10.1007/bf02293814

Andrich, D. (1988). Rasch Models for Measurement. Newbury Park, CA: Sage Publications.

Aronson, S., Butler, A., Subhiyah, R., Buckingham Jr, R. E., Cahalan, M. K., Konstandt, S., . . . Thys, D. (2002). Development and analysis of a new certifying

examination in perioperative transesophageal echocardiography. Anesthesia

& Analgesia, 95(6), 1476-1482.

Bates, D. M., & Watts, D. G. (1988). Nonlinear regression analysis and its applications.

New York: Wiley.

Bond, T. G., & Fox, C. M. (2007). Applying the Rasch Model: Fundamental Measurement in the Human Sciences (2nd ed.). Mahwah, NJ: Lawrence Erlbaum Associates.

Chang, K.-Y., Chan, K.-H., Chang, S.-H., Yang, M.-C., & Chen, T. H.-H. (2008). Decision analysis for epidural labor analgesia with Multiattribute Utility (MAU) Model.

The Clinical journal of pain, 24(3), 265.

Chang, K.-Y., Tsou, M.-Y., Chan, K.-H., & Chen, H.-H. (2011). Application of the Rasch Model to Develop a Simplified Version of a Multiattribute Utility

Measurement on Attitude Toward Labor Epidural Analgesia. Anesthesia &

Analgesia, 113(6), 1444-1449. doi: 10.1213/ANE.0b013e318230b2a8

Chang, K. Y., Tsou, M. Y., Chan, K. H., Chang, S. H., Tai, J. J., & Chen, H. H. (2010). Item analysis for the written test of Taiwanese board certification examination in anaesthesiology using the Rasch model. British Journal of Anaesthesia, 104(6), 717-722.

Cox, C., & Ma, G. (1995). Asymptotic confidence bands for generalized nonlinear regression models. Biometrics, 142-150.

Darrell Bock, R. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37(1), 29-51.

doi: 10.1007/bf02291411

Davidian, M., & Giltinan, D. M. (2003). Nonlinear models for repeated measurement data: an overview and update. Journal of Agricultural, Biological, and

49

Environmental Statistics, 8(4), 387-419.

De Ayala, R. J. (2009). The theory and practice of item response theory. New York:

Guilford Press.

Dobson, A. J., & Barnett, A. G. (2008). An introduction to generalized linear models.

Boca Raton: CRC Press.

Fang, Z., & Bailey, R. L. (2001). Nonlinear mixed effects modeling for slash pine dominant height growth following intensive silvicultural treatments. Forest Science, 47(3), 287-300.

Garibaldi, R. A., Subhiyah, R., Moore, M. E., & Waxman, H. (2002). The in-training examination in internal medicine: an analysis of resident performance over time. Annals of Internal Medicine, 137(6), 505-510.

Kamata, A. (2001). Item Analysis by the Hierarchical Generalized Linear Model.

Journal of Educational Measurement, 38(1), 79-93. doi: 10.2307/1435439 Lesaffre, E., & Spiessens, B. (2001). On the effect of the number of quadrature points

in a logistic random effects model: an example. Journal of the Royal Statistical Society: Series C (Applied Statistics), 50(3), 325-335.

Maier, K. S. (2001). A Rasch hierarchical measurement model. Journal of Educational and Behavioral Statistics, 26(3), 307-330.

Masters, G. (1982). A rasch model for partial credit scoring. Psychometrika, 47(2), 149-174. doi: 10.1007/bf02296272

McMahon, J. M., Pouget, E. R., & Tortu, S. (2006). A guide for multilevel modeling of dyadic data with binary outcomes using SAS PROC NLMIXED. Computational statistics & data analysis, 50(12), 3663-3680.

McRoberts, R. E., Brooks, R. T., & Rogers, L. L. (1998). Using nonlinear mixed effects models to estimate size-age relationships for black bears. Canadian Journal of Zoology, 76(6), 1098-1106. doi: 10.1139/z98-049

Nelder, J. A., & Wedderburn, R. W. (1972). Generalized linear models. Journal of the Royal Statistical Society. Series A (General), 370-384.

O'Neill, T. R., Marks, C. M., & Reynolds, M. (2005). Re-evaluating the NCLEX-RN passing standard. Journal of Nursing Measurement, 13(2), 147-165.

Pauler, D. K., & Finkelstein, D. M. (2002). Predicting time to prostate cancer

recurrence based on joint models for non-linear longitudinal biomarkers and event time outcomes. Statistics in Medicine, 21(24), 3897-3911. doi:

10.1002/sim.1392

Revicki, D. A., Chen, W. H., Harnam, N., Cook, K. F., Amtmann, D., Callahan, L. F., . . . Keefe, F. J. (2009). Development and psychometric analysis of the PROMIS pain behavior item bank. Pain, 146(1-2), 158-169.

Rijmen, F., Tuerlinckx, F., De Boeck, P., & Kuppens, P. (2003). A nonlinear mixed model

50

framework for item response theory. Psychological Methods, 8(2), 185-205.

doi: 10.1037/1082-989x.8.2.185

SAS Institute, I., & Publishing, S. (2011). SAS / STAT 9.3 User's Guide (Book Excerpt):

Sas Inst.

Sheiner, L., & Ludden, T. (1992). Population Pharmacokinetics/Dynamics*. Annual Review of Pharmacology and Toxicology, 32(1), 185-209.

Sheu, C.-F., Chen, C.-T., Su, Y.-H., & Wang, W.-C. (2005). Using SAS PROC NLMIXED to fit item response theory models. Behavior Research Methods, 37(2), 202-218.

doi: 10.3758/bf03192688

Smits, D. M., Boeck, P., & Verhelst, N. (2003). Estimation of the MIRID: A program and a SAS-based approach. Behavior Research Methods, Instruments, &

Computers, 35(4), 537-549. doi: 10.3758/bf03195533

Varni, J. W., Stucky, B. D., Thissen, D., Dewitt, E. M., Irwin, D. E., Lai, J. S., . . . Dewalt, D. A. (2010). PROMIS pediatric pain interference scale: An item response theory analysis of the pediatric pain item bank. Journal of Pain.

Verbeke, G., & Molenberghs, G. (2009). Linear mixed models for longitudinal data:

Springer.

Yang, S. C., Tsou, M. Y., Chen, E. T., Chan, K. H., & Chang, K. Y. (2011). Statistical item analysis of the examination in anesthesiology for medical students using the Rasch model. Journal of the Chinese Medical Association, 74(3), 125-129.

51

相關文件