多階層 Rasch 模式分析 - 多階層Rasch模式於麻醉學筆試的應用

IV.3.1 潛在變項迴歸

當我們將受試者的年齡、性別等共變數分別納入上述(III-8)式潛在變項 Rasch 迴歸模式中時，可得到各年度與合併四年後年齡與性別的迴歸係數如表 IV-8，其中某些年代其年齡或性別有顯著影響，但大部分年代皆不具統計上顯著意義。同時發現在考慮年齡、性別的影響後，對於受試者能力的變異數σ 的估計值及標準誤差，均比未考慮兩個共變量時來得低，但是個人能力異質性，即使在年齡與性別解釋後，仍存有差異。

IV.3.2 醫院與考生階層的隨機截距模式

由 II.3.3 節的說明可了解，當我們要考慮在不同醫院接受住院醫師訓練對於 考生能力產生的影響時，可利用(II-23)式中的 θik代表在來自第 k 家醫院的第 i 個受試者的隨機效應截距，θik～N(ϑ_𝑘,𝜎_s²)，而ϑ_𝑘～N(0,𝜎_ℎ²)，代表第 k 家醫院的隨機效應。

由於我們所應用的非線性混合模式估計 Rasch 模式參數的方法，對於隨機效應的部分，限制只能估計個人的單一層次，因此我們選擇貝式統計分析的方式，

分別將醫院與考生的效應，視為從呈現常態分布的族群中，隨機取樣的結果，同時估計這二個階層的因素時，對於考生答題是否正確能力的影響，表 IV-9~表 IV-11 分別呈現以不同數目及難度的題目來估計各年度不同階層的標準誤差的結果。

表 IV-9 呈現各年度去除全對或全錯題目後，估計不同階層的標準誤差得到的結果，觀察發現在所有年度的考試中，個人層次隨機效應的標準誤差均大於醫院層次的變異，而且個人層次的估計值在不同年度中的差別較小，範圍在 0.37 (0.08) 與 0.44 (0.10)之間，醫院層次的標準誤差範圍則在 0.13 (0.09) 與 0.35 (0.15) 之間，且個人層次的隨機效應在各個年度均達到統計上顯著差別，而醫院層次則只有 2008 年的隨機效應有顯著影響。

表 IV-10 是以各年度難度十分位題目的回答結果估計不同階層的標準誤差，

藉由包含不同難易度的取樣方式，雖然可以減少估計運算的時間，但是所得到各年度的參數估計值，不管是醫院層次或個人層次的標準誤差，都和表 4-11 的結果有相當程度的差異，而且不同年度間也出現明顯變異，醫院層次的標準誤差在 0.14 (0.11)與 0.76 (0.36)之間，個人層次在 0.15 (0.12)與 0.76 (0.46)之間，而且大部分均未達統計上顯著差別。

由於難度中間的題目對於鑑別受試者能力提供最多訊息，因此表 IV-11 選取各年度難度中間 30 題回答結果來估計不同階層的標準誤差，可以發現各年度的估計值與標準誤差與表 IV-9 相比，均較接近於表 IV-9 選取全部可分析題目所得

到的結果，不同年度間變異相對於表 IV-10 也較小，醫院層次的標準誤差在 0.13 (0.09)與 0.31(0.17) 之間，個人層次在 0.25 (0.12) 與 0.46 (0.14)之間，而且在個人層次的隨機效應均達到統計上顯著差別。

IV.3.3 醫院與考生階層的隨機截距模式合併出題者訊息

如圖 III-2 模式所示，我們進一步加入出題者對考題難度的訊息，為了能夠得到足夠的出題者訊息，本節僅保留去除全對或全錯題目後的分析，而不討論留下中間難度的 30 項題目，或將試題依難度排序後再取難度前十分位的題目進行估計的分析。表 IV-12 呈現 2008 年去除全對或全錯題目後，估計不同階層的標準誤差得到的結果，結果發現個人層次隨機效應的標準誤差大於醫院層次的變異，

而且兩者均達到統計上顯著差別，但出題者的差異則未達到統計上顯著差異，進一步利用貝氏 DIC 進行模式比較時，發現加入出題者之訊息對於 DIC 之降低未改善。(加入出題者 DIC=106.55；未加入出題者 DIC=106.80)

在未考慮出題者訊息的模式中，若我們進一步加入考生的性別與年齡因素之後發現並不會改善模式，其 DIC 值為 106.98，反而略微的大於未考慮考生性別與年齡模式下之 DIC (106.80)，年齡及性別均不具統計上顯著意義 (𝛽̂ =_𝑎𝑔𝑒

−0.21, 95% 𝐶𝐼: − 0.08, 0.03; 𝛽_{𝑔𝑒𝑛𝑑𝑒𝑟}̂ = −0.29, 95% 𝐶𝐼: −0.74, 0.16)。

將此模式對試題難易之估計結果與非線性混合模式互相比較之結果列於表 IV-13，在去除全對後的前 9 項試題表現上，難度較高的題目，如第 7 題與老人相關的題目，非線合模式的估計值為 2.91，標準誤差為 0.40，貝氏法的估計值略高(3.06)，但標準誤差則有明顯的較大(0.87)，以難度較低的第 6 題兒科題目為例，

在非線性混合模式的估計值為-2.00，標準誤差為 1.02，在貝氏法的估計結果則較低(-2.69)，但其標準誤差相較於非線性混合模式則是與難度偏高題目的狀況相同，

均得到較大的標準誤差。

此模式對受試者程度之估計結果與非線性混合模式之比較列於表 IV-14，結果顯示貝氏法對第 8 位考生程度之估計(2.24)低於非線性混合模式(2.55)，但對程度較低的第 9 位考生，其點估計值(1.33)則高於非線性混合模式之估計結果(1.04)，

但在標準誤差上，貝氏法所得到的標準誤差則一致的高於利用非線性混合模式所得到的結果。

表 IV-15 為只包含考生訓練醫院，不考慮出題者模式(如圖 III-1)下試題估計值的差異，一樣以 2008 年去除全對題目作比較，可以發現貝氏法所得到之估計值，在較困難或容易的題目和表 IV-13 類似，會出現較偏兩端極值移動，但變化較不明顯，貝氏法的標準誤差比起表 IV-13 加入出題者的模式而言，與最大概似法的差距接近許多，只有在兩端估計值的標準誤差較大一點。

V 討論

本論文延伸過去在局部獨立(local independence)假設下的傳統 Rasch 模式，

嘗試以兩種統計模式，非線性混合模式(Nonlinear mixed model)及貝氏多階層模式(Bayesian hierarchical model)，處理多階層資料結構中，所產生之相依性資料的複雜性，其主要貢獻在方法學上及應用於麻醉專科醫師考試。

在方法學上，此兩種模式可以比傳統在局部獨立假設下，利用最大概似法估計的 Rasch model 更具統計適應性，也就是此兩種統計模式可以不必在局部獨立假設下，處理考生個人能力及試題難度兩參數估計，而且也可以加入影響能力之變項，如個人特徵(性別及年齡)，更有能力處理多階層資料結構，如同本研究在訓練醫院對個人能力及出題者對試題難度的影響。

在實際應用層面，由於專科醫師筆試的內容，對於評估麻醉醫師是否具有足夠的臨床知識，具有決定性的影響，我們分析近四年內台灣麻醉專科醫師筆試的結果，並透過不同的統計方式來估計 Rasch 模式中的參數，包括試題的難度與個人的能力，並透過加入不同共變量及多階層模式來探討不同個人特徵及訓練醫院如何影響試題答對之機率。

藉由 Rasch 模式的分析，可以找出太過艱深或簡單的題目，可以做為往後出題或是設計題庫時的依據；同時也可以在固定題目難度的情況下，了解考生是否已具有足夠的麻醉學知識來照顧病人。另外，由於專科醫師甄審的性質是屬於檢覈考試，目的是要篩選出能力符合要求的麻醉醫師，因此如何訂定適當的門檻來把關就成了重要而複雜的議題，另一種是以成績所代表的能力排序，以固定比例通過考試的方式，適合用在有足夠考生人數的情況下。

在文檔中多階層Rasch模式於麻醉學筆試的應用 (頁 39-43)