第三章 研究方法與設計
第三節 資料模擬
二、BILOG-MG (以下稱 BILOG)
此為常見的 IRT 估計軟體,研究者用其做 Rasch 模式下,試題難度和能力值 的估計,其試題估計結果檔,也提供給 LDID 讀取,檢定違反局部獨立性情形。
三、LDID
由 Kim, Cohen, and Lin (2005) 所研發,提供 、 、 、 四個指標,
針對 BILOG 估計出的試題參數,檢測二元計分試題違反局部獨立性情形。
χ
2G
2Q
3Z
d第三節 資料模擬
研究者根據文獻決定模擬因子與參數後,以 SAS 撰寫程式,分別產生 45 種 組合之下,受試者二元計分的反應組型,Rasch 模式以 BILOG、1-P HGLLM 則 以 SAS 估計試題難度和能力值,並探討與比較兩種模式參數估計情形,其模擬流 程如圖 3-3,現就流程圖詳細說明如下。
BILOG
‧試題難度估計
‧能力值估計
撰寫報告
圖 3-3 模擬流程圖 決定因子水準與參數
‧試題數:( 20,40,80 )
‧樣本數:( 100,300,900 )
‧題組效果程度( 2 2)
2
1
γ
γ σ
σ
, :(0,0)、(0,2)、(0,8)、
(2,2)、(2,8)
‧難度:服從
N
(0,1)且−2~2‧能力值服從
N
(0,1)SAS
產生各種模擬情況的反應組型
LDID
確認試題局部獨立性
不同組合情況之參數精準度比較
‧試題難度精準度探討與比較
‧能力值精準度探討與比較
SAS
‧試題難度估計
‧能力值估計
一、決定相關參數
許多 IRT 相關研究,能力值多服從標準常態分配,試題難度以不選取極值為 原則 (Li et al., 2005; Yen, 1984),故本研究的能力值與試題難度的範圍為:
1. 能力值:能力值服從標準常態分配。
2. 試題難度:試題難度服從標準常態分配,且取−2~2之間。
二、模擬反應組型
研究者根據公式 (24)、(25),以 SAS 撰寫模擬程式,依照 45 種組合,產生 受試者的反應組型,以利進行參數估計。
三、違反局部獨立性檢測
在進行正式模擬前,先模擬 45 種組合下受試者的反應組型各 10 次,以 BILOG 進行參數估計後,再以 LDID 偵測試題違反局部獨立性情形。LDID 提供的指標 很靈敏 (sensitive),即便是完全沒有違反局部獨立性的試題,也可能被檢測出部 分試題的統計量指標達顯著。故研究者主要是檢查當題組效果越大,試題違反局 部獨立性的比率,是否有越高的趨勢,以確認撰寫的模擬程式誤差在可接受的範 圍,再進行正式模擬。
四、參數估計
在 Rasch 模式以 BILOG 估計試題難度與能力值外,研究者參考 Roberts and Herrington (2005) 的範例,利用 SAS 提供的巨集 GLIMMIX,進行試題難度和能 力值的估計,以其代表 1-P HGLLM 的觀點。在估計法方面,BILOG 與 SAS 都採 用 MLE 估計法 (Maximum Likelihood Estimate) 進行估計。
五、精準度比較
參考相關模擬研究,其精準度指標有相關係數、估計值和實際值之差的關係 式 (Kamata, 1998b; Rijmen, Tuerlinckx, Meulders, Smits, & Balazes, 2005),考量較 常用的幾個指標後,試題難度的精準度指標為 RMSE、BIAS、MCSE;能力值的 精準度指標為 RMSE、均差。在計算精準度前,將試題難度減去能力值的平均數,
再除以能力值的標準差,以將試題難度移至和能力值同一量尺。並進一步把能力 值也標準化,才計算精準度。研究者並將參數估計精準度加以整理分析,比較兩 個模式估計參數的精準度情形,並進一步探討精準度和各因子間的關係,臚列表 格及圖形說明之。