第三章 研究方法
第三節 研究設計
本研究以試題反應理論為基礎,將研究分為受試者能力模擬、題庫模擬、電 腦適性測驗模擬、參數估計與參數估計值誤差評估等五大步驟,比較於不同情境 下,利用研究工具自行開發的程試進行探究。
壹、受試者能力模擬
本研究因設定於試題反應理論三參數模式下,模擬能力值成常態、偏態、雙 峰分佈三種情況,其中偏態係指負偏,因其在測驗中出現的頻率較正偏態高。
施測人數設定基準為。每一群的人數有500、1000、…、3000人等不同情況。
模擬方式為先模擬3000人的能力參數做為研究中受試者能力值之真值,再從中抽 取依照設定人數範圍的能力參數作為他組的能力參數。
貳、題庫模擬
本研究蒐集IRT相關文獻之試題參數模擬整理如下表。
表3-3-1 IRT相關文獻之模擬試題參數設定
title a b c
More Effcient Markov Chain Monte Carlo Estimation in IRT Using Marginal Posteriors (Yao &
Hanson, 2002)
N(0,1) lognormal beta
"Guessing" Parameter Estimates for Multidimensional IRT Models (DeMars, 2005)
Lognormal
(-0.695,4) N (0,4) beta (5,17) Data Sparseness and Online
Pretest Item Calibration/Scaling Methods in CAT (Ban, Hanson, Yi
& Harris, 2001)
lognormal (0, 0.5)
beta(1.01,
1.01, -6, 6) beta (5, 17) Item Parameter Calibration of
LSAT Items Using MCMC
Approximation of Bayes Posterior Distributions (Jones & Nediak, 2000)
lognormal normal beta
Bayesian or Non-Bayesian:
A Comparison Study of Item Parameter Estimation in the Three-Parameter Logistic Model(Gao & Lisue, 2005)
Lognormal
(0, 0.5) N(0, 2) beta(5, 17) Testing Linear Models for Ability
Parameters in Item Response Models (Glas & Hendrawan, 2005)
Lognormal
(0,0.25) normal Modeling Variability in Item
Parameters in Educational Measurement (Glas & van der Linden, 2006)
normal normal normal A Study of the Use of Collateral
Statistical Information in Attempting to Reduce TOEFL IRT Item Parameter Estimation Sample Sizes(Tang & Eignor, 2001)
lognormal normal beta
title a b c Comparing the Effectiveness of
Procedures to Detect Item Parameter Drift(Donoghue &
Isham, 1996)
lognormal N(0,1) 0.2 Estimating the Effects of Test
Length and Test Time on
Parameter Estimation Using the HYERID Model (Yamamoto., 1995)
N(1,0.4) N(0,0.8)
Bayes modal estimation in item
response models (Mislevy, 1986) lognormal
(1.13, 0.6) N(0,1) beta(4,16) 本研究參考上述文獻設定試題參數。
本研究根據 Glas & Hendrawan (2005)設定各試題的參數分布如下:鑑別度 參數a~lognormal(0,0.25)、難度參數 b~N(0,1),猜測度參數則另行採用 Mislevy (1986)設定為 c~ beta(4,16),並限制其最大值與最小值,避免極端值及不合理的 試題參數發生。
參、電腦適性測驗模擬
一、試題參數的設定
除了將原始模擬生成參數做為真值外,模擬試題參數之真值分為二種不同設 計。如實驗一、實驗二所示:
實驗一:先模擬1100 題數的試題參數,再從中抽取 100 題數的試題參數當做新 增題庫,剩下的 1000 題則當做本研究電腦適性測驗之題庫,用來對受 試者的能力值進行估計。
實驗二:先模擬1100 題數的試題參數,再從中抽取 100 題數的試題參數當做新 增題庫,剩下的 1000 題之試題參數真值與能力真值模擬生成原始作答
反應後,再利用能力真值與原始作答反應結合估計 1000 題的試題參 數,將新估計 1000 題之試題參數當做電腦適性測驗題庫,此一方式是 為了模擬之結果能夠更接近現實情境。
二、模擬電腦適性測驗的相關設定
選題方法採用最大訊息法(maximum fisher information),從 1000 題的題 庫中進行測驗長度為 30 題之測驗,使用貝氏後驗機率期望值估計法(Bayes expected a posteriori estimation procedure)先對受試者進行第一次能力值估計 後,從 100 題新增題庫中隨機抽取試題來加入新增試題(試題參數未知),新增 試題的測驗長度為 5 題與 10 題,期能藉此能初步估計新增試題之參數。詳細流 程如圖3-3-1。
否
是
設定初始值(模擬資料:受試者能力值、試題參數)
選題方法
終止條件
題庫作答反應
新增試題之作答反應 分配新增試題
能力估計θˆ1
題 庫( 試 題 參 數 已 知)
新 增 試 題( 試 題 參 數 未 知)
試題參數估計誤差評估 估計新題目試題參數
圖3-3-1 針對新增試題之試題參數估計流程圖
由上圖可知,新增試題(需控制新增題數的多寡)給受試者,透過能力估計 值 與新增試題的試題參數真值產生模擬其作答反應後,再以作答反應進行試題 參數估計後得到估計值,此為新增試題的試題參數估計值,計算真值與估計值的 均方根誤差(root mean squared error, RMSE)。同時也將能力估計值 與模擬之 能力真值比較,計算其RMSE。
ˆ1
θ
ˆ1
θ
經由上述步驟後,再將已初步估計參數之試題加入,探討受試者能力估計精
準度之影響。流程圖如圖3-2-2。
否
是
設定初始值(模擬資料:受試者能力值、試題參數)
選題方法
終止條件
題庫作答反應 初步估計參數試題之作答反應
分配初步估計之試題
合併作答反應 題
庫( 試 題 參 數 已 知)
初 步 估 計 試 題 參 數 之 試 題
能力估計θˆ1 能力估計
ˆ2
θ
加入初步估計參數之試題後,受試者能力估計誤差評估
圖3-3-2 將初步估計試題加入對受試者能力參數進行估計之流程圖 透過上述的步驟不斷模擬,比較能力估計值 與能力估計值 的估計精準 度,探究加入初步估計參數之試題與否,對於受試者能力估計的影響,經由評估 結果,求出增加多少新試題會使受試者的能力值估計值精準至合理範圍,以及須 多少人參與施測,才會得到精準試題參數與能力估計值。
1 2
θˆ θˆ
肆、參數估計
張 雅 媛 (2007) 提 出 MMLE/EM-MIX 法 , 是 以 基 於 核 平 滑 化 ( kernel smoothing)的方法,開發新的參數估計法之研究,改良原先 BILOG-MG 進行 試題參數估計 MMLE/EM 過程中數值積分的問題。本研究中能力值與試題參數 估計方法,均採用MMLE/EM-MIX 法,自行開發程式來估計。
伍、參數估計值誤差評估
本研究視原始生成參數為真值,以真值產生作答反應,再以作答反應進行參 數估計後得到估計值,計算真值與估計值的均方根誤差(root mean squared error, RMSE)。本研究求模擬 100 次的平均,作為參數估計誤差,依此來評斷參 數估計的效果。
RMSE 是根據能力值、鑑別度、難度參數及猜測度參數分別計算。其數學式 如下所示:
ㄧ、能力值
∑
=−
= N
j
j
N j
RMSE
1
)2
1 ( )
(θ ϑ θ
其中 θ :第j j位能力值估計值
ϑ : 第j j位能力值真值 N:受試者人數
二、鑑別度參數
∑
=−
= n
i
i
i a
a n RMSE
1
)2
1 ( )
( α
i
i
其中 :第 題鑑別度估計值 a i
α :第i題鑑別度參數真值
n:試題題數
三、難度參數
∑
=−
= n
i
i
i b
b n RMSE
1
)2
1 ( )
( β
其中 :第 題難度估計值 i
i
b i
β :第i題難度參數真值
n:試題題數 四、猜測度參數
∑
=−
= n
i
i
i c
c n RMSE
1
)2
1 ( )
( ζ
其中 :第i i題猜測度估計值
i
c
ζ :第 題猜測度參數真值 i
n:試題題數