第四章 研究結果
第三節 BILOG-MG 和 SCORIGHT 參數估計結果比較
) ( j
γid 。
第三節 BILOG-MG
BILOG-MG 由(Zimowski , Muraki ,Mislevy & Bock,1996)所研發,是 BILOG 的擴展,能有效分析二元計分試題。BILOG-MG 有三種可使用的能力參數估計 法,分別為最大概似估計法(maximum likelihood estimation, 簡稱 MLE)、期望後 驗估計法(Bayes expected a posteriori, 簡稱 EAP)和最大後驗估計法(maximum a posteriori, 簡稱 MAP),本研究採用 EAP 法。而估計試題參數的方法是邊際最大 概似法(marginal maximum likelihood estimation, 簡稱 MMLE )。以下大略說明能 力參數的三種估計法(Zimowski , Muraki , Mislevy & Bock , 1996;張雅媛,2006;
楊孟麗、譚康榮、黃敏雄,2003)。
1. MLE是根據作答反應模式,能力值透過統計方法估計出使此種作答反應組 行出現最高的機率,當受試者的能力恰巧與試題中許多選項的難度相近 時,所估計的能力標準誤較小;反之則較大。缺點是若有受試者在該測驗 的試題全部答對或全部答錯,MLE將無法估算其能力值。
2. EAP則克服MLE的缺點,利用受試者的作答反應題組調整先前受試者能力分 布的假定,得到新的能力分布,就算有受試者在該測驗的試題全部答對或 全部答錯,也可使用EAP估計。EAP估到的值比較集中於母群體平均值附 近,但假使標準誤很小,誤差也會很小。但如果分析的資料為相同測驗,
則不會是問題。
3.MAP 使用最新分布的眾數,除了考慮最大概似估算法(ML)的分布,也考量
參數原有(假定的)的分布。估到的值也稍微偏向集中在母群體的平均值,
但誤差比EAP 稍大。
第四節 SCORIGHT
SCORIGHT 適用於二元計分或多元計分的試題類型,以及任何有關試題反 應理論的模式,可以是獨立試題、也可以是題組、或是兩者的組合,有助於分 析包含題組的試題反應資料。在估計方面,若是題組可使用馬可夫鍊蒙地卡羅 (Markov Chain Monte Carlo,簡稱 MCMC)的方法調整。
MCMC 是一種能有效實行又簡單的貝氏計算方法,主要概念是由重複抽 樣,建立平穩分配,此分配為所求後驗分配的馬可夫鏈。MCMC 受到學者歡迎 的原因在於後驗樣本分配得到後,就可完成簡單的推論,因此MCMC 允許有限 樣本的推論,但樣本越大估計則越精準(Wainer , Bradlow , & Wang,2007)。
Wainer 、Bradlow 和 Wang ( 2007 )檢視 MCMC 運作的演算方式,以貝氏 二參數題組模式為例,以
Λ
代表模式參數,包含能力參數(θ ,…,1 θ ),能力參數I (a
1,…,a
J),(b
1,…,b
J)和題組參數(γ1d(1),…, γId(J)),以及影響他們分配的參數 (μ ,a σ ),(a2 μ ,b σ )和b2 σ 。估計步驟如下: r21. 選擇一個初始的向量,
Λ
=Λ
(t=0),t
代表迭代數,將t
設定為0。2. 選擇某參數的組合
λ
1,並藉由完全條件分配( , )
1 1
Y
tp
λΛ
−λ 中抽取更新值) 1 ( 1 +
λt ,估計第
t
次的值,此處的 tλ1
Λ
−表示不包含 λ
1的整體參數向量Λ
,Y 表示觀察的測驗資料。
3. 選擇某參數的組合
λ
2,並藉由完全條件分配p (
λ2Y , Λ
t−λ1,−λ2,
λ(t+1))
中抽取更 新值λ(2t+1)。此處的Λ
t−λ1,−λ2表示一組不包含 λ
1和λ
2的整體參數;評估λ
2第t
次的值,而λ1(t+1)是在步驟2 中由
λ
1所更新的值。4. 從完全條件分配
p ( Λ
t−λ1,−λ2Y ,
λ1(t+1),
λ2(t+1))
抽取Λ
(−t+λ11),−λ2,且讓 t
=t
+1。5. 如果
t ≤
M(特別指定的迭代數),則從步驟 2 開始循環;如果t
=M,則停止 抽樣(引自許思雯,2008)。第五節 定錨不等組(NEAT)設計
NEAT設計是從兩組受試母群體(P和Q)中,隨機抽取兩組不同受試樣本(P1 和Q1),給予P1受試者施測X測驗,Q1受試者施測Y測驗,兩組受試樣本皆須另 外接受定錨測驗A。通常定錨測驗在兩樣本的測驗順序是一樣的,避免順序因素 的影響,而且其測驗內容與難度與X、Y測驗十分類似。NEAT設計如表2-1(Kolen
& Brennan,1995;von Davier, Holland & Thayer, 2004;余民寧,1992c)。
表2-1 NEAT設計
受試樣本 X測驗 Y測驗 定錨測驗A
P1 3 3
Q1 3 3
註:3為受試者必須受測之測驗
NEAT 設計為常見的測驗等化設計,在 NEAT 設計中,每個受試群必須施 測相同的定錨測驗,定錨測驗之試題參數好壞將會影響等化估計效果。若定錨測 驗選擇恰當,練習(practice)、疲勞(fatigue)、學習(learning)、順序因素(order effects) 及 需 要 大 樣 本 的 問 題 在NEAT設計可加以避免(Klein & Jarjoura, 1985)。
MCAS(Massachusetts comprehensive assessment system)是以NEAT設計進行 不同年度間學生之測驗等化,因為它不必假設兩受試群體有相同的能力值,只需 要假設受試群體是隨機抽取。而NEAT設計的定錨測驗試題難度要相近且內容要
(Petersen, Kolen & Hoover, 1993;王暄博,2006;張鈺卿,2007)。優點為容易找 尋到試題區塊配置方式,缺點則為當題本公布時,將會公布所有的定錨試題。
第三章 研究設計與方法
本研究透過模擬資料比較當受試者能力分布為常態或雙峰時,BILOG-MG 軟 體和SCORIGHT 兩種軟體在 NEAT 設計不同測驗組合下,試題及能力參數估計 的差異,因此本章分成四節,第一節為研究步驟;第二節為NEAT 設計;第三節 為模擬資料變項設定;第四節為研究工具。
第一節 研究步驟
本研究以試題反應理論為基礎,利用電腦模擬資料,當受試者能力分布為常 態或雙峰時,擬操弄受試人數、試題題數、題組比例及題組效果變異數等四個變 項,用以比較兩種軟體估計受試者能力及試題參數的精確性。研究流程如圖3-1:
研究主題
設定模擬資料 1. 受試人數:5460 人、7566 人 2. 測驗題數:27 題、45 題
3. 題組比例: 1/3 題組和 2/3 單題、2/3 題組和 1/3 單題 4. 題組效果變異數:0、0.5、1
5. 受試者能力分布:常態分布、雙峰分布
撰寫研究結果
以 BILOG-MG 進行參數估計 以 SCORIGHT 進行參數估計
圖3-1 為本研究流程圖,並設定模擬資料為:
(一) TASA 計畫 2006 年受試人數為 7500 人,本研究欲探討人數減少之影響,
TASA 數學科的 BIB 設計下題本數為 26,而本研究 NEAT 設計題本數 為 6,配合兩種連結設計題本數的不同,故模擬兩種受試人數為 7566 人和5460 人。
(二) 每個試題區塊數的試題數模擬為 9 題、15 題,每個題本配置的試題區 塊數為3 個,因此每個題本的測驗題數為 27、45 題。
(三) 題組比例為前 1/3 題數是題組和後 2/3 題數是單題 前2/3 題數是題組和後 1/3 題數是單題 (四) 題組效果的變異數為 0、0.5、1。
(五) 受試者能力分布:常態分布、雙峰分布。
第二節 NEAT 設計
本研究的NEAT 設計係根據 van der Linden, Veldkamp ,Carlson(2004) 26 個題 本、13 個試題區塊的 BIB 設計而改編,將第一個試題區塊 M1設定為定錨試題,
並設計含BIB 試題區塊數之 NEAT 設計,並將其整理成表 3-1。
表3-1 NEAT 設計表
等化設計 題本數 區塊數 題本區塊數
NEAT 6 13 3
表 3-2 為 NEAT 設計表,NEAT 設計共包含 6 個題本(b=3)、13 個試題區塊 (t=13)、每個題本包含 3 個試題區塊(k=3)。試題區塊 M1為 NEAT 設計之定錨試 題區塊,其題本配置的試題區塊序號為:題本S1試題區塊配置為M1、M2、M3; 題本 S2試題區塊配置為 M1、M4、M5;題本 S3試題區塊配置為 M1、M6、M7; 題本 S4試題區塊配置為 M1、M8、M9;題本S5試題區塊配置為M1、M1、M11;
題本S6試題區塊配置為M1、M12、M13 (王暄博,2006;張鈺卿,2007)。
表3-2 NEAT 設計表
題本序號 區塊(k1) 區塊(k2) 區塊(k3)
S1 M1 M2 M3
S2 M1 M4 M5
S3 M1 M6 M7
S4 M1 M8 M9
S5 M1 M10 M11
S6 M1 M12 M13
第三節 模擬資料變項設定
本研究利用利用電腦模擬建置題庫資料,探討不同軟體估計NEAT 設計下測 驗的能力及試題參數。NEAT 設定的變項設定對照如表 3-3。
表3-3 NEAT 設計之變項對照表
軟體 BILOG-MG SCORIGHT
受試人數 5460 人、7566 人 測驗題數 27 題、45 題
題組比例 前1/3 題數為題組和後 2/3 題數為單題 前2/3 題數為題組和後 1/3 題數為單題 題組效果變異數 0、0.5、1
受試者能力分布 常態截尾分布N(0,1),界定範圍-3~3
雙峰取自兩個常態分布平均數各為2 與-2、標準差皆 為1 隨機產生,再標準化組成,界定範圍-3~3 試題參數分布 鑑別度 截尾常態分布 N(1,0.25),範圍 0.5~1.5
難度 截尾常態分布N(0,1),範圍-3~3
猜測度 截尾常態分布 N(0.125,0.0625),範圍 0~0.25 每一情形模擬次數 25 次
關於受試者能力參數和試題參數之產生,分述如下。
一、能力參數的產生
1.受試者能力分布為截尾常態分布(truncated normal distribution),平均數為0,
標準差為1,將範圍界定於− 3 ~ 3,記為N(0,1)。其受試者能力分布長條圖如 下:
-2 -1 0 1 2
受試者之能力值 0
50 100 150 200 250 300
受 試 者 之 人 數 分 布
圖3-2 常態分布下,受試人數為5460人之受試者能力分布長條圖
-3 -2 -1 0 1 2 3 受試者之能力值
0 100 200 300 400
受 試 者 之 人 數 分 布
圖3-3 常態分布下,受試人數為7566人之受試者能力分布長條圖
2.受試者能力分布為雙峰分布,取自兩個常態分布平均數各為 2 與-2、標準差 皆為1 隨機產生,再標準化組成,其平均數為 0,標準差為 1,將範圍界定 於-3~3。其受試者群能力分布長條圖如下:
-2 -1 0 1 2 受試者之能力值
0 50 100 150 200 250
受 試 者 之 人 數 分 布
圖3-4 雙峰分布下,受試人數為5460人之受試者能力分布長條圖
-3 -2 -1 0 1 2 3
受試者之能力值 0
50 100 150 200 250 300
受 試 者 之 人 數 分 布
圖3-5 雙峰分布下,受試人數為7566人之受試者能力分布長條圖
二、試題參數的產生
1.鑑別度參數為截尾常態分布,平均數為1,標準差為0.25,將範圍界定於0.5
~1.5,記為N(1,0.25)。
2.難度參數為截尾常態分布,平均數為0,標準差為1,將範圍界定於− 3 ~ 3,
記為N(0,1)。
3.猜測度參數為截尾常態分布,平均數為0.125,標準差為0.0625,將範圍界定 於0 ~ 0.25 ,記為N(0.125,0.0625)。
第四節 研究工具
一、 BILOG-MG 軟體
本研究使用BILOG-MG 獲得受試者能力參數和試題參數的估計值。
二、 SCORIGHT 軟體
本研究使用SCORIGHT 獲得得受試者能力參數和試題參數的估計值。
三、 MATLAB 軟體
MATLAB 有簡單的程式語法和強大的函數庫功能,本研究透過此軟體模擬 NEAT 設計下的能力參數、試題參數和受試者的作答反應,並進行資料檔案 的轉換。
第四章 研究結果
本研究以RMSE 當作參數估計誤差,當能力分布在常態或雙峰時,在 NEAT 設計下比較BILOG-MG 軟體和 SCORIGHT 軟體在不同受試人數、測驗題數、題 組比例和題組效果變異數變化的情況下,對受試者能力參數、試題鑑別度、難度 和猜測度參數的估計差異。本章節共分為三節,第一節是 BILOG-MG 參數估計 結果,第二節是SCORIGHT 參數估計結果,第三節是 BILOG-MG 和 SCORIGHT 參數估計比較。
第一節 NEAT 設計下 BILOG-MG 參數估計結果
針對 NEAT 設計於不同模擬情境進行比較,探討當能力分布在常態或雙峰 時,以BILOG-MG 進行參數估計是否會受到受試人數、測驗題數、題組比例和 題組效果變異數的不同而影響參數估計的精準度。
壹、常態分布
一、 在受試人數的部分,分為5460 人、7566 人兩種情形,根據模擬研究之結 果,固定測驗題數、題組比例和題組變異效果數的情況下,可發現受試 者能力參數、試題參數估計誤差大致上會隨著受試人數增加而降低,因 此推論受試人數的多寡會影響BILOG-MG 的估計結果,人數愈多,估計 會愈精準,此結果與王暄博(2006)有相似的結果。
二、 在測驗題數的部分,分為27 題、45 題兩種情形,根據模擬研究之結果,
固定受試人數、題組比例、題組變異效果數的情況下,可發現受試者能 力參數、鑑別度與難度估計誤差大致上會隨著測驗題數增加而降低,題 數愈多,估計會愈精準,在王暄博(2006)也有類似的結論。而試題猜測度
固定受試人數、題組比例、題組變異效果數的情況下,可發現受試者能 力參數、鑑別度與難度估計誤差大致上會隨著測驗題數增加而降低,題 數愈多,估計會愈精準,在王暄博(2006)也有類似的結論。而試題猜測度