BILOG-MG 和 SCORIGHT 參數估計結果比較

第四章研究結果

第三節 BILOG-MG 和 SCORIGHT 參數估計結果比較

) ( j

γid 。

第三節 BILOG-MG

BILOG-MG 由(Zimowski , Muraki ,Mislevy & Bock,1996)所研發，是 BILOG 的擴展，能有效分析二元計分試題。BILOG-MG 有三種可使用的能力參數估計法，分別為最大概似估計法(maximum likelihood estimation, 簡稱 MLE)、期望後驗估計法(Bayes expected a posteriori, 簡稱 EAP)和最大後驗估計法(maximum a posteriori, 簡稱 MAP)，本研究採用 EAP 法。而估計試題參數的方法是邊際最大概似法(marginal maximum likelihood estimation, 簡稱 MMLE )。以下大略說明能力參數的三種估計法(Zimowski , Muraki , Mislevy & Bock , 1996；張雅媛，2006；

楊孟麗、譚康榮、黃敏雄，2003)。

1. MLE是根據作答反應模式，能力值透過統計方法估計出使此種作答反應組行出現最高的機率，當受試者的能力恰巧與試題中許多選項的難度相近時，所估計的能力標準誤較小；反之則較大。缺點是若有受試者在該測驗的試題全部答對或全部答錯，MLE將無法估算其能力值。

2. EAP則克服MLE的缺點，利用受試者的作答反應題組調整先前受試者能力分布的假定，得到新的能力分布，就算有受試者在該測驗的試題全部答對或全部答錯，也可使用EAP估計。EAP估到的值比較集中於母群體平均值附近，但假使標準誤很小，誤差也會很小。但如果分析的資料為相同測驗，

則不會是問題。

3.MAP 使用最新分布的眾數，除了考慮最大概似估算法(ML)的分布，也考量

參數原有(假定的)的分布。估到的值也稍微偏向集中在母群體的平均值，

但誤差比EAP 稍大。

第四節 SCORIGHT

SCORIGHT 適用於二元計分或多元計分的試題類型，以及任何有關試題反應理論的模式，可以是獨立試題、也可以是題組、或是兩者的組合，有助於分析包含題組的試題反應資料。在估計方面，若是題組可使用馬可夫鍊蒙地卡羅 (Markov Chain Monte Carlo，簡稱 MCMC)的方法調整。

MCMC 是一種能有效實行又簡單的貝氏計算方法，主要概念是由重複抽樣，建立平穩分配，此分配為所求後驗分配的馬可夫鏈。MCMC 受到學者歡迎的原因在於後驗樣本分配得到後，就可完成簡單的推論，因此MCMC 允許有限樣本的推論，但樣本越大估計則越精準(Wainer , Bradlow , & Wang,2007)。

Wainer 、Bradlow 和 Wang ( 2007 )檢視 MCMC 運作的演算方式，以貝氏二參數題組模式為例，以

Λ

代表模式參數，包含能力參數(θ ,…,₁ θ )，能力參數_I (

a

₁,…,

a

_J)，(

b

₁,…,

b

_J)和題組參數(γ_1d(1),…, γ_Id(J))，以及影響他們分配的參數 (μ ,_a σ )，(_a² μ ,_b σ )和_b² σ 。估計步驟如下： _r²

1. 選擇一個初始的向量，

Λ

＝

Λ

⁽^t⁼⁰⁾，

t

代表迭代數，將

t

設定為0。

2. 選擇某參數的組合

λ

₁，並藉由完全條件分配

( , )

1 1

Y

p

Λ

₋_λ 中抽取更新值

) 1 ( 1 +

λt ，估計第

t

次的值，此處的 ^t

λ1

Λ

−

表示不包含 λ

₁的整體參數向量

Λ

，Y 表

示觀察的測驗資料。

3. 選擇某參數的組合

λ

₂，並藉由完全條件分配

p (

λ₂

Y , Λ

^t₋_λ₁_,₋_λ₂

,

λ⁽^t⁺¹⁾

)

中抽取更新值λ⁽₂^t⁺¹⁾。此處的

Λ

^t₋_λ₁_,₋_λ₂

表示一組不包含 λ

₁和

λ

₂的整體參數；評估

λ

₂第

t

次

的值，而λ₁⁽^t⁺¹⁾是在步驟2 中由

λ

₁所更新的值。

4. 從完全條件分配

p ( Λ

^t₋_λ₁_,₋_λ₂

Y ,

λ₁⁽^t⁺¹⁾

,

λ₂⁽^t⁺¹⁾

)

抽取

Λ

⁽₋^t⁺_λ¹₁⁾_,₋_λ₂

，且讓 t

t

+1。

5. 如果

t ≤

M(特別指定的迭代數)，則從步驟 2 開始循環；如果

t

=M，則停止抽樣(引自許思雯，2008)。

第五節定錨不等組(NEAT)設計

NEAT設計是從兩組受試母群體(P和Q)中，隨機抽取兩組不同受試樣本(P1 和Q1)，給予P1受試者施測X測驗，Q1受試者施測Y測驗，兩組受試樣本皆須另外接受定錨測驗A。通常定錨測驗在兩樣本的測驗順序是一樣的，避免順序因素的影響，而且其測驗內容與難度與X、Y測驗十分類似。NEAT設計如表2-1(Kolen

& Brennan,1995；von Davier, Holland & Thayer, 2004；余民寧，1992c)。

表2-1 NEAT設計

受試樣本 X測驗 Y測驗定錨測驗A

P1 3 3

Q1 3 3

註：3為受試者必須受測之測驗

NEAT 設計為常見的測驗等化設計，在 NEAT 設計中，每個受試群必須施測相同的定錨測驗，定錨測驗之試題參數好壞將會影響等化估計效果。若定錨測驗選擇恰當，練習(practice)、疲勞(fatigue)、學習(learning)、順序因素(order effects) 及需要大樣本的問題在NEAT設計可加以避免（Klein & Jarjoura, 1985）。

MCAS(Massachusetts comprehensive assessment system)是以NEAT設計進行不同年度間學生之測驗等化，因為它不必假設兩受試群體有相同的能力值，只需要假設受試群體是隨機抽取。而NEAT設計的定錨測驗試題難度要相近且內容要

(Petersen, Kolen & Hoover, 1993；王暄博，2006；張鈺卿，2007)。優點為容易找尋到試題區塊配置方式，缺點則為當題本公布時，將會公布所有的定錨試題。

第三章研究設計與方法

本研究透過模擬資料比較當受試者能力分布為常態或雙峰時，BILOG-MG 軟體和SCORIGHT 兩種軟體在 NEAT 設計不同測驗組合下，試題及能力參數估計的差異，因此本章分成四節，第一節為研究步驟；第二節為NEAT 設計；第三節為模擬資料變項設定；第四節為研究工具。

第一節研究步驟

本研究以試題反應理論為基礎，利用電腦模擬資料，當受試者能力分布為常態或雙峰時，擬操弄受試人數、試題題數、題組比例及題組效果變異數等四個變項，用以比較兩種軟體估計受試者能力及試題參數的精確性。研究流程如圖3-1：

研究主題

設定模擬資料 1. 受試人數：5460 人、7566 人 2. 測驗題數：27 題、45 題

3. 題組比例： 1/3 題組和 2/3 單題、2/3 題組和 1/3 單題 4. 題組效果變異數：0、0.5、1

5. 受試者能力分布：常態分布、雙峰分布

撰寫研究結果

以 BILOG-MG 進行參數估計以 SCORIGHT 進行參數估計

圖3-1 為本研究流程圖，並設定模擬資料為：

(一) TASA 計畫 2006 年受試人數為 7500 人，本研究欲探討人數減少之影響，

TASA 數學科的 BIB 設計下題本數為 26，而本研究 NEAT 設計題本數為 6，配合兩種連結設計題本數的不同，故模擬兩種受試人數為 7566 人和5460 人。

(二) 每個試題區塊數的試題數模擬為 9 題、15 題，每個題本配置的試題區塊數為3 個，因此每個題本的測驗題數為 27、45 題。

(三) 題組比例為前 1/3 題數是題組和後 2/3 題數是單題前2/3 題數是題組和後 1/3 題數是單題 (四) 題組效果的變異數為 0、0.5、1。

(五) 受試者能力分布：常態分布、雙峰分布。

第二節 NEAT 設計

本研究的NEAT 設計係根據 van der Linden, Veldkamp ,Carlson(2004) 26 個題本、13 個試題區塊的 BIB 設計而改編，將第一個試題區塊 M1設定為定錨試題，

並設計含BIB 試題區塊數之 NEAT 設計，並將其整理成表 3-1。

表3-1 NEAT 設計表

等化設計題本數區塊數題本區塊數

NEAT 6 13 3

表 3-2 為 NEAT 設計表，NEAT 設計共包含 6 個題本(b=3)、13 個試題區塊 (t=13)、每個題本包含 3 個試題區塊(k=3)。試題區塊 M1為 NEAT 設計之定錨試題區塊，其題本配置的試題區塊序號為：題本S1試題區塊配置為M1、M2、M3；題本 S2試題區塊配置為 M1、M4、M5；題本 S3試題區塊配置為 M1、M6、M7；題本 S4試題區塊配置為 M1、M8、M9；題本S5試題區塊配置為M1、M1、M11；

題本S6試題區塊配置為M1、M12、M13 (王暄博，2006；張鈺卿，2007)。

表3-2 NEAT 設計表

題本序號區塊(k1) 區塊(k2) 區塊(k3)

S1 M1 M2 M3

S2 M1 M4 M5

S3 M1 M6 M7

S4 M1 M8 M9

S5 M1 M10 M11

S6 M1 M12 M13

第三節模擬資料變項設定

本研究利用利用電腦模擬建置題庫資料，探討不同軟體估計NEAT 設計下測驗的能力及試題參數。NEAT 設定的變項設定對照如表 3-3。

表3-3 NEAT 設計之變項對照表

軟體 BILOG-MG SCORIGHT

受試人數 5460 人、7566 人測驗題數 27 題、45 題

題組比例前1/3 題數為題組和後 2/3 題數為單題前2/3 題數為題組和後 1/3 題數為單題題組效果變異數 0、0.5、1

受試者能力分布常態截尾分布N(0,1)，界定範圍-3~3

雙峰取自兩個常態分布平均數各為2 與-2、標準差皆為1 隨機產生，再標準化組成，界定範圍-3~3 試題參數分布鑑別度截尾常態分布 N(1,0.25)，範圍 0.5～1.5

難度截尾常態分布N(0,1)，範圍-3～3

猜測度截尾常態分布 N(0.125,0.0625)，範圍 0～0.25 每一情形模擬次數 25 次

關於受試者能力參數和試題參數之產生，分述如下。

一、能力參數的產生

1.受試者能力分布為截尾常態分布(truncated normal distribution)，平均數為0，

標準差為1，將範圍界定於− 3 ~ 3，記為N(0,1)。其受試者能力分布長條圖如下：

-2 -1 0 1 2

受試者之能力值 0

50 100 150 200 250 300

受試者之人數分布

圖3-2 常態分布下，受試人數為5460人之受試者能力分布長條圖

-3 -2 -1 0 1 2 3 受試者之能力值

0 100 200 300 400

受試者之人數分布

圖3-3 常態分布下，受試人數為7566人之受試者能力分布長條圖

2.受試者能力分布為雙峰分布，取自兩個常態分布平均數各為 2 與-2、標準差皆為1 隨機產生，再標準化組成，其平均數為 0，標準差為 1，將範圍界定於-3~3。其受試者群能力分布長條圖如下：

-2 -1 0 1 2 受試者之能力值

0 50 100 150 200 250

受試者之人數分布

圖3-4 雙峰分布下，受試人數為5460人之受試者能力分布長條圖

-3 -2 -1 0 1 2 3

受試者之能力值 0

50 100 150 200 250 300

受試者之人數分布

圖3-5 雙峰分布下，受試人數為7566人之受試者能力分布長條圖

二、試題參數的產生

1.鑑別度參數為截尾常態分布，平均數為1，標準差為0.25，將範圍界定於0.5

~1.5，記為N(1,0.25)。

2.難度參數為截尾常態分布，平均數為0，標準差為1，將範圍界定於− 3 ~ 3，

記為N(0,1)。

3.猜測度參數為截尾常態分布，平均數為0.125，標準差為0.0625，將範圍界定於0 ~ 0.25 ，記為N(0.125,0.0625)。

第四節研究工具

一、 BILOG-MG 軟體

本研究使用BILOG-MG 獲得受試者能力參數和試題參數的估計值。

二、 SCORIGHT 軟體

本研究使用SCORIGHT 獲得得受試者能力參數和試題參數的估計值。

三、 MATLAB 軟體

MATLAB 有簡單的程式語法和強大的函數庫功能，本研究透過此軟體模擬 NEAT 設計下的能力參數、試題參數和受試者的作答反應，並進行資料檔案的轉換。

第四章研究結果

本研究以RMSE 當作參數估計誤差，當能力分布在常態或雙峰時，在 NEAT 設計下比較BILOG-MG 軟體和 SCORIGHT 軟體在不同受試人數、測驗題數、題組比例和題組效果變異數變化的情況下，對受試者能力參數、試題鑑別度、難度和猜測度參數的估計差異。本章節共分為三節，第一節是 BILOG-MG 參數估計結果，第二節是SCORIGHT 參數估計結果，第三節是 BILOG-MG 和 SCORIGHT 參數估計比較。

第一節 NEAT 設計下 BILOG-MG 參數估計結果

針對 NEAT 設計於不同模擬情境進行比較，探討當能力分布在常態或雙峰時，以BILOG-MG 進行參數估計是否會受到受試人數、測驗題數、題組比例和題組效果變異數的不同而影響參數估計的精準度。

壹、常態分布

一、在受試人數的部分，分為5460 人、7566 人兩種情形，根據模擬研究之結果，固定測驗題數、題組比例和題組變異效果數的情況下，可發現受試者能力參數、試題參數估計誤差大致上會隨著受試人數增加而降低，因此推論受試人數的多寡會影響BILOG-MG 的估計結果，人數愈多，估計會愈精準，此結果與王暄博(2006)有相似的結果。

二、在測驗題數的部分，分為27 題、45 題兩種情形，根據模擬研究之結果，

固定受試人數、題組比例、題組變異效果數的情況下，可發現受試者能力參數、鑑別度與難度估計誤差大致上會隨著測驗題數增加而降低，題數愈多，估計會愈精準，在王暄博(2006)也有類似的結論。而試題猜測度

在文檔中 BILOG-MG與SCORIGHT在NEAT設計不同測驗組合下能力及試題參數估計效果之比較 (頁 19-71)

第四章 研究結果

第三節 BILOG-MG 和 SCORIGHT 參數估計結果比較

第三節 BILOG-MG

第四節 SCORIGHT

Λ

a

a

b

b

Λ

Λ

t

t

λ

( , )

Y

p

Λ

t

Λ

表示不包含 λ

Λ

λ

p (

Y , Λ

,

)

Λ

表示一組不包含 λ

λ

λ

t

λ

p ( Λ

Y ,

,

)

Λ

，且讓 t

t

t ≤

t

第五節 定錨不等組(NEAT)設計

第三章 研究設計與方法

第一節 研究步驟

第二節 NEAT 設計

第三節 模擬資料變項設定

第四節 研究工具

一、 BILOG-MG 軟體

二、 SCORIGHT 軟體

三、 MATLAB 軟體

第四章 研究結果

第一節 NEAT 設計下 BILOG-MG 參數估計結果

壹、常態分布

第四章研究結果

第五節定錨不等組(NEAT)設計

第三章研究設計與方法

第一節研究步驟

第三節模擬資料變項設定

第四節研究工具

第四章研究結果