文獻探討

本研究欲探討 BILOG-MG 和 SCORIGHT，當受試者能力分布為常態或雙峰時，在不同受試人數、測驗題數、題組比例和題組效果變異數在NEAT 設計測驗

試題反應理論(item response theory，簡稱 IRT)是將受試者的潛在能力與其在測驗上的實際作答情形的關係，透過一條連續性遞增的的函數聯結在一起，當

的指數。

公式二中各符號的定義與公式一相同，但多了一個參數

a

_i，是用來描述試題

i

所具有鑑別力大小的特性。

公式三中各符號的定義與公式二相同，但多了一個參數

c

_i，代表能力很低的考生答對某試題的機率。

單參數對數模式中，只有試題的難度會影響考生在試題上的表現；二參數對數模式則為單參數對數模式的延伸，除了考慮試題難度，也考慮試題的鑑別度；三參數對數模式則是二參數對數模式的延伸演變，除了試題難度、鑑別度外，

多增加了參數

c

，將低能力考生的的表現好壞因素考慮在模式裡(余民寧，1992b)。

當測驗形式以選擇題為主時，我們可察覺能力不高者容易猜對部分試題，

原因在於沒有設計好的誘答選項，或在題目裡出現暗示答案的字眼，因此透過這類模式得以找出那些題目。當估計受試者能力時，三參數對數模式已考量了不同受試者答對機率和題目的猜對率的影響，因此所得到的能力值應該比較會符合受試者的實際能力(陳柏熹，2006)。

根據Hambleton , Zeal & Pieters(1991)的研究，題型為四選一之選擇題，應是較適合三參數對數模式。本研究的模擬題型為選擇題，故以三參數對數模式作為參數的估計。

第二節題組反應理論

自 60 年代以來，選擇題的測驗題型常遭受批評，原因是過於重視學生的記憶能力。因此，學校的改革計畫，皆與認知心理學的觀點結合，期能發展提高學生思考層次的測驗。Ebel 曾在 1951 年提出建議，他認為情境依賴試題組 (context-dependent item set)此種測驗使得客觀式的測驗題型也可以測量學習者的

數學和科學的問題解決、統計推理及閱讀理解，認為題組的測驗形式能有效測量到高層次思考，也能提供測驗編製者更多關於學習者的學習訊息。雖然情境依賴試題組對測驗編製者較為困難，不過此種測驗題型不但提供了更複雜的測驗情境，也使得受試者能充分利用其分析思考以及解決問題的知識和能力 (Allen &

Sudweeks,2001；Haiadyna, 1992)。

題組反應理論是由試題反應理論演變，試題反應理論中，受試者在某個題目

驗分數變異量σ 中可歸因於題組的比例愈高，將題組效果² γ_id_{( j}₎納入公式四，就可以得到題組反應模式的概似函數，並藉以估計受試者的能力值及受到題組所影響

的

) ( j

γid 。

第三節 BILOG-MG

BILOG-MG 由(Zimowski , Muraki ,Mislevy & Bock,1996)所研發，是 BILOG 的擴展，能有效分析二元計分試題。BILOG-MG 有三種可使用的能力參數估計法，分別為最大概似估計法(maximum likelihood estimation, 簡稱 MLE)、期望後驗估計法(Bayes expected a posteriori, 簡稱 EAP)和最大後驗估計法(maximum a posteriori, 簡稱 MAP)，本研究採用 EAP 法。而估計試題參數的方法是邊際最大概似法(marginal maximum likelihood estimation, 簡稱 MMLE )。以下大略說明能力參數的三種估計法(Zimowski , Muraki , Mislevy & Bock , 1996；張雅媛，2006；

楊孟麗、譚康榮、黃敏雄，2003)。

1. MLE是根據作答反應模式，能力值透過統計方法估計出使此種作答反應組行出現最高的機率，當受試者的能力恰巧與試題中許多選項的難度相近時，所估計的能力標準誤較小；反之則較大。缺點是若有受試者在該測驗的試題全部答對或全部答錯，MLE將無法估算其能力值。

2. EAP則克服MLE的缺點，利用受試者的作答反應題組調整先前受試者能力分布的假定，得到新的能力分布，就算有受試者在該測驗的試題全部答對或全部答錯，也可使用EAP估計。EAP估到的值比較集中於母群體平均值附近，但假使標準誤很小，誤差也會很小。但如果分析的資料為相同測驗，

則不會是問題。

3.MAP 使用最新分布的眾數，除了考慮最大概似估算法(ML)的分布，也考量

參數原有(假定的)的分布。估到的值也稍微偏向集中在母群體的平均值，

但誤差比EAP 稍大。

第四節 SCORIGHT

SCORIGHT 適用於二元計分或多元計分的試題類型，以及任何有關試題反應理論的模式，可以是獨立試題、也可以是題組、或是兩者的組合，有助於分析包含題組的試題反應資料。在估計方面，若是題組可使用馬可夫鍊蒙地卡羅 (Markov Chain Monte Carlo，簡稱 MCMC)的方法調整。

MCMC 是一種能有效實行又簡單的貝氏計算方法，主要概念是由重複抽樣，建立平穩分配，此分配為所求後驗分配的馬可夫鏈。MCMC 受到學者歡迎的原因在於後驗樣本分配得到後，就可完成簡單的推論，因此MCMC 允許有限樣本的推論，但樣本越大估計則越精準(Wainer , Bradlow , & Wang,2007)。

Wainer 、Bradlow 和 Wang ( 2007 )檢視 MCMC 運作的演算方式，以貝氏二參數題組模式為例，以

Λ

代表模式參數，包含能力參數(θ ,…,₁ θ )，能力參數_I (

a

₁,…,

a

_J)，(

b

₁,…,

b

_J)和題組參數(γ_1d(1),…, γ_Id(J))，以及影響他們分配的參數 (μ ,_a σ )，(_a² μ ,_b σ )和_b² σ 。估計步驟如下： _r²

1. 選擇一個初始的向量，

Λ

＝

Λ

⁽^t⁼⁰⁾，

t

代表迭代數，將

t

設定為0。

2. 選擇某參數的組合

λ

₁，並藉由完全條件分配

( , )

1 1

Y

p

Λ

₋_λ 中抽取更新值

) 1 ( 1 +

λt ，估計第

t

次的值，此處的 ^t

λ1

Λ

−

表示不包含 λ

₁的整體參數向量

Λ

，Y 表

示觀察的測驗資料。

3. 選擇某參數的組合

λ

₂，並藉由完全條件分配

p (

λ₂

Y , Λ

^t₋_λ₁_,₋_λ₂

,

λ⁽^t⁺¹⁾

)

中抽取更新值λ⁽₂^t⁺¹⁾。此處的

Λ

^t₋_λ₁_,₋_λ₂

表示一組不包含 λ

₁和

λ

₂的整體參數；評估

λ

₂第

t

次

的值，而λ₁⁽^t⁺¹⁾是在步驟2 中由

λ

₁所更新的值。

4. 從完全條件分配

p ( Λ

^t₋_λ₁_,₋_λ₂

Y ,

λ₁⁽^t⁺¹⁾

,

λ₂⁽^t⁺¹⁾

)

抽取

Λ

⁽₋^t⁺_λ¹₁⁾_,₋_λ₂

，且讓 t

t

+1。

5. 如果

t ≤

M(特別指定的迭代數)，則從步驟 2 開始循環；如果

t

=M，則停止抽樣(引自許思雯，2008)。

第五節定錨不等組(NEAT)設計

NEAT設計是從兩組受試母群體(P和Q)中，隨機抽取兩組不同受試樣本(P1 和Q1)，給予P1受試者施測X測驗，Q1受試者施測Y測驗，兩組受試樣本皆須另外接受定錨測驗A。通常定錨測驗在兩樣本的測驗順序是一樣的，避免順序因素的影響，而且其測驗內容與難度與X、Y測驗十分類似。NEAT設計如表2-1(Kolen

& Brennan,1995；von Davier, Holland & Thayer, 2004；余民寧，1992c)。

表2-1 NEAT設計

受試樣本 X測驗 Y測驗定錨測驗A

P1 3 3

Q1 3 3

註：3為受試者必須受測之測驗

NEAT 設計為常見的測驗等化設計，在 NEAT 設計中，每個受試群必須施測相同的定錨測驗，定錨測驗之試題參數好壞將會影響等化估計效果。若定錨測驗選擇恰當，練習(practice)、疲勞(fatigue)、學習(learning)、順序因素(order effects) 及需要大樣本的問題在NEAT設計可加以避免（Klein & Jarjoura, 1985）。

MCAS(Massachusetts comprehensive assessment system)是以NEAT設計進行不同年度間學生之測驗等化，因為它不必假設兩受試群體有相同的能力值，只需要假設受試群體是隨機抽取。而NEAT設計的定錨測驗試題難度要相近且內容要

(Petersen, Kolen & Hoover, 1993；王暄博，2006；張鈺卿，2007)。優點為容易找尋到試題區塊配置方式，缺點則為當題本公布時，將會公布所有的定錨試題。

在文檔中 BILOG-MG與SCORIGHT在NEAT設計不同測驗組合下能力及試題參數估計效果之比較 (頁 16-23)

a

i

c

c

第二節 題組反應理論

第三節 BILOG-MG

第四節 SCORIGHT

Λ

a

a

b

b

Λ

Λ

t

t

λ

( , )

Y

p

Λ

t

Λ

表示不包含 λ

Λ

λ

p (

Y , Λ

,

)

Λ

表示一組不包含 λ

λ

λ

t

λ

p ( Λ

Y ,

,

)

Λ

，且讓 t

t

t ≤

t

第五節 定錨不等組(NEAT)設計

第二節題組反應理論

第五節定錨不等組(NEAT)設計