可能值方法

第二章文獻探討

第三節可能值方法

第三節第三節

第三節可能值方法可能值方法可能值方法可能值方法

可能值方法是以加入作答反應與背景變項的潛在迴歸模式，去計算每位受測者能力的後驗分佈，再由該分佈中隨機抽取可能值作為該受測者的能力估計。其原理如下：

首先界定事前密度函數 (prior density fuction)

f

_θ( ; )

θ α

^{作為受測者母群能力} 之分佈，實際應用上常假設受試者來自一個常態分佈的母群體，其平均數為

µ

^，標準差為

σ

，如公式（2-3-1）：

題本題本題本

題本區塊區塊區塊區塊 1 區塊區塊區塊區塊 2 區塊區塊區塊區塊 3 區塊區塊區塊區塊 4 標準題本組標準題本組標準題本組標準題本組 較簡單題本組較簡單題本組較簡單題本組較簡單題本組 題本 12 R7 S3 M1 S2 Y Y

題本 13 S3 R2 R1 R5 Y Y

題本 21 M1 R1 R3B M3 Y

題本 22 R1 S1 R4B R7 Y

題本 23 S1 R3B M2 S3 Y

題本 24 R3B R4B S2 R2 Y

題本 25 R4B M2 R5 M1 Y

題本 26 R5 R6 R7 R3B Y

題本 27 R6 M3 S3 R4B Y

題本閱讀數學/

科學

1 2

其中需要估計的值為

β

^、

σ

^和

ξ

^{參數，其中}

ξ

^{為試題參數。} 體能力參數的回復上比傳統的點估計方法有較佳的效果（Wu, 2005; von Davier, Gonzalez,& Mislevy, 2009），原因在於可能值方法是從所估計能力值的後驗分佈中隨機抽取受測者能力的可能值，並直接進行母群參數計算，而非先估計個體的能力，再以其個體能力估計值來計算群體參數，因此可以使群體參數的估計更精準，提供群體參數估計的一致性（Mislevy & Sheehan, 1989; Mislevy, Beaton, Kaplan, & Sheehan, 1992）。此外，可能值方法將受測者的背景變項一併納入進行估計，如此不僅能降低試題參數估計的誤差，也能提高能力估計的精準性（Mislevy, 1984; Mislevy & Sheehan, 1989）。目前國際上知名的大型測驗如 NAEP、TIMSS 及 PISA 等皆是使用可能值的型態提供給次級資料分析者受測者的成就資料（Lee, Grigg & Dion, 2007； Foy, Galia, & Li, 2008；OECD, 2009）。基於上述理由，本研究以可能值方法作回復群體參數，減少與大型測驗估計方式的差異性，再比較各種連結方法之效果。

第四節

連結方法包括同時估計法（concurrent calibration method）、固定試題參數法（fixed b’s method）、TIMSS 使用之連結方法以及 PISA 使用之連結方法，以下將針對這四種方法做介紹。測驗的暫時量尺（provisional scale）。再利用公式 2-4-1 計算舊年度測驗的暫時量尺與公告量尺（report scale）之間的線性轉換係數α、_β。使用所得到的α、_β 將新年度的暫時量尺以公式 2-4-1、2-4-2、2-4-3 做線性轉換，轉換後的量尺即為

新年度測驗的公佈量尺（Foy, Galia, & Li, 2008；Qian, Isham, Worthington, & Liang,

TIMSS & NAEP 連結方法

暫時性量尺

肆肆

第三章第三章

第三章第三章研究方法研究方法研究方法研究方法

本研究以 MRCMLM 之試題反應理論為基礎，使用模擬資料進行使用不同連結方法對於可能值方法回復群體參數估計之影響，並比較在群體能力與前一年度有不同差異時，各種連結方法對於回復新年度的群體參數之效果。本章節共分五個部分：一、研究流程；二、模擬研究變項設計；三、模擬實驗步驟；四、研究工具；五、評估準則。

第一節第一節第一節

第一節研究流程研究流程研究流程研究流程

本研究以多向度試題反應理論為基礎，討論多向度隨機係數模式

（MRCMLM）架構下，不同的測驗連結方法於兩年度間不同能力差距之估計效果。研究流程條列如下，亦可參考圖 3-1：

一、文獻的蒐集與探討

本研究在確定研究主題後，先收集測驗等化、測驗連結以及可能值方法的相關文獻。

二、研究變項設定

在參考各個相關文獻與技術報告，設定欲探討之人數、能力差距、試題數與配合的向度數，並依照文獻建立 BIB 等化設計。

三、產生模擬資料

使用電腦程式依照不同變項建立兩個不同年度的受測者能力、背景變項與試題難度，再依照 MRCMLM 產生作答反應，最後使用測驗軟體配合不同連結方法回復新年度的群體參數。

四、比較不同連結方法之估計精準度

依據不同的情境比較各種連結法的估計效果，包含群體平均數以及群體標準差，並與真值計算 RMSE。

五、撰寫研究結果

圖圖圖

圖 3-1 研究流程圖

第二節第二節第二節

第二節模擬研究模擬研究模擬研究模擬研究設計設計設計設計

本研究藉由模擬資料，欲探討不同連結方法於能力差距不同之效果，故本節將針對模擬研究變項設定中之參數設定做說明。本研究的共同變項設定整理如表 3-1，並分別說明如下。

表 2007 國際數學報告（Mullis, Martin, & Foy, 2008）中，各個國家於 1999、2003 與 2007 之間八年級的量尺分數之差距作為進步之依據，詳細數據如表 3-2 所示。

參與國家 2007 與 2003 量

Palestinian Nat’l Auth. -23

Botswana -3

Ghana 34

*該年度空白者即為當年未參與資料來源︰TIMSS2007 International Mathematics Report（p.47-48）

由表 3-2 可以得知，同一個國家在 TIMSS 2003 與 2007 之間的群體量尺分數

貳貳

貳貳、、、測驗向度個數與試題長度、測驗向度個數與試題長度測驗向度個數與試題長度測驗向度個數與試題長度

本研究架構於多向度試題反應理論，因此將每個模擬題本分為 2 向度與 4 向度兩種情況；並且每個向度分別施測 8 題或是 16 題兩種情況，因此單一年度的受測者測驗總題數會有 16（2 個向度各 8 題）題、32（4 個向度各 8 題與 2 個向度各 16 題）題與 64（4 個向度各 16 題）四種情況。

參參參

參、、、人數設定、人數設定人數設定人數設定

根據 PISA2009 技術報告指出，參與該年度測驗的國家人數扣除列支敦斯登

（Liechtenstein）約 300 人，其他參與國家至少皆有 2700 人以上（OECD，2012）。

而臺灣該年度則有 5581 人參加數學測驗，並考慮到 TASA 四年級數學科在 2006 年施測樣本數為 8083 人（國家教育研究院籌備處，2009）、2007 年施測樣本數為 8200 人（國家教育研究院籌備處，2009），施測人數皆有 8000 人以上。故為了配合本研究的等化設計，使得 7 個題本受測人數皆相同，因此設定每一年度的受測者人數分別為 2100 人、5600 人以及 8400 人，即每個題本施測人數為 300 人、800 人與 1200 人。

肆肆

肆肆、、、等化設計、等化設計等化設計等化設計

兩個向度的 BIB 設計如表 3-2，當實驗設計為一個向度測驗 8 題時，每個試題區塊有 4 題試題，每個向度則有 7 個試題區塊（A1～A7、B1～B7），如此可以組出 7 個題本（題本 1～題本 7），而每一個題本包含 4 個試題區塊共 16 題試題。當實驗設計為一個向度測驗 16 題時，依照上述的方式設定，但每個區塊內的試題數則更改為 8 題，此情境下每個題本包含 4 個試題區塊共 32 題試題。

表

伍伍

伍伍、、、測驗連結方法、測驗連結方法測驗連結方法測驗連結方法

本研究探討不同的測驗連結方法對於群體參數的估計效果，連結方法分為 PISA 連結方法（b 值等化法）、固定試題參數法（b 值固定法）、TIMSS 及 NAEP 連結方法與同時校準法。

陸陸陸

陸、、、試題難度、試題難度試題難度試題難度數分數分數分數分佈佈佈佈

試題難度參數設定為截尾常態分佈，每一個向度的試題參數分開產生，平均數皆為 0，標準差為 1，並將範圍界定於−3 ~ 3。

第三節第三節第三節

第三節模擬實驗步驟模擬實驗步驟模擬實驗步驟模擬實驗步驟

本研究之模擬實驗步驟如下：

（一）模擬試題難度參數服從常態截尾分佈，並且建立題庫共 392 題，從題庫中挑選試題組成題本，並且符合舊年度與新年度之全部向度平均難度皆為 0；

（二）模擬兩年度之受測者能力真值與背景變項服從標準多變量常態分佈，並假設向度間能力相關約為 0.9，而背景變項與能力相關分別為 0.7 與 0.3；

（三）使用 IRT 單參數 MRCMLM 模式計算受測者正確作答機率，並根據其機率產生作答反應；

（四）根據其作答反應透過 ACER ConQuest 2.0 軟體並使用可能值方法進行參數估計；

（五）依據 PISA 連結方法、固定試題參數法、TIMSS 及 NAEP 連結方法以及同時校準法將新年度的能力參數做線性轉換並計算群體參數；

（六）將步驟（五）所估計之新年度能力參數與新年度能力真值做比較；

（七）將上述步驟（二）至（六）重複進行 50 次，比較四種連結方法之 RMSE。

第四節

2、ACER ConQuest 2.0

ACER ConQuest 2.0 為可應用於單向度、多向度 IRT 模式之軟體。本研究使

其中k表示每一個模擬資料集個數，k=1, 2, 3,..., 50

1 2 3

( , , ,..., _k)

µ= µ µ µ µ ：在第k個模擬資料集之群體能力平均真值

1 2 3

ˆ ( ,ˆ ˆ ,ˆ ,..., ˆ_k)

µ= µ µ µ µ ：在第k個模擬資料集之群體能力平均估計值

1 2 3

( , , ,..., _k)

σ = σ σ σ σ ：在第k個模擬資料集之群體能力標準差真值

1 2 3

ˆ (ˆ , ˆ , ˆ ,..., ˆ_k)

σ = σ σ σ σ ：在第k個模擬資料集之群體能力標準差估計值

第四章第四章

表表示同時校準法、FIX 表示固定試題參數法、PISA 表示 PISA 連結方法、TIMSS 則代表 TIMSS 及 NAEP 的連結方法。

4、在向度數相同時，題數 16 題的估計結果與 8 題的相比，其 RMSE 皆降低，平均數較不明顯，但是標準差則有明顯的差異。此結果與王暄博

（2006），王敏嫻、曾筱倩、郭伯臣、吳慧珉（2010）的研究結果相同。

圖圖圖

圖 4-2-1 受測人數為 2100 時，群體能力平均之 RMSE

圖圖圖

圖 4-2-2 受測人數為 2100 時，群體能力標準差之 RMSE

二二

二二、、、、當受測者人數為當受測者人數為當受測者人數為 5600 之情境當受測者人數為之情境之情境之情境

當受測者人數為 5600 人時，群體能力平均 RMSE 如圖 4-2-3 所示，而群體標準差之 RMSE 則如圖 4-2-4 所示，研究結果顯示：

1、跟人數為 2100 人時有相同的結果，除了 CON 以外，另外三種連結法平均數的 RMSE 並不會隨著年度間能力差異的增加而增加。

2、CON 對於平均數的估計會隨著年度間能力差距而改變，當差異達到 0.4 時，其估計誤差最大。

3、PISA、FIX 跟 CON 三種方法標準差的 RMSE 並沒有隨著能力的差距而有明顯的差異，但是 TIMSS 標準差隨著能力差距的增加，其 RMSE 則有些微的提高。

4、與人數為 2100 人時的結果相同，當向度數相同時，試題數較多的估計結果其 RMSE 皆降低，平均數較不明顯，但是標準差則有明顯的差異。

5、在總題數 32 題的情境之下，向度數為 4，單一向度試題數為 8 的標準差表現一致性的比向度數為 2，單一向度試題數為 16 的標準差表現要差。

圖圖圖

圖 4-2-3 受測人數為 5600 時，群體能力平均之 RMSE

圖圖圖

圖 4-2-4 受測人數為 5600 時，群體能力標準差之 RMSE

三三

三三、、、、當受測者人數為當受測者人數為當受測者人數為 8400 之情境當受測者人數為之情境之情境之情境

當受測者人數為 8400 人時，群體能力平均 RMSE 如圖 4-2-4 所示，而群體標準差之 RMSE 則如圖 4-2-5 所示，研究結果顯示：

1、平均數的估計跟人數為 2100 人與 5600 人時有相同的結果，除了 CON 以

在文檔中應用可能值方法於大型測驗不同年度間連結方法之效果探究 (頁 18-0)

第二章 文獻探討

第三節 可能值方法

第三節 第三節

第三節 可能值方法 可能值方法 可能值方法 可能值方法

f

θ α

µ

σ

β

σ

ξ

ξ

第四節

第三章 第三章

第三章 第三章 研究方法 研究方法 研究方法 研究方法

第一節 第一節 第一節

第一節 研究流程 研究流程 研究流程 研究流程

第二節 第二節 第二節

第二節 模擬研究 模擬研究 模擬研究 模擬研究設計 設計 設計 設計

第三節 第三節 第三節

第三節 模擬實驗步驟 模擬實驗步驟 模擬實驗步驟 模擬實驗步驟

第四節

第四章 第四章

第二章文獻探討

第三節可能值方法

第三節第三節

第三節可能值方法可能值方法可能值方法可能值方法

第三章第三章

第三章第三章研究方法研究方法研究方法研究方法

第一節第一節第一節

第一節研究流程研究流程研究流程研究流程

第二節第二節第二節

第二節模擬研究模擬研究模擬研究模擬研究設計設計設計設計

第三節第三節第三節

第三節模擬實驗步驟模擬實驗步驟模擬實驗步驟模擬實驗步驟

第四章第四章