• 沒有找到結果。

第三章 研究方法

第三節 BIB 設計

)]

( exp[

1

)]

( ) exp[

1 (

) ( ) (

i jd i j i

i jd i j i i

i

i a b

b c a

c

P

 

 公式二

~ (0, 2 ())

)

(i rd i

jd N

其中,j代表第 j位受試者能力參數,aibici分別代表第i題試題的鑑別 度、難度參數及猜測度,jd(i)是指第 j個人在第d(i)個題組上的隨機效果。

) 2 (

i

rd 可視為題組效果的變異程度,當題組效果 2 () i

rd 愈大,表示題組內試題 的依賴比例愈高。當猜測度為 0 時,公式二則會縮減為二參數題組模式,當猜測 度為 0 且鑑別度參數為 1 時,公式二又可再縮減為 Wang & Wilson(2005)所提出 的 Rasch 題組模式。又當題組效果為 0 時,Rasch 題組模式又可縮為單參數模式。

以上這些題組反應模式的公式,是可用以估計受試者的能力值及受到題組所影響 的程度。

第三節 BIB 設計簡介

BIB 設計是將試題分成若干試題區塊,區塊間與區塊內的試題皆不重複,受 試者只需接受若干試題區塊的試題,且不同受試者可能接受部分相同、完全相 同、或完全不同的試題區塊。最後,將所有受試者的作答反應資料堆疊進行分析,

以達到能力估計的目的。BIB 設計如表2-1。

表2-1 BIB 設計範例

題本序號 區塊(k1) 區塊(k2) 區塊(k3)

S1 M1 M2 M4

S2 M2 M3 M5

S3 M3 M4 M6

S4 M4 M5 M7

S5 M5 M6 M1

S6 M6 M7 M2

S7 M7 M1 M3

表2-1為BIB 設計的一個範例,在此設計中,有7 個題本(S1~S7);7 個試題

區塊(M1~M7)。BIB 設計中試題區塊序號的組合不重複,如:S1 題本是由試題 區塊M1、M2、M4 組合而成,則表中其他題本(S2~S7)就不會再出現試題區塊M1、

M2、M4 的組合(曾玉琳、王暄博、郭伯臣、許天維,2006)。

BIB 設計的優點為試題區塊與題本(booklet)的配置方式,使用螺旋(spiral)式 排列方式,可使每一個試題區塊的施測次數相同(van der Linden, Veldkamp

&Carlson, 2004;Nemhauser & Wolsey, 1999)。

美國的NAEP 和荷蘭的PPON(Periodiek Peilingsonderzoek van het Onderwijs) 即依據BIB 設計的原則。這個設計假設題庫中的試題被區分為數個區塊,並利用 這些試題區塊編製成題本,題本根據最小單位,經由螺旋排序並束在一起(spiraled and bundled)的方式確保每一試題區塊出現的次數均等。在區分試題區塊的過程不 需為隨機分配,但必須考量受試者可以有足夠的時間作答完所有的試題,並確定 試題對受試者是實用的。另外,根據NAEP 1998 年的技術性報告中指出,每一試 題在施測時,大約需要500 個測試樣本(Allen, Donoghue & Schoeps, 2001)。

1. 每一個題本內的試題區塊數要相同;

2. 試題區塊作結合要組合成最小的題本數;

3. 每一個試題區塊出現在所有題本的次數要相同。

不過這只是BIB 設計必須符合的三項基本限制,但在實際實施測驗時,還需注意 試題的內容、編排、形式及作答時間等等。

BIB設計的優缺點 (一)BIB 設計的優點

1. 試題區塊與題本採螺旋式排列,雖然有非共同試題的題本,但依然可進行等化 的連結或分析;

2. 不會有某些區塊出現的次數較多,因此不會造成有些題目過度曝光。

3. 每題試題的作答人數均相等,試題平均分配施測;

4. 若需進行題本公布時,不會公布到所有的定錨試題。

(二)BIB 設計的缺點

1. 不易尋找到題本與試題區塊的配置方式;

2. BIB 設計等化要達到較佳的等化效果,必須要有夠多的施測人數及定錨試題 數。(王暄博,2006)

本研究測驗即採用BIB設計進行模擬研究,將試題分成若干試題區塊,使用 每個題本配置若干個試題區塊來進行施測。

第四節 估計參數的軟體介紹

一、BILOG-MG

BILOG-MG由Mislevy & Zimowski & Muraki & Bock所發展的套裝軟體,是適 用於二元計分試題對數模式,能處理單參數、二參數及三參數模式的資料,作為

計,將所有題本之作答結果全部放置一起,然後同時進行參數估計,如此一來,

所有試題參數估計值便會放在相同的量尺上,而且受試者能力估計值也可在相同 量尺作比較。

在試題參數的估計上,是使用邊際最大概似估計(Margin Maximum Likelihood Estimate,簡稱 MMLE)法;而在能力參數的估計上,使用的估計方法最大概似估 計法、期望後驗(Expected a Posteriori,簡稱 EAP)估計法和最大後驗(Maximum a Posteriori,簡稱 MAP)估計法三種(趙素珍,1997、1998)。

IRT 模式的軟體中提供三種估算受測者能力的方法,介紹如下(Zimowski, Muraki, Mislevy, & Bock, 2003;楊孟麗、譚康榮、黃敏雄,2003):

1.最大概似估計法(Maximum Likelihood Estimation,簡稱MLE)是根據原始 的資料,估算出最有可能的母群體參數。也就是以現有的資料所呈現的模式,利 用統計方法找出最有可能出現這種答題模式的受試者的能力值。若試題中和受試 者的能力相當的題數較多或少時,該受試者能力的測量標準誤就會跟著較小或較 大。MLE 的缺點:當受試者全部答對或全部答錯測驗中的所有試題時,MLE 將 無法估算其能力程度。

2. Expected A Posteriori 估算(簡稱EAP) 能克服上述缺點,就算是受測者答對 或答錯所有的題目,可由EAP 估計其受試者能力。其方法是利用測驗的答題模式 來「修改」受測者先前假定的能力分布後,得到的新分布中的平均值,。而EAP 的 缺點是:它所估得的值較集中在母群體的平均值附近,但若其標準誤很小時,這 個誤差也很小。

3. Maximum A Posterior 估算(簡稱 MAP) 與 EAP 相類似,即使受試者得滿 分或得零分,也可以估算其相對的能力。其方法用的是新分布的眾數,除了最大 概似估算法(MLE)中的資料分布之外,也將參數原有(或假定)的分布納入考 量。但 MAP 也較偏向集中於母群體的平均值,誤差比 EAP 稍大。

所 以 考 量 各 種 方 法 的 優 劣 後 , 本 研 究 擬 採 用 邊 際 最 大 概 似 估 計 (Margin

題參數及能力參數的估計方法。

二、SCORIGHT

SCORIGHT(Wang, Bradlow, & Wainer, 2005)是一種很普遍的計算機程式,適 用試題反應理論的模式,試題內容可以各自獨立,或是題組,或是單一試題和題 組的組合,可用於二元或多元計分的試題模式,能分析包含題組的試題反應資 料。在估計參數方面,SCORIGHT 是使用馬可夫鍊蒙地卡羅(Markov chain Monte Carlo,簡稱 MCMC)的估計方法。

以下對於 MCMC 的估計方法做概略的簡述,MCMC 是屬於一種貝氏的估計 法,此優點為若取得後驗樣本的分配,即可容易完成推論。此方法是透過重複抽 樣的方式,獲得一個平穩分布,也就是馬可夫鍊(Markov chain )。Wainer、Bradlow 和 Wang(2007)以二參數題組模式來檢視 MCMC 的演算過程,以Λ代表模式的參 數,以 a1,………,aJ 代表試題鑑別度、b1,…….,bJ 代表難度參數等,θ1,……,θI

表受試者能力參數,γ1d(1),……, γId(J) 表題組參數,以及影響參數分配的(μa, σa2

)、 (μb,σb2

) 與σγ2,估計步驟如下:

步驟 1. 選擇一個起始的向量,( t 0)t代表佚代數,將t設為 0,根據 Wainer 等人指出 MULTILOG 與 BILOG 軟體的估計結果可以提供給 MCMC 很 好的起始值,能夠加速收斂到穩定分配。

步驟 2. 選擇某參數的組合1,並藉由條件分布 ( 1 , () )

1

Y t

p ,抽取更新值(1t1), 估計第t次的值,其中 ()

1

t

代表這個向量包含1這些參數,Y 代表所 觀察的向量資料。

步驟 3. 選擇某參數的組合2,並藉由條件分布 ( 2 , (), 1( 1))

2 1

t t

Y

p ,抽取更新 值(2t1),估計第t次的值,其中 () ,

2 1

t

 

代表這個向量包含12這些 參數,而 (t1)是由步驟 2 更新 所得到的值。

步驟 4. 從條件分配 ( () , , 1( 1), (2 1))

2 1

t Y t t

p 中抽取 ( 1),

2 1

t ,並讓t  t1

步驟 5. 若t M(特別指定的佚代數),再從步驟 2 重複這些順序,直到t M才停 止。

最後使用 F 檢定,來確認是否達到收斂,並計算後驗分配的平均數,來進行 推論。(引自顏秀聿,2009)

第三章 研究方法

第一節 研究架構

本研究是利用電腦模擬資料,探討探討題組與單題混合測驗,在平衡不完全

區塊設計(balanced incomplete block design, BIB)下,當受試者能力分布為常態或 雙峰時,操弄不同的施測人數、測驗題數、題組比例、題組效果變異數此四種變 項,比較 BILOG-MG、SCORIGHT 此二種軟體估計受試者能力參數及試題參數 的精準度。

圖3-1 研究流程圖

-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000

V1

0 100 200 300 400

Mean = 1.30326E-4 Std. Dev. = 0.986792 N = 7,566

-2.000 -1.000 0.000 1.000 2.000

V1

0 50 100 150 200 250 300

Mean = 0.00249 Std. Dev. = 0.917468 N = 5,460

設定模擬資料如下:

(一)人數:因 TASA 計畫的受測人數 10000 人與 7500 人兩種,本研究欲探 討減少人數是否會對參數估計精準度造成影響,故設定此研究之模擬 施測人數為 5460 人、 7566 人。

(二)試題長度:題本施測題數為27題、45題,每個題本配置的試題區塊數 3。

所以每個試題區塊數的試題數為9題、15題。

(三)受試者群能力分布:截尾常態分布N(0,1) ,範圍− 3 ~ 3。

雙峰分布,範圍− 3 ~ 3。(王暄博,2006)

在不同受試人數中,隨機各選取一筆原始資料,分別 將能力值繪製成常態與雙峰分布統計圖,如圖3-2與 3-3。

圖3-2受試人數分別為5460人與7566人之常態分布統計圖

-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000

V1

0 50 100 150 200 250

Mean = 0.00857 Std. Dev. = 1.149398 N = 5,460

-3.000 -2.000 -1.000 0.000 1.000 2.000 3.000

V1

0 50 100 150 200 250 300

Mean = 8.59459E-5 Std. Dev. = 1.195938 N = 7,566

圖3-3受試人數分別為5460人與7566人之雙峰分布統計圖

(四)題組效果變異數:0、0.5、1

(五)題組比例:前三分之一題數為題組,後三分之二題數為單題 前三分之二題數為題組,後三分之一題數為單題

第二節 研究工具

本研究所使用的主要軟體為 BILOG-MG、SCORIGHT 及 MATLAB 軟體,簡 介如下:

一、BILOG-MG

BILOG-MG 由 Mislevy & Zimowski & Muraki & Bock 所發展,能處理單 參數、二參數及三參數模式的資料,是適用於估計二元計分試題對數模式之能力 及試題參數的軟體。本研究採用此軟體估計受試者的能力參數及試題參數。

二、SCORIGHT

SCORIGHT(Wang, Bradlow, & Wainer, 2005)適用於二元計分或多元計分的試 題類型,或是試題反應理論的模式,也可分析題組型的試題資料。本研究採用此 軟體估計受試者的能力參數及試題參數。

三、MATLAB 軟體

MATLAB 是由 Math Works 公司於 1984 年所開發出來的一套數學軟體,功能 眾多且編輯簡易,能做為系統模擬、矩陣運算、繪製圖像等等,應用的領域十分 廣泛。本研究透過此軟體模擬 BIB 設計下的受試者的能力參數、試題參數和作答 反應,並進行資料檔案的轉換。

第三節 BIB 設計

壹、BIB 設計

表 3-1 BIB 設計表 題本

序號

區塊 (k1)

區塊 (k2)

區塊 (k3)

題本 序號

區塊 (k1)

區塊 (k2)

區塊 (k3) S1 M1 M10 M11 S14 M1 M4 M12 S2 M6 M8 M11 S15 M6 M10 M13 S3 M2 M6 M12 S16 M3 M7 M13 S4 M7 M9 M10 S17 M8 M9 M12 S5 M2 M7 M11 S18 M2 M4 M10 S6 M4 M6 M7 S19 M3 M5 M6 S7 M1 M7 M8 S20 M5 M8 M10 S8 M1 M6 M9 S21 M2 M5 M9 S9 M11 M12 M13 S22 M4 M9 M13 S10 M5 M7 M12 S23 M1 M5 M13 S11 M3 M9 M11 S24 M2 M8 M13 S12 M3 M10 M12 S25 M4 M5 M11 S13 M1 M2 M3 S26 M3 M4 M8

資料來源:van der Linden & Veldkamp & Carlson,2004

表3-1 BIB設計係依據van der Linden, Veldkamp & Carlson(2004),共包含26 個題本,每個題本包含3 個試題區塊,共有13 個試題區塊。在單一題本中出現 的成對試題區塊次數只有1次,每一試題區塊在題本中出現的次數共為6次,次數 均相同。

貳、題數設定

因本研究想以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體,在不同 測驗題數變化的情況下對受試者能力及試題參數估計的差異,所以本研究模擬每 個題本施測試題分別為 27 題、45 題, 每個題本包含 3 個試題區塊數,故每個試 題區塊之試題數分別為 9 題、15 題;總試題長度分別為 117(9×13)題、195(15×13)

題。

依上述題數將資料整理如表 3-2:

表 3-2 題數設定一覽表

題本施測題數 題本區塊數 試題區塊題數 總試題長度

題本施測題數 題本區塊數 試題區塊題數 總試題長度

相關文件