• 沒有找到結果。

第三章 研究方法

第二節 模擬資料設定

本研究根據研究流程圖3-1所示,以及各研究步驟,進行各項模擬資料設定。

一、不同人數組型等化效果模擬資料設定:

本步驟探討人數多寡對參數估計準確率所造成影響,並設定各項目模擬資料:

(一)受測人數方面,選定了3570人、7490人、9996人,能力值部分皆為截尾常態分配,

平均數為0,橫軸兩邊極端值為3與-3,能力值分布統計圖,如圖3-2、圖3-3與圖 3-4。

圖圖圖 3-2 截尾常態分布圖 3570 人

圖圖圖 3-3 截尾常態分布圖 7490 人

圖 3-4 截尾常態分布圖 9996 人

施測人數設計的部份,由於 BIB 題本設計目的要因應大型測驗的廣泛需求,想 了解整體學生的能力素養與總體趨勢,因此,希望每一個試題所受測的學生數大約 是相等地。

例如:7 個題本、每題本 3 個區塊、每區塊 12 題、總共 7 個區塊的 BIB 設計,

如表 3-2,為符合 NAEP 1998 年的技術性報告中特別指出,每單一試題在進行施測 時,最好能夠達到 500 個以上測試樣本(Allen, Donoghue & Schoeps, 2001)的最低 要求。故本研究選定每題本至少 510 人施測,配合整份試卷共 7 個題本,因此設定 最低總人數為 3570 人,再配合王暄博(2006)等相關大型測驗等化文獻使用的 7500 人及 10000 人,因此選定施測人數總共分成三類:包括各組施測總人數 3570 人、7490 人及 9996 人;各題本受測人數 510 人、1070 人及 1428 人;各區塊受測人數 1530 人、3210 人及 4284 人,S1-S7 各題本受測人數及 M1-M7 各區塊受測人數以及各組 施測總人數,彙整如表 3-1 。

表 3-1 各區塊及題本施測人數表各區塊及題本施測人數表各區塊及題本施測人數表各區塊及題本施測人數表 各組施測

總人數

各題本受測人數 S1-S7

各區塊受測人數 M1~M7

3570 510 1530

7490 1070 3210

9996 1428 4284

(二) 試題參數方面,鑑於猜測度之估算較無法精確掌握,故本研究選擇採用二參數 對數模式,其中鑑別度部分,採均勻分布,範圍 1 ~ 1.5;難度部分,與能力值 分布相同,皆為截尾常態分配,平均數為 0,橫軸兩邊極端值為 3 與-3。(能力 參數及難度參數設定值資料來源:王暄博(2006))

(三)題本設計方面,採用 BIB 設計模式如表 3-2,總共 7 個區塊(M1,M2,…M7),平 衡分布於 7 個題本(S1,S2,…S7),每個題本內皆包含 3 個區塊。其中每區塊皆有 12 題試題,包含前 4 題為定錨題,因應定錨題至少要整份試卷的 20% 至 25%,

等化效果較佳(余民寧,2009),故本研究選擇定錨題比例 1/3 每題本共 36 題,

全部總試題共 84 題。

表 3-2 BIB 題本設計題本設計題本設計題本設計

題本序號 區塊 K1 區塊 K2 區塊 K3

S1 M1 M2 M4

S2 M2 M3 M5

S3 M3 M4 M6

S4 M4 M5 M7

S5 M5 M6 M1

S6 M6 M7 M2

S7 M7 M1 M3

(四)參數估計軟體方面,採用 PARSCALE 校準軟體,搭配 MATLAB 模擬的受試者 作答反應,估算出 50 次試題參數與能力參數估計值,並統計出各參數的 RMSE。

(五)綜合整理各模擬資料如表3-3,本研究各實驗皆以此表之設計資料為單卷基礎架 構向外延伸。

表3-3 模擬資料設定表模擬資料設定表模擬資料設定表模擬資料設定表

IRT參數模式 2PL

試卷題本設計 BIB

每題本試題長度與定錨題 題數36題含定錨題12題(占1/3)

每份題本配置區塊數 3

每卷施測總人數 3570人、7490人及9996人 受試者群能力分布 截尾常態分布N (0,1) , 範圍− 3 ~ 3

鑑別度(a) 均勻分布U,範圍 1 ~ 1.5 難度(b) 截尾常態分布N (0,1) , 範圍− 3 ~ 3

每一情形模擬資料次數 50次

(六)上述資料設定(一)至(五),只單純因應研究步驟一,單一份試卷以不同人數組型 比較其等化效果差異之模擬資料設定,本段說明研究步驟二開始,為因應測驗 同性質之兩份試卷(亦可為不同年度之兩測驗),這不同年度之兩測驗皆採用BIB 題本設計,每份測驗卷包含有7個題本,1個題本都包含3個試題區塊,1個試題 區塊裡面有12題題目,其中前4題為定錨題,後面8題由整份測驗總題庫扣除定 錨題後因應難度組型選取,欲進行等化的兩測驗卷(亦可為兩年度之測驗)都 切割組成7個題本後,經由連結與等化的程序,進行兩測驗卷題本一到題本七等 化效果比較。同上述方法,在研究步驟五中,5個不同年度的5份測驗卷,亦可 依據BIB設計將每份測驗卷切割成7個題本,再經由連結與等化的程序,進行5 份測驗卷的題本一到題本七直接與間接等化效果比較。

二、不同難度組型下,各等化方法之轉換常數比較模擬資料設定:

延續最佳人數之各資料設定,利用 ST_V 2.0(Scale Transformation)軟體,搭 配各卷定錨試題,進行連結程序,以求得各等化方法之斜率與截距轉換常數,總共 進行四類試題難度分布組題方式:(1)兩卷試題各試題區塊難度平均值皆為 0; (2) 兩卷試題難度皆為隨機分配; (3)一卷各試題區塊難度平均值皆為 0,另一卷各試題 以基準卷為中心微調 0.25 正負差以內; (4)一卷試題各難度隨機分配,另一卷各試 題以基準卷為中心微調 0.25 正負差以內,並藉由這四次的連結動作,比較

Stocking/Lord、Haebara、mean/mean、mean/sigma,此四種 IRT 等化方法的轉換常數 優劣性。

三、不同難度組型下,等化效果比較模擬資料設定:

利用步驟二轉換常數,將四種不同難度組型的U、V兩卷試題參數,運用線性轉 換公式3-1及公式3-2 (Li, etl, 2012),轉換至同一量尺上,再利用PIE_V等化軟體,以 求得各難度組型題本S1到S7之真分數與觀察分數等化結果偏差值。

U → V:

!34 !3/6

(3-1)

&34 6 &3 + 7

(3-2)

其中,!3 代表 U 卷的鑑別度,

!34 代表 V 卷的鑑別度;

&3 代表 U 卷的難度值,

&34 代表 V 卷的難度值;

6 代表斜率轉換常數,

7 代表截距轉換常數;

四、最佳難度與人數組型下,四種IRT等化方法效果比較模擬資料設定:

選定步驟三之最佳難度組型當做架構,藉由題本 S1 到 S7,使用四種等化方法 Stocking/Lord、Haebara、mean/mean、mean/sigma,求出其均方差(mean square error, MSE),並藉以比較等化效果。

五、不同年度間五份試卷下,直接等化與間接等化效果比較模擬資料設定:

選取等化效果最佳之人數與難度組型,比較不同年度間五份試卷直接等化 U 卷

→ Z 卷

與不同年度間五份試卷間接等化 U 卷 → V 卷 → X 卷 → Y 卷 → Z 卷

進行所得到的真分數與觀察分數等化結果偏差值之綜合評估。