BIB與NEAT設計在不同年度測驗連結效果之比較

(1)

國立台中教育大學教育測驗統計研究所理學碩士論文

許天維博士

指導教授：

郭伯臣博士

BIB 與 NEAT 設計在不同年度測驗

連結效果之比較

研究生：張鈺卿撰

中

華

民

國

九

十

六

年

六

月

(2)

(3)

摘要

近年來教育資料庫普遍受到重視，因為透過資料庫的建立可以了解全國學生之學習成效，同時可以瞭解比較不同年級、不同年度間的變化。因此，建立共同量尺是非常重要的課題。

本研究以試題反應理論(item response theory, IRT)之三參數羅吉斯模式 (threeparameter logistic model) 為理論基礎探討利用平衡不完全區塊(balanced incomplete block, BIB)設計與定錨不等組設計(nonequivalent groups with anchor test design, NEAT)兩種連結設計在進行大型教育測驗等化時，對於同年級不同年度間等化之連結效果，並針對受試人數、試題數、受試者能力分布、定錨比例及難度範圍等項目進行模擬實驗。本研究結果發現在常態分布中，能力參數與試題參數估計誤差會隨著人數增加而降低，並會隨著試題數增加而提高；在不同定錨比例中，大致上以定錨比例為 30%有較佳的連結效果。另外，在不同難度範圍中，大致上以難度範圍為1~1 或2~2 有較佳的連結效果。關鍵字：平衡不完全區塊設計、定錨不等組設計、定錨試題、試題等化

(4)

Abstract

The main purpose of this study is to explore the linking performance of two largescale educational assessments which were administrated in different years. Balanced incomplete block (BIB) and nonequivalent groups with anchor test design (NEAT) are two popular test equatinf methods in most of largescale educational assessments. The effects of numbers of people, numbers of items, ability distributions, the percentage of anchor items and ranges of anchor items are explored under two different linking methods. Three types ranges of difficulty parameters, (3, 3), (2, 2), and (1, 1) are considered in this study.

The results of simulation study show that: When the data follow normal distribution, the equating performance decreases as the numbers of people increases, and increases as the numbers of items increases.The better equating performance occurs as the percentage of anchor items is 30%.The best equating performance occurs when the range of difficulty parameters is (1, 1) or (2, 2).

Key words： balanced incomplete block, nonequivalent groups with anchor test design, anchor item, test equating

(5)

目錄

第一章緒論 ...1 第一節研究動機與目的...2 第二節名詞釋義 ...4 第二章文獻探討 ...7 第一節測驗等化的意義與種類 ...7 第二節測驗等化使用之連結設計 ...9 第三節試題反應理論等化方法 ...13 第三章研究方法 ...19 第一節 BIB 連結設計...21 第二節 NEAT 連結設計 ...27 第三節實驗情境與模擬資料產生 ...31 第四節研究工具 ...34 第四章研究結果 ...35 第一節 BIB 設計等化後估計結果 ...35 第二節 NEAT 設計等化後估計結果 ...42 第三節 BIB 與 NEAT 設計等化後估計結果綜合比較 ...50 第五章結論與改進建議...65 第一節結論...65 第二節建議...66 參考文獻...67 中文部分...67 英文部分...68 附錄一 BIB1 設計在常態分布下不同實驗設計之估計誤差 ...70 附錄二 BIB1 設計在負偏態分布下不同實驗設計之估計誤差 ...72

(6)

附錄三 BIB1 設計在雙峰分布下不同實驗設計之估計誤差 ... 74 附錄四 BIB2 設計在常態分布下不同實驗設計之估計誤差 ... 76 附錄五 BIB2 設計在負偏態分布下不同實驗設計之估計誤差... 78 附錄六 BIB2 設計在雙峰分布下不同實驗設計之估計誤差 ... 80 附錄七 BIB3 設計在常態分布下不同實驗設計之估計誤差 ... 82 附錄八 BIB3 設計在負偏態分布下不同實驗設計之估計誤差... 84 附錄九 BIB3 設計在雙峰分布下不同實驗設計之估計誤差 ... 86 附錄十 NEAT1 設計在常態分布下不同實驗設計之估計誤差 ... 88 附錄十一 NEAT1 設計在負偏態分布下不同實驗設計之估計誤差 ... 90 附錄十二 NEAT1 設計在雙峰分布下不同實驗設計之估計誤差 ... 92 附錄十三 NEAT2 設計在常態分布下不同實驗設計之估計誤差 ... 94 附錄十四 NEAT2 設計在負偏態分布下不同實驗設計之估計誤差 ... 96 附錄十五 NEAT2 設計在雙峰分布下不同實驗設計之估計誤差 ... 98 附錄十六 NEAT3 設計在常態分布下不同實驗設計之估計誤差 ... 100 附錄十七 NEAT3 設計在負偏態分布下不同實驗設計之估計誤差 ... 102 附錄十八 NEAT3 設計在雙峰分布下不同實驗設計之估計誤差 ... 104 附錄十九第一年度 130 題試題參數... 106 附錄二十第二年度 130 題試題參數... 108

(7)

表目錄

表 21 單組設計...9 表 22 等群組設計 ...9 表 23 NEAT 設計...10 表 24 BIB 設計表 ... 11 表 31 BIB 和 NEAT 設計表...19 表 32 BIB 設計表 ...21 表 33 BIB1 設計表 ...22 表 34 BIB2 設計表 ...23 表 35 BIB3 設計表 ...24 表 36 BIB 設計在不同定錨比例之相關題數對照表 ...24 表 37 BIB 設計人數對照表 ...25 表 38 BIB 設計在不同定錨比例之相關題數對照表 ...26 表 39 不同年度間 BIB 連結設計表 ...26 表 310 NEAT 設計表 ...27 表 311 NEAT1 設計表 ...27 表 312 NEAT2 設計表 ...28 表 313 NEAT3 設計表 ...28 表 314 NEAT 設計在不同定錨比例之相關題數對照表...29 表 315 NEAT 設計人數對照表...29 表 316 NEAT 設計在不同定錨比例之相關題數對照表...29 表 317 不同年度間 NEAT 連結設計表 ...30 表 318 BIB 與 NEAT 設計共同變項設定對照表...31

(8)

圖目錄

圖 31 研究流程圖 ... 20 圖 32 兩年度 10920 人能力分布長條圖... 32 圖 33 兩年度 130 題試題參數長條圖... 33 圖 41 BIB 設計在常態分布下能力值 RMSE 圖 ... 35 圖 42 BIB 設計在常態分布下鑑別度參數 RMSE 圖... 36 圖 43 BIB 設計在常態分布下難度參數 RMSE 圖... 37 圖 44 BIB 設計在常態分布下猜測度參數 RMSE 圖... 37 圖 45 BIB 設計在偏態分布下能力值 RMSE 圖 ... 38 圖 46 BIB 設計在偏態分布下鑑別度參數 RMSE 圖... 38 圖 47 BIB 設計在偏態分布下難度參數 RMSE 圖... 39 圖 48 BIB 設計在偏態分布下猜測度參數 RMSE 圖... 40 圖 49 BIB 設計在雙峰分布下能力值 RMSE 圖 ... 40 圖 410 BIB 設計在雙峰分布下鑑別度參數 RMSE 圖... 41 圖 411 BIB 設計在雙峰分布下難度參數 RMSE 圖... 41 圖 412 BIB 設計在雙峰分布下猜測度參數 RMSE 圖... 42 圖 413 NEAT 設計在常態分布下能力值 RMSE 圖 ... 43 圖 414 NEAT 設計在常態分布下鑑別度參數 RMSE 圖 ... 43 圖 415 NEAT 設計在常態分布下難度參數 RMSE 圖 ... 44 圖 416 NEAT 設計在常態分布下猜測度參數 RMSE 圖 ... 44 圖 417 NEAT 設計在偏態分布下能力值 RMSE 圖 ... 45 圖 418 NEAT 設計在偏態分布下鑑別度參數 RMSE 圖 ... 46 圖 419 NEAT 設計在偏態分布下難度參數 RMSE 圖 ... 46 圖 420 NEAT 設計在偏態分布下猜測度參數 RMSE 圖 ... 47 圖 421 NEAT 設計在雙峰分布下能力值 RMSE 圖 ... 48

(9)

圖 422 NEAT 設計在雙峰分布下鑑別度參數 RMSE 圖 ...48 圖 423 NEAT 設計在雙峰分布下難度參數 RMSE 圖...49 圖 424 NEAT 設計在雙峰分布下猜測度參數 RMSE 圖 ...49 圖 425 BIB 及 NEAT 設計在常態分布下能力值 RMSE 圖 ...50 圖 426 BIB 及 NEAT 設計在常態分布下鑑別度參數 RMSE 圖...52 圖 427 BIB 及 NEAT 設計在常態分布下鑑別度參數 RMSE 圖...53 圖 428 BIB 及 NEAT 設計在常態分布下猜測度參數 RMSE 圖...54 圖 429 BIB 及 NEAT 設計在偏態分布下能力值 RMSE 圖 ...55 圖 430 BIB 及 NEAT 設計在偏態分布下鑑別度參數 RMSE 圖...56 圖 431 BIB 及 NEAT 設計在偏態分布下難度參數 RMSE 圖...58 圖 432 BIB 及 NEAT 設計在偏態分布下猜測度參數 RMSE 圖...59 圖 433 BIB 及 NEAT 設計在雙峰分布下能力值 RMSE 圖 ...60 圖 434 BIB 及 NEAT 設計在雙峰分布下鑑別度參數 RMSE 圖...61 圖 435 BIB 及 NEAT 設計在雙峰分布下難度參數 RMSE 圖...62 圖 436 BIB 及 NEAT 設計在雙峰分布下猜測度參數 RMSE 圖...63

(10)

(11)

第一章緒論

我國教育部於 2004 年推動「台灣學生學習成就評量資料庫(Taiwan Assessment

of Student Achievement, TASA)之建置計畫」，欲建置完善的長期追蹤資料庫，以

追蹤學生學習的成果並分析其變遷趨勢，進而檢視目前國家教育體制與政策實施是否完善(國立教育研究院籌備處，2005)。該計畫中針對國民小學四年級、六年級、國中二年級及高中職二年級學生，進行跨年級、跨學科之資料庫的建置，所建立之資料庫涵蓋不同認知層次及不同難度的試題。然而，由於其試題數量繁多無法由單一受試學生於短時間內完成。因此，為了滿足測驗目標、減輕受試學生負擔、並擔保所有評量的公平性，建立可比較之共同量尺是非常重要之課題。一般國內外大型測驗共同量尺的建立是基於試題反應理論（item response theory, IRT）來實現，其測驗題本連結設計大部分採用平衡不完全區塊(balanced incomplete block, BIB)設計及定錨不等組設計(nonequivalent groups with anchor test design, NEAT) 兩種等化設計，如 MCAS(Massachusetts comprehensive

assessment system)即採用 NEAT 設計，而荷蘭的 PPON(Periodiek Peilingsonderzoek

van het Onderwijs) 、美國國家教育進展評量(National Assessment of Educational Progress, NAEP)及我國 TASA 計畫皆採用 BIB 設計(王暄博，2006)、國際數學與科學教育成就趨勢調查(Trends in International Mathematics and Science Study , TIMSS )則採用部分平衡不完全區塊(partial balanced incomplete block, PBIB)設計 (Michale, Ina, Steven, 2003)，故本研究希望基於試題反應理論，探討共同量尺建造的一些連結設計，期能找到可行之道，提供大型測驗資料庫參考。

(12)

第一節研究動機與目的

壹、研究背景與動機

大型測驗資料庫必須考慮不同測驗間之連結：一、同年級不同測驗間之連結；二、不同年級不同測驗間之連結；三、同年級不同年度測驗間之連結；四、不同年級不同年度測驗間之連結。曾玉琳(2005)已完成同年級不同測驗間之連結，研究中採用不同的連結設計，探討在不同能力分布、不同人數下的連結效果。研究中指出當受試者能力分布為常態分布或雙峰分布且當人數超過 5460 人時，有最佳的連結效果。王暄博(2006) 提出 BIB 與 NEAT 設計在不同年級不同測驗間之連結，研究發現估計誤差會隨著受試者人數增加而減少，也會隨著定錨試題增加而減少。以上兩位作者已探討不同情境下兩個大型教育測驗連結會發生的問題，在張鈺卿、陳昇座、郭伯臣、王暄博(2006)雖然已探討在大型教育測驗中進行兩年度等化之效果，但僅討論使用 BIB 設計在受試者能力值為常態分布的情況，因此本研究擬基於上述之部分成果，研究將以試題反應理論中三參數 logistic 模式為理論基礎，採模擬實驗方式探討不同等化連結設計對於第三項「同年級不同年度測驗間」之連結效果。此外，本研究亦將擬模擬在不同能力分布下，利用不同的連結設計比較等化後能力值誤差與試題參數誤差，研究結果冀盼能作為大型測驗資料庫之研究計畫進行的參考依據。

貳、研究目的

由於國內外之大規模測驗，其測驗題本連結設計大部分採用 BIB 設計及 NEAT 兩種連結設計，但相關文獻少有針對跨年級、跨年度探討等化效果之模擬研究，對於長期追蹤研究，跨年度的測驗等化是必須研究的課題，如此一來才能

(13)

比較不同年度學生學習成效，進而檢視目前教育體制與政策，因此，本研究想了解不同施測樣本數、不同試題區塊數、不同受試者群、不同等化定錨試題比例及不同難度範圍在 BIB 設計與 NEAT 設計下等化連結之效果。

參、研究問題

依據前述研究動機與目的，本研究之研究問題如下：一、BIB 與 NEAT 設計於不同施測樣本數下之兩年度連結效果如何？二、BIB 與 NEAT 設計於不同試題區塊數下之兩年度連結效果如何？三、BIB 與 NEAT 設計於不同受試者群下之兩年度連結效果如何？四、BIB 與 NEAT 設計於不同等化定錨試題比例下之兩年度連結效果如何？五、BIB 與 NEAT 設計於不同難度範圍下之兩年度連結效果如何？

(14)

第二節名詞釋義

(16)

(17)

第二章文獻探討

本研究目的在探討不同的測驗連結設計中，進行同年級不同年度測驗等化之連結效果。因此，在本章中，將針對測驗等化的意義與種類、測驗等化使用之連結設計及試題反應理論等化方法等相關研究進行分析整理。

第一節測驗等化的意義與種類

壹、測驗等化的意義

測驗等化是透過統計方法將某一測驗的分數轉換至另一測驗分數量尺，使其在不同的測驗所得結果能夠比較的一套程序，換言之就是讓兩個測驗可以在同一個量尺上進行比較的方法。這些測驗為了測量相同的特質或能力，其內容及難度極為相似，因此測驗等化的目的是在校準測驗難度之差異，而非測驗內容之差異 (Kolen et al., 1995；吳裕益，1991)。Lord 認為測驗分數等化不應該受試題內容和受試者能力分布的影響，所以等化的進行必須滿足下列幾項特性：(Lord, 1980； Hambleton & Swaminathan, 1985) 一、公平性(equity)：若有兩測驗(X測驗和Y測驗)欲進行等化，不論受試者受測X測驗或Y測驗，其等化後結果相同。

二、團體不變性(invariance across groups)：等化過程中，不受受試團體樣本的影響，其轉換結果皆相同。

三、對稱性(symmetry)：測驗分數等化必須是可逆的，即從X測驗等化至Y測驗，或是由Y測驗等化至X測驗，其等化後結果皆相同。

四、單向度(unidimensionality of the tests)：若欲進行等化兩份以上測驗，其測驗內容必須測量相同的能力特質才能等化。

(18)

貳、測驗等化的種類

Hambleton et al.(1985) 指出測驗等化的種類可分為水平等化 (horizontal equating)與垂直等化(vertical equating)兩種，以下將一一介紹。一、水平等化水平等化是指兩個以上測量相同特質、相同能力之難度相似的測驗，其原始分數轉換至同一量尺之過程。水平等化通常為了保護試題的安全性(security)，而將試題分為好幾個測驗，這些不同測驗未必完全相似，但可以說是難度相近的複本測驗(parallel test)。此外，兩群以上的受試者能力分布也被假設是一樣的。水平等化常被應用在許多測驗等化中，例如：托福、GRE及基本學力測驗等考試就有不同的複本測驗，其將進行一年多次的考試，須透過水平等化的過程將不同複本測驗的成績轉換成同一量尺才能進行比較。二、垂直等化垂直等化是指兩個以上測量相同特質、不同能力之難度不同的測驗，其原始分數轉換至同一量尺之過程。此測驗之受試者的能力是通常屬於不同年級，如美國的加州成就測驗(California Achievement Tests, CAT)、愛奧華基本技能測驗(Iowa Test of Basic Skills)等，即透過垂直等化的過程將不同複本測驗的成績轉換成同一量尺進行測驗分數比較。此外，若某測驗之目的為長期研究受試者的成長情形時，則水平等化及垂直等化連結必須同時進行。如目前國內 TASA 計畫目的之一為建立國民中小學及高中職學生學習成就的長期資料庫，以追蹤、分析學生在學習成就之改變趨勢，進而檢視目前國家教育體制與政策實施之成效(國立教育研究院籌備處，2005)，因此需透過水平等化及垂直等化連結的方法，將受試者的測驗分數轉換成同一量尺，進而進行跨年級、跨年度之比較。

(19)

第二節測驗等化使用之連結設計

在測驗發展初期，即需考慮將來不同測驗間的連結，故研究者在進行測驗等化前須先考慮測驗連結的方式。其設計的方法眾多，簡單地分為四種連結方法，其設計將一一說明。(Kolen et al., 1995；余民寧，1993)

壹、單組設計(singlegroup design)

單組設計是將欲連結的兩份測驗 X 和 Y，給同一群受試樣本 P 施測。此種方法最簡單，能直接將兩份測驗放在同一量尺上，但由於受試者必須施測所有測驗，因此必須注意受試者是否會因作答時間過長而感到疲勞，同時，測驗施測的順序亦會影響連結效果。單組設計如表 21(Kolen et al.,1995；余民寧，1993)。表 21 單組設計受試樣本 X 測驗 Y 測驗 P V V 註：V 為受試者必須受測之測驗

貳、等群組設計(equivalentgroup design)

等群組設計是將欲連結的兩份測驗 X 和 Y，給予隨機選取之相似卻不完全相同的兩組受試樣本 P1 與 P2，每一組的受試者只接受其中一個測驗。等群組設計之優點是測驗資料也不會受練習(practice)、疲勞(fatigue)、學習(learning)與順序因素(order effects)的影響。然而，需要相當大的樣本才能避免隨機誤差的產生。等群組設計如表 22 (Kolen et al.,1995；余民寧，1993)。表 22 等群組設計受試樣本 X 測驗 Y 測驗 P1 V P2 V 註：V為受試者必須受測之測驗

(20)

參、定錨不等組設計(nonequivalent groups with anchor test design)

NEAT 設計是將欲連結的兩份測驗 X 和 Y，給予兩組不同受試樣本 P1 和 Q1 施測，其中，P1 和 Q1 分別從受試母群體 P 和 Q 中隨機抽取，且兩組受試樣本皆須另外接受一份共同測驗 A，即為定錨測驗。NEAT 設計如表 23(Kolen et al.,1995；余民寧，1993)。 表 23 NEAT 設計 受試者群 X 測驗 Y 測驗定錨測驗 A P1 V V Q1 V V 註：V為受試者必須受測之測驗 NEAT 設計為常見的測驗等化設計，由於在 NEAT 設計中，每個受試群必須測驗相同的定錨測驗，因此，定錨試題之試題參數好壞將會影響連結效果。若定錨試題選擇恰當，則 NEAT 設計可以避免受練習(practice)、疲勞(fatigue)、學習 (learning)、順序因素(order effects)及需要大樣本的問題（Klein & Jarjoura, 1985）。

MCAS(Massachusetts comprehensive assessment system)即使用 NEAT 設計進行不同年度間學生之測驗等化，因為它只需要假設受試群體是隨機抽取，不必假設兩受試群體有相同的能力值。此外，NEAT 設計的定錨測驗內容要盡可能相似且試題難度要相近，因為定錨試題是用來調整兩個不同能力之群體所造成的不等 (Petersen, Kolen & Hoover, 1993；王暄博，2006)。

肆、平衡不完全區塊(balanced incomplete block, BIB)設計

BIB 設計是將試題分成若干試題區塊，區塊間與區塊內的試題皆不重複。將受試者分為數群，有幾個題本(booklet)就分為幾群，每群受試者只需接受若干試題區塊的試題，不同受試者可能接受部分相同、完全相同、或完全不同的試題區塊。最後，將所有受試者的作答反應資料堆疊進行等化分析，以達到能力估計的目的。BIB 設計如表 24(曾玉琳、王暄博、郭伯臣、許天維，2005)。 其中， S _i表示題本序號， i = 1 K , , 7 ； j M 表示題庫試題區塊， j = 1 K , 7 ；

(21)

在本節中將分為兩大部分介紹：一為試題反應理論的介紹，二為試題反應理論的等化。

壹、試題反應理論的介紹

當代為改進古典測驗理論之缺點，依據強勢假設(strong assumption)，發展了試題反應理論，其理論模式不斷發展，所採用之計算公式較複雜，但卻深受測驗學者青睞。然而，試題反應理論必須符合四項基本假設包括單向性 (unidimensionality)、局部獨立性(local independence)、非速度性(nonspeedness)及「知道即正確」假設(“knowcorrect”assumption)，才能進行測驗資料之分析，其中當單向度假設成立時，其局部獨立性假設也會獲得成立(Lord, 1980)。試題反應理論之模式已發展相當多，如無參數模式、單參數羅吉斯模式 (oneparameter logistic model)、雙參數羅吉斯模式(twoparameter logistic model)、三參數羅吉斯模式(threeparameter logistic model)等，本研究進行試題連結時，基於試題反應理論中三參數羅吉斯模式作為測驗資料分析的方法，以下將簡介三參數羅吉斯模式(Baker, 2004；Hambleton et al., 1985；Mislevy & Bock, 1990)，假設 能力值為 q 之受試者_k k，作答試題 j通過機率的計算方法如下： ) ( exp 1 ) 1 ( ) , , , | 1 ( _* ₍ ₎ _j₁ _k b a D j j j j j k j P c c c b a x P j k j q q _q º + - + = = _- _- 其中：

(24)

j

a 指試題鑑別度參數(item discrimination parameter)，且 a _j> 0 ；

j b 指試題難度參數(item difficulty parameter)； j c 指試題猜測度參數(item guessing parameter)， 0 £ c _j< 1 ； D是一個量尺因素(scaling factor)，通常 D = 1 . 702 。

貳、試題反應理論的等化

一、同時估計法同時估計法(concurrent estimation)是將所有受試者作答反應資料合併，利用不同測驗間的定錨試題以 IRT 電腦軟體同時進行受試者能力參數及試題參數之估計。其主要的原理是透過測驗連結設計將試題參數估計值同時對應於相同能力量尺上。此方法比其他的估計方法利用更多的試題參數訊息，包括定錨試題參數之估計值，與此定錨試題參數估計值之變異數共變數矩陣 (variancecovariance matrix)(Mislevy & Bock, 1982)。在等化的過程中，利用連結係數將不同測驗題本之試題參數估計值轉化於相同的量尺上時，若所使用之連結係數估計值不正確將產生估計誤差。然而，使用同時估計法則可避免此種缺點，且能採用最多試題訊息。因此，採用此方法將優於以線性技術為基礎之等化方法(李源煌、楊玉女，2000b)，例如：特徵曲線法等 (Stocking & Lord, 1983)。本研究之 BIB 設計在試題參數估計時也較適合使用同時估計法，且國內外許多文獻亦證實，採用同時估計法能獲得較佳的連結效果 (Hanson & Béguin, 2002；Kim & Cohen, 1998；陳煥文，2004)。因此，在本研究中即採用同時估計法估計能力參數及試題參數。二、分離估計法分離估計法(separate estimation)在進行兩份測驗 X 和 Y 連結時，先分別估計兩組受試者能力參數及測驗試題參數，則這兩組參數估計值必定滿足下列關係式 (余民寧，1993)：

(25)

b aq q_X = _Y+ b a + = _Y X b b a Y X a a = 其中， q 和_X q 為兩測驗 X 和 Y 之受試者能力參數估計值； _Y X b 和 b _Y為兩測驗 X 和 Y 之試題難度參數估計值； X

a 和 a _Y為兩測驗 X 和 Y 之試題鑑別度參數估計值；

再透過線性轉換方式，找出兩測驗間的連結係數a 及 b ，便能將各測驗量尺轉換在同ㄧ量尺上進行比較。以下將介紹四種常見試題連結之方法： (一)平均數法在平均數法(mean/mean)中，若欲連結兩測驗 X 和 Y，則利用兩測驗定錨試題之鑑別度參數及難度參數的平均數，計算出量尺線性轉換的斜率a 與截距 b ，再將 X 測驗分數利用線性轉換至 Y 測驗分數對應的分數。其計算模式如下(Kolen et al., 1995)： ) ( ) ( Y X a a m m a = ) ( ) ( b_Y am b _X m b = - 其中，a為鑑別度參數； b為難度參數； ) ( a_X m 和 m ( a_Y) 為兩測驗X和Y定錨測驗參數a之平均數； ) ( b_X m 和 m ( b_Y) 為兩測驗X和Y定錨測驗參數b之平均數。 (二)平均數與標準差法

在平均數與標準差法(mean and sigma method)中，若欲連結兩測驗 X 和 Y，利用兩測驗定錨試題之難度參數的標準差和平均數，計算出量尺線性轉換的斜率

a 與截距 b ，再將 X 測驗分數利用線性轉換至 Y 測驗分數對應的分數。其計算模式如下(Kolen et al., 1995)：

(26)

) ( ) ( X Y b b s s a = ) ( ) ( b_Y am b _X m b = - 其中，b指難度參數； ) ( b_X m 和 m ( b_Y) 為兩測驗X和Y定錨測驗參數b之平均數； ) ( b_X s 和 s ( b_X) 為兩測驗X和Y定錨測驗參數b之標準差。 (三)特徵曲線法

特徵曲線法是 Haebara(1980)及 Stocking & Lord(1983)提出，假設 x 與_xk x _yk為

本研究以試題反應理論為基礎，欲探討大型測驗使用不同連結設計進行跨年度之等化連結效果，並利用電腦模擬資料進行等化研究，其研究流程如圖 31。首先是設定研究主題，再探討與研究主題之相關文獻，進而提出 BIB 及 NEAT 跨年度之連結設計，然後依據研究者所設定之不同研究情境、產生模擬資料後，分析不同連結設計效果並撰寫研究結果。本章共分為四節，第一節為 BIB 連結設計，介紹本研究所使用之三種 BIB 連結設計、人數與題數設定及定錨試題選取方式；第二節為 NEAT 連結設計，介紹本研究所使用之三種 NEAT 連結設計、人數與題數設定及定錨試題選取方式；第三節為實驗設計，說明本研究所有變項設定及誤差估計；第四節為研究工具。本研究模擬實驗為探討不同總題數下之等化效果，故將 BIB 設計與 NEAT 設計中分別探討三種總題數(70 題、90 題和 130 題)，即 BIB1、BIB2 和 BIB3 與 NEAT1、NEAT2 和 NEAT3，欲了解在同一設計下不同題數之估計誤差有何差異，並比較在相同題數下不同設計之連結效果。這 6 種設計之區塊數、題本數與總題數如表 31，將分別在本章第一節與第二節詳細說明。 表 31 BIB 和 NEAT 設計表 連結設計區塊數題本數總題數連結設計區塊數題本數總題數 BIB1 7 7 70 NEAT1 7 3 70 BIB2 9 12 90 NEAT2 9 4 90 BIB3 13 26 130 NEAT3 13 6 130

(30)

圖 31 研究流程圖 設定研究主題提出 BIB 及 NEAT 之連結設計設定實驗情境產生模擬資料比較不同等化設計誤差撰寫研究結果 BIB 設計 NEAT 設計估計第一年參數選取年度間定錨試題估計第二年參數估計誤差的計算文獻探討估計第一年參數選取年度間定錨試題估計第二年參數估計誤差的計算

(31)

第一節 BIB 連結設計

BIB設計將試題分成若干試題區塊，區塊間與區塊內的試題皆不重複，受試者只需接受若干試題區塊的試題，且不同受試者可能接受部分相同、完全相同、或完全不同的試題區塊。茲將BIB 設計須符合之條件整理如下(Kuehl, 2000)： î í ì < < - ´ = - ´ ´ = ´ b r λ t k r t r k b where 1), ( ) 1 ( l (3.1) 其中， b：題庫題本數； t：題庫試題區塊數； k：每一題本試題區塊數， k = 3 ； r：每個試題區塊在題本中出現的次數； l：成對試題區塊出現在相同區塊位置的次數。由式子(3.1)找出符合的 BIB 設計整理如下表： 表 32 BIB 設計表 等化設計 b t k r l BIB1 7 7 3 3 1 BIB2 12 9 3 4 1 BIB3 26 13 3 6 1 表 32 為本研究中 BIB 設計之參數設定，依序命名為 BIB1、BIB2、BIB3， 以下將介紹此三種設計，下列為各種設計表之代號意義： i S ：題本序號， i = 1 K , , b _w， w = 1 , 2 , 3 ；其中： b ₁= 7 ， b ₂= 12 ， b ₃= 26 ； j M ：題庫試題區塊， j = 1 , K t _w， w = 1 , 2 , 3 ；其中： t ₁= 7 ， t ₂= 9 ， t ₃= 13 ； l k ：區塊； l = 1 , 2 , 3 ；其中：b為題本數，w為設計編號，l為區塊位置。

(32)

本研究的 BIB1 和 BIB2 設計係依據曾玉琳等人(2005)所設計；BIB3 設計係依據 van der Linden, Veldkamp & Carlson(2004)，26 個題本、13 個試題區塊的最佳 BIB 設計，以下將介紹三種 BIB 設計模式。

壹、BIB1 設計

BIB1 設計共包含 7 個題本( b = 7 )、7 個試題區塊( t = 7 )、每個題本包含 3 個試題區塊( k = 3 )、每一試題區塊在題本中出現的次數為 3 次( r = 3 )、及成對試題區塊在題本中出現的次數只有 1 次( l =1 )。根據 BIB 設計之條件，可知每個題本中試題區塊的組合不重複，例如：題本 S 1 試題區塊配置為 M 1 、 M 2 、 M 4 ，則 S 2 至 7 S 題本中不會出現試題區塊 M ₁、 M ₂、 M ₄的組合；試題區塊在所有題本配置中會重複出現 3 次，例如：試題區塊 M 1 出現在題本 S 1 、 S 5 、 S 7 中，依此類推，詳如表 33。 表 33 BIB1 設計表 題本序號區塊( k 1 ) 區塊( k 2 ) 區塊( k 3 ) 1 S M ₁ M ₂ M ₄ 2 S M ₂ M 3 M 5 3 S M ₃ M ₄ M 6 4 S M 4 M 5 M 7 5 S M 5 M 6 M 1 6 S M ₆ M ₇ M ₂ 7 S M ₇ M ₁ M 3

貳、BIB2 設計

BIB2 設計共包含 12 個題本、9 個試題區塊、每個題本包含 3 個試題區塊、每一試題區塊在題本中出現的次數為 4 次、及成對試題區塊在題本中出現的次數只有 1 次。其試題區塊配置規則亦根據 BIB 設計之條件，可參考 BIB1 設計之說明，詳見表 34。

(33)

表 34 BIB2 設計表 題本序號區塊( k 1 ) 區塊( k 2 ) 區塊( k 3 ) 1 S M ₁ M ₂ M 5 2 S M ₂ M ₃ M ₇ 3 S M ₃ M ₄ M 8 4 S M ₄ M 5 M 7 5 S M ₅ M ₆ M ₈ 6 S M ₆ M ₇ M ₉ 7 S M ₇ M ₈ M ₁ 8 S M ₈ M ₉ M ₂ 9 S M ₉ M ₁ M ₄ 10 S M ₁ M 3 M 6 11 S M ₂ M ₄ M ₆ 12 S M 3 M 5 M 9

參、BIB3 設計

BIB3 設計共包含 26 個題本、13 個試題區塊、每個題本包含 3 個試題區塊、每一試題區塊在題本中出現的次數為 6 次、及成對試題區塊在題本中出現的次數只有 1 次。而其試題區塊配置規則亦根據 BIB 設計之條件，可參考 BIB1 設計之說明，詳見表 35。

肆、題數及人數設定

一、題數設定本研究模擬每個題本試題數為 30 題，每個題本有 3 個區塊，每個試題區塊試題數為 10 題。在 BIB 設計中，兩年度總題數為各年度施測總題數的兩倍，再扣除不同年度定錨試題數，故兩年度總題數會隨著定錨題數的多寡而有所不同。詳如表 36。

(34)

表 35 BIB3 設計表 題本序號區塊 ( k 1 ) 區塊 ( k 2 ) 區塊 ( k 3 ) 題本序號區塊 ( k 1 ) 區塊 ( k 2 ) 區塊 ( k 3 ) 1 S M ₁ M 10 M 11 S 14 M 1 M 4 M 12 2 S M 6 M 8 M 11 S 15 M 6 M 10 M 13 3 S M ₂ M 6 M 12 S 16 M 3 M 7 M 13 4 S M 7 M 9 M 10 S 17 M 8 M 9 M 12 5 S M ₂ M 7 M 11 S 18 M 2 M 4 M 10 6 S M ₄ M ₆ M ₇ S ₁₉ M ₃ M ₅ M ₆ 7 S M ₁ M 7 M 8 S 20 M 5 M 8 M 10 8 S M ₁ M 6 M 9 S 21 M 2 M 5 M 9 9 S M ₁₁ M ₁₂ M 13 S 22 M 4 M 9 M 13 10 S M ₅ M ₇ M ₁₂ S 23 M 1 M 5 M 13 11 S M ₃ M ₉ M ₁₁ S ₂₄ M ₂ M ₈ M ₁₃ 12 S M 3 M 10 M 12 S 25 M 4 M 5 M 11 13 S M ₁ M ₂ M 3 S 26 M 3 M 4 M 8 資料來源：van der Linden ,Veldkamp & Carlson,2004 表 36 BIB 設計在不同定錨比例之相關題數對照表 等化設計區塊數每個題本定錨比例每個題本定錨題數不同年度總定錨題數各年度施測總題數兩年度施測總題數 10% 3 7 70 133 20% 6 14 70 126 BIB1 7 30% 9 21 70 119 10% 3 9 90 171 20% 6 18 90 162 BIB2 9 30% 9 27 90 153 10% 3 13 130 247 20% 6 26 130 234 BIB3 13 30% 9 39 130 221 二、人數設定依據 TASA 計畫 2005 年施測人數為 10000 人，2006 年施測人數為 7500 人，本研究欲比較將人數降低為 5000 人之連結效果，故模擬三種受試人數，分別為

(35)

5000 人、7500 人及 10000 人，但為配合各種連結設計題本數的不同，因此本研究各年度受試人數定為 5460 人、7644 人及 10920 人。詳如表 37。 表 37 BIB 設計人數對照表 等化設計每個年度受試人數每個題本受試人數每個試題受試人數不同年度定錨試題受試人數 5460 780 2340 4680 7644 1092 3276 6552 BIB1 10920 1560 4680 9360 5460 455 1820 3640 7644 637 2548 5096 BIB2 10920 910 3640 7280 5460 210 1260 2520 7644 294 1764 3528 BIB3 10920 420 2520 5040

伍、定錨試題的選取及配置

定錨試題選取及配置之步驟如下：一、設定定錨試題難度範圍在張鈺卿等人(2006)的研究中指出兩種不同定錨試題選題方法，其中以似常態分布選取方法較佳，也就是中間難度試題多，兩端難度試題少，故本研究採似常態分布選取方法。此外，本研究欲比較從三種難度(b 值)範圍(3~3、2~2、1~1) 中選取的定錨試題之連結效果，故依難度範圍分成五等分，依照不同設計訂定每個等分選取定錨試題之比例，其比例如表 38。二、挑選各等分中鑑別度較高之試題依各等分所需之定錨題數選取鑑別度較高之試題，如在 BIB1 設計中，當難度範圍為3~3 時，等分一(難度範圍為3~1.8)需要定錨試題一題，就從試題難度 (b 值)落在該等分中的試題選取鑑別度最高的一題。其中，由於兩端試題數較少，因此當該等分試題數少於所需定錨題數時，則由鄰近等分之試題補齊。

(36)

表 38 BIB 設計在不同定錨比例之相關題數對照表 等化設計每個題本定錨比例等份一等份二等份三等份四等份五不同年度總定錨題數 10% 1 1 3 1 1 7 20% 2 2 6 2 2 14 BIB1 30% 3 3 9 3 3 21 10% 1 2 3 2 1 9 20% 2 4 6 4 2 18 BIB2 30% 3 6 9 6 3 27 10% 1 3 5 3 1 13 20% 2 6 10 6 2 26 BIB3 30% 3 9 15 9 3 39 三、定錨試題在第二年度試題區塊的配置將定錨試題依第一年度試題位置排序，依序排入第二年度試題區塊中，其排列在每一區塊的前幾題，以 BIB1 設計定錨 3 題為例，每個區塊第一題皆放入定錨試題，其餘 9 題為第二年度試題。其設計如表 39。 表 39 不同年度間 BIB 連結設計表 區塊序號第二年度試題配置 1 M A + ₁ N ₁ 2 M A + ₂ N ₂ 3 M A + ₃ N ₃ .. . .. . j M A + _j N _j 其中， A _j= n ：年度間定錨試題區塊( A _j)包含n題定錨試題， j = 1 , K t _w， w = 1 , 2 , 3 ，本研究欲探討每個題本定錨比例為 10%、20%及 30%，即定錨題數 n = 1 , 2 , 3 之連結效果； j M ：試題區塊， j = 1 , K t _w， w = 1 , 2 , 3 ；其中： t ₁= 7 ， t ₂= 9 ， t ₃= 13 ； j N ：第二年度試題區塊， j = 1 , K t _w， w = 1 , 2 , 3 ；其中： t ₁= 7 ， t ₂= 9 ， t ₃= 13 ；

(37)

第二節 NEAT 連結設計

本研究欲比較NEAT與BIB設計之連結效果，因此採用同於BIB設計中的三種試題區塊數排列出三種NEAT設計。本研究將NEAT設計中，第一個試題區塊 M 1 設定為定錨試題，將其整理成表310。 表 310 NEAT 設計表 等化設計 b t k NEAT1 3 7 3 NEAT2 4 9 3 NEAT3 6 13 3

表 310 為本研究中 NEAT 參數設計，依序命名為 NEAT1、 NEAT2、 NEAT3， NEAT1

設計與 BIB1 設計比較；NEAT2 設計與 BIB2 設計比較；NEAT3 設計與 BIB3 設計比較。以下將介紹三種 NEAT 設計模式。

壹、NEAT1 設計

NEAT1設計共包含3個題本( b = 3 )、7個試題區塊( t = 7 )、每個題本包含3個試題區塊( k = 3 )。試題區塊 M 1 為NEAT設計之定錨試題區塊，其題本配置如表311。 表 311 NEAT1 設計表 題本序號區塊( k 1 ) 區塊( k 2 ) 區塊( k 3 ) 1 S M ₁ M ₂ M 3 2 S M ₁ M ₄ M 5 3 S M ₁ M 6 M 7

貳、NEAT2 設計

NEAT2 設計共包含 4 個題本、9 個試題區塊、每個題本包含 3 個試題區塊。試題區塊 M 1 為 NEAT 設計之定錨試題區塊，其題本配置如表 312。

(38)

表 312 NEAT2 設計表 題本序號區塊( k 1 ) 區塊( k 2 ) 區塊( k 3 ) 1 S M ₁ M ₂ M 3 2 S M ₁ M ₄ M 5 3 S M ₁ M ₆ M ₇ 4 S M ₁ M 8 M 9

參、NEAT3 設計

NEAT3 設計共包含 6 個題本、13 個試題區塊、每個題本包含 3 個試題區塊。試題區塊 M 1 為 NEAT 設計之定錨試題區塊，其題本配置如表 313。 表 313 NEAT3 設計表 題本序號區塊( k 1 ) 區塊( k 2 ) 區塊( k 3 ) 1 S M ₁ M ₂ M 3 2 S M ₁ M ₄ M ₅ 3 S M ₁ M 6 M 7 4 S M ₁ M 8 M 9 5 S M ₁ M 10 M 11 6 S M ₁ M ₁₂ M 13

肆、題數及人數設定

一、題數設定本研究模擬每個題本試題數為30題，每個題本有3個區塊，每個試題區塊試題數為10題。在NEAT設計中，兩年度總題數為各年度施測總題數的兩倍，再扣除不同年度總定錨題數，故兩年度總題數會隨著定錨題數的多寡而有所不同。詳如表314。二、人數設定依據 TASA 計畫 2005 年施測人數為 10000 人，2006 年施測人數為 7500 人，本研究欲比較將人數降低為 5000 人之連結效果，故模擬三種受試人數，分別為 5000 人、7500 人及 10000 人，但為配合各種連結設計題本數的不同，因此本研

(39)

究各年度受試人數定為 5460 人、7644 人及 10920 人。詳如表 315。 表314 NEAT設計在不同定錨比例之相關題數對照表 等化設計區塊數每個題本定錨比例每個題本定錨題數不同年度總定錨題數各年度施測總題數兩年度施測總題數 10% 3 3 70 137 20% 6 6 70 134 NEAT1 7 30% 9 9 70 131 10% 3 3 90 177 20% 6 6 90 174 NEAT 2 9 30% 9 9 90 171 10% 3 3 130 257 20% 6 6 130 254 NEAT 3 13 30% 9 9 130 251 表 315 NEAT 設計人數對照表 等化設計每個年度受試人數每個題本受試人數各年及定錨試題受試人數兩年試題總受試人數 5460 1820 5460 10920 7644 2548 7644 15288 NEAT1 10920 3640 10920 21840 5460 1365 5460 10920 7644 1911 7644 15288 NEAT 2 10920 2730 10920 21840 5460 910 5460 10920 7644 1274 7644 15288 NEAT 3 10920 1820 10920 21840

肆、定錨試題的選取

定錨試題選取及配置之步驟如下：一、設定定錨試題難度範圍在張鈺卿等人(2006)的研究中指出兩種不同定錨試題選題方法，其中以似常態分布選取方法較佳，也就是中間難度試題多，兩端難度試題少，故本研究採似常態分布選取方法。此外，本研究欲比較從三種難度(b 值)範圍(3~3、2~2、1~1)

(40)

個等分選取定錨試題之比例，其比例如表 316。二、挑選各等分中鑑別度較高之試題依各等分所需之定錨題數選取鑑別度較高之試題，如在 NEAT1 設計中，當難度範圍為3~3 時，等分一(難度範圍為3~1.8)需要定錨試題一題，就從試題難度(b 值)落在該等分中的試題選取鑑別度最高的一題。其中，由於兩端試題數較少，因此當該等分試題數少於所需定錨題數時，則由鄰近等分之試題補齊。 表 316 NEAT 設計在不同定錨比例之相關題數對照表 等化設計每個題本定錨比例難度範圍一難度範圍二難度範圍三難度範圍四難度範圍五不同年度總定錨題數 10% 0 1 1 1 0 3 20% 1 1 2 1 1 6 NEAT 30% 1 2 3 2 1 9 三、定錨試題在第二年度試題區塊的配置將定錨試題依第一年度試題位置排序，依序排入第二年度第一個試題區塊中，因此，在 NEAT 設計中定錨試題會集中在同一個區塊。其設計如表 317。 表 317 不同年度間 NEAT 連結設計表 區塊序號第二年度試題配置 1 M A + ₁ N ₁ 2 M N ₂ 3 M N ₃ .. . .. . j M N _j 其中， A = ₁ n ：年度間定錨試題區塊( A ₁)包含n題定錨試題，本研究欲探討每題本定錨比例為 10%、20%及 30%，即定錨題數 n = 3 , 6 , 9 之連結效果； j M ：試題區塊， j = 1 , K t _w， w = 1 , 2 , 3 ；其中： t ₁= 7 ， t ₂= 9 ， t ₃= 13 ； j N ：第二年度試題區塊， j = 1 , K t _w， w = 1 , 2 , 3 ；其中： t ₁= 7 ， t ₂= 9 ， t ₃= 13 ；

(41)

第三節實驗情境與模擬資料產生

表 318 為本研究進行 BIB 與 NEAT 設計連結效果比較之共同變項設定，其中，每個題本施測試題數為 30 題；每個題本配置的試題區塊數為 3 個；各年度受試人數為配合等化設計分別為 5460 人、7644 人及 10920 人；在本研究中假定第二年受試人數、測驗等化設計及受試者能力分布情況與第一年情況相同，也就是說如果第一年受試人數為 5460 人、測驗等化採用 BIB 設計、受試者能力分布為常態，則第二年受試人數、測驗等化設計及受試者能力分布皆與第一年相同。 表 318 BIB 與 NEAT 設計共同變項設定對照表 項目設定試題長度每個題本施測題數 30 題每個題本配置的試題區塊數 3 個各年度受試人數 5460 人、7644 人、10920 人受試者能力分布常態、負偏態、雙峰，範圍為3~3 鑑別度範圍為 0.5~2.5 難度範圍為3~3 試題參數分布猜測度範圍為 0~0.25 每個題本定錨比例 10%、20%、30% 定錨試題選題難度範圍 1~1、2~2、3~3 每一情形第二年度模擬次數 100 次能力參數之產生：先產生三種能力分布之 10920 人能力值，如圖 32 為不同年度常態、負偏態、雙峰之受試者能力分布長條圖，將範圍界定於3~3，再從中依序抽取 7644 人及 5460 人。試題參數之產生：先產生兩年度 130 題試題參數，其試題參數長條圖如圖 33，再依不同等化設計由多至少依序抽取所需試題數，其試題參數設定如下： 1. 鑑別度參數 ：依據 Mislevy(1986)的研究指出鑑別度參數模式近似於 lognormal

(42)

2. 難度參數：為 N(0,1)，將範圍界定於3~3。

3. 猜測度參數：依據 Swaminathan & Gifford(1986)的研究建議猜測度參數模式 採用 beta 先驗分布，故本研究猜測度參數為 beta(4,16)將範圍界定於 0~0.25。 3 2 1 0 1 2 3 0 200 400 600 800 1000 1200 第一年10920人受試者能力分布(常態) 人數 3 2 1 0 1 2 3 0 200 400 600 800 1000 1200 第二年10920人受試者能力分布(常態) 人數 3 2 1 0 1 2 3 0 100 200 300 400 500 600 700 800 900 第一年10920人受試者能力分布(偏態) 人數 3 2 1 0 1 2 3 0 100 200 300 400 500 600 700 800 第二年10920人受試者能力分布(偏態) 人數 3 2 1 0 1 2 3 0 100 200 300 400 500 600 700 800 第一年10920人受試者能力分布(雙峰) 人數 3 2 1 0 1 2 3 0 100 200 300 400 500 600 700 800 第二年10920人受試者能力分布(雙峰) 人數 圖 32 兩年度 10920 人能力分布長條圖

(43)

0.5 1 1.5 2 0 5 10 15 20 25 30 35 40 第一年130題試題鑑別度分布題數 0.5 1 1.5 2 0 5 10 15 20 25 30 35 40 45 第二年130題試題鑑別度分布題數 3 2 1 0 1 2 3 0 10 20 30 40 50 60 第一年130題試題難度分布題數 3 2 1 0 1 2 3 0 10 20 30 40 50 60 第二年130題試題難度分布題數 0 0.05 0.1 0.15 0.2 0.25 0 5 10 15 20 25 30 35 第一年130題試題猜測度分布題數 0 0.05 0.1 0.15 0.2 0.25 0 5 10 15 20 25 30 35 40 45 第二年130題試題猜測度分布題數 圖 33 兩年度 130 題試題參數長條圖

(44)

第四節研究工具

壹、BILOGMG軟體

本研究使用BILOGMG(Zimowski, Muraki, Mislevy & Bock, 2003)進行參數估計，利用邊際估計法(marginal maximal likelihood estimation, MMLE)與期望後驗法 (expected a posteriori, EAP) (Zimowski et al., 2003)來估計試題的鑑別度、難度與猜測度參數與受試者能力值。其主要的指令設定如下： 1.不同題本採用FORM指令； 2.在CALIB中，NQPT=60, CYCLE=100, NEWTON=50, CRIT=0.005, TPRIOR, NOADJUST；如資料為偏態或雙峰分布時，則再加入EMPIRICAL指令。 3.第二年的程式與第一年大同小異，需加入FIXED指令。

貳、MATLAB軟體

MATLAB 語法簡單且擁有功能強大的函數庫，本研究利用此軟體模擬能力參數與試題參數之真值以及作答反應，並進行資料檔案轉換與計算估計誤差。

參、SPSS 軟體

本研究使用SPSS12.0中文視窗版軟體進行測驗的單向度檢定，將所有題本之作答反應進行因素分析，陡坡圖如下所示，可發現本測驗符合單向度檢定，可進行參數IRT之分析。 圖34 模擬測驗之因素分析陡坡圖

(45)

第四章研究結果

本章分為三節，第一節為 BIB 設計連結後估計結果；第二節為 NEAT 設計連結後估計結果；第三節為 BIB 與 NEAT 設計連結後估計結果之綜合比較；將其估計誤差以圖表表示，其中橫軸表示各種等化設計情境，代號為 N_R_m，N 為第二年度受試者人數(N=5460、7644、10920)，R 為選題難度範圍之全距(R=2、4、 6)，m 為每個題本定錨試題比例(m=1、2、3)，以 1 代表 10%、2 代表 20%、3 代表 30%，詳細結果將在附錄呈現。

第一節 BIB 設計等化後估計結果

壹、受試者能力在常態分布下的連結效果

一、受試者能力參數比較由圖 41 可得下列結果： (一) 在三種施測人數中，受試者能力參數估計誤差差異不明顯。 (二) 在三種試題區塊數中，受試者能力參數大致上以 BIB2 設計連結效果較 BIB3 效果佳，而 BIB1 估計誤差和其他設計差異不明顯。 (三) 在不同定錨比例中，受試者能力參數大致上以定錨比例為 20%之連結效果最佳。 (四) 在不同難度範圍中，受試者能力參數大致上以難度範圍為 R=2 之連結效果最佳。能力參數連結誤差比較 0.2900 0.2950 0.3000 0.3050 60_2 _1 60_2 _2 60_2 _3 60_4 _1 60_4 _2 60_4 _3 60_6 _1 60_6 _2 60_6 _3 44_2 _1 44_2 _2 44_2 _3 44_4 _1 44_4 _2 44_4 _3 44_6 _1 44_6 _2 44_6 _3 920_ 2_1 920_ 2_2 920_ 2_3 920_ 4_1 920_ 4_2 920_ 4_3 920_ 6_1 920_ 6_2 920_ 6_3 R M S E BIB1 BIB2 BIB3

(46)

二、試題參數比較 (一)鑑別度參數比較鑑別度參數連結誤差比較 0.0900 0.1100 0.1300 0.1500 0.1700 0.1900 0.2100 5460 _2_1 5460 _2_2 5460 _2_3 5460 _4_1 5460 _4_2 5460 _4_3 5460 _6_1 5460 _6_2 5460 _6_3 7644 _2_1 7644 _2_2 7644 _2_3 7644 _4_1 7644 _4_2 7644 _4_3 7644 _6_1 7644 _6_2 7644 _6_3 1092 0_2_ 1 1092 0_2_ 2 1092 0_2_ 3 1092 0_4_ 1 1092 0_4_ 2 1092 0_4_ 3 1092 0_6_ 1 1092 0_6_ 2 1092 0_6_ 3 R M S E BIB1 BIB2 BIB3 圖 42 BIB 設計在常態分布下鑑別度參數 RMSE 圖 由圖 42 可得下列結果： 1.在三種施測人數中，鑑別度參數估計誤差大致上隨著人數增加而減少。 2.在三種試題區塊數中，鑑別度參數估計誤差大致上隨著區塊數增加而變大。 3.在不同定錨比例中，當 BIB3 設計定錨比例為 20%時，鑑別度參數連結效果最佳，而其他設計則差異不明顯。 4.在不同難度範圍中，鑑別度參數連結效果差異不明顯。 (二)難度參數比較由圖 43 可得下列結果： 1.在三種施測人數中，難度參數估計誤差大致上隨著人數增加而減少。 2.在三種試題區塊數中，難度參數估計誤差大致上隨著區塊數增加而變大。 3.在不同定錨比例中，當 BIB3 設計之定錨比例為 30%時，難度參數連結效果最佳，而其他設計則差異不明顯。 4.在不同難度範圍中，難度參數連結效果差異不明顯。

(47)

難度參數連結誤差比較 0.0600 0.0700 0.0800 0.0900 0.1000 0.1100 0.1200 0.1300 5460 _2_1 5460 _2_2 5460 _2_3 5460 _4_1 5460 _4_2 5460 _4_3 5460 _6_1 5460 _6_2 5460 _6_3 7644 _2_1 7644 _2_2 7644 _2_3 7644 _4_1 7644 _4_2 7644 _4_3 7644 _6_1 7644 _6_2 7644 _6_3 1092 0_2_ 1 1092 0_2_ 2 1092 0_2_ 3 1092 0_4_ 1 1092 0_4_ 2 1092 0_4_ 3 1092 0_6_ 1 1092 0_6_ 2 1092 0_6_ 3 R M S E BIB1 BIB2 BIB3 圖 43 BIB 設計在常態分布下難度參數 RMSE 圖 (三)猜測度參數比較猜測度參數連結誤差比較 0.0250 0.0300 0.0350 0.0400 0.0450 5460 _2_1 5460 _2_2 5460 _2_3 5460 _4_1 5460 _4_2 5460 _4_3 5460 _6_1 5460 _6_2 5460 _6_3 7644 _2_1 7644 _2_2 7644 _2_3 7644 _4_1 7644 _4_2 7644 _4_3 7644 _6_1 7644 _6_2 7644 _6_3 1092 0_2_ 1 1092 0_2_ 2 1092 0_2_ 3 1092 0_4_ 1 1092 0_4_ 2 1092 0_4_ 3 1092 0_6_ 1 1092 0_6_ 2 1092 0_6_ 3 R M S E BIB1 BIB2 BIB3 圖 44 BIB 設計在常態分布下猜測度參數 RMSE 圖 由圖 44 可得下列結果： 1.在三種施測人數中，猜測度參數估計誤差大致上隨著人數增加而減少。 2.在三種試題區塊數中，猜測度參數估計誤差大致上隨著區塊數增加而變大。 3.在不同定錨比例中，當 BIB3 設計之定錨比例為 10%時，猜測度參數連結效果最佳，而其他設計則差異不明顯。 4.在不同難度範圍中，猜測度參數連結效果差異不明顯。

(48)

貳、受試者能力在負偏態分布下的連結效果

一、受試者能力參數比較能力參數連結誤差比較 0.7500 0.7700 0.7900 0.8100 0.8300 0.8500 5 4 6 0 _ 2 _ 1 5 4 6 0 _ 2 _ 2 5 4 6 0 _ 2 _ 3 5 4 6 0 _ 4 _ 1 5 4 6 0 _ 4 _ 2 5 4 6 0 _ 4 _ 3 5 4 6 0 _ 6 _ 1 5 4 6 0 _ 6 _ 2 5 4 6 0 _ 6 _ 3 7 6 4 4 _ 2 _ 1 7 6 4 4 _ 2 _ 2 7 6 4 4 _ 2 _ 3 7 6 4 4 _ 4 _ 1 7 6 4 4 _ 4 _ 2 7 6 4 4 _ 4 _ 3 7 6 4 4 _ 6 _ 1 7 6 4 4 _ 6 _ 2 7 6 4 4 _ 6 _ 3 1 0 9 2 0 _ 2 _ 1 1 0 9 2 0 _ 2 _ 2 1 0 9 2 0 _ 2 _ 3 1 0 9 2 0 _ 4 _ 1 1 0 9 2 0 _ 4 _ 2 1 0 9 2 0 _ 4 _ 3 1 0 9 2 0 _ 6 _ 1 1 0 9 2 0 _ 6 _ 2 1 0 9 2 0 _ 6 _ 3 R M S E BIB1 BIB2 BIB3 圖 45 BIB 設計在負偏態分布下能力值 RMSE 圖 由圖 45 可得下列結果： (一) 在三種施測人數中，受試者能力參數估計誤差差異不明顯。 (二) 在三種試題區塊數中，受試者能力參數估計誤差差異不明顯。 (三) 在不同定錨比例中，受試者能力參數大致上以定錨比例為 30%之連結效果最佳。 (四) 在不同難度範圍中，受試者能力參數大致上以難度範圍為 R=2 之連結效果最佳。二、試題參數比較 (一)鑑別度參數比較鑑別度參數連結誤差比較 0.6000 0.6500 0.7000 0.7500 0.8000 5460 _2_1 5460 _2_2 5460 _2_3 5460 _4_1 5460 _4_2 5460 _4_3 5460 _6_1 5460 _6_2 5460 _6_3 7644 _2_1 7644 _2_2 7644 _2_3 7644 _4_1 7644 _4_2 7644 _4_3 7644 _6_1 7644 _6_2 7644 _6_3 1092 0_2_ 1 1092 0_2_ 2 1092 0_2_ 3 1092 0_4_ 1 1092 0_4_ 2 1092 0_4_ 3 1092 0_6_ 1 1092 0_6_ 2 1092 0_6_ 3 R M S E BIB1 BIB2 BIB3 圖 46 BIB 設計在負偏態分布下鑑別度參數 RMSE 圖

BIB與NEAT設計在不同年度測驗連結效果之比較

國立台中教育大學教育測驗統計研究所理學碩士論文

許天維 博士

指 導 教 授：

郭伯臣 博士

BIB 與 NEAT 設計在不同年度測驗

連結效果之比較

研 究 生：張鈺卿 撰

中

華

民

國

九

十

六

年

六

月

摘要

Abstract

目錄

表目錄

圖目錄

第一章 緒論

第一節 研究動機與目的

壹、研究背景與動機

貳、研究目的

參、研究問題

第二節 名詞釋義

壹、測驗等化

貳、平衡不完全區塊設計

參、定錨不等組設計

肆、連結效果

å

(

)

(

)

å

(

)

(

)

第二章 文獻探討

第一節 測驗等化的意義與種類

壹、測驗等化的意義

貳、測驗等化的種類

第二節 測驗等化使用之連結設計

壹、單組設計(single­group design)

貳、等群組設計(equivalent­group design)

參、定錨不等組設計(non­equivalent groups with anchor test design)

肆、平衡不完全區塊(balanced incomplete block, BIB)設計

å

å

å

{ }

{ }

伍、BIB 與 NEAT 設計綜合比較

第三節 試題反應理論等化方法

壹、試題反應理論的介紹

貳、試題反應理論的等化

å

å

å

第三章 研究方法

第一節 BIB 連結設計

壹、BIB1 設計

貳、BIB2 設計

參、BIB3 設計

肆、題數及人數設定

伍、定錨試題的選取及配置

第二節 NEAT 連結設計

壹、NEAT1 設計

貳、NEAT2 設計

參、NEAT3 設計

肆、題數及人數設定

肆、定錨試題的選取

第三節 實驗情境與模擬資料產生

第四節 研究工具

壹、BILOG­MG軟體

許天維博士

指導教授：

郭伯臣博士

研究生：張鈺卿撰

第一章緒論

第一節研究動機與目的

第二節名詞釋義

第二章文獻探討

第一節測驗等化的意義與種類

第二節測驗等化使用之連結設計

壹、單組設計(singlegroup design)

貳、等群組設計(equivalentgroup design)

參、定錨不等組設計(nonequivalent groups with anchor test design)

第三節試題反應理論等化方法

第三章研究方法

第三節實驗情境與模擬資料產生

第四節研究工具

壹、BILOGMG軟體

第四章研究結果