• 沒有找到結果。

BIB與NEAT設計在不同年度測驗連結效果之比較

N/A
N/A
Protected

Academic year: 2021

Share "BIB與NEAT設計在不同年度測驗連結效果之比較"

Copied!
119
0
0

加載中.... (立即查看全文)

全文

(1)

國立台中教育大學教育測驗統計研究所理學碩士論文

許天維 博士

指 導 教 授:

郭伯臣 博士 

BIB 與 NEAT 設計在不同年度測驗

連結效果之比較

研 究 生:張鈺卿 撰

(2)
(3)

摘要

近年來教育資料庫普遍受到重視,因為透過資料庫的建立可以了解全國學生 之學習成效,同時可以瞭解比較不同年級、不同年度間的變化。因此,建立共同 量尺是非常重要的課題。

本研究 以試 題反 應理 論(item  response  theory,  IRT)之 三參 數羅 吉斯 模式  (three­parameter  logistic  model) 為理 論 基 礎探 討利 用 平衡 不 完全 區塊(balanced  incomplete  block,  BIB)設計與定錨不等組設計(non­equivalent  groups  with  anchor  test  design,  NEAT)兩種連結設計在進行大型教育測驗等化時,對於同年級不同年 度間等化之連結效果,並針對受試人數、試題數、受試者能力分布、定錨比例及 難度範圍等項目進行模擬實驗。 本研究結果發現在常態分布中,能力參數與試題參數估計誤差會隨著人數增 加而降低,並會隨著試題數增加而提高;在不同定錨比例中,大致上以定錨比例 為 30%有較佳的連結效果。另外,在不同難度範圍中,大致上以難度範圍為­1~1  或­2~2 有較佳的連結效果。 關鍵字:平衡不完全區塊設計、定錨不等組設計、定錨試題、試題等化

(4)

Abstract 

The  main  purpose  of  this  study  is  to  explore  the  linking  performance  of  two  large­scale  educational  assessments  which  were  administrated  in  different  years.  Balanced  incomplete  block (BIB)  and  non­equivalent  groups  with  anchor  test  design  (NEAT)  are  two  popular  test  equatinf  methods  in  most  of  large­scale  educational  assessments. The effects of numbers of people, numbers of items, ability distributions,  the  percentage  of  anchor  items  and  ranges  of  anchor  items  are  explored  under  two  different linking methods. Three types ranges of difficulty parameters, (­3, 3), (­2, 2),  and (­1, 1) are considered in this study. 

The  results  of  simulation  study  show  that:  When  the  data  follow  normal  distribution,  the  equating  performance  decreases  as  the  numbers  of  people  increases,  and  increases  as  the  numbers  of  items  increases.The  better  equating  performance  occurs as the percentage of anchor items is 30%.The best equating performance occurs  when the range of difficulty parameters is (­1, 1) or (­2, 2). 

Key  words:  balanced  incomplete  block,  non­equivalent  groups  with  anchor  test  design, anchor item, test equating

(5)

目錄

第一章 緒論 ...1  第一節 研究動機與目的...2  第二節 名詞釋義 ...4  第二章 文獻探討 ...7  第一節 測驗等化的意義與種類 ...7  第二節 測驗等化使用之連結設計 ...9  第三節 試題反應理論等化方法 ...13  第三章 研究方法 ...19  第一節  BIB 連結設計...21  第二節  NEAT 連結設計 ...27  第三節 實驗情境與模擬資料產生 ...31  第四節 研究工具 ...34  第四章 研究結果 ...35  第一節  BIB 設計等化後估計結果 ...35  第二節  NEAT 設計等化後估計結果 ...42  第三節  BIB 與 NEAT 設計等化後估計結果綜合比較 ...50  第五章 結論與改進建議...65  第一節 結論...65  第二節 建議...66  參考文獻...67  中文部分...67  英文部分...68  附錄一  BIB1 設計在常態分布下不同實驗設計之估計誤差 ...70  附錄二  BIB1 設計在負偏態分布下不同實驗設計之估計誤差 ...72

(6)

附錄三  BIB1 設計在雙峰分布下不同實驗設計之估計誤差 ... 74  附錄四  BIB2 設計在常態分布下不同實驗設計之估計誤差 ... 76  附錄五  BIB2 設計在負偏態分布下不同實驗設計之估計誤差... 78  附錄六  BIB2 設計在雙峰分布下不同實驗設計之估計誤差 ... 80  附錄七  BIB3 設計在常態分布下不同實驗設計之估計誤差 ... 82  附錄八  BIB3 設計在負偏態分布下不同實驗設計之估計誤差... 84  附錄九  BIB3 設計在雙峰分布下不同實驗設計之估計誤差 ... 86  附錄十  NEAT1 設計在常態分布下不同實驗設計之估計誤差 ... 88  附錄十一  NEAT1 設計在負偏態分布下不同實驗設計之估計誤差 ... 90  附錄十二  NEAT1 設計在雙峰分布下不同實驗設計之估計誤差 ... 92  附錄十三  NEAT2 設計在常態分布下不同實驗設計之估計誤差 ... 94  附錄十四  NEAT2 設計在負偏態分布下不同實驗設計之估計誤差 ... 96  附錄十五  NEAT2 設計在雙峰分布下不同實驗設計之估計誤差 ... 98  附錄十六  NEAT3 設計在常態分布下不同實驗設計之估計誤差 ... 100  附錄十七  NEAT3 設計在負偏態分布下不同實驗設計之估計誤差 ... 102  附錄十八  NEAT3 設計在雙峰分布下不同實驗設計之估計誤差 ... 104  附錄十九 第一年度 130 題試題參數... 106  附錄二十 第二年度 130 題試題參數... 108

(7)

表目錄

表 2­1  單組設計...9  表 2­2  等群組設計 ...9  表 2­3    NEAT 設計...10  表 2­4    BIB 設計表 ... 11  表 3­1    BIB 和 NEAT 設計表...19  表 3­2    BIB 設計表 ...21  表 3­3    BIB1 設計表 ...22  表 3­4    BIB2 設計表 ...23  表 3­5    BIB3 設計表 ...24  表 3­6    BIB 設計在不同定錨比例之相關題數對照表 ...24  表 3­7    BIB 設計人數對照表 ...25  表 3­8    BIB 設計在不同定錨比例之相關題數對照表 ...26  表 3­9  不同年度間 BIB 連結設計表 ...26  表 3­10    NEAT 設計表 ...27  表 3­11    NEAT1 設計表 ...27  表 3­12    NEAT2 設計表 ...28  表 3­13    NEAT3 設計表 ...28  表 3­14    NEAT 設計在不同定錨比例之相關題數對照表...29  表 3­15    NEAT 設計人數對照表...29  表 3­16    NEAT 設計在不同定錨比例之相關題數對照表...29  表 3­17  不同年度間 NEAT 連結設計表 ...30  表 3­18    BIB 與 NEAT 設計共同變項設定對照表...31

(8)

圖目錄

圖 3­1  研究流程圖 ... 20  圖 3­2  兩年度 10920 人能力分布長條圖... 32  圖 3­3  兩年度 130 題試題參數長條圖... 33  圖 4­1    BIB 設計在常態分布下能力值 RMSE 圖 ... 35  圖 4­2  BIB 設計在常態分布下鑑別度參數 RMSE 圖... 36  圖 4­3    BIB 設計在常態分布下難度參數 RMSE 圖... 37  圖 4­4    BIB 設計在常態分布下猜測度參數 RMSE 圖... 37  圖 4­5    BIB 設計在偏態分布下能力值 RMSE 圖 ... 38  圖 4­6    BIB 設計在偏態分布下鑑別度參數 RMSE 圖... 38  圖 4­7    BIB 設計在偏態分布下難度參數 RMSE 圖... 39  圖 4­8    BIB 設計在偏態分布下猜測度參數 RMSE 圖... 40  圖 4­9    BIB 設計在雙峰分布下能力值 RMSE 圖 ... 40  圖 4­10    BIB 設計在雙峰分布下鑑別度參數 RMSE 圖... 41  圖 4­11    BIB 設計在雙峰分布下難度參數 RMSE 圖... 41  圖 4­12    BIB 設計在雙峰分布下猜測度參數 RMSE 圖... 42  圖 4­13    NEAT 設計在常態分布下能力值 RMSE 圖 ... 43  圖 4­14    NEAT 設計在常態分布下鑑別度參數 RMSE 圖 ... 43  圖 4­15    NEAT 設計在常態分布下難度參數 RMSE 圖 ... 44  圖 4­16    NEAT 設計在常態分布下猜測度參數 RMSE 圖 ... 44  圖 4­17    NEAT 設計在偏態分布下能力值 RMSE 圖 ... 45  圖 4­18    NEAT 設計在偏態分布下鑑別度參數 RMSE 圖 ... 46  圖 4­19    NEAT 設計在偏態分布下難度參數 RMSE 圖 ... 46  圖 4­20    NEAT 設計在偏態分布下猜測度參數 RMSE 圖 ... 47  圖 4­21    NEAT 設計在雙峰分布下能力值 RMSE 圖 ... 48

(9)

圖 4­22    NEAT 設計在雙峰分布下鑑別度參數 RMSE 圖 ...48  圖 4­23    NEAT 設計在雙峰分布下難度參數 RMSE 圖...49  圖 4­24    NEAT 設計在雙峰分布下猜測度參數 RMSE 圖 ...49  圖 4­25    BIB 及 NEAT 設計在常態分布下能力值 RMSE 圖 ...50  圖 4­26    BIB 及 NEAT 設計在常態分布下鑑別度參數 RMSE 圖...52  圖 4­27    BIB 及 NEAT 設計在常態分布下鑑別度參數 RMSE 圖...53  圖 4­28    BIB 及 NEAT 設計在常態分布下猜測度參數 RMSE 圖...54  圖 4­29    BIB 及 NEAT 設計在偏態分布下能力值 RMSE 圖 ...55  圖 4­30    BIB 及 NEAT 設計在偏態分布下鑑別度參數 RMSE 圖...56  圖 4­31    BIB 及 NEAT 設計在偏態分布下難度參數 RMSE 圖...58  圖 4­32    BIB 及 NEAT 設計在偏態分布下猜測度參數 RMSE 圖...59  圖 4­33    BIB 及 NEAT 設計在雙峰分布下能力值 RMSE 圖 ...60  圖 4­34    BIB 及 NEAT 設計在雙峰分布下鑑別度參數 RMSE 圖...61  圖 4­35    BIB 及 NEAT 設計在雙峰分布下難度參數 RMSE 圖...62  圖 4­36    BIB 及 NEAT 設計在雙峰分布下猜測度參數 RMSE 圖...63

(10)
(11)

第一章 緒論

我國教育部於 2004 年推動 「台灣學生學習成就評量資料庫(Taiwan Assessment 

of  Student  Achievement,  TASA)之建置計畫」,欲建置完善的長期追蹤資料庫,以

追蹤學生學習的成果並分析其變遷趨勢,進而檢視目前國家教育體制與政策實施 是否完善(國立教育研究院籌備處,2005)。該計畫中針對國民小學四年級、六年 級、國中二年級及高中職二年級學生,進行跨年級、跨學科之資料庫的建置,所 建立之資料庫涵蓋不同認知層次及不同難度的試題。然而,由於其試題數量繁多 無法由單一受試學生於短時間內完成。因此,為了滿足測驗目標、減輕受試學生 負擔、並擔保所有評量的公平性,建立可比較之共同量尺是非常重要之課題。 一般國內外大型測驗共同量尺的建立是基於試題反應理論(item  response  theory,  IRT)來實現,其測驗題本連結設計大部分採用平衡不完全區塊(balanced  incomplete  block,  BIB)設計及定錨不等組設計(non­equivalent  groups  with  anchor  test  design,  NEAT) 兩 種 等 化 設 計 , 如  MCAS(Massachusetts  comprehensive 

assessment system)即採用 NEAT 設計 ,而荷蘭的 PPON(Periodiek Peilingsonderzoek 

van  het  Onderwijs)  、美國國家教育進展評量(National  Assessment  of  Educational  Progress,  NAEP)及我國 TASA 計畫皆採用 BIB 設計(王暄博,2006)、國際數學與 科學教育成就趨勢調查(Trends  in  International  Mathematics  and  Science  Study  ,  TIMSS  )則採用部分平衡不完全區塊(partial  balanced  incomplete  block,  PBIB)設計  (Michale,  Ina,  Steven,  2003),故本研究希望基於試題反應理論,探討共同量尺建 造的一些連結設計,期能找到可行之道,提供大型測驗資料庫參考。

(12)

第一節 研究動機與目的

壹、研究背景與動機

大型測驗資料庫必須考慮不同測驗間之連結: 一、同年級不同測驗間之連結; 二、不同年級不同測驗間之連結; 三、同年級不同年度測驗間之連結; 四、不同年級不同年度測驗間之連結。 曾玉琳(2005)已完成同年級不同測驗間之連結,研究中採用不同的連結設計,探 討在不同能力分布、不同人數下的連結效果。研究中指出當受試者能力分布為常 態分布或雙峰分布且當人數超過  5460  人時,有最佳的連結效果。王暄博(2006)  提出 BIB 與 NEAT 設計在不同年級不同測驗間之連結,研究發現估計誤差會隨著 受試者人數增加而減少,也會隨著定錨試題增加而減少。以上兩位作者已探討不 同情境下兩個大型教育測驗連結會發生的問題,在張鈺卿、陳昇座、郭伯臣、王 暄博(2006)雖然已探討在大型教育測驗中進行兩年度等化之效果,但僅討論使用  BIB  設計在受試者能力值為常態分布的情況,因此本研究擬基於上述之部分成 果,研究將以試題反應理論中三參數  logistic  模式為理論基礎,採模擬實驗方式 探討不同等化連結設計對於第三項 「同年級不同年度測驗間」 之連結效果。此外, 本研究亦將擬模擬在不同能力分布下,利用不同的連結設計比較等化後能力值誤 差與試題參數誤差,研究結果冀盼能作為大型測驗資料庫之研究計畫進行的參考 依據。

貳、研究目的

由於國內外之大規模測驗,其測驗題本連結設計大部分採用  BIB  設計及  NEAT  兩種連結設計,但相關文獻少有針對跨年級、跨年度探討等化效果之模擬 研究,對於長期追蹤研究,跨年度的測驗等化是必須研究的課題,如此一來才能

(13)

比較不同年度學生學習成效,進而檢視目前教育體制與政策,因此,本研究想了 解不同施測樣本數、不同試題區塊數、不同受試者群、不同等化定錨試題比例及 不同難度範圍在 BIB 設計與 NEAT 設計下等化連結之效果。

參、研究問題

依據前述研究動機與目的,本研究之研究問題如下: 一、BIB 與 NEAT 設計於不同施測樣本數下之兩年度連結效果如何? 二、BIB 與 NEAT 設計於不同試題區塊數下之兩年度連結效果如何? 三、BIB 與 NEAT 設計於不同受試者群下之兩年度連結效果如何? 四、BIB 與 NEAT 設計於不同等化定錨試題比例下之兩年度連結效果如何? 五、BIB 與 NEAT 設計於不同難度範圍下之兩年度連結效果如何?

(14)

第二節 名詞釋義

壹、測驗等化

一般而言,考生在難度較高的測驗中其得分較低,反之在難度較低的測驗中 較易得高分。測驗等化是透過統計方法將受試者在某一測驗的分數轉換至另一測 驗分數量尺,使其在不同的測驗所得結果能夠比較的一套程序,其目的在調整測 驗難度之差異而非測驗內容之差異(Kolen  &  Brennan,  1995;李源煌、楊玉女,  2000a)。

貳、平衡不完全區塊設計

平衡不完全區塊設計源於  Yates(1936)所提出的實驗設計,在  1992  年應用在 大型教育測驗中(Rust  &  Johnson,  1992),此設計是將題庫中的試題分成若干個試 題區塊(block),每個區塊中含有相同題數,且區塊間與區塊內的試題皆不重複。 將若干個試題區塊編製成題本(booklet),每個題本中的區塊可能部份相同或完全 不同,但在所有施測題本中,每個區塊出現的次數是一樣的(Kuehl, 2000;van der  Linden, Veldkamp & Carlson, 2004)。

參、定錨不等組設計

定錨不等組設計是將欲連結的不同測驗分別施測於不同受試者群,而每群受 試者均需施測一份共同測驗作為定錨測驗,通常定錨測驗在每群受試者的測驗順 序是一樣的,以避免順序因素的影響,且測驗內容和難度必須與欲連結之不同測 驗十分類似,其測驗長度相當於一個分測驗(von Davier, Holland & Thayer, 2004)。

肆、連結效果

本研究中的連結效果之比較,係將原始生成參數視為真值,計算其與經等化 後估計值之根均方差(root  mean  square  error,  RMSE),求模擬100次平均值作為估

(15)

計誤差。其中,試題參數的RMSE是採用在同一設計、同一能力分布、同一人數 及同一難度範圍下扣除第一年度定錨試題後之共同試題。如以BIB1設計、常態分 布5460人下,選取難度範圍為­3~3之定錨比例為10%、20%及30%三種實驗情境的 共同試題求其RMSE。 針對受試者能力參數與試題參數分別計算RMSE,其計算公式如下: 一、受試者能力參數  RMSE  N i

å

= - =  1  2  )  ˆ  (  )  ˆ  ,  ( h h h h 其中,:表示受試者人數;

(

h h h h N

h = 1 ,...,  :表示受試者能力真值;

(

h h h h N

hˆ  = ˆ 1 , ˆ , ˆ ,..., ˆ  :表示受試者能力估計值。 二、試題參數  RMSE  n i

å

= - =  1  2  )  ˆ  (  )  ˆ  ,  ( x x x x 其中,n:表示受試者人數;

(

x x x x n

x = 1 ,...,  :表示試題參數真值;

(

x x x x n

xˆ  = ˆ 1 , ˆ , ˆ ,..., ˆ  :表示試題參數估計值。

(16)
(17)

第二章 文獻探討

本研究目的在探討不同的測驗連結設計中,進行同年級不同年度測驗等化之 連結效果。因此,在本章中,將針對測驗等化的意義與種類、測驗等化使用之連結 設計及試題反應理論等化方法等相關研究進行分析整理。

第一節 測驗等化的意義與種類

壹、測驗等化的意義

測驗等化是透過統計方法將某一測驗的分數轉換至另一測驗分數量尺,使其 在不同的測驗所得結果能夠比較的一套程序,換言之就是讓兩個測驗可以在同一 個量尺上進行比較的方法。這些測驗為了測量相同的特質或能力,其內容及難度 極為相似,因此測驗等化的目的是在校準測驗難度之差異,而非測驗內容之差異  (Kolen et al., 1995;吳裕益,1991)。Lord 認為測驗分數等化不應該受試題內容和 受試者能力分布的影響,所以等化的進行必須滿足下列幾項特性:(Lord,  1980;  Hambleton & Swaminathan, 1985)  一、公平性(equity):若有兩測驗(X測驗和Y測驗)欲進行等化,不論受試者受 測X測驗或Y測驗,其等化後結果相同。

二、團體不變性(invariance  across  groups):等化過程中,不受受試團體樣本 的影響,其轉換結果皆相同。

三、對稱性(symmetry):測驗分數等化必須是可逆的,即從X測驗等化至Y測 驗,或是由Y測驗等化至X測驗,其等化後結果皆相同。

四、單向度(unidimensionality  of  the  tests):若欲進行等化兩份以上測驗,其 測驗內容必須測量相同的能力特質才能等化。

(18)

貳、測驗等化的種類 

Hambleton  et  al.(1985) 指 出 測 驗 等 化 的 種 類 可 分 為 水 平 等 化 (horizontal  equating)與垂直等化(vertical equating)兩種,以下將一一介紹。 一、水平等化 水平等化是指兩個以上測量相同特質、相同能力之難度相似的測驗,其原始 分數轉換至同一量尺之過程。水平等化通常為了保護試題的安全性(security),而 將試題分為好幾個測驗,這些不同測驗未必完全相似,但可以說是難度相近的複 本測驗(parallel test)。此外,兩群以上的受試者能力分布也被假設是一樣的。 水平等化常被應用在許多測驗等化中,例如:托福、GRE及基本學力測驗等 考試就有不同的複本測驗,其將進行一年多次的考試,須透過水平等化的過程將 不同複本測驗的成績轉換成同一量尺才能進行比較。 二、垂直等化 垂直等化是指兩個以上測量相同特質、不同能力之難度不同的測驗,其原始 分數轉換至同一量尺之過程。此測驗之受試者的能力是通常屬於不同年級,如美 國的加州成就測驗(California Achievement Tests, CAT)、愛奧華基本技能測驗(Iowa  Test of Basic Skills)等,即透過垂直等化的過程將不同複本測驗的成績轉換成同一 量尺進行測驗分數比較。 此外,若某測驗之目的為長期研究受試者的成長情形時,則水平等化及垂直 等化連結必須同時進行。如目前國內 TASA 計畫目的之一為建立國民中小學及高 中職學生學習成就的長期資料庫,以追蹤、分析學生在學習成就之改變趨勢,進 而檢視目前國家教育體制與政策實施之成效(國立教育研究院籌備處,2005),因 此需透過水平等化及垂直等化連結的方法,將受試者的測驗分數轉換成同一量 尺,進而進行跨年級、跨年度之比較。

(19)

第二節 測驗等化使用之連結設計

在測驗發展初期,即需考慮將來不同測驗間的連結,故研究者在進行測驗等 化前須先考慮測驗連結的方式。其設計的方法眾多,簡單地分為四種連結方法, 其設計將一一說明。(Kolen et al., 1995;余民寧,1993) 

壹、單組設計(single­group design) 

單組設計是將欲連結的兩份測驗 X 和 Y,給同一群受試樣本 P 施測。此種方 法最簡單,能直接將兩份測驗放在同一量尺上,但由於受試者必須施測所有測 驗,因此必須注意受試者是否會因作答時間過長而感到疲勞,同時,測驗施測的 順序亦會影響連結效果。單組設計如表 2­1(Kolen et al.,1995;余民寧,1993)。 表 2­1  單組設計 受試樣本  X 測驗  Y 測驗  P  V  V  註:V 為受試者必須受測之測驗

貳、等群組設計(equivalent­group design) 

等群組設計是將欲連結的兩份測驗 X 和 Y,給予隨機選取之相似卻不完全相 同的兩組受試樣本 P1 與 P2,每一組的受試者只接受其中一個測驗。等群組設計 之優點是測驗資料也不會受練習(practice)、疲勞(fatigue)、學習(learning)與順序因 素(order  effects)的影響。然而,需要相當大的樣本才能避免隨機誤差的產生。等 群組設計如表 2­2 (Kolen et al.,1995;余民寧,1993)。 表 2­2  等群組設計 受試樣本  X 測驗  Y 測驗  P1  V  P2  V  註:V為受試者必須受測之測驗

(20)

參、定錨不等組設計(non­equivalent groups with anchor test design) 

NEAT 設計是將欲連結的兩份測驗 X 和 Y,給予兩組不同受試樣本 P1 和 Q1  施測,其中,P1 和 Q1 分別從受試母群體 P 和 Q 中隨機抽取,且兩組受試樣本皆 須另外接受一份共同測驗  A,即為定錨測驗。NEAT  設計如表  2­3(Kolen  et  al.,1995;余民寧,1993)。 表 2­3  NEAT 設計 受試者群  X 測驗  Y 測驗 定錨測驗 A  P1  V  V  Q1  V  V  註:V為受試者必須受測之測驗  NEAT 設計為常見的測驗等化設計,由於在 NEAT 設計中,每個受試群必須 測驗相同的定錨測驗,因此,定錨試題之試題參數好壞將會影響連結效果。若定 錨試題選擇恰當,則  NEAT  設計可以避免受練習(practice)、疲勞(fatigue)、學習  (learning)、順序因素(order effects)及需要大樣本的問題(Klein & Jarjoura, 1985)。 

MCAS(Massachusetts  comprehensive  assessment  system)即使用 NEAT 設計進行不 同年度間學生之測驗等化,因為它只需要假設受試群體是隨機抽取,不必假設兩 受試群體有相同的能力值。此外,NEAT 設計的定錨測驗內容要盡可能相似且試 題難度要相近,因為定錨試題是用來調整兩個不同能力之群體所造成的不等  (Petersen, Kolen & Hoover, 1993;王暄博,2006)。

肆、平衡不完全區塊(balanced incomplete block, BIB)設計 

BIB 設計是將試題分成若干試題區塊,區塊間與區塊內的試題皆不重複。將 受試者分為數群,有幾個題本(booklet)就分為幾群,每群受試者只需接受若干試 題區塊的試題,不同受試者可能接受部分相同、完全相同、或完全不同的試題區 塊。最後,將所有受試者的作答反應資料堆疊進行等化分析,以達到能力估計的 目的。BIB 設計如表 2­4(曾玉琳、王暄博、郭伯臣、許天維,2005)。 其中, S 表示題本序號, i = 1 K ,  , 7 ;  表示題庫試題區塊, j = 1 K ,  7 ;

(21)

表 2­4  BIB 設計表 題本序號  M 1  M 2  M 3  M 4  M 5  M 6  M 7  V  V  V  V  V  V  V  V  V  V  V  V  註:V 為受試者必須受測之測驗  BIB  設計試題區塊與題本的配置方式採用螺旋(spiral)式排列方式,其可使每 一個試題區塊的施測次數相同(van  der  Linden,  Veldkamp  &  Carlson,  2004;  Nemhauser & Wolsey, 1999)。此設計在無作答時間(response time)的限制情形下, 必須滿足以下限制式:

å

= is  = 1 ,...,  (2.1)

å

= £  is  = 1 ,...,  (2.2)

å

= ³  S ijs  1 l  = 1 ,...,  (2.3)  ijs  js  is  +  ³ 2 = 1 ,..., t ,  = 1 ,...,  (2.4)  其中:t指試題區塊數;  s指題本代號, s = 1 ,..., S ;  k指每個題本配置的試題區塊數;  r指試題區塊在所有題本中出現的次數;  i指題庫中個別區塊代號, i = 1 ,..., t ;  j指題庫中成對區塊中第二個區塊代號, j = 1 ,..., ; l指成對試題區塊在所有題本中出現的次數;  is  指試題區塊與題本的配置組型,其中: is Î 

{ } 

0 , 1  = 1 ,..., t ,  = 1 ,..., 

(22)

ijs  指成對試題區塊與題本的配置組型, ijs Î 

{ } 

0 , 1 , i = 1 ,..., t , s = 1 ,..., 。 其中,式子(2.1)代表每一個題本配置的試題區塊數目;式子(2.2)代表每一個 試題區塊在所有題本中出現的次數;式子(2.3)代表成對試題區塊在所有題本中出 現的次數;式子(2.4)代表成對試題區塊與組型的一致性。BIB 設計須符合式子(2.1)  至(2.4)的要求,求出符合的最佳解。 所以,BIB 設計有三項基本限制:  1.每一個題本內的試題區塊數要相同;  2.試題區塊作結合以求出最小題本數;  3.每一個試題區塊在所有題本中出現的次數要相同。 然而,這只是 BIB 設計必須符合的三項基本限制,但在實際設計時,還需考 慮試題的內容、形式及作答時間。

伍、BIB 與 NEAT 設計綜合比較

本研究採用 BIB 與 NEAT 設計進行同年級不同年度間測驗連結模擬研究,此 二設計均將試題分成若干個試題區塊,每個題本配置相同試題區塊數進行測驗。 其最大差異在於 BIB 設計的每個試題區塊測驗次數皆相同,而且題本之試題區塊 採用螺旋式排列來進行連結,使得部份題本間無定錨試題亦可進行等化分析;而  NEAT  設計的每個試題區塊測驗次數不全相同,其利用每個題本中之定錨試題作 為等化分析之連結。 曾玉琳(2005)曾針對  BIB  設計與  NEAT  設計進行四種能力分布(常態、正偏 態、負偏態及雙峰)、三種施測樣本數(約 2600 人、5460 人、約 10000 人)模擬研 究,研究發現在施測樣本數約 2600 人時,NEAT 設計比 BIB 設計連結效果較佳; 當施測樣本超過  5460  人且受試者能力分布為常態或雙峰分布時,兩種設計皆可 得到最佳的連結效果。 王暄博(2006)也針對 BIB 設計與 NEAT 設計進行水平等化及垂直等化之模擬 研究,其控制變項有三種施測樣本數(5460 人、7500 人及 10000 人)、不同定錨題

(23)

數,研究發現在水平等化測驗中,試題參數以 BIB 設計之連結效果優於 NEAT 設 計,而能力參數以 NEAT 設計之連結效果優於 BIB 設計;在垂直等化測驗中,試 題鑑別度參數以 BIB 設計之連結效果優於 NEAT 設計,而能力參數、試題難度參 數及試題猜測度參數以 NEAT 設計之連結效果優於 BIB 設計。

第三節 試題反應理論等化方法

在本節中將分為兩大部分介紹:一為試題反應理論的介紹,二為試題反應理 論的等化。

壹、試題反應理論的介紹

當代為改進古典測驗理論之缺點,依據強勢假設(strong assumption),發展了 試題反應理論,其理論模式不斷發展,所採用之計算公式較複雜,但卻深受測驗 學 者 青 睞 。 然 而 , 試 題 反 應 理 論 必 須 符 合 四 項 基 本 假 設 包 括 單 向 性  (unidimensionality)、局部獨立性(local  independence)、非速度性(nonspeedness)及 「知道即正確」假設(“know­correct”assumption),才能進行測驗資料之分析,其 中當單向度假設成立時,其局部獨立性假設也會獲得成立(Lord, 1980)。 試題反應理論之模式已發展相當多,如無參數模式、單參數羅吉斯模式  (one­parameter logistic model)、雙參數羅吉斯模式(two­parameter logistic model)、 三參數羅吉斯模式(three­parameter logistic model)等,本研究進行試題連結時,基 於試題反應理論中三參數羅吉斯模式作為測驗資料分析的方法,以下將簡介三參 數羅吉斯模式(Baker, 2004;Hambleton et al., 1985;Mislevy & Bock, 1990),假設 能力值為 q 之受試者k k,作答試題 j通過機率的計算方法如下:  )  (  exp  1  )  1  (  )  ,  ,  ,  |  1  (  j q q q º + - + = = - - 其中: 

(24)

指試題鑑別度參數(item discrimination parameter),且 0 ; 

b 指試題難度參數(item difficulty parameter);  指試題猜測度參數(item guessing parameter), 0 £ c < 1 ;  D是一個量尺因素(scaling factor),通常 D = 1 . 702 。

貳、試題反應理論的等化

一、同時估計法 同時估計法(concurrent estimation)是將所有受試者作答反應資料合併,利用不 同測驗間的定錨試題以  IRT  電腦軟體同時進行受試者能力參數及試題參數之估 計。其主要的原理是透過測驗連結設計將試題參數估計值同時對應於相同能力量 尺上。此方法比其他的估計方法利用更多的試題參數訊息,包括定錨試題參數之 估 計 值 , 與 此 定 錨試 題 參 數 估計 值 之 變異 數 共 變 數 矩 陣 (variance­covariance  matrix)(Mislevy & Bock, 1982)。 在等化的過程中,利用連結係數將不同測驗題本之試題參數估計值轉化於相 同的量尺上時,若所使用之連結係數估計值不正確將產生估計誤差。然而,使用 同時估計法則可避免此種缺點,且能採用最多試題訊息。因此,採用此方法將優 於以線性技術為基礎之等化方法(李源煌、楊玉女,2000b),例如:特徵曲線法等  (Stocking & Lord, 1983)。本研究之 BIB 設計在試題參數估計時也較適合使用同時 估計法,且國內外許多文獻亦證實,採用同時估計法能獲得較佳的連結效果  (Hanson & Béguin, 2002;Kim & Cohen, 1998;陳煥文,2004)。因此,在本研究 中即採用同時估計法估計能力參數及試題參數。 二、分離估計法 分離估計法(separate  estimation)在進行兩份測驗 X 和 Y 連結時,先分別估計 兩組受試者能力參數及測驗試題參數,則這兩組參數估計值必定滿足下列關係式  (余民寧,1993):

(25)

b aq qX + b a + b a  a = 其中, q 和X  q 為兩測驗 X 和 Y 之受試者能力參數估計值; Y 和 b 為兩測驗 X 和 Y 之試題難度參數估計值; 

和 a 為兩測驗 X 和 Y 之試題鑑別度參數估計值;

再透過線性轉換方式,找出兩測驗間的連結係數a 及 b ,便能將各測驗量尺 轉換在同ㄧ量尺上進行比較。以下將介紹四種常見試題連結之方法:  (一)平均數法 在平均數法(mean/mean)中,若欲連結兩測驗  X  和  Y,則利用兩測驗定錨試 題之鑑別度參數及難度參數的平均數,計算出量尺線性轉換的斜率a 與截距 b , 再將 X 測驗分數利用線性轉換至 Y 測驗分數對應的分數。其計算模式如下(Kolen  et al., 1995):  )  (  )  a m m a =  )  (  )  ( b am m b = - 其中,a為鑑別度參數;  b為難度參數;  )  ( a m 和 m ( a) 為兩測驗X和Y定錨測驗參數a之平均數;  )  ( b m 和 m ( b) 為兩測驗X和Y定錨測驗參數b之平均數。  (二)平均數與標準差法

在平均數與標準差法(mean  and  sigma  method)中,若欲連結兩測驗 X 和 Y, 利用兩測驗定錨試題之難度參數的標準差和平均數,計算出量尺線性轉換的斜率

a 與截距 b ,再將 X 測驗分數利用線性轉換至 Y 測驗分數對應的分數。其計算模 式如下(Kolen et al., 1995):

(26)

)  (  )  b s s a =  )  (  )  ( b am m b = - 其中,b指難度參數;  )  ( b m 和 m ( b) 為兩測驗X和Y定錨測驗參數b之平均數;  )  ( b s 和 s ( b) 為兩測驗X和Y定錨測驗參數b之標準差。  (三)特徵曲線法

特徵曲線法是 Haebara(1980)及 Stocking  &  Lord(1983)提出,假設 x 與xk  x yk

受試者k在兩測驗  X  和  Y  的真分數,並求出兩真分數差異之最小值,其計算模 式如下:

å

= xi  xi  xi  xk  1  )  ,  ,  ,  (q x

å

= yi  yi  yi  yk  1  )  ,  ,  ,  (q x 其中,試題參數設定為: a  xi  yi  a = b a + xi  yi  xi  yi  c =  n為題數。 為求兩真分數 x 與xk  x yk間差異之最小值,其公式為:

å

= - N yk  xk  1  2  )  (  1 x x 利用Newton­Raphson求出偏導數方程式,即可得兩真分數差平方的最小值。  0 = = b a  dF  dF  綜合以上連結參數的方法,在Hanson & Béguin(2002)之研究指出特徵曲線法 優於平均數法和平均數與標準差法。

(27)

(四)應用kernel smoothing於IRT真分數等化法 應用 kernel smoothing 於 IRT 真分數等化法是王雅苓(1999)提出,研究中指出 不是所有試題都符合同一種模式,如一參數、二參數和三參數羅吉斯模式,故採 用 Ramsay(1991)的研究中用 kernel  smoothing 方法估計試題特徵曲線,再將估計 出來的試題特徵曲線運用在  IRT  真分數等化中。其詳細計算公式請參閱王雅苓  (1999)。其模擬研究中也指出應用 kernel smoothing 於 IRT 真分數等化法大部分比 一般採用參數羅吉斯模式等化效果好。

(28)
(29)

第三章 研究方法

本研究以試題反應理論為基礎,欲探討大型測驗使用不同連結設計進行跨年 度之等化連結效果,並利用電腦模擬資料進行等化研究,其研究流程如圖  3­1。 首先是設定研究主題,再探討與研究主題之相關文獻,進而提出 BIB 及 NEAT 跨 年度之連結設計,然後依據研究者所設定之不同研究情境、產生模擬資料後,分 析不同連結設計效果並撰寫研究結果。 本章共分為四節,第一節為 BIB 連結設計,介紹本研究所使用之三種 BIB 連 結設計、人數與題數設定及定錨試題選取方式;第二節為 NEAT 連結設計,介紹 本研究所使用之三種 NEAT 連結設計、人數與題數設定及定錨試題選取方式;第 三節為實驗設計,說明本研究所有變項設定及誤差估計;第四節為研究工具。 本研究模擬實驗為探討不同總題數下之等化效果,故將 BIB 設計與 NEAT 設 計中分別探討三種總題數(70  題、90  題和  130  題),即  BIB1、BIB2  和  BIB3  與  NEAT1、NEAT2 和 NEAT3,欲了解在同一設計下不同題數之估計誤差有何差異, 並比較在相同題數下不同設計之連結效果。這 6 種設計之區塊數、題本數與總題 數如表 3­1,將分別在本章第一節與第二節詳細說明。 表 3­1  BIB 和 NEAT 設計表 連結 設計 區塊數 題本數 總題數 連結 設計 區塊數 題本數 總題數  BIB1  7  7  70  NEAT1  7  3  70  BIB2  9  12  90  NEAT2  9  4  90  BIB3  13  26  130  NEAT3  13  6  130

(30)

圖 3­1  研究流程圖 設定研究主題 提出 BIB 及 NEAT 之連結設計 設定實驗情境 產生模擬資料 比較不同等化設計誤差 撰寫研究結果  BIB 設計  NEAT 設計 估計第一年參數 選取年度間定錨試題 估計第二年參數 估計誤差的計算 文獻探討 估計第一年參數 選取年度間定錨試題 估計第二年參數 估計誤差的計算

(31)

第一節  BIB 連結設計 

BIB設計將試題分成若干試題區塊,區塊間與區塊內的試題皆不重複,受試 者只需接受若干試題區塊的試題,且不同受試者可能接受部分相同、完全相同、 或完全不同的試題區塊。茲將BIB  設計須符合之條件整理如下(Kuehl, 2000): î í ì < < - ´ = - ´ ´ = ´  λ  where  1),  (  )  1  ( l  (3.1)  其中, b:題庫題本數;  t:題庫試題區塊數;  k:每一題本試題區塊數, k = 3 ;  r:每個試題區塊在題本中出現的次數; l:成對試題區塊出現在相同區塊位置的次數。 由式子(3.1)找出符合的 BIB 設計整理如下表: 表 3­2  BIB 設計表 等化設計  r l  BIB1  7  7  3  3  1  BIB2  12  9  3  4  1  BIB3  26  13  3  6  1  表 3­2 為本研究中 BIB 設計之參數設定,依序命名為 BIB1、BIB2、BIB3, 以下將介紹此三種設計,下列為各種設計表之代號意義:  S :題本序號, i = 1 K ,  , , w = 1 , 2 , 3 ; 其中: 1 7 , 2 12 , 3 26 ;  :題庫試題區塊, j = 1 , K , w = 1 , 2 , 3 ; 其中: 1 7 , 2 9 , 3 13 ;  :區塊; l = 1 , 2 , 3 ; 其中:b為題本數,w為設計編號,l為區塊位置。

(32)

本研究的  BIB1 和  BIB2 設計係依據曾玉琳等人(2005)所設計;BIB3  設計係 依據 van  der  Linden,  Veldkamp  &  Carlson(2004),26 個題本、13 個試題區塊的最 佳 BIB 設計,以下將介紹三種 BIB 設計模式。

壹、BIB1 設計 

BIB1 設計共包含 7 個題本( b = 7 )、7 個試題區塊( t = 7 )、每個題本包含 3 個 試題區塊( k = 3 )、每一試題區塊在題本中出現的次數為  3  次( r = 3 )、及成對試題 區塊在題本中出現的次數只有 1 次( l =1 )。根據 BIB 設計之條件,可知每個題本 中試題區塊的組合不重複,例如:題本 S 1 試題區塊配置為 M 1 、 M 2 、 M 4 ,則 S 2 至  題本中不會出現試題區塊 、 、 的組合;試題區塊在所有題本配置中 會重複出現  3  次,例如:試題區塊 M 1 出現在題本 S 1 、 S 5 、 S 7 中,依此類推,詳 如表 3­3。 表 3­3  BIB1 設計表 題本序號 區塊( k 1 )  區塊( k 2 )  區塊( k 3  M 3  M 5  M 6  M 4  M 5  M 7  M 5  M 6  M 1  M 3 

貳、BIB2 設計 

BIB2 設計共包含 12 個題本、9 個試題區塊、每個題本包含 3 個試題區塊、 每一試題區塊在題本中出現的次數為 4 次、及成對試題區塊在題本中出現的次數 只有 1 次。其試題區塊配置規則亦根據 BIB 設計之條件,可參考 BIB1 設計之說 明,詳見表 3­4。

(33)

表 3­4  BIB2 設計表 題本序號 區塊( k 1 )  區塊( k 2 )  區塊( k 3  M 5  M 8  M 5  M 7  10  M 3  M 6  11  12  M 3  M 5  M 9 

參、BIB3 設計 

BIB3 設計共包含 26 個題本、13 個試題區塊、每個題本包含 3 個試題區塊、 每一試題區塊在題本中出現的次數為 6 次、及成對試題區塊在題本中出現的次數 只有 1 次。而其試題區塊配置規則亦根據 BIB 設計之條件,可參考 BIB1 設計之 說明,詳見表 3­5。

肆、題數及人數設定

一、題數設定 本研究模擬每個題本試題數為  30  題,每個題本有  3  個區塊,每個試題區塊 試題數為 10 題。在 BIB 設計中,兩年度總題數為各年度施測總題數的兩倍,再 扣除不同年度定錨試題數,故兩年度總題數會隨著定錨題數的多寡而有所不同。 詳如表 3­6。

(34)

表 3­5  BIB3 設計表 題本 序號 區塊  ( k 1 )  區塊  ( k 2 )  區塊  ( k 3 )  題本 序號 區塊  ( k 1 )  區塊  ( k 2 )  區塊  ( k 3  M 10  M 11  S 14  M 1  M 4  M 12  M 6  M 8  M 11  S 15  M 6  M 10  M 13  M 6  M 12  S 16  M 3  M 7  M 13  M 7  M 9  M 10  S 17  M 8  M 9  M 12  M 7  M 11  S 18  M 2  M 4  M 10  19  M 7  M 8  S 20  M 5  M 8  M 10  M 6  M 9  S 21  M 2  M 5  M 9  11  12  M 13  S 22  M 4  M 9  M 13  10  12  S 23  M 1  M 5  M 13  11  11  24  13  12  M 3  M 10  M 12  S 25  M 4  M 5  M 11  13  M 3  S 26  M 3  M 4  M 8  資料來源:van der Linden ,Veldkamp & Carlson,2004  表 3­6  BIB 設計在不同定錨比例之相關題數對照表 等化 設計 區塊 數 每個題本 定錨比例 每個題本 定錨題數 不同年度 總定錨題 數 各年度施 測總題數 兩年度施 測總題數  10%  3  7  70  133  20%  6  14  70  126  BIB1  7  30%  9  21  70  119  10%  3  9  90  171  20%  6  18  90  162  BIB2  9  30%  9  27  90  153  10%  3  13  130  247  20%  6  26  130  234  BIB3  13  30%  9  39  130  221  二、人數設定 依據 TASA 計畫 2005 年施測人數為 10000 人,2006 年施測人數為 7500 人, 本研究欲比較將人數降低為  5000  人之連結效果,故模擬三種受試人數,分別為

(35)

5000  人、7500  人及  10000  人,但為配合各種連結設計題本數的不同,因此本研 究各年度受試人數定為 5460 人、7644 人及 10920 人。詳如表 3­7。 表 3­7  BIB 設計人數對照表 等化設計 每個年度 受試人數 每個題本 受試人數 每個試題 受試人數 不同年度定錨 試題受試人數  5460  780  2340  4680  7644  1092  3276  6552  BIB1  10920  1560  4680  9360  5460  455  1820  3640  7644  637  2548  5096  BIB2  10920  910  3640  7280  5460  210  1260  2520  7644  294  1764  3528  BIB3  10920  420  2520  5040 

伍、定錨試題的選取及配置

定錨試題選取及配置之步驟如下: 一、設定定錨試題難度範圍 在張鈺卿等人(2006)的研究中指出兩種不同定錨試題選題方法,其中以似常 態分布選取方法較佳,也就是中間難度試題多,兩端難度試題少,故本研究採似 常態分布選取方法。此外,本研究欲比較從三種難度(b 值)範圍(­3~3、­2~2、­1~1)  中選取的定錨試題之連結效果,故依難度範圍分成五等分,依照不同設計訂定每 個等分選取定錨試題之比例,其比例如表 3­8。 二、挑選各等分中鑑別度較高之試題 依各等分所需之定錨題數選取鑑別度較高之試題,如在  BIB1  設計中,當難 度範圍為­3~3  時,等分一(難度範圍為­3~­1.8)需要定錨試題一題,就從試題難度  (b 值)落在該等分中的試題選取鑑別度最高的一題。其中,由於兩端試題數較少, 因此當該等分試題數少於所需定錨題數時,則由鄰近等分之試題補齊。

(36)

表 3­8  BIB 設計在不同定錨比例之相關題數對照表 等化 設計 每個題 本定錨 比例 等份一 等份二 等份三 等份四 等份五 不同年 度總定 錨題數  10%  1  1  3  1  1  7  20%  2  2  6  2  2  14  BIB1  30%  3  3  9  3  3  21  10%  1  2  3  2  1  9  20%  2  4  6  4  2  18  BIB2  30%  3  6  9  6  3  27  10%  1  3  5  3  1  13  20%  2  6  10  6  2  26  BIB3  30%  3  9  15  9  3  39  三、定錨試題在第二年度試題區塊的配置 將定錨試題依第一年度試題位置排序,依序排入第二年度試題區塊中,其排 列在每一區塊的前幾題,以 BIB1 設計定錨 3 題為例,每個區塊第一題皆放入定 錨試題,其餘 9 題為第二年度試題。其設計如表 3­9。 表 3­9  不同年度間 BIB 連結設計表 區塊序號 第二年度試題配置  A +  A +  A +  .. .  .. A + 其中, A j = n :年度間定錨試題區塊( A )包含n題定錨試題, j = 1 , K , w = 1 , 2 , 3 , 本研究欲探討每個題本定錨比例為 10%、20%及 30%,即定錨題數 n = 1 , 2 , 3  之連結效果;  :試題區塊, j = 1 , K , w = 1 , 2 , 3 ; 其中: 1 7 , 2 9 , 3 13 ;  :第二年度試題區塊, j = 1 , K , w = 1 , 2 , 3 ; 其中: 1 7 , 2 9 , 3 13 ;

(37)

第二節  NEAT 連結設計

本研究欲比較NEAT與BIB設計之連結效果,因此採用同於BIB設計中的三種 試題區塊數排列出三種NEAT設計。本研究將NEAT設計中,第一個試題區塊 M 1 設 定為定錨試題,將其整理成表3­10。 表 3­10  NEAT 設計表 等化設計  NEAT1  3  7  3  NEAT2  4  9  3  NEAT3  6  13  3 

表 3­10 為本研究中 NEAT 參數設計, 依序命名為 NEAT1、 NEAT2、 NEAT3, NEAT1 

設計與 BIB1 設計比較;NEAT2 設計與 BIB2 設計比較;NEAT3 設計與 BIB3 設 計比較。以下將介紹三種 NEAT 設計模式。

壹、NEAT1 設計 

NEAT1設計共包含3個題本( b = 3 )、7個試題區塊( t = 7 )、每個題本包含3個試 題區塊( k = 3 )。試題區塊 M 1 為NEAT設計之定錨試題區塊,其題本配置如表3­11。 表 3­11  NEAT1 設計表 題本序號 區塊( k 1 )  區塊( k 2 )  區塊( k 3  M 3  M 5  M 6  M 7 

貳、NEAT2 設計 

NEAT2 設計共包含 4 個題本、9 個試題區塊、每個題本包含 3 個試題區塊。 試題區塊 M 1 為 NEAT 設計之定錨試題區塊,其題本配置如表 3­12。

(38)

表 3­12  NEAT2 設計表 題本序號 區塊( k 1 )  區塊( k 2 )  區塊( k 3  M 3  M 5  M 8  M 9 

參、NEAT3 設計 

NEAT3 設計共包含 6 個題本、13 個試題區塊、每個題本包含 3 個試題區塊。 試題區塊 M 1 為 NEAT 設計之定錨試題區塊,其題本配置如表 3­13。 表 3­13  NEAT3 設計表 題本序號 區塊( k 1 )  區塊( k 2 )  區塊( k 3  M 3  M 6  M 7  M 8  M 9  M 10  M 11  12  M 13 

肆、題數及人數設定

一、題數設定 本研究模擬每個題本試題數為30題,每個題本有3個區塊,每個試題區塊試 題數為10題。在NEAT設計中,兩年度總題數為各年度施測總題數的兩倍,再扣 除不同年度總定錨題數,故兩年度總題數會隨著定錨題數的多寡而有所不同。詳 如表3­14。 二、人數設定 依據 TASA 計畫 2005 年施測人數為 10000 人,2006 年施測人數為 7500 人, 本研究欲比較將人數降低為  5000  人之連結效果,故模擬三種受試人數,分別為  5000  人、7500  人及  10000  人,但為配合各種連結設計題本數的不同,因此本研

(39)

究各年度受試人數定為 5460 人、7644 人及 10920 人。詳如表 3­15。 表3­14  NEAT設計在不同定錨比例之相關題數對照表 等化 設計 區塊 數 每個題本 定錨比例 每個題本 定錨題數 不同年度 總定錨題 數 各年度施 測總題數 兩年度施 測總題數  10%  3  3  70  137  20%  6  6  70  134  NEAT1  7  30%  9  9  70  131  10%  3  3  90  177  20%  6  6  90  174  NEAT 2  9  30%  9  9  90  171  10%  3  3  130  257  20%  6  6  130  254  NEAT 3  13  30%  9  9  130  251  表 3­15  NEAT 設計人數對照表 等化設計 每個年度 受試人數 每個題本 受試人數 各年及定錨試 題受試人數 兩年試題總 受試人數  5460  1820  5460  10920  7644  2548  7644  15288  NEAT1  10920  3640  10920  21840  5460  1365  5460  10920  7644  1911  7644  15288  NEAT 2  10920  2730  10920  21840  5460  910  5460  10920  7644  1274  7644  15288  NEAT 3  10920  1820  10920  21840 

肆、定錨試題的選取

定錨試題選取及配置之步驟如下: 一、設定定錨試題難度範圍 在張鈺卿等人(2006)的研究中指出兩種不同定錨試題選題方法,其中以似常 態分布選取方法較佳,也就是中間難度試題多,兩端難度試題少,故本研究採似 常態分布選取方法。此外,本研究欲比較從三種難度(b 值)範圍(­3~3、­2~2、­1~1) 

(40)

個等分選取定錨試題之比例,其比例如表 3­16。 二、挑選各等分中鑑別度較高之試題 依各等分所需之定錨題數選取鑑別度較高之試題,如在  NEAT1  設計中,當 難度範圍為­3~3  時,等分一(難度範圍為­3~­1.8)需要定錨試題一題,就從試題難 度(b  值)落在該等分中的試題選取鑑別度最高的一題。其中,由於兩端試題數較 少,因此當該等分試題數少於所需定錨題數時,則由鄰近等分之試題補齊。 表 3­16  NEAT 設計在不同定錨比例之相關題數對照表 等化 設計 每個題本 定錨比例 難度 範圍一 難度 範圍二 難度 範圍三 難度 範圍四 難度 範圍五 不同年 度總定 錨題數  10%  0  1  1  1  0  3  20%  1  1  2  1  1  6  NEAT  30%  1  2  3  2  1  9  三、定錨試題在第二年度試題區塊的配置 將定錨試題依第一年度試題位置排序,依序排入第二年度第一個試題區塊 中,因此,在 NEAT 設計中定錨試題會集中在同一個區塊。其設計如表 3­17。 表 3­17  不同年度間 NEAT 連結設計表 區塊序號 第二年度試題配置  A +  .. .  .. 其中, A =  :年度間定錨試題區塊( )包含n題定錨試題,本研究欲探討每題本 定錨比例為 10%、20%及 30%,即定錨題數 n = 3 , 6 , 9 之連結效果;  :試題區塊, j = 1 , K , w = 1 , 2 , 3 ; 其中: 1 7 , 2 9 , 3 13 ;  :第二年度試題區塊, j = 1 , K , w = 1 , 2 , 3 ; 其中: 1 7 , 2 9 , 3 13 ;

(41)

第三節 實驗情境與模擬資料產生

表 3­18 為本研究進行 BIB 與 NEAT 設計連結效果比較之共同變項設定,其 中,每個題本施測試題數為  30  題;每個題本配置的試題區塊數為  3  個;各年度 受試人數為配合等化設計分別為 5460 人、7644 人及 10920 人;在本研究中假定 第二年受試人數、測驗等化設計及受試者能力分布情況與第一年情況相同,也就 是說如果第一年受試人數為 5460 人、測驗等化採用 BIB 設計、受試者能力分布 為常態,則第二年受試人數、測驗等化設計及受試者能力分布皆與第一年相同。 表 3­18  BIB 與 NEAT 設計共同變項設定對照表 項目 設定 試題長度 每個題本施測題數 30 題 每個題本配置的試題區塊數  3 個 各年度受試人數  5460 人、7644 人、10920 人 受試者能力分布 常態、負偏態、雙峰,範圍為­3~3  鑑別度範圍為 0.5~2.5  難度範圍為­3~3  試題參數分布 猜測度範圍為 0~0.25  每個題本定錨比例  10%、20%、30%  定錨試題選題難度範圍  ­1~1、­2~2、­3~3  每一情形第二年度模擬次數  100 次 能力參數之產生: 先產生三種能力分布之 10920 人能力值,如圖 3­2 為不同年度常態、負偏態、 雙峰之受試者能力分布長條圖,將範圍界定於­3~3,再從中依序抽取  7644  人及  5460 人。 試題參數之產生: 先產生兩年度  130  題試題參數,其試題參數長條圖如圖  3­3,再依不同等化 設計由多至少依序抽取所需試題數,其試題參數設定如下:  1.  鑑別度參數 :依據 Mislevy(1986)的研究指出鑑別度參數模式近似於 lognormal 

(42)

2.  難度參數:為 N(0,1),將範圍界定於­3~3。 

3.  猜測度參數:依據 Swaminathan  &  Gifford(1986)的研究建議猜測度參數模式 採用 beta 先驗分布,故本研究猜測度參數為 beta(4,16)將範圍界定於 0~0.25。  ­3  ­2  ­1  0  1  2  3  0  200  400  600  800  1000  1200  第一年10920人受試者能力分布(常態)  人數   ­3  ­2  ­1  0  1  2  3  0  200  400  600  800  1000  1200  第二年10920人受試者能力分布(常態)  人數   ­3  ­2  ­1  0  1  2  3  0  100  200  300  400  500  600  700  800  900  第一年10920人受試者能力分布(偏態)  人數   ­3  ­2  ­1  0  1  2  3  0  100  200  300  400  500  600  700  800  第二年10920人受試者能力分布(偏態)  人數   ­3  ­2  ­1  0  1  2  3  0  100  200  300  400  500  600  700  800  第一年10920人受試者能力分布(雙峰)  人數   ­3  ­2  ­1  0  1  2  3  0  100  200  300  400  500  600  700  800  第二年10920人受試者能力分布(雙峰)  人數 圖 3­2  兩年度 10920 人能力分布長條圖

(43)

0.5  1  1.5  2  0  5  10  15  20  25  30  35  40  第一年130題試題鑑別度分布 題數   0.5  1  1.5  2  0  5  10  15  20  25  30  35  40  45  第二年130題試題鑑別度分布 題數   ­3  ­2  ­1  0  1  2  3  0  10  20  30  40  50  60  第一年130題試題難度分布 題數   ­3  ­2  ­1  0  1  2  3  0  10  20  30  40  50  60  第二年130題試題難度分布 題數   0  0.05  0.1  0.15  0.2  0.25  0  5  10  15  20  25  30  35  第一年130題試題猜測度分布 題數   0  0.05  0.1  0.15  0.2  0.25  0  5  10  15  20  25  30  35  40  45  第二年130題試題猜測度分布 題數 圖 3­3  兩年度 130 題試題參數長條圖

(44)

第四節 研究工具

壹、BILOG­MG軟體

本研究使用BILOG­MG(Zimowski, Muraki, Mislevy & Bock, 2003)進行參數估 計,利用邊際估計法(marginal maximal likelihood estimation, MMLE)與期望後驗法  (expected a posteriori, EAP) (Zimowski et al., 2003)來估計試題的鑑別度、難度與猜 測度參數與受試者能力值。其主要的指令設定如下:  1.不同題本採用FORM指令;  2.在CALIB中,NQPT=60, CYCLE=100, NEWTON=50, CRIT=0.005, TPRIOR,  NOADJUST;如資料為偏態或雙峰分布時,則再加入EMPIRICAL指令。  3.第二年的程式與第一年大同小異,需加入FIXED指令。

貳、MATLAB軟體 

MATLAB  語法簡單且擁有功能強大的函數庫,本研究利用此軟體模擬能力 參數與試題參數之真值以及作答反應,並進行資料檔案轉換與計算估計誤差。

參、SPSS 軟體

本研究使用SPSS12.0中文視窗版軟體進行測驗的單向度檢定,將所有題本之 作答反應進行因素分析,陡坡圖如下所示,可發現本測驗符合單向度檢定,可進 行參數IRT之分析。 圖3­4  模擬測驗之因素分析陡坡圖

(45)

第四章 研究結果

本章分為三節,第一節為 BIB 設計連結後估計結果;第二節為 NEAT 設計連 結後估計結果;第三節為 BIB 與 NEAT 設計連結後估計結果之綜合比較;將其估 計誤差以圖表表示,其中橫軸表示各種等化設計情境,代號為  N_R_m,N  為第 二年度受試者人數(N=5460、7644、10920),R 為選題難度範圍之全距(R=2、4、  6),m 為每個題本定錨試題比例(m=1、2、3),以 1 代表 10%、2 代表 20%、3 代 表 30%,詳細結果將在附錄呈現。

第一節  BIB 設計等化後估計結果

壹、受試者能力在常態分布下的連結效果

一、受試者能力參數比較 由圖 4­1 可得下列結果:  (一)  在三種施測人數中,受試者能力參數估計誤差差異不明顯。  (二)  在三種試題區塊數中,受試者能力參數大致上以 BIB2 設計連結效果較 BIB3  效果佳,而 BIB1 估計誤差和其他設計差異不明顯。  (三)  在不同定錨比例中,受試者能力參數大致上以定錨比例為 20%之連結效果最 佳。  (四)  在不同難度範圍中,受試者能力參數大致上以難度範圍為  R=2  之連結效果 最佳。 能力參數連結誤差比較  0.2900  0.2950  0.3000  0.3050  60_2 _1  60_2 _2  60_2 _3  60_4 _1  60_4 _2  60_4 _3  60_6 _1  60_6 _2  60_6 _3  44_2 _1  44_2 _2  44_2 _3  44_4 _1  44_4 _2  44_4 _3  44_6 _1  44_6 _2  44_6 _3  920_ 2_1  920_ 2_2  920_ 2_3  920_ 4_1  920_ 4_2  920_ 4_3  920_ 6_1  920_ 6_2  920_ 6_3  R M S E  BIB1 BIB2 BIB3

(46)

二、試題參數比較  (一)鑑別度參數比較 鑑別 度參數連 結誤差 比較  0.0900  0.1100  0.1300  0.1500  0.1700  0.1900  0.2100  5460 _2_1   5460 _2_2   5460 _2_3   5460 _4_1   5460 _4_2   5460 _4_3   5460 _6_1   5460 _6_2   5460 _6_3   7644 _2_1   7644 _2_2   7644 _2_3   7644 _4_1   7644 _4_2   7644 _4_3   7644 _6_1   7644 _6_2   7644 _6_3   1092 0_2_ 1  1092 0_2_ 2  1092 0_2_ 3  1092 0_4_ 1  1092 0_4_ 2  1092 0_4_ 3  1092 0_6_ 1  1092 0_6_ 2  1092 0_6_ 3  R M S E   BIB1 BIB2 BIB3 圖 4­2  BIB 設計在常態分布下鑑別度參數 RMSE 圖 由圖 4­2 可得下列結果:  1.在三種施測人數中,鑑別度參數估計誤差大致上隨著人數增加而減少。  2.在三種試題區塊數中,鑑別度參數估計誤差大致上隨著區塊數增加而變大。  3.在不同定錨比例中,當  BIB3  設計定錨比例為  20%時,鑑別度參數連結效果最 佳,而其他設計則差異不明顯。  4.在不同難度範圍中,鑑別度參數連結效果差異不明顯。  (二)難度參數比較 由圖 4­3 可得下列結果:  1.在三種施測人數中,難度參數估計誤差大致上隨著人數增加而減少。  2.在三種試題區塊數中,難度參數估計誤差大致上隨著區塊數增加而變大。  3.在不同定錨比例中,當  BIB3  設計之定錨比例為  30%時,難度參數連結效果最 佳,而其他設計則差異不明顯。  4.在不同難度範圍中,難度參數連結效果差異不明顯。

(47)

難度參數連結誤差比較  0.0600  0.0700  0.0800  0.0900  0.1000  0.1100  0.1200  0.1300  5460 _2_1   5460 _2_2   5460 _2_3   5460 _4_1   5460 _4_2   5460 _4_3   5460 _6_1   5460 _6_2   5460 _6_3   7644 _2_1   7644 _2_2   7644 _2_3   7644 _4_1   7644 _4_2   7644 _4_3   7644 _6_1   7644 _6_2   7644 _6_3   1092 0_2_ 1  1092 0_2_ 2  1092 0_2_ 3  1092 0_4_ 1  1092 0_4_ 2  1092 0_4_ 3  1092 0_6_ 1  1092 0_6_ 2  1092 0_6_ 3  R M S E  BIB1 BIB2 BIB3 圖 4­3  BIB 設計在常態分布下難度參數 RMSE 圖  (三)猜測度參數比較 猜測度 參數連結誤 差比較  0.0250  0.0300  0.0350  0.0400  0.0450  5460 _2_1   5460 _2_2   5460 _2_3   5460 _4_1   5460 _4_2   5460 _4_3   5460 _6_1   5460 _6_2   5460 _6_3   7644 _2_1   7644 _2_2   7644 _2_3   7644 _4_1   7644 _4_2   7644 _4_3   7644 _6_1   7644 _6_2   7644 _6_3   1092 0_2_ 1  1092 0_2_ 2  1092 0_2_ 3  1092 0_4_ 1  1092 0_4_ 2  1092 0_4_ 3  1092 0_6_ 1  1092 0_6_ 2  1092 0_6_ 3  R M S E  BIB1 BIB2 BIB3 圖 4­4  BIB 設計在常態分布下猜測度參數 RMSE 圖 由圖 4­4 可得下列結果:  1.在三種施測人數中,猜測度參數估計誤差大致上隨著人數增加而減少。  2.在三種試題區塊數中,猜測度參數估計誤差大致上隨著區塊數增加而變大。  3.在不同定錨比例中,當  BIB3  設計之定錨比例為  10%時,猜測度參數連結效果 最佳,而其他設計則差異不明顯。  4.在不同難度範圍中,猜測度參數連結效果差異不明顯。

(48)

貳、受試者能力在負偏態分布下的連結效果

一、受試者能力參數比較 能力參數連 結誤差比較  0.7500  0.7700  0.7900  0.8100  0.8300  0.8500  5 4 6 0 _ 2 _ 1   5 4 6 0 _ 2 _ 2   5 4 6 0 _ 2 _ 3   5 4 6 0 _ 4 _ 1   5 4 6 0 _ 4 _ 2   5 4 6 0 _ 4 _ 3   5 4 6 0 _ 6 _ 1   5 4 6 0 _ 6 _ 2   5 4 6 0 _ 6 _ 3   7 6 4 4 _ 2 _ 1   7 6 4 4 _ 2 _ 2   7 6 4 4 _ 2 _ 3   7 6 4 4 _ 4 _ 1   7 6 4 4 _ 4 _ 2   7 6 4 4 _ 4 _ 3   7 6 4 4 _ 6 _ 1   7 6 4 4 _ 6 _ 2   7 6 4 4 _ 6 _ 3   1 0 9 2 0 _ 2 _ 1   1 0 9 2 0 _ 2 _ 2   1 0 9 2 0 _ 2 _ 3   1 0 9 2 0 _ 4 _ 1   1 0 9 2 0 _ 4 _ 2   1 0 9 2 0 _ 4 _ 3   1 0 9 2 0 _ 6 _ 1   1 0 9 2 0 _ 6 _ 2   1 0 9 2 0 _ 6 _ 3   R M S E  BIB1 BIB2 BIB3 圖 4­5  BIB 設計在負偏態分布下能力值 RMSE 圖 由圖 4­5 可得下列結果:  (一)  在三種施測人數中,受試者能力參數估計誤差差異不明顯。  (二)  在三種試題區塊數中,受試者能力參數估計誤差差異不明顯。  (三)  在不同定錨比例中,受試者能力參數大致上以定錨比例為 30%之連結效果最 佳。  (四)  在不同難度範圍中,受試者能力參數大致上以難度範圍為  R=2  之連結效果 最佳。 二、試題參數比較  (一)鑑別度參數比較 鑑別度參數連結誤差比較  0.6000  0.6500  0.7000  0.7500  0.8000  5460 _2_1   5460 _2_2   5460 _2_3   5460 _4_1   5460 _4_2   5460 _4_3   5460 _6_1   5460 _6_2   5460 _6_3   7644 _2_1   7644 _2_2   7644 _2_3   7644 _4_1   7644 _4_2   7644 _4_3   7644 _6_1   7644 _6_2   7644 _6_3   1092 0_2_ 1  1092 0_2_ 2  1092 0_2_ 3  1092 0_4_ 1  1092 0_4_ 2  1092 0_4_ 3  1092 0_6_ 1  1092 0_6_ 2  1092 0_6_ 3  R M S E  BIB1 BIB2 BIB3 圖 4­6  BIB 設計在負偏態分布下鑑別度參數 RMSE 圖

參考文獻

相關文件

In this Research, the Analytic Hierarchy Process and Case Study Method are used, from which three main factors affecting the work progress were obtained: “Encountering of

The main purpose of this study is to explore the status quo of the food quality and service quality for the quantity foodservice of the high-tech industry in Taiwan;

The purpose of the study is to explore the relationship among variables of hypermarkets consumers’ flow experience and the trust, the external variables, and the internal variables

The main purpose of this research was to explore the learning performance of grade 7 students with different competencies during mathematics problem posing instruction.. According

The main purpose of this study is to explore the work enthusiasm of the Primary School Teachers, the attitude of the enthusiasm and the effect of the enthusiasm.. In this

The purpose of this study was to explore the knowledge management status of elementary excellent teachers, strategy used and promoting factors.. A questionnaire

The purpose of this research is to explore the implementation of problem posing teaching activities in the seventh grade math class, including cooperative posing and individual

The purpose of this study is to examine the teaching process with the integration of games which has been used in number and calculation instructions for fifth grade