應用可能值方法於大型測驗不同年度間連結方法之效果探究

(1)

國立臺中教育大學教育測驗統計研究所碩士論文

指導教授：郭伯臣博士

應用可能值方法於大型測驗不同

年度間連結方法之效果探究

研究生：李德弘撰

中

華

民

國

一

○ 二

年

七

月

(2)

(3)

摘要

許多大型教育測驗提供的資料型態多為可能值，而次級資料分析者再利用其資料進行統計分析。由於受測者與試題數量眾多，同時考量時間與受測者疲勞等因素，因此在同一年度之間都採用等化的方式，將進行不同題本測驗的受測者成就放至同一量尺上以利比較。而隨著教育政策的改變或是教學方式的改進，相同年級與背景的受測者所擁有的能力便有所不同，因此不同年度間的測驗結果也不能直接比較，因此年度間的成績是必須透過測驗連結的方式，才能進行分析比較。然而不同大型測驗皆使用不同的連結方法，但未有相關文獻探討在使用可能值方法時，各種連結方法之比較。因此本研究採用模擬資料探討不同的研究變項（年度間差距、人數、向度數與題數）於不同的測驗連結方法下，使用可能值方法對於回復新年度的群體參數估計之效果。本研究結果發現，在年度間能力沒有差距時，同時校準法的效果最好，PISA 連結法跟固定試題參數法的效果較差。當年度間能力差距增加時，同時估計法的效果隨之變差，而 TIMSS 連結法在年度間有差距時表現最好。此外，人數的增加可以改善估計效果，但是 5600 人與 8400 人的結果差異不大。而增加題數可以降低估計誤差，但在向度內試題數皆相同時，兩個向度與四個向度的估計成效沒有明顯差異。關鍵字：可能值、測驗連結、大型測驗。

(4)

Abstract

Population statistics is one of the main focuses of large-scale assessments such as means and standard deviations. Since the numbers of examinees and items are enormous, large-scale assessments use equating methods to make sure that every examinee takes different booklets are on the same scale. Therefore, examinees score can be compared even if they didn’t take the same test. The scores in different year can also be compared by linking procedure. The purpose of this study is to explore the performance of different manipulate factors based on linking methods used by large-scale assessments. The results show that concurrent method outperforms when recovers the population parameters under the assumption of no difference between two assessment years. TIMSS linking method is better than the others, when there are differents in population means, and concurrent method will reduce its accuracy. When the number of examinees is increasing, the bias will decresing, but difference between 5600 people and 8400 people is not obvious. Results also show that having longer test length can raise more accuracy, but with same test length, 2 dimensions and 4 dimensions have no obvious difference.

(5)

摘要 ... I ABSTRACT ... II 目次 ... III 表目錄 ... V 第一章緒論 ... 1 第一節研究動機 ... 1 第二節名詞解釋 ... 3 第二章文獻探討 ... 5 第一節試題反應理論 ... 5 第二節測驗等化 ... 6 第三節可能值方法 ... 10 第四節測驗連結 ... 13 第三章研究方法 ... 17 第一節研究流程 ... 17 第二節模擬研究設計 ... 18 第三節模擬實驗步驟 ... 24 第四節研究工具 ... 25 第五節評估準則 ... 25 第四章研究結果 ... 27 第一節探究比較各種連結方法 ... 27 第二節在不同情境下，不同連結法估計效果之比較... 28 第五章結論與建議 ... 55 第一節結論 ... 55 第二節未來研究建議 ... 56

(6)

參考文獻 ... 57 中文部分 ... 57 英文部分 ... 58 附錄一 ... 61 附錄二 ... 67 附錄三 ... 73

(7)

表目錄

表表表 表 2-1 TIMSS2007 年題本區塊設計表 ... 8 表表表 表 2-2 PISA2009 年題本區塊設計表 ... 9 表表表 表 3-1 研究共同變項設定 ... 19 表表表 表 3-2 TIMSS 2007 與歷年八年級數學成就量尺分數差異對照表 ... 19 表表表 表 3-2 兩個向度的 BIB 設計等化設定 ... 23 表表表 表 3-3 四個向度的 BIB 設計等化設定 ... 23 表表表 表 4-1 各種連結方法估計結果與前一年度之比較 ... 28

(8)

圖目錄

圖圖圖 圖 2-1 TIMSS 及 NAEP 連結方法流程圖 ... 14 圖圖圖 圖 2-2 PISA 連結方法流程圖 ... 15 圖圖圖 圖 3-1 研究流程圖 ... 18 圖圖圖 圖 4-2-1 受測人數為 2100 時，群體能力平均之 RMSE ... 29 圖圖圖 圖 4-2-2 受測人數為 2100 時，群體能力標準差之 RMSE ... 30 圖圖圖 圖 4-2-3 受測人數為 5600 時，群體能力平均之 RMSE ... 32 圖圖圖 圖 4-2-4 受測人數為 5600 時，群體能力標準差之 RMSE ... 33 圖圖圖 圖 4-2-5 受測人數為 8400 時，群體能力平均之 RMSE ... 35 圖圖圖 圖 4-2-6 受測人數為 8400 時，群體能力標準差之 RMSE ... 36 圖圖圖 圖 4-2-7 年度間差距為 0 時，群體能力平均數之 RMSE ... 38 圖圖圖 圖 4-2-8 年度間差距為 0 時，群體能力標準差之 RMSE ... 39 圖圖圖 圖 4-2-9 年度間差距為 0.2 時，群體能力平均數之 RMSE ... 41 圖圖圖 圖 4-2-10 年度間差距為 0.2 時，群體能力標準差之 RMSE ... 42 圖圖圖 圖 4-2-11 年度間差距為 0.4 時，群體能力平均數之 RMSE ... 44 圖圖圖 圖 4-2-12 年度間差距為 0.4 時，群體能力標準差之 RMSE ... 45 圖圖圖 圖 4-2-13 年度間差距為 0 時，群體能力平均數之 RMSE ... 47 圖圖圖 圖 4-2-14 年度間差距為 0 時，群體能力標準差之 RMSE ... 48 圖圖圖 圖 4-2-15 年度間差距為 0.2 時，群體能力平均數之 RMSE ... 50 圖圖圖 圖 4-2-16 年度間差距為 0.2 時，群體能力標準差之 RMSE ... 51 圖圖圖 圖 4-2-17 年度間差距為 0.4 時，群體能力平均數之 RMSE ... 53 圖圖圖 圖 4-2-18 年度間差距為 0.4 時，群體能力標準差之 RMSE ... 53

(9)

第一章

第一章緒論

緒論

本研究主要探討大型測驗所使用之不同連結方法之差異，並透過模擬研究，探討不同連結方法於不同情境設計，回復不同年度間的群體能力參數之成效。本章將針對研究動機、研究目的與名詞解釋進行闡述。

第一節

第一節研究動機

研究動機

為了檢視學生的學習成就與變化趨勢，許多國家皆透過大型測驗建立學生學習資料庫，以做為教學改進與制定政策的依據。國際上著名的「國際數學與科學教育成就趨勢調查（ Trends in International Mathematics and Science Study,

TIMSS）」、「國際學生評量（The Programme for International Student Assessment, PISA）」、「促進國際閱讀素養研究（Progress in International Reading Literacy Study, PIRLS）」，或是美國自行實施的「國家教育進展評量（National Assessment of Educational Progress, NAEP）」以及臺灣於 2006 年成立的「台灣學生學習成就評

量資料庫（Taiwan Assessment of Student Achievement, TASA）」，皆屬於紀錄追蹤學生學習趨勢的大型測驗。

然而，為了研究學生學習成就的趨勢，了解不同年度間學生的學習成效。在建置大型測驗資料庫的過程中，透過測驗連結的方法，能將不同年度之間的測驗分數，放置於相同的量尺上再進行比較。譬如 TIMSS 與 NAEP 先使用同時估計法估計學生能力參數，再利用線性轉換的原理回復新年度的群體參數（Allen,

Donoghue, & Schoeps, 2001 ; John, Michael, & Ina, 2008）；PISA 則使用試題參數

等化法先估計新年度的試題參數，進而估計出群體的能力參數（OECD, 2009）。由於大型測驗皆為固定實施，且兩次測驗之間的間隔較長，如 TIMSS 每 4 年實施一次、PISA 每 3 年實施一次、NAEP 則是每 2 年實施一次；並且對於已經公佈之試題參數是很難去修正的，因此新年度的估計量尺必須去配合舊年度的估計量尺，如此一來，不同的連結方式就會造成不同的估計結果。而這些大型測驗在同年度不同題本之間都使用同時估計法來做為水平等化的方法（Allen, Donoghue, &

(10)

Schoeps, 2001 ; John, Michael, & Ina, 2008），但是在不同年度間的連結時所使用

的連結方法又不盡相同（Foy, Galia, & Li, 2008；Qian, Isham, Worthington, & Liang,

2001；OECD, 2009）。因此，如何將兩個年度間的分數或是成就表現做適當的連結便成為重要的議題，若是使用的方法不正確或是未能確切反映受測者的情況，則連結後的結果很可能會與真實情況誤差過大。目前國內測驗等化或是測驗連結的相關研究有關於不同 BIB 設計對測驗等化的影響（曾玉琳、王暄博、郭伯臣、許天維, 2006），但是該研究是比較相同年度中不同等化設計下，同時估計法或是分開估計法的優劣，並且所討論之結論為個體能力的估計效果。而王敏嫻（2011）則是探討了使用可能值方法，對於在單向度不同等化設計下，群體能力的回復效果，此研究著重於不同估計方法在相同年度之能力估計成效。詹慧君（2011）對於不同年度間的單向度測驗連結方法做比較，該研究使用期望後驗估計法去做參數的估計，著重於個體能力的估計。大型測驗的測驗架構中，每一個科目下都包含著不同的內容領域，以 TIMSS 2007 八年級數學科為例，包含了數（number）、代數（algebra）、幾何（geometry）

以及資料與機率（data and chance）四個內容領域（Ruddock, O’Sullivan, Arora &

Erberber, 2008）。故僅以單一能力值描述整個群體便顯得有所不足，因此使用多

向度試題反應理論作為整體架構能夠得到更多的訊息。至於參數估計方面，相較於傳統的點估計方法，如最大概似估計法、期望後驗估計法，可能值方法對於回復群體參數有較好的回復性（von Davier, Gonzalez, & Mislevy, 2009；王敏嫻，

2011）。國際上的許多大型測驗亦以可能值方法作為群體特性之描述（Allen, Carlson, Johnson, & Mislevey, 2001；Foy, Galia, & Li, 2008；OECD, 2009）。

故本研究將在多向度試題反應理論的架構下，以可能值方法估計受試者能力參數，以求配合大型測驗實際情況，探討不同情境設計下，各個大型測驗所使用的連結方法之估計成效。

(11)

研究目的：本研究欲探討不同連結方法於不同年度間回復群體參數之效果，包括同時估計法、固定試題參數法、TIMSS 使用之連結方法以及 PISA 使用之連結方法。本研究之變項包含：連結方法、向度個數、題本長度、兩年度受測者能力差距以及受測者人數。根據上述，將研究目的條列如下：壹、探究比較各種連結方法。貳、在不同情境下，不同連結法估計效果之比較。本研究依據上述研究目的，條列出待答問題如下： 1、群體年度間差異大小對於估計效果的影響。 2、人數多寡對於估計效果影響的程度。 3、各種連結方法的估計成效。

第二節

第二節名詞解釋

名詞解釋

壹、測驗等化（equating）在不完全相同但是測量相同特質的測驗題本中，利用數學方式將兩份測驗的量尺轉換至相同的量尺，以利比較接受不同測驗的受測者的成績。本研究是指在相同測驗年度中，使用 BIB 等化設計，將不同題本之間利用相同的試題區塊，將所有的試題放至相同的量尺上。貳、測驗連結（linking）測驗連結為一個程序，能將一份測驗的分數轉換至另一份測驗的量尺上，使其分數能夠直接互相比較。本研究是將新年度的分數轉換至舊年度的量尺，並探討不同的測驗連結方法對於參數估計之影響。參、評估指標本研究使用真值與估計值的根均方差（RMSE）作為評估準則，如公式 1-1

(12)

2 1 ˆ ( ) ˆ ( , ) N k k k a a RMSE a a N = − =

∑

（公式 1-1）其中k表示資料個數，k=1, 2, 3...,N ； 1 2 3 ( , , ,..., _N) a= a a a a ：表示真值； 1 2 3 ˆ ( ,ˆ ˆ ˆ, ,...,ˆ_N) a= a a a a ：表示估計值。當 RMSE 越小，表示估計值與真值之誤差越小，其估計效果越好。

(13)

第二章

第二章文獻探討

文獻探討

本研究是以多向度試題反應理論模式下以可能值方法進行能力估計，並探討不同年度間於不同情境下，比較不同測驗連結方法對於回復群體能力參數之效果，以下將針對：一、試題反應理論；二、可能值方法；三、測驗等化；三個部分進行文獻的整理與探討。

第一節

第一節試題反應理論

試題反應理論

試題反應理論（item response theory, IRT）主要是以個別試題的觀點，來解釋測驗分數的涵義。它認為學生在某一試題上的表現情形，與其背後的某種潛在特質（或能力）之間具有某種關係存在，該關係可以透過一條連續性遞增的數學函數來加以表示和詮釋，這個數學函數便稱作「試題特徵曲線」（item characteristic curve, ICC）。該數學函數的涵義是在表示學生的能力與其在該試題上做出正確反應兩者之間的可能關係。（余民寧，2009）。在二元計分的測驗中，受測者對於某題的作答反應機率函數可用下列數學公式（Rasch, 1960 ）表示 1 ( ) ( 1| , ) 1 exp[ ( )] i j ij j i j i P P X b b θ θ θ = = = + − − （公式 2-1-1）其中Pi( )θj 為擁有能力值為θj的受測者 j在第i題答對的機率，bi為第i題的難度參數。由於上述公式中對於試題的描述僅有bi一項，故此模式稱之為單參數對

數模式（one-parameter logistic model, 1PL）又稱為 Rasch 模式。另外在二元計分的測驗架構下還有二參數對數模式（two-parameter logistic model, 2PL）與三參數對數模式（three-parameter logistic model, 3PL）。

本研究是採用多向度隨機係數模式（Multidimensional Random Coefficients

(14)

Wilson and Wang（1997）所提出的，該模式為 Rasch 模式的延伸，故每一題的

試題參數亦只有一個。MRCMLM 除了應用於二元計分，亦可以使用於部分給分模式（partial credit model）跟評定量尺模式（rating scale model）。隨著模式中設計矩陣（design matrix）與計分矩陣（scoring matrix）的設定，MRCMLM 也可以描述題間多向度與題內多向度的作答反應（Kennedy,2005）。本研究所採用的是二元計分且為題間多向度的架構，所以將針對多向度二元計分模式作介紹。 MRCMLM 的作答反應機率函數如下 exp[ '( )] ( ; | ) exp[ '( )] j j j z x B A P x z B A θ ξ ξ θ θ ξ =Ω − = −

∑

（公式 2-1-2）其中x是受測者的作答反應組型，答對記為 1，答錯則記為 0，ξ 為整份測驗的試題參數向量，θ_j 是第 j 個受測者相對於各向度間的能力向量，z 則是所有可能作答反應組型。另外公式中的 A 稱為設計矩陣，B 稱為計分矩陣；計分矩陣是表示題目與向度間的關係，而設計矩陣是表示題目與試題參數間的關係。由於本研究是採用二元計分模式，故受測者的可能作答反應只有完全答對或是完全答錯兩種結果，因此上述公式可以化簡為下列數學式 exp( ) ( 1; | ) exp( ) 1 j j j B A P x B A θ ξ ξ θ θ ξ − = = − + （公式 2-1-3）因為本研究以二元計分多向度 IRT 為架構，故使用 MRCMLM 作為模擬作答反應之機率模式。

第二節

第二節測驗等化

測驗等化

在實施大型測驗時，由於作答時間有限且題庫中試題數眾多，等化設計是一種常見的測驗實施方式。通過等化設計，可以將每個試題都給予測驗，並且單一受測者並不需要做完題庫中所有的試題。測驗等化設計有許多的方法，如定錨不

(15)

等組設計（NEAT）與平衡不完全區塊設計（BIB）。目前國內有王暄博（2006）針對大型測驗中 NEAT 與 BIB 等化法之比較，以及王敏嫻（2011）也以單向度試題反應理論為基礎去探討在不同等化設計在水平等化中，可能值方法與其他估計方法在回復個體以及群體能力參數的效果。本研究係參考 TIMSS 與 PISA 的等化方式，由於這兩個測驗皆採用 BIB 設計作為其等化方式，故以下將針對 BIB 設計與這兩個大型測驗的等化方式作介紹。

壹

壹、

、

、平衡不完

平衡不完

平衡不完全區塊設計

全區塊設計

全區塊設計（

（

（balanced incomplete block design, BIB）

）

BIB 設計是將題庫中的題目分成若干個區塊，而區塊之間的試題並不重複，而受試者僅需接受部分區塊的試題，而不同的受測者可能會接受到完全相同、部分相同或是完全不同的區塊。最後再將所有受測者的作答反應資料堆疊後進行能力與試題參數的估計（曾玉琳、王暄博、郭伯臣、許天維，2006）。由於 BIB 設計是將試題區塊與題本的配置方式採用螺旋（spiral）排列的方式，此方式可使每一個試題區塊的施測次數相同，也就是說題庫中所有的試題被挑出來接受測驗的次數皆相同（van der Linden, Veldkamp & Carlson, 2004；Nemhauser & Wolsey,

1999）。此設計在沒有限制作答時間的條件下，必須符合下列條件： 1 , 1,..., t ib i X k b B = = =

∑

（公式 2-2-1） 1 , 1,..., B ib b X r i t = ≤ =

∑

（公式 2-2-2） 1 , 1,..., B ijb b X λ i j t = ≥ ≤ =

∑

（公式 2-2-3） 2 , 1,.... 1,..., ib jb ijb X +X ≥ z i< =j t b= B （公式 2-2-4）其中： b 指題本代號 b=1,...,B； k 指每個題本所配置的區塊數； r 指試題區塊在所有題本中出現的次數；

(16)

i 指題庫中個別區塊的代號 i=1,..., t ； j 指題庫中成對區塊中第二個區塊的代號 j=1,...,N ； λ指成對試題區塊出現在相同區塊位置的次數； ib x 指試題區塊與題本的配置組型，其中 x_ib∈{0,1} , =1,...,b B i=1,..., t ； ijb z 指成對試題區塊與題本的配置組型，其中zijb∈{0,1} , =1,...,b B i< =j 1,..., t ；除此之外，BIB 設計必須符合三項基本限制： 1、每一個題本內的試題區塊數要相同； 2、2.試題區塊做結合以求出最小的題本數； 3、3.每一個試題區塊在所有題本中出現的次數要相同。但是在實際設計的時候，也需考慮試題的內容、形式與作答時間（王暄博，2006）。

貳

貳、

、

、TIMSS 所使用的

所使用的

所使用的 BIB 等化設計

所使用的

等化設計

以 TIMSS 2007 為例，該次測驗一共有 14 個題本（Booklet），每個題本是由四個區塊組合而成，分別為數學區塊（M01~M14）以及科學區塊（S01~S14）各兩個區塊。每個試題區塊在題本中出現 2 次（, Christine, Alka, & Ebru, 2008）。表 2-1 為 TIMSS 2007 年的 BIB 設計。表表表 表 2-1 TIMSS2007 年題本區塊設計表題本編號區塊 1 區塊 2 區塊 3 區塊 4 題本編號區塊 1 區塊 2 區塊 3 區塊 4 題本 1 M01 M02 S01 S02 題本 8 S08 S09 M08 M09 題本 2 S02 S03 M02 M03 題本 9 M09 M10 S09 S10 題本 3 M03 M04 S03 S04 題本 10 S10 S11 M10 M11 題本 4 S04 S05 M04 M05 題本 11 M11 M12 S11 S12 題本 5 M05 M06 S05 S06 題本 12 S12 S13 M12 M13 題本 6 S06 S07 M06 M07 題本 13 M13 M14 S13 S14 題本 7 M07 M08 S07 S08 題本 14 S14 S01 M14 M01

(17)

參

參、

、

、PISA 所使用的

所使用的

所使用的 BIB 等化設計

等化設計

相對於 PISA2006 的主軸為科學，2009 測驗的主軸是閱讀，因此閱讀的題目數較多。PISA2009 將題本區分為兩大類型，分別是標準題本組（standard booklet

set）與較簡單題本組（easier booklet set），較簡單題本組是提供給在 PISA2006

中閱讀表現在 450 分以下以及在 2008 年預試時閱讀成績也是相同程度的新加入國家。兩類題本皆由四個區塊組成，包含 7 個閱讀區塊（R1~R7）、3 個數學區塊（M1~M3）以及 3 個科學區塊（S1~S3）；其中 R3 與 R4 分別有標準難度 R3A 與 R4A 以及難度較低的 R3B 與 R4B。每一個試題區塊在一組題本組中出現的次數都是四次；此外 PISA2009 亦準備了一份題數較少的測驗題本（UH Booklet）給特殊需求的學生（OECD, 2009）。表 2-2 為 PISA2009 年的題本設計。表表表 表 2-2 PISA2009 年題本區塊設計表（續下頁）

資料來源︰PISA2009 Technical Report（p.30）題本題本題本題本區塊區塊區塊 1 區塊區塊區塊區塊區塊 2 區塊區塊 3 區塊區塊區塊區塊區塊區塊 4 標準題本組標準題本組標準題本組標準題本組 較簡單題本組較簡單題本組較簡單題本組較簡單題本組 題本 1 M1 R1 R3A M3 Y 題本 2 R1 S1 R4A R7 Y 題本 3 S1 R3A M2 S3 Y 題本 4 R3A R4A S2 R2 Y 題本 5 R4A M2 R5 M1 Y 題本 6 R5 R6 R7 R3A Y 題本 7 R6 M3 S3 R4A Y 題本 8 R2 M1 S1 R6 Y Y 題本 9 M2 S2 R6 R1 Y Y 題本 10 S2 R5 M3 S1 Y Y 題本 11 M3 R7 R2 M2 Y Y

(18)

資料來源︰PISA2009 Technical Report（p.30）為配合大型測驗之實際施測情境，本研究主要參考 TIMSS 2007 之 BIB 設計，建立同年度之間 BIB 等化設計之題本，詳細設計變項於第三章討論。

第三節

第三節可能值方法

可能值方法

可能值方法是以加入作答反應與背景變項的潛在迴歸模式，去計算每位受測者能力的後驗分佈，再由該分佈中隨機抽取可能值作為該受測者的能力估計。其原理如下：

首先界定事前密度函數 (prior density fuction) f_θ( ; )θ α 作為受測者母群能力

之分佈，實際應用上常假設受試者來自一個常態分佈的母群體，其平均數為µ，標準差為σ ，如公式（2-3-1）：題本題本題本題本區塊區塊區塊 1 區塊區塊區塊區塊區塊 2 區塊區塊 3 區塊區塊區塊區塊區塊區塊 4 標準題本組標準題本組標準題本組標準題本組 較簡單題本組較簡單題本組較簡單題本組較簡單題本組 題本 12 R7 S3 M1 S2 Y Y 題本 13 S3 R2 R1 R5 Y Y 題本 21 M1 R1 R3B M3 Y 題本 22 R1 S1 R4B R7 Y 題本 23 S1 R3B M2 S3 Y 題本 24 R3B R4B S2 R2 Y 題本 25 R4B M2 R5 M1 Y 題本 26 R5 R6 R7 R3B Y 題本 27 R6 M3 S3 R4B Y UH 題本閱讀數學/ 科學

(19)

1 2 2 2 2 2 ( ) ( ; ) ( ; , ) (2 ) exp 2 f_θ θ α f_θ θ µ σ πσ θ µ σ −  −  = = −    （公式 2-3-1）其中，θ 代表受試者能力值，α則為θ 分佈的參數集。公式（2-3-1）也常以下列公式呈現： 2 , ~ (0, ) E E N θ µ= + σ （公式 2-3-2）而 Adams, Wilson & Wu(1997)的作法，是以潛在迴歸模式 T

n Y β取代平均數µ，其中Y 是由 u 個輔助變項（背景變項）所組成的向量，_n Y 是固定且已知的條件變數，_n 代表受測者 n 的輔助變項狀態之描述；β 是一個相對應的迴歸係數向量。則受測者 n 的母群模式可表示如下： 2 , ~ (0, ) T n Yn E En n N θ = β + σ （公式 2-3-3）利用迴歸模式Y_n'β取代平均數µ，其中Y 為 u 的矩陣，_n' β為迴歸係數，則受試者的母群之能力分佈為一平均數為Yn'β，標準差為σ 之常態分配，可表示如公式（2-3-4）： 1 2 2 ₂ 2 1 ( ; , , ) (2 ) exp ( ' ) '( ' ) 2 n n n n n n n f θ Y β σ πσ θ Y β θ Y β σ −   = _− − − _   （公式 2-3-4）以公式（2-3-4）作為受試者母群體之先驗分佈，其邊際後驗機率可以被表示如公式（2-3-5）， 2 2 2 ( ; ) ( ; , , ) ( ; , , , ) ( ; , , , ) n n n n n n n n n x n n f x f Y h Y x f x W θ ξ θ θ β σ θ ξ β σ ξ β σ = （公式 2-3-5）

(20)

其中需要估計的值為β 、σ 和ξ 參數，其中 ξ為試題參數。而多向度的母群能力分佈可表示為公式（2-3-6） 1 1 2 ₂ 1 ( ; , ) (2 ) exp ( ) ( ) 2 d T n n n n f θ γ Σ = π − Σ− _− θ γ− Σ− θ γ− _  

（公式 2-3-6）其中 d 為向度數，γ 為迴歸係數矩陣，Σ是 d d× 的變異數共變數矩陣。而每個受測者的能力後驗分佈如公式（2-3-7） ( ; | ) ( ; , ) ( ; , , | ) ( ; , , ) x n n n n n x n f x f h x f x θ θ θ ζ γ Σ = ζ θ _{ζ γ} θ γ_Σ Σ

（公式 2-3-6）大型測驗所主要關注的是群體之能力表現，根據研究指出，可能值方法在群體能力參數的回復上比傳統的點估計方法有較佳的效果（Wu, 2005; von Davier,

Gonzalez,& Mislevy, 2009），原因在於可能值方法是從所估計能力值的後驗分佈

中隨機抽取受測者能力的可能值，並直接進行母群參數計算，而非先估計個體的能力，再以其個體能力估計值來計算群體參數，因此可以使群體參數的估計更精準，提供群體參數估計的一致性（Mislevy & Sheehan, 1989; Mislevy, Beaton,

Kaplan, & Sheehan, 1992）。此外，可能值方法將受測者的背景變項一併納入進行

估計，如此不僅能降低試題參數估計的誤差，也能提高能力估計的精準性（Mislevy,

1984; Mislevy & Sheehan, 1989）。目前國際上知名的大型測驗如 NAEP、TIMSS

及 PISA 等皆是使用可能值的型態提供給次級資料分析者受測者的成就資料（Lee,

Grigg & Dion, 2007； Foy, Galia, & Li, 2008；OECD, 2009）。基於上述理由，本

研究以可能值方法作回復群體參數，減少與大型測驗估計方式的差異性，再比較各種連結方法之效果。

(21)

第四節

第四節測驗

測驗

測驗連結

連結

由於大型測驗都是透過測驗連結的程序，將不同年度之間的參數轉化至同一個量尺上做為比較。基本上而言，測驗銜接也算是等化的一種，只不過它所遭遇的問題較為單純，所引發的學術爭議也較少（余民寧，2009）。本研究欲探討的連結方法包括同時估計法（concurrent calibration method）、固定試題參數法（fixed

b’s method）、TIMSS 使用之連結方法以及 PISA 使用之連結方法，以下將針對這四種方法做介紹。

壹

壹、

、

、同時

同時

同時校準

校準

校準法

法

當兩份測驗有著相同的定錨試題時，由於作答反應資料會出現重疊的部分，因此將新舊兩個年度的作答反應一併放入電腦中估計試題與能力參數。由於是同時估計兩個年度，故所得到的參數將會在同一個量尺上，因此不需要再做線性轉換。貳貳貳貳、、、固定、固定固定固定試題參數法試題參數法試題參數法試題參數法 亦可稱為 b 值固定法，此方法是先估計出舊年度測驗的試題參數，將定錨題的參數固定後，再去對新年度測驗估計非定錨試題的試題參數以及能力參數，而定錨題的試題參數便不再估計。固定試題參數法已經透過試題參數將新年度測驗校準至舊年度的量尺，因此不需要再用到線性轉換的程序。參參參參、、、TIMSS 及、及及及 NAEP 連結方法連結方法連結方法 連結方法 TIMSS 與 NAEP 所使用的連結方法皆相同，都是先使用同時估計法估計兩份測驗的暫時量尺（provisional scale）。再利用公式 2-4-1 計算舊年度測驗的暫時量尺與公告量尺（report scale）之間的線性轉換係數α、β。使用所得到的α、β 將新年度的暫時量尺以公式 2-4-1、2-4-2、2-4-3 做線性轉換，轉換後的量尺即為

(22)

新年度測驗的公佈量尺（Foy, Galia, & Li, 2008；Qian, Isham, Worthington, & Liang, 2001）。 = A B θ αθ +β (公式 2-4-1) = A B b αb +β (公式 2-4-2) = / A B a a α (公式 2-4-3) 其中 θ_A與 θ_B 為兩組受測者的能力估計值，b_A 與 b_B是兩份測驗的試題難度估計值，a_A 與a_B則是兩份測驗的試題鑑別度估計值。而α 、β即為兩份測驗的線性轉換係數。TIMSS 與 NAEP 的連結方法流程如下圖 2-1 舊年度作答反應計算線性轉換係數新年度作答反應同時估計法

TIMSS & NAEP 連結方法

暫時性量尺舊年度測驗暫時量尺新年度測驗暫時量尺舊年度測驗公佈量尺轉換係數 α、β 線性轉換新年度公佈能力量尺圖圖圖 圖 2-1 TIMSS 及 NAEP 連結方法流程圖

(23)

肆肆肆肆、、、PISA 連結方法、連結方法連結方法連結方法 PISA 所使用的即是 b 值等化法；先單獨估計新年度測驗的試題參數，並抽出定錨題的參數與舊年度測驗已公佈的定錨題試題參數計算其線性轉換係數，其線性轉換公式為公式 2-4-2、2-4-3。再將新年度測驗所有的試題參數以剛得到的轉換係數做線性轉換，得到新年度測驗的公佈試題參數，最後以公佈試題參數再去估計受測者能力參數（OECD, 2009）。其流程如圖 2-2 暫時試數參數新年度作答反應估計試題參數

PISA 連結方法

抽出定錨題試題參數新年度定錨題參數舊年度定錨題參數轉換係數 α、β 計算線性轉換係數線性轉換新年度公佈試題參數新年度公布能力量尺估計能力參數圖圖圖 圖 2-2 PISA 連結方法流程圖

(24)

(25)

第三章

第三章研究方法

研究方法

本研究以 MRCMLM 之試題反應理論為基礎，使用模擬資料進行使用不同連結方法對於可能值方法回復群體參數估計之影響，並比較在群體能力與前一年度有不同差異時，各種連結方法對於回復新年度的群體參數之效果。本章節共分五個部分：一、研究流程；二、模擬研究變項設計；三、模擬實驗步驟；四、研究工具；五、評估準則。

第一節

第一節研究流程

研究流程

本研究以多向度試題反應理論為基礎，討論多向度隨機係數模式（MRCMLM）架構下，不同的測驗連結方法於兩年度間不同能力差距之估計效果。研究流程條列如下，亦可參考圖 3-1：一、文獻的蒐集與探討本研究在確定研究主題後，先收集測驗等化、測驗連結以及可能值方法的相關文獻。二、研究變項設定在參考各個相關文獻與技術報告，設定欲探討之人數、能力差距、試題數與配合的向度數，並依照文獻建立 BIB 等化設計。三、產生模擬資料使用電腦程式依照不同變項建立兩個不同年度的受測者能力、背景變項與試題難度，再依照 MRCMLM 產生作答反應，最後使用測驗軟體配合不同連結方法回復新年度的群體參數。四、比較不同連結方法之估計精準度依據不同的情境比較各種連結法的估計效果，包含群體平均數以及群體標準差，並與真值計算 RMSE。五、撰寫研究結果

(26)

圖圖圖 圖 3-1 研究流程圖

第二節

第二節模擬研究

模擬研究

模擬研究設計

設計

本研究藉由模擬資料，欲探討不同連結方法於能力差距不同之效果，故本節將針對模擬研究變項設定中之參數設定做說明。本研究的共同變項設定整理如表 3-1，並分別說明如下。

(27)

表表表 表 3-1 研究共同變項設定研究變項變項設定受測者能力分佈差距 0、0.2、0.4 測驗向度個數 2、4 每個向度試題長度 8、16 每個年度受測人數 2100 人、5600 人與 8400 人同一年度間等化方法 BIB 設計測驗連結方法 PISA 連結方法固定試題參數法 TIMSS 及 NAEP 連結方法同時校準法每一情境模擬資料個數 50 壹壹壹壹、、、受測者群體能力分、受測者群體能力分受測者群體能力分受測者群體能力分佈佈佈佈本研究中受測者群體之能力分佈之設定係參考 de la Torre（2009）。依據不同年度產生兩組受試者，受測者均具有兩組背景變項以及一個年度變項，其中背景變項為連續變項並且與所產生能力值之間相關為 0.7 與 0.3；而年度變項則為離散的數據，以 1 表示為新的年度，0 表示為舊的年度。而能力值依據多變量常態分佈所產生，並將舊年度的能力平均設定為 0，新年度的能力平均則以 TIMSS

2007 國際數學報告（Mullis, Martin, & Foy, 2008）中，各個國家於 1999、2003 與 2007 之間八年級的量尺分數之差距作為進步之依據，詳細數據如表 3-2 所示。表表表 表 3-2 TIMSS 2007 與歷年八年級數學成就量尺分數差異對照表（續下頁）參與國家 2007 與 2003 量尺分數差異 2007 與 1999 量尺分數差異 2007 與 1995 量尺分數差異 Chinese Taipei 13 13 Korea, Rep. of 8 10 17 Singapore -13 -12 -16

Hong Kong SAR -14 -10 4

(28)

參與國家 2007 與 2003 量尺分數差異 2007 與 1999 量尺分數差異 2007 與 1995 量尺分數差異 Hungary -12 -15 -10 England 15 17 16 Russian Federation 4 -14 -12 United States 4 7 16 Lithuania 4 24 34 Czech Republic -16 -16 -42 Slovenia 9 7 Armenia 21 Australia -8 -13 Sweden -8 -48 Scotland -8 -6 Serbia 9 Italy -4 0 Malaysia -34 -45 Norway 8 -29 Cyprus 6 -11 -2 Bulgaria -13 -47 -63 Israel -32 -3 -12 Romania -14 -11 Lebanon 16 Thailand -26 Jordan 3 -1 Tunisia 10 -28 Indonesia -5 2

Iran, Islamic Rep. of -8 -19 -15

Bahrain -3

Egypt -16

Colombia 47

Palestinian Nat’l Auth. -23

Botswana -3

Ghana 34

*該年度空白者即為當年未參與

(29)

由表 3-2 可以得知，同一個國家在 TIMSS 2003 與 2007 之間的群體量尺分數相差最多至 34 分，而 2007 與 1999 之間的差異最高為 47 分，由於 TIMSS 的量尺分數為平均數 500、標準差 100 的量尺，故轉換為標準量尺後差距即為 0.34 與 0.47。因此設定兩年度之間的差距為 0、0.2 與 0.4 三種情境，其產生方式服從多變量常態分佈所產生，如公式 3-1 所示。 0 ~ , 0 Y Y YY k MVN Y θθ θ θ θ  ₊ _Σ _Σ       _ _   _  _Σ _Σ _       （公式 3-1）其中θ為受測者的能力向量，Y為背景變項，k即為能力差距 0、0.2 與 0.4，Σ_θθ是能力之間的相關，Σ_θ_Y是能力與背景變項之間的相關，Σ_YY則為背景變項之間的相關，本研究設定兩組背景變項之間互相獨立，故 1 0 0 1 YY   Σ =   。以四向度且能力差距為 0.2 為例，其舊年度的能力真值與背景變項來自 1 2 3 4 1 2 0 1 0.9 0.9 0.9 0.7 0.3 0 0.9 1 0.9 0.9 0.7 0.3 0 0.9 0.9 1 0.9 0.7 0.3 ~ , 0 0.9 0.9 0.9 1 0.7 0.3 0 0.7 0.7 0.7 0.7 1 0 0 0.3 0.3 0.3 0.3 0 1 MVN Y Y θ θ θ θ                                               _  _         而新年度的能力真值與背景變項則來自於 1 2 3 4 1 2 0.2 1 0.9 0.9 0.9 0.7 0.3 0.2 0.9 1 0.9 0.9 0.7 0.3 0.2 0.9 0.9 1 0.9 0.7 0.3 ~ , 0.2 0.9 0.9 0.9 1 0.7 0.3 0 0.7 0.7 0.7 0.7 1 0 0 0.3 0.3 0.3 0.3 0 1 MVN Y Y θ θ θ θ                                               _  _        

(30)

貳貳貳貳、、、測驗向度個數與試題長度、測驗向度個數與試題長度測驗向度個數與試題長度測驗向度個數與試題長度 本研究架構於多向度試題反應理論，因此將每個模擬題本分為 2 向度與 4 向度兩種情況；並且每個向度分別施測 8 題或是 16 題兩種情況，因此單一年度的受測者測驗總題數會有 16（2 個向度各 8 題）題、32（4 個向度各 8 題與 2 個向度各 16 題）題與 64（4 個向度各 16 題）四種情況。參參參參、、、人數設定、人數設定人數設定人數設定 根據 PISA2009 技術報告指出，參與該年度測驗的國家人數扣除列支敦斯登（Liechtenstein）約 300 人，其他參與國家至少皆有 2700 人以上（OECD，2012）。而臺灣該年度則有 5581 人參加數學測驗，並考慮到 TASA 四年級數學科在 2006 年施測樣本數為 8083 人（國家教育研究院籌備處，2009）、2007 年施測樣本數為 8200 人（國家教育研究院籌備處，2009），施測人數皆有 8000 人以上。故為了配合本研究的等化設計，使得 7 個題本受測人數皆相同，因此設定每一年度的受測者人數分別為 2100 人、5600 人以及 8400 人，即每個題本施測人數為 300 人、800 人與 1200 人。肆肆肆肆、、、等化設計、等化設計等化設計等化設計 兩個向度的 BIB 設計如表 3-2，當實驗設計為一個向度測驗 8 題時，每個試題區塊有 4 題試題，每個向度則有 7 個試題區塊（A1～A7、B1～B7），如此可以組出 7 個題本（題本 1～題本 7），而每一個題本包含 4 個試題區塊共 16 題試題。當實驗設計為一個向度測驗 16 題時，依照上述的方式設定，但每個區塊內的試題數則更改為 8 題，此情境下每個題本包含 4 個試題區塊共 32 題試題。

(31)

表表表 表 3-2 兩個向度的 BIB 設計等化設定題本向度 1 向度 2 區塊 1 區塊 2 區塊 1 區塊 2 題本 1 A1 A2 B1 B2 題本 2 A2 A3 B2 B3 題本 3 A3 A4 B3 B4 題本 4 A4 A5 B4 B5 題本 5 A5 A6 B5 B6 題本 6 A6 A7 B6 B7 題本 7 A7 A1 B7 B1 四個向度的 BIB 設計如表 3-3，當實驗設計為一個向度測驗 8 題時，每個試題區塊有 4 題試題，每個向度則有 7 個試題區塊（A1～A7、B1～B7、C1～C7、 D1～D7），如此可以組出 7 個題本（題本 1～題本 7），而每一個題本包含 4 個試題區塊共 32 題試題。當實驗設計為一個向度測驗 16 題時，依照上述的方式設定，但每個區塊內的試題數則更改為 8 題，此情境下每個題本包含 4 個試題區塊共 64 題試題。表表表 表 3-3 四個向度的 BIB 設計等化設定題本向度 1 向度 2 向度 3 向度 4 區塊 1 區塊 2 區塊 1 區塊 2 區塊 1 區塊 2 區塊 1 區塊 2 題本 1 A1 A2 B1 B2 C1 C2 D1 D2 題本 2 A2 A3 B2 B3 C2 C3 D2 D3 題本 3 A3 A4 B3 B4 C3 C4 D3 D4 題本 4 A4 A5 B4 B5 C4 C5 D4 D5 題本 5 A5 A6 B5 B6 C5 C6 D5 D6 題本 6 A6 A7 B6 B7 C6 C7 D6 D7 題本 7 A7 A1 B7 B1 C7 C1 D7 D1

(32)

伍伍伍

伍、、、測驗連結方法、測驗連結方法測驗連結方法測驗連結方法

本研究探討不同的測驗連結方法對於群體參數的估計效果，連結方法分為

PISA 連結方法（b 值等化法）、固定試題參數法（b 值固定法）、TIMSS 及 NAEP

連結方法與同時校準法。陸陸陸陸、、、試題難度、試題難度試題難度試題難度數分數分數分數分佈佈佈佈試題難度參數設定為截尾常態分佈，每一個向度的試題參數分開產生，平均數皆為 0，標準差為 1，並將範圍界定於−3 ~ 3。

第三節

第三節模擬實驗步驟

模擬實驗步驟

本研究之模擬實驗步驟如下：（一）模擬試題難度參數服從常態截尾分佈，並且建立題庫共 392 題，從題庫中挑選試題組成題本，並且符合舊年度與新年度之全部向度平均難度皆為 0；（二）模擬兩年度之受測者能力真值與背景變項服從標準多變量常態分佈，並假設向度間能力相關約為 0.9，而背景變項與能力相關分別為 0.7 與 0.3；（三）使用 IRT 單參數 MRCMLM 模式計算受測者正確作答機率，並根據其機率產生作答反應；（四）根據其作答反應透過 ACER ConQuest 2.0 軟體並使用可能值方法進行參數估計；

（五）依據 PISA 連結方法、固定試題參數法、TIMSS 及 NAEP 連結方法以及同時校準法將新年度的能力參數做線性轉換並計算群體參數；

（六）將步驟（五）所估計之新年度能力參數與新年度能力真值做比較；

(33)

第四節

第四節研究工具

研究工具

本研究使用的工具有 MATLAB 軟體與 ACER ConQuest 2.0 軟體，分別敘述如下。

1、MATLAB

本研究使用 MATLAB 程式產生受測者的能力、背景變項與年級變項以及試題難度，進而模擬受測者作答反應，並且計算群體參數的估計誤差。

2、ACER ConQuest 2.0

ACER ConQuest 2.0 為可應用於單向度、多向度 IRT 模式之軟體。本研究使用 ACER ConQuest 2.0 進行能力與試題參數的估計，利用可能值方法回復群體能力參數。

第五節

第五節評估準則

評估準則

本研究中不同連結方法之比較，是將原始模擬產生的受測者群體能力參數視為真值，並計算不同模擬情境下，使用不同連結方法之群體能力參數估計值，且模擬 50 次後計算其根均方差（RMSE）以了解不同研究設計下，各種連結方式對於回復新年度群體能力參數之效果；RMSE 之結果越小，表示該情境的估計誤差就越小，該連結方法就有較好的估計結果。本研究中群體參數分別探討新年度群體能力的平均值與標準差兩個部分，受測者群體能力參數平均值的 RMSE 如公式 3-2，受測者群體能力參數標準差的 RMSE 如公式 3-3。 50 2 1 ˆ ( ) ˆ ( , ) 50 k k k RMSE µ µ µ µ = − =

∑

（公式 3-2） 50 2 1 ˆ ( ) ˆ ( , ) 50 k k k RMSE σ σ σ σ = − =

∑

（公式 3-3）

(34)

其中k表示每一個模擬資料集個數，k=1, 2, 3,..., 50 1 2 3 ( , , ,..., _k) µ= µ µ µ µ ：在第k個模擬資料集之群體能力平均真值 1 2 3 ˆ ( ,ˆ ˆ ,ˆ ,..., ˆ_k) µ= µ µ µ µ ：在第k個模擬資料集之群體能力平均估計值 1 2 3 ( , , ,..., _k) σ = σ σ σ σ ：在第k個模擬資料集之群體能力標準差真值 1 2 3 ˆ (ˆ , ˆ , ˆ ,..., ˆ_k) σ = σ σ σ σ ：在第k個模擬資料集之群體能力標準差估計值

(35)

第四章

第四章研究結果

研究結果

本章將呈現各種連結方法優劣之探討以及電腦模擬的結果，以下分別說明第一節「探究比較各種連結方法」與第二節「在不同情境下，不同連結法估計效果之比較」。

第一節

第一節探究比較各種連結

探究比較各種連結

探究比較各種連結方法

方法

壹

壹、

、

、同時校準法

同時校準法

同時估計法需要一次處理大量的資料，因此估計時間便會增加，但也因為資料量較大，理論上所回復之參數也會較為準確。由於該方法的估計結果是將兩年度同時放至新的量尺上，因此第二年度的估計結果無法與第一年度的公佈結果直接做比較。貳貳貳貳、、、固定、固定固定固定試題參數法試題參數法試題參數法試題參數法 固定試題參數法的定錨題試題參數並不會改變，也就是說第二年度的定錨題參數將不會修正。而由於是使用相同的量尺，因此所估計出新的試題參數與受測者能力參數不需要經過任何線性轉換，便可以直接與第一年度的結果比較。參參參參、、、TIMSS 及、及及及 NAEP 連結方法連結方法連結方法 連結方法由於此方法先使用同時估計，因此它亦有估計時間較長之缺點，除此之外，第二年度的試題參數也必須另外使用線性轉換做調整。肆肆肆肆、、、PISA 連結方法、連結方法連結方法連結方法 此連結法跟 TIMSS 及 NAEP 連結方法相比，其優點是先估計出第二年度的試題參數，經由線性轉換的程序將試題參數轉換至第一年的量尺上，因此第二年度的公佈試題參數就已經確定，不需額外的線性轉換程序。根據以上結論，將各種連結方法對於能力參數、試題參數是否能與第一年度公布量尺直接做比較以及其線性轉換之基礎整理如表 4-1

(36)

表表表 表 4-1 各種連結方法估計結果與前一年度之比較連結方法能力參數試題參數線性轉換基礎同時估計法不能直接比較不能直接比較無線性轉換固定試題參數法可直接比較可直接比較無線性轉換 TIMSS 及 NAEP 連結方法可直接比較需做線性轉換轉換能力參數量尺 PISA 連結方法可直接比較可直接比較轉換試題參數量尺

第二節

第二節在不同情境下

在不同情境下

在不同情境下，

，

，不同連結法估計效果之比較

不同連結法估計效果之比較

本節將各種情境下的估計效果分成三種類型，分別依照年度間能力差距、受測人數與不同連結方法去探討對於估計精準度之影響。為了閱讀方便，將以 CON 表示同時校準法、FIX 表示固定試題參數法、PISA 表示 PISA 連結方法、TIMSS 則代表 TIMSS 及 NAEP 的連結方法。壹壹壹壹、、、探討年度間能力差距、探討年度間能力差距探討年度間能力差距探討年度間能力差距，，，對於估計精準度之影響，對於估計精準度之影響對於估計精準度之影響對於估計精準度之影響 本研究模擬兩年度之間能力參數差距為 0、0.2、0.4 三種情境，探討當年度間差距不同時，對於不同連結方法的估計之影響，並比較不同向度與試題長度、人數的設計下，不同連結方法之效果，詳細研究數據將於附錄一中呈現。一一一一、、、、當當當受測者人數為當受測者人數為受測者人數為受測者人數為 2100 之情境之情境之情境之情境 當受測者人數為 2100 人時，群體能力平均 RMSE 如圖 4-2-1 所示，而群體標準差之 RMSE 則如圖 4-2-2 所示，研究結果顯示： 1、除了 CON 以外，另外三種連結法平均數的 RMSE 並不會隨著年度間能力差異的增加而增加。 2、CON 對於平均數的估計會隨著年度間能力差距而改變，當差異達到 0.4 時，其估計誤差最大。 3、年度間的能力差異對於估計群體的標準差並沒有明顯的影響，差距為 0、 0.2 以及 0.4 時的標準差估計相近。

(37)

4、在向度數相同時，題數 16 題的估計結果與 8 題的相比，其 RMSE 皆降低，平均數較不明顯，但是標準差則有明顯的差異。此結果與王暄博（2006），王敏嫻、曾筱倩、郭伯臣、吳慧珉（2010）的研究結果相同。圖圖圖 圖 4-2-1 受測人數為 2100 時，群體能力平均之 RMSE

(38)

圖圖圖

(39)

二二二二、、、、當受測者人數為當受測者人數為當受測者人數為 5600 之情境當受測者人數為之情境之情境之情境 當受測者人數為 5600 人時，群體能力平均 RMSE 如圖 4-2-3 所示，而群體標準差之 RMSE 則如圖 4-2-4 所示，研究結果顯示： 1、跟人數為 2100 人時有相同的結果，除了 CON 以外，另外三種連結法平均數的 RMSE 並不會隨著年度間能力差異的增加而增加。 2、CON 對於平均數的估計會隨著年度間能力差距而改變，當差異達到 0.4 時，其估計誤差最大。

3、PISA、FIX 跟 CON 三種方法標準差的 RMSE 並沒有隨著能力的差距而

有明顯的差異，但是 TIMSS 標準差隨著能力差距的增加，其 RMSE 則有些微的提高。 4、與人數為 2100 人時的結果相同，當向度數相同時，試題數較多的估計結果其 RMSE 皆降低，平均數較不明顯，但是標準差則有明顯的差異。 5、在總題數 32 題的情境之下，向度數為 4，單一向度試題數為 8 的標準差表現一致性的比向度數為 2，單一向度試題數為 16 的標準差表現要差。

(40)

圖圖圖

(41)

圖圖圖

(42)

三三三三、、、、當受測者人數為當受測者人數為當受測者人數為 8400 之情境當受測者人數為之情境之情境之情境 當受測者人數為 8400 人時，群體能力平均 RMSE 如圖 4-2-4 所示，而群體標準差之 RMSE 則如圖 4-2-5 所示，研究結果顯示： 1、平均數的估計跟人數為 2100 人與 5600 人時有相同的結果，除了 CON 以外，另外三種連結法平均數的 RMSE 並不會隨著年度間能力差異的增加而增加。 2、CON 對於平均數的估計會隨著年度間能力差距而改變，當差異達到 0.4 時，其估計誤差最大。 3、TIMSS 在差異增加時，其標準差的 RMSE 會有些微的上升。 4、與人數為 2100 跟 8400 人時的結果相似，在向度數相同的情境下，試題數較多的估計結果其 RMSE 皆降低，平均數部分都已經很低，所以沒有明顯差異，但是標準差則有明顯的差異。四四四四、、、、小結小結小結小結不論人數多寡，CON 都會隨著年度間的差距增加而 RMSE 提高，這有可能是在估計的時候，估計程式會主動將兩個年度看成一個較大的群體，並且以兩個群體能力的平均值當作預估的平均值。也就是說對於能力較低的舊年度會高估，而能力較高的新年度會低估，以求整體達到一個接近常態分佈而非雙峰分佈的效果。因此，當新年度的能力平均越高時，其估計值與真值的差距便越大，RMSE 就越高。而 TIMSS 經過線性轉換的程序就可以避免這個情況的發生，因為計算了舊年度的公佈量尺與暫時量尺的線性轉換係數，並應用於新年度的公佈量尺與暫時量尺上。至於 PISA 與 FIX 並沒有將兩個年度的資料一起估計，故不會產生這樣的疑慮。

(43)

圖圖圖

(44)

圖圖圖

(45)

貳貳貳貳、、、探討受測人數、探討受測人數探討受測人數探討受測人數，，，，對於估計精準度之影響對於估計精準度之影響對於估計精準度之影響 對於估計精準度之影響本研究模擬受測人數分別為 2100、5600 及 8400 三種情境，並比較不同向度與試題長度、年度間能力差距的設計下，不同連結方法之效果，詳細研究結果將於附錄二中呈現，本節圖中橫軸分別為四種連結方法以及受測人數，縱軸為 RMSE。一一一一、、、、當當當兩年度間能力差距為當兩年度間能力差距為兩年度間能力差距為兩年度間能力差距為 0 之情境之情境之情境之情境 年度間差距為 0 之群體能力平均 RMSE 如圖 4-2-1、群體能力標準差 RMSE 如圖 4-2-2，得以下結論： 1、當兩個年度差距為 0 時，隨著人數的增加，而平均數之 RMSE 都會降低。 2、人數為 5600 人與 8400 人之間平均數的差距跟 2100 人與 5600 人之間平均數的差距要來的小。 3、隨著人數的增加，標準差 RMSE 都會降低。 4、跟平均數不同的是，人數為 5600 人與 8400 人之間標準差的差距比較不明顯。 5、針對題數與向度數的變化，其結果與前一節的結果相似，試題數由 8 題增為 16 題時，平均數的 RMSE 降低的並不明顯，但是標準差都有明顯的減少。這部分與相關研究所得到的結論相同（葉昶成、郭秀芬、郭伯臣、曾筱倩, 2011；詹慧君, 2011），提高試題數有助於增加測驗估計的精準度。

(46)

圖圖圖

(47)

圖圖圖

圖 4-2-8 年度間差距為 0 時，群體能力標準差之 RMSE

(48)

二二二二、、、、當兩年度間能力差距為當兩年度間能力差距為當兩年度間能力差距為 0.2 之情境當兩年度間能力差距為之情境之情境 之情境年度間差距為 0.2 之群體能力平均 RMSE 如圖 4-2-3、群體能力標準差 RMSE 如圖 4-2-4，得以下結論： 1、PISA、FIX 與 TIMSS 這三種連結方法，皆隨著人數的增加，而平均數之 RMSE 都降低。 2、CON 連結法對於人數的改變沒有差異，並不會隨著人數增加而提高平均數估計效果。 3、CON 除外，人數為 5600 人與 8400 人之間平均數的差距跟 2100 人與 5600 人之間平均數的差距要來的小。 4、人數為 2100 人時，估計效果最差，人數為 5600 人與 8400 人之間標準差 RMSE 並沒有差別。 5、與能力差距為 0 的時候結果一樣，增加相同向度的試題題數，有助於提高整體估計精準度，平均數較不明顯，可是標準差的 RMSE 降低許多。

(49)

圖圖圖

(50)

圖圖圖

(51)

三三三三、、、、當兩年度間能力差距為當兩年度間能力差距為當兩年度間能力差距為 0.4 之情境當兩年度間能力差距為之情境之情境 之情境年度間差距為 0.4 之群體能力平均 RMSE 如圖 4-2-5、群體能力標準差 RMSE 如圖 4-2-6，得以下結論： 1、平均數估計與兩年度間能力差距為 0.2 時有著相同的結果，就是 PISA、 FIX 與 TIMSS 這三種連結方法，皆隨著人數的增加，而平均數 RMSE 都

降低。 2、CON 連結法對於人數的改變沒有差異，平均數估計並不會隨著人數增加而提高估計效果。 3、CON 除外，人數為 5600 人與 8400 人之間平均數 RMSE 的差距跟 2100 人與 5600 人之間平均數 RMSE 的差距要來的小。 4、人數為 2100 人時，標準差估計效果最差，人數為 5600 人與 8400 人之間標準差 RMSE 則沒有差別。 5、與之前的結果相同，增加試題數可以降低標準差的 RMSE，平均數的 RMSE 降低程度也較明顯。四四四四、、、、小結小結小結小結在能力差距為 0 的情況下，人數增加皆有助於降低平均數的 RMSE，當人數達到 5600 人就已經有不錯的結果，增加至 8400 人所降低的 RMSE 已經沒有明顯的差異。當能力差距不為 0 時，除了 CON 以外的三種方式也是有一樣的結果，而人數增加並沒有對 CON 有所幫助。

(52)

圖圖圖

(53)

圖圖圖

(54)

參參參

參、、、不同測驗連結方法估計結果、不同測驗連結方法估計結果不同測驗連結方法估計結果不同測驗連結方法估計結果

本研究探討了不同連結方法之效果，分別為同時估計法（CON）、固定試題參數法（FIX）、TIMSS 使用之連結方法（TIMSS）以及 PISA 使用之連結方法（PISA）。四種連結方法，並比較在不同能力差距、不同受測人數與不同向度與試題長度的設計下，不同連結方法之效果，詳細研究數據將於附錄三中呈現。一一一一、、、、當當當年度間能力差距為當年度間能力差距為年度間能力差距為年度間能力差距為 0 之情境之情境之情境 之情境年度間差距為 0 之群體能力平均 RMSE 如圖 4-3-1、群體能力標準差 RMSE 如圖 4-3-2，得以下結論： 1、不論當人數為 2100、5600 或是 8400 人時，CON 的平均數估計效果最好， TIMSS 次之，PISA 與 FIX 最差。這個結果與詹慧君（2011）的研究結

果相同，都是 TIMSS 的估計效果優於 PISA 跟 FIX。

2、當人數為 8400 人時且單一向度試題數為 16 題時，不論是 2 個向度或是 4 個向度，四種連結方法的平均數估計效果皆差不多。 3、四種方法的標準差估計效果差異不大，CON 稍微好一些，但是差異不明顯。 4、向度數與試題數的部分跟前面的結論一樣，在同一項度內有相同試題數的情況下，向度數為 2 或是 4，對於估計效果並沒有差異；但是在相同的向度下增加試題題數，平均數的 RMSE 會稍微降低，而標準差則是明顯改善。

(55)

圖圖圖

(56)

圖圖圖

(57)

二二二二、、、、當年度間能力差距為當年度間能力差距為當年度間能力差距為 0.2 之情境當年度間能力差距為之情境之情境之情境 年度間差距為 0 之群體能力平均 RMSE 如圖 4-3-3、群體能力標準差 RMSE 如圖 4-3-4，得以下結論： 1、不論當人數為 2100、5600 或是 8400 人時，TIMSS 的平均數估計效果最好，CON 最差。 2、四種方法的標準差估計效果都差不多，但是 TIMSS 連結法的標準差 RMSE 都較其他三種方法略高。 3、除了 CON，試題數由 8 題增加至 16 題，對於平均數的估計有改善，相較於能力差異為 0 時 RMSE 降低幅度較明顯。而標準差的 RMSE 依然是有明顯的下降。 4、同樣在總題數 32 題的情境下，2 個向度各 16 題的 RMSE 皆小於 4 個向度各 8 題，平均數降低的程度與標準差相比較不明顯。

(58)

圖圖圖

(59)

圖圖圖

(60)

三三三三、、、、當年度間能力差距為當年度間能力差距為當年度間能力差距為 0.4 之情境當年度間能力差距為之情境之情境之情境 年度間差距為 0 之群體能力平均 RMSE 如圖 4-3-3、群體能力標準差 RMSE 如圖 4-3-4，得以下結論： 1、不論當人數為 2100、5600 或是 8400 人時，TIMSS 的平均數估計效果最好，CON 最差。 2、在相同的向度數以及試題數下，CON 的平均數估計誤差明顯高於其他三種方法。 3、四種方法的標準差估計效果都差不多，但是 TIMSS 連結法的標準差 RMSE 都較其他三種方法略高，尤其是人數為 5600 人與 8400 人的情境下。 4、與能力差異為 0.2 時的結果相同，除了 CON 以外，當試題數由 8 題增加至 16 題，對於平均數的估計有些微改善，而標準差的 RMSE 依然是有明顯的下降。 5、同樣在總題數 32 題的情境下，2 個向度各 16 題的 RMSE 皆小於 4 個向度各 8 題的 RMSE，平均數降低的程度與標準差相比較不明顯。四四四四、、、、小結小結小結小結 PISA、FIX 跟 TIMSS 的連結法皆會隨著人數增加、題數增加而提高估計精準度，增加向度數則無法改善估計精準度。而 CON 在能力差距不為 0 的時候，其平均數 RMSE 皆高於其他三種連結方法，並且不會隨著人數增加而改善估計精準度。此外，TIMSS 的標準差在能力差距較大時，其標準差 RMSE 則會比其他三種方式略高。

(61)

圖圖圖

(62)

圖圖圖

(63)

第五章

第五章結論與建議

結論與建議

第一節

第一節結論

結論

本研究使用模擬資料探討不同連結方法對於回復群體參數之效果，針對群體能力參數的平均與標準差，比較不同連結方式的估計效果，並探討在不同連結方法下，當群體能力有差異時對於回復新年度群體參數之效果。經由模擬結果分別針對受測人數、群體差異大小、連結方法得到以下結論：壹壹壹壹、、、群體差異大小、群體差異大小群體差異大小群體差異大小 年度間的差異大小，對於估計誤差有影響，當差距增加時，估計誤差也隨著加大，平均數的部分 CON 的連結法最為明顯，其他三種則是沒有明顯的差異。而標準差的部分雖然會隨著年級間的差距增加而有些為提升，但是其差異不明顯。貳貳貳貳、、、受測人數、受測人數受測人數受測人數 受測人數的增加對於回復群體平均數有影響，提高受測人數有助於增加估計精準度，尤其是當人數由 2100 人提高到 5600 人時，但是若將人數提高至 8400 人，其 RMSE 降低的部分就比較不明顯。而標準差則是在 2100 人時表現最差，5600 人與 8400 人則無明顯的差異，不一定哪一種人數較好。參參參參、、、連結、連結連結連結方法方法方法方法同時估計法在能力差距為 0 的時候表現最好，但是隨著能力差距的增加，其估計誤差亦隨著加大，並且遠高於其他三種的連結方法。當能力差距不為 0 時，群體平均數則是 TIMSS 的表現最好，但是 TIMSS 的標準差則是稍微高於其他的連結方法。PISA 跟 FIX 在向度數、題數、人數以及群體差異均相同的情況下，兩者的表現差異不大。綜合以上所述，在實際情況下實施兩年度間的測驗連結，由於其群體間的差異是未知的，因此不適合使用同時估計法作為其連結方法；而施測人數不宜太

(64)

少，根據本研究的結果當受測人數有 5600 人時即有良好估計效果。而相同的總題數 32 題的情況下，2 個向度各 16 題的估計效果比 4 個向度各 8 題的估計效果要好。因此如果欲提升估計精準度，試題設計的部分可以以增加同一向度的試題的題數，但是增加向度數則沒有幫助。

第二節

第二節未來研究

未來研究

未來研究建議

建議

就本研究未盡完備之處，提出以下研究建議，以供後續相關研究者參考。一、本研究受測者能力分佈係採用 2 組背景變項並分別以 0.7 與 0.3 作為與能力變項的相關，未來研究可以採用不同的相關係數，或是比較兩組相關係數都設為 0.7 以及兩組相關係數都設為 0.3 之間的差異比較。二、本研究將兩個年度的試題難度皆假設為平均數等於 0，建議可以針對第二年度做調整，以配合年度間能力的差距。三、本研究為探討兩個年度間的能力估計精準度，而未比較各種連結方法對於回復試題參數的效果。四、兩年度間的定錨試題比例固定為 25%，後續研究可以改變其定錨比例。五、本研究因使用 ACER ConQuest 軟體進行估計，故僅考慮單參數模式，未來研究可考量使用二參數、三參數 IRT 模式，以其他軟體進行參數估計。

應用可能值方法於大型測驗不同年度間連結方法之效果探究

國立臺中教育大學教育測驗統計研究所碩士論文

指導教授：郭伯臣 博士