不同水平等化設計於可能值方法之探討

全文

(1)國立臺中教育大學教育測驗統計研究所理學碩士論文. 指導教授：郭伯臣. 博士. 吳慧珉. 博士. 不同水平等化設計於可能值方法之探討. 研究生：王敏嫻. 中. 華. 民. 國. 一. 撰. 百. 年. 七. 月.

(2)

(3) 謝辭首先誠摯的感谢指導教授郭伯臣博士及吳慧珉博士，兩位老師悉心的教導使我得以了解大型測驗領域的深奥，時常的討論並給予我正確的方向，使我在這些年中獲益良多。同時也感謝口試委員曾建銘老師與謝名娟老師指導我的論文，給予許多寶貴的建議，使本論文能夠更完整而嚴謹。感謝 Dr. Margaret Wu 在程式的指導與建議，並提供學術上的協助。兩年裡的日子，研究室裡共同的生活點滴，學術上的討論、言不及義的閒聊… 這些回憶都是我們共同累積的革命情感，感谢各位學長姐、同學、學弟妹的共同勉勵，你們的陪伴讓兩年的研究生活變得更加有趣。感谢政軒、典佑、暄博、彥鈞、智為、育隆、辰育學長、佳樺、怡伶、慧珊學姊們不厭其煩的指出我研究中的缺失，在我迷惘時為我解惑，也感謝淑瑜、鎧誌、俊彥、子晏同學的幫忙，恭喜我們順利畢業了。研究室的韋任、偉民、宗恩學弟、芷寧學妹當然也不能忘記你們的幫忙；也謝謝筱倩，身兼我的室友、同學與學姊的身分，給我學術上的建議，生活中的照顧與精神上的支持。最後，感謝我的家人，謝謝媽媽秀拔、姐姐敏嫣與妹妹珮珊的支持，讓我能夠無後顧之憂的完成學業；感謝天上的爸爸，因為您讓我有了繼續的勇氣與動力。. 王敏嫻中華民國一百年七月.

(4)

(5) 摘要許多大型測驗多採用可能值的資料型態提供給次級資料的分析者進行統計特性描述，且利用可能值方法估計，經由抽取 5 個可能值的過程，使得可能值包含了測量誤差。大型測驗因題庫涵蓋不同認知成份及不同難度之試題，試題數量無法由單一受試者於短時間內完成，故多採用不同的等化設計進行，因此本研究使用模擬資料探討不同變項（等化設計、人數與題數）於不同估計方法下對於個體能力估計與群體參數估計之效果，並探討在不同估計方法下，當群體能力有差異時對於回復不同群體參數之效果。本研究結果發現群體能力平均數於不同估計方法中結果差異不大，但對於群體標準差估計時，可能值方法有較好的估計結果；且於可能值方法下，BIB 與 NEAT 設計有相似的結果。當群體差異大的背景變項下，加入輔助變項使得群體能力平均數估計較精準；不論於群體差異大或小的背景變項下，群體標準差於可能值方法估計的較精準。. 關鍵詞：大型測驗、臺灣學生學習成就評量資料庫、可能值、等化設計。. I.

(6) Abstract For large-scale assessments, the spectrum of subject matter is usually wide and the simultaneous sampling of items and students is a practical way to obtain representative indications of students＇ performance. Balanced incomplete block design (BIB) and non-equivalent groups with anchor test design (NEAT) are two popular test equating methods for this condition. In addition, the purpose of the large-scale assessment is to monitor population progress, such as NAEP, TIMSS and PISA and the plausible value method is usually used to estimate the population characteristics. The purpose of this paper is to explore the performance of plausible values method under BIB, NEAT and complete designs for horizontal equating based on simulated and real data. Unlike BIB or NEAT designs with missing data, the complete design means that all items are administrated to the same examinees. The data from Taiwan Assessment of Student Achievement (TASA) is applied in the real data experiment. The experimental results show that as the test length increase, population parameters (mean and standard deviation) are well estimated. In most situations, population parameters do not effect by the sample size.Two linking designs (BIB and NEAT) can lead to more precision estimates by using plausible value method.. Key words：large-scale assessment, Taiwan Assessment of Student Achievement, plausible values, equating design.. II.

(7) 目錄摘要 ................................................................................................................................. I Abstract........................................................................................................................... II 目錄 ...............................................................................................................................III 表目錄 ............................................................................................................................V 圖目錄 .......................................................................................................................... VI 第一章緒論 .................................................................................................................1 第一節研究動機..................................................................................................1 第二節研究目的..................................................................................................4 第三節名詞解釋..................................................................................................4 第二章文獻探討 .........................................................................................................7 第一節單向度試題反應理論..............................................................................7 第二節參數估計方法..........................................................................................8 第三節可能值方法............................................................................................10 第四節測驗等化設計........................................................................................14 第三章研究方法 .......................................................................................................21 第一節研究流程................................................................................................21 第二節測驗等化設計........................................................................................22 第三節模擬設計與實證資料............................................................................24 第四節研究工具................................................................................................29 第五節評估準則................................................................................................30 第四章研究結果 .......................................................................................................33 第一節參數估計方法之估計結果....................................................................33 第二節不同等化設計之估計結果....................................................................43 第三節實證資料分析結果................................................................................76 第五章結論與建議 ...................................................................................................79 第一節結論........................................................................................................79 第二節建議........................................................................................................81. III.

(8) 參考文獻 .......................................................................................................................83 中文部分................................................................................................................83 英文部分................................................................................................................84 附錄一不同方法之個體能力值估計誤差（complete 設計） ...............................87 附錄二不同方法之群體能力參數估計誤差（complete 設計） ...........................88 附錄三不同方法之個體能力值估計誤差（BIB 設計） .......................................89 附錄四不同方法之個體能力值估計誤差（NEAT 設計） ...................................90 附錄五不同方法之群體能力參數估計誤差（BIB 設計） ...................................91 附錄六不同方法之群體能力參數估計誤差（NEAT 設計） ...............................92 附錄七不同估計方法之 Bias...................................................................................93. IV.

(9) 表目錄表 2-1 NEAT 設計......................................................................................................14 表 2-2 BIB 設計 .........................................................................................................15 表 2-3 NAEP 1998 年 4 年級公民題本區塊設計表 ................................................17 表 2-4 TIMSS2007 年題本區塊設計表....................................................................17 表 2-5 PISA2006 年題本區塊設計表 .......................................................................18 表 2-6 TASA2006 年數學科 4 年級題本區塊設計表..............................................19 表 2-7 TASA2007 年國文科題本區塊設計表..........................................................20 表 2-8 TASA2007 英語文科之題本設計..................................................................20 表 3-1 BIB 與 NEAT 參數設計表.............................................................................22 表 3-2 BIB 設計表 .....................................................................................................23 表 3-3 NEAT 設計表..................................................................................................24 表 3-4 不同等化設計之共同變項設定.....................................................................24 表 3-5 不同群體能力平均數與標準差之設定.........................................................25 表 3-6 BIB 與 NEAT 等化設計之題數設定.............................................................26 表 3-8 TASA2006 四年級數學科題本設計表..........................................................27 表 3-9 TASA2007 四年級數學科題本設計表..........................................................28 表 3-10 TASA2006 與 2007 數學科背景問卷題目..................................................29 表 4-1 TASA2006 數學科四年級群體能力參數......................................................77 表 4-2 TASA2007 數學科四年級群體能力參數......................................................77. V.

(10) 圖目錄圖 3-1 研究流程圖.....................................................................................................22 圖 4-1 個體能力於社經地位變項與 complete 設計之 RMSE................................35 圖 4-2 個體能力於學校變項與 complete 設計之 RMSE........................................35 圖 4-3 群體能力平均數於社經地位變項與 complete 設計之 RMSE....................38 圖 4-4 群體能力標準差於社經地位變項與 complete 設計之 RMSE....................38 圖 4-5 群體能力平均數於學校變項與 complete 設計之 RMSE............................41 圖 4-6 群體能力標準差於學校變項與 complete 設計之 RMSE............................41 圖 4-7 個體能力於社經地位變項與 BIB 設計之 RMSE........................................45 圖 4-8 個體能力於社經地位變項與 NEAT 設計之 RMSE ....................................46 圖 4-9 個體能力於社經地位變項不同等化設計之 RMSE ....................................48 圖 4-10 個體能力於學校變項與 BIB 設計之 RMSE..............................................50 圖 4-11 個體能力於學校變項與 NEAT 設計之 RMSE ..........................................51 圖 4-12 個體能力於學校變項不同等化設計之 RMSE ..........................................53 圖 4-13 群體能力平均數於社經地位變項與 BIB 設計之 RMSE..........................56 圖 4-14 群體能力標準差於社經地位變項與 BIB 設計之 RMSE..........................57 圖 4-15 群體能力平均數於社經地位變項與 NEAT 設計之 RMSE ......................59 圖 4-16 群體能力標準差於社經地位變項與 NEAT 設計之 RMSE ......................59 圖 4-17 群體能力平均數於社經地位變項不同等化設計之 RMSE ......................62 圖 4-18 群體能力標準差於社經地位變項不同等化設計之 RMSE ......................63 圖 4-19 群體能力平均數於學校變項與 BIB 設計之 RMSE..................................66 圖 4-20 群體能力標準差於學校變項與 BIB 設計之 RMSE..................................66 圖 4-21 群體能力平均數於學校變項與 NEAT 設計之 RMSE ..............................69 圖 4-22 群體能力標準差於學校變項與 NEAT 設計之 ..........................................69 圖 4-23 群體能力平均數於學校變項不同等化設計之 RMSE ..............................72 圖 4-24 群體能力標準差於學校變項不同等化設計之 RMSE ..............................73 圖 4-25 施測題數 15 題、施測人數 5460 人於不同估計方法之 Bias ..................75. VI.

(11) 第一章. 緒論. 本研究是以試題反應理論（item response theory, IRT）中單參數 Logistic 模式，使用模擬資料探討不同估計方法下對於個體能力估計與群體參數估計之效果，並以實證資料為例作一說明。本章將針對研究動機、研究目的與名詞解釋逐一進行說明。. 第一節. 研究動機. 許多大型測驗，如國家教育進展評量（National Assessment of Educational Progress, NAEP）、國際數學與科學教育成就趨勢調查（Trends in International Mathematics and Science Study, TIMSS）及國際學生評量（The Programme for International Student Assessment, PISA）等，主要關注的議題是母群或母群中某些群體之能力表現，而這些大型測驗多採用可能值方法（plausible value method）估計母群或群體的參數，對於個體能力的描述則是以可能值（plausible value）的資料型態提供給次級資料的分析者，以進行群體能力表現時統計特性描述（Allen, Carlson, Johnson, & Mislevy, 1999; Foy, Galia, & Li, 2008; OECD, 2009）。可能值方法（plausible value method）是以潛在迴歸模式，加入學生背景變項（background variables, BV），作為輔助變數（ancillary variables, AV）計算後驗分布，並從後驗分布中抽取可能值。可能值方法沒有先估計個體的能力再計算群體參數，而是使用學生的答題反應和背景變項資料直接估計母群參數，相較於集合個體能力估計值再進行母群參數估計，此方法所獲得之估計較為準確（Mislevy & Sheehan, 1989）。目前國外可能值方法的研究大多著重於估計方法的改善，如 Adams 等人透過提供背景變項的模式，提出 expectation-maximization（EM）方法估算試題和母群的參數，改善以往使用可能值方法，在能力估計中可以得到較小均方誤差（Adams, Wilson & Wu, 1997）。von Davier（2009）提出，於馬可夫鏈蒙地卡羅法（Markov Chain Monte Carlo method, MCMC）中，加入 EM 的演算法，. 1.

(12) 提升 MCMC 估計的速度以及估計效能。除此之外，少數學者探討納入的背景變項與能力值間的相關高低對可能值方法估計的影響，加入輔助變項，例如：人口統計變項（性別、年齡、種族）、教育變項（年級、修習課程、先前考試成績），以電腦為基礎的測驗反應時間都作為輔助訊息的來源（Fox, Klein Entink, & van der Linden, 2007; van der Linden, 2007），此種方法有助於提升能力值的估計，且當解釋能力值變異的程度越大，能力值的估計可得到較大的改善（de la Torre, 2009）。目前，國內許多大型測驗相關研究，多未使用可能值方法進行分析，而是直接計算個別受試者能力值的平均與變異，並將其視為母群或個別群體的表現與其分散情形，再進一步的進行假設檢定，例如：TASA 數學科即採用此方式（洪碧霞、林素微、林娟如，2006）。依據相關研究（Mislevey, 1991; Mislevy, Beaton, Kaplan, & Sheehan, 1992; OECD, 2009; Lee, et al., 2007）顯示：此種集合個體的能力值估計群體特性的方式將會產生嚴重的偏誤。以往估計個別受試者能力常見的方法有最大概似估計法（maximum likelihood estimation, MLE）與期望後驗估計法（expected a posterior, EAP）。但 MLE 與 EAP 皆可能因為學生的答題總分（total score）或是後驗分布相同，導致不同的受試者得到相同的能力估計值，利用可能值方法從後驗分布中隨機抽取，即使受試者有相同的答題總分或後驗分布，仍會有不同的能力值，即可能值（Wu, 2005）。一些研究也指出，可能值包含了隨機誤差成分，不適合描述個體分數，但可能值具有良好群體估計一致性，適合描述群體之特性（Mislevey, 1991; Mislevey, et al., 1992）。因此，國際上許多大型測驗以可能值方法進行群體統計描述（Allen, Carlson, Johnson, & Mislevy, 1999; Foy, Galia, & Li, 2008; OECD, 2009），假如研究者想要瞭解不同群體的能力表現，則納入群體的背景變項進行可能值方法估計，藉以提升群體參數估計的精確度（Adams, Wilson & Wu, 1997）。此外，國內外的大型測驗，因題庫涵蓋不同認知程度及不同難度之試題，試. 2.

(13) 題數量無法由單一受試者於短時間內完成，故多採用不同的等化設計進行；PISA 為採用 BIB（balanced incomplete block, BIB）（Nancy, James & John, 2001）等化設計（OECD, 2009）；NAEP 則在數學與科學使用 BIB 設計、閱讀與寫作方面則使用了 PBIB（partially balanced incomplete block, PBIB）設計（Andrew & Terry, 2001）；TIMSS 則是每個題本由四個試題區塊組合而成（每個題本均包含數學與科學各兩個試題區塊），而為了連結不同題本，每個試題區塊在題本中出現 2 次（Graham, Christine, Alka, & Ebru, 2008）；國內的「臺灣學生學習成就評量資料庫」（Taiwan Assessment of Student Achievement, TASA）也於不同年度不同科目，分別採用了 BIB、PBIB 以及定錨不等組設計（non-equivalent groups with anchor test design, NEAT）的等化設計（國家教育研究院籌備處，2009）。關於 BIB 與 NEAT 設計之水平及垂直等化效果的比較已有學者進行不同人數、不同試題區塊與不同定錨試題比例等不同實驗設計下的研究（王暄博，2006；張鈺卿，2007），然而大型測驗皆使用可能值方法進行分析，且於題本設計上使用等化設計方法，但僅有少數的文章探討關於可能值方法應用於 BIB 設計上（von Davier, Gonzalez,& Mislevy, 2009），卻未探討不同的等化設計與使用受試者完整（complete）作答反應進行估計，對於可能值方法的參數估計之影響。此外，de la Torre（2009）指出當背景變項與能力值有較高的相關時，則納入背景變項對於可能值的估計可以得到較大的改善，研究中僅探討兩種背景變項相關，對於能力值估計結果的改善，並未探討群體間能力差異，對於使用可能值方法回復群體的平均數與標準差是否有不同的改善結果。本研究採用模擬資料以及實證資料進行分析與探討，利用不同等化設計（complete、BIB、NEAT）於不同施測人數與不同題數下，比較不同估計方法之結果，最後探討在不同估計方法下，當群體能力有差異時，可能值方法對於回復不同群體參數是否有改善的效果，並透過模擬資料以及實證資料之結果，提出適當的等化設計及估計方法，提供國內大型測驗未來實行之參考依據。. 3.

(14) 第二節. 研究目的. 本研究使用模擬資料探討不同變項（等化設計、人數與題數）於不同估計方法下對於個體能力估計與群體參數估計之效果，並探討在不同估計方法下，當群體能力有差異時對於回復不同群體參數之效果。最後以實證資料（TASA2006 年與 2007 年四年級數學科）為例作一說明，本研究目的條列如下：一、參數估計方法納入輔助變數與否對於個體能力估計與群體參數估計之影響。二、參數估計方法納入輔助變數與否在不同等化設計下對於個體能力估計與群體參數估計之影響。. 第三節. 名詞解釋. 壹、完整作答反應估計能力值（complete）完整作答反應估計能力值為產生受試者之能力與試題參數，進而模擬全部受試者於全部題庫下之作答反應，並利用全部受試者於全部題庫下之作答反應進行能力估計。用以比較受試者完整作答反應進行估計，與利用 BIB、NEAT 等化設計的情況下進行估計，對於可能值方法的參數估計之影響。. 貳、未加入輔助變項之可能值方法（PV_NoAV）未加入輔助變項之可能值方法（plausible value without Ancillary Variables），估計過程中未納入輔助變項僅以學生答題反應直接進行後驗分布估計，並從後驗分布中抽取五個可能值，作為受試者之可能值。. 4.

(15) 參、加入輔助變項之期望後驗估計法（EAP_AV）加入輔助變數之期望後驗估計法為將 EAP 方法加入輔助變項進行估計，估計過程中透過輔助變數的加入，進行後驗分布估計，不同於可能值方法從後驗分布中抽取五個可能值，作為受試者之可能值，加入輔助變數之期望後驗估計法僅找出後驗分布之平均值作為受試者之能力值。. 肆、錯誤使用可能值方法（PV_W）文獻中提到，因可能值方法包含了隨機誤差成分，不適合描述個體能力，但可能值具有良好群體估計一致性，適合描述群體之特性（Mislevey, 1991; Mislevey, et al., 1992）。本研究為比較不同估計方法於個體與群體的結果，故在可能值方法中個體能力的估計為將 5 個可能值平均後作為受試者個體能力值，此種方法於 von Davier, Gonzalez,& Mislevy（2009）的研究中表示為 PV_W（“W”為 wrong, not correct），這是常見的錯誤使用可能值方法，如公式 1-1：. PVi =. PVi1 + PVi 2 + PVi 3 + PVi 4 + PVi 5 5. (1-1). 其中，i 表示受試者人數， i = 1,2,3,..., N ； PVi1~PVi5 為第 i 位受試者抽取的 5 個可能值。. 伍、根均方差（root mean square error, RMSE）本研究使用能力真值與能力估計值的根均方差（RMSE）作為估計的評估準則，如公式 1-2： N. RMSE(θ ,θˆ) =. ∑ (θ i =1. i. − θˆi ) 2. N. 其中，i 表示受試者人數， i = 1,2,3,..., N ；. 5. (1-2).

(16) θ = (θ1 ,θ 2 ,θ 3 ,...,θ N ) ：表示受試者能力真值；. (. ). θˆ = θˆ1 , θˆ2 , θˆ3 ,..., θˆN ：表示受試者能力估計值。. 陸、估計偏誤（bias）估計偏誤為每一次模擬資料中，平均每一位受試者的估計值減去真值的誤差，透過計算偏誤，了解每一次模擬研究中估計值高估與低估的情形，如公式 1-3： N. Bias(θˆ) =. ∑ (θˆ j =1. j. −θ j ). N. 其中， θˆ 為受試者的能力估計值；. θ 為受試者的能力真值； N 為受試者人數。. 6. （1-3）.

(17) 第二章. 文獻探討. 本研究是以試題反應理論單向度單參數模式進行能力估計，探討不同等化設計於不同施測人數與不同施測題數下，比較不同估計方法之結果，並比較不同估計方法下，當群體能力有差異時，可能值方法對於回復不同群體參數之效果。因此，本章中針對單向度試題反應理論、參數估計方法、可能值方法以及測驗等化設計方法等相關研究進行分析整理。. 第一節. 單向度試題反應理論. 試題反應理論主要是以個別試題的觀點，來解釋測驗分數的涵義。學生在某一試題上的表現情形，與其背後的某種潛在特質（或能力）之間具有某種關係存在，這關係可以透過一條連續性遞增的數學函數來加以表示和詮釋，這個數學函數便稱作「試題特徵曲線」（item characteristic curve, ICC）。試題特徵曲線所代表的涵義即為：答對某一試題的機率，是由受試者能力和試題特性所共同決定的。（余民寧，2009）。單向度試題反應模式，主要可分成二元計分與多元化計分二大類。適用於二元計分的單向度試題反應理論，常用的有單參數對數模式（one-parameter logistic model, 1PL）、雙參數對數模式（two-parameter logistic model, 2PL）及三參數對數模式（three-parameter logistic model, 3PL）；本研究使用單參數對數模式進行探討，以下針對此模式進行介紹。單參數對數模式又稱為 Rasch 模式，假設受試者 j 之能力為 θ j ，其答對試題 i 的機率為 Pi (θ j ) ，其數學公式如下（Rasch, 1960）： Pi (θ j ) ≡ P( X ij = 1 | θ j , bi ) =. 1 2, 3, ...n j = 1, 2, 3, ...N （2-1） i = 1, 1 + exp[−(θ j − bi )]. 其中，Xij 為受試者 j 在試題 i 的作答反應，答對記為 1，答錯記為 0，. 7.

(18) bi 為試題 i 之試題難度參數（item difficulty parameter）； n 為試題長度；N 為受試者人數。. 第二節. 參數估計方法. 本研究進行不同方法比較時以傳統的點估計方法、加入輔助變數之期望後驗估計法與可能值方法進行探討，在傳統點估計方法中常使用最大概似估計法與期望後驗估計法，故以下分別介紹三種方法估計方法：最大概似估計法、期望後驗估計法與加入輔助變數之期望後驗估計法。. 壹、最大概似估計法最大概似估計法為假設測驗中共有 n 題試題，試題間彼此獨立，則最大概似估計法之概似函數可表示為公式（2-2）所示： n. L(u | θ ) = L( X 1 ,..., X n | θ ) = ∏ Pi (θ j ) Qi (θ j ) X ij. 1− X ij. （2-2）. i =1. 其中， u = (X 1 j ,..., X nj ) 為所有作答反應的向量； L(X 1 j ,..., X nj | θ )為概似函數（likelihood function）；. θ 為受試者的真實能力； X ij 指受試者 j 在第 i 題的作答反應，在二元計分的情況下，答對為 1，答. 錯為 0； Pi (θ j ) 指受試者 j 在第 i 題的答對機率； Qi (θ j ) 指受試者 j 在第 i 題的答錯機率， Qi (θ j ) = 1 − Pi (θ j ) 。. 為了加速找到概似函數的最大值，通常是先對概似函數取對數，如公式（2-3），再以 Newton-Raphson 法來進行迭代。. 8.

(19) n. log L(u | θ ) = log L( X 1 ,..., X n | θ ) = ∑ log[ Pi X (θ ) ⋅ Qi1− X (θ )] i. i. （2-3）. i =1. 使用 MLE 能力估計如公式（2-4）所示，而第 p 次的能力估計的變動量為 δ ( p ) 如公式（2-5）所示：. θ ( p ) = θ ( p-1) − δ ( p ) δ ( p) = [. （2-4）. ∂ 2 log L(u | θ ) -1 ∂ log L(u | θ ) ] × ∂θ 2 ∂θ. （2-5）. 貳、期望後驗估計法 EAP 的估計過程是依據貝氏理論，如公式（2-6），其中公式（2-6）的分母可以表示如公式（2-7）（Baker & Kim, 2004）。 g (θ j | u j , ξ ) =. P (u j | θ j , ξ ) g (θ ). （2-6）. P(u j ). P (u j ) = ∫θ P (u j | θ ) g (θ )dθ. （2-7）. 在局部獨立的假設下，受試者 j 的作答反應向量為 u j = (X 1 j ,..., X nj ) ，其答對機率如公式（2-8） n. P ( u j | θ j , ξ ) = ∏ Pi (θ j ) Qi (θ j ) X ij. 1− X ij. （2-8）. i −1. 概似函數的條件機率是在給定個體能力值 θ 的情況下，個體能力值則是從母群的分布 g(θ)中隨機被抽取出來，因為公式（2-7）中包含了積分的運算式，因此利用 Hermite-Gauss 分割點近似方法逼近常態分布 g(θ)，Bock 和 Mislevy（1982）提出近似點的方法，公式如（2-9）： q. E (θ j | u j , ξ ) = θ j =. ∑u k =1 q. k. L(u k ) A(u k ). ∑ L(u k =1. 9. （2-9） k. ) A(u k ).

(20) 公式（2-9）有幾個特點：一、EAP 方法不需要 Newton-Raphson 法來進行迭代，而是直接估計能力值；二、A(Xk)在最後被用來調整分割點的權重，透過前一步驟的概似函數進行更新；三、EAP 的最後結果可以透過前一階段而得；四、EAP 的能力估計是容易被獲得的。. 參、加入輔助變項之期望後驗估計法加入輔助變數之期望後驗估計法（vvvvv. EAP_AV）之公式如公式（2-6）. 與（2-7），因假設抽樣的學生是來自於一個常態分布的母體，其平均數為 μ，變異數為 σ 2 ，故公式（2-6）之 g(θ)如下： g (θ ) ≡ f θ (θ ; μ , σ 2 ) = (2πσ 2 ). −1. 2. ⎡ (θ − μ ) 2 ⎤ exp ⎢− 2σ 2 ⎥⎦ ⎣. （2-10）. Adams（1997）等人將平均數 μ 以迴歸模式 Y jT β 取代，假設有 u 個輔助變項，則 Y j 是一個 u 的向量，對於受試者 j， Y j 是固定且已知的條件變數（如性別或社 iid. 經地位等輔助變數），β 是一個相對應的迴歸係數向量。其中，假設 E j ~ N( 0 ,σ 2 )，則學生 j 的母群模式可表示為 θ j = Y jT β + E j 。. 第三節. 可能值方法. 目前 NAEP、TIMSS 和 PISA 等國際大型測驗，學生的成就資料是以「可能值」的資料型態提供給次級資料的分析者。報告中說明，試題反應模式中，個體的能力值是觀察不到，即個體能力的測量含有不確定性，在計算群體統計量和相關連的標準誤時，應考量這些不確定性（Allen, Donoghue, & Schoeps, 2001; Mullis, Martin,& Foy, 2008; OECD, 2009）。而可能值方法是從後驗分布中隨機抽取學生的. 10.

(21) 可能值，則能考量上述提到的不確定性。且可能值方法沒有先估計個體的能力再計算群體參數，而是直接估計母群的參數，可以使參數的估計更精準（Mislevy & Sheehan, 1989）。可能值方法是以潛在迴歸模式，加入學生答題反應和相關條件變項計算每一位學生的機率分布，即後驗分布，並從後驗分布中隨機抽取學生的可能值，以利於次級資料分析者使用。可能值方法並沒有先估計個體的能力再計算群體參數，而直接使用可得的資料（學生的答題反應和輔助變數資料）估計母群的參數，可以使參數的估計更精準（Mislevy & Sheehan, 1989）。當模式被正確界定時，可能值可以提供群體參數的一致性估計，但並非個體能力的不偏估計，使用可能值的平均並不能代表個別學生的能力（Mislevy, Beaton, Kaplan, & Sheehan, 1992）。試題反應模式為條件機率的模式，它描述了以能力值 θ 為條件而產生試題反應的過程。此模式完整的定義需要界定能力值 θ 的密度函數 f θ (θ ; α ) 。令 α 為 θ 分布的參數集。當定義單向度邊際試題反應模式（uni-dimensional marginal item response models），常假設抽樣的受試者是來自於一個常態分布的母體，其平均數為 μ，變異數為 σ 2 。也就是： f θ (θ ; α ) ≡ f θ (θ ; μ , σ ) = (2πσ ) 2. 2. −1. 2. ⎡ (θ − μ ) 2 ⎤ exp ⎢− 2σ 2 ⎥⎦ ⎣. （2-11）. 或者同義的式子，. θ =μ+E. （2-12）. 其中， E ~ N (0, σ 2 ) 。 Adams（1997）等人使用迴歸模式 Y jT β 取代平均數 μ，假設有 u 個輔助變項，則 Y j 是一個 u 的向量，對於受試者 j， Y j 是固定且已知的條件變數（如性別或社經地位等學生變項），β 是一個相對應的迴歸係數向量。則受試者 j 的母群模式可. 11.

(22) 表示為 θ j = Y jT β + E j. （2-13）. iid. 其中，假設 E j ~ N( 0 ,σ 2 ) 。 E j 的分布應該會和 θ j 相同，只是將其轉換為平均數為 0，利用迴歸模式 Y jT β 取代平均數 μ，其中 Y j 為 u 的向量，β 為迴歸係數，則母體的模式可以被替換為如下：. f j (θ j ; Y j , β , σ 2 ) = (2πσ 2 ). −1. 2. exp[−. 1 2σ. 2. (θ n − Y jT β )' (θ j − Y jT β )]. （2-14）. 公式（2-14）為一常態分配，平均數為 Y jT β，及變異數為 σ 2，若使用公式（2-14）估算母體分配，則需要估算的參數為 β， σ 2 和 ξ（試題參數），其邊際後驗機率可以被表示如公式（2-15），其中， X j 為受試者 j 的作答反應 hθ (θ j ; Y j , ξ , β , σ | X j ) = 2. f j ( X j ; ξ | θ j ) fθ (θ j ; Y j , β , σ 2 ) f X ( X j ;Y j , ξ , β ,σ 2 ). （2-15）. 壹、抽取可能值從受試者的能力值之後驗分布中抽取五個可能值，可能值的抽取步驟如下（Foy, Galia, & Li, 2008）：步驟一：從一個近似常態的分配 P ( β , σ | x j , y j )，固定 σ 為 σˆ ，抽取一個 β（Thomas,. 1993）。步驟二：在 β 的條件下，（且固定 σ = σˆ ），公式（2-15）後驗分布的平均 θ j 和變異數 σ 使用蒙地卡羅法的演算法則計算。步驟三：能力值從一個常態分布（平均 θ j 、變異數 σ）獨立抽取，此步驟重複五次，每一位學生產生 5 個 θ j 的差補值，受試者雖然被施測較少的題數，. 12.

(23) 但是受試者的 β 和 σ 是固定的，因此所有的受試者不管施測的題數都被指定一組可能值。. 貳、可能值方法之優點利用可能值方法估計母群參數時，有四個優勢：一、利用學生答題反應直接估計母群體的參數，可以避免由個體能力計算母群體的參數而衍生的兩個步驟估計上的誤差（Mislevy, 1984）。二、加入學生背景變項進行估計，可以降低試題參數的估計誤差（Mislevy, 1984;. Mislevy & Sheehan, 1989）。三、加入學生背景變項進行估計，可以提高能力估計值的精確性（Mislevy, 1984）。四、若給予學生哪一題試題施測時考慮學生的背景變項，則在估計試題參數就應該考慮這些背景變項，才能確保試題參數估計的一致性（Mislevy & Sheehan,. 1989）。. 參、可能值方法與點估計方法比較 von Davier 等人比較了傳統的點估計方法，最大概似估計法、期望後驗估計法以及可能值方法間的估計效果，發現可能值方法對於回復群體參數有較好的回復性，並顯示誤用可能值方法，會造成較大的估計誤差（von Davier, Gonzalez,&. Mislevy, 2009）。Wu（2005）比較點估計方法與可能值方法，在估計母群平均數時兩種方法並沒有明顯的差異，但在變異數估計中，可能值方法得到較好的結果，且相較於使用點估計的方式估計母群的參數，可能值方法則考慮估計群體參數時的誤差來源，並提供次級資料的分析者能在考量測量誤差（ measurement. error）的情況下，分析成就測驗之資料。. 13.

(24) 第四節. 測驗等化設計. 測驗等化設計的方法眾多，如單組設計（single-group design）、等群組設計（equivalent-grwoup design）、定錨不等組設計（NEAT）、平衡不完全區塊（BIB）等。本研究中以 BIB 與 NEAT 等化設計進行比較，故以下簡略說明 BIB 與 NEAT 測驗等化設計，並說明大型測驗之題本設計。. 壹、定錨不等組設計 NEAT 設計包含兩個獨立的單組設計，其設計方式為在兩組受試者的母群體中，隨機抽取 P1 與 P2 兩組受試者樣本。兩組受試者於不同的施測時間，P1 組受試者接受 A 測驗，P2 組受試者接受 B 測驗。P1 和 P2 受試樣本另外須接受同一份共同測驗 C，即為定錨試題，為避免順序因素的影響，通常定錨試題在兩組樣本的測驗順序一樣，而測驗內容和難度必須與 A、B 測驗相似，其測驗長度相當於一個分測驗（von Davier, Holland, & Thayer, 2004；Dorans & Holland, 2000；. Tianyou, 2005）。NEAT 設計如表 2-1（Kolen & Brennan,1995；von Davier, Holland, & Thayer, 2004）。表 2-1 NEAT 設計受試者群 P1 P2. A 測驗 V. B 測驗 V. 定錨測驗 C V V. 註：“V”為受試者必須受測之測驗. 在 NEAT 設計中，每個受試樣本皆須施測定錨試題 C 測驗，因此，定錨試題之試題參數好壞將會影響等化連結效果。若定錨試題挑選恰當，則可以避免練習（practice）、疲勞（fatigue）、學習（learning）、順序因素（order effects）及需要大樣本的問題（Klein & Jarjoura, 1985）。使用 NEAT 設計測驗等化只需要假設受試群體是隨機抽取，不必假設兩受試群體有相同的能力值。NEAT 設計的定錨試. 14.

(25) 題內容要盡可能相似且試題難度要相同，因為定錨試題是用來調整兩個不同能力之群體所造成的等化風險（Petersen, Kolen & Hoover,1993）。. 貳、平衡不完全區塊設計平衡不完全區塊設計（balanced incomplete block design, BIB）是將試題分成若干試題區塊（block），區塊間與區塊內的試題皆不重複，受試者只需接受若干試題區塊的試題，且不同受試者可能接受部分相同、完全相同、或完全不同的試題區塊。最後，將所有受試者的作答反應資料堆疊進行等化分析，以達到能力估計的目的，BIB 設計如表 2-2（曾玉琳、王暄博、郭伯臣、許天維，2006）。表 2-2 是以 7 個題本之 BIB 設計為範例，在此設計範例中，有 7 個題本（S1~S7）；7 個試題區塊（M1~M7）；每個題本包含 3 個試題區塊（k1~k3）。BIB 設計中試題區塊序號的組合不重複，如：S1 題本是由試題區塊 M1、M2、M4 組合而成，則設計中其他題本（S2~S7）就不會在有相同試題區塊（M1、M2、M4）的組合。表 2-2 BIB 設計題本序號 S1 S2 S3 S4 S5 S6 S7. 區塊 (k1) M1 M2 M3 M4 M5 M6 M7. 區塊 (k2) M2 M3 M4 M5 M6 M7 M1. 區塊 (k3) M4 M5 M6 M7 M1 M2 M3. BIB 設計的優點為試題區塊與題本的配置方式採用螺旋（spiral）式排列方式，此種排列方式可使每一個試題區塊的施測次數相同。此設計在無作答時間（response time）的限制情形下，BIB 設計必須符合下列限制，求出符合的最佳解（van der Linden, Veldkamp & Carlson, 2004；Nemhauser & Wolsey, 1999）：. 1. 每一個題本配置的試題區塊數目，如公式（2-16）； 2. 每一個試題區塊在所有題本中出現的次數，如公式（2-17）；. 15.

(26) 3. 成對試題區塊在所有題本中出現的次數，如公式（2-18）； 4. 成對試題區塊與組型的一致性，如公式（2-19）。 t. ∑w y =1. yx. = k , x = 1,..., b. （2-16）. yx. ≤ r , y = 1,..., t. （2-17）. ≥ λ , y < g = 1,..., t. （2-18）. b. ∑w x =1 b. ∑z x =1. ygx. wyx + wgx ≥ 2 z ygx , y < g = 1,..., t , x = 1,..., b. （2-19）. 其中： t 指試題區塊數；. x 指題本序號， x = 1,..., b ； k 指每個題本配置的試題區塊數，即區塊數目（number of blocks）；. r 指每一試題區塊在題本中出現的次數；. y 指題庫中個別試題區塊代號， y = 1,..., t ； g 指題庫中成對區塊中第二個試題區塊代號， g = 1,..., t ； λ 指成對試題區塊在題本中出現的次數； wyx 指試題區塊與題本的配置組型，其中 wyx ∈ {0,1}, y = 1,..., t , x = 1,..., b ，. 如題本 S1 出現 M1、M2、M4 三個試題區塊，則 w11 , w21 , w41 ∈ {1} ； z ygx 指成對試題區塊與題本的配置組型， z ygx ∈ {0,1}； y < g = 1,..., t ； x = 1,..., b 。. 另外，BIB 設計必須符合三項基本限制，但實際設計情況，必須考慮試題內容、形式及作答時間（王暄博，2006）：. 1. 每一個題本內的試題區塊數要相同； 2. 試題區塊作結合以求出最小題本數； 3. 每一個試題區塊在所有題本中出現的次數要相同。. 16.

(27) 參、大型測驗之題本設計國內外的大型測驗，因題庫涵蓋不同認知程度及不同難度之試題，試題數量無法由單一受試者於短時間內完成，故多採用不同的等化設計進行，以下分別介紹 NAEP、TIMSS、PISA 與 TASA 四個大型測驗之等化設計。一、NAEP 以 1998 年 4 年級公民為例，使用之題本設計為 BIB 設計，設計中共包含了. 6 個試題區塊（M1~M6）組合成 18 個題本（S1~S18），為了使試題區塊在題本前後出現的次數一致，故將題本 16 到 18 與題本 13 到 15 的兩個試題區塊作交換後組成（Andrew & Terry, 2001），以表 2-3 作說明。表 2-3 NAEP 1998 年 4 年級公民題本區塊設計表題本 S1 S2 S3 S4 S5 S6 S7 S8 S9. 區塊 I M1 M2 M3 M4 M5 M6 M1 M2 M3. 區塊 II M2 M3 M4 M5 M6 M1 M3 M4 M5. 題本 S10 S11 S12 S13 S14 S15 S16 S17 S18. 區塊 I M4 M5 M6 M1 M2 M3 M4 M5 M6. 區塊 II M6 M1 M2 M4 M5 M6 M1 M2 M3. 資料來源︰NAEP1998 Technical Report（p.408）. 二、TIMSS 以 2007 年之題本設計為例，每個題本由四個試題區塊組合而成，包含數學（M01~M14）與科學（Q01~Q14）各兩個試題區塊，為了連結不同題本，每個試題區塊在題本中出現 2 次（Graham, Christine, Alka, & Ebru, 2008）。表 2-4 為. TIMSS2007 年之題本區塊設計。表 2-4 TIMSS2007 年題本區塊設計表. 17.

(28) 題本 S1 S2 S3 S4 S5 S6 S7. 區塊（Part I）區塊（Part II） M01 M02 Q01 Q02 Q02 Q03 M02 M03 M03 M04 Q03 Q04 Q04 Q05 M04 M05 M05 M06 Q05 Q06 Q06 Q07 M06 M07 M07 M08 Q07 Q08. 題本 S8 S9 S10 S11 S12 S13 S14. 區塊（Part I）區塊（Part II） Q08 Q09 M08 M09 M09 M10 Q09 Q10 Q10 Q11 M10 M11 M11 M12 Q11 Q12 Q12 Q13 M12 M13 M13 M14 Q13 Q14 Q14 Q01 M14 M01. 資料來源︰TIMSS2007 Technical Report（p.34）. 三、PISA 以 PISA2006 年之題本設計為例，題本設計為 BIB 設計，共包含 13 個題本（S1~S13），每個題本包含 4 個試題區塊（區塊 I~區塊 IV），每個試題區塊在題本中出現 4 次（r＝4），以及成對試題區塊在各題本中出現 1 次（λ＝1）（OECD,. 2009），表 2-5 為 PISA2006 年之題本區塊設計，其中試題區塊 M1~M4 代表數學科之試題區塊；Q1~Q7 代表科學之試題區塊；R1~R2 代表閱讀之試題區塊，每個題本內可能包含數學、科學或閱讀三種不同科目之試題區塊。表 2-5 PISA2006 年題本區塊設計表題本區塊 I 區塊 II 區塊 III 區塊 IV S1 Q1 Q2 Q4 Q7 S2 Q2 Q3 M3 R1 S3 Q3 Q4 M4 M1 S4 Q4 M3 Q5 M2 S5 Q5 Q6 Q7 Q3 S6 Q6 R2 R1 Q4 S7 Q7 R1 M2 M4. 題本區塊 I 區塊 II 區塊 III 區塊 IV S8 M1 M2 Q2 Q6 S9 M2 Q1 Q3 R2 S10 M3 M4 Q6 Q1 S11 M4 Q5 R2 Q2 S12 R1 M1 Q1 Q5 S13 R2 Q7 M1 M3. 資料來源︰PISA2006 Technical Report（p.29）. 18.

(29) 四、TASA. TASA 在題本設計方面，絕大部分之年段與科目（英語文除外）皆使用 BIB 設計（如表 2-6），只有在 2005 年與 2006 年之數學科採用 PBIB 設計；2007 年施測科目除了英語文外，其餘科目皆使用 NEAT 設計（如表 2-7）（國家教育研究院籌備處，2009）。由於英語文包含聽讀與寫說，故採取每個題本由相同試題區塊數組成之題本排列設計，為了連結各題本，試題區塊在不同題本出現不只一次，以 2007 年為例，題本設計如表 2-8（國家教育研究院籌備處，2009）。表 2-6 為 TASA2006 年數學科 4 年級之題本區塊設計，此設計為 BIB 設計，每個題本由 3 個試題區塊（區塊 I~區塊 III）組合而成，共包含 13 個試題區塊（M1~M13）組合成 26 個題本（S1~S13）（國家教育研究院籌備處，2009）。表. 2-7 為 TASA2007 年國文科之題本區塊設計，此設計為 NEAT 設計，10 個題本（S1~S10）均分成兩個試題區塊（區塊 I~區塊 II），區塊 I 為 10 個題本共有的共同試題區塊（M），區塊 II 為 10 個題本特有的獨立試題區塊（M1~M10）（國家教育研究院籌備處，2009）。. 表 2-6 TASA2006 年數學科 4 年級題本區塊設計表題本序號 S1 S2 S3 S4 S5 S6 S7. 區塊 I M1 M2 M3 M4 M5 M6 M7. 區塊 II M2 M3 M4 M5 M6 M7 M8. 區塊 III M5 M6 M7 M8 M9 M10 M11. 題本序號 S8 S9 S10 S11 S12 S13. 資料來源︰TASA2006 資料使用手冊（頁 18，未出版）. 19. 區塊 I M8 M9 M10 M11 M12 M13. 區塊 II M9 M10 M11 M12 M13 M1. 區塊 III M12 M13 M1 M2 M3 M4.

(30) 表 2-7 TASA2007 年國文科題本區塊設計表題本序號 S1 S2 S3 S4 S5. 區塊 I M M M M M. 區塊 II M1 M2 M3 M4 M5. 題本序號 S6 S7 S8 S9 S10. 區塊 I M M M M M. 區塊 II M6 M7 M8 M9 M10. 資料來源︰TASA2007 資料使用手冊（頁 9，未出版）. 表 2-8 TASA2007 英語文科之題本設計聽力測驗題本 S1 S2 S3 S4 S5 S6. 區塊 I M1 M1 M1 M1 M1 M1. 閱讀測驗區塊 II M2 M2 M2 M3 M3 M3. 區塊 I M4 M4 M4 M4 M4 M4. 資料來源︰TASA2007 資料使用手冊（頁 13，未出版）. 20. 區塊 II M5 M6 M7 M5 M6 M7.

(31) 第三章. 研究方法. 本研究以單向度單參數之試題反應理論為基礎，使用模擬資料進行不同等化設計對於可能值方法、期望後驗估計法與最大概似估計法之參數估計影響，並比較不同估計方法下，當群體能力有差異時，可能值方法對於回復不同群體參數之效果。最後再以實證資料進行分析，作一範例說明，藉以驗證本研究所欲探討的問題。本章節共分為六個部分：一、研究流程；二、測驗等化設計；三、模擬設計與實證資料；四、研究工具；五、評估準則。. 第一節. 研究流程. 本研究首先設定研究主題，再探討與研究主題相關之文獻，進而提出不同等化設計與不同估計方法，然後依據本研究中設定之不同情境產生模擬資料後，進行不同等化設計與不同估計方法之參數估計與結果比較，最後以實證資料進行分析，作一範例說明，並撰寫研究結果。研究流程圖如圖 3-1：. 21.

(32) 設定研究主題文獻探討設計BIB及 NEAT題本連結. 估計方法. 設定實驗情境產生模擬資料. 實證資料整理. 不同等化設計與不同估計方法下之參數估計比較不同等化與不同估計方法之誤差撰寫研究結果圖 3-1 研究流程圖. 第二節. 測驗等化設計. 本研究中探討不同等化設計對於個體能力估計之效果與群體參數的回復性，王暄博（2006）研究顯示，不論在 BIB 或 NEAT 設計中，隨著試題區塊數增加，受試者能力值之風險值也跟著增加，故本研究僅針對試題區塊數為 7 的 BIB 與 NEAT 等化設計進行探討，如表 3-1。. 表 3-1 BIB 與 NEAT 參數設計表等化設計 BIB NEAT. b 7 3. t 7 7. k 3 3. 22. r 3. λ 1.

(33) 表 3-1 為本研究中 BIB 與 NEAT 模式之參數設定，以下分別介紹兩種設計之定義代號： S x ：題本序號， x = 1, K , b ；其中： bBIB = 7 ， bNEAT = 3 ； M y ：試題區塊， y = 1, K t ；其中： t BIB = 7 ， t NEAT = 7 ； kl ：每個題本之試題區塊； l BIB = 1,2,3 ， l NEAT = 1,2,3 ；. r：每個試題區塊在所有題本中出現的次數， rBIB = 3 ； λ：成對試題區塊在各題本中出現次數， λBIB = 1 。以下分別介紹 BIB 與 NEAT 等化設計模式。. 壹、BIB 等化設計表 3-2 為 BIB 設計表，共包含 7 個題本（b＝7）、7 個試題區塊（t＝7）、每個題本包含 3 個試題區塊（k＝3）、每一試題區塊在題本中出現的次數為 3 次（r ＝3）、以及成對試題區塊在題本中出現的次數只有 1 次（λ＝1）。根據 BIB 設計之條件，每個題本中試題區塊的組合不重複。從表 3-2 中，可以了解每個題本中放置的試題區塊序號。表 3-2 BIB 設計表題本序號 S1 S2 S3 S4 S5 S6 S7. 區塊（k1） M1 M2 M3 M4 M5 M6 M7. 區塊（k2） M2 M3 M4 M5 M6 M7 M1. 23. 區塊（k3） M4 M5 M6 M7 M1 M2 M3.

(34) 貳、NEAT 等化設計表 3-3 為 NEAT 設計表，共包含 3 個題本（b＝3）、7 個試題區塊（t＝7）、每個題本包含 3 個試題區塊（k＝3）。試題區塊 M1 為 NEAT 設計之定錨試題區塊，從表 3-2 中，可以了解每個題本中放置的試題區塊序號。表 3-3 NEAT 設計表題本序號 S1 S2 S3. 區塊（k1） M1 M1 M1. 第三節. 區塊（k2） M2 M4 M6. 區塊（k3） M3 M5 M7. 模擬設計與實證資料. 本研究分為以模擬資料與實證資料進行分析探討，以下分別說明模擬資料之變項設定與實證資料之介紹。. 壹、模擬資料之變項設定本研究利用電腦模擬產生作答反應，探討不同等化設計進行不同情況下之測驗等化模擬。每一種情境下，均重覆進行 50 次的資料模擬，以不同的估計方法估計受試者能力值，並計算各參數之估計誤差。共同變項設定如表 3-4，並分別說明如下：表 3-4 不同等化設計之共同變項設定實驗變項受試者群能力分布試題長度每個年級施測人數試題難度參數分布(b) 估計方法等化設計每一情形模擬資料集個數. 變項設定如表3-5 每個題本施測題數 15 題及 30 題 5460 人及 8064 人截尾常態分布N (0,1)，範圍 − 3 ~ 3 PV、PV_NoAV、EAP_AV、EAP、MLE complete、BIB、NEAT 50 次. 24.

(35) 一、受試者群能力分布本研究中受試者群體能力主要參考 von Davier、Gonzalez 和 Mislevy（2009）進行設定，受試者具有兩組背景變項，分別為學校類別（A、B）以及父母親社經地位（Socioeconomic Status, SES）之高（H）、低（L），並能區分成四個獨立的群體，如表 3-5。在模擬中假設學校 A 與 B 之群體能力平均差為 0.000；高社經地位群體能力平均為+0.707，低社經地位群體能力平均為-0.707，高低社經地位之群體能力平均差為 1.414；不同群體之標準差皆為 0.707，而群體總標準差為. 1.000（0.7072＋0.7072），且假設分別來自常態分布，平均數及標準差分別如表 3-5。. 表 3-5 不同群體能力平均數與標準差之設定. School SES L H Total. A -0.707 (0.707) +0.707 (0.707) 0.000 (1.000). B -0.707 (0.707) +0.707 (0.707) 0.000 (1.000). Average -0.707 (0.707) +0.707 (0.707) 0.000 (1.000). 二、試題長度本研究欲探討不同題數下估計方法與等化設計於個體能力估計與群體參數估計之效果，故模擬每個題本施測題數為 15 題與 30 題兩種情況，試題區塊數為. 3，因此每個試題區塊之試題數為 5 題與 10 題，施測總試題數分別為 35（7×5）題與 70（7×10）題。三種等化設計之題數設定如表 3-6。三、受試者人數本研究參考 TASA2006 年與 2007 年小四數學科實證資料之受試人數並配合等化設計之要求，故模擬兩種施測人數（5460 人與 8064 人），每個獨立群體之施測人數為 1365 （5460÷4）人與 2016 （8064÷4）人，每個題本施測人數為 780 （5460÷7）人與 1152（8064÷7）人，每個試題施測人數為 2340（780×3）人與 3456（1152×3）. 25.

(36) 人。三種等化設計之人數設定如表 3-7。. 表 3-6 BIB 與 NEAT 等化設計之題數設定等化設計. 試題區塊數. complete. X. BIB. 7. NEAT. 7. 每個試題區塊之試題數 X X 5 10 5 10. 每個題本施測題數 X X 15 30 15 30. 施測總試題數 35 70 35 70 35 70. 註：“X＂表示受試者被施測全部之試題，無區塊數與題本之設計. 表 3-7 BIB 與 NEAT 等化設計之人數設定等化設計. complete BIB NEAT. 每個題本施測人數 X X 780 1152 780 1152. 每個試題施測人數 5460 8064 2340 3456 2340 3456. 施測總人數 5460 8064 5460 8064 5460 8064. 註：“X＂表示受試者被施測全部之試題，無區塊數與題本之設計. 四、試題難度參數分布試題難度參數設定為截尾常態分布，平均數為 0，標準差為 1，將範圍界定於 − 3 ~ 3 ，記為 N (0,1) 。五、估計方法本研究探討不同估計方法對於個體能力估計與群體參數估計之效果，估計方法分為單向度納入輔助變數之可能值方法（PV）、未納入輔助變數之可能值方法（ PV_NoAV ）加入輔助變數之期望後驗估計法（ EAP_AV ）、期望後驗估計法（EAP）以及最大概似估計法（MLE）五種。. 26.

(37) 貳、實證資料本研究中實證資料分析是利用 TASA2006 年與 2007 年，數學科四年級之作答反應與輔助變數進行分析，分別作為 BIB 與 NEAT 等化設計之驗證。以下分別介紹 TASA2006 年與 2007 年四年級數學科之施測題本設計、學生問卷與估計模式。一、TASA2006 數學科. 2006 年四年級數學科採用 BIB 設計題本模式，施測樣本數為 8083 人，共有 104 題選擇題，如表 3-8 所示，共有 13 個題本（ S1~S13 ）； 13 個試題區塊（M1~M13），每一試題區塊共有 8 題試題；每個學生作答三個試題區塊（區塊. I~區塊 III），因此每一個題本中共有 24 題試題（國家教育研究院籌備處，2009）。表 3-8 TASA2006 四年級數學科題本設計表題本序號 S1 S2 S3 S4 S5 S6 S7. 區塊 I M1 M2 M3 M4 M5 M6 M7. 區塊 II M2 M3 M4 M5 M6 M7 M8. 區塊 III M5 M6 M7 M8 M9 M10 M11. 題本序號 S8 S9 S10 S11 S12 S13. 區塊 I M8 M9 M10 M11 M12 M13. 區塊 II M9 M10 M11 M12 M13 M1. 區塊 III M12 M13 M1 M2 M3 M4. 資料來源︰TASA2006 資料使用手冊（頁 18，未出版）. 二、TASA2007 數學科. 2007 年四年級數學科採用 NEAT 設計題本模式，施測樣本數為 8200 人，共有 96 題選擇題，其特點為多份測驗題本給予多組考生施測，而所有題本均包含一共同區塊，該區塊的試題即定錨試題，藉此等化所有試題的量尺。如表 3-9 所示，10 個題本（S1~S10）均包含兩個試題區塊（區塊 I、區塊 II），區塊 I 為共同試題區塊（M），包含 16 題選擇題；區塊 II 為特有的獨立試題區塊（M1~M10），每個試題區塊內各有 8 題選擇題（國家教育研究院籌備處，2009）。. 27.

(38) 表 3-9 TASA2007 四年級數學科題本設計表題本序號 S1 S2 S3 S4 S5. 區塊 I M M M M M. 區塊 II M1 M2 M3 M4 M5. 題本序號 S6 S7 S8 S9 S10. 區塊 I M M M M M. 區塊 II M6 M7 M8 M9 M10. 資料來源︰TASA2007 資料使用手冊（頁 18，未出版）. 三、學生問卷. TASA2006、2007 年之學生問卷主要是蒐集影響學生學習成就之相關因素資料，而影響學生學習成就之相關因素，大致可歸納為三大類：（國家教育研究院籌備處，2009）. 1. 學生個人基本資料，包括性別、居住地、喜歡科目、交友情形、課餘的學習情形。. 2. 學生家庭資料，包括家庭結構、家庭經濟，父母教育程度、婚姻狀況、社經地位、父母對子女的教養態度、教育期望及家庭讀書、生活環境。. 3. 班級結構，包括人數、編班情形、班級氣氛。 2006 年學生問卷資料題數分別為，數學問卷 13 題與共同問卷 28 題；2007 年學生個人問卷資料題數共 103 題。本研究中以可能值方法納入輔助變數估計學生群體參數，故學生問卷即為本研究之輔助變數。四、估計模式本研究以單維度 IRT 單參數模式進行能力估計，使用可能值方法估計群體能力參數。本研究模擬設定兩個背景變項，故進行實證資料估計時，於學生問卷挑選兩個背景變項作為輔助變項。分別將所有背景變項與能力值進行二系列相關，並於 2006 年與 2007 年中分別挑出最高相關與最低相關的兩個變項，將高低相關兩變項納轉為虛擬編碼後納入模式中，以可能值方法進行群體參數估計。. 28.

(39) 如表 3-10 分別為 2006 年與 2007 年問卷題目中與能力值高相關與低相關的兩個問卷試題；2006 年高相關與低相關之相關係數分別為 0.242 與 0.018；2007 年高相關與低相關之相關係數分別為 0.031 與 0.000；故本研究於 2006 年與 2007 年的實證資料分析時，分別納入表 3-10 之問卷題目進行估計。. 表 3-10 TASA2006 與 2007 數學科背景問卷題目年度. 題號. 問卷題目. 2006. 數學問卷 08. 家中適合你閱讀的書籍大約有多少？. 0.242. 2006. 共同問卷 24. 你每個禮拜平均要考試幾次？. 0.018. 2007. 學生個人問卷 9_4 您家裡有「字典」嗎？. 2007. 學生個人問卷 10_1. 相關係數. 0.031. 這學期，您是否在放學後參加過「補習、家教、 0.000 或課輔（安親）班」的校外課程？. 第四節. 研究工具. 本研究使用的工具有 MATLAB 軟體、Acer ConQuest 2.0 軟體，茲分述如下。. 壹、MATLAB 2009 本研究使用 MATLAB 2009 程式產生受試者之主要能力、試題參數以及背景變項，進而模擬作答反應，並計算個體能力與群體參數估計誤差。. 貳、Acer ConQuest 2.0 Acer ConQuest 2.0 可應用於單向度、多向度 IRT 模式。本研究使用 Acer ConQuest 2.0 軟體進行能力與試題參數估計，分別利用單向度可能值方法（PV）、未納入輔助變數之可能值方法（ PV_NoAV ）加入輔助變數之期望後驗估計法（EAP_AV）、期望後驗估計法（EAP）以及最大概似估計法（MLE）進行個體能力與群體參數估計。. 29.

(40) 第五節. 評估準則. 本研究中不同等化設計與不同估計方法之比較，是將原始模擬產生之受試者能力參數視為真值，並計算不同估計方法下，使用不同等化設計之估計值的根均方差（RMSE），且模擬 50 次 RMSE 的平均值做為估計誤差。並透過分別計算個體能力與群體參數之 RMSE 了解不同研究設計下個體能力估計與群體參數估計之效果，如 RMSE 之結果較小，表示該情境之估計誤差小，有較好的估計結果；反之則表示估計結果較差。一、受試者個體能力值受試者個體能力值之 RMSE 如公式 3-1， N. RMSE(θ ,θˆ) =. ∑ (θ i =1. i. − θˆi ) 2. (3-1). N. 其中，i 表示受試者人數； i = 1,2,3,..., N θ = (θ1 ,θ 2 ,θ 3 ,...,θ N ) ：表示受試者能力真值. (. ). θˆ = θˆ1 , θˆ2 , θˆ3 ,..., θˆN ：表示受試者能力估計值. 二、受試者群體參數本研究中受試者之群體參數分別探討群體能力平均值與標準差兩個部分。受試者群體能力平均值之 RMSE 如公式 3-2，受試者群體能力標準差之 RMSE 如公式 3-3。 50. RMSE( μ , μˆ ) =. ∑ (μ m =1. m. − μˆ m ) 2. 50. 其中 m 表示每一情形模擬資料集個數， m = 1,2,3,...,50 μˆ = ( μˆ1 , μˆ 2 , μˆ 3 ,..., μˆ m ) ：在第 m 個模擬資料集之群體能力平均估計值. 30. (3-2).

(41) μ = ( μ1 , μ 2 , μ 3 ,..., μ m ) ：在第 m 個模擬資料集之群體能力平均真值 50. RMSE(σ ,σˆ ) =. ∑ (σ m =1. m. − σˆ m ) 2. 50. σˆ = (σˆ1 ,σˆ 2 ,σˆ 3 ...,σˆ m ) ：在第 m 個模擬資料集之群體能力標準差估計值 σ = (σ 1 , σ 2 , σ 3 ..., σ m ) ：在第 m 個模擬資料集之群體能力標準差真值. 31. (3-3).

(42) 32.

(43) 第四章. 研究結果. 本章中分為三節，第一節為參數估計方法之估計結果；第二節為不同等化設計之估計結果；第三節為實證資料分析結果。本研究為比較不同估計方法於個體與群體的結果，故在可能值方法中個體能力的估計為將 5 個可能值平均後作為受試者個體能力值，此種方法於 von Davier,. Gonzalez,& Mislevy（2009）的研究中表示為 PV_W（“W”為 wrong 之縮寫），這是常見的錯誤使用可能值方法。實驗設計參考 von Davier, Gonzalez,& Mislevy（2009）的研究，設定了兩種背景變項（學校 A、B 與父母親社經地位 L、H），將其估計誤差以圖表呈現，縱軸為各種實驗情境下之 RMSE，橫軸為各種實驗情境，表示方式為 n_N_group，n 為施測題數（n＝15、30），N 為施測人數（N＝5460、8064），group 為不同背景變項下之群體（L、H、A、B），詳細研究結果將於附錄呈現。附錄表格中為各種情境下之 RMSE，而下方「括號」中的值為 50 個模擬資料集之估計誤差標準差，用來表示估計的變動範圍，若估計誤差標準差小，表示變動範圍小，則表示估計準確。. 第一節參數估計方法之估計結果本研究中分別以個體能力與群體參數兩個部分於 complete 的設計下，探討施測人數、題數與參數估計方法之結果，將其估計誤差以圖表表示。. 壹、個體能力估計結果比較本研究中假設了不同人數與不同施測題數之實驗情境，並比較不同方法於個體能力估計結果，參數估計方法分為：可能值方法（PV_W）、未加入輔助變數之可能值方法（PV_NoAV_W）加入輔助變數之期望後驗估計法（EAP_AV）、期望後驗估計法（EAP）、最大概似估計法（MLE）五種，詳細研究結果將於附錄一. 33.

(44) 呈現，且在附錄一之估計誤差標準差介於 0.00~0.02 之間，估計誤差標準差小，表示變動範圍較小，估計較為準確。一、父母親社經地位變項由圖 4-1 可以得到下列結果：（一）不同施測人數之結果比較在 PV_W 方法於不同施測題數的情境中，施測人數 5460 人與 8064 人的個體能力估計值之 RMSE 相近，且在其他四種方法（PV_NoAV、EAP_AV、EAP 與. MLE）有相似的結果。（二）不同施測題數之結果比較在 PV_W 方法於不同施測人數的情境中，施測題數 30 題之個體能力估計值之 RMSE 較 15 題小，且在其他四種方法（PV_NoAV、EAP_AV、EAP 與 MLE）有相似的結果。（三）不同估計方法之結果比較在施測題數 15 題的情境中，五種估計方法個體能力估計值之 RMSE 由小至大依序為 EAP_AV、EAP、PV_W、PV_NoAV_W、MLE。在施測題數 30 題的情境中，五種估計方法之 RMSE 由小至大依序為 EAP_AV、EAP、PV_W，最後. PV_NoAV_W 與 MLE 之 RMSE 最大且兩種方法估計結果相近。二、學校變項由圖 4-2 可以得到下列結果：（一）不同施測人數之結果比較個體能力之估計結果皆與社經地位變項相似，詳細結果請參閱附錄一。（二）不同施測題數之結果比較個體能力之估計結果皆與社經地位變項相似，詳細結果請參閱附錄一。（三）不同估計方法之結果比較個體能力之估計結果皆與社經地位變項相似，詳細結果請參閱附錄一。. 34.

(45) 圖 4-1 個體能力於社經地位變項與 complete 設計之 RMSE. 圖 4-2 個體能力於學校變項與 complete 設計之 RMSE. 貳、群體參數估計結果比較本研究中假設了不同人數與不同施測題數之實驗情境，並比較不同方法於群體參數估計結果，群體參數又分為群體能力平均數與群體能力標準差，參數估計. 35.

(46) 方法分為：可能值方法（PV）、未加入輔助變數之可能值方法（PV_NoAV）加入輔助變數之期望後驗估計法（EAP_AV）、期望後驗估計法（EAP）、最大概似估計法（MLE）五種，詳細研究結果將在附錄二呈現，且附錄二群體能力平均數之估計誤差標準差介於 0.01~0.04 之間，群體能力標準差之估計誤差標準差介於. 0.00~0.01 之間，估計誤差標準差小，表示變動範圍較小，估計較為準確。一、父母親社經地位變項首先探討父母親社經地位變項的群體能力平均數（圖 4-3）與群體能力標準差（圖 4-4）結果，分別針對不同施測人數、題數與估計方法進行說明。. （一）不同施測人數之結果比較. 1. 平均數於施測題數 15 題的情境中，除了在 PV 方法的低社經地位變項與 EAP_AV 方法的高社經地位變項中，施測人數 8064 人群體能力平均數之 RMSE 較 5460 人小；其餘方法與情境，施測人數 5460 人與 8064 人的群體能力平均數之 RMSE 相近。於施測題數 30 題的情境中，PV 與 EAP_AV 方法，施測人數 8064 人群體能力平均數之 RMSE 較 5460 人小；在 PV_NoAV 與 EAP 方法的低社經地位變項中，施測人數 8064 人群體能力平均數之 RMSE 較 5460 人小，高社經地位變項則兩種施測人數之 RMSE 相似；在 MLE 方法施測人數 5460 人與 8064 人的群體能力平均數之 RMSE 相近。. 2. 標準差在 PV 方法於不同施測題數的情境中，施測人數 5460 人與 8064 人的群體能力標準差之 RMSE 相近，且在其他四種方法（PV_NoAV、EAP_AV、EAP 與 MLE）有相似的結果。. 36.

(47) （二）不同施測題數之結果比較. 1. 平均數 PV 方法於不同施測人數的情境中，施測題數於 15 題之群體能力平均數之 RMSE 較 30 題小；且在 EAP_AV 與 MLE 有同樣的結果。在 PV_NoAV 與 EAP 兩種方法於不同施測人數的情境中，施測題數 30 題之群體能力平均數之 RMSE 較 15 題小。. 2. 標準差 PV 方法除了在施測人數 8064 人的高社經地位變項中，施測題數 30 題群體能力標準差之 RMSE 較 15 題小；但在其餘情境中，施測題數 15 題與 30 題的群體能力標準差之 RMSE 相近。PV_NoAV、EAP_AV 與 MLE 三種方法於不同施測人數的情境中，施測題數 30 題群體能力標準差之 RMSE 較 15 題小。EAP 方法於不同施測人數的情境中，施測題數 15 題與 30 題的群體能力標準差之 RMSE 相近。（三）不同估計方法之結果比較. 1. 平均數於施測人數 5460 人、施測題數 15 與 30 題，與施測人數 8064 人、施測題數. 30 題的情境中，五種估計方法群體能力平均數 PV 與 EAP_AV 的 RMSE 最小且兩種方法估計結果相近，其次為 MLE，而 PV_NoAV 與 EAP 的 RMSE 最大且兩種方法估計結果相近。於施測題數 15 題、施測人數 8064 人的低社經地位變項中，五種估計方法群體能力平均數之 RMSE 由小至大依序為 PV、EAP_AV、MLE，最後 PV_NoAV 與 EAP 之 RMSE 最大且兩種方法估計結果相近；另外在高社經地位的變項中，五種估計方法群體能力平均數之 RMSE 由小至大依序為 EAP_AV、PV、MLE，最後 PV_NoAV 與 EAP 之 RMSE 最大且兩種方法估計結果相近. 2. 標準差在施測題數 30 題、施測人數 8064 人的高社經地位變項中，五種估計方法群. 37.

(48) 體能力標準差之 RMSE 由小至大依序為 PV、EAP、PV_NoAV 與 EAP_AV（兩種方法估計結果相近）、MLE；在其餘的情境中，五種估計方法群體能力標準差 PV 與 EAP 的 RMSE 最小且兩種方法估計結果相近，其次為 PV_NoAV 與 EAP_AV 且兩種方法估計結果相近，而 MLE 的 RMSE 最大。. 圖 4-3 群體能力平均數於社經地位變項與 complete 設計之 RMSE. 圖 4-4 群體能力標準差於社經地位變項與 complete 設計之 RMSE. 38.

(49) 二、學校變項接著探討學校變項的群體能力平均數（圖 4-5）與群體能力標準差（圖 4-6）結果，分別針對不同施測人數、題數與估計方法進行說明。（一）不同施測人數之結果比較. 1. 平均數 PV、PV_NoAV 與 EAP_AV 三種方法於施測題數 15 題學校 A 的變項中，施測人數 5460 人與 8064 人的群體能力平均數之 RMSE 相近；在其餘情境中，施測人數 8064 人群體能力平均數之 RMSE 較 5460 人小。在 EAP 方法於施測題數 15 題學校 A 的變項中，施測人數 8064 人群體能力平均數之 RMSE 較 5460 人小；但在其餘情境中，施測人數 5460 人與 8064 人的群體能力平均數之 RMSE 相近。在 MLE 方法於不同施測題數學校 A 的變項中，施測人數 8064 人群體能力平均數之 RMSE 較 5460 人小；但在學校 B 的變項中，施測人數 5460 人與 8064 人的群體能力平均數之 RMSE 相近。. 2. 標準差在 PV 與 EAP_AV 兩種方法於施測題數 30 題學校 B 的變項中，施測人數 8064 人群體能力標準差之 RMSE 較 5460 人小；但在其餘情境中，施測人數 5460 人與. 8064 人的群體能力標準差之 RMSE 相近。在 PV_NoAV、EAP 與 MLE 三種方法於不同施測題數中，施測人數 5460 人與 8064 人的群體能力標準差之 RMSE 相近。（二）不同施測題數之結果比較. 1. 平均數 PV 方法於不同施測人數的情境中，施測題數於 15 題之群體能力平均數之 RMSE 較 30 題小，且在其他四種估計方法（PV_NoAV、EAP_AV、EAP 與 MLE）有相似的結果。. 39.

(50) 2. 標準差在 PV 與 PV_NoAV 兩種方法於施測人數 8064 人學校 B 的變項中，施測題數於 30 題之群體能力標準差之 RMSE 較 15 題小；但在其餘情境中，施測題數 15 題與 30 題的群體能力標準差之 RMSE 相近。在 EAP_AV、EAP 與 MLE 三種方法於不同施測人數的情境中，施測題數於. 30 題之群體能力標準差之 RMSE 較 15 題小。（三）不同估計方法之結果比較. 1. 平均數於施測題數 15 題、施測人數 5460 人的學校 A 變項、施測題數 15 題、施測人數 8064 人的學校 B 變項與施測題數 30 題、施測人數 8064 人的學校 B 變項中，五種估計方法群體能力平均數之 RMSE 以 PV、PV_NoAV、EAP_AV 與 EAP 最小且四種方法估計結果相近，而 MLE 的群體能力平均數之 RMSE 最大。於施測題數 15 題、施測人數 5460 人的學校 B 變項、施測題數 15 題、施測人數 8064 人的學校 A 變項與施測題數 30 題、施測人數 5460 人的學校 A、B 變項中，五種估計方法群體能力平均數之 RMSE 以 EAP 最小，而 PV、PV_NoAV、. EAP_AV、MLE 的群體能力平均數 RMSE 最大且四種方法估計結果相近。於施測題數 30 題、施測人數 8064 人的學校 A 變項中，五種估計方法群體能力平均數之 RMSE 相近。. 2. 標準差於施測題數 30 題、施測人數 8064 人的高社經地位變項中，五種估計方法群體能力標準差之 RMSE 由小至大依序為 PV、PV_NoAV、EAP_AV 與 EAP（兩種方法估計結果相近）、MLE；但在其餘情境中，五種估計方法群體能力標準差 PV 與 PV_NoAV 的 RMSE 最小且兩種方法估計結果相近，其次為 EAP_AV 與 EAP 且兩種方法估計結果相近，最後為 MLE。. 40.

(51) 圖 4-5 群體能力平均數於學校變項與 complete 設計之 RMSE. 圖 4-6 群體能力標準差於學校變項與 complete 設計之 RMSE. 三、父母親社經地位變項與學校變項之結果比較本研究實驗設計中將父母親社經地位高、低之平均能力差設定為 1.414，學校 A、B 的平均能力差為 0.000，透過兩背景變項不同平均能力差異，暸解群體. 41.

(52) 差異大小是否影響估計結果。. 1. 平均數在 PV_NoAV 與 EAP 方法於不同情境設定中（題數與人數），群體差異小的變項中（學校），群體能力平均數之 RMSE 較小，群體差異大的變項中（社經地位），群體能力平均數之 RMSE 較大。. EAP_AV 方法於不同情境設定中（題數與人數），群體差異小（學校）與群體差異大兩種變項中群體能力平均數之 RMSE 相近。. PV 方法於大部分的情境設定中，群體差異小（學校）與群體差異大兩種變項中群體能力平均數之 RMSE 相近。. MLE 方法於施測題數 30 題、施測人數 5460 人的情境中，群體差異小（學校）與群體差異大兩種變項中群體能力平均數之 RMSE 相近，但在其他情境中，群體差異小的變項中（學校），群體能力平均數之 RMSE 較小，群體差異大的變項中（社經地位），群體能力平均數之 RMSE 較大。. 2. 標準差在 PV 方法於不同情境設定中（題數與人數），群體差異小（學校）與群體差異大兩種變項中群體能力標準差之 RMSE 相近。，群體差 PV_NoAV、EAP_AV 與 MLE 方法於不同情境設定中（題數與人數）異小的變項中（學校），群體能力標準差之 RMSE 較小，群體差異大的變項中（社經地位），群體能力標準差之 RMSE 較大。，群體差異小的變項中（學校）， EAP 方法於不同情境設定中（題數與人數）群體能力標準差之 RMSE 較大，群體差異大的變項中（社經地位），群體能力標準差之 RMSE 較小。. 42.

(53) 第二節不同等化設計之估計結果本研究中，分別以個體能力與群體參數兩個部分於 BIB 與 NEAT 的設計下，探討施測人數、題數與參數估計方法之結果，最後比較不同等化設計之效果。等化設計方法有 complete、BIB 與 NEAT 設計，將其估計誤差以圖表表示。. 壹、個體能力估計結果比較本研究中假設了不同人數與不同施測題數之實驗情境，並比較不同等化設計於個體能力估計結果，於附錄三、四分別呈現 BIB 與 NEAT 設計於不同施測人數、題數與估計方法之結果，且在附錄三之估計誤差標準差介於 0.01~0.02 之間，附錄四之估計誤差標準差介於 0.00~0.03 之間，兩者估計誤差標準差小，表示變動範圍較小，估計較為準確。一、父母親社經地位變項首先探討父母親社經地位變項的個體能力值結果於 BIB 與 NEAT 兩種等化設計中，分別針對不同施測人數與題數進行說明，最後比較 complete、BIB 與 NEAT 等化設計方法。（一）BIB 設計由圖 4-7 可以得到下列結果：. 1. 不同施測人數之結果比較 PV_W 方法於施測題數 30 題的低社經地位變項中，施測人數 5460 人個體能力估計值之 RMSE 較 8064 人小；在施測題數 30 題的高社經地位變項中，施測人數 8064 人個體能力估計值之 RMSE 較 5460 人小；但在其餘情境中，施測人數. 5460 人與 8064 人的個體能力估計值之 RMSE 相近。 PV_NoAV_W 與 EAP_AV 方法於不同施測題數的情境中，施測人數 5460 人與 8064 人的個體能力估計值之 RMSE 相近。. 43.