BIB與NEAT設計之水平及垂直等化效果比較

全文

(1)摘. 要. 本研究主要目的探討使用平衡不完全區塊設計(balanced incomplete block design, BIB)與定錨不等組設計(non-equivalent groups with anchor test design, NEAT)在進行測驗等化時，對於水平等化測驗及垂直等化測驗等化之等化效果。本研究基於試題反應理論中三參數 Logistic 模式以模擬實驗方式進行，探討不同施測人數、垂直定錨試題數及試題區塊數於 BIB 與 NEAT 等化設計中之等化效果。研究中主要控制變項為：(一)施測人數為 5460 人、7500 人及 10000 人；(二) 垂直定錨試題數為 3 題、 6 題及 9 題；(三)試題區塊數為 7 個、9 個及 13 個。使用之等化及參數估計軟體為 BILOG-MG。研究結果發現： 1. 參數估計風險值隨著受試人數增加而減少； 2. 參數估計風險值隨著垂直定錨試題數增加而減少； 3. 在水平等化測驗中，BIB 設計試題參數估計風險值較優於 NEAT 設計；NEAT 設計受試者能力估計風險值較優於 BIB 設計； 4. 在垂直等化測驗中，BIB 設計試題鑑別度參數估計風險值較優於 NEAT 設計，NEAT 設計受試者能力值、試題難度參數及試題猜測度參數估計風險值較優於 BIB 設計。. 關鍵詞：水平等化、垂直等化、估計準確指數、平衡不完全區塊設計、定錨不等組設計。. I.

(2) Abstract For large-scale assessments, the spectrum of subject matter is usually wide and the simultaneous sampling of items and students is a practical way to obtain representative indications of student performance. Balanced incomplete block design (BIB) and non-equivalent groups with anther test design (NEAT) are two popular test equating methods for this condition. The purpose of this study is to compare the performances of BIB and NEAT designs for horizontal equating and vertical equating of large-scale assessment. Two linking methods, one for BIB and the other for NEAT, are compared in this study. The effects of numbers of anchor items, the numbers of block, administrated items, and examinees are explored. The results show that: 1. the estimation error decreases as the number of anchor items increases; 2. the estimation error decreases as the number of examinees increases; 3. BIB outperforms NEAT in estimating item parameters and NEAT outperforms BIB in estimating abilities of examinees for horizontal equating; 4. BIB outperforms NEAT in estimating item discrimination parameter and NEAT outperforms BIB in estimating abilities of examinees, item difficulty parameter and item guessing parameter for vertical equating.. Keywords: horizontal equating, vertical equating, accuracy of estimate, balanced incomplete block design, and non-equivalent groups with anchor test design.. II.

(3) 目. 錄. 第一章緒論 ----------------------------------------------------------------------------------- 01 第一節研究動機與目的 -------------------------------------------------------------- 01 第二節名詞釋義 ----------------------------------------------------------------------- 06 第二章文獻探討 ----------------------------------------------------------------------------- 08 第一節試題反應理論 -------------------------------------------------------------------- 08 第二節測驗等化的意義與種類 ----------------------------------------------------- 11 第三節測驗等化設計 ----------------------------------------------------------------- 14 第四節古典測驗理論等化方法 ----------------------------------------------------- 21 第五節試題反應理論等化方法 ----------------------------------------------------- 25 第三章研究方法 ------------------------------------------------------------------------------ 28 第一節研究步驟 ----------------------------------------------------------------------- 28 第二節等化設計之變項設定 -------------------------------------------------------- 30 第三節 BIB等化設計 ------------------------------------------------------------------ 34 第四節 NEAT等化設計 --------------------------------------------------------------- 42 第五節研究工具 ----------------------------------------------------------------------- 48 第四章研究結果 ------------------------------------------------------------------------------ 50 第一節 BIB設計等化後估計結果 --------------------------------------------------- 50 第二節 NEAT設計等化後估計結果 ------------------------------------------------ 63 第三節 BIB與NEAT設計等化後估計結果綜合比較 ---------------------------- 73 第五章結論與改進建議 --------------------------------------------------------------------- 92 第一節結論 ----------------------------------------------------------------------------- 92 第二節改進建議 ----------------------------------------------------------------------- 93 參考文獻 ----------------------------------------------------------------------------------------- 94. III.

(4) 中文部份 ----------------------------------------------------------------------------------- 94 英文部份 ----------------------------------------------------------------------------------- 95. IV.

(5) 表. 次. 表2-1. 等群組設計 -------------------------------------------------------------------------- 14. 表2-2. 單組設計 ----------------------------------------------------------------------------- 15. 表2-3. 平衡對抗隨機組體設計 ----------------------------------------------------------- 15. 表2-4. NEAT設計 --------------------------------------------------------------------------- 16. 表2-5. BIB設計 ------------------------------------------------------------------------------ 17. 表3-1. BIB與NEAT設計共同變項設定對照表 ---------------------------------------- 30. 表3-2. BIB設計表 --------------------------------------------------------------------------- 34. 表3-3. BIB1設計表 ------------------------------------------------------------------------- 35. 表3-4. BIB2設計表 ------------------------------------------------------------------------- 36. 表3-5. BIB3設計表 ------------------------------------------------------------------------- 37. 表3-6. BIB4設計表 ------------------------------------------------------------------------- 38. 表3-7. 不同年級間BIB等化設計(垂直等化)模式 ------------------------------------- 39. 表3-8. BIB設計定錨試題數與總試題數對照表 --------------------------------------- 40. 表3-9. BIB設計題本、試題及定錨試題受測人數對照表 --------------------------- 41. 表3-10 NEAT設計表 ------------------------------------------------------------------------ 42 表3-11 NEAT1設計表 ---------------------------------------------------------------------- 43 表3-12 NEAT2設計表 ---------------------------------------------------------------------- 43 表3-13 NEAT3設計表 ---------------------------------------------------------------------- 44 表3-14 不同年級間NEAT等化設計(垂直等化) ---------------------------------------- 45 表3-15 NEAT設計定錨試題數與總試題數對照表------------------------------------- 46 表3-16 NEAT設計題本、試題及定錨試題受測人數對照表 ------------------------ 47 表4-1. BIB設計在水平等化中之風險值 ------------------------------------------------ 50. 表4-2. BIB1設計在垂直等化中之風險值 ----------------------------------------------- 55. V.

(6) 表4-3. BIB2設計在垂直等化中之風險值 ---------------------------------------------- 57. 表4-4. BIB3設計在垂直等化中之風險值 ---------------------------------------------- 59. 表4-5. BIB4設計在垂直等化中之風險值 ---------------------------------------------- 61. 表4-6. NEAT設計在水平等化中之風險值 -------------------------------------------- 63. 表4-7. NEAT1設計在垂直等化中之風險值 ------------------------------------------- 67. 表4-8. NEAT2設計在垂直等化中之風險值 ------------------------------------------- 69. 表4-9. NEAT3設計在垂直等化中之風險值 ------------------------------------------- 71. 表4-10 BIB1、BIB4與NEAT1設計在水平等化中之風險值 ------------------------ 73 表4-11 BIB2及NEAT2設計在水平等化中之風險值 ---------------------------------- 77 表4-12 BIB3及NEAT3設計在水平等化中之風險值 ---------------------------------- 80 表4-13 BIB1、BIB4與NEAT1設計在不同垂直定錨數下之風險值 ---------------- 83 表4-14 BIB2與NEAT2設計在不同垂直定錨數下之風險值 -------------------------- 85 表4-15 BIB3與NEAT3設計在不同垂直定錨數下之風險值 -------------------------- 87. VI.

(7) 圖. 次. 圖3-1 研究流程圖 --------------------------------------------------------------------------- 28 圖3-2 水平等化之受試者能力分佈長條圖 --------------------------------------------- 31 圖3-3 垂直等化之受試者能力分佈長條圖 --------------------------------------------- 32 圖3-4 模擬測驗之因素分析陡坡圖 ------------------------------------------------------ 48 圖4-1 BIB設計在水平等化中受試者能力風險圖 ------------------------------------- 51 圖4-2 BIB設計在水平等化中試題鑑別度參數風險圖 ------------------------------- 52 圖4-3 BIB設計在水平等化中試題難度參數風險圖 ---------------------------------- 52 圖4-4 BIB設計在水平等化中試題猜測度參數風險圖 ------------------------------- 53 圖4-5 NEAT設計在水平等化中受試者能力風險圖 ---------------------------------- 64 圖4-6 NEAT設計在水平等化中試題鑑別度參數風險圖 ---------------------------- 64 圖4-7 NEAT設計在水平等化中試題難度參數風險圖 ------------------------------- 65 圖4-8 NEAT設計在水平等化中試題猜測度參數風險圖 ---------------------------- 65 圖4-9 BIB1、BIB4與NEAT1設計在水平等化中受試者能力風險圖 ------------- 74 圖4-10 BIB1、BIB4與NEAT1設計在水平等化中試題鑑別度參數風險圖 ------ 74 圖4-11 BIB1、BIB4與NEAT1設計在水平等化中試題難度參數風險圖 --------- 75 圖4-12 BIB1、BIB4與NEAT1設計在水平等化中試題猜測度參數風險圖 ------ 75 圖4-13 BIB2與NEAT2設計在水平等化中受試者能力風險圖 ---------------------- 77 圖4-14 BIB2與NEAT2設計在水平等化中試題鑑別度參數風險圖 ---------------- 78. VII.

(8) 圖4-15 BIB2與NEAT2設計在水平等化中試題難度參數風險圖 ------------------ 78 圖4-16 BIB2與NEAT2設計在水平等化中試題猜測度參數風險圖 --------------- 79 圖4-17 BIB3與NEAT3設計在水平等化中受試者能力風險圖 --------------------- 80 圖4-18 BIB3與NEAT3設計在水平等化中試題鑑別度參數風險圖 --------------- 81 圖4-19 BIB3與NEAT3設計在水平等化中試題難度參數風險圖 ------------------ 81 圖4-20 BIB3與NEAT3設計在水平等化中試題猜測度參數風險圖 --------------- 82 圖4-21 BIB及NEAT設計在5460人之受試者能力風險圖 --------------------------- 89 圖4-22 BIB及NEAT設計在7500人之受試者能力風險圖 --------------------------- 90 圖4-23 BIB及NEAT設計在10000人之受試者能力風險圖 -------------------------- 90. VIII.

(9) 第一章. 緒論. 本研究是以試題反應理論(item response theory, IRT)中三參數 Logistic 模式，以模擬實驗方式探討進行測驗等化時，比較不同等化設計進行水平及垂直等化之等化效果。本章將針對研究背景、研究動機、研究目的及重要名詞釋義逐一進行闡述。. 第一節研究動機與目的一、研究背景與動機國內缺乏長期量化指標和標準測量工具來檢視學生學習成就的表現與差異，以致無法確實瞭解課程實施之成效，亦不利於課程發展之進行與相關教育政策之研擬。因此，建置一套完整且客觀的學生學習成就資料庫，以追蹤學生學習的成果並分析其變遷趨勢，進而檢視目前國家教育體制與政策實施是否完善，是有其必要性。目前教育資料庫的建立普遍受到重視，在國內正建置中之教育資料庫主要有：（一）「台灣教育長期追蹤資料庫(Taiwan Education Panel Survey, TEPS)」，主要在蒐集全國中等學校學生在身心發展、學習活動、學習成就表現及其影響因素的多面向資料。（二）「台灣高等教育資料庫之建置及相關議題之探討」，在建立有關全國高等教育校院特質與狀況、課程、經費、校園環境設備、校園文化、各科系在校學生素質、學習行為與表現、各學門畢業生、以及教職員素質等資料的全國性資料庫。（三）「臺灣學生學習成就評量資料庫(Taiwan Assessment of Student Achievement, TASA)」，針對目前國內國小四年級、六年級、國中二年級、高中二年級以及高職二年級學生，進行跨年級、跨學科之學生學習成就長期性資料庫的建置，並以能力指標為基準，欲建立同年級不同測驗及不同年級不同測驗之量尺。綜合上述可以發現，要了解全國學生之學習成效如何，長期性資料庫的建置是首要項目，欲透過資料所衍生的訊息，提供教育政策參考以 1.

(10) 及國內專家學者或學術單位進行基礎性的研究。然而，欲建置資料庫必須克服在進行測驗等化及題庫建製時，容易遭遇到的困難： 1. 受試者人數有限，受測時間有限； 2. 同年級與不同年級測驗間之能力量尺連結； 3. 命題範圍廣大，必須施測大量的試題，方可涵蓋欲測量之範圍。此外，為了滿足此一目標所建立之題庫，需涵蓋不同認知層次及不同難度，試題數量將無法由單一受試學生於短時間內完成。在此限制下，若希望能滿足測驗之目標、減輕受試學生之負擔、比較不同年級及不同年度之變化與擔保所有評量內容都能測驗到，建立共同量尺，乃是不得不研究的課題。而共同量尺的建立，必須藉助於測驗等化(test equating)技術之配合，若等化技術不被採用，則大型測驗將無法順利進行。測驗等化的目的就是允許相同的測驗在不同的形式下，測驗分數是可以被使用與解釋的。由於不同受試者能力與不同試題難度控制不易，所以等化方法更為重要。測驗等化屬於ㄧ種統計和心理測量的方法及技術，在相同的測量結構下，去調整並連結不同測驗的測驗分數，使得這些測驗是可互相比較的。因此，受試者僅需要施測題庫中的部分試題，再透過多重矩陣抽樣程序(multiple matrix sampling procedures)，來建立不同測驗之分數量尺與受試者能力量尺。而一般在進行測驗等化時，主要使用的等化設計有以下兩種： (一)「隨機分配受試者受測某一份測驗」此等化設計為假設在足夠的受試人數下，隨機分配受試者受測某一份測驗，而不同測驗的分配是使用螺旋(spiral)排列的方式，由於受試者是隨機分成數組，因此假定每一測驗所測之受試者的平均能力應大致相同。依此假設，以每組受試者之平均能力相似為連結(linking)，並由測驗等化技術建立測驗間分數之轉化(李源煌、楊玉女，民 89)。 2.

(11) 然而，在這些不同測驗中，必須有一測驗在上次施測時使用過，此一測驗將作為建立新測驗分數量尺之橋樑，且受試者在新測驗中之能力量尺必須轉化為舊測驗中之能力量尺。美國 ACT(American College Testing ,ACT)測驗即採用此一等化設計。 (二)「加入定錨試題(anchor item)於每個測驗」此等化設計必須在題庫(item bank)中編輯一部份的定錨試題，並且使任一測驗中均包含一些定錨試題。在設計定錨試題時，必須考量某些原則，譬如這些定錨試題應是整個測驗的縮影，且其在每一測驗中的位置必須一樣或非常相似的，在計算分數時，定錨試題通常不併入計分(李源煌、楊玉女，民 89)。因此，在進行測驗等化時，以受試者在這些定錨試題之作答反應為連結，來調整不同測驗之間的差異與建立受試者之能力量尺。在連結受試者新測驗與舊測驗中之能力量尺時，此設計通常只需利用部分試題即可，而美國國家教育進展評量(National Assessment of Educational Progress, NAEP)即採用此一等化設計。李源煌、楊玉女(民 89)指出，由於第一種等化設計通常有一測驗需在上次施測時被使用，而在國內基於受測試題必須公佈的原則，這樣的計劃似乎很難實施，因此，國內若欲實施測驗等化時，將以第二種等化設計為較佳的選擇。是故，本研究採用上述的第二種等化設計，選擇國內外主要的兩個等化設計，平衡不完全區塊設計(balanced incomplete block design, BIB)與定錨不等組設計(non-equivalent groups with anchor test design, NEAT)，進行測驗等化效果之比較。此外，在建構測驗題庫時，能力指標個數的多寡會影響測驗試題總數，而試題總數又會牽動 BIB 與 NEAT 等化設計的試題區塊數，以致產生不同 BIB 與 NEAT 設計的問題。其次，由於施測人數的多寡通常會影響測驗成本與等化品質的兩難取捨，解決之道唯有透過模擬試驗之結果來作決定，然而在母群體未知的狀況下，本研究假設學生之能力分布為常態分布。職是之故，本研究就能力分布與施測人數的不同以 3.

(12) 及為進行垂直等化而牽動的不同定錨試題數來進行模擬試驗，以了解等化後所估計的能力值與試題參數風險效果，期能了解在最少人數下，估計風險達到尚能接受的程度，並保持等化的效果，以提供決策者決斷的訊息。. 4.

(13) 二、研究目的由於國內較少進行大規模的測驗，對於測驗等化的研究亦不多，根據上述背景及動機，本研究從測驗等化設計著手，由於國內外之大規模測驗，其測驗題本設計大概以 BIB 及 NEAT 等化設計為主，但基於文獻有獻，且較少針對等化效果與跨年級、跨年度之模擬研究進行探討。是故，不足以針對 TASA 計畫中之問題提出完整研究報告，因此，本論文將進行測驗資料之模擬，利用 BIB 與 NEAT 等化設計，比較等化後估計的能力值風險與試題參數風險效果。此外，為了建立同年級不同測驗及不同年級不同測驗之量尺，本研究亦進行水平及垂直測驗之等化設計。基本上，本研究之目的為： 1. BIB 及 NEAT 設計於不同施測人數下水平等化效果； 2. BIB 及 NEAT 設計於不同試題區塊數下水平等化效果； 3. BIB 及 NEAT 設計於不同施測人數下垂直等化效果； 4. BIB 及 NEAT 設計於不同試題區塊數下垂直等化效果； 5. BIB 及 NEAT 設計於不同垂直定錨數下垂直等化效果；. 5.

(14) 第二節名詞釋義一、測驗等化測驗等化是利用統計方法，將受試者在某一測驗的分數轉換至另一測驗分數量尺，使得不同的測驗所得結果能夠比較的一套程序，其目的在調整測驗難度之差異而非測驗內容之差異(Kolen & Brennan, 1995)。. 二、水平等化水平等化(horizontal equating)係指利用測驗分數等化之技術，將兩個或兩個以上測量相同特質、相同能力的測驗，其原始分數轉換之過程，在研究中水平等化是指同年級不同測驗間之等化。. 三、垂直等化垂直等化(vertical equating)係指利用測驗分數等化之技術，將兩個或兩個以上測量相同特質、相同能力的測驗，其原始分數轉換之過程，本研究中垂直等化是指不同年級不同測驗間之等化。. 四、估計準確指數估計準確指數(accuracy of estimate)指估計風險(risk)的大小，估計風險值 (value at risk)越小，則代表估計越準確。本研究使用能力真值與能力估計值，及試題參數真值與試題參數估計值的根均方差(root mean square error, RMSE)作為估計的準確指數，本研究估計準確指數的公式計算如下：. 6.

(15) N. RMSE (η ,ηˆ ) =. ∑ (η i =1. i. − ηˆi ) 2. N. 其中，N：表示受試者人數； η = (η1 ,η 2 ,η 3 ,...,η N ) ：表示受試者能力真值或試題參數真值； ηˆ = (ηˆ1 ,ηˆ 2 ,ηˆ3 ,...,ηˆ N ) ：表示受試者能力估計值或試題參數估計值。. 五、平衡不完全區塊設計 BIB 設計是將題庫中的試題分成若干個試題區塊(block)，每個區塊中有一些試題，且區塊間與區塊內的試題皆不重複。將若干個試題區塊編製成題本 (booklet)，每個題本中的區塊可能部份相同或完全不同。而在所有施測題本中，每個區塊出現的次數是一樣的(Kuehl, 2000；曾玉琳、王暄博、郭伯臣、許天維，民 95)。. 六、定錨不等組設計將欲連結之不同測驗分別施測於不同受試者群，而每群受試者均需要施測一定錨測驗，通常定錨測驗在每群受試者的測驗順序是一樣的，以避免順序因素的影響，且測驗內容和難度必須與欲連結之不同測驗十分類似，測驗長度相當於一個分測驗(von Davier, Holland, & Thayer, 2004；Dorans & Holland, 2000；Tianyou, 2005)。. 7.

(16) 第二章. 文獻探討. 本研究目的在探討不同的測驗等化設計，進行測驗等化所產生之等化效果。因此，在本章中，將針對測驗等化的意義與種類、測驗等化設計、古典測驗理論等化方法及試題反應理論等化方法等相關研究進行分析整理。此外，由於在本模擬研究測驗資料分析部份，亦涉及到使用試題反應理論來分析結果與進行測驗等化之可行性。是故，文獻探討的內容亦包含試題反應理論的介紹。. 第一節試題反應理論試題反應理論認為受試者對試題反應的正確性之期望值可用下式表示： ξ ( X ) = f ( I , A). (2.1). 其中， X ：試題反應的正確性； I ：試題參數向量； A ：能力參數向量。亦即 X 的期望值是由試題參數和能力參數所成之函數所決定的。試題參數又可分為單參數模式(one-parameter logistic model)、雙參數模式(two-parameter logistic model)、三參數模式(three-parameter logistic model)等。然而，一般使用參數型試題反應理論必須符合四項基本的假設，才能進行測驗資料之分析，茲將此四項基本的假設介紹如下：(Weiss & Yoes, 1991) (一)單向性(unidimensionality) 就實際情況而且，一份測驗應該能測得受試者的許多潛在特質(latent traits)，例如影響學生數學測驗作答的因素即有：數學能力、語文能力、情緒反應等。然而單向性的假設是將這些潛在特質建構成一潛在空間(latent space)(Hambleton & Swaminathan, 1985)，指一份測驗只測量一種潛在特質，至於其他影響因素視為測量風險的範圍。. 8.

(17) (二)局部獨立(local independence) 局部獨立指就受試者而言，對於施測不同試題時，不同試題作答情形彼此不互相影響。因為大部份 IRT模式都採用最大概似估算法 (maximum-likelihood estimation)為其參數估計法，故有此假設。 (三)非速度性(nonspeedness) 非速度性指受試者的測驗得分高低是由受試者能力因素所影響，並不受作答時間的影響。 (四)「知道-正確」假設(“know-correct＂assumption) 「知道-正確」假設指受試者作答時，如果受試者知道試題的正確答案就一定會答對該題，並無人為的填答錯誤。本研究進行試題等化時，基於試題反應理論中三參數Logistic模式作為測驗資料分析的方法，以下為 3PL模式之簡介(Baker, 1992；Hambleton & Swaminathan,. 1985；Mislevy & Bock, 1990)，假設能力值為 θ k 之受試者 k ，作答試題 j 通過機率的計算方法如下： P( x j = 1 | θ k , a j , b j , c j ) = c j +. (1 − c j ) 1 + exp. − D*a j (θ k −b j ). ≡ Pj1 (θ k ). (2.2). 其中： x j 指受試者在試題 j 中的作答反應，1 為答對、0 為答錯； a j 指試題 j 的斜率參數，亦稱為試題鑑別度參數(item discrimination parameter)，且 a j ＞0；b j 指試題 j 的閥值參數，亦稱為試題難度參數(item difficulty parameter)； c j 指試題 j 的低漸近線參數，亦稱為試題猜測度參數(item guessing parameter)，0≦ c j ＜1； D 是一個量尺因素(scaling factor)，通常 D = 1.702 。若假設上式所有試題中，試題猜測度參數為0，則式子(2.2)轉變成下式： P( x j = 1 | θ k , a j , b j ) =. 1 1 + exp. 9. − D * a j (θ k − b j ). ≡ Pj1 (θ k ). (2.3).

(18) 式子(2.3)為試題反應理論中二參數Logistic模式，而試題反應理論單參數 Logistic模式，為二參數Logistic模式的一個特例，它控制所有試題之鑑別度參數 (即假設試題鑑別度為1)，因此，試題反應理論單參數Logistic模式其公式如下： P( x j = 1 | θ k , b j ) =. 1 ≡ Pj1 (θ k ) − D (θ − b ) 1 + exp k j. 10. (2.4).

(19) 第二節測驗等化的意義與種類一、測驗等化的意義測驗等化是利用統計方法，將受試者在某一測驗的分數轉換至另一測驗分數量尺，以比較兩測驗分數關係的過程。這些測驗的內容及難度都極為相似，為了用來測量相同的特質或能力，因此，測驗等化的目的在調整測驗難度之差異而非測驗內容之差異(Kolen & Brennan, 1995；吳裕益，民 80)。而且，測驗分數等化不受試題內容和受試者能力分布的影響，但必須滿足下列幾項特性，等化才能進行(Lord, 1980；Hambleton & Swaminathan, 1985；Kolen & Brennan, 1995)： (一)對稱性(symmetry)：測驗分數等化必須是可逆的，無論是從X測驗等化至 Y測驗，或是由Y測驗等化至X測驗，其等化結果必須相同。 (二)相等性(equity)：若有兩測驗欲進行等化(X測驗和Y測驗)，則不論受試者受測X測驗或Y測驗，其等化結果並無差異。 (三)團體不變性(group invariance property)：等化過程中不論受試者為何，轉換之結果必須相同。 (四)測驗必須是單一向度(unidimensionality of the tests)：兩測驗若欲進行等化，測驗內容必須測量相同之能力特質。. 11.

(20) 二、測驗等化的種類測驗等化的種類可分為水平等化與垂直等化兩種，茲介紹如下： (一)水平等化水平等化係指利用測驗分數等化之技術，將兩個或兩個以上測量相同特質、相同能力的測驗，其原始分數轉換之過程。這些測驗是利用題庫分成數個類似平行測驗(parallel test)的題本，其目的是為了保護試題的安全性(test security)及減低練習因素(practice effect)。然而，為了確定這些測驗的結果能夠比較，必須利用量尺等化(scale equating)的方法，將其轉換至同一量尺上，此一過程即稱為水平等化。水平等化的實施是當某一種測驗有數種不同形式的題本，而這些題本都是用來測量某一特質，且受試者的能力分布與試題難度又相似時，為了要比較不同題本的分數，將透過等化程序建立題本之間的等化分數(equating scores)。這些題本經由等化的過程，其測驗成績即可在相同的量尺上進行比較。水平等化也常應用在許多測驗方面，例如：托福、GRE的考試就有多種複本測驗，可以進行一年多次的考試機會。 (二)垂直等化垂直等化係指利用測驗分數等化之技術，將兩個或兩個以上測量相同特質、相同能力的測驗，其原始分數轉換之過程。垂直等化的實施是當某一種測驗有數種不同形式的題本，而這些題本都是用來測量某一特質，但受試者的能力分布與試題難度卻不相同時，為了要比較不同題本的分數，透過等化程序而建立題本之間的等化分數(equating scores)。此一測驗，受試者的能力是屬於不同年齡或年級的分配情形，如美國的加州成就測驗(California Achievement Tests , CAT)、愛奧華基本技能測驗(Iowa Test of Basic Skills)等，即利用垂直等化進行測驗分數間之連結。. 12.

(21) 此外，若某一計畫之目的為長時間研究受試者的某種能力成長情形時，等化的議題將受到矚目，且水平及垂直等化是必須同時進行的。而較著名的 NAEP 大型測驗，藉由等化連結的成果，將受試者測驗之分數轉換到一個共同的量尺上，以期作為教育者比較各州、各地區、各學校、甚至個人表現的評比依據(National Research Council, 1999；Kolen, 2000；陳煥文，民 93)。目前國內 TASA 計畫，也是藉由等化連結的方法，將受試者測驗的分數轉換到同一上，以提供國內專家學者或學術單位進行跨年級、跨學科、甚至跨年度的比較。因此，可知長期追蹤之大型測驗，除了有助於建立相同年級及不同年級之量尺外，並可藉此量尺分析來探究學生在各學科及不同年級之學習差異。. 13.

(22) 第三節測驗等化設計測驗等化設計指施測者在進行測驗等化前，收集等化資料的方式。其設計的方法有很多，以下簡略地介紹幾種常用的測驗等化設計：. 一、等群組設計(equivalent group design) 假設有兩測驗(X 測驗和 Y 測驗)需要施測，從受試母體 P 中取出兩組獨立的隨機受試樣本(P1 與 P2)，每一組的受試者只參加其中一個測驗。等群組設計是吸引人的，其優點是因為簡單及測驗分數能夠直接使用，而且測驗資料也不會受練習(practice)、疲勞(fatigue)、學習(learning)與順序因素(order effects)的影響。然而，簡單是要付出代價的，兩組受試者群的能力值分布必須相似，即需要相當大的樣本數，等化風險才能測量到一個精確的水準。等群組設計如表 2-1 (Kolen & Brennan,1995；von Davier, Holland, & Thayer, 2004)。表2-1 等群組設計受試樣本 P1 P2. X 測驗 V. Y 測驗 V. “V”為受試者必須受測之測驗. 二、單組設計(The Single-Group Design) 假設有兩測驗(X 測驗和 Y 測驗)需要施測，從受試母體中抽取一組受試樣本 P，同時施測此兩測驗。單組設計大概是第一個等化設計，由於受試者必須施測所有測驗，因此，單組設計的優點在於能直接比較受試者的資料，但必須注意受試者是否會因作答過多而感到疲勞及測驗施測產生的順序因素。單組設計如表 2-2 (Kolen & Brennan,1995；von Davier, Holland, & Thayer, 2004)。 14.

(23) 表2-2 單組設計 X 測驗 V. 受試樣本 P. Y 測驗 V. “V”為受試者必須受測之測驗. 三、平衡對抗隨機組設計(counterbalanced equivalent groups design) 平衡對抗隨機組設計是較複雜的設計，包含了先前介紹的兩個等化設計(等群組設計與單組設計)。假設有兩測驗(X 測驗和 Y 測驗)需要施測，從受試母體 P 中取出兩組獨立的隨機受試樣本(P1 與 P2)，且須在不同的順序下施測兩個測驗。因此，平衡對抗隨機組設計改良了受試者疲勞與測驗產生順序因素的缺點，而這平衡測驗順序的目的，是為了確保任何順序因素對於兩測驗的分數公平。平衡對抗隨機組設計如表 2-3 (Kolen & Brennan,1995；von Davier, Holland, & Thayer, 2004)。表2-3 平衡對抗隨機組體設計受試樣本 P1 P2. X 測驗先測後測 V V. Y 測驗先測後測 V V. “V”為受試者必須受測之測驗. 四、NEAT 設計 NEAT 設計內包含兩個獨立的單組設計，其設計方式為在兩組受試者的母群體中，隨機抽取兩組受試者樣本(P 和 Q)。其中，P 組受試者接受 X 測驗，Q 組受試者接受 Y 測驗，且兩組受試者施測的時間不同。P 和 Q 兩組受試樣本另外須接受定錨試題 A 測驗，通常定錨試題在兩樣本的測驗順序是一樣的，以避免順序因素的影響，而測驗內容和難度必須與 X、Y 測驗十分類似，其測驗長度相當於 15.

(24) 一個分測驗(von Davier, Holland, & Thayer, 2004；Dorans & Holland, 2000；Tianyou, 2005)。NEAT 設計如表 2-4 (Kolen & Brennan,1995；von Davier, Holland, & Thayer, 2004)。表 2-4 NEAT 設計受試者群 P Q. X 測驗 V. Y 測驗 V. 定錨測驗 A V V. “V”為受試者必須受測之測驗. NEAT 設計為常見的測驗等化設計，然而在 NEAT 設計中，每個題本必須施測相同的定錨試題，因此，定錨試題的好壞將會影響等化估計效果，而且若定錨試題選得好的話，NEAT 設計可以避免單組設計或等群組設計所遭遇到的問題（Klein & Jarjoura, 1985）。 MCAS(Massachusetts comprehensive assessment system) 即使用 NEAT 設計進行不同年度間學生之測驗等化，因為它只需要假設受試群體是隨機抽取，不必假設兩受試群體有相同的能力值。NEAT 設計的定錨試題內容要盡可能相似且試題難度要相同，因為定錨試題是用來調整兩個不同能力之群體所造成的等化風險(Petersen, Kolen & Hoover,1993)。. 五、BIB 設計 BIB 設計是將試題分成若干試題區塊，區塊間與區塊內的試題皆不重複，受試者只需接受若干試題區塊的試題，且不同受試者可能接受部分相同、完全相同、或完全不同的試題區塊。最後，將所有受試者的作答反應資料堆疊進行等化分析，以達到能力估計的目的。BIB 設計如表 2-5(曾玉琳、王暄博、郭伯臣、許天維，民 95)。. 16.

(25) 表 2-5 BIB 設計題本序號 S1 S2 S3 S4 S5 S6 S7. 區塊(k1) M1 M2 M3 M4 M5 M6 M7. 區塊(k2) M2 M3 M4 M5 M6 M7 M1. 區塊(k3) M4 M5 M6 M7 M1 M2 M3. 表2-5為BIB設計的一個範例，在此設計中，有7個題本(S1~S7)；7個試題區塊 (M1~M7)。BIB設計中試題區塊序號的組合不重複，如：S1題本是由試題區塊M1、 M2、M4組合而成，則表中其他題本(S2~S7)就不會在出現試題區塊M1、M2、M4 的組合。 BIB 設計的優點為試題區塊與題本(booklet)的配置方式，使用螺旋(spiral)式排列方式，可使每一個試題區塊的施測次數相同(van der Linden, Veldkamp & Carlson, 2004；Nemhauser & Wolsey, 1999)。此設計在無作答時間(response time) 的限制情形下，必須滿足以下限制式： t. ∑x. = k , s = 1,..., S. (2.5). is. ≤ r , i = 1,..., t. (2.6). ijs. ≥ λ , i < j = 1,..., t. (2.7). is. i =1 S. ∑x s =1. S. ∑z s =1. xis + x js ≥ 2 zijs , i < j = 1,..., t , s = 1,..., S. (2.8). 其中： t 指試題區塊數； s 指題本代號， s = 1,..., S ； k 指每個題本配置的試題區塊數，即區塊數目(number of blocks)；. r 指試題區塊在題本中出現的次數； 17.

(26) i 指題庫中個別區塊代號， i = 1,..., t ； j 指題庫中成對區塊中第二個區塊代號， j = 1,..., N ；. λ 指成對試題區塊出現在相同區塊位置的次數； xis 指試題區塊與題本的配置組型，其中： xis ∈ {0,1} , i = 1,..., t , s = 1,..., S ； zijs 指成對試題區塊與題本的配置組型， zijs ∈ {0,1} , i < j = 1,..., t , s = 1,..., S 。. 式子(2.5)代表每一個題本配置的試題區塊數目；式子(2.6)代表每一個試題區塊在所有題本中出現的次數；式子(2.7)代表成對試題區塊在所有題本中出現的次數；式子(2.8)代表成對試題區塊與組型的一致性。BIB 設計須符合式子(2.5)至(2.8) 的要求，求出符合的最佳解。美國的 NAEP 和荷蘭的 PPON(Periodiek Peilingsonderzoek van het Onderwijs) 即依據 BIB 設計的原則。這個設計假設題庫中的試題被區分為數個區塊，並利用這些試題區塊編製成題本。在區分試題區塊的過程不為隨機，但必須考量受試者可以有足夠的時間完成所有的題目，且試題區塊數也要事先確定。最後題本根據最小單位，經由螺旋排序並束在一起(spiraled and bundled)的方式確保每一試題區塊出現的次數均等，以減低順序因素。所以施測時，必須依據排好的順序將題本循序發給考生。另外，根據 NAEP 1998 年的技術性報告中指出，每一試題在施測時，大約需要 500 個測試樣本(Allen, Donoghue & Schoeps, 2001)。 BIB 設計有三項基本限制： 1. 每一個題本內的試題區塊數要相同； 2. 試題區塊作結合以求出最小題本數； 3. 每一個試題區塊在所有題本中出現的次數要相同。然而，這只是 BIB 設計必須符合的三項基本限制，但在實際設計時，還需考慮試題的內容、形式及作答時間。 18.

(27) 本研究測驗等化設計即採用 BIB 與 NEAT 設計進行模擬研究，此兩設計均將試題分成若干試題區塊，使用每個題本配置若干個試題區塊來進行施測。而最大的差異在於，BIB 設計的每個試題區塊施測次數皆相同，且題本與試題區塊使用螺旋式排列來進行等化分析，使得部份題本無定錨試題，依然可進行等化分析； NEAT 設計的每個試題區塊施測次數並不相同，並利用每個題本中之定錨試題，作為等化分析之連結。 NEAT設計為一般常用的等化設計，但由於國內基於受測試題必須公佈的原則，使得第二年之測驗無法順利進行。然而，BIB設計可利用無共同試題之題本進行連結等化。因此，本研究擬利用BIB設計以補NEAT設計不足，進行BIB與 NEAT設計等化效果之比較。. 六、BIB 與 NEAT 設計的優缺點本模擬研究之 BIB 與 NEAT 等化設計，應用於實際施測資料時，可依施測所需的定錨題數與施測人數來選擇較適用之等化設計。在此，研究者列出 BIB 與 NEAT 等化設計的優缺點，作為採用時的參考依據： (一)BIB 設計的優點 1. 對於有非共同試題的試題卷，依然可進行等化連結； 2. 每題試題作答人數均等(除兩年級的定錨試題外)，試題平均分配施測； 3. 若需進行題本公佈時，不會公佈到所有的定錨試題。 (二)NEAT 設計的優點 1. 試題區塊配置方式容易找尋； 2. NEAT 設計在估計受試者能力風險值的等化效果較 BIB 設計好。 (三)BIB 設計的缺點 1. 題本與試題區塊的配置方式不易找尋； 19.

(28) 2. BIB 設計等化效果須在施測人數及定錨試題數夠多時，才有最好的等化效果。 (四)NEAT 設計的缺點 1. 進行等化的題本，必須有共同的定錨試題，才能進行等化； 2. 進行垂直等化時，NEAT等化設計試題區塊內所包含的試題數，將限制不同年級間之定錨試題數。 3. 若需進行題本公佈時，將會公佈所有的定錨試題。. 20.

(29) 第四節古典測驗理論等化方法測驗等化目的是為了將兩個或兩個以上不同的測驗轉換於相同量尺上，以進行測驗之間的比較，而測驗等化估計方法分為古典測驗理論(classical test theory, CTT)等化估計方法與試題反應理論等化估計方法。本節將介紹在古典測驗理論等化方法中常見的平均數等化(mean equating)、線性等化(linear equating)、等百分位數等化(equipercentile equating)三種等化方法。茲介紹如下：. 一、平均數等化若有兩測驗(X 測驗和 Y 測驗)需要等化，在平均數等化中，假設 X 為 X 測驗分數的隨機變數， x 為 X 測驗的真實分數；同樣地，Y 為 Y 測驗分數的隨機變數， y 為 Y 測驗的真實分數。若受試者為母體的情況下，且 μ ( X ) 及 μ (Y ) 分別為 X 測. 驗和 Y 測驗的平均數，因此，平均數等化假設兩測驗所得之分數，分別與其期望值之差距相等，即： x − μ ( X ) = y − μ (Y ). (2.9). 由上可知，欲使用平均數等化 X 測驗上的分數 x 轉換到 Y 測驗的分數量尺上， mY (x) ，則由式子(2.9)移項可得：. mY ( x) = y = x − μ ( X ) + μ (Y ). (2.10). 在平均數等化中，X 測驗和 Y 測驗的難度差異相當於只在量尺分數上有一個常數的關係。例如：在平均數等化中，高能力受試者群在 X 測驗的分數比在 Y 測驗高出 2 分；同樣的，低能力受試者群在 X 測驗的分數也比在 Y 測驗高出 2 分。雖然只有一個常數的差異在許多試題環境中似乎有其使用的限制，但平均數等化對於說明一些重要的等化概念上很有用。. 21.

(30) 二、線性等化若有兩測驗(X 測驗和 Y 測驗)需要等化，在線性等化中，假設兩測驗的分數分布相同，因此，若能找出兩測驗真實分數所對應的標準分數，即可將兩測驗分數放置於同一量尺上進行比較。令 μ ( X ) 、 σ ( X ) 及 μ (Y ) 、 σ (Y ) 分別為 X 測驗和 Y 測驗的平均數和標準差，因此，線性等化轉換方式為兩測驗標準化分數須相等(Z分數)，即： x − μ ( X ) y − μ (Y ) = σ (X ) σ (Y ). (2.11). 由上可知，如果兩測驗的標準差相等，σ ( X ) = σ (Y ) ，式子(2.11)即可簡化成式子(2.9)，即兩測驗之標準差相等，平均數等化與線性等化的結果會相同。因此，欲使用線性等化 X 測驗上的分數 x 轉換到 Y 測驗的分數量尺上， lY (x) ，則由式子 (2.11)移項可得： ⎡ x − μ( X ) ⎤ lY ( x) = y = σ (Y ) ⎢ ⎥ + μ (Y ) ⎣ σ (X ) ⎦. (2.12). 由式子(2.12)可整理成下式： lY ( x) = y =. ⎡ ⎤ σ (Y ) σ (Y ) x + ⎢ μ (Y ) − μ ( X )⎥ σ (X ) σ (X ) ⎣ ⎦. (2.13). 由式子(2.13)，可發現其為斜率 (x) +截距之線性方程式，其中：斜率 =. ⎡ ⎤ σ (Y ) σ (Y ) ，截距 = ⎢ μ (Y ) − μ ( X )⎥ σ (X ) σ (X ) ⎣ ⎦. 線性等化改善了平均數等化視兩份測驗的差異只有一個常數的缺點，允許兩份測驗的難度差異在量尺分數中有更多的變化，即可能使低能力受試者群中，X 測驗的難度比 Y 測驗更難；但高能力受試者群中，X 測驗難度比 Y 測驗簡單。. 22.

(31) 三、等百分位數等化若有兩測驗(X 測驗和 Y 測驗)需要等化，在等百分位數等化中，假設 X 測驗的分數轉換成 Y 測驗分數時，其分數分布要和 Y 測驗的分數分布相同。即等百分位數等化是根據 X 測驗上分數的百分比等級(percentile rank) 對應至 Y 測驗上具有相同百分等級的測驗分數(Angoff, 1984)。其定義發展是由 Braun 和 Holland 於 1982 年提出使用。定義如下： X ：X 測驗分數的隨機變數，且 x 為 X 測驗的真實分數； Y ：Y 測驗分數的隨機變數，且 y 為 Y 測驗的真實分數。 F ：母體受試者在X測驗上分數的累積分布； G ：母體受試者在Y測驗上分數的累積分布；. eY ：對稱等化函數，即 X 測驗分數轉換成 Y 測驗的分數；. G * ： eY 的累積分布函數，即 X 測驗分數轉換成 Y 測驗分數的累積分布函數。. 因此，根據等百分位數等化之假設必須滿足： G* = G. (2.14). 式子(2.14)說明，在相同母體受試者中，X 測驗分數轉換成 Y 測驗分數的累積分布等於 Y 測驗分數的累積分布。Braun & Holland(1982)指出，當 X 和 Y 為連續隨機變數，則等百分位數等化將滿足： eY ( x) = G −1 [F ( x)]. (2.15). 其中， G −1 為 G 函數的反函數。等百分位數等化利用曲線來描述測驗間難度的差異，改善了線性等化的缺點，使得等百分位數等化使用上比線性等化更加普遍化。例如：在高能力與低能力受試者群中，X 測驗的難度比 Y 測驗難；但在中能力受試者群中，X 測驗難度卻比 Y 測驗簡單。然而，使用古典測驗理論等化方法是有其限制存在，因為它是利用測驗的原 23.

(32) 始分數來進行等化，對於進行測驗等化必須滿足之相等性、對稱性、及團體不變性似乎太嚴峻，很難有測驗能完全符合。而試題反應理論等化方法，以真分數進行等化，若模式與資料相符就可必免上述的問題(洪碧霞、吳裕益、陳英豪，民80；王寶墉，民84)。. 24.

(33) 第五節試題反應理論等化方法由於古典測驗理論等化方法在測驗實施上有其限制，因此，有了試題反應理論等化方法。此方法是利用不同組群受試者的反應資料，推估試題參數值和能力參數值，在經過連結的過程，將參數值轉化到同一量尺上。在本節中將介紹試題反應理論中較常用的等化估計方法有同時估計法(concurrent estimation)及分離估計法(separate estimation)，在分離估計法中，包含平均數法(mean method)、平均數與標準差法(mean and sigma method)、特徵曲線法(characteristic curve method) (Hanson & Beguin, 2002；Haebara, 1980；Kolen & Brennan, 1995；Stocking & Lord, 1983)。. 一、同時估計法同時估計法是藉由測驗等化設計與IRT電腦軟體所提供之功能作連結，將所有測驗之測驗資料同時進行試題校準，經由校準後，即能將所有測驗之受試者能力值與試題參數放置在相同量尺上。其主要的原理為：將測驗等化設計測驗題本中之試題參數估計值同時對應於相同能力量尺上。此方法比其他的等化方法利用更多的試題參數訊息，包括了定錨試題之參數估計值(如鑑別度、難度、及猜測度參數 ) ，與此定錨試題參數估計值之變異數共變數矩陣 (variance-covariance matrix)(Mislevy & Bock, 1982)。在等化的過程中，利用等化係數將不同測驗題本之試題參數估計值轉化於相同的量尺上時，若所使用之等化係數估計值不甚正確，將產生等化風險。然而，使用同時估計法則可避免此種缺點，並且能應用最多試題訊息來完成等化。因此，採用此方法將優於以線性技術為基礎之等化方法，例如：特徵曲線法等(Stocking & Lord, 1983；李源煌、楊玉女，民89)。本研究之BIB設計在試題參數估計時也較適 25.

(34) 合使用同時估計法，且國內外許多文獻亦證實，採用同時估計法能獲得較佳的精準度(Hanson & Beguin, 2002；Kim & Cohen, 1998；陳煥文，民93)。因此，在本研究之等化估計即採用同時估計法。. 二、分離估計法分離估計法在進行測驗等化時，是先分別估計不同測驗之試題參數，再利用各測驗間之定錨試題及試題參數量尺化的方法，將各測驗量尺轉換在同ㄧ量尺上進行比較。以下茲介紹三種常見之試題參數量尺化方法： (一)平均數法若有兩測驗(X測驗和Y測驗)需要等化，在平均數法中，利用兩測驗定錨試題之鑑別度參數及難度參數的平均數，計算出量尺線性轉換的斜率 α 與截距 β ，再將X測驗分數利用線性轉換至Y測驗分數對應的分數。其計算模式如下(Kolen & Brennan, 1995)： α=. μ (a X ) μ (aY ). β = μ (bY ) − αμ (bX ). (2.16) (2.17). 其中， a 參數指鑑別度參數； b 參數指難度參數；. μ ( a X ) 、 μ (aY ) 為X及Y定錨測驗參數 a 之平均數； μ (bX ) 、 μ (bY ) 為X及Y定錨測驗參數 b 之平均數。. (二)平均數與標準差法若有兩測驗(X測驗和Y測驗)需要等化，在平均數與標準差法中，利用兩測驗定錨試題之難度參數的標準差和平均數，計算出量尺線性轉換的斜率 α 與截距 β ，再將X測驗分數利用線性轉換至Y測驗分數對應的分數。其計算模式如下(Kolen 26.

(35) & Brennan, 1995)： α=. σ (bY ) σ (bX ). (2.18). β = μ (bY ) − αμ (bX ). (2.19). 其中， b 參數指難度參數； μ (bX ) 、 μ (bY ) 為X及Y定錨測驗參數 b 之平均數； σ (bX ) 、 σ (bX ) 為X及Y定錨測驗參數 b 之標準差。. (三)特徵曲線法特徵曲線法是Haebara(1980)及Stocking & Lord(1983)提出，假設 ξ xk 與 ξ yk 為受試者 k 在X測驗及Y測驗的真分數，並求出兩真分數差異之最小值，其計算模式如下： n. ξ xk = ∑ P(θ k , a xi , bxi , c xi ). (2.20). i =1 n. ξ yk = ∑ P(θ k , a yi , byi , c yi ). (2.21). i =1. F=. 其中，試題參數設定為： a yi =. 1 N a xi. α. N. ∑ (ξ a =1. 、 byi. xk. − ξ yk ) 2. (2.22). = αbxi + β 及 c yi = c xi ， F 為兩真分數. 差異之最小值。接著，利用Newton-Raphson 求出偏導數方程式，即可得兩真分數的最小值。 dF dF = =0 dα dβ. (2.23). 特徵曲線法是利用三個試題參數，因此，等化效果應較佳(李文忠，民84)。. 27.

(36) 第三章. 研究方法. 本章分為五節，第一節為研究步驟；第二節為等化設計之變項設定；第三節為 BIB 等化設計；第四節為 NEAT 等化設計；第五節為研究工具。詳述如下。. 第一節研究步驟本研究以試題反應理論之等化模式為基礎，利用電腦模擬資料，探討建置題庫時，採用 BIB 設計與 NEAT 設計進行水平等化與垂直等化兩種情況下之測驗等化效果。研究流程如圖 3-1：研究主題. 設定模擬資料. BIB 及 NEAT 題本連結設計. 利用同時估計法進行. 利用同時估計法進行. 水平等化. 垂直等化. 測驗等化估計. 撰寫研究結果. 圖3-1 研究流程圖 28.

(37) 圖3-1為本研究之流程圖，研究中採用BIB與NEAT等化設計，並設定模擬資料為： (一)在各年級施測人數中，根據TASA計畫模擬受測人數10000人與7500人兩種，本研究欲探討人數減少為5460人其等化效果，因此，模擬三種施測人數。 (二)在不同總試題數中，本研究欲探討試題區塊數增加對於等化風險之影響，因此，設定7個、9個及13個試題區塊數。 (三)在不同垂直定錨數下，設定不同年級間定錨試題數為3題、6題及9題三種，進行題本間連結之設定。 (四)設定題本作答時間為50分鐘，試題長度為36題，每個題本配置的試題區塊數3個(k=3)。 BIB設計依據研究中設定的條件，配置出合適的施測題本與試題區塊配置組合方式有四種；NEAT設計依據四種BIB設計的試題區塊數，設計施測題本與試題區塊配置組合方式有三種，故本研究的等化設計共有七種。因此，根據本研究之七種等化設計，利用同時估計法進行水平及垂直等化，欲了解本研究模擬之不同試題區塊數、不同施測人數及不同定錨試題數，進行BIB及NEAT等化設計之模擬，進而探討其等化效益。. 29.

(38) 第二節等化設計之變項設定本研究利用電腦模擬建置題庫資料，探討 BIB 與 NEAT 設計進行兩種不同情況下之測驗等化模擬。茲將本研究 BIB 與 NEAT 設計的共同變項設定整理如表 3-1。表3-1 BIB與NEAT設計共同變項設定對照表試題長度每個題本配置的試題區塊數每個年級施測人數受試者群能力分布鑑別度(a) 試題參數分布難度(b) 猜測度(c) 每一情形模擬資料集個數. 每個題本施測題數 36 題 3 5460 人、7500 人及 10000 人截尾常態分布 N (0,1) , 範圍 − 3 ~ 3 截尾常態分布 N (1,0.25) , 範圍 0.5 ~ 1.5 截尾常態分布 N (0,1) , 範圍 − 3 ~ 3 截尾常態分布 N (0.125,0.0625) , 範圍 0 ~ 0.25 50 次. 表3-1為本研究進行BIB與NEAT設計等化效果比較的共同變項設定，其中，每個題本的施測題數為36題；每個題本配置的試題區塊數為3個；每個年級施測人數為5460人、7500人及10000人。此外，每一個不同的條件中，均重覆進行50次的資料模擬，來估計受試者能力值及試題參數值的精準度(accuracy of estimate)，並計算各參數之RMSE。受試者能力值及試題參數分布會根據不同情況下之測驗等化模擬而有所不同，其分布如下：. 30.

(39) 一、水平等化之共同變項設定水平等化之受試者群能力分布為：截尾常態分布 (truncated normal distribution)，平均數為 0，標準差為 1，將範圍界定於 − 3 ~ 3 ，記為 N (0,1) 。其受試者群能力分布長條圖如下： 1400. 1200. 受試者之人數分佈. 1000. 800. 600. 400. 200. 0 -3. -2. -1. 0 受試者之能力值. 1. 2. 3. 圖3-2 水平等化之受試者群能力分布長條圖試題參數分布設定為： 1. 鑑別度參數：為截尾常態分布，平均數為 1，標準差為 0.25，將範圍界定於 0.5 ~ 1.5 ，記為 N (1,0.25) ； 2. 難度參數：為截尾常態分布，平均數為0，標準差為1，將範圍界定於 − 3 ~ 3 ，記為 N (0,1) ；. 3. 猜測度參數：為截尾常態分布，平均數為0.125，標準差為0.0625，將範圍界定於 0 ~ 0.25 ，記為 N (0.125,0.0625) 。. 31.

(40) 二、垂直等化之共同變項設定垂直等化之受試者群能力分布中，研究者將受試者能力分為 H 年級與 L 年級兩群，H 年級代表年級較高之受試者，L 年級代表年級較低之受試者，進行不同年級間量尺之垂直等化。其受試者群能力分布為： 1. H 年級：為截尾常態分布，平均數為 1，標準差為 2 / 3，將範圍界定於 − 1 ~ 3，記為 N (1,2 / 3) ； 2. L 年級：為截尾常態分布，平均數為 − 1 ，標準差為 2 / 3 ，將範圍界定於 − 3 ~ 1 ，記為 N (−1,2 / 3) 。. 垂直等化之受試者群能力分布長條圖如下： 2000 1800 1600. 受試者之人數分佈. 1400 1200 1000 800 600 400 200 0 -3. -2. -1. 0 受試者之能力值. 1. 2. 3. 圖3-3 垂直等化之受試者群能力分布長條圖. 試題參數分布設定為： 1. 鑑別度參數：為截尾常態分布，平均數為 1，標準差為 0.25，將範圍界定於 0.5 ~ 1.5 ，記為 N (1,0.25) ； 2. 難度參數：為截尾常態分布，依不同年級而區分成，H 年級的 N (1,2 / 3) ，範圍 − 1 ~ 3 、L 年級的 N (−1,2 / 3) ，範圍 − 3 ~ 1 ； 32.

(41) 3. 猜測度參數：為截尾常態分布，平均數為0.125，標準差為0.0625，將範圍界定於 0 ~ 0.25 ，記為 N (0.125,0.0625) 。此外，本研究在不同年級中設定3題、6題及9題之定錨試題數，以比較不同定錨試題數對於不同等化設計之影響。. 33.

(42) 第三節. BIB 等化設計. 根據本研究設定每個題本試題數為 36 題，試題區塊數為 3 個，茲將 BIB 設計須符合之條件整理如下(Kuehl, 2000)： ⎧b × k = r × t ⎪r × (k − 1) = λ × (t − 1) ⎪ ⎨ ⎪k × r × (k − 1) ≤ 36 ⎪⎩k = 3. (3.1). 由式子(3.1)找出符合的 BIB 設計整理如下表：表 3-2 BIB 設計表等化設計 BIB1 BIB2 BIB3 BIB4. b 7 12 26 14. t 7 9 13 7. K 3 3 3 3. R 3 4 6 6. λ 1 1 1 2. 表 3-2 為本研究中 BIB 模式之參數設定，針對不同模式形態命名為 BIB1、 BIB2、BIB3、BIB4，以下分別介紹此四種設計之定義代號： S i ：題本序號， i = 1,K, bw ， w = 1,K,4 ；. 其中： b1 = 7 ， b2 = 12 ， b3 = 26 ， b4 = 14 ； M j ：試題區塊， j = 1,K t w ， w = 1,K,4 ；. 其中： t1 = 7 ， t 2 = 9 ， t 3 = 13 ， t 4 = 7 ； k l ：區塊； l = 1,2,3 ；. 其中： b 為題本數， w 為設計編號， l 為區塊位置。本研究的 BIB1、BIB2 及 BIB4 設計係依據曾玉琳、王暄博、郭伯臣、許天維 (民 95)所設計；BIB3 設計係依據 van der Linden, Veldkamp & Carlson(2004)，26 個題本、13 個試題區塊的最佳 BIB 設計，以下將介紹四種 BIB 設計模式。. 34.

(43) 一、水平等化之 BIB 設計 (一)BIB1 設計如表 3-3。表 3-3 BIB1 設計表題本序號 S1 S2 S3 S4 S5 S6 S7. 區塊(k1) M1 M2 M3 M4 M5 M6 M7. 區塊(k2) M2 M3 M4 M5 M6 M7 M1. 區塊(k3) M4 M5 M6 M7 M1 M2 M3. 表3-3為BIB1設計表，BIB1設計共包含7個題本( b = 7 )、7個試題區塊( t = 7 )、每個題本包含3個試題區塊( k = 3 )、每一試題區塊在題本中出現的次數為3次 ( r = 3 )、及成對試題區塊在題本中出現的次數只有1次( λ = 1 )。根據BIB設計之條件，可知每個題本中試題區塊的組合不重複。此外，表3-3中，可了解每個題本中放置的試題區塊序號，例如：題本S1試題區塊配置為M1、M2、M4，則S2至S27 題本中不會出現試題區塊M1、M2、M4的組合。且試題區塊M1~M7在所有題本配置中，會重複出現3次，例如：試題區塊M1出現在題本S1、S5、S7中，依此類推。. 35.

(44) (二)BIB2 設計如表 3-4。表 3-4 BIB2 設計表題本序號 S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12. 區塊(k1) M1 M2 M3 M4 M5 M6 M7 M8 M9 M1 M2 M3. 區塊(k2) M2 M3 M4 M5 M6 M7 M8 M9 M1 M3 M4 M5. 區塊(k3) M5 M7 M8 M7 M8 M9 M1 M2 M4 M6 M6 M9. 表3-4為BIB2設計表，BIB2設計共包含12個題本、9個試題區塊、每個題本包含3個試題區塊、每一試題區塊在題本中出現的次數為4次、及成對試題區塊在題本中出現的次數只有1次。而其試題區塊配置規則亦根據BIB設計之條件，可參考 BIB1設計之說明，因此，並不再詳述。. 36.

(45) (三)BIB3 設計如表 3-5。表 3-5 BIB3 設計表題本序號 S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12 S13. 區塊 (k1) M1 M6 M2 M7 M2 M4 M1 M1 M11 M5 M3 M3 M1. 區塊 (k2) M10 M8 M6 M9 M7 M6 M7 M6 M12 M7 M9 M10 M2. 題本序號 S14 S15 S16 S17 S18 S19 S20 S21 S22 S23 S24 S25 S26. 區塊 (k3) M11 M11 M12 M10 M11 M7 M8 M9 M13 M12 M11 M12 M3. 區塊 (k1) M1 M6 M3 M8 M2 M3 M5 M2 M4 M1 M2 M4 M3. 區塊 (k2) M4 M10 M7 M9 M4 M5 M8 M5 M9 M5 M8 M5 M4. 區塊 (k3) M12 M13 M13 M12 M10 M6 M10 M9 M13 M13 M13 M11 M8. 資料來源：van der Linden & Veldkamp & Carlson,2004. 表3-5為BIB3設計表，BIB3設計共包含26個題本、13個試題區塊、每個題本包含3個試題區塊、每一試題區塊在題本中出現的次數為6次、及成對試題區塊在題本中出現的次數只有1次。而其試題區塊配置規則亦根據BIB設計之條件，可參考 BIB1設計之說明，因此，並不再詳述。. 37.

(46) (四)BIB4 設計如表 3-6。表 3-6 BIB4 設計表題本序號 S1 S2 S3 S4 S5 S6 S7. 區塊 (k1) M1 M2 M3 M4 M5 M6 M7. 區塊 (k2) M2 M3 M4 M5 M6 M7 M1. 題本序號 S8 S9 S10 S11 S12 S13 S14. 區塊 (k3) M4 M5 M6 M7 M1 M2 M3. 區塊 (k1) M1 M2 M3 M4 M5 M6 M7. 區塊 (k2) M3 M4 M5 M6 M7 M1 M2. 區塊 (k3) M4 M5 M6 M7 M1 M2 M3. 表3-6為BIB4設計表，BIB4設計共包含14個題本、7個試題區塊、每個題本包含3個試題區塊、每一試題區塊在題本中出現的次數為6次、及成對試題區塊在題本中出現的次數有2次。而其試題區塊配置規則亦根據BIB設計之條件，可參考 BIB1設計之說明，因此，並不再詳述。 BIB4為本研究特別設計之等化設計，目的是為了與BIB1設計做比較，欲了解相同的試題區塊數(題庫)下，題本配置情形的不同，對於等化估計之效果。在BIB4 設計中，成對試題區塊在題本中出現的次數有2次( λ = 2 )，即成對試題區塊的組合有重複情形，例如：題本S1試題區塊配置為M1、M2、M4，題本S13試題區塊配置為M1、M2、M6，重複的成對試題區塊為M1、M2；題本S1試題區塊配置為 M1、M2、M4，題本S9試題區塊配置為M2、M4、M5，重複的成對試題區塊為 M2、M4，依此類推。. 38.

(47) 二、垂直等化之 BIB 設計本研究在垂直等化之 BIB 設計，利用不同年級間之定錨試題做等化連結，其等化設計排列的格式如下：表 3-7 不同年級間 BIB 等化設計(垂直等化)模式 L − M1 L − M2 L − M3. H − M 1 包含 L − M 1 − 1 ~ L − M 1 − g H − M 2 包含 L − M 2 − 1 ~ L − M 2 − g H − M 3 包含 L − M 3 − 1 ~ L − M 3 − g. L − M4. →. L−Mj. . . .. H 年級. . . .. L 年級. H − M 4 包含 L − M 4 − 1 ~ L − M 4 − g. H − M j 包含 L − M j − 1 ~ L − M j − g. 每個試題區塊(M)各抽取 g 題為定錨試題，本研究探討 g=1、2、3 之效果。. 表 3-7 為不同年級不同測驗之 BIB 垂直等化設計模式，以下介紹幾個研究者自定之代號： M j 為試題區塊代號， j = 1,K t w 、 w = 1, K,4 ，其中： t1 = 7 ， t 2 = 9 ， t 3 = 13 ， t 4 = 7 、 H − M 1 ~ H − M j 代表 H 年級所包含之試題區塊數、 L − M 1 ~ L − M j. 代表 L 年級所包含之試題區塊數、 L − M 1 − 1 代表 L 年級試題區塊 1 的第 1 題。以 BIB1 設計為例，在 BIB1 設計中，有 7 個題本、7 個試題區塊( t1 = 7 )，因此，H 年級所包含的試題區塊為 H − M 1 ~ H − M 7 、L 年級所包含的試題區塊為 L − M1 ~ L − M7 。. BIB 垂直等化設計中，不同兩年級的試題排列均依照 BIB 設計排列，在定錨試題部分是將 H 年級中每個試題區塊中，放入 L 年級對應試題區塊中難度較難的試題。如表 3-7，H 年級的試題區塊 1( H − M 1 )中，包含 L 年級試題區塊 1 內試題難度較難的 g 題( L − M 1 − 1 ~ L − M 1 − g )定錨試題。本研究只討論每個試題區塊中定錨試題為 1 題、2 題及 3 題之效果，即探討不同年級間每個題本定錨試題數為 3 題、6 題及 9 題之等化效果。 39.

(48) 三、題數設定本研究模擬每個題本施測試題數為 36 題，試題區塊數為 3，因此，每個試題區塊之試題數為 12 題。在 BIB 設計中，同年級不同測驗之總試題數，為試題區塊數之設定；不同年級不同測驗之總試題數，隨著定錨試題數的多寡而不同。例如：BIB1 設計有 7 個試題區塊，同年級之總試題數為 84(7×12)題；在不同年級中，若定錨試題數為三題，則總試題數為 161(84×2-7)題，依此類推。其題數變化情形如下表：表 3-8 BIB 設計定錨試題數與總試題數對照表等化設計. 試題區塊數. BIB1. 7. BIB2. 9. BIB3. 13. BIB4. 7. 不同年級間定錨試題數 3 6 9 3 6 9 3 6 9 3 6 9. 40. 各年級施測總試題數 84 84 84 108 108 108 156 156 156 84 84 84. 兩年級間施測總試題數 161 154 147 207 198 189 299 286 273 161 154 147.

(49) 四、人數設定本研究模擬三種施測人數(5460 人、7500 人及 10000 人)，因此，不同年級之受測人數為 10920、15000 人及 20000 人。例如：BIB1 設計同年級施測人數分別為 5460 人、7504 人及 10003 人，不同年級受測人數為 10920 人、15008 人、20006 人，依此類推。其人數的設定考量如下： 1. 每一份題本人數必須相同； 2. 兩年級的受測人數必須相同； 3. 每一試題受測人數至少 500 人以上； 4. 每年級受測人數為 5460 人、7500 人及 10000 人；依上列 4 個條件整理如表 3-9。表 3-9 BIB設計題本、試題及定錨試題受測人數對照表等化設計 BIB1 BIB2 BIB3 BIB4. 受測人數 10920 15008 20006 10920 15000 20016 10920 15028 20020 10920 15008 20020. 每年級受測人數 5460 7504 10003 5460 7500 10008 5460 7514 10010 5460 7504 10010. 每個題本受測人數 780 1072 1429 455 625 834 210 289 385 390 536 715. 41. 每個試題受測人數 2340 3216 4287 1820 2500 3336 1260 1734 2310 2340 3216 4290. 不同年級間定錨試題受測人數 4680 6432 8574 3640 5000 6672 2520 3468 4620 4680 6432 8580.

(50) 第四節. NEAT 等化設計. NEAT設計為一般測驗等化常用的等化設計，本研究利用四種BIB設計的試題區塊數排列出三種NEAT設計，欲比較NEAT與BIB設計之等化效果。其中，BIB1 與BIB4設計的試題區塊數相同，故只與一個NEAT設計進行等化效果比較。本研究將NEAT設計中，第一個試題區塊 M 1 設定為定錨試題，並設計三種符合BIB試題區塊數之NEAT設計，並將其整理成表3-10。表 3-10 NEAT 設計表等化設計 NEAT1 NEAT2 NEAT3. b 3 4 6. t 7 9 13. k 3 3 3. 表3-10為本研究之NEAT設計表，研究者將每三種NEAT設計，分別命名為 NEAT1、NEAT2、NEAT3做區別。NEAT1設計與BIB1、BIB4設計做對照；NEAT2 設計與BIB2設計做對照；NEAT3設計與BIB3設計做對照。以下茲介紹三種NEAT 設計模式。. 42.

(51) 一、水平等化之 NEAT 設計 (一)NEAT1 設計如表 3-11。表3-11 NEAT1設計表題本序號區塊(k1) 區塊(k2) 區塊(k3) S1 M1 M2 M3 S2 M1 M4 M5 S3 M1 M6 M7. 表3-11為NEAT1設計表，NEAT1設計共包含3個題本( b = 3 )、7個試題區塊 ( t = 7 )、每個題本包含3個試題區塊( k = 3 )。試題區塊M1為NEAT設計之定錨試題區塊，其題本配置的試題區塊序號為：題本S1試題區塊配置為M1、M2、M3；題本S2試題區塊配置為M1、M4、M5；題本S3試題區塊配置為M1、M6、M7。 (二)NEAT2 設計如表 3-12。表3-12 NEAT2設計表題本序號區塊(k1) 區塊(k2) 區塊(k3) S1 M1 M2 M3 S2 M1 M4 M5 S3 M1 M6 M7 S4 M1 M8 M9. 表3-12為NEAT2設計表，NEAT2設計共包含4個題本、9個試題區塊、每個題本包含3個試題區塊。其題本配置的試題區塊序號為：題本S1試題區塊配置為 M1、M2、M3；題本S2試題區塊配置為M1、M4、M5；題本S3試題區塊配置為 M1、M6、M7；題本S4試題區塊配置為M1、M8、M9。. 43.

(52) (三)NEAT3 設計如表 3-13。表3-13 NEAT3設計表題本序號區塊(k1) 區塊(k2) 區塊(k3) S1 M1 M2 M3 S2 M1 M4 M5 S3 M1 M6 M7 S4 M1 M8 M9 S5 M1 M10 M11 S6 M1 M12 M13. 表3-13為NEAT3設計表，NEAT3設計共包含6個題本、13個試題區塊、每個題本包含3個試題區塊。其題本配置的試題區塊序號為：題本S1試題區塊配置為 M1、M2、M3；題本S2試題區塊配置為M1、M4、M5；題本S3試題區塊配置為 M1、M6、M7；題本S4試題區塊配置為M1、M8、M9；題本S5試題區塊配置為 M1、M10、M11；題本S6試題區塊配置為M1、M12、M13。. 44.

(53) 二、垂直等化之 NEAT 設計 NEAT 設計不同年級間之等化垂直等化設計排列格式如下：表 3-14 不同年級間 NEAT 等化設計（垂直等化） L − M1 L − M2 L − M3. H − M 1 包含 L − M 1 − 1 ~ L − M 1 − h H − M2 H − M3. →. . . .. H 年級. . . .. L 年級. L − M4. H − M4. L−Mj. H −Mj. 每個區塊(M)各抽取 h 題為定錨試題，本研究探討 h=3、6、9 之效果。. 表 3-14 為不同年級不同測驗之 NEAT 垂直等化設計模式， M j 為試題區塊代號， j = 1,K t w ； w = 1,2,3 ；其中， t1 = 7 ， t 2 = 9 ， t 3 = 13 。在 NEAT 垂直等化設計中，不同年級的試題排列均依照 NEAT 設計排列，為了比較在不同定錨試題下兩種等化設計的效果，NEAT 設計根據 BIB 設計，將不同年級之每個題本總定錨試題數設定為 3、6、9 題。本研究將 NEAT 設計之試題區塊 M 1 設定為定錨試題區塊，因此，垂直等化之定錨試題必須為試題區塊 M 1 內選出，例如：表 3-14，H 年級試題區塊 1( H − M 1 ) 中，包含 L 年級試題區塊 1 內試題難度較難的 h 題( L − M 1 − 1 ~ L − M 1 − h )定錨試題，而本研究只討論試題區塊 1 中定錨試題為 3、6、9 題之效果。. 45.

(54) 三、題數設定本研究NEAT設計是根據BIB設計，每個題本施測試題數亦為36題，試題區塊數為3，每個試題區塊之試題數為12題。NEAT設計中，同年級不同測驗之總試題數，為試題區塊數；不同年級不同測驗之總試題數，隨著定錨試題數的多寡而不同。例如：NEAT1設計有7個試題區塊，同年級之總試題數為84(7×12)題；在不同年級中，若定錨試題數為三題，則總試題數為165(84×2-3)題，依此類推。其題數變化情形如下表：表 3-15 NEAT 設計定錨試題數與總試題數對照表等化設計. 試題區塊數. NEAT1. 7. NEAT2. 9. NEAT3. 13. 不同年級間定錨試題數 3 6 9 3 6 9 3 6 9. 46. 各年級施測總試題數 84 84 84 108 108 108 156 156 156. 兩年級間施測總試題數 165 162 159 213 210 207 309 306 303.

(55) 四、人數設定 NEAT 設計亦根據 BIB 設計之設定，模擬三種施測人數(5460 人、7500 人及 10000 人) ，因此，不同年級之受測人數為 10920、15000 人及 20000 人。例如： NEAT1 設計每年級施測總人數分別為 5460 人、7500 人及 10002 人，兩年級受測人數為 10920 人、15000 人及 20004 人，依此類推。其人數的設定考量如下： 1. 每一份題本人數必須相同； 2. 兩年級的受測人數必須相同； 3. 每一試題受測人數至少 500 人以上； 4. 每年級受測人數為 5460 人、7500 人及 10000 人；依上列 4 個條件整理如表 3-16。表 3-16 NEAT 設計題本、試題及定錨試題受測人數對照表等化設計. NEAT1 NEAT2 NEAT3. 總受測人數 10920 15000 20004 10920 15000 20016 10920 15000 20004. 每年級受測人數 5460 7500 10002 5460 7500 10008 5460 7500 10002. 各年級定錨試題受測人數 5460 7500 10002 5460 7500 10008 5460 7500 10002. 每個題本受測人數 1820 2500 3334 1365 1875 2502 910 1250 1667. 47. 各年級非定錨試題受測人數 1820 2500 3334 1365 1875 2502 910 1250 1667. 不同年級間定錨試題受測人數 10920 15000 20004 10920 15000 20016 10920 15000 20004.

(56) 第五節研究工具一、模擬測驗之效度本研究將所有題本之作答反應進行因素分析，研究結果如下陡坡圖所示，可發現本測驗符合單向度檢定，可進行參數IRT之分析。. 因素陡坡圖. 10. 8. 6. 特徵圖. 4. 2. 0 1. 3 2. 5 4. 7 6. 9 8. 11 10. 13 12. 15 14. 17 16. 19 18. 21 20. 23 22. 25 24. 27 26. 29 28. 31 30. 33 32. 35 34. 36. 成份編號. 圖3-4 模擬測驗之因素分析陡坡圖. 二、BILOG-MG軟體本研究使用BILOG-MG(Zimowski, Muraki, Mislevy & Bock, 2003)進行水平及垂直等化測驗，利用邊際估計法(marginal maximal likelihood estimation, MMLE)與期望後驗法(expected a posteriori, EAP) (Zimowski et al., 2003)來估計試題的鑑別度、難度與猜測度參數與受試者能力值。. 三、MATLAB軟體 MATLAB 語法簡單且擁有功能強大的函數庫，本研究利用此軟體模擬BIB設計與NEAT設計作答反應、進行資料檔案轉換與估算精準度。 48.

(57) 四、SPSS 軟體使用 SPSS12.0 中文視窗版軟體進行測驗的單向度檢定。. 49.

(58) 第四章. 研究結果. 本章分為三節，第一節為BIB設計等化後估計結果；第二節為NEAT設計等化後估計結果；第三節為BIB與NEAT設計等化後估計結果綜合比較。詳述如下。. 第一節. BIB 設計等化後估計結果. 一、水平等化測驗之等化結果根據模擬研究的結果，將 BIB 設計等化後之 RMSE 整理成表 4-1：表 4-1 BIB 設計在水平等化中之風險值等化設計. 各年級總人數 5460. BIB1. 7504 10003 5460. BIB2. 7500 10008 5460. BIB3. 7514 10010 5460. BIB4. 7504 10010. RMSE/STD 鑑別度難度 0.1050 0.1212 (0.0082) (0.0100) 0.0971 0.1133 (0.0089) (0.0121) 0.0804* 0.0902* (0.0062) (0.0083) 0.1141 0.1242 (0.0108) (0.0133) 0.0997 0.1144 (0.0080) (0.0130) 0.0923* 0.1063* (0.0065) (0.0099) 0.1359 0.1434 (0.0100) (0.0136) 0.1204 0.1312 (0.0098) (0.0113) 0.1068* 0.1228* (0.0062) (0.0092) 0.1054 0.1213 (0.0083) (0.0098) 0.1003 0.1187 (0.0086) (0.0121) 0.0822* 0.0941* (0.0069) (0.0091). 能力值 0.3170 (0.0031) 0.3165 (0.0027) 0.3164* (0.0021) 0.3191 (0.0030) 0.3186 (0.0029) 0.3181* (0.0021) 0.3221 (0.0033) 0.3207 (0.0030) 0.3205* (0.0020) 0.3169 (0.0031) 0.3162 (0.0024) 0.3160* (0.0023). “*”表不同種施測人數之最小風險值 50. 猜測度 0.0419 (0.0031) 0.0394 (0.0033) 0.0371* (0.0028) 0.0429 (0.0036) 0.0398 (0.0029) 0.0383* (0.0024) 0.0460 (0.0031) 0.0440 (0.0033) 0.0423* (0.0025) 0.0421 (0.0031) 0.0399 (0.0038) 0.0373* (0.0028).

(59) 表 4-1 為本研究 BIB 設計在水平等化中之風險值，研究中受試者能力值及試題參數估計值為模擬 50 次 RMSE 之平均，下方「括號」中之值即為 RMSE 之標準差。由表 4-1 等化後之結果，將受試者能力及試題參數之等化後風險值繪製成圖 4-1~圖 4-4：受試者能力風險值 0.322. 估計準確指數 (RMSD). 0.321 0.32 0.319 0.318 0.317 0.316 BIB1設計 BIB2設計 BIB3設計. 0.315. BIB4設計. 0.314. 5460人. 約 7500人受試者人數. 約 10000人. 圖4-1 BIB設計在水平等化中受試者能力風險圖. 51.

(60) 試題鑑別度參數風險值 0.14 BIB1設計 BIB2設計 BIB3設計 BIB4設計. 估計準確指數 (RMSD). 0.13. 0.12. 0.11. 0.1. 0.09. 0.08. 5460人. 約 7500人受試者人數. 約 10000人. 圖4-2 BIB設計在水平等化中試題鑑別度參數風險圖. 試題難度參數風險值 0.15 BIB1設計 BIB2設計 BIB3設計 BIB4設計. 估計準確指數 (RMSD). 0.14. 0.13. 0.12. 0.11. 0.1. 0.09. 5460人. 約 7500人受試者人數. 約 10000人. 圖4-3 BIB設計在水平等化中試題難度參數風險圖 52.

(61) 試題猜測度參數風險值 0.047 BIB1設計 BIB2設計 BIB3設計 BIB4設計. 估計準確指數 (RMSD). 0.045. 0.043. 0.041. 0.039. 0.037. 5460人. 約 7500人受試者人數. 約 10000人. 圖4-4 BIB設計在水平等化中試題猜測度參數風險圖. 由表4-1及圖4-1~圖4-4中，可以得到以下的結論： (一)在三種施測總人數中，不論是受試者能力值或試題參數，風險值均隨著受試者人數增加而減少，即人數越多估計越精準。因此，BIB設計在水平等化測驗中，能力風險值與試題參數風險值，在施測人數10000人時有最佳等化效果。亦即BIB 設計中，受試人數為10000人之等化風險最小、受試人數為7500人之等化風險次之、受試人數為5460人之等化風險最大。 (二)在四種BIB設計(BIB1~BIB4)中，受試人數由5460人增加至10000人時，受試者能力風險值介於0.0006~0.0016間、試題鑑別度參數風險值介於0.0218~0.0291 間、試題難度參數風險值介於0.0179~0.0310間、試題猜測度參數風險值介於 0.0037~0.0048間。因此，可知隨著受試人數增加，BIB設計對於估計受試者能力風險值影響較小，對於估計試題參數風險值影響較大。 53.