使用不同量尺轉換方法探討 BIB 設計等化之研究

全文

(1)國立臺中教育大學教育測驗統計研究所國民小學教師在職進修教學碩士學位班碩士論文. 指導教授：曾建銘. 博士. 指導教授：施淑娟. 博士. 使用不同量尺轉換方法探討 BIB 設計等化之研究. 研究生：王登民. 中. 華. 民. 國. 一. ○. 撰. 二. 年. 六. 月.

(2) 謝誌不經一番寒徹骨，焉得梅花撲鼻香！能完成這篇論文，著實經歷了層層關卡的考驗，然而，回首這兩年研究所求學歷程，所有辛苦都已拋在腦後，心中留下的，盡是滿滿的感謝。在論文研究與寫作的期程中，真的要衷心感謝指導教授曾建銘博士，除了入學前鼓勵我勇於嘗試進修，之後，曾老師一路以來亦師亦友、溫文儒雅的學者風範，實在令我印象非常深刻，耐心又專業的教導，總是讓做學生的我，一次又一次地更勇於虛心發問求教。也要感謝共同指導教授施淑娟老師經常地關心鼓勵，以及許天維院長、凃柏原所長，在學位考試時提供許多深切的修正建議，讓本篇論文得以更加充實與完備。此外，也要感恩許多朋友的協助幫忙，特別得感謝好朋友革為，幫忙處理許多程式問題以及相關的專業協助。還要非常感謝女兒們的褓姆伉儷，劉進順先生與吳少蕙女士，超時又有愛心地協助照料咱家兩個小公主，特別是劉爸在我進修期間，還要幫忙把小孩載回家，讓我毋須兩頭來回奔波。沒有您們及時伸出援手，勢必無法順利地完成碩士學位！再來，要感謝最親愛的家人們，多年來的鼓勵與支持！特別是母親王錦雀女士，從小到大含辛茹苦地栽培養育之恩；感謝兩個小寶貝翊真、婕羽，依偎在身旁，充當我最窩心的心靈依靠，當然，最要感謝內人思綺，在論文寫作過程中容忍我的臭脾氣，還把家裡大小事處理得妥當適宜，當我最最最堅強的後盾，讓我無後顧之憂，多虧有妳的陪伴與支持！最後，願把這份喜悅與所有親友們一同分享，感恩您們！王登民謹誌于國立臺中教育大學 2013.6.

(3) 摘要本研究基於試題反應理論（item response theory, IRT）二參數對數模式架構下，運用電腦模擬學生作答資料，以不同量尺轉換方法，探討真分數與觀察分數等化效果之比較。並採用定錨測驗之平衡不完全區塊設計（balanced incomplete block design, BIB），以參數校準估計軟體 PARSCALE 搭配 ST、PIE 等連結與等化軟體，進行模擬研究，主要控制變項如下：(1)施測人數為 3570 人、7490 人和 9996 人﹔(2) 四種等化方法為 Stocking/Lord、Haebara、mean/mean、mean/sigma﹔(3) 四種難度組型為兩卷平均數為零、兩卷隨機分配、兩卷間基準卷平均數為零，搭配另一卷難度微調和兩卷間基準卷隨機分配，搭配另一卷難度微調﹔(4) 等化形式為直接等化和間接等化。. 研究結果發現如下： 1.試題參數估計準確率隨著受試人數增加而愈提升，RMSE 值亦隨之降低。 2.連結所得之四種等化方法線性轉換常數，穩定度以特徵曲線法 Stocking/Lord 、Haebara 優於 mean/mean 及 mean/sigma。 3.難度組型等化效果以兩卷間基準卷平均數為零，搭配另一卷難度微調和兩卷間基準卷隨機分配，搭配另一卷難度微調兩種方式最佳，各卷難度採平均數為零次之，各卷難度採隨機分配最差。 4.最佳難度人數組型下四種等化方法之真分數與觀察分數等化效果以特徵曲線法 Stocking/Lord、Haebara 優於 mean/mean 及 mean/sigma。 5.當各卷等化效果良好時，則直接等化與間接等化效果差異相當微小。. 關鍵字：量尺轉換、平衡不完全區塊設計、直接等化、間接等化. I.

(4) Abstract The purpose of this study based on IRT two parameter logistic model is to investigate the equating effects of the true scores and observed scores by different scale transformation methods. And the study used computer simulated data with anchor test design （BIB） to estimate parameter by PARSCALE ,ST and PIE. The main control variables are as followings: (1) the three sample sizes are 3570, 7490 and 9996；(2) four equating methods are Stocking/Lord, Haebara, mean/mean and mean/sigma；(3) assembling test for item difficulty；(4) direct equating and indirect equating. The results of this study are as following: 1. The accuracy rate of item estimation increases as the number of examinees increases. 2. For the stability of linking linear conversion constants, Stocking/Lord and Haebara are better than mean/mean and mean/sigma. 3. Comparing the equating effect of the assembling test for item difficulty, the method of slightly adjustments is better than the average item difficulty equal to zero or item difficulty at random. 4. Comparing the equating effect of the true score and observed scores among the four equating methods,Stocking/Lord and Haebara are better than mean/mean and mean/sigma. 5. When the equating effect for each different forms was well, the difference between direct equating and indirect equating effect is quite small.. Keywords: scale transformation, balanced incomplete block design, direct equating, indirect equating. II.

(5) 目錄摘要 ...................................................................................................................................... I 表目錄 ................................................................................................................................IV 圖目錄 ................................................................................................................................. V 附錄 .................................................................................................................................. VII 第一章緒論 ........................................................................................................................ 1 第一節研究背景與動機 ................................................................................................. 1 第二節研究目的 ............................................................................................................. 2 第三節研究問題 ............................................................................................................. 2 第四節名詞解釋 ............................................................................................................. 3 第二章文獻探討 ................................................................................................................ 7 第一節試題反應理論 ..................................................................................................... 7 第二節測驗等化概述 ................................................................................................... 11 第三節大型測驗概述 ................................................................................................... 22 第四節平衡不完全區塊設計 ....................................................................................... 26 第三章研究方法 .............................................................................................................. 29 第一節研究流程與步驟 ............................................................................................... 29 第二節模擬資料設定 ................................................................................................... 31 第三節研究工具 ........................................................................................................... 37 第四節等化效果評估指標 ........................................................................................... 39 第四章研究結果與討論 .................................................................................................. 41 第一節不同人數組型等化結果比較 ........................................................................... 41 第二節各難度組型下四種等化方法轉換常數比較 ................................................... 43 第三節不同難度組型等化結果比較 ........................................................................... 46 第四節最佳難度人數組型下四種等化方法比較 ....................................................... 51 第五節直接等化與間接等化效果比較 ....................................................................... 56 第五章結論與建議 .......................................................................................................... 67 第一節結論 ................................................................................................................... 67 第二節建議 ................................................................................................................... 68 參考文獻 ............................................................................................................................ 71 中文部分......................................................................................................................... 71 英文部分......................................................................................................................... 73. III.

(6) 表目錄表 2-1 表 2-2 表 2-3 表 2-4 表 2-5 表 2-6 表 2-7 表 3-1 表 3-2 表 3-3 表 4-1 表 4-2 表 4-3 表 4-4 表 4-5 表 4-6 表 4-7 表 4-8 表 4-9 表 4-10 表 4-11 表 4-12 表 4-13 表 4-14. 單組設計 .............................................................................................................. 13 相等群組設計 ...................................................................................................... 13 真分數測驗等化範例數據 .................................................................................. 18 觀察分數條件機率關係式 .................................................................................. 20 觀察分數條件機率分布表 .................................................................................. 20 觀察分數邊際人數分布表 .................................................................................. 21 BIB 題本設計 ...................................................................................................... 27 各區塊及題本施測人數表 .................................................................................. 33 BIB 題本設計 ...................................................................................................... 34 模擬資料設定表 .................................................................................................. 35 不同人數組型各參數等化估計準確率 .............................................................. 41 各難度組型下四種等化方法斜率轉換常數平均值.......................................... 44 各難度組型下四種等化方法截距轉換常數平均值.......................................... 44 各難度組型下四種等化方法斜率轉換常數標準差.......................................... 45 各難度組型下四種等化方法截距轉換常數標準差.......................................... 45 各難度組型下各題本 BIAS > 1.5 檢核表 ......................................................... 50 各難度組型下各題本 BIAS > 1 檢核表 ............................................................ 50 直接與間接等化題本一真分數及觀察分數等化結果 BIAS 數據 .................. 59 直接與間接等化題本二真分數及觀察分數等化結果 BIAS 數據 .................. 60 直接與間接等化題本三真分數及觀察分數等化結果 BIAS 數據 .................. 61 直接與間接等化題本四真分數及觀察分數等化結果 BIAS 數據................... 62 直接與間接等化題本五真分數及觀察分數等化結果 BIAS 數據 .................. 63 直接與間接等化題本六真分數及觀察分數等化結果 BIAS 數據 .................. 64 直接與間接等化題本七真分數及觀察分數等化結果 BIAS 數據 .................. 65. IV.

(7) 圖目錄圖 2-1 圖 2-2 圖 3-1 圖 3-2 圖 3-3 圖 3-4 圖 3-5 圖 3-6 圖 4-1 圖 4-2 圖 4-3 圖 4-4 圖 4-5 圖 4-6 圖 4-7 圖 4-8 圖 4-9 圖 4-10 圖 4-11 圖 4-12 圖 4-13 圖 4-14 圖 4-15 圖 4-16 圖 4-17 圖 4-18 圖 4-19 圖 4-20 圖 4-21 圖 4-22 圖 4-23 圖 4-24 圖 4-25 圖 4-26. 真分數等化圖 ...................................................................................................... 19 觀察分數等化圖 .................................................................................................. 21 研究流程圖 .......................................................................................................... 29 截尾常態分布圖 3570 人 .................................................................................... 31 截尾常態分布圖 7490 人 .................................................................................... 32 截尾常態分布圖 9996 人 .................................................................................... 32 ST_ V2.0 圖形介面 ............................................................................................. 38 PIE V2.0 圖形介面 .............................................................................................. 38 不同人數組型試題參數估計準確率 .................................................................. 42 不同人數組型能力參數估計準確率 .................................................................. 42 各難度組型題本一真分數等化結果 BIAS........................................................ 46 各難度組型題本一觀察分數等化結果 BIAS.................................................... 46 各難度組型題本二真分數等化結果 BIAS........................................................ 47 各難度組型題本二觀察分數等化結果 BIAS.................................................... 47 各難度組型題本三真分數等化結果 BIAS........................................................ 47 各難度組型題本三觀察分數等化結果 BIAS.................................................... 47 各難度組型題本四真分數等化結果 BIAS........................................................ 48 各難度組型題本四觀察分數等化結果 BIAS.................................................... 48 各難度組型題本五真分數等化結果 BIAS ........................................................ 48 各難度組型題本五觀察分數等化結果 BIAS.................................................... 48 各難度組型題本六真分數等化結果 BIAS........................................................ 49 各難度組型題本六觀察分數等化結果 BIAS.................................................... 49 各難度組型題本七真分數等化結果 BIAS........................................................ 49 各難度組型題本七觀察分數等化結果 BIAS.................................................... 49 最佳難度人數組型下四種等化方法題本一真分數等化結果均方差.............. 52 最佳難度人數組型下四種等化方法題本一觀察分數等化結果均方差.......... 52 最佳難度人數組型下四種等化方法題本二真分數等化結果均方差.............. 53 最佳難度人數組型下四種等化方法題本二觀察分數等化結果均方差.......... 53 最佳難度人數組型下四種等化方法題本三真分數等化結果均方差.............. 53 最佳難度人數組型下四種等化方法題本三觀察分數等化結果均方差.......... 53 最佳難度人數組型下四種等化方法題本四真分數等化結果均方差.............. 54 最佳難度人數組型下四種等化方法題本四觀察分數等化結果均方差.......... 54 最佳難度人數組型下四種等化方法題本五真分數等化結果均方差.............. 54 最佳難度人數組型下四種等化方法題本五觀察分數等化結果均方差.......... 54. V.

(8) 圖 4-27 圖 4-28 圖 4-29 圖 4-30. 最佳難度人數組型下四種等化方法題本六真分數等化結果均方差.............. 55 最佳難度人數組型下四種等化方法題本六觀察分數等化結果均方差.......... 55 最佳難度人數組型下四種等化方法題本七真分數等化結果均方差.............. 55 最佳難度人數組型下四種等化方法題本七觀察分數等化結果均方差.......... 55. VI.

(9) 附錄附錄 1 附錄 2 附錄 3 附錄 4 附錄 5 附錄 6 附錄 7 附錄 8 附錄 9 附錄 10 附錄 11 附錄 12 附錄 13 附錄 14 附錄 15 附錄 16 附錄 17 附錄 18 附錄 19 附錄 20 附錄 21 附錄 22 附錄 23 附錄 24 附錄 25 附錄 26 附錄 27 附錄 28. 各難度組型題本一真分數等化結果 BIAS 數據 .............................................. 75 各難度組型題本二真分數等化結果 BIAS 數據 .............................................. 76 各難度組型題本三真分數等化結果 BIAS 數據 .............................................. 77 各難度組型題本四真分數等化結果 BIAS 數據 .............................................. 78 各難度組型題本五真分數等化結果 BIAS 數據 .............................................. 79 各難度組型題本六真分數等化結果 BIAS 數據 .............................................. 80 各難度組型題本七真分數等化結果 BIAS 數據 .............................................. 81 各難度組型題本一觀察分數等化結果 BIAS 數據 .......................................... 82 各難度組型題本二觀察分數等化結果 BIAS 數據 .......................................... 83 各難度組型題本三觀察分數等化結果 BIAS 數據 .......................................... 84 各難度組型題本四觀察分數等化結果 BIAS 數據 .......................................... 85 各難度組型題本五觀察分數等化結果 BIAS 數據 .......................................... 86 各難度組型題本六觀察分數等化結果 BIAS 數據 .......................................... 87 各難度組型題本七觀察分數等化結果 BIAS 數據 .......................................... 88 最佳組型下四種等化方法題本一真分數等化結果均方差數據 ..................... 89 最佳組型下四種等化方法題本二真分數等化結果均方差數據 ..................... 90 最佳組型下四種等化方法題本三真分數等化結果均方差數據 ..................... 91 最佳組型下四種等化方法題本四真分數等化結果均方差數據 ..................... 92 最佳組型下四種等化方法題本五真分數等化結果均方差數據 ..................... 93 最佳組型下四種等化方法題本六真分數等化結果均方差數據 ..................... 94 最佳組型下四種等化方法題本七真分數等化結果均方差數據 ..................... 95 最佳組型下四種等化方法題本一觀察分數等化結果均方差數據 ................. 96 最佳組型下四種等化方法題本二觀察分數等化結果均方差數據 ................. 97 最佳組型下四種等化方法題本三觀察分數等化結果均方差數據 ................. 98 最佳組型下四種等化方法題本四觀察分數等化結果均方差數據 ................. 99 最佳組型下四種等化方法題本五觀察分數等化結果均方差數據 ............... 100 最佳組型下四種等化方法題本六觀察分數等化結果均方差數據 ............... 101 最佳組型下四種等化方法題本七觀察分數等化結果均方差數據 ............... 102. VII.

(10) 第一章緒論本研究以模擬學生作答資料方式，並運用相關統計軟體，以試題反應理論（item response theory, IRT）等化方法並結合 IRT 中二參數對數模式，來探討平衡不完全區塊（balanced incomplete block, BIB）題本設計在不同量尺轉換之下，真分數與觀察分數等化效果的估計，並進行後續結果的分析比較。本章第一節描述研究背景與動機；第二節說明研究目的；第三節列出研究問題；第四節為本研究相關重要名詞釋義。. 第一節研究背景與動機近年來，世界各國教育單位為了解學生的學習成就趨勢與基礎能力，因此，經常須建置客觀完整的全國性大型學生學習成就資料庫，以作為日後重大教育決策參考之依據。目前較知名國際相關的大型學生成就評量之整合型研究計畫有：國際數學與科學教育趨勢研究（The Trends in International Mathematics and Science Study, TIMSS）、國家教育進展評量（National Assessment of Educational Progress, NAEP）、國際學生評量計畫（Programme for International Student Assessment, PISA）及國際閱讀素養促進研究（Progress of International Reading Literacy Study, PIRLS）等等，都值得我國借鏡效法。因此，跟隨著國際趨勢與各先進國家的腳步，教育部亦於二○○四年十月核定國家教育研究院籌備處進行臺灣學生學習成就評量資料庫（Taiwan Assessment of Student Achievement, TASA）之建置計畫。然而，在建置國內外大型教育測驗資料庫過程中，由於測驗所需含括的目標範圍相當廣泛，以 TASA 為例，配合教育部課程綱要須達成的各項指標，相對需要編製出符合指標的測驗題目，數量也就相當地多，. 1.

(11) 經常無法在有限時間內由單一批受試者一次測驗所有試題，為了了解趨勢變化與不同年段學生的成就表現差異，試題還必須橫跨不同層次與各個年級，而為了因應不同受試者的分數比較，大型測驗經常需要定期地進行試題參數之連結（linking）與受試者能力等化，因此，也需要更深入研究等化技術來持續克服測驗中所遇到的各式各樣等化困難。綜合上述，本研究欲使用不同量尺轉換方法，探討 BIB 設計真分數與觀察分數等化之情形，俾利日後相關大型測驗編制資料庫時之參詳。. 第二節研究目的由於國內外大型測驗日趨蓬勃發展，且近年來，許多知名大型測驗之等化設計類型多屬 BIB 設計與定錨不等組設計（non-equivalent groups with anchor test design, NEAT）兩種連結設計。但相關研究大多僅止於試題參數及能力參數的等化結果探討，對於不同量尺真分數及觀察分數等化之探究則相當少見，而且大多僅止於 NEAT 題本設計，對於 BIB 題本設計真分數及觀察分數等化，更是甚少相關文獻（劉玥、駱方、劉紅雲，2010；曾建銘，印製中；Li, Jiang, & von Davier, 2012）探究此問題，因此，本研究目的為使用不同量尺轉換方法，探討相關 BIB 設計真分數與觀察分數等化之情形，並進一步可進行個人真分數與觀察分數之比較。. 第三節研究問題依據上述研究目的，本研究之相關待答問題羅列如下：一、在 BIB 題本設計下，不同的施測人數，對於試題參數與能力參數等化效果是否有差異？. 2.

(12) 二、BIB 題本設計在不同難度分布組題方式下，經由四種不同 IRT 等化方法連結，對於斜率轉換常數（slope）與截距轉換常數（intercept）是否有差異？. 三、BIB 題本設計在不同難度分布組題方式下，對於真分數與觀察分數等化效果是否有差異？. 四、BIB 題本設計在最佳難度與人數組題方式下，四種不同 IRT 等化方法對於等化效果的穩定度是否有差異？. 五、BIB 題本設計在最佳難度與人數組題方式下，直接等化方式與間接等化方式對於等化效果是否有差異？. 第四節名詞解釋針對本研究常見的名詞，羅列各點如下：. 一、測驗等化測驗等化（test equating）是指兩個或兩個以上的測驗測量同一心理建構或特質時，用相關統計的方法建立不同測驗所得分數間的轉換關係，藉此程序的進行，將不同測驗轉置於同一量尺之上，並得以進行分數比較（王寶墉，1995）。測驗等化包含有許多面向，就其種類可依受試者程度區分為水平等化與垂直等化，以估計方式來分類則有同時估計法與分開估計法，若依據各試卷連結方式則可區分為直接等化與間接等化。. 二、定錨試題在不同卷的測驗試題之中，若各有 n 題試題作為共同試題，則這 n 題試題即可稱作是定錨試題（anchor item）。. 3.

(13) 三、量尺轉換量尺轉換（scale transformation）是指將兩份測驗相同性質的測驗分數，經由連結的程序方法，使其轉換至同一量尺上，並得以進行測驗分數的比較。. 四、平衡不完全區塊設計 Yates(1936)提出平衡不完全區塊設計（balanced incomplete block design, BIB），此設計是將試題資料庫中的試題分成若干個試題區塊（treatment block），每個區塊中都有一部分試題，而且區塊間與區塊內的試題皆不重複。 BIB 題本設計組題原則乃將若干個試題區塊編製組合成題本（booklet），每個題本中的區塊可能部份相同或者完全不同。而在所有施測題本中，每個區塊出現的次數是一樣的，又其平衡的特性乃強調成對試題區塊出現於題本中的次數須是相同的（Kuehl, 2000；曾玉琳、王暄博、郭伯臣、許天維，2006），此平衡設計的特性也使得 BIB 近年來廣泛被運用於國內外大型測驗資料庫之中。. 五、估計準確率估計準確率（accuracy of estimate）指估計風險誤差的大小，估計風險誤差值若越小，則代表估計準確率越精確。本研究使用能力參數真值與能力參數估計值，及試題參數真值與試題參數估計值的根均方差（root mean square error, RMSE）作為估計試題與能力參數的準確指數。本研究估計準確指數的公式 RMSE 計算如下：. N. RMSE (η ,ηˆ ) =. ∑ (η i =1. i. − ηˆ i ) 2. (1-1). N. 其中，N 為受測者人數或試題數；. 4.

(14) η i 代表受試者能力真值或試題參數真值； ηˆi 代表受試者能力估計值或試題參數估計值. 六、均方差本研究之各試題難度分布組題方式真分數與觀察分數等化效果的比較，則由其均方差（mean square error, MSE）來呈現，所得均方差值愈小，表示真分數與觀察分數等化效果愈佳。本研究代表等化效果之均方差公式 MSE 計算如下：. MSE (η ,ηˆ ) =. 1 N. N. ∑ (η i =1. i. − ηˆ i ) 2. (1-2). 其中，N 為等化模擬次數；. η i 代表各試題基準分數； ηˆi 代表等化後之真分數或觀察分數. 七、直接等化五份試卷 U、V、X、Y、Z，其中 Z 為基準卷，欲求得 U 卷等化到 Z 卷的等化效果時，直接進行兩試卷連結程序，中間不再經由其它試卷做中介，是為直接等化。. 八、間接等化相對於直接等化，五份試卷 U、V、X、Y、Z，其中 Z 為基準卷，欲求得 U 卷等化到 Z 卷的等化效果時，先經由 U → V， V → X，X→ Y，Y → Z 進行四次中介連結的轉換程序，最後再經由線性轉換公式，進行 U、Z 兩試卷等化程序，以求得其等化效果，是為間接等化。. 九、IRT 真分數等化法 IRT 真分數等化法指在不同量尺測驗 X 與測驗 Y 等化過程中，先運用測驗 X 的真分數搭配牛頓逼近法估算出特定能力值，再以此特定能力值連結至測驗 Y 並估算. 5.

(15) 出測驗 Y 的真分數，藉此流程進行等化程序（Kolen & Brennan，2004）。. 十、IRT 觀察分數等化法 IRT 觀察分數等化法以試題反應理論為基礎，估算出在 X 測驗下各特定分布能力分數下的原始分數之條件機率分配，再依據此條件機率累積彙整後，求得其原始分數分配 f (x) ，同理依據上述方法求出 Y 測驗的原始分數分配 f (y)，然後再利用等百分位數法連結 X 測驗和 Y 測驗，並依此求得兩測驗等化效果（Lord, 1984）。. 6.

(16) 第二章文獻探討本研究主要目的在探討不同 BIB 設計下，所產生的真分數與觀察分數等化效果。是故，本章依此研究主題進行相關測驗原理、等化設計理論文獻的探究，總共分為五節，羅列如下：第一節介紹試題反應理論；第二節為國內外大型測驗簡介；第三節則進行測驗等化理論概述；第四節探究平衡不完全區塊設計；第五節為 IRT 真分數與觀察分數等化法。. 第一節試題反應理論測驗的發展乃是源自古代中國的選士制度，雖然經過數千載的歷史演進，但中國卻沒有持續將測驗理論發揚光大，反而是在一百多年前，西方國家將測驗理論系統性量化之後，再傳播到世界各地。測驗廣義地來說是採用一套標準化的刺激，將個人的潛在特質作有系統客觀量化呈現的程序（郭生玉，1990）；而測驗理論則為一套說明測驗資料間相關實證關係的理論學說（余民寧，2009），主要分成兩大類：首先為古典測驗理論（classical test theory, CTT），是依據真實分數模式（true score model）為架構，由於其模式計分容易、簡單，讓它至今仍是而廣受好評的實用理論。但是，如果要兼顧測量的品質，古典測驗理論仍有樣本依賴、使用共同測量標準誤、忽略受測者反應組型的等重大缺點；因應上述缺失，試題反應理論（item response theory, IRT），在測量上兼顧較多的面向與客觀性的量化程序，也逐漸取代古典測驗理論成為一門新穎熱門的測驗理論學派。試題反應理論相對於修正古典測驗理論（classical test theory, CTT），乃根據強勢假設（strong assumption），用更精密嚴謹的統計理論，估算出試題參數、對答率與能力參數值，在測量上較可達到客觀性的要求。主要基本概念是經由測驗的形式，將受試者（examinee）的潛在特質（latent traits）或能力（ability），藉由作答反應，. 7.

(17) 經過數學運算公式轉換後來呈現結果。另外，受試者的施測作答表現情形與潛在特質或能力之間的關係，能以一條連續性遞增的數學函數來表示，此函數便稱作試題特徵曲線（item characteristic curve, ICC）。如果把能力不同的受試者得分點連接所構成的曲線，即可形成能力不同的受試者在某一試題上的試題特徵曲線（余民寧，2009）。試題反應理論必須具備下列幾項基本假設，在這些假設都成立的前提下，試題反應模式才能用來分析解釋相關的測驗資料。茲將此四項基本假設介紹如下（余民寧，2009）：. 壹、基本假設一、單向度（unidimensionality）單向度意指測驗中每個試題都能測量到同一種的潛在特質或能力，其實，我們知道在真實的施測情境中，受試者的作答反應或表現很難只受到單一成分因素所影響，必然有其它非主要的因素，也都會連帶影響到施測的結果，由此，試題反應理論中對測驗必須具有單向度因素的基本假設，定調於只要是該測驗具有能夠影響測驗結果的一個「主要成份或因素」（dominant component or factor），就算達到單向度假設的基本要求。二、局部獨立性（local independence）局部獨立性乃是指說，考量受試者的能力因素且將能力值固定後，受試者在同試卷中不同試題間的作答情形都是獨立事件，彼此不會有交互影響的關係。也可以說能力因素是唯一影響考生在測驗試題上做出正確反應的因子。其可用以下公式表示： P( X 1 , X 2 ,..., X n | θ ) = P( X 1 | θ ), P( X 2 | θ ),..., P( X n | θ ). (2-1). 其中， X i 代表受試者在第 i 題上的作答反應，θ 代表受試者能力值； P ( X i | θ ) 表示具備能力值 θ 的受試者在第 i 題上的作答反應機率， P ( X i = 1 | θ ) 代表答對的機率，. 8.

(18) P( X i = 0 | θ ) 代表答錯的機率。. 三、非速度性（non-speed test）試題反應理論的非速度性假設是說測驗的進行並非在速度限制下所完成的。也就是說受試者的施測結果，並不是因為時間的不足而造成未完成整份測驗，而是受到受試者的潛在特質或能力所影響。四、知道─正確假設（know-correct assumption）本假設說明受試者若知道試題的正確答案，則一定會答對試題，亦即受試者若答錯某試題，則表示他必定不知道該題的答案，一些人為作答疏失等特例，則不在此考量範圍內。試題反應理論在描述受試者潛在特質與其在試題上作出正確反應之機率，兩者之間可表示成一種數學關係式，此呈現之關係曲線為一連續性遞增函數，即試題特徵曲線（余民寧，2009）。其常用的模式類型有三大類：二元計分（dichotomous scoring）、多元化計分（polytomous scoring）及連續性計分（continuous scoring）。其中又以二元計分模式最常見，茲就此模式作進一步介紹，本研究亦採用二元計分模式之二參數對數模式。. 貳、二元計分模式一、單參數對數模式（one-parameter logistic model, 1PL）單參數對數模式乃由丹麥學者 Rasch（1960）所提出，故又稱為 Rasch 模式，其試題描述僅考量單一種參數─難度參數與能力值間的相關性，關係式表示如公式（2-2）： Pi (θ ) =. 1 ，i = 1,2,3… , n 1 + exp(−(θ − bi )). （2-2）. 其中， θ 是表示受試者的真實能力值； Pi (θ ) 表示受試者在第 i 題的答對機率； bi 為第 i 題試題的難度，我國國中基本學力測驗即採用單參數模式。. 9.

(19) 二、二參數對數模式（two-parameter logistic model, 2PL）由 Birnbaum（1968）提出 2PL，主要由 1PL 加入試題的鑑別度參數，如公式（2-3）所示： Pi (θ ) =. 1 ，i = 1,2,3 … , n 1 + exp( − a i (θ − bi )). （2-3）. 其中， Pi (θ ) 是表示受試者在第 i 題的答對機率；θ 是表示受試者的真實能力； bi 為第 i 題試題的難度； ai 為第 i 題試題的鑑別度。三、三參數對數模式（three-parameter logistic model, 3PL）由 Lord（1974）提出 3PL，主要由 2PL 加入試題的猜測度參數，如公式（2-4）所示： Pi (θ ) = ci + (1 − c i ). 1 ，i = 1,2,3… , n 1 + exp(− ai (θ − bi )). （2-4）. 其中， Pi (θ ) 是表示受試者在第 i 題的答對機率；θ 是表示受試者的真實能力； bi 為第 i 題試題的難度； ai 為第 i 題試題的鑑別度； c i 為第 i 題試題的猜測度。而本研究中採用二參數對數模式來進行分析。. 叁、參數估計反應組型（response pattern）的考量與否，亦是試題反應理論與古典測驗理論的一個很大差異點，在古典測驗理論只考量受試者在該測驗答對的總數，此即該測驗真分數的不偏估計值，也就是說只要學生的測驗總分或答對題數相同，不管答對的題目是否為相同題，都視為學生具備相同的程度或能力。而在試題反應理論中，我們需要藉由各受試者在一組測驗試題上一系列的答題情形來估計受試者的能力參數與試題參數，即便學生的測驗總分或答對題數相同，只要對答的題目難易程度不同，則估計出來受試者的能力參數可能也會不一樣。在參數估計的方法上，最大概似法（maximum likelihood estimate, MLE）普遍為各學術領域在機率估計上所應用，而在 IRT 的參數估計上，最常見的像條件最大概. 10.

(20) 似法（conditional maximum likelihood estimate, CMLE）、邊際最大概似法（marginal maximum likelihood estimate, MMLE）、聯合最大概似法（joint maximum likelihood estimate, JMLE）、期望後驗法估計法（expected a posteriori , EAP）、最大後驗估計法（maximum a posteriori , MAP）等等，PARSCALE 在估計受試者能力值時，使用的估計方法有最大概似估計法（maximum likelihood estimation , MLE）、期望後驗法估計法（expected a posteriori , EAP）等，又以期望後驗法估計法為預設值，兩種方法的差別在於最大概似估計法對於極端情形無法處理，也就是有受試者全部答對或全錯時，則無法進行能力參數的估算。而期望後驗法估計法則無此限制，但它所估得的能力參數值會較集中於母群體的平均值附近（shrink toward the mean），可是只要標準誤不高時，產生的誤差則相當微小（楊孟麗、譚康榮、黃敏雄，2003）。至於參數估計軟體有：BICAL（Wright, 1979）、LOGIST（Wingersky, 1983）、 MULTILOG（Thissen, 1991）、BILOG-MG（Zimowski, Muraki, Mislevy, & Bock, 2003)、 PARSCALE（Muraki & Bock, 2003）等等，又以 BILOG-MG 最常被運用，但由於 BILOG-MG 最大限制是只能使用於二元計分題型，無法使用於多元計分題型上，為了考量未來研究的延伸性，本研究採用與 BILOG-MG 在程式碼及使用上都非常類似，又可以使用多元計分題型的 PARSCALE 作為參數估計軟體。. 第二節測驗等化概述壹、測驗等化的定義測驗等化係指將兩份以上測量相同性質的測驗分數，經由相關統計程序難度校準，轉換至一相同量尺上，藉此，可進一步將不同測驗分數來進行比較。上述幾個國內外大型測驗所須涵蓋的測驗範圍及面向通常相當廣泛，依此，為了要達成的測驗的各項指標，相對需要編製出符合指標的題目數量也相當地多。也由於資料庫題數眾多，無法讓所有受試者在有限制的時間內，同時一次施測. 11.

(21) 完成所有的題目，因此只能分配每位受試者施測部分試題，再將不同受試者所得的測驗分數轉換到同一量尺上進行比較，而在測驗分數進行比較程序之中，須依賴部分共同題目，也就是定錨試題作為中介，俾得以進行試題參數的連結，再使不同測驗分數得以歸之於同一量尺上，而這些過程都需要依賴測驗等化的技術。端賴於嚴謹的等化處理程序，才能讓測驗分數得以進行精密的比較且不損及受試者權益。. 貳、測驗等化的性質不同測驗分數間要進行等化，需具備有下列性質（王寶墉，1995；Kolen & Brennan, 2004）：一、對稱性（symmetry）：等化對稱性是指兩測驗，從測驗 X 等化到測驗 Y；或反之從測驗 Y 等化回測驗 X，兩種方式等化結果應該相同。二、相等性（equity）：欲進行等化的兩測驗須為全然複本測驗（strictly parallel tests），其所測量的特質或能力、難度須相等，且皆必須具備有高信度，然而，古典測驗理論易受樣本團體及測驗難度影響，經常無法達到測驗相等性，IRT 的等化方法則修正了這些限制。三、測驗為單向性（unidimensionality）：單向性乃指進行等化之兩測驗，所測量的內容為相同性質。四、團體不變性（invariance）：無論所採用的受試者為何種團體樣本，其等化結果所轉換的結果都必須要相同。. 叁、測驗等化的題本銜接方式測驗等化的題本銜接設計是指在進行測驗等化前，題本資料的彙集方式。下述從幾個常用設計的方法中，依序簡介單組設計（single-group design）、相等群組設計（equivalent-group design）以及定錨測驗設計（anchor test design）三類型。一、單組設計（single-group design）：欲等化銜接的兩測驗，重覆施測於同一組考生。此銜接設計優點是進行施測相當容易，但也由於過長的施測時間，易使受試者. 12.

(22) 因作答過久而感到疲勞或因為重覆練習的因素，影響到施測結果的精確性。表 2-1 單組設計受試者樣本 X 測驗 P1 V ※ V 表示受試者須接受的測驗。. Y 測驗 V. 二、相等群組設計（equivalent-group design）：相對於單組設計，相等群組設計將兩份測驗給於隨機選出的兩樣本子群體來施測，此銜接設計優點是只需要施測一次即可，而且還可以避開受試者因作答過久產生的疲累感以及重覆練習因素等等，但其缺點是除非樣本母群體相當龐大，否則很難找到能力完全相同的兩組樣本子群體。表 2-2 相等群組設計 X 測驗 V. 受試者樣本 P1 P2 ※ V 表示受試者須接受的測驗。. Y 測驗 V. 三、定錨測驗設計（anchor test design）：將欲銜接的不同份試卷測驗讓不同組受試者施測，每組受試者測驗到的不同份試卷之中，都有一部分相同的試題，這些共同的試題可以計分亦可不計分，這樣的測驗銜接設計稱作定錨測驗設計，而這些共同試題稱作定錨試題。近來國內外大型測驗常用的定錨測驗設計有定錨測驗不等組設計（non-equivalent anchor test, NEAT）與平衡不完全區塊設計（balanced incomplete block, BIB）。本研究運用到的題本設計方式即 BIB 模式，其詳細內涵亦將於本章第四節個別陳述。. 肆、IRT 連結等化法連結與等化方法可分為傳統的古典測驗理論等化方法，例如：相等百分比等化法（equipercentile equating）、線性等化法（linear equating）與迴歸法（regression method）. 13.

(23) （Kolen, 1988），與現代測驗理論 IRT 的等化方法。然而古典測驗理論易受樣本團體及測驗難度影響，經常無法達到測驗相等性（equity）。IRT 的等化方法則修正了這些限制，且本研究皆利用 IRT 的等化方法，以下茲就所使用等化方法作個別陳述。 IRT 測驗等化的估計方式可分為兩大類型，同時估計法（concurrent estimation）及分開估計法（separate estimation），在分開估計法中常見的有平均數法（mean and mean method ）、平均數和標準差法（ mean and sigma method ）及特徵曲線法（characteristic curve method）。一、同時估計法同時估計法是將要做參數估算的各份測驗反應組型資料，加以合併整理成同一資料檔，由電腦軟體 BILOG─MG、PARSCALE 或 MULTILOG 等程式，同時進行估算校準（calibration）參數的程序。在過去電腦軟硬體配備尚未相當發達的年代，做此類參數運算工作時，需考量許多電腦運算執行負荷問題，但是科技發展日新月異，目前電腦處理器的運算速度或是記憶體容量，都可以很輕易完成這些運算工作。而同時估計法也因為只需作一次參數估算，也無須進行測驗間的線性轉換，相對也減少許多等化的誤差。另外，也由於同時估計法各測驗皆處在同一量尺上，因此就不需要再另外做連結的動作。而同時估計法相較於分開估計法還有一個優點，就是只需要 2-3 題少量的定錨試題，即可達到不錯的等化水準（Wingersky & Lord, 1984;黃志傑，2004）。二、分開估計法相對於同時估計法將各份測驗合併在一起估算，分開估計法是將要等化的不同測驗，分次作試題及能力參數之估算，再藉由定錨試題的設計，讓各測驗得以利用作連結而得到不同測驗間的轉換係數，並利用此係數來線性轉換，完成不同測驗的等化（equating）工作，以下也將就本研究運用到的幾種常用分開估計法作介紹。. 14.

(24) （一）平均數法：平均數法（mean and mean method）利用欲等化的測驗 X 與測驗 Y 兩測驗，運用定錨試題的鑑別度參數與難度參數，將其鑑別度平均數μ( a X )、μ( aY )及難度平均數μ( bX )、μ( bY )帶入公式(2-5)與公式(2-6)計算，來運算出量尺線性轉換係數的斜率 α 及截距 β，再經由連結程序，讓 X 測驗量尺分數利用轉換係數換至與 Y 測驗的同一量尺分數上，得以進行等化（Kolen & Brennan, 2004）。 α=. µ (a X ) µ ( aY ). β = µ (bY ) − αµ (bX ). (2-5) (2-6). 其中 a 為鑑別度參數； b 為難度參數 µ (a X ) 為定錨測驗 X 的鑑別度平均數； µ (aY ) 為定錨測驗 Y 的鑑別度平均數. µ (bX ) 為定錨測驗 X 的難度平均數； µ (bY ) 為定錨測驗 Y 的難度平均數（二）平均數和標準差法：平均數和標準差法（mean and sigma method）將欲等化的測驗 X 與測驗 Y 兩測驗，運用定錨試題的難度參數，將其難度平均數μ( bX )、μ( bY )以及難度標準差σ( bX )、 σ( bY )帶入公式(2-7)與公式(2-8)計算，來運算出量尺線性轉換係數的斜率 α 及截距 β，. 再經由連結程序，讓 X 測驗量尺分數利用轉換係數換至與 Y 測驗的同一量尺分數上，得以進行等化（Kolen & Brennan, 2004）。 α=. σ (bY ) σ (b X ). β = µ (bY ) − αµ (b X ). (2-7) (2-8). 其中 b 為難度參數. µ (bX ) 為定錨測驗 X 的難度平均數； µ (bY ) 為定錨測驗 Y 的難度平均數 σ (b X ) 為定錨測驗 X 的難度標準差； σ (bY ) 為定錨測驗 Y 的難度標準差. （三）特徵曲線法：. 15.

(25) Haebara (1980) 以及 Stocking & Lord (1983) 皆有提倡過特徵曲線法（characteristic curve method），此方法比上述等化方式除了考慮能力值與難度參數外，更能同時兼顧鑑別度及猜測度等各參數估算。此方法將欲等化的兩測驗 X、Y，利用兩條試題特徵曲線表達，而其中 Haebara 等化法連結效果最佳會發生在兩曲線真分數差值平方和的極小值時，如公式 2-11，此時可得到最佳的線性轉換常數；Stocking & Lord 等化法連結效果最佳會發生在兩曲線真分數和的差值再平方的極小值時，如公式 2-12，此時可得到最佳的線性轉換常數。此兩種特徵曲線法其估算函數分別表現如下，兩等化方法除了公式 2-11 與公式 2-12 略有些微差異外，其餘計算公式大致相同 (Hambleton & Swaminathan, 1985) ： N. ξ xk = ∑ P(θ k , a xi , bxi , c xi ). (2-9). i =1 N. ξ yk = ∑ P (θ k , a yi , b yi , c yi ). (2-10). i =1. 其中 P (θ ) 為試題反應理論三參數對數模式如公式 2-4，而 ξ xk 表示受試者 K 在 X 測驗的真分數； ξ yk 表示受試者 K 在 Y 測驗的真分數； θ k 代表兩位參加 X 測驗與 Y 測驗的相同能力的考生，N 為總受測人數。為了求出 X 測驗與 Y 測驗真分數差值的極小值，其函數可表示如下列公式 2-11，. Haebara (1980)，以及公式 2-12， Stocking & Lord (1983)： F=. 1 N. n. ∑ (ξ k =1. xk. − ξ yk ) 2. n 1  n  F = ∑ ξ xk − ∑ ξ yk  N  k =1 k =1 . (2-11). 2. (2-12). 以牛頓逼近法解出下式偏導數時，即可求得真分數差值的極小值。 dF dF = =0 dα dβ. 16. (2-13).

(26) 求出 α 、 β 後，X 測驗與 Y 測驗的試題參數的即可藉由以下線性轉換公式進行連結後，來完成等化工作。 b yk = αbxk + β. (2-14). a yk = a xk / α. (2-15). c yk = c xk. (2-16). 而 Stocking & Lord (1983) 等相關研究也指出，不論是 Stocking & Lord (1983) 或 Haebara (1980) 所提倡的特徵曲線法等化效果皆比平均數法以及平均數與標準差法更佳。本研究亦有對於平均數法、平均數與標準差法以及特徵曲線法中的 Stocking & Lord 及 Haebara 等四種 IRT 等化方法之等化效果，進行相關探究比較，其結果將於第四章研究結果撰寫時論述。. 伍、真分數與觀察分數等化法本節主要陳述 IRT 真分數與觀察分數估算流程與等化原理。一、IRT 觀察分數 IRT 真分數在不同量尺測驗 X 與測驗 Y 等化過程中，先運用測驗 X 的真分數估算出特定能力值，再藉由此特定能力值連結至測驗 Y 並估算出測驗 Y 的真分數，藉此流程進行等化程序（Kolen & Brennan，2004）。公式 2-20 與 2-21 為三參數對數模式下，具備特定能力值受試者，在測驗 X 與測驗 Y 真分數得分估算公式： (2-17). (2-18) 而 IRT 真分數估算特定能力值的方式，採用牛頓逼近法，先給定一個預設能力. 17.

(27) 起始值，再藉由估算公式 2-22、2-23、2-24 求出下一個能力值，依此方法反覆估算，逐次逼近至理想收斂能力值。 (2-19). (2-20). (2-21) 表 2-3 真分數測驗等化範例數據測驗 X 項目參數鑑別度難度猜測度. 試題 1 .60 -1.70 .20. 試題 2 1.20 -1.00 .20. 真分數第一次估算第二次估算第三次估算第四次估算. ,. ,. ,. ,. 試題 1 .5393 .1993 .7727 .1660 .7132 .1877 .7130 .1877. 試題 3 1.00 .80 .25. 試題 4 1.40 1.30 .25. 試題 5 1.00 1.40 .20. 2 ，逼近估算能力值流程，採用起始值試題 2 .2921 .1662 .6828 .3905 .5475 .4010 .5469 .4008. 試題 3 .2564 .0107 .2968 .0746 .2772 .0446 .2771 .0445. 試題 4 .2503 .0007 .2551 .0121 .2523 .0055 .2523 .0055. 試題 5 .2025 .0042 .2187 .0311 .2107 .0180 .2107 .0179. 總計 1.5405 .3811 2.2261 .6743 2.0009 .6566 2.0000 .6564. 2 -7.941 -1.1295 -1.1308 -1.1308. 第四次逼近估算結果達到收斂，測驗 X 真分數為 2 時，能力值估算為-1.1308 測驗 Y 項目參數鑑別度難度猜測度. 試題 1 .70 -1.50 .20. 試題 2 .80 -1.20 .25. 試題 3 1.30 .00 .20. 試題 4 .90 1.40 .25. 估算測驗 Y 能力值試題 1 .6865. 試題 2 .6426. 試題 3 .2607. 試題 5 1.10 1.50 .20. 1.1308時，真分數當量值. 試題 4 .2653. 試題 5 .2058. 2.0609. 總歸上述，當測驗 X 真分數為 2 時，測驗 Y 真分數為 2.0609. ※本範例表數據引自（Kolen & Brennan，2004）. 18.

(28) 上表 2-3 為真分數等化估算流程實際範例，測驗 X 與測驗 Y 兩卷各有五題，若測驗 X 真分數等於 2 時，運用牛頓逼近法，先採用起始值. 2，再經由四次的估. 算出能力值為-1.1308，接著反推估算 Y 測驗當能力值為-1.1308 時，真分數等於 2.0609。並藉由同一特定能力值兩測驗估算真分數的微小差異，進行等化效果的比較，如下圖 2-1。. 圖 2-1 真分數等化圖二、IRT 觀察分數 IRT 觀察分數運用試題反應理論搭配二項式分配條件機率，如表 2-4 關係式，估算出在 X 測驗下各特定分布能力分數下的原始分數之條件機率分配，並依此條件機率分配累積彙整後，求得其原始分數分配 f (x) 。同理，利用上述方法求出 Y 測驗的原始分數分配 f (y)，然後再利用等百分位數法連結兩測驗，並依此求得各測驗間等化效果（Lord, 1984）。表 2-5 觀察分數條件機率關係分布表，代表試卷共 3 題的狀況下，觀察分數得分 0~3 分的條件機率分布情形（曾建銘，印製中）：. 19.

(29) 表 2-4 觀察分數條件機率關係式觀察分數得分情形. 條件機率關係式 f r|θ. 0. Q Q Q. 1. Q Q P +Q P Q +PQ Q. 2. Q P P +PQ P +P P Q. 3. PPP. ※ 代表特定各試題答對機率；代表特定各試題答錯機率本例以二參數對數模式，搭配各參數範圍如下，在試題參數部分，鑑別度參數 ! ∈ {0.5,1,1.5}；難度參數& ∈ {−1,0,1}，能力參數部分， ∈ {−2, −1,0,1,2}，本試卷共 3 題. 的狀況下，觀察分數得分 0~3 分在特定能力下條件機率得分分布情形：. 表 2-5 觀察分數條件機率分布表條件機率函數 f r|θ 觀察分數得分情形. θ = −2. θ = −1. θ=0. θ=1. θ=2. 0. .68. .42. .14. .01. 0. 1. .31. .5. .48. .14. .01. 2. .01. .08. .36. .49. .16. 3. 0. 0. .02. .36. .83. 延續表 2-5 條件機率分布情形，假定有 1000 位受試者，能力值θ = −2, −1, 0, 1, 2 時，受試者人數分別是 100 人、200 人、400 人、200 人、100 人，因此，可以估算出特定能力受試者，在各觀察分數的得分邊際人數彙整，如表 2-6：. 20.

(30) 表 2-6 觀察分數邊際人數分布表條件機率函數f r|θ 觀察分數得分情形. θ. 2. θ. 1. θ. 0. θ. 1. θ. 2. 邊際人數分布 f r. 0. 68. 84. 56. 2. 0. 210. 1. 31. 100. 192. 28. 1. 352. 2. 1. 16. 144. 98. 16. 275. 3. 0. 0. 8. 72. 83. 163. 受試人數. 100 200 400 200 100 1000 綜合上述過程所產生的觀察分數分布情形，根據條件機率關係式可得到結果如. 下(Hambleton & Swaminathan, 1985)： 1.在各特定能力下，配合各試題參數，運用條件機率關係式，可求得 X 測驗各受試者條件機率分布情形。 2.依據條件機率關係式，可求得 X 測驗受試者邊際人數分布情形。 3.重覆步驟 1 與步驟 2，亦可求得 Y 測驗的受試者分布情形。並可依據兩測驗分布的差異情形，進行等化效果比較，如下圖 2-2。. 圖 2-2 觀察分數等化圖. 21.

(31) 第三節大型測驗概述本節依序簡述幾個知名國內外大型測驗：TASA、TIMSS、PERLS、NAEP、PISA。. 壹、TASA 隨著與世界各先進國家互相接軌互動，因應長期的教育政策與目標，臺灣勢必也得建置一套完整且客觀的全國性學生學習成就資料庫。因此，教育部於二○○四年十月核定國家教育研究院籌備處進行臺灣學生學習成就評量資料庫之建置計畫。建立臺灣學生學習成就評量資料庫的目的在於（臺灣學生學習成就評量資料庫網站，2013）：一、建立國民中小學、高中及高職學生學習成就長期資料庫，以追蹤、分析學生在學習上變遷之趨勢，進而檢視目前課程與教學實施成效。二、提供完整、標準化的學習成就資料，作為分析學生學習成就上差異表現變項資料，以評估學生未來在學術方面能力之發展與社會期許。三、了解國內學校教學及學生學習成效之現況，作為課程與教學政策改進之參考，並為縣市政府教育局及學校推動補救教學之重要參據。四、提供各縣市學生學習表現資料，建立與縣市合作機制，以擴大資料庫應用效益。五、以資料庫的量化資料，提供國內外相關研究人員，深入探討學生學習成就方面的相關政策議題。六、建立本國學生學習成就評量資料庫，同時考慮與國際接軌，利於加入國際比較行列，藉以了解臺灣教育之獨特面與優缺點。 TASA 資料庫主要目的在針對國小、國中、高中（職）等三個教育階段為主，作為趨勢研究主要架構。資料庫主要建置學科，包含國語文、英語文、數學、自然與社會五個科目（不含小四英語文與社會），國小階段以四年級、六年級、國中階段以二年級、高中（職）階段則為二年級，以這幾個年段為施測對象。為建立具有全國代表性之樣本，TASA 採取二階段隨機抽樣設計。先根據縣市、. 22.

(32) 人口密度及班級數進行分層叢集隨機抽樣，其次再根據所抽取到之樣本學校，以學生個人為單位，進行簡單隨機抽樣。 TASA 採用試題反應理論之三參數對數模式，主要以 BILOG-MG 為試題與能力參數估計軟體，而受測學生量尺分數平均數為 250、標準差為 50 之量尺分數，題本設計採用平衡不完全區塊設計。而 TASA 等化估計的量尺化程序，是將定錨試題的參數固定之後，以固定試題參數法，將不同年度間測驗以同時估計法進行參數估算後，以取得新的量尺轉換分數（詹慧君，2011）。臺灣學生學習成就評量資料庫建置的目的乃以各科目課程綱要與能力指標為主要評量內容，藉以了解各階段學生學習的成效與趨勢，進而檢視教育體制實施之成效，施測所得評量結果不用作學生學習成果、教師教學成效、學校與縣市間績效之評比。. 貳、TIMSS 國際數學與科學教育成就趨勢調查（Trends for International Mathematics and Science Study， TIMSS），TIMSS 是一項相當知名的國際研究評比，是由「國際成就調查委員會」（ The International Association for the Evaluation of Education Achievement, IEA）主辦。臺灣目前已是 IEA 正式會員，至 TMISS2011 為止，也是第四次參與此成就趨勢調查，全球大概近 80 個國家參與此研究評比。臺灣在 TMISS2011 國中八年級學生數學和科學分別排名第 3 名和第 2 名，國小四年級學生分別排名第 4 名和第 6 名， TIMSS 測驗題型包含選擇題、填充題及建構反應題型，其測量模式在選擇題部分採用三參數對數模式，填充題部分則採用二參數對數模式，最後開放式之建構反應題則使用 GPCM （ Generalized partial credit model ），而相關運用的分析軟體為 BILOG-MG 與 PARSCALE（郭伯臣、曾建銘、吳慧珉，2012），TIMSS 的測驗等化. 23.

(33) 估計方式為透過定錨試題將不同年度的測驗進行同時估算，再藉由線性轉換公式將兩測驗轉至同一量尺上（詹慧君，2011）。 TIMSS 的測驗週期為四年一次，受測學生為國小四年級與國中八年級，目前由國立臺灣師範大學科學教育中心負責承辦，其目的在於評估學生在數學與科學成就趨勢發展，以及理解參與國家的數理教育及課程改革的成效，作為改善各國球數學及科學教學及學習之教育改革參考（IAEP, 1991）。. 叁、PIRLS 促進國際閱讀素養研究（Progress in International Reading Literacy Study， PIRLS）是一項以國際觀來觀察國小四年級學童的閱讀素養能力的國際評比，主辦此研究計畫的單位與 TIMSS 相同，皆為國際成就調查委員會（IEA），PIRLS 的等化估計流程與量尺轉換方法大致上也與 TIMSS 相同。 PIRLS 的測驗週期為五年一次，IEA 從 2001 年起開始對於小四學童閱讀及寫作能力進行評鑑，其面向包含家庭環境、家長閱讀素養影響、學校閱讀學習的規畫以及班級閱讀教學的取向等等，題型包含選擇題及建構反應題。臺灣也於 2006 年開始申請參與評鑑計畫，第一次 PIRLS2006 在 44 個參與國家中，排名第 22 名，平均分數 535 分，第二次 PIRLS2011 則在 54 個國家中排名第 9 名，平均分數 553 分，算是有相當程度進展，然而，本國學童閱讀素養有大幅提升，應與近年來大幅投入閱讀相關資源有明顯關係，也使得學童的圖書借閱量及閱讀素養有能大幅提升。. 肆、NAEP 美國國家教育進展評量（National Assessment of Educational Progress，NAEP），是國會立法通過之全國性大型教育評量，施測的科目相當廣泛，包含藝術、公民、經濟、地理、數學、美國歷史、寫作、閱讀、科學等等，旨在了解美國學童各學習領域學習狀況，並探究影響各課程領域學習表現之因素，運用施測結果以改進檢討. 24.

(34) 美國教育及課程，也提供教師教學修正之參考依據。 NAEP 測驗的主辦單位為美國教育部的教育統計中心（U.S. Department of Education National Center for Education Statistics），美國教育研究社（Educational Testing Service, ETS）協助進行相關研究，每一學科因應不同性質，有不同的施測年限間隔及不同的題型架構，包含選擇題、建構反應試題，試卷題本設計則採用 BIB 模式。 NAEP 針對的施測對象有 4 年級、8 年級及 12 年級學童，在測量模式及參數估計軟體採用上皆與 TIMSS 相同，使用 IRT 測量模式之二參數對數模式、三參數對數模式與 GPCM （ Generalized partial credit model ），使用的參數估計軟體為 BILOG-MG 與 PARSCALE，NAEP 的等化估計量尺轉換方法大致上與 TIMSS 相同。. 伍、PISA 國際學生能力評量計劃（the Programme for International Student Assessment， PISA），乃是由經濟合作暨發展組織（Organization for Economic Co-operation and Development，OECD）籌畫的一項國際性評比計畫，從西元 2000 年開始進行第一次的調查，每三年為一週期，涵蓋閱讀、數學、科學這三大面向，來進行學生素養程度的考評，每次都會依序選定一主要學科領域做詳細施測，大約佔全部施測時間的三分之二，另外兩個面向作為輔助。例如：2000 年閱讀為主科，科學和數學為輔； 2003 年數學為主科，閱讀和科學為輔，依次每三年做輪動類推。 PISA 試題的題型也是有採用 BIB 設計，結構除了封閉型的選擇題之外，還有開放式的建構反應試題。PISA 的評量結果測量模式採用 MRCML （Multidimensional Random Coefficients Multinomial Logit model），並使用 ConQuest 作為測驗分析軟體（曾建銘，2009），而其等化估算方法先藉由定錨試題將不同年度間試題參數固定後，進行共同估算，並以平均數標準差法搭配線性轉換公式將不同年度間測驗轉換至同一量尺上（詹慧君，2011）。. 25.

(35) PISA 主要評量目的在針對 15 歲學生，於完成學校基礎教育後，是否具備足夠能力與素養，來因應付未來社會所遭遇的各種問題與挑戰，以及妥善運用習得的知識技能，解決生活中的種種考驗。臺灣也於 2006 年開始參與此項國際評比，由教育部與國科會進行統籌規劃。臺灣在已公布的兩次評比中，PISA 2006 閱讀第 16 名，平均分數 495 分、數學第 1 名，平均分數 549 分、科學第 4 名，平均分數 532 分； PISA 2009 閱讀第 23 名，平均分數 495 分、數學第 5 名，平均分數 543 分、科學第 12 名，平均分數 520 分，顯示臺灣學生在閱讀素養上，對於如何去探索解決新問題的能力，仍有許多加強的空間，而除了排名以外，更給了我們教育相關單位，一個改進課程與教學規劃的參考依據。. 第四節平衡不完全區塊設計 Yates（1936）所提出的平衡不完全區塊（balanced incomplete block, BIB）設計，一直到了1992 年才由Rust & Johnson 實際應用於測驗領域中的題庫設計。BIB題本設計原理乃將試題均分成若干試題區塊（treatment block），每個區塊中都有一部分試題，而且區塊間與區塊內的試題皆不重複。受試者只需接受若干試題區塊的試題，且不同受試者可能接受部分相同、完全相同、或完全不同的試題區塊。除了需要符合每個試題區塊出現的次數在所有題本中都相同、題本內的試題區塊數量也一樣，以及試題區塊組合成最小題本數 (van der Linden, Veldkamp & Carlson, 2004) 。此外，題本內容設計時，必須考量到此試題內容對於受試者而言，須是具有意義且能有效的測量出受試者能力。以下茲就本研究題本所採用的 BIB 設計介紹，如表 2-3（曾玉琳、王暄博、郭伯臣、許天維，2006），此設計包含 7 個區塊、7 個題本，每個題本下皆包含 3 個區塊，且每個區塊出現在所有題本的次數皆為 3 次，而各題本中的任兩區塊，不會再重複出現在其它題本之中，在表 2-3 後並對 BIB 各項函數條件式概略介紹：. 26.

(36) 表 2-7 BIB 題本設計題本序號. 區塊 K1. 區塊 K2. 區塊 K3. S1. M1. M2. M4. S2. M2. M3. M5. S3. M3. M4. M6. S4. M4. M5. M7. S5. M5. M6. M1. S6. M6. M7. M2. S7. M7. M1. M3. BIB 題本設計必須符合以下各項條件（Bilous & van Rees, 2005）： r × v=b × k. (2-22). λ (v −1) = r (k −1). (2-23). b≥v. (2-24). 又如果 b = v 且 v 為偶數時，則 k −λ 為完全平方數；如果 b = v 且 v 為奇數時，則'. (k – λ, - +. X、Y、Z 為整數解且不會全部為 0。其中各代數代表意義如下， r ：區塊出現在所有題本的次數； v ：所有區塊數； b ：所有題本數； k ：每個題本包含之區塊數； λ ：成對區塊出現次數。. 27. 1. ./0 1. λ 2 ，.

(37) 目前國內外許多大型測驗中，以 TASA 為例，因應須符合教育部課程綱要之各項能力指標，導致施測的課程內容範圍相關廣泛，相對需要受試者測驗的題目數量也相當多，而施測時受限於學生每個科目受測時間大多為一節課(40~50 分鐘)以內的因素，無法一次測驗完畢所有試題，且 BIB 設計的區塊、題本及受試人數的螺旋式排列方式平衡設計，讓每個試題區塊的施測次數都一樣，亦即每個試題受測學生數相同，可降低等化過程中的額外誤差，此特性也相當符合此類大型測驗的需求。此外，不完全平衡的架構，也使得 BIB 設計只進行整體受試者能力表現，而不獨立進行個別樣本比較，因此，BIB 題本設計更能符合許多大型測驗的需求，例如：我國的 TASA 從 2009 年起皆採用 BIB 題本設計以及美國的 NAEP 公民評量部分也是使用 BIB 題本設計，以了解課程實施成效。而此種螺旋式區塊的題本設計，亦相當符合 TIMSS 以及 PISA 的組卷需求，此類大型測驗皆是由多個科目區塊組成題本的，因此，像是 TIMSS2011 的四年級與八年級題本，皆是由數學與科學各七個區塊所組成的 BIB 題本類型；PISA2006 年使用的題本，則是由數學、科學、閱讀組成的 BIB 設計，總共 13 個題本，其中每題本皆包含 4 個區塊。因此，BIB 設計可說是目前國內外大型測驗中，相當重要的一項題本設計類型。. 28.

(38) 第三章研究方法本章根據研究目的來進行模擬資料設計，各試卷之間以分開估計法，比較在各種情境下，等化效果之差異，整體研究架構分為四節，依序分別是第一節研究流程與步驟、第二節模擬資料設定、第三節研究工具與第四節評估指標。. 第一節研究流程與步驟研究主題模擬資料設定. 不同人數組型等化效果比較. 不同等化法之轉換常數比較. 不同難度組型等化效果比較. 最佳難度組型之四種等化方法效果比較. 直接等化與間接等化效果比較. 綜合評析與撰寫研究報告. 圖 3-1 研究流程圖. 29.

(39) 此節敘述本研究各項流程，如上圖 3-1 所示，並將各流程步驟詳述如下：一、本研究選定 3570 人、7490 人、9996 人等三組施測人數，接著訂定出三種人數組別之兩卷試題參數與能力參數真值，並經由 MATLAB 軟體，以二參數對數模式及 BIB 題本設計，模擬出 50 次受試者作答反應，再運用 PARSCALE 軟體再次校準估計出各組的試題參數與能力參數，逕行求出試題參數與能力參數之估計準確率 RMSE，並計算其標準差。. 二、選擇最佳等化效果人數組型，並藉由欲等化試卷之定錨試題，利用 ST（Scale Transformation）程式進行連結，並藉此進行 Stocking/Lord、Haebara、mean /mean、 mean/sigma 等四種 IRT 等化方法，其斜率與截距轉換常數之比較。三、由於 BIB 題本設計各題本是由試題區塊（treatment block）平衡組合而成，組題時相當不容易且需考量許多的因素，而題本中各試題難度分布方式對於真分數與觀察分數等化效果影響相當大，因此除了定錨題，我們試圖從以下四種試題難度分布組題方式：(1)兩卷試題各試題區塊難度平均值皆為 0，後續簡稱此難度分布組題方式為 mean (2)兩卷試題難度皆為隨機分配，後續簡稱此難度分布組題方式為 random (3)一卷試題各試題區塊難度平均值皆為 0，另一卷各式題以基準卷為中心微調 0.25 正負差以內，後續簡稱此難度分布組題方式為 mean_wt (4)一卷試題各難度隨機分配，另一卷各式題以基準卷為中心微調 0.25 正負差以內，後續簡稱此難度分布組題方式為 random_wt，並藉由步驟二程序求出之轉換常數，經由線性轉換公式，將兩試卷連結於同一量尺上，進而找出最佳難度分布組型的等化效果。四、擇優選擇最佳人數與最佳難度分布組題方式，求其四種 IRT 等化方法 Stocking/Lord、Haebara、mean/ mean、mean/sigma 之等化結果，並運用其均方差藉以進行穩定度比較。. 30.

(40) 五、最佳人數與難度分布組題方式進行下，進行不同年度間五卷式直接等化 U 卷→ Z 卷與五卷式間接等化 U 卷→V 卷→X 卷→Y 卷→Z 卷，等化效果之比較。. 第二節模擬資料設定本研究根據研究流程圖3-1所示，以及各研究步驟，進行各項模擬資料設定。一、不同人數組型等化效果模擬資料設定：本步驟探討人數多寡對參數估計準確率所造成影響，並設定各項目模擬資料： (一)受測人數方面，選定了3570人、7490人、9996人，能力值部分皆為截尾常態分配，平均數為0，橫軸兩邊極端值為3與-3，能力值分布統計圖，如圖3-2、圖3-3與圖 3-4。. 圖 3-2 截尾常態分布圖 3570 人. 31.

(41) 圖 3-3 截尾常態分布圖 7490 人. 圖 3-4 截尾常態分布圖 9996 人. 32.

(42) 施測人數設計的部份，由於 BIB 題本設計目的要因應大型測驗的廣泛需求，想了解整體學生的能力素養與總體趨勢，因此，希望每一個試題所受測的學生數大約是相等地。例如：7 個題本、每題本 3 個區塊、每區塊 12 題、總共 7 個區塊的 BIB 設計，如表 3-2，為符合 NAEP 1998 年的技術性報告中特別指出，每單一試題在進行施測時，最好能夠達到 500 個以上測試樣本（Allen, Donoghue & Schoeps, 2001）的最低要求。故本研究選定每題本至少 510 人施測，配合整份試卷共 7 個題本，因此設定最低總人數為 3570 人，再配合王暄博（2006）等相關大型測驗等化文獻使用的 7500 人及 10000 人，因此選定施測人數總共分成三類：包括各組施測總人數 3570 人、7490 人及 9996 人；各題本受測人數 510 人、1070 人及 1428 人；各區塊受測人數 1530 人、3210 人及 4284 人，S1-S7 各題本受測人數及 M1-M7 各區塊受測人數以及各組施測總人數，彙整如表 3-1 。. 表 3-1 各區塊及題本施測人數表各組施測總人數. 各題本受測人數 S1-S7. 各區塊受測人數 M1~M7. 3570. 510. 1530. 7490. 1070. 3210. 9996. 1428. 4284. (二) 試題參數方面，鑑於猜測度之估算較無法精確掌握，故本研究選擇採用二參數對數模式，其中鑑別度部分，採均勻分布，範圍 1 ~ 1.5；難度部分，與能力值分布相同，皆為截尾常態分配，平均數為 0，橫軸兩邊極端值為 3 與-3。（能力參數及難度參數設定值資料來源：王暄博（2006））. 33.

(43) (三)題本設計方面，採用 BIB 設計模式如表 3-2，總共 7 個區塊(M1,M2,…M7)，平衡分布於 7 個題本(S1,S2,…S7)，每個題本內皆包含 3 個區塊。其中每區塊皆有 12 題試題，包含前 4 題為定錨題，因應定錨題至少要整份試卷的 20% 至 25%，等化效果較佳（余民寧，2009），故本研究選擇定錨題比例 1/3 每題本共 36 題，全部總試題共 84 題。. 表 3-2 BIB 題本設計題本序號. 區塊 K1. 區塊 K2. 區塊 K3. S1. M1. M2. M4. S2. M2. M3. M5. S3. M3. M4. M6. S4. M4. M5. M7. S5. M5. M6. M1. S6. M6. M7. M2. S7. M7. M1. M3. (四)參數估計軟體方面，採用 PARSCALE 校準軟體，搭配 MATLAB 模擬的受試者作答反應，估算出 50 次試題參數與能力參數估計值，並統計出各參數的 RMSE。. (五)綜合整理各模擬資料如表3-3，本研究各實驗皆以此表之設計資料為單卷基礎架構向外延伸。. 34.

(44) 表3-3 模擬資料設定表 IRT參數模式. 2PL. 試卷題本設計. BIB. 每題本試題長度與定錨題. 題數36題含定錨題12題(占1/3). 每份題本配置區塊數. 3. 每卷施測總人數. 3570人、7490人及9996人. 受試者群能力分布. 截尾常態分布N (0,1) , 範圍− 3 ~ 3. 鑑別度(a). 均勻分布U,範圍 1 ~ 1.5. 難度(b). 截尾常態分布N (0,1) , 範圍− 3 ~ 3. 每一情形模擬資料次數. 50次. (六)上述資料設定(一)至(五)，只單純因應研究步驟一，單一份試卷以不同人數組型比較其等化效果差異之模擬資料設定，本段說明研究步驟二開始，為因應測驗同性質之兩份試卷（亦可為不同年度之兩測驗），這不同年度之兩測驗皆採用BIB 題本設計，每份測驗卷包含有7個題本，1個題本都包含3個試題區塊，1個試題區塊裡面有12題題目，其中前4題為定錨題，後面8題由整份測驗總題庫扣除定錨題後因應難度組型選取，欲進行等化的兩測驗卷（亦可為兩年度之測驗）都切割組成7個題本後，經由連結與等化的程序，進行兩測驗卷題本一到題本七等化效果比較。同上述方法，在研究步驟五中，5個不同年度的5份測驗卷，亦可依據BIB設計將每份測驗卷切割成7個題本，再經由連結與等化的程序，進行5 份測驗卷的題本一到題本七直接與間接等化效果比較。. 35.

(45) 二、不同難度組型下，各等化方法之轉換常數比較模擬資料設定：延續最佳人數之各資料設定，利用 ST_V 2.0（Scale Transformation）軟體，搭配各卷定錨試題，進行連結程序，以求得各等化方法之斜率與截距轉換常數，總共進行四類試題難度分布組題方式：(1)兩卷試題各試題區塊難度平均值皆為 0； (2) 兩卷試題難度皆為隨機分配； (3)一卷各試題區塊難度平均值皆為 0，另一卷各試題以基準卷為中心微調 0.25 正負差以內； (4)一卷試題各難度隨機分配，另一卷各試題以基準卷為中心微調 0.25 正負差以內，並藉由這四次的連結動作，比較 Stocking/Lord、Haebara、mean/mean、mean/sigma，此四種 IRT 等化方法的轉換常數優劣性。三、不同難度組型下，等化效果比較模擬資料設定：利用步驟二轉換常數，將四種不同難度組型的U、V兩卷試題參數，運用線性轉換公式3-1及公式3-2 (Li, etl, 2012)，轉換至同一量尺上，再利用PIE_V等化軟體，以求得各難度組型題本S1到S7之真分數與觀察分數等化結果偏差值。. U → V： !34 &34. !3 /6 6 &3 + 7. 其中，!3 代表 U 卷的鑑別度， !34 代表 V 卷的鑑別度； &3 代表 U 卷的難度值， &34 代表 V 卷的難度值； 6 代表斜率轉換常數， 7 代表截距轉換常數；. 36. (3-1) (3-2).