BIB、PBIB與NEAT設計於多元計分測驗之連結效果比較

全文

(1)國立台中教育大學教育測驗統計研究所理學碩士論文. 指導教授：郭伯臣. 博士. BIB、PBIB 與 NEAT 設計於多元計分測驗之連結效果比較. 中. 華. 民. 研究生：黃珮璇. 撰. 國. 六. 九. 十. 年. 六. 月.

(2)

(3) 致謝首先誠摯的感謝指導教授郭伯臣博士悉心的教導，使我得以一窺測驗統計領域的深奧，不時的討論並指點我正確的方向，讓我在這二年中獲益匪淺，老師對學問的嚴謹是我們學習的典範。除了學問之外，同時也學到了為人處事的態度，感謝老師對於學生的支持及鼓勵，學生銘感於心。本論文的完成亦得感謝口試委員台灣師範大學林世華教授、彰化師範大學李信宏教授、中等教師研習會曾建銘教授以及本校的教育學院院長許天維教授，在事務繁忙當中仍抽空指導學生，老師的建議使得學生獲益良多，在此僅向每一位老師致上最誠摯的謝意及敬意。接下來要感謝的是慶麟助教與雁芳學姐、暄博學長大力幫忙，對於我在論文上的疑惑，時常提供專業上的觀點，且總能在我迷惘時為我解惑，因為有你們的幫忙，使得本論文能夠更完整而嚴謹。除此之外，在我撰寫程式時，常常有許多問題去『請教』典佑學長，在此很誠心的感謝您，沒有你，這篇論文絕對不會如此順利的完成。也感謝欣怡學姊、雅媛、鈺卿、建儒、育隆、惠謙、智為、佑軒同學的幫忙，恭喜我們順利走過這兩年。兩年裡的日子，實驗室裡共同的生活點滴，學術上的討論、言不及義的閒扯、趕作業的革命情感、因為睡太晚而遮遮掩掩閃進實驗室，你/妳們的陪伴讓兩年的研究生活變得絢麗多彩。除了研究室夥伴，要感謝的是男朋友映勳，在過去的二千八百多個日子，我只要壓力一大，說話語氣就會可惡到讓人想惡狠狠揍我一頓，還好你的包容力超強，從來都沒有出手過。謝謝你對我的體諒及呵護，有你在背後的默默支持是我前進的動力，相信這七年多的生活如果沒有你的陪伴，一定是很不一樣的光景，在此一併致謝。最後，謹以此文獻給我摯愛的雙親，因為有你們的照顧、關心與支持，使我一直都能快樂、無懼的大步向前走。黃珮璇筆 I.

(4) 中文摘要本研究是應用試題反應理論(item response theory, IRT)中的等級反應模式 (graded response model, GRM) ，以模擬實驗方式探討平衡不完全區塊設計 (balanced incomplete block design, BIB)、定錨題不等組設計(non-equivalent groups with anchor test design, NEAT)與部分平衡不完全區塊設計(partially balanced incomplete block design, PBIB)於多元計分測驗下，以共同估計法進行水平等化之連結成效。研究中藉由估計的能力值誤差與試題參數值誤差比較三設計之連結效果，並提出相關建議，以作為日後研究者進行多元計分測驗之連結設計的參考，是故本研究之目的為探究 BIB、NEAT 與 PBIB 設計於不同施測人數、不同試題區塊數、不同之題本配置方式下之多元計分測驗之連結效果。. 本研究的結果發現：一、增加施測人數能降低試題鑑別度與選項閾值參數的估計誤差，但是對於受試者能力參數估計並無太大影響。二、各參數估計誤差隨著題庫中之總試題數增加而增大。三、在受試者能力參數估計方面，以 NEAT 設計最佳，且 PBIB 和 BIB 設計對於受試者能力參數之估計誤差差距甚小。四、在試題參數估計方面，以 BIB 設計為佳。. 關鍵字：測驗等化、平衡不完全區塊設計、部分平衡不完全區塊設計、定錨題不等組設計. II.

(5) Abstract The purpose of this study is to investigate the linking performances of the balanced incomplete block design (BIB), partially balanced incomplete block design (PBIB), and non-equivalent groups with anchor test design (NEAT) designs for the assessments composed by polytomous items. The simulation data are generated for the comparison experiments. Three independent factors are considered in this study: (1) the numbers of examinees; (2) administrated items; (3) test lengths. The results show that: (1) The root mean square differences (RMSE) of the item parameters decreases as the number of examinees increases; (2) The RMSE of the parameters increases as the number of blocks in the booklet increases; (3) NEAT outperforms BIB and PBIB in estimating abilities of examinees; (4) BIB outperforms NEAT and PBIB in estimating item parameters.. Keywords ： test equating, balanced incomplete block design, partially balanced incomplete block design, non-equivalent groups with anchor test design.. III.

(6) 目錄第一章緒論 .................................................................................................................1 第一節研究動機與目的 ..........................................................................................1 第二節名詞釋義 ......................................................................................................4 第二章文獻探討 .........................................................................................................6 第一節第二節第三節第四節. 寫作評量之設計 ..........................................................................................6 試題反應理論 ............................................................................................10 測驗等化之意義與種類 ............................................................................13 等化連結設計 ............................................................................................15. 第三章研究方法 .......................................................................................................20 第一節第二節第三節第四節第五節第六節. 研究步驟 ....................................................................................................20 連結設計之變項設定 ................................................................................22 BIB 設計.....................................................................................................27 NEAT 設計 .................................................................................................30 PBIB 設計 ..................................................................................................32 研究軟體 ....................................................................................................35. 第四章研究結果 .......................................................................................................36 第一節第二節第三節第四節. BIB 設計之估計結果 ................................................................................36 PBIB 設計之估計結果 ..............................................................................43 NEAT 設計之估計結果 .............................................................................47 BIB、PBIB 與 NEAT 設計之綜合估計結果 ...........................................51. 第五章結論與建議 ...................................................................................................55 第一節結論 ............................................................................................................55 第二節後續研究建議 ............................................................................................57 參考文獻 .......................................................................................................................58. IV.

(7) 表目錄表 2-1. 寫作目標百分比分佈……………………………………………………………. 7. 表 2-2. 25 分鐘評量寫作試題百分比分佈………………………………………………. 7. 表 2-3. 50 分鐘評量寫作試題百分比分佈………………………………………………. 7. 表 2-4. 四年級寫作評量之題本…………………………………………………………. 8. 表 2-5. 單一向度理論模式分類表………………………………………………………. 11. 表 2-6. 隨機組設計………………………………………………………………………. 15. 表 2-7. 單一組設計………………………………………………………………………. 16. 表 2-8. 平衡對抗單一組設計……………………………………………………………. 16. 表 2-9 NEAT 設計………………………………………………………………………. 17. 表 2-10. BIB 設計………………………………………………………………………. 19. 表 2-11. PBIB 設計………………………………………………………………………. 19. 表 3-1. BIB 和 NEAT 及 PBIB 設計之變項設定對照表………………………………. 22. 表 3-2. 模擬產生之試題參數值…………………………………………………………. 24. 表 3-3. 本研究之 BIB 設計相關參數……………………………………………………. 27. 表 3-4 BIB1 設計表……………………………………………………………………. 28. 表 3-5 BIB2 設計表……………………………………………………………………. 28. 表 3-6 BIB3 設計表……………………………………………………………………. 29. 表 3-7 BIB5 設計表……………………………………………………………………. 29. 本研究之 NEAT 設計相關參數………………………………………………. 30. 表 3-9 NEAT1 設計表…………………………………………………………………. 31. 表 3-10 NEAT2 設計表…………………………………………………………………. 31. 表 3-11. NEAT3 設計表…………………………………………………………………. 31. 表 3-12. 本研究之 PBIB 設計相關參數………………………………………………. 32. 表 3-13 PBIB1 設計表…………………………………………………………………. 32. 表 3-14 PBIB2 設計表…………………………………………………………………. 33. 表 3-8. V.

(8) 表 3-15 PBIB3 設計表…………………………………………………………………. 34. 表 4-1. BIB 設計之誤差結果表…………………………………………………………. 36. 表 4-2. PBIB 設計之誤差結果表………………………………………………………. 43. 表 4-3 NEAT 設計之誤差結果表………………………………………………………. VI. 47.

(9) 圖目錄圖 2-1 GRM 六個類別下之試題類別反應曲線舉例…………………………………. 12. 圖 3-1. 研究流程圖………………………………………………………………………. 20. 圖 3-2. 受試者 2800 人～N(0,1)的能力分佈圖…………………………………………. 25. 圖 3-3. 受試者 5600 人～N(0,1)的能力分佈圖…………………………………………. 25. 圖 3-4. 受試者 7500 人～N(0,1)的能力分佈圖…………………………………………. 26. 圖 3-5. 受試者 19880 人～N(0,1)的能力分佈圖………………………………………. 26. 圖 4-1 BIB1、BIB2、BIB5 之能力誤差圖……………………………………………. 38. 圖 4-2 BIB1、BIB2、BIB5 之鑑別度誤差圖……………………………………………. 38. 圖 4-3 BIB1、BIB2、BIB5 之 b1 誤差圖…………………………………………………. 38. 圖 4-4 BIB1、BIB2、BIB5 之 b2 誤差圖…………………………………………………. 38. 圖 4-5 BIB1、BIB2、BIB5 之 b3 誤差圖…………………………………………………. 38. 圖 4-6 BIB1、BIB2、BIB5 之 b4 誤差圖…………………………………………………. 38. 圖 4-7 BIB1、BIB2、BIB5 之 b5 誤差圖…………………………………………………. 39. 圖 4-8 BIB3、BIB4 之能力誤差圖………………………………………………………. 39. 圖 4-9 BIB3、BIB4 之鑑別度誤差圖……………………………………………………. 39. 圖 4-10 BIB3、BIB4 之 b1 誤差圖……………………………………………………. 39. 圖 4-11. BIB3、BIB4 之 b2 誤差圖……………………………………………………. 39. 圖 4-12 BIB3、BIB4 之 b3 誤差圖……………………………………………………. 39. 圖 4-13 BIB3、BIB4 之 b4 誤差圖……………………………………………………. 40. 圖 4-14 BIB3、BIB4 之 b5 誤差圖……………………………………………………. 40. 圖 4-15. PBIB 設計之受試者能力誤差圖………………………………………………. 44. 圖 4-16. PBIB 設計之鑑別度誤差圖……………………………………………………. 44. 圖 4-17. PBIB 設計之 b1 誤差圖………………………………………………………. 44. 圖 4-18. PBIB 設計之 b2 誤差圖………………………………………………………. 44. 圖 4-19. PBIB 設計之 b3 誤差圖………………………………………………………. 44. VII.

(10) 圖 4-20. PBIB 設計之 b4 誤差圖………………………………………………………. 44. 圖 4-21. PBIB 設計之 b5 誤差圖………………………………………………………. 45. 圖 4-22 NEAT 設計之受試者能力誤差圖……………………………………………. 48. 圖 4-23 NEAT 設計之鑑別度誤圖……………………………………………………. 48. 圖 4-24 NEAT 設計之 b1 誤差圖………………………………………………………. 48. 圖 4-25 NEAT 設計之 b2 誤差圖………………………………………………………. 48. 圖 4-26 NEAT 設計之 b3 誤差圖………………………………………………………. 48. 圖 4-27 NEAT 設計之 b4 誤差圖………………………………………………………. 48. 圖 4-28 NEAT 設計之 b5 誤差圖………………………………………………………. 49. 圖 4-29 BIB2、PBIB1、NEAT1 之能力誤差圖………………………………………. 51. 圖 4-30 BIB2、PBIB1、NEAT1 之鑑別度誤差圖……………………………………. 51. 圖 4-31 BIB2、PBIB1、NEAT1 之 b1 誤差圖…………………………………………. 51. 圖 4-32 BIB2、PBIB1、NEAT1 之 b2 誤差圖…………………………………………. 51. 圖 4-33 BIB2、PBIB1、NEAT1 之 b3 誤差圖…………………………………………. 52. 圖 4-34 BIB2、PBIB1、NEAT1 之 b4 誤差圖…………………………………………. 52. 圖 4-35 BIB2、PBIB1、NEAT1 之 b5 誤差圖…………………………………………. 52. 圖 4-36 PBIB2、NEAT3 之受試者能力誤差圖………………………………………. 53. 圖 4-37 PBIB2、NEAT3 之鑑別度誤差圖……………………………………………. 53. 圖 4-38 PBIB2、NEAT3 之 b1 誤差圖…………………………………………………. 53. 圖 4-39 PBIB2、NEAT3 之 b2 誤差圖…………………………………………………. 53. 圖 4-40 PBIB2、NEAT3 之 b3 誤差圖…………………………………………………. 54. 圖 4-41 PBIB2、NEAT3 之 b4 誤差圖…………………………………………………. 54. 圖 4-42 PBIB2、NEAT3 之 b5 誤差圖…………………………………………………. 54. VIII.

(11)

(12) 第一章. 緒論. 本研究是應用試題反應理論(item response theory, IRT)中的等級反應模式 (graded response model, GRM)，以模擬實驗方式探討不同之連結設計於多元計分測驗，進行水平等化之等化效果。本章旨在說明本研究之研究背景、研究動機、研究目的、名詞解釋等五個部分，以下分節說明之。. 第一節研究動機與目的壹、研究背景與動機現今各種具規模的評量工具如美國國家志願評量(Voluntary National Tests)、國際數理教育成就趨勢調查(The Trends in International Mathematics and Science Study, TIMSS)及國家教育進展評量(National Assessment of Educational Progress, NAEP)等大型測驗中，大量的受試者來自許多不同的地區、國家，由於受到時間、空間的限制下，要使所有受試者同時接受測驗，幾乎是無法達成的。再加上命題範圍廣大，受試者往往需要施測大量的試題方能涵蓋欲測量之範圍，然而在有限的測驗時間內，常常無法完成所有的試題。為了解決所有受試者無法同時進行測驗，導致試題外洩、產生不公平之測驗結果以及減輕受試者負擔、使其無需作答所有試題，測驗單位會將題庫(item bank)分成若干個測驗題本，使得在不同時間接受測驗的受試者可以採不同之測驗題本進行施測。在各群體受試者分別以相異的題本進行施測後，其所產生的測驗分數並未落於同一量尺上，因此無法直接進行比較各群體之測驗分數和能力值，此時便需經由連結(linking)的成果，將受試者之測驗分數轉換建立於同一量尺上，以期作為. 1.

(13) 教育者比較各州、各地區、各學校、甚至是個人表現的評比依據(National Research Council, 1999; Kolen, 2000)，其中共同量尺之建立則需仰賴測驗等化(test equating) 技術之配合。測驗等化是一種依據教育評量理論而發展的統計方法，由於不同試卷間存在難易度、信度等方面的差異，故需藉由測驗等化使得採相異的測驗，進行施測之受試者所得分數可客觀、有效的進行比較。然而國內在測驗等化相關的研究議題中，主要都是以二元計分模式為主(王暄博，2006；黃美芳，2006；劉穎蓁，2006)，然而現今的測驗已不再侷限於二元計分題型，亦普遍使用多元計分題型，如上述 TIMSS、NAEP 等大型測驗中，其填充題、簡答題或是作文題方面，已經佔有一定的比例。NAEP 更於 1998 年的技術報告(Allen, Donoghue & Schoeps, 2001)中，提出寫作評量之連結設計與其相關結果，有鑑於此，多元計分測驗間的連結儼然已成為必須解決的重要議題，是故本研究擬探討多元計分測驗間的連結設計及其比較。國內外學者在進行測驗等化之相關研究時，普遍使用的連結設計為平衡不完全區塊設計(balanced incomplete block design, BIB)與定錨題不等組設計(non-equivalent groups with anchor test design, NEAT) (Kolen, 2000；Matthias & Alina, 2004；Rust & Johnson, 1992；van der Linden, Veldkamp & Carlson 2004；王暄博，2006)，因此本研究擬採用此二連結設計。值得注意的是，NAEP 於 1998 年對寫作評量採用之連結設計為部分平衡不完全區塊設計(partially balanced incomplete block design, PBIB)(Allen, Donoghue & Schoeps, 2001)，故本研究也採此連結設計以瞭解其在多元計分測驗之連結效果。在試題反應理論之等級反應模式是由 Samejima(1969)所提出，可視為雙參數模式(two-parameter normal logistic model)的延伸，主要用於分析認知能力之過程，亦可運用於態度和人格特質之量表的測量。Reise & Yu(1990)以此模式用於分析閱讀或數學理解力的測驗，研究亦有不錯的分析效果。近年亦有研究者將 GRM 模式運用於檔案評量中的試題—建構反應題的分析(Kim & Cohen, 1998)，足見 GRM 模式運用的範圍相當廣泛(陳雁芳，2006)，是故本研究選擇 GRM 做為分析模式。陳雁芳(2006)指出於 NEAT 設計中進行多元計分測驗之水平等化(horizontal. 2.

(14) equating)，無論在何種樣本數、測驗長度或是定錨題比例的情境下，同時估計法 (concurrent calibration)比分開估計法(separate calibration)的估計誤差略小，亦即選用同時估計法進行測驗等化，可得到較為理想的參數估計值。由於本研究考量到實務上進行寫作評量時，題本之區塊內試題不可能如填充題或題組為 4 道或 4 道以上的試題，因此研究者擬透過多元計分試題的測驗資料之模擬，探討在多元計分模式中的 GRM 模式下，除了採用 NEAT 設計，也一併進行 BIB、PBIB 設計，經由同時估計法進行各參數估計之成效。. 貳、研究目的有鑑於國內對於多元計分試題之等化方法的相關研究依然匱乏，且根據上述研究背景及研究動機，本論文之目的乃透過多元計分測驗資料之模擬，以多元計分模式中的 GRM 模式為分析模式，採用 BIB、PBIB 和 NEAT 三種連結設計及同時估計法進行水平等化，而後藉由估計的能力值誤差與試題參數誤差比較其等化效果，並提出相關建議，以作為日後研究者進行分析多分題測驗之測驗等化的參考。因此，本研究之目的為：一、探討 BIB、NEAT 與 PBIB 設計於不同施測人數、試題區塊數、題本配置方式下之連結效果。二、探討 NAEP 對於寫作評量之題本配置方式的連結效果。. 3.

(15) 第二節名詞釋義一、水平等化當二個或是二個以上測量相同特質的測驗，且其受試者能力分佈及試題難度相似，不同測驗間的關係就如同測驗複本間的關係。此類不同測驗之原始分數間的轉換過程，稱為水平等化。. 二、平衡不完全區塊設計 BIB 設計是由 Yates(1936)提出，並於 1992 年 Rust & Johnson 應用於測驗領域的題庫設計。此設計是指題庫中所有的試題區塊出現次數是相同的，且成對試題區塊出現於題本中的次數也必須是相同的。所謂的「平衡」是由於成對試題區塊出現於題本中的次數是相同的，因此在成對試題區塊平均數間之比較有相同的精準度。各題本中的試題區塊可能部分相同或完全不同，但是每一個試題區塊在所有題本中出現的次數是一樣的(Kuehl, 2000；曾玉琳、王暄博、郭伯臣、許天維， 2005)，亦即題庫中的每個試題所受測的學生約為相同的。. 三、定錨題不等組設計 NEAT 設計是將題庫試題編制成不同分測驗，各分測驗間必須存有共同試題即定錨試題，通常定錨試題在每群受試者的測驗順序是一樣的，以避免順序因素的影響(von Davier, Holland, & Thayer, 2004；Dorans & Holland, 2000；王暄博， 2006)，進行施測時分別以不同之分測驗於不同受試群。. 四、部分平衡不完全區塊設計 PBIB 是由 Bose & Nair(1939)提出，在此設計中各試題區塊出現次數需相等，但是成對試題區塊的出現次數是不完全相同的，亦即某些成對試題區塊的出現次數是多過於其餘成對試題區塊的出現次數。平衡設計在需要的不完整區塊無法建構出每種實驗情境，使得各區塊需要出現的重複數可能變成過高，題本也隨之增. 4.

(16) 加，但是部分平衡設計在較少的重複數下便可架構出來。. 五、同時估計法同時估計法是假設兩份測驗中，有部份試題是相同的，或有些考生同時接受這兩份測驗；亦即兩組的反應資料有重疊的部份。在實際作法上，此法是將所有受試者的作答反應資料加以合併後放置在同一檔案，輸入電腦，利用適當的程式估計試題和能力參數值。. 六、估計誤差本研究依循過去的一些研究(Kim & Cohen, 1998; Kim & Cohen, 2002)，採用均方根誤差(root mean square differences, RMSE )作為比較不同方法成效之效標。故本研究能力估計值及試題參數估計值之估計誤差定義如公式(1-1)及公式(1-2)：. RMSE (φi , φî ) =. RMSE (η i ,ηî ) =. (. 1 N. N. ∑ (φˆ − φ ) i =1. i. 2. i. 1 n (ηî − η i ) 2 ∑ n i =1. (1-1). (1-2). ). 其中，φˆ = φˆ1 , φˆ2 ,L, φˆN 及 φ = (φ1 , φ2 ,L, φ N ) 分別表示受試者能力估計值和受試者能力真值；ηˆ = (ηˆ1 ,ηˆ 2 , L,ηˆ n ) 及η = (η1 ,η 2 ,L,η n ) 分別表示試題參數估計值和試題參數真值；N 為受試者人數；n 為試題數。. 5.

(17) 第二章. 文獻探討. 本研究之目的在於探究不同之測驗連結設計，對於多元計分測驗之連結效益。因此本章共分為四節，第一節介紹 NAEP 於寫作評量之設計；第二節為試題反應理論及本研究採用之 GRM 模式；第三節為探討測驗等化之意義與種類；第四節為測驗連結設計。. 第一節. NAEP 於寫作評量之設計. 美國國會早於 1969 年即要求實施 NAEP，NAEP 是目前世界上的大規模教育評量的典範之一。NAEP 的類型中，全國性主要 NAEP(Main NAEP)定期評量四年級、八年級以及十二年級學生在閱讀、數學、科學、寫作、美國歷史、公民、地理的成就表現，其目的在了解學生於評量學科上的學習狀況。NAEP 於 1998 年之技術報告中提出對其寫作評量的設計，研究者依評量對象、寫作目標、試題類型、背景問卷與教師問卷和題本配置方式與評分規準一一介紹。一、評量對象國家級評量實施在四、八、十二年級；州級評量實施在八年級。二、寫作目標三個年級之題庫均由敘述型、教育型及說服型三種試題所組成，其中敘述型試題之目標為要求學生能夠撰寫一個故事或是個人的小論文；教育型試題之目標為學生能使用基礎學科知識來回答試題；說服型試題之主要目標為學生能提出某些能影響其他行為或是能造成改變的具體行動。各年級題庫所含三種類型試題之百分比分佈如表 2-1 所示。. 6.

(18) 表 2-1 寫作目標百分比分佈年級敘述型教育型說服型四 40% 35% 25% 八 33% 33% 33% 十二 25% 35% 40% 三、試題類型評量內容包含 25 分鐘與 50 分鐘的寫作試題，學生不是作答兩個 25 分鐘的寫作試題就是作答一個 50 分鐘的寫作試題。50 分鐘的寫作評量實施在國家級評量，不實施於州級評量。其中各年級之 25 分鐘與 50 分鐘的寫作試題類型題數如表 2-2 以及表 2-3。. 年級四八十二. 年級八十二. 表 2-2 25 分鐘評量寫作試題百分比分佈敘述型題數教育型題數說服型題數 8 7 6 7 7 6 5 7 8. 總數 21 20 20. 表 2-3 50 分鐘評量寫作試題百分比分佈敘述型題數教育型題數說服型題數 1 1 1 1 1 1. 總數 3 3. 四、背景問卷與教師問卷 NAEP 評量包含背景問卷來了解影響寫作表現的因素，背景問卷中包含學生及教師的問卷。學生問卷分為三部分（一般背景、寫作背景、動機），以多重選擇選題呈現；老師問卷由四年級與八年級的老師填答，問卷分為兩部分，第一部分關於老師的背景與其受過的一般訓練，第二部分關於老師受過的寫作教學的專業訓練與老師在接受施測學生上課的教學過程。. 7.

(19) 五、題本寫作題本採 PBIB 設計，其試題區塊與題本的配置方式，使用螺旋(spiral)式排列方式，使得每一個試題區塊的施測次數相同且試題區塊出現的位置平均分佈。各年級之題庫含有 40 個題本，每個題本由二個試題區塊所組成、各區塊內含有一道受測時間限制為 25 分鐘的作文題，即各題本內為二道受測時間為 25 分鐘之作文題，其中每一試題區塊重複出現四次，然而 50 分鐘的寫作試題之題本則僅有一個試題區塊，故不為 PBIB 設計之試題區塊。以下摘錄四年級寫作評量之題本詳細配置方式如表 2-4。表 2-4 四年級寫作評量之題本題本區塊區塊題本區塊區塊序號（k1）（k2）序號（k1）（k2） S1 M4 M16 S21 M8 M22 S2 M16 M11 S22 M22 M13 S3 M11 M3 S23 M13 M9 S4 M3 M18 S24 M9 M4 S5 M18 M19 S25 M4 M3 S6 M19 M20 S26 M3 M5 S7 M20 M12 S27 M5 M6 S8 M12 M7 S28 M6 M7 S9 M7 M21 S29 M7 M8 S10 M21 M22 S30 M8 M9 S11 M22 M18 S31 M9 M10 S12 M18 M14 S32 M10 M11 S13 M14 M5 S33 M11 M14 S14 M5 M19 S34 M14 M17 S15 M19 M17 S35 M17 M12 S16 M17 M6 S36 M12 M15 S17 M6 M20 S37 M15 M13 S18 M20 M21 S38 M13 M16 S19 M21 M15 S39 M16 M10 S20 M15 M8 S40 M10 M4 資料來源：Nancy L. Allen & John R. Donoghue & Terry L. Schoeps(1998). 8.

(20) 六、評分規準評分規準指的是給予閱卷老師作為評分的準則依據，寫作測驗評分方式採級分制，將學生寫作能力由劣至優區分為零級至五級分，零級分指表現是令人感到不滿意的、一級分表示其表現為不符標準的、二級分表示指其表現為不穩定的、三級分表示已達一般水準、四級分之表現是熟練的、五級分則是有傑出的表現。在評分規準中，我們可以看見每一個級分的文章寫作能力表現，閱卷教師將依據考生的整體寫作能力表現直接給予整體評分，不單獨分項給分及加總。另外，針對完全離題、只有抄題目或說明而完全沒有任何其他可供判斷的內容、缺考等考生，因無法判斷其寫作能力，則認定為遺失資料。. NAEP 寫作評量之各年級有效樣本數將近二萬人，於資料收集結束後以 NAEP BILOG/PARSCALE 軟體進行估計試題參數。NAEP BILOG/PARSCALE 是其內部研究人員結合 BILOG 和 PARSCALE 軟體所開發得到，其程式內容主要以邊際估計程序估出一參、二參、三參對數模式(one-, two-, three-parameter logistic model)以及 Muraki(1992)所提出之一般化部分計分模式(generalized partial credit model, GPCM)下之參數。由於一般研究人員無法取得該軟體，且 BILOG 軟體無法估計多元計分試題參數、PARSCALE 軟體雖可估出多元計分試題參數，卻無等化相關指令，因此，研究者擬採用 MULTILOG 軟體進行估計以及多元計分模式中的 GRM 模式為分析模式下之各試題參數。. 9.

(21) 第二節. 試題反應理論. 試題反應理論又稱為潛在特質論(latent trait theory)，由 Lord(1980)發表第一本以「試題反應理論」為名的專書後，試題反應理論於是正式正名。所以自 1980 年後，測驗學者逐漸以試題反應理論為當代測驗理論的代表。此理論是假定受試者在某一測驗上的表現或反應，可由一個或一組因素來解釋，而這種因素是觀察不到的，故稱為潛在特質或是能力(abilities)，且受試者的表現情形與其能力間的關係，可透過一條連續性遞增的函數來加以詮釋，這個函數便叫作試題特徵曲線 (item characteristic curve, ICC)。任何一條試題特徵曲線所代表的涵義是：受試者答對某一試題的機率，是由其能力和試題的特性所共同決定(余民寧，1992a)。試題反應理論便是根據受試者在試題上的實際表現，來分析試題的鑑別度、難度及猜測度等測驗指標與受試者潛在特質關係的一種理論。試題反應理論需符合二項的基本假設：單向度(unidimensionality)以及局部獨立性(local independence)。單向度意指測驗的向度(dimensionality)必須是單一的，亦即一份測驗只測量到單一能力或潛在特質，而考生作答的好壞僅受此單一能力或潛在特質所影響，其他因素如情緒反應、生理狀態或是答題技巧則為隨機發生的，視為測量誤差的範圍；局部獨立性假設係指受試者在不同試題上的作答情形，在控制影響答題之能力後，彼此之間是獨立的，亦即試卷中的個別試題與其餘試題是無關的。受試者在測驗上某一題的作答情形，不受其它試題的影響。 (Weiss & Yoes, 1991；許澤基、劉長萱，1992)。試題反應理論之模式可分成三大類：第一類是二元計分模式；第二類為多元計分模式；第三類為連續計分模式。Hambleton & Saminathan(1990)依據資料的類型和理論模式分類如表 2-5：. 10.

(22) 資料類型. 二元計分資料. 多元計分資料. 連續性資料. 表 2-5 單一向度理論模式分類表理論模式潛在線性模式(latent linear model) 完全量尺模式(perfect scale model) 潛在距離模式(latent distance model) 一參、二參、三參常態肩形模式 (one-, two-, three- parameter normal ogive model) 一參、二參、三參對數模式 (one-, two-, three-parameter logistic model) 四參數對數模式(four-parameter logistic model) 名義反應模式(nomial reponse model) 等級反應模式(graded reponse model) 部分計分模式(partial credit model) 連續反應模式(continuous reponse model) 資料來源：摘自 Hambleton & Saminathan (1990). 本研究進行多元計分測驗等化時，採 GRM 作為測驗資料分析的模式，GRM 是 Samejima(1969)所提出，可視為是二參數模式的延伸。GRM 模式中，在 M 個等級類別反應(分數)下，能力值 θ 的人在第 i 題得到第 k 個等級類別反應的機率函數為： ⎧ 1 − Pi1* (θ ) ⎪ Pik (θ ) = ⎨ Pi*( k −1) (θ ) ⎪ P * (θ ) − P * (θ ) ik ⎩ i ( k −1). when when. k =1 k=K. (2-1). otherwise. 其中， Pik* (θ ) 是邊際反應函數(boundary response function）的對數模式，即表示能力值 θ 的人在第 i 題得到超過 k 分以上的機率為 Pik* (θ ) = (1 + exp(−α i (θ − β ik ))) −1. 11. (2-2).

(23) 其中 α i 是試題 i 的鑑別度參數， β ik 是試題 i 的第 k 個選項閾值(threshold)參數，在 K 個等級類別反應下，會有 K − 1 個選項閾值，且 Pi*0 (θ ) = 1 ， PiK* (θ ) = 0 。類別反應函數(category response function )，表示能力值 θ 的人在第 i 題得到 k 分的機率，GRM 在計分時，等級的分類必需累積於前一類別的基礎知識，其公式為： Pik (θ ) = Pi *( k −1) (θ ) − Pik* (θ ) ,. where. k = 1,2, L , K. (2-3). 經由公式(2-3)即可求出每一個等級類別的反應機率，可畫出類別反應曲線 (category response curve)，如圖 2-1 為一道有六個作答反應類別的試題，其中試題的鑑別度 α j 為 1.79，選項閾值參數 β j1 = -1.50、β j 2 = -0.66、β j 3 =0.05、β j 4 =0.33 以及 β j 5 =1.32。 Item Characteristic Curve: 4 Graded Res pons e Model 1.0 1. Proba bilit y. 0.8. 0.6. 0.4. 2. 0.2. 5. 3. 6 4. 0 -3. -2. -1. 0. 1. 2. 3. Ability. 圖 2-1 GRM 六個類別下之試題類別反應曲線舉例. 12.

(24) 第三節測驗等化之意義與種類在許多測量相同能力或特質的不同測驗中，各測驗分數非落於相同量尺上，因而無法直接進行比較。要將兩份或兩份以上不同測驗所得的分數轉換至相同之量尺分數上，進一步將不同測驗所得之分數進行比較，就需經由測驗等化才能夠達到。測驗等化是使用統計方法將受試者在一份測驗所得的分數轉換至另一測驗分數上的過程(Lord, 1980)，目的是在調整測驗難度間之差異，而不是測驗內容之差異(Kolen & Brennan, 1995；吳裕益，1991)。測驗等化必須滿足對稱性(symmetry property)、相等性(equity)、測驗是單一向度(unidimensionality of the tests )、觀察分數等化特性(observed score equating)以及團體不變性(group invariance property) 等五個性質，等化才能夠進行(Kolen & Brennan, 2004；余民寧，1992b)。對稱性的意義為等化不應該受參照測驗的影響且為可逆的，亦即由測驗 A 等化至測驗 B 或是由測驗 B 等化至測驗 A，其等化結果必然是相同的；相等性是指當兩份測驗 A 與測驗 B 欲進行等化時，對每一位受試者使用測驗 A 或測驗 B 來施測，其結果應該是相同的；測驗是單一向度的意義是指兩份測驗欲進行等化時，其測驗內容必須是測量相同之能力或潛在特質；觀察分數等化特性意謂在觀察分數等化中，對特定群體的受試者而言，量尺分數分佈的特性是相同的，即當測驗 A 轉換至測驗 B 後的量尺分數之能力分佈應與在測驗 A 的能力分佈相同；團體不變性則指等化的程序應該是樣本獨立的，即不受所選用樣本的影響，其測驗分數間之轉換的結果必須是相同的。Kolen & Brennan(2004)引述 Linden(2004) 的研究結果中曾明確指出此特性在真分數等化的方法中必須存在，但在觀察分數等化中並不必然成立。測驗等化的種類包括水平等化 (horizontal equating) 及垂直等化 (vertical equating)兩種，以下分別介紹之。. 13.

(25) 水平等化是指當二個或是二個以上測量單一特質或是單一能力測驗間之原始測驗分數的轉換過程，而這些不同測驗間的關係有如測驗複本間的關係，且其受試者能力分佈相似且各測驗之試題難度相仿。在許多大型測驗中，例如托福、 GRE (Graduate Record Examinations)等考試有許多的複本測驗。這些測驗是由題庫分成數個類似平行測驗(parallel test)的題本，其目的是為保護試題的安全性(test security)及減低練習因素(practice effect)，才能在一年之中進行多次施測。來自不同群體之受試者以不同的複本測驗進行施測後，其測驗的分數成績並未落於相同的量尺上，需要經過等化的程序，使各測驗分數落於同一量尺上，測驗分數方能進行比較，此類等化程序稱之為水平等化。垂直等化是指當二個或是二個以上測量單一特質、不同能力測驗間之原始測驗分數的轉換過程，這些受試者能力的分佈不相似、各測驗之試題難度不相仿。美國的加州成就測驗(California Achievement Tests)、愛奧華基本技能測驗(Iowa Test of Basic Skills)等成就測驗的題庫中會包括許多不同形式、不同難度水準之題本，這些測量單一特質的題本分別會有其適用年級或年齡的受試者。各群體受試者以不同題本進行測驗後，其各測驗分數端賴等化的程序，使分數落於同一量尺上以了解該特質在不同年齡或年級的分佈情形，此一等化程序稱之為垂直等化。. 14.

(26) 第四節測驗連結設計欲進行測驗間之等化，則必須先確定收集的各測驗作答反應資料有共同試題存在或是共同的受試者作答，方能進行測驗等化。測驗連結設計即是指研究者進行測驗等化前，其所收集測驗資料的方法。一般常見的設計有隨機組設計(random groups design)、單一組設計(single group design)、平衡對抗單一組設計(single group design with counterbalancing)與 NEAT 設計(Kolen & Brennan, 2004)，加上本研究欲探究的為 BIB、NEAT 與 PBIB 設計之成效，故將上述六種連結設計分別簡述如下：一、隨機組設計假設有測驗一與測驗二欲進行等化，則將受試者隨機指派參加其中一份測驗，如表 2-6(Kolen & Brennan,1995；von Davier, Holland, & Thayer, 2004)。因為每個受試者僅施測其中一份測驗，故此設計需要求所有的受試者在同一時間施測，由於受試者是隨機分成數組，因此假定每一測驗所測之受試者的平均能力應大致相同。此外，為了降低誤差，也需使用大樣本來進行施測。. 樣本. 表 2-6 隨機組設計測驗一. P1. V. P2. 測驗二 V. 註：P1、P2 是取自母群的隨機樣本，“V”為受試者必須受測之測驗. 二、單一組設計在單一組設計中，假設有測驗一與測驗二欲進行等化，則受試者必須進行測驗一與測驗二，如表 2-7 所示。此法雖然簡單，但受試者卻容易因為產生疲勞、重複練習或是學習因素使得測驗結果受影響。. 15.

(27) 樣本. 表 2-7 單一組設計測驗一. 測驗二. P1. V. V. 註：P1 是取自母群的隨機樣本，“V”為受試者必須受測之測驗. 三、平衡對抗單一組設計此法乃針對單一組設計的「施測順序效果」之問題加以改進，將原來的單一組隨機分為兩組，一組先接受測驗一，再接受測驗二；另一組則先接受測驗二，而後接受測驗一，如表 2-8 所示。平衡對抗隨機組設計避免受試者因為疲勞使得測驗結果受影響，而測驗順序是為了確保任何順序因素對於兩測驗的分數公平。. 樣本. 表 2-8 平衡對抗單一組設計測驗一測驗二. P1. 先測. 後測. 先測. V. 後測 V. P2. V. V. 註：P1、P2 是取自母群的隨機樣本，“V”為受試者必須受測之測驗. 四、NEAT 設計 NEAT 設計是將題庫試題編制成不同之分測驗，各分測驗間必須存有共同試題即定錨試題，通常定錨試題在每群受試者的測驗順序是一樣的，以避免順序因素的影響。進行施測時分別以不同之分測驗於不同受試群，NEAT 設計如表 2-9(Kolen & Brennan,1995；von Davier, Holland & Thayer, 2004)所示，二群受試者接受不同之分測驗，但是各分測驗中皆含有定錨測驗 X。NEAT 設計可以避免單組設計或等群組設計所遭遇到的問題 (Klein & Jarjoura, 1985) 。 MCAS(Massachusetts comprehensive assessment system)即使用 NEAT 設計進行不同年度間學生之測驗等化，因為它只需要假設受試群體是隨機抽取，無須假設兩受試群體有相同的能力值。. 16.

(28) 表 2-9 NEAT 設計樣本 P1. 測驗一 V. Q1. 測驗二. 定錨題 V. V. V. 註：P1 是取自母群 P 的隨機樣本；Q1 是取自母群 Q 的隨機樣本；“V”為受試者必須受測之測驗. 五、BIB 設計 BIB 設計是由 Yates(1936)提出，並於 1992 年 Rust & Johnson 應用於測驗領域的題庫設計。此設計是將題庫中的試題分為數個區塊，並利用這些試題區塊編製成題本。試題區塊出現次數是相同的，且區塊間與區塊內的試題皆不重複。假設在有 t 個試題區塊之題庫中，題本總數為 b 、各題本包含 k 個試題區塊、每個試題區塊出現 γ 次且 k < t 時，則題庫含有的試題區塊方格數為 N = γ ×t = b×k. (2-4). 成對試題區塊出現於題本中的總數為 λ = γ (k − 1) (t − 1) ， λ < γ < b. (2-5). 其中， λ 指的是在設計中之每一個試題區塊與其餘 t − 1 個試題區塊成對出現的次數，則在實驗中共有 λ (t − 1) 個組合；相同的試題區塊和其他 (k − 1) 個區塊出現在 γ 個題本內，則每一試題區塊出現在 γ (k − 1) 個組合。因此， λ (t − 1) = γ (k − 1) 。除了式(2-4)、式(2-5)外，此設計在無作答時間(response time)的限制情形下，還必須滿足以下限制式： t. ∑x i =1. is. S. ∑x s =1. is. S. ∑z s =1. ijs. = k , s = 1,..., S. (2-6). ≤ r , i = 1,..., t. (2-7). ≥ λ , i < j = 1,..., t. (2-8). xis + x js ≥ 2 zijs , i < j = 1,..., t , s = 1,..., S. 17. (2-9).

(29) 其中： t 指試題區塊數； s 指題本代號， s = 1,..., S ； k 指每個題本配置的試題區塊數，即區塊數目( number of. blocks )； r 指試題區塊在題本中出現的次數； i 指題庫中個別區塊代號， i = 1,..., t ； j 指題庫中成對區塊中第二個區塊代號， j = 1,..., t ；. λ 指成對試題區塊出現在相同區塊位置的次數； xis 指試題區塊與題本的配置組型，其中： xis ∈ {0,1} , i = 1,..., t , s = 1,..., S ； zijs 指成對試題區塊與題本的配置組型，. zijs ∈ {0,1} , i < j = 1,..., t , s = 1,..., S 。. 式(2-6)代表每一個題本配置的試題區塊數目；式(2-7)代表每一個試題區塊在所有題本中出現的次數；式(2-8)代表成對試題區塊在所有題本中出現的次數；式子(2-9)代表成對試題區塊與組型的一致性。在此設計中，受試者只需接受若干試題區塊的試題，且不同受試者可能接受部分相同、完全相同、或完全不同的試題區塊，如表 2-10 所示，其為 BIB 設計的一個範例，在此設計中，有 7 個題本(S1~S7)；7 個試題區塊(M1~M7)。BIB 設計中試題區塊序號的組合不重複，如：S1 題本是由試題區塊 M1、M2、M4 組合而成，則表中其他題本(S2~S7)就不會在出現試題區塊 M1、M2、M4 的組合。BIB 設計優點為試題區塊與題本的配置方式，使用螺旋式排列方式，可使每一個試題區塊的施測次數相同(van der Linden, Veldkamp & Carlson, 2004；Nemhauser & Wolsey, 1999)。. 18.

(30) 題本序號 S1 S2 S3 S4 S5 S6 S7. 表 2-10 BIB 設計區塊位置區塊位置 M1 M2 M2 M3 M3 M4 M4 M5 M5 M6 M6 M7 M7 M1. 區塊位置 M4 M5 M6 M7 M1 M2 M3. 六、PBIB 設計 PBIB 是由 Bose & Nair(1939)提出，在此設計中各試題區塊出現次數需相等，但是成對試題區塊的出現次數是不完全相同的，亦即某些成對試題區塊的出現次數是多過於其他剩餘成對試題區塊的出現次數，如表 2-11 所示，成對試題區塊 (M1,M4)、(M2,M5)和(M3,M6)皆同時重複出現於二次，而其餘成對試題區塊則在所有題本中僅出現一次。出現二次的成對試題區塊比起只出現一次的成對試題區塊將會有較高的精準度，在小型實驗中試題區塊間的精準度差異是被犧牲的，然而精準度的差異並未因過大而禁止使用 PBIB。 BIB 設計在需要的不完整區塊無法建構出每種實驗情境，在某些情境下，需要的重複數可能變成過高。PBIB 設計之優點為在較少的重複數下便可架構。在 BIB 設計中最小的重複數是 γ = λ (t − 1) (k − 1)。假設有一個試題區塊總數為 6( t = 6 ) 的題庫且每個題本需要包含 4( k = 4 )個區塊，則需要每個試題區塊重複出現 10( γ = 10 )次，則題庫共有試題區塊方格數為 60，然而，在部分平衡設計下，總試題區塊方格僅需要 12 個，如表 2-11。在實際情況中，資源是有限的且必要的重複性為可能時，與 BIB 設計需要的大量實驗單位(試題區塊方格數)相較之下， PBIB 設計可減少實驗大小是較吸引人的。. 題本序號 S1 S2 S3. 表 2-11 PBIB 設計表區塊位置區塊位置區塊位置 M1 M4 M2 M2 M5 M3 M3 M6 M1. 19. 區塊位置 M5 M6 M4.

(31) 第三章. 研究方法. 本章分為五節，第一節為研究步驟；第二節為連結設計之變項設定；第三節為 BIB 設計；第四節為 NEAT 設計；第五節為 PBIB 設計；第六節為研究軟體。. 第一節研究步驟本研究是在試題反應理論中的等級反應模式下，採模擬實驗方式探討多元計分試題採 BIB 設計、NEAT 設計與 PBIB 設計進行水平等化之連結效果。圖 3-1 為本研究之研究流程圖：. 確立研究目的進行文獻探討設定模擬情境 BIB 題本連結設計. NEAT 題本連結設計利用同時估計法進行水平等化測驗等化估計撰寫研究報告. 圖 3-1 研究流程圖. 20. PBIB 題本連結設計.

(32) 圖 3-1 為本研究之研究流程圖，採用 BIB、NEAT 和 PBIB 之連結設計。在設定施測樣本數時，茲因考量目前國內建置的「臺灣學生學習成就評量資料庫 (Taiwan Assessment of Student Achievement, TASA)」在 2005 年收集之樣本數為一萬人左右、2006 年收集之樣本數為七千多人及「台灣教育長期追蹤資料庫(Taiwan Education Panel Survey, TEPS)」之樣本數和超過二萬人與 NAEP 之寫作評量樣本數為將近二萬人，故將本研究之樣本數設定為 7560 人和 19880 人，又因研究者欲瞭解樣本數少於七千人之測驗等化效果，故設定模擬資料之樣本數為 2800 人、 5600 人，因此本研究之樣本數為 2800 人、5600 人、7560 人以及 19880 人等四種。本研究之題庫試題數設定為 24 題以及 28 題二種，因考量預設作答時間為 50 分鐘與測驗型態之不同，題本之測驗長度設定為 12 題、16 題。BIB 設計之各題本為三個試題區塊所組成且每一區塊之試題數皆為 4 道多元計分試題，根據試題區塊配置組合之不同設計有三種；NEAT 設計根據試題區塊配置組合之不同設計有三種；PBIB 根據試題區塊配置組合之不同設計有二種。除了上述之實驗設計之餘，本研究亦仿照 NAEP 對於寫作評量之題本配置方式，各題本為二個試題區塊所組成且每一試題區塊之試題為 1 道多元計分試題，亦即各題本之測驗長度為 2 題。由於研究者為瞭解在測驗長度僅為 2 題且無定錨試題下之測驗等化效益，故另外提出一組共有 5 個試題區塊所配置出各題本測驗長度為 2 的 BIB 設計，並且因研究者擔憂題本測驗題數過少導致測驗連結效果不彰，亦增加一組 BIB 設計為其餘條件均不變的情境下，更改試題區塊內之試題數為 4 道試題，以便瞭解試題長度之不同對測驗連結效益所造成的影響。依據各連結設計條件之限制：BIB 設計配置出合適的施測題本與試題區塊組合方式共五種、NEAT 設計有三種、PBIB 設計有三種，故本研究之連結設計方式共有十一種。根據以上十一種連結設計，利用同時估計法進行水平等化，以求了解研究所設定之不同施測人數、不同試題區塊數、不同之題本配置方式下，BIB、 NEAT 與 PBIB 設計之連結效益。. 21.

(33) 第二節連結設計之變項設定本研究利用電腦模擬多分題測驗資料，探討 BIB、NEAT 和 PBIB 設計進行水平等化下之測驗等化。茲將 BIB、NEAT 和 PBIB 設計的變項設定對照如表 3-1。表 3-1 BIB 和 NEAT 及 PBIB 設計之變項設定對照表設計. BIB. NEAT. 題本所含區塊數 2 個、3 個、4 個. PBIB. 2 個、3 個. 2 個、3 個、4 個. 12 題、16 題. 2 題、12 題、16 題. 題本測驗長度. 2 題、12 題. 施測人數. 2800 人、5600 人、7560 人、19880 人. 受試者能力分布常態截尾分布 N(0,1)，範圍-3~ 3. 試題參數分布. 鑑別度. α i ~ U(0.5,2.0). 選項閾值. β i1 ~ U(-2.5,-1.5)、 β i 2 ~ U(-1.5,-0.5)、 β i 3 ~ U(-0.5,0.5)、 β i 4 ~ U(0.5,1.5)、 β i 5 ~ U(1.5,2.5). 模擬資料集個數 100 個. BIB 設計之各題本試題區塊數分為 2 個、3 個二種：題本試題區塊數為 2 的題本，各區塊內僅含 1 道多元計分試題，即測驗長度為 2；題本試題區塊數為 3 的題本，各區塊內含 4 道多元計分試題，即測驗長度為 12。 PBIB 設計比照 BIB 設計之餘，研究者欲了解題本試題區塊數不同之情境下之連結效果，所以又加了題本試題區塊數為 4 個的設計。題本試題區塊數為 2 的題本，各區塊內僅含 1 道多元計分試題，即測驗長度為 2；題本試題區塊數為 3 的題本，各區塊內含 4 道多元計分試題，即測驗長度為 12；題本試題區塊數為 4 的題本，各區塊內含 4 道多元計分試題，即測驗長度為 16。 NEAT 設計之題本試題區塊數分為 2 個、3 個二種：題本試題區塊數為 2 的題本，各區塊內含 8 道多元計分試題，即測驗長度為 16，此設計乃為了與 PBIB. 22.

(34) 中之相同情境下的設計作比較而特別提出；題本試題區塊數為 3 的題本，各區塊內含 4 道多元計分試題，即測驗長度為 12。各設計之施測人數同為 2800 人、5600 人、7560 人及 19880 人四種，在各種不同人數和連結設計之條件下，均模擬產生 100 筆資料，估計受試者能力參數和試題參數並計算各參數之 RMSE，以求研究結果的精確與穩定。關於試題參數和受試者能力值之產生，分述如下。一、試題參數的產生 GRM 模式可用於分析有次序性之多元計分試題的作答反應資料，故研究者先將本研究之計分方式設定如 NAEP 於 1998 年將寫作評量之測驗分數分為 6 點計分，使每道試題皆為 6 個作答反應類別，並界定參數的範圍。其中試題的鑑別度 α i 為服從 0.5 到 2.0 之均勻分布，五個選項閾值（thresholds）則分別設定為 β i1 為服從-2.5 到-1.5 之均勻分布(uniform distribution)， β i 2 為服從-1.5 到-0.5 之均勻分布， β i 3 為服從-0.5 到 0.5 之均勻分布， β i 4 為服從 0.5 到 1.5 之均勻分布， β i 5 為服從 1.5 到 2.5 之均勻分布，故測驗的試題平均難度為 0。由研究者以 MATLAB 自行撰寫程式，隨機產生資料，所產生出來的 28 題試題參數的鑑別度及選項閾值，如表 3-2 所示。二、能力參數的產生本研究之受試者群能力分布為服從常態截尾分布 (truncated normal distribution)，範圍界定於-3~ 3，記為 N(0,1)。研究者以 MATLAB 自行撰寫程式，產生符合本研究設計之能力值分配，且在三種不同的人數及能力值分配的情況下，均模擬產生 100 筆資料，以求研究結果的精確與穩定，其能力分佈如圖 3-2、圖 3-3、圖 3-4、圖 3-5。. 23.

(35) 表 3-2 模擬產生之試題參數值 Item. a. b1. b2. b3. b4. b5. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28. 1.93 0.85 1.41 1.23 1.84 1.64 1.18 0.53 1.73 1.17 1.42 1.69 1.88 1.61 0.76 1.11 1.90 1.88 1.12 1.84 0.59 1.03 1.72 0.51 0.71 0.80 0.80 1.41. -2.23 -2.30 -2.48 -1.75 -2.05 -1.57 -2.03 -2.08 -1.65 -1.97 -2.30 -1.83 -1.66 -2.48 -1.82 -2.12 -1.67 -2.00 -1.79 -2.07 -2.20 -2.31 -2.31 -1.82 -2.20 -1.96 -2.35 -1.80. -1.12 -0.64 -0.65 -0.91 -1.00 -0.60 -0.68 -0.86 -0.68 -0.84 -1.16 -1.21 -1.16 -0.97 -0.77 -1.19 -0.66 -0.93 -1.13 -0.80 -0.95 -1.06 -0.81 -0.88 -0.71 -0.54 -0.98 -0.62. -0.33 0.48 -0.23 -0.25 0.38 0.24 -0.36 -0.49 0.39 -0.30 -0.20 0.16 -0.22 -0.03 -0.44 0.49 0.08 -0.08 0.02 -0.17 -0.07 -0.27 0.08 0.26 0.03 0.14 -0.29 -0.12. 1.28 1.18 0.96 1.07 1.29 0.56 1.10 0.55 0.92 0.81 1.37 0.52 1.27 1.47 1.49 1.29 0.94 1.00 0.71 1.14 0.82 1.46 1.23 0.91 1.24 0.77 0.94 1.43. 2.18 1.71 2.34 2.13 1.63 1.71 2.11 2.13 1.87 2.08 1.95 1.54 1.53 1.81 1.51 1.88 2.18 1.59 1.54 2.11 2.11 1.52 1.52 1.69 2.09 1.56 1.87 2.13. 平均標準差. 1.30 0.47. -2.03 0.26. -0.87 0.20. -0.04 0.28. 1.06 0.29. 1.86 0.27. 24.

(36) 圖 3-2 受試者 2800 人～N(0,1)的能力分佈圖. 圖 3-3 受試者 5600 人～N(0,1)的能力分佈圖. 25.

(37) 圖 3-4 受試者 7500 人～N(0,1)的能力分佈圖. 圖 3-5 受試者 19880 人～N(0,1)的能力分佈圖. 26.

(38) 第三節 BIB 設計根據本研究設定每個題本為 12 道多分題，試題區塊數為 3 個，且 BIB 設計必須滿足下列二條件( Kuehl, 2000)：條件一： rt = bk ， k < γ 。條件二： λ = r (k − 1) (t − 1) ， λ < r < b 。其中， b 為題本總數、 k 為各題本包含之區塊數、 r 為每一試題區塊在題本中出現的次數、 t 為題庫之試題區塊總數、 λ 為成對試題區塊在題本中出現的次數。因此，本研究將進行符合上述條件之 BIB 設計，整理如表 3-3。. 連結設計. 表 3-3 本研究之 BIB 設計相關參數題庫 t b r k 總長度. λ. 測驗長度. BIB1. 28. 7. 3. 3. 7. 1. 12. BIB2. 24. 10. 5. 3. 6. 2. 12. BIB3. 5. 10. 4. 5. 1. 2. BIB4. 20. 10. 4. 2. 5. 1. 8. BIB5. 28. 14. 6. 3. 7. 2. 12. 2. 本研究之 BIB1、BIB5 設計係採曾玉琳、王暄博、郭伯臣、許天維（2006）之設計；BIB2 設計、BIB3 設計及 BIB4 設計係出於 Kuehl（2000），以下則分別介紹上述五種 BIB 設計。. 一、BIB1 設計 BIB1 設計共包含 7 個題本（b=7）、7 個試題區塊（t=7）、每個區塊包含 4 道試題，每個題本包含 3 個試題區塊（k=3）、每一試題區塊在題本中出現的次數為. 27.

(39) 3 次（r=3）且成對區塊在題本中出現的次數只有一次（ λ = 1 ），各題本之測驗長度為 12。如表 3-4 所示，試題區塊 M1~M7 在所有題本配置中，會重複出現 3 次，如試題區塊 M1 出現於題本 S1、S5、S7 中，其餘依此類推。試題區塊的組合不可重複意指題本 S1 試題區塊配置為 M1、M2、M4，則其餘題本不會出現此種組合。表 3-4 BIB1 設計表題本序號區塊位置區塊位置區塊位置 S1 M1 M2 M4 S2 M2 M3 M5 S3 M3 M4 M6 S4 M4 M5 M7 S5 M1 M5 M6 S6 M2 M6 M7 S7 M1 M3 M7. 二、BIB2 設計 BIB2 設計共包含 10 個題本（b=10）、6 個試題區塊（t=6）、每個區塊包含 4 道試題，每個題本包含 3 個試題區塊（k=3）、每一試題區塊在題本中出現的次數為 5 次（r=5）且成對區塊在題本中出現的次數為二次（ λ = 2 ），各題本之測驗長度為 12。如表 3-5 所示，成對區塊在題本中出現的次數為二次意指題本 S1 試題區塊配置為 M1、M2、M5，重複的成對試題區塊為 M1 和 M2，其在題本 S2～S10 僅會再出現一次。BIB2 設計是為了與 NEAT1 設計、PBIB1 設計比較而來，欲瞭解題庫試題固定且各題本試題長度為 12 時，三種等化設計效果何者為佳。表 3-5 BIB2 設計表題本區塊區塊區塊題本區塊區塊區塊序號位置位置位置序號位置位置位置 S1 M1 M2 M5 S6 M2 M3 M4 S2 M1 M2 M6 S7 M2 M3 M5 S3 M1 M3 M4 S8 M2 M4 M6 S4 M1 M3 M6 S9 M3 M5 M6 S5 M1 M4 M5 S10 M4 M5 M6. 28.

(40) 三、BIB3 設計及 BIB4 設計 BIB3 設計如表 3-6 包含 10 個題本（b=10）、5 個試題區塊（t=5）、每個區塊包含 1 道試題，每個題本包含 2 個試題區塊、每一試題區塊在題本中出現的次數為 4 次，各題本之測驗長度為 2。本設計是為了仿效 NAEP(1998)於寫作評量所配置，故特別提出探究。BIB4 之連結設計與 BIB3 設計相同，其相異之處在於每個區塊包含 4 道試題，欲探就測驗長度分別為 2 題、8 題之連結效果。表 3-6 BIB3 設計表題本區塊區塊題本區塊區塊序號位置位置序號位置位置 S1 B1 B2 S6 B1 B3 S2 B2 B3 S7 B3 B5 S3 B3 B4 S8 B5 B2 S4 B4 B5 S9 B2 B4 S5 B5 B1 S10 B4 B1. 四、BIB5 設計 BIB5 設計如表 3-7，共包含 14 個題本（b=14）、7 個試題區塊（t=7）、每個區塊包含 4 道試題，每個題本包含 3 個試題區塊（k=3）、每一試題區塊在題本中出現的次數為 6 次（r=5）且成對區塊在題本中出現的次數為二次（ λ = 2 ），各題本之測驗長度為 12。表 3-7 BIB5 設計表題本區塊區塊區塊題本區塊區塊區塊序號位置位置位置序號位置位置位置 S1 M1 M2 M4 S8 M1 M3 M4 S2 M2 M3 M5 S9 M2 M4 M5 S3 M3 M4 M6 S10 M3 M5 M6 S4 M4 M5 M7 S11 M4 M6 M7 S5 M5 M6 M1 S12 M5 M7 M1 S6 M6 M7 M2 S13 M6 M1 M2 S7 M7 M1 M3 S14 M7 M2 M3. 29.

(41) 第四節 NEAT 設計 NEAT 設計為一般測驗等化常用的等化設計，本研究利用 BIB1 設計和 BIB2 設計的總試題數排列出三種 NEAT 設計，以進行比較 NEAT、PBIB 與 BIB 設計之等化效果。本研究之 NEAT 設計如表 3-8，研究者將三種 NEAT 設計，分別命名為 NEAT1、NEAT2、NEAT3 以做區別。NEAT1 設計與 BIB2、PBIB1 設計做對照； NEAT2 設計與 BIB1 設計做對照；NEAT3 設計與 PBIB2 設計做對照。表 3-8 本研究之 NEAT 設計相關參數連結題庫測驗 b t k 設計總長度長度 NEAT1. 24. 3. 4. 2. 12. NEAT2. 28. 3. 7. 3. 12. NEAT3. 24. 2. 2. 4. 16. NEAT1設計利用BIB2設計的總試題數排列得出，共包含3個題本( b = 3 )、4個試題區塊( t = 4 )、各試題區塊包含6道試題、每個題本包含2個試題區塊( k = 2 )，各題本之測驗長度為12。如表3-9所示，試題區塊N1為NEAT1設計之定錨試題，題本S1試題區塊配置為N1、N2；題本S2試題區塊配置為N1、N3；題本S3試題區塊配置為N1、N4。NEAT2設計利用BIB1設計的試題區塊排列得出，共包含3個題本、7個試題區塊、各試題區塊包含4道試題、每個題本包含3個試題區塊，各題本之測驗長度為12，M1為NEAT2設計之定錨試題，其試題區塊配置如表3-10所示，因此並不再詳述。NEAT3設計利用BIB2設計的總試題數排列得出，共包含2 個題本、3個試題區塊、各試題區塊包含8道試題、每個題本包含2個試題區塊，. 30.

(42) Q1為NEAT3設計之定錨試題，各題本之測驗長度為16，其試題區塊配置如表3-11 所示，因此不再詳述。. 表 3-9 NEAT1 設計表題本區塊區塊序號位置位置 S1 N1 N2 S2 N1 N3 S3 N1 N4. 表 3-10 NEAT2 設計表題本區塊區塊序號位置位置 S1 M1 M2 S2 M1 M4 S3 M1 M6. 表 3-11 NEAT3 設計表題本區塊區塊序號位置位置 S1 Q1 Q2 S2 Q1 Q3. 31. 區塊位置 M3 M5 M7.

(43) 第五節. PBIB 設計. 根據本研究目的設定題本依測驗長度分為三種，設計如表 3-12：第一種題本為了與 BIB2、NEAT1 比較，各題本包含三個試題區塊，測驗長度為 12 道多元計分試題；第二種是為了與第一種題本探究題本試題區塊數對連結效果的影響，故各題本包含四個試題區塊，即測驗長度為 16 道多元計分試題；第三種題本為仿照 NAEP 之題本配置方式，各題本為 2 道多元計分試題。以下則分別介紹本研究使用之 PBIB 設計。表 3-12 本研究之 PBIB 設計相關參數連結題庫測驗 b t k 設計總長度長度 PBIB1. 24. 4. 6. 3. 12. PBIB2. 24. 3. 6. 4. 16. PBIB3. 20. 40. 20. 2. 2. 一、PBIB1 設計 PBIB1 設計是利用 BIB2 設計的試題區塊數排列設計而來，欲比較 NEAT、 PBIB 與 BIB 設計之等化效果，設計如表 3-13。此設計共包含 4 個題本、6 個試題區塊、每個區塊包含 4 道試題，每個題本包含 3 個試題區塊、每一試題區塊在題本中出現的次數為 2 次且成對區塊在題本中出現的次數只有一次，各題本之測驗長度為 12。此設計之所以為 PBIB 設計，乃由於缺少(M1,M5)、(M2,M4)、(M3,M6) 成對出現之情境。表 3-13 PBIB1 設計表題本序號區塊位置區塊位置區塊位置 S1 M1 M2 M6 S2 M1 M3 M4 S3 M2 M3 M5 S4 M4 M5 M6. 32.

(44) 二、PBIB2 設計 PBIB2 設計共包含 3 個題本、6 個試題區塊、每個區塊包含 4 道試題，每個題本包含 4 個試題區塊，各題本之測驗長度為 16，設計如表 3-14。每一試題區塊在題本中出現的次數和 PBIB1 設計同為 2 次（r=2），但是成對試題區塊(M1,M4)、 (M2,M5)和(M3,M6)皆同時重複出現於二個題本，其餘成對試題區塊則在所有題本中僅出現一次。例如(M2,M4)出現於題本 S1 中，則不會在其它題本內出現。本設計是為了與 PBIB1 設計比較題庫試題固定之情境下，不同之試題區塊數對連結所造成的影響並與 NEAT3 設計探討在測驗長度為固定時，PBIB 設計與 NEAT 設計之連結效益。表 3-14 PBIB2 設計表題本序號區塊位置區塊位置區塊位置區塊位置 S1 M1 M4 M2 M5 S2 M2 M5 M3 M6 S3 M3 M6 M1 M4. 三、PBIB3 設計 PBIB3 設計共包含 40 個題本、20 個試題區塊、每個區塊包含 1 道試題，每個題本包含 2 個試題區塊、每一試題區塊在題本中出現的次數為 4 次，各題本之測驗長度為 2，設計如表 3-15。本設計是為瞭解 NAEP 對於寫作評量設計之等化成效，因此題本完全仿照其對寫作評量題本之配置方式。. 33.

(45) 表 3-15 PBIB3 設計表題本區塊區塊題本區塊區塊序號位置位置序號位置位置 S1 P2 P14 S21 P6 P20 S2 P14 P9 S22 P20 P11 S3 P9 P1 S23 P11 P7 S4 P1 P16 S24 P7 P2 S5 P16 P17 S25 P2 P1 S6 P17 P18 S26 P1 P3 S7 P18 P10 S27 P3 P4 S8 P10 P5 S28 P4 P5 S9 P5 P19 S29 P5 P6 S10 P19 P20 S30 P6 P7 S11 P20 P16 S31 P7 P8 S12 P16 P12 S32 P8 P9 S13 P12 P3 S33 P9 P12 S14 P3 P17 S34 P12 P15 S15 P17 P15 S35 P15 P10 S16 P15 P4 S36 P10 P13 S17 P4 P18 S37 P13 P11 S18 P18 P19 S38 P11 P14 S19 P19 P13 S39 P14 P8 S20 P13 P6 S40 P8 P2 資料來源： Allen, Donoghue & Schoeps (2001). 34.

(46) 第六節研究工具本研究所使用到的軟體工具及其功能如下：. 壹、MATLAB MATLAB 的程式語法簡單，具有強大的函數庫功能，尤其是針對矩陣運算應用上相當方便，故研究者選用 MATLAB 來模擬出 BIB 設計、NEAT 設計與 PBIB 設計下受試者的作答反應組型、進行資料檔案轉換、計算試題參數與能力參數的估計誤差以求得估算精準度。. 貳、MULTILOG 本研究使用 MULTILOG(Thissen, 1991)進行測驗之水平等化，分析 GRM 模式下的作答反應資料，以獲得試題參數的估計值與受試者的能力估計值。. 35.

(47) 第四章. 研究結果. 本章分為四節，第一節為 BIB 設計之估計結果；第二節為 PBIB 設計之估計結果；第三節為 NEAT 設計之估計結果；第四節為 BIB、PBIB 與 NEAT 設計之估計結果綜合比較。. 第一節. BIB 設計之估計結果. 不同樣本數下之 BIB 設計的水平等化，經過 100 次的模擬分析後，其能力估計值與試題參數估計值之 RMSE 的平均及 RMSE 的標準差列於表 4-1。表 4-1 BIB 設計之誤差結果表連結. 施測. 設計. 人數 2799. 5598. 誤差值 theta. a. b1. b2. b3. b4. b5. RMSE. 0.3791. 0.0804. 0.1438. 0.0841. 0.0677. 0.1319. 0.1821. STD. 0.0058. 0.0081. 0.0213. 0.0125. 0.0086. 0.0126. 0.0199. RMSE. 0.3775. 0.0562. 0.1050. 0.0594. 0.0477. 0.0645. 0.0981. STD. 0.0035. 0.0081. 0.0213. 0.0125. 0.0086. 0.0126. 0.0199. RMSE. 0.3776. 0.0492. 0.0926. 0.0527. 0.0411. 0.0567. 0.0853. STD. 0.0032. 0.0069. 0.0159. 0.0090. 0.0071. 0.0091. 0.0140. RMSE. 0.3660*. 0.0325*. 0.0585*. 0.0325*. 0.0252*. 0.0363*. 0.0555*. STD. 0.0018. 0.0043. 0.0102. 0.0057. 0.0044. 0.0055. 0.0098. RMSE. 0.3562. 0.0751. 0.1364. 0.0778. 0.0603. 0.0830. 0.1265. STD. 0.0044. 0.0114. 0.0295. 0.0147. 0.0117. 0.0153. 0.0306. RMSE. 0.3555*. 0.0554. 0.0995. 0.0552. 0.0427. 0.0613. 0.0918. STD. 0.0034. 0.0094. 0.0177. 0.0100. 0.0085. 0.0107. 0.0198. RMSE. 0.3556. 0.0471. 0.0803. 0.0469. 0.0384. 0.0531. 0.0800. STD. 0.0028. 0.0068. 0.0160. 0.0089. 0.0087. 0.0115. 0.0194. RMSE. 0.3556. 0.0321*. 0.0532*. 0.0300*. 0.0230*. 0.0334*. 0.0522*. STD. 0.0018. 0.0046. 0.0102. 0.0054. 0.0047. 0.0066. 0.0099. BIB1 7560. 19880. 2800. 5600 BIB2 7560. 19880. 36.