大型測驗不同量尺化程序之等化效果探究

(1)

國立臺中教育大學教育測驗統計研究所理學碩士論文

指導教授：

郭伯臣博士

_{吳慧珉博士}

大型測驗不同量尺化程序

之等化效果探究

研究生：詹慧君撰

中

華

民

國

一

百

年

六

月

(2)

(3)

摘要

本研究欲探討在進行測驗等化時，不同量尺化方法於不同年度間等化效果的差異。以試題反應理論（item response theory, IRT）三參數 Logistic 模式（three-parameter

logistic model）為基礎，進行模擬實驗，探討不同受試人數、不同定錨試題比例及不同題本長度於不同量尺化程序中的等化效果。

研究中主要的變項設定為：（一）量尺化方法為PISA使用之量尺化方法、固定試題參數量尺化方法（fixed-item scaling method）、NAEP與TIMSS使用之量尺化方法及

同時估計量尺化方法（concurrent calibration scaling method）；（二）受試人數為5460 人、7540人及10062人；（三）不同定錨試題比例為10％、20％及30％；（四）不同題本長度為30題及60題；（五）兩年度受試者能力差距分為無差距、小差距及大差距。本研究結果發現： 1. 兩年度受試者能力無差距時，NAEP 與 TIMSS 使用之量尺化方法的估計效果最好，但差距不大，可藉由增加受試者人數、定錨試題比例及題本長度而降低估計誤差值。 2. 兩年度受試者能力小差距時，同時估計量尺化方法的估計效果最好，但差距不大，可藉由增加定錨試題比例及題本長度而降低估計誤差值。 3. 兩年度受試者能力大差距，PISA 使用之量尺化方法的估計效果最好，但差距不大；而 NAEP 與 TIMSS 使用之量尺化方法的估計效果最差。關鍵字：大型測驗、測驗等化、同時估計法、量尺化方法

(4)

Abstract

The research aims to discuss the differences of equating effects of different test equating method within different years when test equating is processed. Simulation examinations are proceeded based on IRT 3PL method to discuss the differences of equating effects within different population tested, different proportion of anchor items and different number of test items within different process of scaling.

The settles of main variables in the research are as following:(1)the scaling methods used by PISA, fixed-item scaling method, scaling method adopted by NAEP and TIMSS and concurrent calibration scaling method;(2)the populations on test are 5460, 7540 and 10062 respectively;(3)the proportions of different anchor items are 10%, 20%, and 30%;(4)the different number of test items are 30 and 60; (5)the different range of ability distribution are no difference, small difference, and large difference.

Followings are the findings of the research:

1. When there is no difference in ability distribution, the estimation error could be reduced by increasing tested population, the proportion of anchor items and the number of test items. The equating effects of the scaling method used by NAEP and TIMSS and concurrent calibration scaling method are much better than those adopted by fixed-item parameter scaling method and the scaling methods used by PISA;

2. When there is a small differencein ability distritution, the estimation error could be reduced by increasing the proportion of anchor items and the number of test items. The equating effects of the concurrent calibration scaling method are the best;

3. When there is a large differencein ability distritution, the estimation error could be reduced by increasing the number of test items. The equating effects of the scaling method used by NAEP and TIMSS are the worst.

Key words: large-scale assessments, test equating, concurrent calibration, scaling methods

(5)

致謝

感謝指導教授郭伯臣教授及吳慧珉教授的悉心指導，才能完成本論文，三年來，在測統所的學習獲益匪淺。感謝口試委員曾建銘老師及謝名娟老師在百忙中審閱論文的，您們的指正與見解使得論文內容更完備。感謝暄博學長的照顧，協助我解決論文上所有的難題，因為你的幫助我才能度過每一次的挫折，才能順利完成論文。感謝雅玲、艷鴽三年來的勉勵與打氣，從暑期班一起重考夜間班的革命情感，一起參加研討會，一起準備作業，你們的相伴讓熬夜跑程式變得不那麼折磨，令我永生難忘。感謝家人的關懷與幫助，深夜的一聲“加油＂，讓我更堅持走下去；感謝同事們的叮嚀及督促，讓我更有動力完成論文。最期盼的時刻終於來到，感謝所有幫助我、關心我的人，謝謝你們。詹慧君中華民國一百年七月

(6)

目錄

摘要...Ⅰ 目錄...IV 表目錄... V 圖目錄...VI 第一章緒論...1 第一節研究背景與動機...1 第二節研究目的...2 第三節名詞釋義...3 第二章文獻探討...5 第一節大型測驗...5 第二節測驗等化...7 第三節大型測驗之等化估計方法...10 第三章研究方法...13 第一節研究流程...13 第二節模擬研究變項設計...14 第三節等化設計...16 第四節量尺化程序...18 第五節估計精準度...20 第四章研究結果...21 第一節兩年度受試者能力無差距之等化效果...21 第二節兩年度受試者能力小差距之等化效果...27 第三節兩年度受試者能力大差距之等化效果...34 第四節不同受試者能力分布差距之等化效果...40 第五章結論與建議...47 第一節結論...47 第二節改進建議...48 參考文獻...49 中文部分...49 英文部分...50 附錄一兩年度受試者能力無差距之估計誤差...53 附錄二兩年度受試者能力小差距之估計誤差...54 附錄三兩年度受試者能力大差距之估計誤差...55

(7)

表目錄

表 3-1 共同變項設定...14 表 3-2 BIB 等化設計...17 表 3-3 定錨試題題數分配...17

(8)

圖目錄

圖 3-1 研究流程圖...13 圖 4-1 受試者人數 5460 人之 RMSE...21 圖 4-2 受試者人數 7540 人之 RMSE...22 圖 4-3 受試者人數 10062 人之 RMSE...22 圖 4-4 定錨試題比例 10％之 RMSE...23 圖 4-5 定錨試題比例 20％之 RMSE...24 圖 4-6 定錨試題比例 30％之 RMSE...24 圖 4-7 題本長度 30 題之 RMSE...25 圖 4-8 題本長度 60 題之 RMSE...25 圖 4-9 不同受試者人數之 RMSE...26 圖 4-10 不同定錨試題比例之 RMSE...27 圖 4-11 不同題本長度之 RMSE...27 圖 4-12 受試者人數 5460 人之 RMSE...28 圖 4-13 受試者人數 7540 人之 RMSE...28 圖 4-14 受試者人數 10062 人之 RMSE...29 圖 4-15 定錨試題比例 10％之 RMSE...30 圖 4-16 定錨試題比例 20％之 RMSE...30 圖 4-17 定錨試題比例 30％之 RMSE...31 圖 4-18 題本長度 30 題之 RMSE...32 圖 4-19 題本長度 60 題之 RMSE...32 圖 4-20 不同受試者人數之 RMSE...33 圖 4-21 不同定錨試題比例之 RMSE...33 圖 4-22 不同題本長度之 RMSE...34 圖 4-23 受試者人數 5460 人之 RMSE...35 圖 4-24 受試者人數 7540 人之 RMSE...35 圖 4-25 受試者人數 10062 人之 RMSE...36 圖 4-26 定錨試題比例 10％之 RMSE...36 圖 4-27 定錨試題比例 20％之 RMSE...37 圖 4-28 定錨試題比例 30％之 RMSE...37 圖 4-29 題本長度 30 題之 RMSE...38 圖 4-30 題本長度 60 題之 RMSE...38 圖 4-31 不同受試者人數之 RMSE...39 圖 4-32 不同定錨試題比例之 RMSE...39 圖 4-33 不同題本長度之 RMSE...40 圖 4-34 受試者人數 5460 人於不同受試者能力分布之 RMSE ...41

(9)

圖 4-35 受試者人數 7540 人於不同受試者能力分布之 RMSE ...41 圖 4-36 受試者人數 10062 人於不同受試者能力分布之 RMSE ...42 圖 4-37 定錨試題比例 10％於不同受試者能力分布之 RMSE ...42 圖 4-38 定錨試題比例 20％於不同受試者能力分布之 RMSE ...43 圖 4-39 定錨試題比例 30％於不同受試者能力分布之 RMSE ...44 圖 4-40 題本長度 30 題於不同受試者能力分布之 RMSE ...44 圖 4-41 題本長度 60 題於不同受試者能力分布之 RMSE ...45

(10)

第一章緒論

本研究藉由探討國內外大型測驗（large-scale assessments）於不同年度間的量尺化程序（scaling procedures），擬透過模擬實驗方式進行受試者能力值估計效果之探究。本章將針對研究背景與動機、研究目的及名詞釋義進行闡述。

第一節研究背景與動機

為了長時間追蹤學生學習變化的趨勢，檢視國家教育體制與政策，許多國家皆透過教育資料庫之建置，以做為教學改進、制定政策的參考依據。「國家教育進展評量（National Assessment of Educational Progress, NAEP）」、「國際數學與科學教育成就

趨勢調查（Trends in International Mathematics and Science Study, TIMSS）」、「學生能力國際評量計劃（the Programme for International Student Assessment, PISA）」皆是國

際上相當著名的大型測驗。在國際逐漸重視大型測驗之際，臺灣除了積極參與國際性教育資料庫的建置之外，並於 2006 年成立「臺灣學生學習成就評量資料庫（Taiwan

Assessment of Student Achievement, TASA）」，針對國小、國中及高中職三個教育階段

建立國語文、英語文、數學、社會及自然五科之學習成就資料庫，並積極與國際接軌，加入國際比較的行列（臺灣學生學習成就評量資料庫網站，2011）。綜合以上發現，大型測驗已受到矚目，國內外皆十分重視此議題，並致力於此。然而，為了達到長期追蹤學生學習成就的趨勢的目標，在建置大型測驗資料庫的過程中，必須透過量尺化程序建立共同量尺。量尺化程序是指透過適當的測驗等化（test equating）方法，將不同的測驗分數連結（linking）至相同的量尺上，以進行受試者學習成就的比較與測驗分數的解釋。郭伯臣與王暄博（2008）指出要建立共同量尺必須考慮同年級不同測驗間之連結（linking）、不同年級不同測驗間之連結、同年級不同年度測驗間之連結、不同年級不同年度測驗間之連結。因此，為考慮施測不同題本

(11)

（booklet）的測驗分數能建立在同一個量尺上，大型測驗必須定期地進行受試者能力

參數與試題參數之連結，也就是必須選擇適當的量尺化方法。近年來，較常被使用的量尺化方法（scaling methods）是以試題反應理論（item response theory, IRT）為基礎

的同時估計法（concurrent calibration）與分開估計法（separate estimation）。Hanson 與

Beguin（2002）指出，同時估計法在進行測驗等化時有較佳的等化效果。且國內外的大型測驗，例如 NAEP、TIMSS、TASA 等在同年度不同測驗間皆使用同時估計法來進行量尺化程序（scaling procedures）（Allen & Schoeps, 2001；John, Michael, & Ina,

2008；國家教育研究院，2010）。然而，Qian（2005）指出 NAEP 在連結不同年度測驗量尺分數時，必須透過線性轉換的量尺化程序；John, Michael, 與 Ina（2008）的技

術報告中指出 TIMSS 在進行不同年度測驗量尺分數之連結，採用 NAEP 的量尺化方法；Margaret Wu（2009）於臺中教育大學舉辦的「2009 大型測驗暨 ConQuest 工作坊」

中提到 PISA 在連結不同年度測驗量尺分數時，亦使用了線性轉換的量尺化程序，但

PISA 使用之線性轉換程序與 NAEP 和 TIMSS 不同。此外，國家教育研究院（2010）的研究報告中指出 TASA 在連結不同年度測驗量尺分數時，則使用固定試題參數（fixed-item parameter）的量尺化方法。是故，本研究欲以模擬研究的方式比較不同的

量尺化方法於不同年度測驗之連結成效，並加入一般較為常見的同時估計量尺化方法。

第二節研究目的

本研究欲探討不同量尺化方法於不同年度間之連結效果，包括同時估計量尺化方法（concurrent calibration scaling method）、NAEP 與 TIMSS 使用之量尺化方法、PISA

使用之量尺化方法（OECD scaling method）以及固定試題參數（fixed-item parameter）量尺化方法。本研究的變項包括：量尺化方法、題本長度、定錨試題比例及受試人數。

綜合上述，將研究項目羅列如下：一、不同量尺化方法之等化效果。

(12)

二、不同測驗題本長度於不同量尺化方法之等化效果。三、不同定錨試題比例於不同量尺化方法之等化效果。四、不同受試人數於不同量尺化方法之等化效果。五、不同受試者能力分布差距於不同量尺化方法之等化效果。

第三節名詞釋義

一、量尺化方法

量尺化方法（scaling methods）可以將一測驗分數轉換到另一份測驗的分數量尺上，使其分數能相互比較的程序。本研究欲比較不同大型測驗在進行量尺化程序所使

用的方法，包括同時估計量尺化方法、NAEP 與 TIMSS 使用之量尺化方法、PISA 使用之量尺化方法與 TASA 使用之固定試題參數量尺化方法。

二、 NAEP 與 TIMSS 使用之量尺化方法

美國教育研究社（Educational Testing Service, ETS）是個教育測驗與評量機構，亦協助個人、教育組織或國家進行教育研究，提供有關國際性測驗的相關訊息，例如：

TOEFL、TOEIC、GRE 等（Allen, Donoghue, & Schoeps, 2001），而 NAEP 亦是由 ETS

主辦的測驗；John, Michael, 與 Ina（2008）指出 TIMSS 於不同年度間量尺化程序所

使用的方法與 ETS 設計的方法相同。因此，本研究將 NAEP 與 TIMSS 在不同年度間量尺化程序所使用的轉化方法稱為 NAEP 與 TIMSS 使用之量尺化方法。

三、 PISA 使用之量尺化方法

PISA 於 2000 年由 OECD 推動，目的是研究學生生活知能的學習成效，到了 2009 年已有 68 個國家參與計畫（OECD, 2009）。本研究將 PISA 在不同年度間量尺化程序所使用的方法稱為 PISA 使用之量尺化方法。

四、同時估計量尺化方法

(13)

同時估計法透過等化設計同時對測驗的所有試題進行校準，將所有受試者能力值與試題參數放在共同量尺上，以進行比較。而 NAEP、TIMSS 以及 TASA 在同年度不同測驗間皆採用此方法來進行量尺化程序，但和進行不同年度間量尺化程序的方法不同，因此，本研究欲探討同時估計法之等化效果，並將同時估計法定義為同時估計量尺化方法。

五、固定試題參數量尺化方法

TASA 使用固定試題參數法進行不同年度間的量尺化程序，藉由固定定錨試題參數建立兩份測驗分數的共同量尺，本研究將之稱為固定試題參數量尺化方法（國家教育研究院，2010）。

(14)

第二章文獻探討

本研究欲探討不同年度間不同量尺化方法等化效果的差異，故本章將針對大型教

育測驗、測驗等化及大型教育資料庫之等化估計方法等相關文獻分析整理。

第一節大型測驗

壹、國家教育進展評量（NAEP）

NAEP 是由美國教育部教育統計中心（U.S. Department of Education National Centerfor Education Statistics）主辦，成立的目的在長時間測量教育發展情形，了解美國學生在主要課程中應該知道以及執行的能力，由美國教育研究社（Educational Testing

Service, ETS）協助進行教育研究（Allen & Schoeps, 2001）。

從 1969 年開始，針對 4 年級、8 年級及 12 年級學生進行學科評量，涵蓋的範圍廣泛，其中較常見的能力包括閱讀、數學、科學、寫作、公民、地理、美國歷史與藝

術。各學科施測的時間不同，閱讀、數學及科學每兩至三年評量一次，其他學科每兩年、三年、五年甚至每八年才評量一次。

NAEP 依目的不同可分為主要評量（main）及長期發展趨勢評量（long-term trend）兩種，主要評量的結果表示在主要課程領域中學生應該知道並實現的能力，著重於學

生正在學習的內容；而長期發展趨勢評量的結果則顯示長時間的教育發展情形，著重於學生閱讀及數學能力長期發展的趨勢。

貳、學生基礎素養國際研究計畫（PISA）

OECD（2009）指出，此研究計畫由「經濟合作暨發展組織」（Organization for

Economic Co-operation and Development, OECD）主辦，以終身學習的角度來評量學生是否有能力應付未來的世界，評估完成基礎教育的 15 歲學生是否習得未來面對問題環境所需的知識和技能，試題設計重視應用與模擬情境，不侷限於課程內容，著重於理

(15)

解、統整資訊後，進行評鑑及省思的過程，最終能靈活運用。 PISA 是持續進行的計畫，長期蒐集各國測驗訊息，以追蹤、比較各國學生知識與技能的變化趨勢，每三年舉辦一次，針對參與國 15 歲學生進行閱讀素養、數學素養及科學素養之評量，每次評量從三項素養中擇一做為主項目，約佔施測時間的三分之二，另外兩項素養為輔，例如 PISA 在 2012 年的施測將以數學素養為主科，閱讀和科學為輔。 PISA 自 2000 年第一次實施，僅 43 個國家參與，發展至今，2009 年已有 68 國參與其中，而臺灣亦於 2006 年加入此計畫且預計參與 2012 年的計畫。由此可知，PISA 評量理念及品質已獲得國際的肯定。

參、國際數學與科學教育成就趨勢調查（TIMSS）

TIMSS 是由「國際成就調查委員會」（The International Association for the Evaluation

of Education Achievement, IEA）主辦，目的在評量學生數學及科學表現趨勢發展，致力於改善全球數學及科學教學及學習。自 1999 進行 TIMSS-R（TIMSS-REPEAT）後，每四年舉辦一次，針對國小四年級及國中二年級進行數學及科學成就之評量（Mullis,

Martin, Ruddock, O'Sullivan, Arora, & Eberber, 2005）。

TIMSS 是一個跨國際的研究計畫，透過問卷廣泛的蒐集參與國的教育背景資料，綜合測驗及問卷資料分析後，比較參與國家的教育成效，至 2011 年已有超過 60 個國家參與其中（TIMSS & PIRLS International Study Center, 2011）。臺灣首次參與國際大

型測驗即加入此研究計畫，於 1999 年完成 TIMSS-R 相關工作，近一步比較我國學生與國際間數學及科學的學習成效，可提供我國數學及科學教育實施參考之用。

肆、臺灣學生學習成就評量資料庫（TASA）

根據中華民國教育部國民中小學九年一貫課程推動工作小組第 43 次會議決議：「有關學生學習成就調查是本部研訂課程與教學政策之重要參據，有必要進行常態性之資料建立。」因此成立「臺灣學生學習成就評量資料庫」，針對國小、國中及高中職

(16)

三個教育階段建立國語文、英語文、數學、社會及自然五科之學習成就資料庫，以追蹤學生的學習變化趨勢，進而檢視國家課程及教學成效。 TASA 的施測對象為國小四年級、國小六年級、國中二年級及高中職二年級學生， 2005 至 2007 年間全面施測，從 2009 年起每三年施測一次，以利建置完整的資料庫，長期觀察學生的成就趨勢（臺灣學生學習成就評量資料庫網站，2011）。

伍、小結

綜合上述介紹，為了長期觀察學生學習成就的趨勢，大型測驗每幾年施測一次。然而，不同年度間測驗的分數不可直接比較，必須透過量尺化程序建立不同年度間測驗分數之共同量尺，方能進行比較。本研究欲探討不同量尺化方法之等化效果。

第二節測驗等化

測驗等化利用統計的方法，將受試者在一份測驗的分數轉換到另一份測驗的分數量尺上，使其分數能相互比較，其目的是為了校準試題難度的差異，結果並不會因時間或人而有所改變（Michael ＆ Robert, 2004）。

進行測驗等化必須滿足對稱性（ symmetry property ）、相同試題規格（ same

specifications property）、相等性（equity properties）、觀察分數等化性質（observed score

equating properties）及群體不變性（group invariance property）五項特質（Michael &

Robert, 2004）。以下介紹測驗等化的種類及量尺化方法相關文獻。

壹、測驗等化的種類

測驗等化的種類分為水平等化及垂直等化兩種，介紹如下（王暄博，2006）：一、水平等化（horizontal equating）：當一測驗有數個測量相同特質的不同題本，且試題難度與受試者能力分布相似時，即可進行水平等化的技術，亦即將兩個或兩個以上測量相同特質、相同能力的測驗分數利用測驗等化技術進行轉換的過程。為了降低練習因素（practice effect）以保

(17)

護試題的安全性（test security），因此，利用題庫建立數個類似平行測驗（parallel test）的題本，再透過量尺等化（scale equating）程序比較這些不同測驗的結果，將不同測驗分數轉換至相同量尺上，此過程稱為水平等化。水平等化的應用廣泛，例如：托福、 GRE等，皆有多種複本測驗，一年可以進行多次考試；除此之外，大型測驗的量尺化程序中，同年度間測驗等化即屬於水平等化。二、垂直等化（vertical equating）當一測驗有數個測量相同特質的不同題本，而試題難度與受試者能力分布卻不相同時，即可進行垂直等化的技術，亦即將兩個或兩個以上測量相同特質、不同能力的測驗分數利用測驗等化技術進行轉換的過程。為了比較不同題本的分數，必須透過量尺等化（scale equating）程序建立題本間的等化分數。此類測驗的受試者能力屬於不

同年齡或不同年級的分配情形，例如：愛奥華基本技能測驗（Iowa Test of Basic Skills），

就是透過垂直等化進行測驗分數的連結。三、小結本研究提到的國內外大型測驗建置的共同目的之一，即追蹤受試者的能力變化情況，為達成此目的必須藉助等化技術，同時進行水平等化及垂直等化（陳煥文，2004）。例如，本研究大型測驗同年度及不同年度間測驗等化使用水平等化設計，將不同測驗分數轉換至共同量尺上，以作為比較各國、各地區、各學校、及個人表現的依據；以比較跨學科、跨年級、甚至跨年度的測驗分數。

貳、等化估計方法

等化估計方法分為古典測驗理論（classical test theory, CTT）等化估計方法及試題

反應理論（item response theory, IRT）等化估計方法。Crocker 與 Algina（1986）指出

CTT等化估計方法利用原始總分來進行量尺化程序，其中最常見的三種方法為平均數等化（mean equating）、線性等化（linear equating）及等百分位數等化（equipercentile

(18)

IRT等化估計方法估計不同群組受試者反應資料的試題參數及能力參數，經過連結（linking）將參數轉換至同一量尺，以進行比較。其大致分為同時估計法(concurrent

estimation)及分開估計法(separate estimation)兩大類（Michael ＆ Robert, 2004）。

一、同時估計法

此方法藉由等化設計對所有測驗的試題同時進行校準，即可將所有受試者能力值

與試題參數放在相同量尺上。等化設計時，各測驗皆設有定錨試題，利用定錨試題將所有測驗反應資料合併，同時進行參數估計，方能使所有測驗的受試者能力值及試題

參數在同一個量尺上，以利進行比較(Mislevy & Bock, 1982)。

等化過程中藉由等化係數將不同測驗題本的試題參數值放在同一量尺上，而其中

的風險來自於等化係數估計值正確與否，此問題可透過使用同時估計法來解決。因此，同時估計法優於以線性技術為基礎的等化方法，例如：特徵曲線法（Stocking & Lord,

1983）。

二、分開估計法

此方法先分別估計兩份不同測驗之試題參數，再藉由各測驗中的定錨試題參數得到量尺之間的轉換係數，將不同測驗量尺轉換至同一量尺，以便進行比較，其中較為

人所知的方法為平均數法（mean method）、平均數與標準差法（mean and sigma method）

及特徵曲線法（characteristic curve method）。

三、小結

許多文獻指出，同時估計法比分開估計法擁有較佳估計精準度（Anton & Bradley,

2001；Hanson & Beguin, 2002；黃美芳，2006；陳煥文，2004），Hanson與Beguin（2002）指出在同年度間不同測驗時，同時估計法在樣本數較大時比分開估計法有較佳的等化

效果；Simon（2008）指出在樣本數較大時同時估計法比分開估計法擁有較佳的估計精準度，尤其是在施測試題數量少的情況下，兩者估計精準度差異會越大。而大型測

驗將同時估計法使用於同年度間的量尺化程序，與不同年度間使用的量尺化方法不同。因此，本研究擬使用同時估計法於不同年度間測驗。

(19)

第三節大型測驗之等化估計方法

NAEP、TIMSS、PISA、TASA 等大型測驗在同年度不同測驗皆使用同時估計法來進行量尺化程序（Allen & Schoeps, 2001；Mullis, Martin, Ruddock, O'Sullivan, Arora &

Eberber, 2005；臺灣學生學習成就評量資料庫網站，2011）。然而，並沒有相關研究探

討不同年度間測驗量尺化程序使用何等化方法有較佳的等化效果，因此，本研究欲探討大型測驗不同年度間量尺化方法。

壹、 NAEP 與 TIMSS 使用之量尺化方法

NAEP 是由 ETS 協助進行研究，於不同年度間量尺化程序是經由同時校準連結兩個年度的測驗，再藉由共同群體（common population）及線性轉換（linear transformation）

將兩次測驗連結在一起。以連結 NAEP2003 與 NAEP20005 兩個年度測驗為例，其量尺化程序如下（Allen & Schoeps, 2001）：

一、取得 2003 年公布的 NAEP2003 測驗估計值之平均數與標準差；二、將 2003 與 2005 兩個不同母群的測驗結果同時估計；

三、取出步驟二中 2003 的估計值，將其平均數與標準差轉換至步驟一所取得之平均數與標準差；

四、取出步驟二 2005 的估計值，使用步驟三的轉換方法得一新估計值。

John, Michael 與 Ina（2008）指出，TIMSS 量尺化程序亦是由 ETS 執行，以

TIMSS2003 與 TIMSS2007 不同年度間的量尺化程序為例，步驟有三：一、將 2007 測驗透過定錨試題與 2003 測驗同時估計；二、將前一步驟所得之 2003 測驗分布透過線性轉換至 2003 年公布之 TIMSS2003 測驗分布；三、將步驟二之線性轉換公式運用於步驟一所產生之 2007 測驗分布，即可建立 2003 與 2007 兩個年度測驗共同量尺。上述步驟中第一年度在之前報告中所得的能力分布，與兩年度透過定錨試題同時

(20)

估計後的能力分布有些微的位移，但差距不大，透過線性轉換的步驟可以消除此差距，

而建立兩年度的共同量尺（John, Michael, & Ina, 2008）。

綜合以上，NAEP 及 TIMSS 的量尺化程序皆由 ETS 執行，所使用的量尺化方法

相同，本研究將兩大型測驗不同年度間的等化方法稱為 NAEP 與 TIMSS 使用之量尺化方法。

貳、 PISA 使用之量尺化方法

PISA 是由 OECD 主辦的研究計畫，本研究將其不同年度間的等化方法稱為 PISA 使用之量尺化方法。其量尺化方法如下，以 PISA2000 與 PISA2003 兩個不同年度間量尺化程序為例（OECD, 2009）：一、單獨估計 2003 之試題參數；二、將 2000 測驗資料在固定 2003 定錨試題參數後重新估計；三、比較步驟二所得之平均數與標準差與 PISA2000 年報告之平均數與標準差，將 2003 之量尺分數透過線性轉換至 2000，以建立共同量尺。

參、 TASA 使用之固定試題參數量尺化方法

TASA 在不同年度間量尺化程序是採取固定試題參數法（ fixed-item linking

method），再運用同時估計法將所有試題一起估計，獲得新的量尺分數。以 TASA2006 與 TASA2007 兩年度間量尺化程序為例，將 2006 年報告之 2006 定錨試題參數固定後，放進 2007 資料中，估計 2007 試題參數及能力值。Zhang（2010）指出當兩組受試者能力分布相似時進行量尺化程序，使用固定試題參數法與同時估計法的估計誤差值差異不大，但兩組受試者能力分布差異變大時，使用固定試題參數法比同時估計法產生更大的估計誤差值。

(21)

(22)

第三章研究方法

本章分為五節，包括研究流程，模擬研究變項設計、等化設計、量尺化程序、以

及估計精準度，茲說明如下。

第一節研究流程

本研究以試題反應理論中的三參數 logistic 模式（three-parameter logistic model）為基礎，欲透過模擬研究方式探討不同量尺化方法於不同年度測驗之等化效果，研究流程如圖 3-1。 圖 3-1 研究流程圖 圖 3-1 為本研究流程圖，本研究依據文獻探討比較四種量尺化方法於不同年度測文獻蒐集與探討設定研究主題產生模擬資料研究變項設定不同量尺化方法參數估計精準度撰寫研究報告

(23)

驗之等化效果，包括 NAEP 與 TIMSS 使用之量尺化方法、PISA 使用之量尺化方法、固定試題參數量尺化方法及同時估計量尺化方法。其中，模擬研究變項設定、等化設計、以及量尺化程序等研究步驟將分段詳列於後。

第二節模擬研究變項設計

本研究藉由模擬資料之程序，欲探討不同量尺化方法於不同年度測驗之等化效果，因此，茲將模擬研究變項設定與研究步驟分別說明如下：

壹、研究變項設定

一、共同變項設定本研究模擬不同年度題庫資料，將共同變項設定整理如表 3-1。 表 3-1 共同變項設定 研究變項變項設定測驗題本長度 30題、60題各題本配置的試題區塊數 3個定錨試題比例 10％、20％、30％量尺化方法 NAEP 與 TIMSS 使用之量尺化方法 PISA 使用之量尺化方法固定試題參數量尺化方法同時估計量尺化方法受試人數 5460 人、7540 人、10062 人兩年度受試者能力差距無差距小差距大差距等化設計 BIB 模擬次數 100 次根據研究目的，依各變項分別模擬兩個年度不同情境的測驗資料，研究變項敘述如下：

(24)

1. 測驗題本長度設定：模擬 30 題、60 題兩種題本長度。 2. 各題本配置的試題區塊數設定：在題本長度為 30 題、60 題的情況下，皆設定 3 個題本試題區塊數。即題本長度為 30 題時，每個試題區塊為 10 題；題本長度為 60 題時，每個試題區塊為 20 題。 3. 定錨試題比例設定：NAEP、PISA 及 TIMSS 三大國際教育測驗的定錨試題比例大多介於 20％～25％之間，本研究亦欲探討比例增加或減少對等化效果的影響，因此在題本長度為 30 題、60 題的情況下，分別將定錨試題比例定為 10％、 20％及 30％。亦即題本長度為 30 題時，其定錨試題為 3 題、6 題或 9 題；題本長度為 60 題時，其定錨試題為 6 題、12 題或 18 題。 4. 受試人數設定：根據 TASA 計畫模擬受試人數 10062 人及 7540 人，本研究欲探討人數減少對等化效果的影響，因此模擬 5460 人，共三種受試人數。 5. 兩年度受試者能力分布差距設定：本研究模擬三種兩年度受試者能力差距，包括無差距、小差距及大差距（Wong-Chan Lee, 2009），說明如下。 (1)兩年度受試者能力無差距：兩年度受試者能力分布皆為 N（0,1），範圍為 (-3~3)； (2)兩年度受試者能力小差距：兩年度受試者能力分布分別為 N(-0.05,1)及 N(0.05,1)，範圍為(-3~3)； (3)兩年度受試者能力大差距：兩年度受試者能力分布分別為 N(-0.3,1)及 N(0.3,1)，範圍為(-3~3)。為求研究結果的穩定及精確，上述各種不同變項均進行 100 次的模擬資料，來估計受試者能力參數及試題參數，並計算各參數之根均方差（root mean square error,

RMSE）。

二、試題參數分布設定

1. 鑑別度參數：研究指出鑑別度參數近似於 lognormal 分布（Mislevy, 1986），故採

(25)

2. 難度參數：截尾常態分布 N（0,1），範圍為−3~3。

3. 猜測度參數：根據文獻建議猜測度參數模式採 beta 先驗分布（Swaminathan &

Gifford, 1986），因此，本研究猜測度參數為 beta（4,16），範圍為0~0.25。

貳、模擬實驗步驟

本研究運用電腦產生兩個年度題庫模擬資料，步驟如下：一、依據參數設定及變項設定，模擬兩年度測驗的真實資料，包括試題參數及受試者能力參數；二、將試題參數及受試者能力參數代入試題反應三參數模式計算受試者作答各試題的答對機率值P(θ)；三、隨機產生一組服從U(0,1)之數值，與受試者作答各試題的答對機率值P(θ)比較，若受試者作答反應P(θ)大於U(0,1)視為答對，反之則是為答錯，依此方式產生受試者作答反應；四、將試題作答反應分成 13 個試題區塊，採用平衡不完全區塊測驗等化設計（BIB 設計），螺旋式排列配置試題區塊，建置 26 個題本，區塊間與區塊內的試題皆不重複；五、利用受試者作答反應進行本研究各變項設定的參數估計；六、重複上述實驗程序 100 次，以比較不同變項設定的估計精準度。

第三節等化設計

量尺化程序包括同年度不同題本間的量尺化以及不同年度間的量尺化。NAEP 及

TASA 在同年度不同題本間量尺化程序的題本設計使用 BIB（balanced incomplete block,

BIB）及 PBIB（partially balanced incomplete block deign, PBIB）設計；PISA 及 TIMSS

則使用 BIB 設計（OECD, 2009；John, Michael, & Ina, 2008）。而 NAEP、PISA 及 TIMSS

(26)

了使研究結果能應用於國內大型教育測驗，故受試者與題本配置採取 TASA 等化設計配置方法。本研究模擬兩個不同年度測驗資料，將所有試題分成 13 個試題區塊（M1~M13），再以 BIB 設計編成 26 個題本（S1~S26），每個題本皆包含 3 個試題區塊，如表 3-2。 表 3-2 BIB 等化設計 題本試題區塊題本試題區塊 S1 M1 M10 M11 S14 M1 M4 M12 S2 M6 M8 M11 S15 M6 M10 M13 S3 M2 M6 M12 S16 M3 M7 M13 S4 M7 M9 M10 S17 M8 M9 M12 S5 M2 M7 M11 S18 M2 M4 M10 S6 M4 M6 M7 S19 M3 M5 M6 S7 M1 M7 M8 S20 M5 M8 M10 S8 M1 M6 M9 S21 M2 M5 M9 S9 M11 M12 M13 S22 M4 M9 M13 S10 M5 M7 M12 S23 M1 M5 M13 S11 M3 M9 M11 S24 M2 M8 M13 S12 M3 M10 M12 S25 M4 M5 M11 S13 M1 M2 M3 S26 M3 M4 M8 為了不同年度間的比較，必須從試題中選取定錨試題作為連結之用。依照研究變項設計，分別選取每題本試題數的 10％、20％及 30％作為定錨試題，選取標準以鑑別度高者為優先。例如：在題本長度 30 題、定錨試題比例為 10％的情況下，每個試題區塊中選取鑑別度最高的 1 題為定錨試題（每個試題區塊 10 題，10％為 1 題），每個題本有 3 個試題區塊，因此應有 3 題定錨試題。其他模擬情境以此類推，如表 3-3。表 3-3 定錨試題題數分配定錨比例題本長度試題區塊題數定錨試題題數各年度施測總題數兩年度施測總題數 30 題 10 題 3 題 130 247 10％ 60 題 20 題 6 題 260 494

(27)

30 題 10 題 6 題 130 234 20％ 60 題 20 題 12 題 260 468 30 題 10 題 9 題 130 221 30％ 60 題 20 題 18 題 260 442

第四節量尺化程序

量尺化程序是指將兩個測驗分數轉換到相同分數量尺上，使其分數能相互比較的程序。本研究欲探討不同年度間量尺化程序之等化效果差異，以下分別介紹本研究所使用的量尺化方法及步驟。

壹、NAEP 與 TIMSS 使用之量尺化方法估計程序

一、使用同時估計法求得第一年度之能力估計值（平均數μ1及標準差σ1）並獲得第一年度量尺；二、使用同時估計法估計第一年度與第二年度參數，並獲得一個臨時性量尺（provisional scale）；三、由臨時性量尺中挑出第一年度的能力估計值（平均數 * 1 μ 及標準差 * 1 σ ）；四、藉由線性轉換程序求出轉換係數（A、B），透過轉換係數將臨時性量尺中第一年度的能力估計值轉換至原本第一年度的能力估計值；五、透過相同程序，藉由轉換係數求得第二年度的能力估計值（臨時性量尺）。線性轉換方法如下： * 1 1 Z Z = * 1 * 1 * 1 1 1 1 σ μ θ σ μ θ − ₌ − * 1 * 1 1 * 1 * 1 1 1 1 _σ μ σ θ σ σ μ θ − = − * 1 * 1 1 1 * 1 * 1 1 1 _σ μ σ μ θ σ σ θ = + − 令 _* 1 1 σ σ = A ， * 1 1 μ μ A B= −

(28)

B A + = * 1 1 θ θ 其中，θ 為原本第一年的能力估計值； 1 * 1 θ 為臨時性量尺中第一年度的能力估計值。

貳、PISA 使用之量尺化方法估計程序

一、透過同時估計法分別估計第一年度與第二年度資料，獲得第一年度試題參數估計值及能力估計值（平均數μ 及標準差1 σ ）及第二年度試題參數估計值及能力估計1 值（平均數μ 及標準差2 σ ）； 2 二、透過固定試題參數法重新估計第一年度的能力估計值（平均數 * 1 μ 及標準差 * 1 σ ）；三、透過線性轉換程序獲得第二年度能力估計值。線性轉換方法如下： 1 1 * 1 * 1 2 2 ) ( _σ _μ σ μ θ θnew = − × + 其中，θ 為步驟一之第二年度能力估計值； 2 new 2 θ 為透過線性轉換後獲得之第二年度能力估計值。

參、固定試題參數量尺化方法估計程序

一、透過同時估計法求得第一年度的試題參數估計值及能力估計值（平均數μ 及標準1 差σ ）； 1 二、透過固定試題參數法估計第二年度的試題參數估計值及能力估計值（平均數μ 及2 標準差σ ）。 2

肆、同時估計量尺化方法估計程序

一、將兩年度受試者作答反應採 BIB 等化設計配置定錨試題，存於同一檔案中；二、執行 BILOG-MG 等化程式，同時估計所有參數；三、計算等化後受試者能力參數及受試者能力真值的誤差。

(29)

第五節估計精準度

本研究將原始模擬的參數視為真值，以真值產生的作答反應進行參數估計，得參數估計值，再計算真值及估計值之間的根均方差（RMSE），模擬 100 次的平均值作為參數估計誤差，以此作為評斷等化估計效果的依據。 RMSE 越小，代表估計越準確，其計算公式如下： N N i i i i i

∑

= − = 1 2 ) ˆ ( ) ˆ ( RMSE , θ θ θ θ 其中，θi為第i位受試者能力真值； i θˆ 為第i位受試者能力估計值； N為受試者人數。

(30)

第四章研究結果

本研究欲探討不同年度間不同量尺化方法之等化效果，透過資料模擬程序估計不同年度受試者能力值之RMSE(θ)，其中，研究變項包括不同受試人數、定錨試題比例、測驗題本長度及不同受試者能力分布，研究結果說明如下。由於本研究中四種不同量尺化方法名稱太長，故本章將同時估計量尺化方法簡稱為同時估計法；NAEP與TIMSS使用之量尺化方法簡稱為N&T量尺化；PISA使用之量尺化方法簡稱為PISA量尺化；固定試題參數量尺化方法簡稱為固定試題參數法。

第一節兩年度受試者能力無差距之等化效果

本研究模擬無差距、小差距及大差距三種不同能力分布，本節探討兩年度受試者能力無差距之不同受試者人數、不同定錨試題比例與不同題本長度於不同年度間量尺化方法之等化效果。

壹、不同受試者人數之等化效果

本研究模擬5460人、7540人及10062人三種受試人數，圖中X軸為不同定錨試題及不同題本長度的情境設計，例如，定錨試題比例10%及題本長度60題記為10_60。一、受試者人數5460人之等化效果如圖4-1，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 10_30 10_60 20_30 20_60 30_30 30_60 情境設計 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-1 受試者人數5460人之RMSE

(31)

（一）N&T量尺化及同時估計法的等化效果較PISA量尺化及固定試題參數法好。（二）估計誤差值隨著定錨試題比例及題本長度增加而降低。（三）在N&T量尺化及同時估計法中，題本長度對估計誤差值的影響較明顯。二、受試者人數7540人之等化效果如圖4-2，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 10_30 10_60 20_30 20_60 30_30 30_60 情境設計 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-2 受試者人數7540人之RMSE （一）N&T量尺化及同時估計法的等化效果較PISA量尺化及固定試題參數法好。（二）估計誤差值隨著定錨試題比例及題本長度增加而降低。（三）在N&T量尺化及同時估計法中，題本長度對估計誤差值的影響較明顯。三、受試者人數10062人之等化效果如圖4-3，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 10_30 10_60 20_30 20_60 30_30 30_60 情境設計 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-3 受試者人數10062人之RMSE （一）N&T量尺化及同時估計法的等化效果較PISA量尺化及固定試題參數法好。

(32)

（二）估計誤差值隨著定錨試題比例及題本長度增加而降低。（三）在N&T量尺化及同時估計法中，題本長度對估計誤差值的影響較明顯。

貳、不同定錨試題比例之等化效果

本研究模擬10％、20%及30%三種不同定錨試題比例，圖中X軸為不同受試者人數及不同題本長度的情境設計，例如，5460人及題本長度30題記為5460_30。一、定錨試題比例10％之等化效果如圖4-4，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 5460 _30 7540 _30 1006 2_30 5460 _60 7540 _60 1006 2_6 0 情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-4 定錨試題比例10％之RMSE （一）N&T量尺化及同時估計法的等化效果較PISA量尺化及固定試題參數法好。（二）估計誤差值隨著題本長度增加而降低。（三）題本長度對估計誤差值的影響較明顯，受試者人數對估計誤差值的影響沒有一致性的效果。（四）定錨試題比例10％時，PISA量尺化的估計效果最差。二、定錨試題比例20％之等化效果如圖4-5，得以下結論。（一）N&T量尺化及同時估計法的等化效果較PISA量尺化及固定試題參數法好。（二）估計誤差值隨著題本長度增加而降低。（三）題本長度對估計誤差值的影響較明顯，受試者人數對估計誤差值的影響沒有一致性的效果。（四）定錨試題比例20％且題本長度為30題時，PISA量尺化的估計效果最差；定

(33)

錨試題比例20％且題本長度為60題時，固定試題參數法的估計效果最差。 0.25 0.30 0.35 0.40 0.45 5460 _30 7540 _30 1006 2_30 5460 _60 7540 _60 1006 2_6 0 情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-5 定錨試題比例20％之RMSE 三、定錨試題比例30％之等化效果如圖4-6，得以下結論。 0.25 0.30 0.35 0.40 0.45 5460 _30 7540 _30 1006 2_30 5460 _60 7540 _60 1006 2_6 0 情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-6 定錨試題比例30％之RMSE （一）N&T量尺化及同時估計法的等化效果較PISA量尺化及固定試題參數法好。（二）估計誤差值隨著題本長度增加而降低。（三）題本長度對估計誤差值的影響較明顯，受試者人數對估計誤差值的影響沒有一致性的效果。（四）定錨試題比例30％且題本長度為30題時，PISA量尺化的估計效果最差；定錨試題比例30％且題本長度為60題時，固定試題參數法的估計效果最差。

參、不同題本長度之等化效果

(34)

本研究模擬題本長度30題及60題，圖中X軸為不同受試者人數及不同定錨試題的情境設計，例如，5460人及定錨試題比例為10％，記為5460_10。一、題本長度30題之等化效果如圖4-7，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 546 0_10 754 0_10 1006 2_1 0 5460 _20 7540 _20 1006 2_20 5460 _30 7540 _30 100 62_30 _情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-7 題本長度30題之RMSE （一）N&T量尺化及同時估計法的等化效果較PISA量尺化及固定試題參數法好。（二）估計誤差值隨著定錨試題比例增加而降低。（三）定錨試題比例對估計誤差值的影響較明顯，受試者人數對估計誤差值的影響沒有一致性的效果。（四）題本長度為30題時，PISA量尺化的估計效果最差。二、題本長度60題之等化效果如圖4-8，得以下結論。 0.25 0.30 0.35 0.40 0.45 546 0_10 754 0_10 1006 2_10 5460 _20 7540 _20 1006 2_20 5460 _30 7540 _30 100 62_30 情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-8 題本長度60題之RMSE

(35)

（一）N&T量尺化及同時估計法的等化效果較PISA量尺化及固定試題參數法好。（二）估計誤差值隨著定錨試題比例增加而降低。（三）定錨試題比例對估計誤差值的影響較明顯，受試者人數對估計誤差值的影響沒有一致性的效果。（四）題本長度為60題，定錨試題比例為10％時，PISA量尺化的估計效果最差；而題本長度為60題，定錨試題比例為20％及30％時，固定試題參數法的估計效果最差。

肆、不同量尺化方法之等化效果

一、不同量尺化方法於不同受試者人數之等化效果如圖4-9，得以下結論。 0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 5460人 7540人 10062人受試者人數 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-9 不同受試者人數之RMSE （一）受試者人數對估計誤差值的影響不明顯。（二）PISA量尺化的估計效果最差，N&T量尺化的估計效果最好。二、不同量尺化方法於不同定錨試題比例之等化效果如圖4-10，得以下結論。（一）估計誤差值隨著定錨試題比例增加而降低。（二）N&T量尺化的估計效果最好。（三）定錨試題比例為10％及20％時，PISA量尺化的估計效果最差；定錨試題比例為30％時，固定試題參數法的估計效果最差。

(36)

0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 10% 20% 30% 定錨試題比例 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-10 不同定錨試題比例之RMSE 三、不同量尺化方法於不同題本長度之等化效果如圖4-11，得以下結論。 0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 30題 60題題本長度 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-11 不同題本長度之RMSE （一）估計誤差值隨著題本長度增加而降低。（二）題本長度30題時，PISA量尺化的估計效果最差，同時估計法的估計效果最好；題本長度60題時，固定試題參數法的估計效果最差， N&T量尺化的估計效果最好。

第二節兩年度受試者能力小差距之等化效果

本研究模擬無差距、小差距及大差距三種不同能力分布，本節探討兩年度受試者能力小差距之不同受試者人數、不同定錨試題比例與不同題本長度於不同年度間量尺

(37)

化方法之等化效果。

壹、不同受試者人數之等化效果

本研究模擬5460人、7540人及10062人三種受試人數，圖中X軸為不同定錨試題及不同題本長度的情境設計，例如，定錨試題比例10%及題本長度60題記為10_60。一、受試者人數5460人之等化效果如圖4-12，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 10_30 10_60 20_30 20_60 30_30 30_60 情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-12 受試者人數5460人之RMSE （一）估計誤差值隨著定錨試題比例及題本長度增加而降低。（二）在N&T量尺化及同時估計法中，題本長度對估計誤差值的影響較明顯。二、受試者人數7540人之等化效果如圖4-13，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 10_30 10_60 20_30 20_60 30_30 30_60 情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-13 受試者人數7540人之RMSE （一）估計誤差值隨著定錨試題比例及題本長度增加而降低，題本長度對估計誤

(38)

差值的影響較明顯。（二）題本長度為30題時，四種量尺化方法的估計效果差不多；題本長度為60題時，四種量尺化方法的估計效果差異較大，但無一致性的效果。三、受試者人數10062人之等化效果如圖4-14，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 10_30 10_60 20_30 20_60 30_30 30_60 情境設計 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-14 受試者人數10062人之RMSE （一）估計誤差值隨著定錨試題比例及題本長度增加而降低，題本長度對估計誤差值的影響較明顯。（二）題本長度為30題時，四種量尺化方法的估計效果差不多；題本長度為60題時，四種量尺化方法的估計效果差異較大，但無一致性的效果。

貳、不同定錨試題比例之等化效果

本研究模擬10％、20%及30%三種不同定錨試題比例，圖中X軸為不同受試者人數及不同題本長度的情境設計，例如，5460人及題本長度30題記為5460_30。一、定錨試題比例10％之等化效果如圖4-15，得以下結論。（一）估計誤差值隨著題本長度增加而降低。（二）題本長度對估計誤差值的影響較明顯，受試者人數對估計誤差值的影響沒有一致性的效果。（三）PISA量尺化的估計效果最差。（四）題本長度為30題時，同時估計法的估計效果最好。

(39)

0.25 0.30 0.35 0.40 0.45 0.50 5460 _30 7540 _30 100 62_3 0 5460 _60 7540_ 60 1006 2_60 _情境設計 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-15 定錨試題比例10％之RMSE 二、定錨試題比例20％之等化效果如圖4-16，得以下結論。 0.25 0.30 0.35 0.40 0.45 5460 _30 7540 _30 100 62_3 0 5460 _60 7540_ 60 1006 2_60 _情境設計 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-16 定錨試題比例20％之RMSE （一）估計誤差值隨著題本長度增加而降低。（二）題本長度對估計誤差值的影響較明顯，受試者人數對估計誤差值的影響沒有一致性的效果。（三）同時估計法的估計效果最好。（四）題本長度為60題時，固定試題參數法的估計效果最差。（五）題本長度為30題時，四種量尺化方法的估計效果差不多；題本長度為60題時，四種量尺化方法的估計效果差異較明顯。三、定錨試題比例30％之等化效果如圖4-17，得以下結論。

(40)

0.25 0.30 0.35 0.40 5460 _30 7540 _30 100 62_3 0 5460 _60 7540_ 60 1006 2_60 _情境設計 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-17 定錨試題比例30％之RMSE （一）估計誤差值隨著題本長度增加而降低。（二）題本長度對估計誤差值的影響較明顯，受試者人數對估計誤差值的影響沒有一致性的效果。（三）同時估計法的估計效果最好。（四）題本長度為30題時，PISA量尺化的估計效果最差；題本長度為60題時，固定試題參數法的估計效果最差。（五）題本長度為30題時，四種量尺化方法的估計效果差不多；題本長度為60題時，四種量尺化方法的估計效果差異較明顯。

參、不同題本長度之等化效果

本研究模擬題本長度30題及60題，圖中X軸為不同受試者人數及不同定錨試題的情境設計，例如，5460人及定錨試題比例為10％，記為5460_10。一、題本長度30題之等化效果如圖4-18，得以下結論。（一）估計誤差值隨著定錨試題比例增加而降低。（二）定錨試題比例對估計誤差值的影響較明顯，受試者人數對估計誤差值的影響沒有一致性的效果。（三）同時估計法的估計效果最好；PISA量尺化的估計效果最差。

(41)

0.25 0.30 0.35 0.40 0.45 0.50 5460_1 0 7540_1 0 1006 2_10 5460_2 0 7540_2 0 1006 2_20 5460 _30 7540 _30 1006 2_30 _情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-18 題本長度30題之RMSE 二、題本長度60題之等化效果如圖4-19，得以下結論。 0.25 0.30 0.35 0.40 0.45 5460_1 0 7540_1 0 1006 2_10 5460_2 0 7540_2 0 1006 2_20 5460 _30 7540 _30 1006 2_30 _情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-19 題本長度60題之RMSE （一）估計誤差值隨著定錨試題比例增加而降低。（二）定錨試題比例對估計誤差值的影響較明顯，受試者人數對估計誤差值的影響沒有一致性的效果。（三）定錨試題比例為10％時，PISA量尺化的估計效果最差；定錨試題比例為20 ％及30％時，固定試題參數法的估計效果最差。

肆、不同量尺化方法之等化效果

一、不同量尺化方法於不同受試者人數之等化效果如圖4-20，得以下結論。（一）受試者人數對估計誤差值的影響不明顯。

(42)

（二）同時估計法的估計效果最好。 0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 5460人 7540人 10062人受試者人數 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-20 不同受試者人數之RMSE 二、不同量尺化方法於不同定錨試題比例之等化效果如圖4-21，得以下結論。 0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 10% 20% 30% 定錨試題比例 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-21 不同定錨試題比例之RMSE （一）估計誤差值隨著定錨試題比例增加而降低。（二）同時估計法的估計效果最好。（三）定錨試題比例為10％時，PISA量尺化的估計效果最差；定錨試題比例為20 ％及30％時，固定試題參數法的估計效果最差。三、不同量尺化方法於不同題本長度之等化效果如圖4-22，得以下結論。（一）估計誤差值隨著題本長度增加而降低。（二）題本長度30題時，PISA量尺化的估計效果最差，同時估計法的估計效果最

(43)

好；題本長度60題時，固定試題參數法的估計效果最差，同時估計法的估計效果最好。 0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 30題 60題題本長度 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-22 不同題本長度之RMSE

第三節兩年度受試者能力大差距之等化效果

本研究模擬無差距、小差距及大差距三種不同能力分布，本節探討兩年度受試者能力大差距之不同受試者人數、不同定錨試題比例與不同題本長度於不同年度間量尺化方法之等化效果。

壹、不同受試者人數之等化效果

本研究模擬5460人、7540人及10062人三種受試人數，圖中X軸為不同定錨試題及不同題本長度的情境設計，例如，定錨試題比例10%及題本長度60題記為10_60。一、受試者人數5460人之等化效果如圖4-23，得以下結論。（一）N&T量尺化的估計效果最差。（二）估計誤差值隨著題本長度增加而降低，而定錨試題比例對估計誤差值的影響沒有一致性的效果。

(44)

0.25 0.35 0.45 0.55 0.65 0.75 10_30 10_60 20_30 20_60 30_30 30_60 情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-23 受試者人數5460人之RMSE 二、受試者人數7540人之等化效果如圖4-24，得以下結論。 0.25 0.35 0.45 0.55 0.65 0.75 10_30 10_60 20_30 20_60 30_30 30_60 情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-24 受試者人數7540人之RMSE （一）N&T量尺化的估計效果最差。（二）估計誤差值隨著題本長度增加而降低，而定錨試題比例對估計誤差值的影響沒有一致性的效果。三、受試者人數10062人之等化效果如圖4-25，得以下結論。（一）N&T量尺化的估計效果最差。（二）估計誤差值隨著題本長度增加而降低，而定錨試題比例對估計誤差值的影響沒有一致性的效果。

(45)

0.25 0.35 0.45 0.55 0.65 0.75 10_30 10_60 20_30 20_60 30_30 30_60 情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-25 受試者人數10062人之RMSE

貳、不同定錨試題比例之等化效果

本研究模擬10％、20%及30%三種不同定錨試題比例，圖中X軸為不同受試者人數及不同題本長度的情境設計，例如，5460人及題本長度30題記為5460_30。一、定錨試題比例10％之等化效果如圖4-26，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 5460_ 30 7540_ 30 10062 _30 5460_ 60 7540_ 60 1006 2_60 _情境設計 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-26 定錨試題比例10％之RMSE （一）N&T量尺化的估計效果最差。（二）估計誤差值隨著題本長度增加而降低，而受試者人數對估計誤差值的影響沒有一致性的效果。（三）題本長度為30題時，固定試題參數法的估計效果最好。二、定錨試題比例20％之等化效果如圖4-27，得以下結論。

(46)

0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 5460_ 30 7540_ 30 10062 _30 5460_ 60 7540_ 60 1006 2_60 _情境設計 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-27 定錨試題比例20％之RMSE （一）N&T量尺化的估計效果最差。（二）估計誤差值隨著題本長度增加而降低，而受試者人數對估計誤差值的影響沒有一致性的效果。（三）題本長度為30題時，固定試題參數法的估計效果最好；題本長度為60題時， PISA量尺化的估計效果最好。三、定錨試題比例30％之等化效果如圖4-28，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 546 0_30 754 0_30 10062 _30 546 0_60 754 0_60 1006 2_60 _情境設計 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-28 定錨試題比例30％之RMSE （一）N&T量尺化的估計效果最差。（二）估計誤差值隨著題本長度增加而降低，而受試者人數對估計誤差值的影響沒有一致性的效果。

(47)

（三）題本長度為60題時，PISA量尺化的估計效果最好。

參、不同題本長度之等化效果

本研究模擬題本長度30題及60題，圖中X軸為不同受試者人數及不同定錨試題的情境設計，例如，5460人及定錨試題比例為10％，記為5460_10。一、題本長度30題之等化效果如圖4-29，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 5460 _10 7540 _10 1006 2_10 5460 _20 7540 _20 100 62_2 0 5460 _30 7540 _30 1006 2_30 _情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖 4-29 題本長度 30 題之 RMSE （一）N&T量尺化的估計效果最差。（二）受試者人數及定錨試題比例對估計誤差值的影響均沒有一致性的效果。（三）定錨試題比例為10％時，固定試題參數法的估計效果最好。二、題本長度60題之等化效果如圖4-30，得以下結論。 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 5460 _10 7540 _10 1006 2_10 5460 _20 7540 _20 10062 _20 5460 _30 7540 _30 1006 2_30 _情境設計 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-30 題本長度60題之RMSE

(48)

（一）N&T量尺化的估計效果最差。（二）受試者人數及定錨試題比例對估計誤差值的影響均沒有一致性的效果。（三）定錨試題比例為20％及30％時，PISA量尺化的估計效果最好。

肆、不同量尺化方法之等化效果

一、不同量尺化方法於不同受試者人數之等化效果如圖4-31，得以下結論。 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 5460人 7540人 10062人受試者人數 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-31 不同受試者人數之RMSE （一）受試者人數對估計誤差值的影響不明顯。（二）N&T量尺化的估計效果最差。二、不同量尺化方法於不同定錨試題比例之等化效果如圖4-32，得以下結論。 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 10% 20% 30% 定錨試題比例 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-32 不同定錨試題比例之RMSE （一）定錨試題比例對估計誤差值的影響不明顯。

(49)

（二）N&T量尺化的估計效果最差。三、不同量尺化方法於不同題本長度之等化效果如圖4-33，得以下結論。 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 30題 60題題本長度 RM SE PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-33 不同題本長度之RMSE （一）估計誤差值隨著題本長度增加而降低。（二）N&T量尺化的估計效果最差。

第四節不同受試者能力分布差距之等化效果

本節探討不同年度間無差距（no difference）、小差距（small difference）及大差

距（large difference）三種不同能力分布差距於不同受試者人數、不同定錨試題比例與不同題本長度之等化效果。

壹、不同受試者人數於不同受試者能力分布之等化效果

一、受試者人數5460人於不同受試者能力分布之等化效果如圖4-34，得以下結論。（一）兩年度受試者能力分布無差距及小差距時，PISA量尺化的估計效果最差；而兩年度受試者能力分布大差距時，N&T量尺化的估計效果最差。（二）兩年度受試者能力分布無差距及小差距時，N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法好；而兩年度受試者能力分布大差距時，是N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參

(50)

數法差。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

no difference small difference large difference 不同受試者能力分佈 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-34 受試者人數5460人於不同受試者能力分布之RMSE 二、受試者人數7540人於不同受試者能力分布之等化效果如圖4-35，得以下結論。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

no difference small difference large difference 不同受試者能力分佈 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-35 受試者人數7540人於不同受試者能力分布之RMSE （一）受試者人數為7540人時，三種不同受試者能力分布對估計誤差值的影響沒有一致性的效果。（二）兩年度受試者能力分布無差距及小差距時，N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法好；而兩年度受試者能力分布大差距時，是N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法差。三、受試者人數10062人於不同受試者能力分布之等化效果如圖4-36，得以下結論。

(51)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

no difference small difference large difference

PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-36 受試者人數10062人於不同受試者能力分布之RMSE （一）受試者人數為10062人時，三種不同受試者能力分布對估計誤差值的影響沒有一致性的效果。（二）兩年度受試者能力分布無差距及小差距時，N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法好；而兩年度受試者能力分布大差距時，是N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法差。

貳、不同定錨試題比例於不同受試者能力分布之等化效果

一、定錨試題比例10％於不同受試者能力分布之等化效果如圖4-37，得以下結論。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

no difference small difference large difference 不同受試者能力分佈 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-37 定錨試題比例10％於不同受試者能力分布之RMSE （一）兩年度受試者能力分布無差距及小差距時，PISA量尺化的估計效果最差；

(52)

而兩年度受試者能力分布大差距時，N&T量尺化的估計效果最差。（二）兩年度受試者能力分布無差距及小差距時，N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法好；而兩年度受試者能力分布大差距時，是N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法差。二、定錨試題比例20％於不同受試者能力分布之等化效果如圖4-38，得以下結論。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

no difference small difference large difference 不同受試者能力分佈 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-38 定錨試題比例20％於不同受試者能力分布之RMSE （一）受試者人數為7540人時，三種不同受試者能力分布對估計誤差值的影響沒有一致性的效果。（二）兩年度受試者能力分布無差距及小差距時，N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法好；而兩年度受試者能力分布大差距時，N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法差。三、定錨試題比例30％於不同受試者能力分布之等化效果如圖4-39，得以下結論。（一）兩年度受試者能力分布無差距及小差距時，固定試題參數法的估計效果最差；而兩年度受試者能力分布大差距時，N&T量尺化的估計效果最差。（二）兩年度受試者能力分布無差距及小差距時，N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法好；而兩年度受試者能力分布大差

(53)

距時，是N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法差。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

no difference small difference large difference 不同受試者能力分佈 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-39 定錨試題比例30％於不同受試者能力分布之RMSE

參、不同題本長度於不同受試者能力分布之等化效果

一、題本長度為30題於不同受試者能力分布之等化效果如圖4-40，得以下結論。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

no difference small difference large difference 不同受試者能力分佈 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-40 題本長度30題於不同受試者能力分布之RMSE 受試者人數為7540人時，三種不同受試者能力分布對估計誤差值的影響沒有一致性的效果。二、題本長度為60題於不同受試者能力分布之等化效果如圖4-41，得以下結論。

(54)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

no difference small difference large difference 不同受試者能力分佈 RM S E PISA量尺化固定試題參數法 N&T量尺化同時估計法 圖4-41 題本長度60題於不同受試者能力分布之RMSE （一）題本長度60題時，三種不同受試者能力分布對估計誤差值的影響沒有一致性的效果。（二）兩年度受試者能力分布無差距及小差距時，N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法好；而兩年度受試者能力分布大差距時，N&T量尺化及同時估計法的估計效果比PISA量尺化及固定試題參數法差。

(55)

大型測驗不同量尺化程序之等化效果探究

國立臺中教育大學教育測驗統計研究所理學碩士論文

指導教授：

郭伯臣 博士

吳慧珉 博士

大型測驗不同量尺化程序

之等化效果探究

研究生： 詹慧君 撰

中

華

民

國

一

百

年

六

月

摘要

Abstract

致謝

目錄

表目錄

圖目錄

第一章 緒論

第一節 研究背景與動機

第二節 研究目的

第三節 名詞釋義

一、 量尺化方法

二、 NAEP 與 TIMSS 使用之量尺化方法

三、 PISA 使用之量尺化方法

四、 同時估計量尺化方法

五、 固定試題參數量尺化方法

第二章 文獻探討

第一節 大型測驗

壹、國家教育進展評量（NAEP）

貳、學生基礎素養國際研究計畫（PISA）

參、國際數學與科學教育成就趨勢調查（TIMSS）

肆、臺灣學生學習成就評量資料庫（TASA）

伍、小結

第二節 測驗等化

壹、測驗等化的種類

貳、等化估計方法

第三節 大型測驗之等化估計方法

壹、 NAEP 與 TIMSS 使用之量尺化方法

貳、 PISA 使用之量尺化方法

參、 TASA 使用之固定試題參數量尺化方法

第三章 研究方法

第一節 研究流程

第二節 模擬研究變項設計

壹、 研究變項設定

貳、 模擬實驗步驟

第三節 等化設計

第四節 量尺化程序

壹、NAEP 與 TIMSS 使用之量尺化方法估計程序

貳、PISA 使用之量尺化方法估計程序

參、固定試題參數量尺化方法估計程序

肆、同時估計量尺化方法估計程序

第五節 估計精準度

∑

第四章 研究結果

第一節 兩年度受試者能力無差距之等化效果

壹、不同受試者人數之等化效果

貳、不同定錨試題比例之等化效果

參、不同題本長度之等化效果

肆、不同量尺化方法之等化效果

第二節 兩年度受試者能力小差距之等化效果

壹、不同受試者人數之等化效果

貳、不同定錨試題比例之等化效果

參、不同題本長度之等化效果

肆、不同量尺化方法之等化效果

第三節 兩年度受試者能力大差距之等化效果

壹、不同受試者人數之等化效果

貳、不同定錨試題比例之等化效果

參、不同題本長度之等化效果

肆、不同量尺化方法之等化效果

第四節 不同受試者能力分布差距之等化效果

壹、不同受試者人數於不同受試者能力分布之等化效果

貳、不同定錨試題比例於不同受試者能力分布之等化效果

參、不同題本長度於不同受試者能力分布之等化效果

郭伯臣博士

_{吳慧珉博士}

研究生：詹慧君撰

第一章緒論

第一節研究背景與動機

第二節研究目的

第三節名詞釋義

一、量尺化方法

四、同時估計量尺化方法

五、固定試題參數量尺化方法

第二章文獻探討

第一節大型測驗

第二節測驗等化

第三節大型測驗之等化估計方法

第三章研究方法

第一節研究流程

第二節模擬研究變項設計

壹、研究變項設定

貳、模擬實驗步驟

第三節等化設計

第四節量尺化程序

第五節估計精準度

第四章研究結果

第一節兩年度受試者能力無差距之等化效果

第二節兩年度受試者能力小差距之等化效果

第三節兩年度受試者能力大差距之等化效果

第四節不同受試者能力分布差距之等化效果