BILOG-MG與SCORIGHT在NEAT設計不同測驗組合下能力及試題參數估計效果之比較

(1)

國立臺中教育大學教育測驗統計研究所

教學碩士學位暑期在職進修專班碩士論文

指導教授：曾建銘博士

陳桂霞博士

BILOG-MG 與 SCORIGHT 在 NEAT 設計不同測驗組合下

能力及試題參數估計效果之比較

研究生：林依穎撰

(2)

謝辭

連續四個暑假，回復到學生身份，專研深奧的領域，其中的過程各種滋味皆有，終於要到豐收的這一刻了。感謝在這段時間中教導我的教授們，從各式各樣的課堂中聆聽不同的經驗及價值觀，我將帶著這三年所學習的收穫，回到工作崗位，灌溉施肥，期盼幼苗能同樣成長茁壯。感謝曾建銘老師帶領我進入理論的殿堂，從完全不懂的門外漢，到可以略談一二，尤其是老師一步一步的指導操作，除了讓我對理論不再恐懼，更重要的是老師的身教，身為一個老師，堅定但柔和的眼神及態度，是使得學生進步的原動力，希望我能一直謹遵教誨，回饋給我的學生。再來感謝我的好伙伴-雅玲，和妳共同討論及研究，找出最適當的方法，其中的過程極為艱苦，但能和妳一起奮鬥，彼此互相加油打氣，實則為我的福氣。還要感謝暄博學長協助，讓我能順利完成論文。接著感謝陳桂霞老師、凃柏原老師、李信宏老師和郭伯臣老師，在口試時指點我疑惑之處，提供相關建議，讓我的論文內容得以更加充實。最後感謝我的家人和一直陪在我身邊的先生-人豪，如果沒有你們在背後的支持和鼓勵，我可能無法有勇氣面對這些龐大的壓力和挑戰。終於，完成人生階段性目標，也瞭解到專研學術是條漫長的路，先要能釐清目標，再加上強韌的生命力，才能是趟滿載而歸的冒險之旅。林依穎 2010.8.22

(3)

摘要

本研究是利用電腦模擬資料，探討當受試者能力分布為常態或雙峰時，針

對受試人數、測驗題數、題組比例及題組效果變異數四個變項，比較BILOG-MG

和SCORIGHT 兩種軟體估計定錨不等組設計(non-equivalent groups with anchor

test design, NEAT)不同測驗組合下能力及試題參數的精確性。研究中控制不同受試人數、不同測驗題數、不同題組比例和不同題組效果變異數，藉由能力參數估計誤差和試題參數估計誤差比較兩軟體之結果，提出相關建議。研究結果發現： 1. 在常態分布下，不論是BILOG-MG或SCORIGHT，當受試人數愈多、測驗題數愈多，受試者能力參數和試題難度參數估計誤差大致上愈小。 2. 在雙峰分布下，不論是 BILOG-MG 或 SCORIGHT，當受試人數愈少、測驗題數愈多、題組比例愈高，受試者能力參數和試題難度參數估計誤差大致上愈小。 3. 在常態分布下，不論受試人數、測驗題數、題組比例和題組效果變異數為何，SCORIGHT 對試題鑑別度和難度參數估計誤差結果大致上優於 BILOG-MG。 4. 在雙峰分布下，不論受試人數、測驗題數、題組比例和題組效果變異數為何，BILOG-MG 對受試者能力參數、試題鑑別度、難度和猜測度參數估計誤差結果大致上優於SCORIGHT。關鍵字：題組、試題反應理論、題組反應理論、定錨不等組設計

(4)

Abstract

This research is to estimate the root mean square error (RMSE) of ability parameters and item parameters by BILOG-MG and SCORIGHT when the ability distribution is normal or bimodal in non-equivalent groups with anchor test design(NEAT). Four independent factors are considered in this research：(1)the sample sizes；(2)the numbers of examinees；(3) the proportion of the testlet items； (4) the variances of the testlet effects .

The results of this research show that:

1. The RMSE of the ability and item difficulty parameter decreases as the sample size or increases the number of examinees when the ability distribution is normal. 2. The RMSE of the ability and item difficulty parameter decreases as the sample

size decreases or the number of examinees and the proportion of the testlet item increase when the ability distribution is bimodal.

3. When the ability distribution is normal, compare with BILOG-MG and SCORIGHT simulation, the RMSE of the item discrimination and difficulty parameters are smaller under SCORIGHT simulation.

4. When the ability distribution is bimodal, compare with BILOG-MG and SCORIGHT simulation, the RMSE of the ability and the item parameters are smaller under BILOG-MG simulation.

(5)

目錄

第一章緒論...01 第一節研究動機...01 第二節研究目的與問題...03 第三節名詞解釋. ...04 第二章文獻探討...06 第一節試題反應理論...06 第二節題組反應理論...07 第三節 BILOG-MG ... ... ... ... ...09 第四節 SCORIGHT ... ... ... ... ...10 第五節定錨不等組(NEAT)設計 ...11 第三章研究設計與方法...13 第一節研究步驟... ...13 第二節 NEAT 設計. ...14 第三節模擬資料變項設定...15 第四節研究工具... ...19 第四章研究結果...20 第一節 NEAT 設計下 BILOG-MG 參數估計結果...20 第二節 NEAT 設計下 SCORIGHT 參數估計結果...28 第三節 BILOG-MG 和 SCORIGHT 參數估計結果比較...35 第五章結論與建議...61 第一節結論...61 第二節建議...63 參考文獻...65 中文部分...65

(6)

附錄一 BILOG-MG 在常態分布下，不同人數進行參數估計結果...68 附錄二 BILOG-MG 在雙峰分布下，不同人數進行參數估計結果...70 附錄三 BILOG-MG 在常態分布下，不同題數進行參數估計結果...72 附錄四 BILOG-MG 在雙峰分布下，不同題數進行參數估計結果...74 附錄五 BILOG-MG 在常態分布下，不同題組比例進行參數估計結果...76 附錄六 BILOG-MG 在雙峰分布下，不同題組比例進行參數估計結果...78 附錄七 SCORIGHT 在常態分布下，不同人數進行參數估計結果...80 附錄八 SCORIGHT 在雙峰分布下，不同人數進行參數估計結果...82 附錄九 SCORIGHT 在常態分布下，不同題數進行參數估計結果...84 附錄十 SCORIGHT 在雙峰分布下，不同題數進行參數估計結果...86 附錄十一 SCORIGHT 在常態分布下，不同題組比例進行參數估計結果...88 附錄十二 SCORIGHT 在雙峰分布下，不同題組比例進行參數估計結果...90 附錄十三兩種軟體在常態分布下，不同人數進行參數估計結果...92 附錄十四兩種軟體在雙峰分布下，不同人數進行參數估計結果...96 附錄十五兩種軟體在常態分布下，不同題數進行參數估計結果...100 附錄十六兩種軟體在雙峰分布下，不同題數進行參數估計結果...104 附錄十七兩種軟體在常態分布下，不同題組比例進行參數估計結果...108 附錄十八兩種軟體在雙峰分布下，不同題組比例進行參數估計結果...112

(7)

表目錄

表 2-1 NEAT 設計...11 表 3-1 NEAT 設計表...14 表 3-2 NEAT 設計表...15 表 3-3 NEAT 設計之變項對照表...15 表 4-1 BILOG-MG 在常態分布下，參數估計誤差變化情形……...21 表 4-2 BILOG-MG 在雙峰分布下，參數估計誤差變化情形……...23 表 4-3 BILOG-MG 在常態分布下，進行參數估計結果...24 表 4-4 BILOG-MG 在雙峰分布下，進行參數估計結果...26 表 4-5 SCORIGHT 在常態分布下，參數估計誤差變化情形……...27 表 4-6 SCORIGHT 在雙峰分布下，參數估計誤差變化情形……...28 表 4-7 SCORIGHT 在常態分布下，進行參數估計結果...31 表 4-8 SCORIGHT 在雙峰分布下，進行參數估計結果...33 表 4-9 兩種軟體在常態分布下，參數估計優劣表... ... .35 表 4-10 兩種軟體在常態分布下，進行參數估計結果... ... .36 表 4-11 兩種軟體在雙峰分布下，參數估計優劣表... ... .48 表 4-12 兩種軟體在雙峰分布下，進行參數估計結果... .49

(8)

圖目錄

圖 3-1 研究流程圖...13 圖 3-2 常態分布下，受試人數為5460 人之受試者能力分布長條圖...16 圖 3-3 常態分布下，受試人數為7566 人之受試者能力分布長條圖...17 圖 3-4 雙峰分布下，受試人數為5460 人之受試者能力分布長條圖...18 圖 3-5 雙峰分布下，受試人數為7566 人之受試者能力分布長條圖...18 圖 4-1 兩種軟體在常態分布下，受試人數對受試者能力之估計誤差圖...40 圖 4-2 兩種軟體在常態分布下，受試人數對試題鑑別度之估計誤差圖...40 圖 4-3 兩種軟體在常態分布下，受試人數對試題難度之估計誤差圖...41 圖 4-4 兩種軟體在常態分布下，受試人數對試題猜測度之估計誤差圖...41 圖 4-5 兩種軟體在常態分布下，測驗題數對受試者能力之估計誤差圖...42 圖 4-6 兩種軟體在常態分布下，測驗題數對試題鑑別度之估計誤差圖...42 圖 4-7 兩種軟體在常態分布下，測驗題數對試題難度之估計誤差圖...43 圖 4-8 兩種軟體在常態分布下，測驗題數對試題猜測度之估計誤差圖...43 圖 4-9 兩種軟體在常態分布下，題組比例對受試者能力之估計誤差圖...44 圖 4-10 兩種軟體在常態分布下，題組比例對試題鑑別度之估計誤差圖...44 圖 4-11 兩種軟體在常態分布下，題組比例對試題難度之估計誤差圖...45 圖 4-12 兩種軟體在常態分布下，題組比例對試題猜測度之估計誤差圖...45 圖 4-13 兩種軟體在常態分布下，題組效果變異數對受試者能力之估計誤差圖... 46 圖 4-14 兩種軟體在常態分布下，題組效果變異數對試題鑑別度之估計誤誤差圖... 46 圖 4-15 兩種軟體在常態分布下，題組效果變異數對試題難度之估計誤差圖... 47

(9)

圖 4-16 兩種軟體在常態分布下，題組效果變異數對試題猜測度之估計誤差圖... 47 圖 4-17 兩種軟體在雙峰分布下，受試人數對受試者能力之估計誤差圖...53 圖 4-18 兩種軟體在雙峰分布下，受試人數對試題鑑別度之估計誤差圖...53 圖 4-19 兩種軟體在雙峰分布下，受試人數對試題難度之估計誤差圖...54 圖 4-20 兩種軟體在雙峰分布下，受試人數對試題猜測度之估計誤差圖...54 圖 4-21 兩種軟體在雙峰分布下，測驗題數對受試者能力之估計誤差圖...55 圖 4-22 兩種軟體在雙峰分布下，測驗題數對試題鑑別度之估計誤差圖...55 圖 4-23 兩種軟體在雙峰分布下，測驗題數對試題難度之估計誤差圖...56 圖 4-24 兩種軟體在雙峰分布下，測驗題數對試題猜測度之估計誤差圖...56 圖 4-25 兩種軟體在雙峰分布下，題組比例對受試者能力之估計誤差圖...57 圖 4-26 兩種軟體在雙峰分布下，題組比例對試題鑑別度之估計誤差圖...57 圖 4-27 兩種軟體在雙峰分布下，題組比例對試題難度之估計誤差圖...58 圖 4-28 兩種軟體在雙峰分布下，題組比例對試題猜測度之估計誤差圖…..58 圖 4-29 兩種軟體在雙峰分布下，題組效果變異數對受試者能力之估計誤差圖...59 圖 4-30 兩種軟體在雙峰分布下，題組效果變異數對試題鑑別度之估計誤差圖... 59 圖 4-31 兩種軟體在雙峰分布下，題組效果變異數對試題難度之估計誤差圖...60 圖 4-32 兩種軟體在雙峰分布下，題組效果變異數對試題猜測度之估計誤差圖...60

(10)

(11)

第一章緒論

本研究是應用試題反應理論(item response theory, IRT)中的三參數對數模式 (three-parameter logistic model)和題組反應理論(testlet response theory, TRT)中的三

參數題組模式，以模擬實驗方式探討不同軟體在NEAT 設計測驗組合下，能力及試題參數估計之比較。本章共分為三節，分別針對研究動機、研究目的、研究問題與重要名詞釋義逐一進行闡述。

第一節研究動機

測驗的定義是指採用一套標準的刺激，對個人的特質作客觀測量的有系統程序，不但是一種測量工具，也包含客觀測驗的過程。學校教師、輔導員、行政人員與心理學家，對學生教育的計畫或政策，均需作各種不同的決定，這些決定需要有正確可靠的資料作為依據，測驗即在提供這些決定所需正確資料的一種客觀的工具(郭生玉，2000)。從古至今，不論國內或是國外，測驗與教育息息相關，小型測驗如學校內教師的隨堂測驗，大型測驗如國際級的評量計畫，如 PISA 國際評量計畫（The

Programme for International Student Assessment，簡稱 PISA）、TIMSS 國際數學暨科學趨勢成就研究（Third International Mathematics and Science Study，簡稱 TIMSS）等等，隨處可見教育與測驗的相關。測驗的功能主要是在教學決定、行政決定、諮商與輔導決定三方面，而大型測驗的重要性多在於行政決定方面，主要是提供教育人員整體且標準化的量化資料，以探討學生的學習成就，同時也可作為教育決策單位政策的調整以及教師教學的參考依據(郭生玉，2000)。正因如此，測驗如此重要，也逐漸成為社會的焦點，社會大眾對於測驗的品質要求，有越來越嚴格的趨勢，如何檢驗試題的品質，也是值得研究的重要課題。以國外為例，美國教育測驗界對測驗持極為審慎與嚴謹的態度，不管是試卷的設

(12)

化之精神作管理(李源煌、楊玉女，2000)。而臺灣的大型測驗如國中基本學力測驗、大學學科能力測驗和指定科目考試等，社會大眾對於測驗品質亦有所要求。

有鑑於臺灣長期缺乏量化指標和標準化測量工具檢視學生學習成就的表現及其差異，以致無法確實瞭解課程實施的成效，亦不利於課程發展之進行與相關教育政策之研擬，故建立臺灣學生學習成就評量資料庫(Taiwan Assessment of Student Achievement，簡稱 TASA )，希望能提供完整、標準化的量化資料，以供國內外相關研究人員深入探討台灣學生學習成就方面的相關政策議題；以及建立本國學生學習成就評量資料庫，同時考慮與國際接軌，利於加入國際比較行列，藉以瞭解臺灣教育之獨特面與優缺點 (TASA 臺灣學生學習成就評量資料庫， 2004)。以往的大型測驗的題型多是單題形式，這種形式著重學生的記憶能力，較難測量到高層次的思考，所以許多改革計畫皆以認知心理學方面為基礎，改變測驗的題型期望能測量到學生更進階的能力。許多學者也透過研究指出題組式的測驗題型能提供較複雜的情境，使受試者能發揮及整合解決問題的知識及能力，所以現今國內、外測驗普遍使用題組式(testlet)的測驗，甚至許多大型的標準化成就測驗或執照考試也都使用題組式來評量學生的學習成就，例如：我國的國中基本學力測驗和大學入學考試；著名的托福測驗(Test of English as a Foreign Language,

簡稱 TOEFL) 、國際評量計畫（ The Programme for International Student

Assessment，簡稱 PISA）、國際閱讀發展研究(Progress in International Reading Literacy Study，簡稱 PIRLS)、美國國家教育進展評量(National Assessment of Education Progress，簡稱 NAEP)等大型測驗，皆納入題組式測驗(許思雯，2008)。正是因為題組式能有效測量受試者的知識能力，也能從不同的觀點獲得更多有關受試者的學習訊息。

大型測驗的目的大多想瞭解涉及眾多學生的學習可以測出哪些能力，基於試題反應理論，多使用BILOG-MG進行估計學生的能力參數及試題參數，但當測驗

(13)

型態屬於題組式測驗，將違反試題反應理論中局部試題獨立假設，使得估計學生的能力參數及試題參數產生較大誤差(Wainer, 1995; Wainer & Lukhele,

1997;Wainer, Sireci, & Thissen, 1991; Wainer & Thissen, 1996; Wainer & Wang, 2000; Yen,1993)。因此當測驗型態為題組式測驗，為了準確估計能力及試題參數，則會使用SCORIGHT進行參數估計，但執行上較為麻煩且所需要的時間也較為冗長。使用不同的測驗軟體估計不同的組卷方式，也會低估或高估學生的能力參數及試題參數，因此如何使用適當的測驗軟體，在不同軟體間取得平衡點，能準確且省時的估計學生的能力參數及試題參數為研究的重要議題之一。所以本研究以試題反應理論和題組反應理論為基礎，模擬NEAT組卷方式的各種資料，期能根據不同的試題設計利用不同的測驗軟體進行試題及學生能力參數的估計比較，以提供大型資料庫試題中含有題組題時分析學生作答資料時參考。

第二節研究目的與問題

根據上述研究動機，在常態分布和雙峰分布下，本研究之研究目的如下：一、以模擬資料比較BILOG-MG 軟體和 SCORIGHT 軟體，在不同受試人數的情況下對受試者能力及試題參數估計的差異。二、以模擬資料比較BILOG-MG 軟體和 SCORIGHT 軟體，在不同測驗題數的情況下對受試者能力及試題參數估計的差異。三、以模擬資料比較BILOG-MG 軟體和 SCORIGHT 軟體，在不同題組比例的情況下對受試者能力及試題參數估計的差異。四、以模擬資料比較BILOG-MG 軟體和 SCORIGHT 軟體，在不同題組效果變異數的情況下對受試者能力及試題參數估計的差異

(14)

根據上述研究目的，在常態分布和雙峰分布下，本研究提出之研究問題如下：一、在模擬資料中，隨著不同受試人數的情況下，以BILOG-MG 軟體和 SCORIGHT 軟體估計受試者能力及試題參數的差異和變化情形為何？二、在模擬資料中，隨著不同測驗題數的情況下，以BILOG-MG 軟體和 SCORIGHT 軟體估計受試者能力及試題參數的差異和變化情形為何？三、在模擬資料中，隨著不同題組比例的情況下，以BILOG-MG 軟體和 SCORIGHT 軟體估計受試者能力及試題參數的差異和變化情形為何？四、在模擬資料中，隨著不同題組效果變異數的情況下，以BILOG-MG 軟體和 SCORIGHT 軟體估計受試者能力及試題參數的差異和變化情形為何？

第三節名詞解釋

一、臺灣學生學習成就評量資料庫

「臺灣學生學習成就評量資料庫」(Taiwan Assessment of Student Achievement，簡稱 TASA ) 是由一群測驗與學科專家共同研發「標準化成就測驗」，用來蒐集國內國小四年級、六年級、國中二年級、高中二年級及高職二年級學生在國語、英語、數學、社會、自然這五個科目的學習成就表現，建立一套完整且客觀的資料庫，追蹤、分析學生在學習上變遷之趨勢；作為課程與教學政策改進之參考；同時提供國內外相關研究人員量化資料，深入探討學生學習成就方面的相關政策議題。

二、題組

題目內包含段落、圖表或其他的刺激材料，在這些刺激後出現的相關試題，這樣試題結構的題目則稱為題組，受試者是應用這些刺激回答一連串的問題，常見的題組類型為與文章有關的一組閱讀相關測驗(許思雯，2008)。

(15)

三、估計誤差

本研究將原始生成參數視為真值，計算其與經過BILOG-MG 和 SCORIGHT

估計的估計值之根均方差(root mean square error, RMSE)，求模擬 25 次的平均值作為估計誤差，估計誤差數值越小，代表估計越準確。本研究估計誤差的公式計算如下： N RMSE N i i i

∑

= − = 1 2 ) ˆ ( ) ˆ , ( η η η η 其中， N：表示受試總人數或測驗總題數； ) ,..., , , (η₁ η₂ η₃ ηN η = ：表示受試者能力真值或試題參數真值； ) ˆ ,..., ˆ , ˆ , ˆ ( ˆ η₁ η₂ η₃ η_N η = ：表示表示受試者能力估計值或試題參數估計值。

(16)

第二章文獻探討

本研究欲探討 BILOG-MG 和 SCORIGHT，當受試者能力分布為常態或雙峰時，在不同受試人數、測驗題數、題組比例和題組效果變異數在NEAT 設計測驗下對受試者能力及試題參數估計的差異，因此針對試題反應理論、題組反應理論和定錨不等組設計加以說明。本章將分成三節加以闡述：第一節為試題反應理論的發展；第二節說明題組反應理論的發展；第三節探討BILOG-MG；第四節探討 SCORIGHT；第五節說明定錨不等組設計。

第一節試題反應理論

試題反應理論(item response theory，簡稱 IRT)是將受試者的潛在能力與其在測驗上的實際作答情形的關係，透過一條連續性遞增的的函數聯結在一起，當受試者潛在特質的程度越高，在某一試題上正確反應的機率越大。每一種的試題反應模式，都是用來描述其潛在能力與反應機率間的關係(余民寧，1992a)。常見的二元計分試題反應模式，有下列三種。 (一)單參數對數模式 ₍ ₎ ) ( 1 ) ( i i b b i e e P ₋ − + = θ _θ θ i=1 L,2, ,n 公式一 (二)二參數對數模式 ) ( ) ( 1 ) ( i i i i b a b a i e e P ₋ − + = θ _θ θ i=1 L,2, ,n 公式二 (三)三參數對數模式 ) ( ) ( 1 ) 1 ( ) ( i i i i b a b a i i i e e c c P ₋ − + − + = θ _θ θ i=1 L,2, ,n 公式三公式一的P_i(θ)代表任何一位能力為θ 的考生在答對試題i 或在試題 i 上正確反 應的機率，bi表示試題難度參數、n表示該測驗的試題總題數、e代表以底為2.718

(17)

的指數。公式二中各符號的定義與公式一相同，但多了一個參數ai，是用來描述試題i所具有鑑別力大小的特性。公式三中各符號的定義與公式二相同，但多了一個參數ci，代表能力很低的考生答對某試題的機率。單參數對數模式中，只有試題的難度會影響考生在試題上的表現；二參數對數模式則為單參數對數模式的延伸，除了考慮試題難度，也考慮試題的鑑別度；三參數對數模式則是二參數對數模式的延伸演變，除了試題難度、鑑別度外，多增加了參數c，將低能力考生的的表現好壞因素考慮在模式裡(余民寧，1992b)。當測驗形式以選擇題為主時，我們可察覺能力不高者容易猜對部分試題，原因在於沒有設計好的誘答選項，或在題目裡出現暗示答案的字眼，因此透過這類模式得以找出那些題目。當估計受試者能力時，三參數對數模式已考量了不同受試者答對機率和題目的猜對率的影響，因此所得到的能力值應該比較會符合受試者的實際能力(陳柏熹，2006)。

根據Hambleton , Zeal & Pieters(1991)的研究，題型為四選一之選擇題，應是

較適合三參數對數模式。本研究的模擬題型為選擇題，故以三參數對數模式作為參數的估計。

第二節題組反應理論

自 60 年代以來，選擇題的測驗題型常遭受批評，原因是過於重視學生的記憶能力。因此，學校的改革計畫，皆與認知心理學的觀點結合，期能發展提高學生思考層次的測驗。Ebel 曾在 1951 年提出建議，他認為情境依賴試題組

(18)

數學和科學的問題解決、統計推理及閱讀理解，認為題組的測驗形式能有效測量到高層次思考，也能提供測驗編製者更多關於學習者的學習訊息。雖然情境依賴試題組對測驗編製者較為困難，不過此種測驗題型不但提供了更複雜的測驗情境，也使得受試者能充分利用其分析思考以及解決問題的知識和能力 (Allen & Sudweeks,2001；Haiadyna, 1992)。題組反應理論是由試題反應理論演變，試題反應理論中，受試者在某個題目上答對的機率主要受到試題參數和受試者的潛在能力所影響。在試題反應理論中，其共同的基本假設都是單向度與局部獨立性。單向度指同一份測驗中所有題目都是測量相同的某一特質；局部獨立性則是指對相同能力水準的受測者而言。每個題目答對的機率都是獨立，互不影響的。透過試題反應理論的模式，Wainer、 Bradlow與Du(2000) 二參數題組模式加入猜測度參數成為三參數題組模式，且假設題組效果變異數隨著題組而變動，將題組的影響力納入模式當中，三參數題組模式計算方式為： )] ( exp[ 1 )] ( exp[ ) 1 ( ) 1 ( ) ( ) ( j id j i j j id j i j j j ij b a b a c c y P γ θ γ θ − − + − − − + = = 公式四 γ_id₍_j₎ ~ N(0,σ2rd(j) 公式五 ) 1 (yij = P 是指第 i 位受試者在作答題組試題第 j 題得 1 分的機率，θ 是指i 第 i 位受 試者的能力值。aj、bj、cj分別代表第 j試題的鑑別度參數、難度參數、猜測度參數。γid( j)是指受試者作答該題組時的題組效果。當兩個題目都屬於同一個題組 ) ( j d ，則答對機率函數中都會有相同的γid_{( j}₎，因此這兩題的答對機率會有關聯；但是當題組效果γid( j)=0 時，兩個題目的答對機率會互相獨立，即成為三個參數對數模式。σ2rd(j)可視為題組對受試者能力的影響力，當題組效果σ2rd(j)愈大，則測

(19)

驗分數變異量_{σ 中可歸因於題組的比例愈高，將題組效果}2 ) ( j id γ 納入公式四，就可以得到題組反應模式的概似函數，並藉以估計受試者的能力值及受到題組所影響的 ) ( j id γ 。

第三節 BILOG-MG

BILOG-MG 由(Zimowski , Muraki ,Mislevy & Bock,1996)所研發，是 BILOG 的擴展，能有效分析二元計分試題。BILOG-MG 有三種可使用的能力參數估計法，分別為最大概似估計法(maximum likelihood estimation, 簡稱 MLE)、期望後驗估計法(Bayes expected a posteriori, 簡稱 EAP)和最大後驗估計法(maximum a posteriori, 簡稱 MAP)，本研究採用 EAP 法。而估計試題參數的方法是邊際最大概似法(marginal maximum likelihood estimation, 簡稱 MMLE )。以下大略說明能力參數的三種估計法(Zimowski , Muraki , Mislevy & Bock , 1996；張雅媛，2006；楊孟麗、譚康榮、黃敏雄，2003)。 1. MLE是根據作答反應模式，能力值透過統計方法估計出使此種作答反應組行出現最高的機率，當受試者的能力恰巧與試題中許多選項的難度相近時，所估計的能力標準誤較小；反之則較大。缺點是若有受試者在該測驗的試題全部答對或全部答錯，MLE將無法估算其能力值。 2. EAP則克服MLE的缺點，利用受試者的作答反應題組調整先前受試者能力分布的假定，得到新的能力分布，就算有受試者在該測驗的試題全部答對或全部答錯，也可使用EAP估計。EAP估到的值比較集中於母群體平均值附近，但假使標準誤很小，誤差也會很小。但如果分析的資料為相同測驗，則不會是問題。 3.MAP 使用最新分布的眾數，除了考慮最大概似估算法(ML)的分布，也考量

(20)

參數原有(假定的)的分布。估到的值也稍微偏向集中在母群體的平均值，但誤差比EAP 稍大。

第四節 SCORIGHT

SCORIGHT 適用於二元計分或多元計分的試題類型，以及任何有關試題反應理論的模式，可以是獨立試題、也可以是題組、或是兩者的組合，有助於分析包含題組的試題反應資料。在估計方面，若是題組可使用馬可夫鍊蒙地卡羅 (Markov Chain Monte Carlo，簡稱 MCMC)的方法調整。

MCMC 是一種能有效實行又簡單的貝氏計算方法，主要概念是由重複抽樣，建立平穩分配，此分配為所求後驗分配的馬可夫鏈。MCMC 受到學者歡迎

的原因在於後驗樣本分配得到後，就可完成簡單的推論，因此MCMC 允許有限

樣本的推論，但樣本越大估計則越精準(Wainer , Bradlow , & Wang,2007)。 Wainer 、Bradlow 和 Wang ( 2007 )檢視 MCMC 運作的演算方式，以貝氏

二參數題組模式為例，以Λ代表模式參數，包含能力參數(θ ,…,₁ θ )，能力參數_I (a1,…,aJ)，(b1,…,bJ)和題組參數(γ1d(1),…, γId(J))，以及影響他們分配的參數 (μ ,a 2 a σ )，(μ ,_b 2 b σ )和 2 r σ 。估計步驟如下： 1. 選擇一個初始的向量，Λ＝_Λ(t=0) ，t代表迭代數，將t設定為0。 2. 選擇某參數的組合λ1，並藉由完全條件分配 ( 1 , 1) t Y p λ Λ₋_λ 中抽取更新值 ) 1 ( 1 + t λ ，估計第t次的值，此處的 t 1 λ − Λ 表示不包含λ₁的整體參數向量Λ，Y 表示觀察的測驗資料。 3. 選擇某參數的組合λ₂，並藉由完全條件分配 ( , , ( 1)) , 2 1 2 + − − Λt t Y p λ _λ _λ λ 中抽取更新值 ( 1) 2 + t λ 。此處的 t 2 1, λ λ − − Λ 表示一組不包含λ₁和λ₂的整體參數；評估λ₂第t次

(21)

的值，而 ( 1) 1 + t λ 是在步驟2 中由λ₁所更新的值。 4. 從完全條件分配 ( , ( 1), ₂( 1)) 1 , 2 1 + + − − Λ_t _t t Y p _λ _λ λ λ 抽取 ( 1)_, 2 1 + − − Λt λ λ ，且讓 t=t+1。 5. 如果t ≤M(特別指定的迭代數)，則從步驟 2 開始循環；如果t=M，則停止抽樣(引自許思雯，2008)。

第五節定錨不等組(NEAT)設計

NEAT設計是從兩組受試母群體(P和Q)中，隨機抽取兩組不同受試樣本(P1 和Q1)，給予P1受試者施測X測驗，Q1受試者施測Y測驗，兩組受試樣本皆須另外接受定錨測驗A。通常定錨測驗在兩樣本的測驗順序是一樣的，避免順序因素的影響，而且其測驗內容與難度與X、Y測驗十分類似。NEAT設計如表2-1(Kolen & Brennan,1995；von Davier, Holland & Thayer, 2004；余民寧，1992c)。

表2-1 NEAT設計受試樣本 X測驗 Y測驗定錨測驗A P1 3 3 Q1 3 3 註：3為受試者必須受測之測驗 NEAT 設計為常見的測驗等化設計，在 NEAT 設計中，每個受試群必須施測相同的定錨測驗，定錨測驗之試題參數好壞將會影響等化估計效果。若定錨測驗選擇恰當，練習(practice)、疲勞(fatigue)、學習(learning)、順序因素(order effects)

及需要大樣本的問題在NEAT設計可加以避免（Klein & Jarjoura, 1985）。

MCAS(Massachusetts comprehensive assessment system)是以NEAT設計進行不同年度間學生之測驗等化，因為它不必假設兩受試群體有相同的能力值，只需要假設受試群體是隨機抽取。而NEAT設計的定錨測驗試題難度要相近且內容要

(22)

(Petersen, Kolen & Hoover, 1993；王暄博，2006；張鈺卿，2007)。優點為容易找尋到試題區塊配置方式，缺點則為當題本公布時，將會公布所有的定錨試題。

(23)

第三章研究設計與方法

本研究透過模擬資料比較當受試者能力分布為常態或雙峰時，BILOG-MG 軟體和SCORIGHT 兩種軟體在 NEAT 設計不同測驗組合下，試題及能力參數估計的差異，因此本章分成四節，第一節為研究步驟；第二節為NEAT 設計；第三節為模擬資料變項設定；第四節為研究工具。

第一節研究步驟

本研究以試題反應理論為基礎，利用電腦模擬資料，當受試者能力分布為常態或雙峰時，擬操弄受試人數、試題題數、題組比例及題組效果變異數等四個變項，用以比較兩種軟體估計受試者能力及試題參數的精確性。研究流程如圖3-1：研究主題設定模擬資料 1. 受試人數：5460 人、7566 人 2. 測驗題數：27 題、45 題 3. 題組比例： 1/3 題組和 2/3 單題、2/3 題組和 1/3 單題 4. 題組效果變異數：0、0.5、1 5. 受試者能力分布：常態分布、雙峰分布撰寫研究結果以 BILOG-MG 進行參數估計以 SCORIGHT 進行參數估計

(24)

圖3-1 為本研究流程圖，並設定模擬資料為：

(一) TASA 計畫 2006 年受試人數為 7500 人，本研究欲探討人數減少之影響， TASA 數學科的 BIB 設計下題本數為 26，而本研究 NEAT 設計題本數

為 6，配合兩種連結設計題本數的不同，故模擬兩種受試人數為 7566 人和5460 人。 (二) 每個試題區塊數的試題數模擬為 9 題、15 題，每個題本配置的試題區塊數為3 個，因此每個題本的測驗題數為 27、45 題。 (三) 題組比例為前 1/3 題數是題組和後 2/3 題數是單題前2/3 題數是題組和後 1/3 題數是單題 (四) 題組效果的變異數為 0、0.5、1。 (五) 受試者能力分布：常態分布、雙峰分布。

第二節 NEAT 設計

本研究的NEAT 設計係根據 van der Linden, Veldkamp ,Carlson(2004) 26 個題

本、13 個試題區塊的 BIB 設計而改編，將第一個試題區塊 M1設定為定錨試題，並設計含BIB 試題區塊數之 NEAT 設計，並將其整理成表 3-1。表3-1 NEAT 設計表等化設計題本數區塊數題本區塊數 NEAT 6 13 3 表 3-2 為 NEAT 設計表，NEAT 設計共包含 6 個題本(b=3)、13 個試題區塊 (t=13)、每個題本包含 3 個試題區塊(k=3)。試題區塊 M1為 NEAT 設計之定錨試題區塊，其題本配置的試題區塊序號為：題本S1試題區塊配置為M1、M2、M3；題本 S2試題區塊配置為 M1、M4、M5；題本 S3試題區塊配置為 M1、M6、M7；題本 S4試題區塊配置為 M1、M8、M9；題本S5試題區塊配置為M1、M1、M11；

(25)

題本S6試題區塊配置為M1、M12、M13 (王暄博，2006；張鈺卿，2007)。表3-2 NEAT 設計表題本序號區塊(k1) 區塊(k2) 區塊(k3) S1 M1 M2 M3 S2 M1 M4 M5 S3 M1 M6 M7 S4 M1 M8 M9 S5 M1 M10 M11 S6 M1 M12 M13

第三節模擬資料變項設定

本研究利用利用電腦模擬建置題庫資料，探討不同軟體估計NEAT 設計下測驗的能力及試題參數。NEAT 設定的變項設定對照如表 3-3。表3-3 NEAT 設計之變項對照表軟體 BILOG-MG SCORIGHT 受試人數 5460 人、7566 人測驗題數 27 題、45 題題組比例前1/3 題數為題組和後 2/3 題數為單題前2/3 題數為題組和後 1/3 題數為單題題組效果變異數 0、0.5、1 受試者能力分布常態截尾分布N(0,1)，界定範圍-3~3 雙峰取自兩個常態分布平均數各為2 與-2、標準差皆為1 隨機產生，再標準化組成，界定範圍-3~3 試題參數分布鑑別度截尾常態分布 N(1,0.25)，範圍 0.5～1.5 難度截尾常態分布N(0,1)，範圍-3～3

(26)

猜測度截尾常態分布 N(0.125,0.0625)，範圍 0～0.25 每一情形模擬次數 25 次

關於受試者能力參數和試題參數之產生，分述如下。一、能力參數的產生

1.受試者能力分布為截尾常態分布(truncated normal distribution)，平均數為0，標準差為1，將範圍界定於− 3 ~ 3，記為N(0,1)。其受試者能力分布長條圖如下： -2 -1 0 1 2 受試者之能力值 0 50 100 150 200 250 300 受試者之人數分布圖3-2 常態分布下，受試人數為5460人之受試者能力分布長條圖

(27)

-3 -2 -1 0 1 2 3 受試者之能力值 0 100 200 300 400 受試者之人數分布圖3-3 常態分布下，受試人數為7566人之受試者能力分布長條圖 2.受試者能力分布為雙峰分布，取自兩個常態分布平均數各為 2 與-2、標準差皆為1 隨機產生，再標準化組成，其平均數為 0，標準差為 1，將範圍界定於-3~3。其受試者群能力分布長條圖如下：

(28)

-2 -1 0 1 2 受試者之能力值 0 50 100 150 200 250 受試者之人數分布圖3-4 雙峰分布下，受試人數為5460人之受試者能力分布長條圖 -3 -2 -1 0 1 2 3 受試者之能力值 0 50 100 150 200 250 300 受試者之人數分布圖3-5 雙峰分布下，受試人數為7566人之受試者能力分布長條圖

(29)

二、試題參數的產生 1.鑑別度參數為截尾常態分布，平均數為1，標準差為0.25，將範圍界定於0.5 ~1.5，記為N(1,0.25)。 2.難度參數為截尾常態分布，平均數為0，標準差為1，將範圍界定於− 3 ~ 3，記為N(0,1)。 3.猜測度參數為截尾常態分布，平均數為0.125，標準差為0.0625，將範圍界定於0 ~ 0.25 ，記為N(0.125,0.0625)。

第四節研究工具

一、 BILOG-MG 軟體

本研究使用BILOG-MG 獲得受試者能力參數和試題參數的估計值。

二、 SCORIGHT 軟體

本研究使用SCORIGHT 獲得得受試者能力參數和試題參數的估計值。

三、 MATLAB 軟體

MATLAB 有簡單的程式語法和強大的函數庫功能，本研究透過此軟體模擬 NEAT 設計下的能力參數、試題參數和受試者的作答反應，並進行資料檔案的轉換。

(30)

第四章研究結果

本研究以RMSE 當作參數估計誤差，當能力分布在常態或雙峰時，在 NEAT

設計下比較BILOG-MG 軟體和 SCORIGHT 軟體在不同受試人數、測驗題數、題

組比例和題組效果變異數變化的情況下，對受試者能力參數、試題鑑別度、難度

和猜測度參數的估計差異。本章節共分為三節，第一節是 BILOG-MG 參數估計

結果，第二節是SCORIGHT 參數估計結果，第三節是 BILOG-MG 和 SCORIGHT

參數估計比較。

第一節 NEAT 設計下 BILOG-MG 參數估計結果

針對 NEAT 設計於不同模擬情境進行比較，探討當能力分布在常態或雙峰時，以BILOG-MG 進行參數估計是否會受到受試人數、測驗題數、題組比例和題組效果變異數的不同而影響參數估計的精準度。

壹、常態分布

一、在受試人數的部分，分為5460 人、7566 人兩種情形，根據模擬研究之結果，固定測驗題數、題組比例和題組變異效果數的情況下，可發現受試者能力參數、試題參數估計誤差大致上會隨著受試人數增加而降低，因此推論受試人數的多寡會影響BILOG-MG 的估計結果，人數愈多，估計會愈精準，此結果與王暄博(2006)有相似的結果。二、在測驗題數的部分，分為27 題、45 題兩種情形，根據模擬研究之結果，固定受試人數、題組比例、題組變異效果數的情況下，可發現受試者能力參數、鑑別度與難度估計誤差大致上會隨著測驗題數增加而降低，題數愈多，估計會愈精準，在王暄博(2006)也有類似的結論。而試題猜測度參數估計誤差則沒有一定的規律，不過兩種題數的猜測度參數估計誤差相差不大，與預期結果不相同，推測可能是與猜測度本身的數值較小有

(31)

關，使得測驗題數的多寡在猜測度的估計誤差沒有造成太大的影響。三、在題組比例的部分，分為題組比例 1/3、2/3 兩種情形，根據模擬研究之結果，固定受試人數、測驗題數、題組效果變異數的情況下，可發現受試者能力參數、試題參數估計誤差則沒有一定的規律，原本預期題組比例的提高會使得估計誤差增加，不過由此結果推論以BILOG-MG 估計含有題組題的試題類型，或許不會受到題組比例的影響。四、在題組效果變異數的部分，分為0、0.5、1 三種情形，根據模擬研究之結果，固定受試人數、測驗題數、題組比例的情況下，可發現受試者能力參數、試題鑑別度和猜測度參數估計誤差大致上會隨著題組效果變異數增加而增加，此結果與研究預期雷同，表示題組效果變異數愈大，愈不適合使用BILOG-MG 估計。試題難度參數估計誤差沒有一定的規律，雙峰分布也有此種結果，推論或許以BILOG-MG 進行題組測驗的參數估計時，對於試題難度，不會造成太大的誤差。五、將BILOG-MG 在 NEAT 設計下不同測驗組合，參數估計誤差變化情形整理如下表。表4-1 BILOG-MG 在常態分布下，參數估計誤差變化情形受試人數測驗題數題組比例題組效果變異數能力值增加而降低增加而降低無一定規律增加而增加鑑別度增加而降低增加而降低無一定規律增加而增加難度增加而降低增加而降低無一定規律無一定規律猜測度增加而降低無一定規律無一定規律增加而增加

(32)

貳、雙峰分布

一、在受試人數的部分，分為5460 人、7566 人兩種情形，根據模擬研究之結果，固定測驗題數、題組比例和題組變異效果數的情況下，可發現受試者能力參數、試題鑑別度、難度參數估計誤差大致上會隨著受試人數增加而增加，預期結果原本是會隨著受試人數增加而減少，推論可能是因能力分布為雙峰分布而造成的影響。試題猜測度大致上則會隨著受試人數增加而降低，則與預期結果吻合。二、在測驗題數的部分，分為27 題、45 題兩種情形，根據模擬研究之結果，固定受試人數、題組比例、題組變異效果數的情況下，可發現受試者能力參數和試題難度參數估計誤差大致上會隨著測驗題數增加而降低，與常態分布時的結果一樣，也符合研究的預期結果。試題鑑別度與猜測度參數估計誤差大致上會隨著測驗題數增加而增加，其實與預期結果不同，推論或許是受到能力分布為雙峰的影響。三、在題組比例的部分，分為題組比例 1/3、2/3 兩種情形，根據模擬研究之結果，固定受試人數、測驗題數、題組效果變異數的情況下，可發現受試者能力參數、試題難度參數估計誤差大致上會隨著題組比例增加而降低，推論可能是受到能力分布為雙峰的影響，使得題組比例提高反而讓估計誤差變小。試題鑑別度和猜測度參數估計誤差則沒有一定的規律，推論也許當能力分布為雙峰時，題組比例對BILOG-MG 進行參數估計可能不會造成太大的影響。四、在題組效果變異數的部分，分為0、0.5、1 三種情形，根據模擬研究之結果，固定受試人數、測驗題數、題組比例的情況下，可發現受試者能力參數和猜測度參數估計誤差大致上會隨著題組效果變異數增加而增加，此結果與常態分布的結果雷同，也吻合預期結果。試題鑑別度參數估計

(33)

誤差大致上會隨著題組效果變異數增加而降低，此項結果雖然不符合研究預期，但推論應該是受到能力分布為雙峰分布所造成。試題難度參數估計誤差則沒有一定的規律，與常態分布的結果雷同，推論以BILOG-MG 進行試題類型為題組的測驗時，試題難度或許不會受到題組效果變異數的影響。五、將BILOG-MG 在 NEAT 設計下不同測驗組合，參數估計誤差變化情形整理如下表。表4-2 BILOG-MG 在雙峰分布下，參數估計誤差變化情形受試人數測驗題數題組比例題組效果變異數能力值增加而增加增加而降低增加而降低增加而增加鑑別度增加而增加增加而增加無一定規律增加而降低難度增加而增加增加而降低增加而降低無一定規律猜測度增加而降低增加而增加無一定規律增加而增加

(34)

表4-3 BILOG-MG 在常態分布下，進行參數估計結果人數題數題組比例題組效果變異數 RMSE/STD 能力值鑑別度難度猜測度 5460 27 1/3 0 0.376 0.450 0.286 0.054 (0.010) (0.060) (0.048) (0.029) 0.5 0.406 0.462 0.275 0.050 (0.020) (0.045) (0.041) (0.005) 1 0.419 0.488 0.276 0.052 (0.012) (0.067) (0.038) (0.005) 2/3 0 0.380 0.451 0.285 0.050 (0.007) (0.053) (0.034) (0.003) 0.5 0.392 0.462 0.268 0.051 (0.009) (0.045) (0.042) (0.006) 1 0.405 0.489 0.269 0.051 (0.014) (0.042) (0.030) (0.004) 45 1/3 0 0.302 0.432 0.223 0.050 (0.011) (0.043) (0.041) (0.004) 0.5 0.327 0.437 0.195 0.051 (0.008) (0.043) (0.025) (0.003) 1 0.344 0.467 0.209 0.054 (0.007) (0.054) (0.023) (0.005) 2/3 0 0.300 0.436 0.222 0.062 (0.007) (0.071) (0.027) (0.047) 0.5 0.308 0.429 0.199 0.049 (0.011) (0.043) (0.026) (0.004) 1 0.311 0.440 0.205 0.062 (0.013) (0.032) (0.027) (0.047)

(35)

表4-3 BILOG-MG 在常態分布下，進行參數估計結果(續) 人數題數題組比例題組效果變異數 RMSE/STD 能力值鑑別度難度猜測度 7566 27 1/3 0 0.369 0.386 0.194 0.046 (0.017) (0.033) (0.037) (0.004) 0.5 0.390 0.394 0.189 0.048 (0.009) (0.029) (0.034) (0.004) 1 0.399 0.412 0.195 0.050 (0.013) (0.049) (0.027) (0.004) 2/3 0 0.370 0.396 0.207 0.047 (0.015) (0.076) (0.060) (0.006) 0.5 0.379 0.397 0.204 0.048 (0.016) (0.029) (0.037) (0.004) 1 0.392 0.416 0.187 0.049 (0.009) (0.038) (0.023) (0.004) 45 1/3 0 0.288 0.386 0.152 0.050 (0.006) (0.052) (0.022) (0.011) 0.5 0.314 0.394 0.154 0.050 (0.008) (0.069) (0.036) (0.007) 1 0.328 0.381 0.156 0.052 (0.008) (0.026) (0.019) (0.003) 2/3 0 0.289 0.367 0.177 0.047 (0.007) (0.031) (0.072) (0.003) 0.5 0.293 0.403 0.156 0.049 (0.007) (0.077) (0.034) (0.005) 1 0.296 0.419 0.143 0.050 (0.005) (0.029) (0.013) (0.003)

(36)

表4-4 BILOG-MG 在雙峰分布下，進行參數估計結果人數題數題組比例題組效果變異數 RMSE/STD 能力值鑑別度難度猜測度 5460 27 1/3 0 0.377 0.475 0.222 0.050 (0.013) (0.060) (0.062) (0.005) 0.5 0.391 0.434 0.202 0.050 (0.009) (0.049) (0.017) (0.003) 1 0.401 0.426 0.210 0.052 (0.010) (0.023) (0.025) (0.003) 2/3 0 0.375 0.467 0.212 0.049 (0.008) (0.038) (0.0430 (0.003) 0.5 0.384 0.446 0.194 0.051 (0.009) (0.062) (0.019) (0.003) 1 0.391 0.419 0.208 0.051 (0.008) (0.040) (0.023) (0.003) 45 1/3 0 0.312 0.544 0.204 0.052 (0.009) (0.050) (0.054) (0.003) 0.5 0.330 0.520 0.200 0.054 (0.009) (0.108) (0.011) (0.004) 1 0.340 0.495 0.205 0.055 (0.010) (0.032) (0.018) (0.003) 2/3 0 0.310 0.561 0.196 0.052 (0.006) (0.069) (0.027) (0.004) 0.5 0.319 0.542 0.199 0.053 (0.009) (0.070) (0.014) (0.004) 1 0.319 0.528 0.198 0.053 (0.009) (0.031) (0.018) (0.003)

(37)

表4-4 BILOG-MG 在雙峰分布下，進行參數估計結果(續) 人數題數題組比例題組效果變異數 RMSE/STD 能力值鑑別度難度猜測度 7566 27 1/3 0 0.395 0.551 0.215 0.066 (0.009) (0.069) (0.018) (0.083) 0.5 0.411 0.468 0.240 0.050 (0.009) (0.042) (0.082) (0.004) 1 0.421 0.455 0.230 0.050 (0.009) (0.042) (0.017) (0.003) 2/3 0 0.397 0.514 0.223 0.048 (0.010) (0.033) (0.031) (0.003) 0.5 0.408 0.515 0.221 0.048 (0.011) (0.078) (0.020) (0.005) 1 0.412 0.485 0.229 0.050 (0.009) (0.051) (0.020) (0.003) 45 1/3 0 0.341 0.604 0.210 0.051 (0.007) (0.038) (0.020) (0.003) 0.5 0.357 0.546 0.218 0.052 (0.010) (0.052) (0.019) (0.003) 1 0.365 0.518 0.224 0.053 (0.009) (0.037) (0.014) (0.003) 2/3 0 0.344 0.594 0.216 0.052 (0.021) (0.037) (0.020) (0.003) 0.5 0.345 0.584 0.212 0.052 (0.008) (0.033) (0.013) (0.005) 1 0.345 0.562 0.214 0.051 (0.008) (0.041) (0.019) (0.003)

(38)

第二節 NEAT 設計下 SCORIGHT 參數估計結果

針對 NEAT 設計於不同模擬情境進行比較，探討當能力分佈在常態或雙峰時，以SCORIGHT 進行參數估計是否會受到受試人數、測驗題數、題組比例和題組效果變異數的不同而影響參數估計的精準度。

壹、常態分布

一、在受試人數的部分，分為5460 人、7566 人兩種情形，根據模擬研究之結果，固定測驗題數、題組比例和題組變異效果數的情況下，可發現受試者能力參數、試題參數估計誤差大致上會隨著受試人數增加而降低，與研究預期有相同的結果，表示人數愈多，估計會愈精準。二、在測驗題數的部分，分為27 題、45 題兩種情形，根據模擬研究之結果，固定受試人數、題組比例、題組變異效果數的情況下，可發現受試者能力參數和試題難度估計誤差大致上會隨著測驗題數增加而降低，與研究預期吻合，推論測驗題數愈多，在估計能力和難度參數方面應該會愈精準。試題鑑別度參數估計誤差大致上會隨著測驗題數增加而增加，此種結果和研究預期有所出入，或許題組效果變異數或所造成的結果，可待後續做更深入的研究。試題猜測度參數估計誤差沒有一定的規律，推論可能是與猜測度本身數值較小有關，所以使得題數變化與猜測度參數估計沒有太大的影響。三、在題組比例的部分，分為題組比例1/3、2/3 兩種情形，根據模擬研究之結果，固定受試人數、測驗題數、題組效果變異數的情況下，可發現受試者能力參數估計誤差大致上會隨著題組比例增加而降低，此結果符合研究預期，也與顏秀聿(2009)有相同的結果。而試題參數估計誤差沒有一定的規律，顏秀聿(2009)亦有類似的結果，推論題組比例或許不會對

(39)

SCORIGHT 估計試題參數造成太大的影響。四、在題組效果變異數的部分，分為0、0.5、1 三種情形，根據模擬研究之結果，固定受試人數、測驗題數、題組比例的情況下，可發現能力參數和試題參數估計誤差沒有一定的規律，與顏秀聿(2009)提到不同的題組效果變異數對試題參數估計沒有一致的結果相近，推論題組效果變異數的大小對於SCORIGHT 的參數估計不會造成太大的影響。五、將SCORIGHT 在 NEAT 設計下不同測驗組合，參數估計誤差變化情形整理如下表。表4-5 SCORIGHT 在常態分布下，參數估計誤差變化情形受試人數測驗題數題組比例題組效果變異數能力值增加而降低增加而降低增加而降低無一定規律鑑別度增加而降低增加而增加無一定規律無一定規律難度增加而降低增加而降低無一定規律無一定規律猜測度增加而降低無一定規律無一定規律無一定規律

貳、雙峰分布

一、在受試人數的部分，分為5460 人、7566 人兩種情形，根據模擬研究之結果，固定測驗題數、題組比例和題組變異效果數的情況下，可發現受試者能力參數、試題鑑別度和難度參數估計誤差大致上會隨著受試人數增加而增加，原本預期人數愈多，估計應該愈精準，推論可能是受到能力分布為雙峰，而 SCORIGHT 之能力分布假設可能為常態，因此造成和研究預期不一樣的結果。試題猜測度參數估計誤差大致上會隨著受試人數增加而降低，則符合研究預期，人數愈多，估計就愈精準。二、在測驗題數的部分，分為27 題、45 題兩種情形，根據模擬研究之結果，

(40)

固定受試人數、題組比例、題組變異效果數的情況下，可發現受試者能力參數、試題參數估計誤差大致上會隨著測驗題數增加而降低，表示題數愈多，估計愈精準，符合研究的預期結果。三、在題組比例的部分，分為題組比例1/3、2/3 兩種情形，根據模擬研究之結果，固定受試人數、測驗題數、題組效果變異數的情況下，可發現受試者能力參數、試題參數估計誤差大致上會隨著題組比例增加而降低，表示題組比例愈高，估計愈精準，符合預期的結果。四、在題組效果變異數的部分，分為0、0.5、1 三種情形，根據模擬研究之結果，固定受試人數、測驗題數、題組比例的情況下，可發現受試者能力參數估計、試題難度和猜測度參數誤差大致上會隨著題組效果變異數增加而增加，表示題組效果變異數愈大，估計會愈不精準，推論 SCORIGHT 雖然適合估計題組，但變異數變大時，或許仍然會影響到估計的準確度。試題鑑別度參數估計誤差則無一定的規律，表示試題鑑別度可能不會受到題組效果變異數的影響。五、將SCORIGHT 在 NEAT 設計下不同測驗組合，參數估計誤差變化情形整理如下表。表4-6 SCORIGHT 在雙峰分布下，參數估計誤差變化情形受試人數測驗題數題組比例題組效果變異數能力值增加而增加增加而降低增加而降低增加而增加鑑別度增加而增加增加而降低增加而降低無一定規律難度增加而增加增加而降低增加而降低增加而增加猜測度增加而降低增加而降低增加而降低增加而增加

(41)

表4-7 SCORIGHT 在常態分布下，進行參數估計結果人數題數題組比例題組效果變異數 RMSE/STD 能力值鑑別度難度猜測度 5460 27 1/3 0 0.381 0.314 0.198 0.055 (0.006) (0.023) (0.025) (0.008) 0.5 0.392 0.335 0.199 0.061 (0.024) (0.021) (0.031) (0.013) 1 0.355 0.289 0.198 0.048 (0.008) (0.023) (0.020) (0.012) 2/3 0 0.368 0.349 0.202 0.051 (0.006) (0.021) (0.015) (0.011) 0.5 0.376 0.324 0.195 0.052 (0.007) (0.102) (0.026) (0.010) 1 0.282 0.321 0.174 0.053 (0.010) (0.070) (0.048) (0.015) 45 1/3 0 0.309 0.349 0.168 0.060 (0.004) (0.031) (0.020) (0.006) 0.5 0.328 0.394 0.196 0.063 (0.005) (0.035) (0.019) (0.022) 1 0.285 0.357 0.186 0.061 (0.004) (0.063) (0.039) (0.014) 2/3 0 0.291 0.367 0.176 0.049 (0.004) (0.067) (0.030) (0.048) 0.5 0.295 0.386 0.180 0.061 (0.005) (0.023) (0.014) (0.005) 1 0.355 0.246 0.140 0.047 (0.006) (0.021) (0.023) (0.047)

(42)

表4-7 SCORIGHT 在常態分布下，進行參數估計結果(續) 人數題數題組比例題組效果變異數 RMSE/STD 能力值鑑別度難度猜測度 7566 27 1/3 0 0.375 0.208 0.116 0.039 (0.016) (0.030) (0.014) (0.006) 0.5 0.388 0.288 0.178 0.056 (0.007) (0.102) (0.057) (0.020) 1 _0.356 _0.248 _0.139 _0.044 (0.012) (0.023) (0.022) (0.010) 2/3 0 0.365 0.252 0.146 0.046 (0.015) (0.102) (0.028) (0.008) 0.5 0.377 0.270 0.163 0.047 (0.016) (0.014) (0.021) (0.005) 1 0.277 0.329 0.136 0.050 (0.008) (0.023) (0.022) (0.007) 45 1/3 0 0.302 0.326 0.140 0.051 (0.004) (0.094) (0.030) (0.007) 0.5 0.318 0.324 0.165 0.056 (0.005) (0.056) (0.035) (0.012) 1 0.278 0.296 0.131 0.044 (0.014) (0.021) (0.021) (0.006) 2/3 0 0.283 0.349 0.142 0.048 (0.003) (0.021) (0.023) (0.005) 0.5 0.287 0.340 0.141 0.048 (0.004) (0.108) (0.032) (0.007) 1 0.381 0.341 0.198 0.055 (0.004) (0.017) (0.027) (0.003)

(43)

表4-8 SCORIGHT 在雙峰分布下，進行參數估計結果人數題數題組比例題組效果變異數 RMSE/STD 能力值鑑別度難度猜測度 5460 27 1/3 0 0.396 0.689 0.321 0.110 (0.012) (0.060) (0.043) (0.019) 0.5 0.409 0.646 0.343 0.109 (0.006) (0.052) (0.037) (0.018) 1 0.423 0.649 0.357 0.115 (0.007) (0.070) (0.043) (0.019) 2/3 0 0.396 0.580 0.302 0.099 (0.009) (0.040) (0.036) (0.018) 0.5 0.402 0.567 0.306 0.100 (0.006) (0.033) (0.036) (0.019) 1 0.412 0.579 0.332 0.108 (0.007) (0.073) (0.033) (0.020) 45 1/3 0 0.321 0.593 0.285 0.093 (0.004) (0.037) (0.030) (0.013) 0.5 0.330 0.576 0.277 0.089 (0.011) (0.126) (0.038) (0.015) 1 0.356 0.570 0.310 0.099 (0.005) (0.052) (0.040) (0.015) 2/3 0 0.315 0.548 0.259 0.083 (0.004) (0.058) (0.033) (0.014) 0.5 0.323 0.543 0.264 0.084 (0.005) (0.075) (0.029) (0.011) 1 0.327 0.560 0.279 0.089 (0.004) (0.050) (0.029) (0.011)

(44)

表4-8 SCORIGHT 在雙峰分布下，進行參數估計結果(續) 人數題數題組比例題組效果變異數 RMSE/STD 能力值鑑別度難度猜測度 7566 27 1/3 0 0.418 0.754 0.333 0.096 (0.007) (0.051) (0.028) (0.015) 0.5 0.435 0.698 0.358 0.104 (0.005) (0.042) (0.034) (0.014) 1 0.447 0.675 0.364 0.102 (0.005) (0.053) (0.033) (0.015) 2/3 0 0.415 0.668 0.316 0.089 (0.005) (0.075) (0.028) (0.016) 0.5 0.427 0.629 0.325 0.090 (0.007) (0.073) (0.034) (0.015) 1 0.413 0.644 0.353 0.099 (0.020) (0.026) (0.031) (0.014) 45 1/3 0 0.352 0.669 0.290 0.082 (0.004) (0.039) (0.024) (0.010) 0.5 0.372 0.628 0.309 0.087 (0.004) (0.030) (0.030) (0.013) 1 0.382 0.611 0.322 0.089 (0.010) (0.027) (0.022) (0.009) 2/3 0 0.350 0.619 0.274 0.076 (0.018) (0.031) (0.023) (0.010) 0.5 0.352 0.609 0.277 0.077 (0.004) (0.031) (0.022) (0.011) 1 0.355 0.599 0.283 0.077 (0.003) (0.032) (0.021) (0.007)

(45)

第三節

BILOG-MG 與 SCORIGHT 參數估計比較

壹、常態分布

一、不論受試人數、測驗題數、題組比例和題組效果變異數為何，SCORIGHT 的試題鑑別度和難度參數估計誤差結果大致上優於 BILOG-MG，推論可能是BILOG-MG 忽略題組，造成估計誤差較大，因此當能力分布是常態分布時，估計含有題組的試題時，為了估計的精準度，還是使用 SCORIGHT 估計會比較適合。二、不論受試人數、測驗題數、題組比例和題組效果變異數為何，兩者的受試者能力參數和試題猜測度參數估計誤差則沒有一定的規律，推或許猜測度本身數值較小，造成兩種軟體在估計猜測度的精準性沒有太大的影響。而在受試者能力參數方面，因為不同的設計，兩種軟體的估計誤差各有不同，所以使得估計更為精準，建議兩種軟體都可以加以使用。三、將兩種軟體在常態分布下，比較參數估計結果後，整理如下表。表 4-9 兩種軟體在常態分布下，參數估計優劣表能力值鑑別度難度猜測度 BILOG-MG 平平 SCORIGHT 平優優平

(46)

表 4-10 兩種軟體在常態分布下，進行參數估計結果人數題數題組比例題組效果變異數軟體 RMSE/STD 能力值鑑別度難度猜測度 5460 27 1/3 0 B 0.376 0.450 0.286 0.054 (0.010) (0.060) (0.048 (0.029) S 0.381 0.314 0.198 0.055 (0.006) (0.023) (0.025) (0.008) 0.5 B 0.406 0.462 0.275 0.050 (0.020) (0.045) (0.041) (0.005) S 0.392 0.335 0.199 0.061 (0.024) (0.021) (0.031) (0.013) 1 B 0.419 0.488 0.276 0.052 (0.012) (0.067) (0.038) (0.005) S 0.355 0.289 0.198 0.048 (0.008) (0.023) (0.020) (0.012) 2/3 0 B 0.380 0.451 0.285 0.050 (0.007) (0.053) (0.034) (0.003) S 0.368 0.349 0.202 0.051 (0.006) (0.021) (0.015) (0.011) 0.5 B 0.392 0.462 0.268 0.051 (0.009) (0.045) (0.042) (0.006) S 0.376 0.324 0.195 0.052 (0.007) (0.102) (0.026) (0.010) 1 B 0.405 0.489 0.269 0.051 (0.014) (0.042) (0.030) (0.004) S 0.282 0.321 0.174 0.053 (0.010) (0.070) (0.048) (0.015)

(47)

表 4-10 兩種軟體在常態分布下，進行參數估計結果(續) 人數題數題組比例題組效果變異數軟體 RMSE/STD 能力值鑑別度難度猜測度 5460 45 1/3 0 B 0.302 0.432 0.223 0.050 (0.011) (0.043) (0.041) (0.004) S 0.309 0.349 0.168 0.060 (0.004) (0.031) (0.020) (0.006) 0.5 B 0.327 0.437 0.195 0.051 (0.008) (0.043) (0.025) (0.003) S 0.328 0.394 0.196 0.063 (0.005) (0.035) (0.019) (0.022) 1 B 0.344 0.467 0.209 0.054 (0.007) (0.054) (0.023) (0.005) S 0.285 0.357 0.186 0.061 (0.004) (0.063) (0.039) (0.014) 2/3 0 B 0.300 0.436 0.222 0.062 (0.007) (0.071) (0.027) (0.047) S 0.291 0.367 0.176 0.049 (0.004) (0.067) (0.030) (0.048) 0.5 B 0.308 0.429 0.199 0.049 (0.011) (0.043) (0.026) (0.004) S 0.295 0.386 0.180 0.061 (0.005) (0.023) (0.014) (0.005) 1 B 0.311 0.440 0.205 0.062 (0.013) (0.032) (0.027) (0.047) S 0.355 0.246 0.140 0.047 (0.006) (0.021) (0.023) (0.047)

(48)

表 4-10 兩種軟體在常態分布下，進行參數估計結果(續) 人數題數題組比例題組效果變異數軟體 RMSE/STD 能力值鑑別度難度猜測度 7566 27 1/3 0 B 0.369 0.386 0.194 0.046 (0.017) (0.033) (0.037) (0.004) S 0.375 0.208 0.116 0.039 (0.016) (0.030) (0.014) (0.006) 0.5 B 0.390 0.394 0.189 0.048 (0.009) (0.029) (0.034) (0.004) S 0.388 0.288 0.178 0.056 (0.007) (0.102) (0.057) (0.020) 1 B 0.399 0.412 0.195 0.050 (0.013) (0.049) (0.027) (0.004) S 0.356 0.248 0.139 0.044 (0.012) (0.023) (0.022) (0.010) 2/3 0 B 0.370 0.396 0.207 0.047 (0.015) (0.076) (0.060) (0.006) S 0.365 0.252 0.146 0.046 (0.015) (0.102) (0.028) (0.008) 0.5 B 0.379 0.397 0.204 0.048 (0.016) (0.029) (0.037) (0.004) S 0.377 0.270 0.163 0.047 (0.016) (0.014) (0.021) (0.005) 1 B 0.392 0.416 0.187 0.049 (0.009) (0.038) (0.023) (0.004) S 0.277 0.329 0.136 0.050 (0.008) (0.023) (0.022) (0.007)

(49)

表 4-10 兩種軟體在常態分布下，進行參數估計結果(續) 人數題數題組比例題組效果變異數軟體 RMSE/STD 能力值鑑別度難度猜測度 7566 45 1/3 0 B 0.288 0.386 0.152 0.050 (0.006) (0.052) (0.022) (0.011) S 0.302 0.326 0.140 0.051 (0.004) (0.094) (0.030) (0.007) 0.5 B 0.314 0.394 0.154 0.050 (0.008) (0.069) (0.036) (0.007) S 0.318 0.324 0.165 0.056 (0.005) (0.056) (0.035) (0.012) 1 B 0.328 0.381 0.156 0.052 (0.008) (0.026) (0.019) (0.003) S _{0.278 0.296 0.131}_0.044 (0.014) (0.021) (0.021) (0.006) 2/3 0 B _{0.289 0.367 0.177 0.047} (0.007) (0.031) (0.072) (0.003) S 0.283 0.349 0.142 0.048 (0.003) (0.021) (0.023) (0.005) 0.5 B 0.293 0.403 0.156 0.049 (0.007) (0.077) (0.034) (0.005) S 0.287 0.340 0.141 0.048 (0.004) (0.108) (0.032) (0.007) 1 B 0.296 0.419 0.143 0.050 (0.005) (0.029) (0.013) (0.003) S 0.381 0.341 0.198 0.055 (0.004) (0.017) (0.027) (0.003)

(50)

(27題 1/3題組) B(5460) S(5460) B(7566) S(7566) 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (27題 1/3題組) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (27題 2/3題組) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (27題 1/3題組) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (27題 1/3題組) RM SE 圖4-1 兩種軟體在常態分布下，受試人數對受試者能力之估計誤差圖 (27題 1/3題組) B(5460) S(5460) B(7566) S(7566) 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (27題 1/3題組) RM SE 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (27題 2/3題組) RM SE 試題鑑別度估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (45題 1/3題組) RM SE 試題鑑別度估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (45題 2/3題組) RM SE 圖4-2 兩種軟體在常態分布下，受試人數對試題鑑別度之估計誤差圖

(51)

(27題 1/3題組) B(5460) S(5460) B(7566) S(7566) 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (27題 1/3題組) RM SE 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (27題 2/3題組) RM SE 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (45題 1/3題組) RM SE 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (45題 2/3題組) RM SE 圖4-3 兩種軟體在常態分布下，受試人數對試題難度之估計誤差圖 (27題 1/3題組) B(5460) S(5460) B(7566) S(7566) 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (27題 1/3題組) RM SE 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (27題 2/3題組) RM SE 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (45題 1/3題組) RM SE 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (45題 2/3題組) RM SE 圖4-4 兩種軟體在常態分布下，受試人數對試題猜測度之估計誤差圖

(52)

(27題 1/3題組) B(27) S(27) B(45) S(45) 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (5460人 1/3題組) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (5460人 2/3題組) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (7566人 1/3題組) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (7566人 2/3題組) RM SE 圖4-5 兩種軟體在常態分布下，測驗題數對受試者能力之估計誤差圖 (27題 1/3題組) B(27) S(27) B(45) S(45) 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (5460人 1/3題組) RM SE 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (5460人 2/3題組) RM SE 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (7566人 1/3題組) RM SE 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (7566人 2/3題組) RM SE 圖4-6 兩種軟體在常態分布下，測驗題數對試題鑑別度之估計誤差圖

(53)

(27題 1/3題組) B(27) S(27) B(45) S(45) 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (5460人 1/3題組) RM SE 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (5460人 2/3題組) RM SE 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (7566人 1/3題組) RM SE 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (7566人 2/3題組) RM SE 圖4-7 兩種軟體在常態分布下，測驗題數對試題難度之估計誤差圖 (27題 1/3題組) B(27) S(27) B(45) S(45) 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (5460人 1/3題組) RM SE 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (5460人 2/3題組) RM SE 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (7566人 1/3題組) RM SE 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (7566人 2/3題組) RM SE 圖4-8 兩種軟體在常態分布下，測驗題數對試題猜測度之估計誤差圖

(54)

(27題 1/3題組) B(1/3) S(1/3) B(2/3) S(2/3) 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (5460人 27題) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (5460人 45題) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (7566人 27題) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 0 0.5 1 題組效果變異數 (7566人 45題) RM SE 圖4-9 兩種軟體在常態分布下，題組比例對受試者能力之估計誤差圖 (27題 1/3題組) B(1/3) S(1/3) B(2/3) S(2/3) 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (5460人 27題) RM SE 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (5460人 45題) RM SE 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (7566人 27題) RM SE 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 0 0.5 1 題組效果變異數 (7566人 45題) RM SE 圖4-10 兩種軟體在常態分布下，題組比例對試題鑑別度之估計誤差圖

(55)

(27題 1/3題組) B(1/3) S(1/3) B(2/3) S(2/3) 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (5460人 27題) RM SE 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (5460人 45題) RM SE 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (7566人 27題) RM SE 試題難度參數估計誤差 0.1 0.14 0.18 0.22 0.26 0.3 0 0.5 1 題組效果變異數 (7566人 45題) RM SE 圖4-11 兩種軟體在常態分布下，題組比例對試題難度之估計誤差圖 (27題 1/3題組) B(1/3) S(1/3) B(2/3) S(2/3) 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (5460人 27題) RM SE 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (5460人 45題) RM SE 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (7566人 27題) RM SE 試題猜測度參數估計誤差 0.038 0.044 0.05 0.056 0.062 0.068 0 0.5 1 題組效果變異數 (7566人 45題) RM SE 圖4-12 兩種軟體在常態分布下，題組比例對試題猜測度之估計誤差圖

(56)

B(0) S(0) B(0.5) S(0.5) B(1) S(1) 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 1/3 2/3 題組效果變異數 (5460人 27題) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 1/3 2/3 題組效果變異數 (5460人 45題) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 1/3 2/3 題組效果變異數 (7566人 27題) RM SE 受試者能力參數估計誤差 0.26 0.3 0.34 0.38 0.42 1/3 2/3 題組效果變異數 (7566人 45題) RM SE 圖4-13 兩種軟體在常態分布下，題組效果變異數對受試者能力估計誤差圖 B(0) S(0) B(0.5) S(0.5) B(1) S(1) 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 1/3 2/3 題組效果變異數 (5460人 27題) RM SE 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 1/3 2/3 題組效果變異數 (5460人 45題) RM SE 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 1/3 2/3 題組效果變異數 (7566人 27題) RM SE 試題鑑別度參數估計誤差 0.2 0.26 0.32 0.38 0.44 0.5 1/3 2/3 題組效果變異數 (7566人 45題) RM SE 圖4-14 兩種軟體在常態分布下，題組效果變異數對試題鑑別度估計誤差圖

BILOG-MG與SCORIGHT在NEAT設計不同測驗組合下能力及試題參數估計效果之比較

國立臺中教育大學教育測驗統計研究所

教學碩士學位暑期在職進修專班碩士論文

指導教授： 曾建銘 博士

陳桂霞 博士

BILOG-MG 與 SCORIGHT 在 NEAT 設計不同測驗組合下

能力及試題參數估計效果之比較

研 究 生：林 依 穎 撰

謝辭

摘要

Abstract

目錄

表目錄

圖目錄

第一章 緒論

第一節 研究動機

第二節 研究目的與問題

第三節 名詞解釋

一、 臺灣學生學習成就評量資料庫

二、 題組

三、 估計誤差

∑

第二章 文獻探討

第一節 試題反應理論

第二節 題組反應理論

第三節 BILOG-MG

第四節 SCORIGHT

第五節 定錨不等組(NEAT)設計

第三章 研究設計與方法

第一節 研究步驟

第二節 NEAT 設計

第三節 模擬資料變項設定

第四節 研究工具

一、 BILOG-MG 軟體

二、 SCORIGHT 軟體

三、 MATLAB 軟體

第四章 研究結果

第一節 NEAT 設計下 BILOG-MG 參數估計結果

壹、常態分布

貳、雙峰分布

第二節 NEAT 設計下 SCORIGHT 參數估計結果

壹、常態分布

貳、雙峰分布

第三節

BILOG-MG 與 SCORIGHT 參數估計比較

壹、常態分布

指導教授：曾建銘博士

陳桂霞博士

研究生：林依穎撰

第一章緒論

第一節研究動機

第二節研究目的與問題

第三節名詞解釋

一、臺灣學生學習成就評量資料庫

二、題組

三、估計誤差

第二章文獻探討

第一節試題反應理論

第二節題組反應理論

第五節定錨不等組(NEAT)設計

第三章研究設計與方法

第一節研究步驟

第三節模擬資料變項設定

第四節研究工具

第四章研究結果