緒論 - BILOG-MG與SCORIGHT在NEAT設計不同測驗組合下能力及試題參數估計效果之比較

本研究是應用試題反應理論(item response theory, IRT)中的三參數對數模式 (three-parameter logistic model)和題組反應理論(testlet response theory, TRT)中的三參數題組模式，以模擬實驗方式探討不同軟體在NEAT 設計測驗組合下，能力及試題參數估計之比較。本章共分為三節，分別針對研究動機、研究目的、研究問題與重要名詞釋義逐一進行闡述。

第一節研究動機

測驗的定義是指採用一套標準的刺激，對個人的特質作客觀測量的有系統程序，不但是一種測量工具，也包含客觀測驗的過程。學校教師、輔導員、行政人員與心理學家，對學生教育的計畫或政策，均需作各種不同的決定，這些決定需要有正確可靠的資料作為依據，測驗即在提供這些決定所需正確資料的一種客觀的工具(郭生玉，2000)。

從古至今，不論國內或是國外，測驗與教育息息相關，小型測驗如學校內教師的隨堂測驗，大型測驗如國際級的評量計畫，如 PISA 國際評量計畫（The Programme for International Student Assessment，簡稱 PISA）、TIMSS 國際數學暨科學趨勢成就研究（Third International Mathematics and Science Study，簡稱 TIMSS）等等，隨處可見教育與測驗的相關。測驗的功能主要是在教學決定、行政決定、諮商與輔導決定三方面，而大型測驗的重要性多在於行政決定方面，主要是提供教育人員整體且標準化的量化資料，以探討學生的學習成就，同時也可作為教育決策單位政策的調整以及教師教學的參考依據(郭生玉，2000)。

正因如此，測驗如此重要，也逐漸成為社會的焦點，社會大眾對於測驗的品質要求，有越來越嚴格的趨勢，如何檢驗試題的品質，也是值得研究的重要課題。

以國外為例，美國教育測驗界對測驗持極為審慎與嚴謹的態度，不管是試卷的設

化之精神作管理(李源煌、楊玉女，2000)。而臺灣的大型測驗如國中基本學力測驗、大學學科能力測驗和指定科目考試等，社會大眾對於測驗品質亦有所要求。

有鑑於臺灣長期缺乏量化指標和標準化測量工具檢視學生學習成就的表現及其差異，以致無法確實瞭解課程實施的成效，亦不利於課程發展之進行與相關教育政策之研擬，故建立臺灣學生學習成就評量資料庫(Taiwan Assessment of Student Achievement，簡稱 TASA )，希望能提供完整、標準化的量化資料，以供國內外相關研究人員深入探討台灣學生學習成就方面的相關政策議題；以及建立本國學生學習成就評量資料庫，同時考慮與國際接軌，利於加入國際比較行列，

藉以瞭解臺灣教育之獨特面與優缺點 (TASA 臺灣學生學習成就評量資料庫，

2004)。

以往的大型測驗的題型多是單題形式，這種形式著重學生的記憶能力，較難測量到高層次的思考，所以許多改革計畫皆以認知心理學方面為基礎，改變測驗的題型期望能測量到學生更進階的能力。許多學者也透過研究指出題組式的測驗題型能提供較複雜的情境，使受試者能發揮及整合解決問題的知識及能力，所以現今國內、外測驗普遍使用題組式(testlet)的測驗，甚至許多大型的標準化成就測驗或執照考試也都使用題組式來評量學生的學習成就，例如：我國的國中基本學力測驗和大學入學考試；著名的托福測驗(Test of English as a Foreign Language, 簡稱 TOEFL) 、國際評量計畫（ The Programme for International Student Assessment，簡稱 PISA）、國際閱讀發展研究(Progress in International Reading Literacy Study，簡稱 PIRLS)、美國國家教育進展評量(National Assessment of Education Progress，簡稱 NAEP)等大型測驗，皆納入題組式測驗(許思雯，2008)。

正是因為題組式能有效測量受試者的知識能力，也能從不同的觀點獲得更多有關受試者的學習訊息。

大型測驗的目的大多想瞭解涉及眾多學生的學習可以測出哪些能力，基於試題反應理論，多使用BILOG-MG進行估計學生的能力參數及試題參數，但當測驗

型態屬於題組式測驗，將違反試題反應理論中局部試題獨立假設，使得估計學生的能力參數及試題參數產生較大誤差(Wainer, 1995; Wainer & Lukhele,

1997;Wainer, Sireci, & Thissen, 1991; Wainer & Thissen, 1996; Wainer & Wang, 2000; Yen,1993)。因此當測驗型態為題組式測驗，為了準確估計能力及試題參數，

則會使用SCORIGHT進行參數估計，但執行上較為麻煩且所需要的時間也較為冗長。

使用不同的測驗軟體估計不同的組卷方式，也會低估或高估學生的能力參數及試題參數，因此如何使用適當的測驗軟體，在不同軟體間取得平衡點，能準確且省時的估計學生的能力參數及試題參數為研究的重要議題之一。所以本研究以試題反應理論和題組反應理論為基礎，模擬NEAT組卷方式的各種資料，期能根據不同的試題設計利用不同的測驗軟體進行試題及學生能力參數的估計比較，以提供大型資料庫試題中含有題組題時分析學生作答資料時參考。

第二節研究目的與問題

根據上述研究動機，在常態分布和雙峰分布下，本研究之研究目的如下：

一、以模擬資料比較BILOG-MG 軟體和 SCORIGHT 軟體，在不同受試人數的情況下對受試者能力及試題參數估計的差異。

二、以模擬資料比較BILOG-MG 軟體和 SCORIGHT 軟體，在不同測驗題數的情況下對受試者能力及試題參數估計的差異。

三、以模擬資料比較BILOG-MG 軟體和 SCORIGHT 軟體，在不同題組比例的情況下對受試者能力及試題參數估計的差異。

四、以模擬資料比較BILOG-MG 軟體和 SCORIGHT 軟體，在不同題組效果變異數的情況下對受試者能力及試題參數估計的差異

根據上述研究目的，在常態分布和雙峰分布下，本研究提出之研究問題如下：

一、在模擬資料中，隨著不同受試人數的情況下，以BILOG-MG 軟體和 SCORIGHT 軟體估計受試者能力及試題參數的差異和變化情形為何？

二、在模擬資料中，隨著不同測驗題數的情況下，以BILOG-MG 軟體和 SCORIGHT 軟體估計受試者能力及試題參數的差異和變化情形為何？

三、在模擬資料中，隨著不同題組比例的情況下，以BILOG-MG 軟體和 SCORIGHT 軟體估計受試者能力及試題參數的差異和變化情形為何？

四、在模擬資料中，隨著不同題組效果變異數的情況下，以BILOG-MG 軟體和 SCORIGHT 軟體估計受試者能力及試題參數的差異和變化情形為何？

第三節名詞解釋

一、臺灣學生學習成就評量資料庫

「臺灣學生學習成就評量資料庫」(Taiwan Assessment of Student Achievement，簡稱 TASA ) 是由一群測驗與學科專家共同研發「標準化成就測驗」，用來蒐集國內國小四年級、六年級、國中二年級、高中二年級及高職二年級學生在國語、英語、數學、社會、自然這五個科目的學習成就表現，建立一套完整且客觀的資料庫，追蹤、分析學生在學習上變遷之趨勢；作為課程與教學政策改進之參考；同時提供國內外相關研究人員量化資料，深入探討學生學習成就方面的相關政策議題。

二、題組

題目內包含段落、圖表或其他的刺激材料，在這些刺激後出現的相關試題，

這樣試題結構的題目則稱為題組，受試者是應用這些刺激回答一連串的問題，

常見的題組類型為與文章有關的一組閱讀相關測驗(許思雯，2008)。

三、估計誤差

本研究將原始生成參數視為真值，計算其與經過BILOG-MG 和 SCORIGHT 估計的估計值之根均方差(root mean square error, RMSE)，求模擬 25 次的平均值作為估計誤差，估計誤差數值越小，代表估計越準確。本研究估計誤差的公式計算如下：

RMSE N

∑

−

=

)

( ˆ ˆ )

, (

η η η

其中， N：表示受試總人數或測驗總題數；

) ,..., , ,

(

η₁ η₂ η₃ η_N

=

：表示受試者能力真值或試題參數真值；

ˆ ) ,..., , ˆ , ˆ ( ˆ

ˆ

η₁ η₂ η₃ η_N

=

：表示表示受試者能力估計值或試題參數估計值。

在文檔中 BILOG-MG與SCORIGHT在NEAT設計不同測驗組合下能力及試題參數估計效果之比較 (頁 11-16)

緒論

第一節 研究動機

第二節 研究目的與問題

第三節 名詞解釋

一、 臺灣學生學習成就評量資料庫

二、 題組

三、 估計誤差