緒論 - 次級量尺分數估計法應用於大型教育測驗情境之模擬研究

本研究根據試題反應理論（item response theory, IRT）中三參數logistic模式

（three-parameter logistic model, 3PL）與一般化部分給分模式（generalized partial credit model, GPCM），以模擬實驗方式探討不同次級量尺分數（subscale score）

計算方法之差異；並探討不同次級量尺分數計算方法於單一測驗設計與等化測驗設計中，其測驗分數估計之效果。本章將針對研究動機、研究目的與名詞釋義進行闡述。

第一節研究背景與動機

近年來，隨著資訊科技快速進步、測驗形式的改變及需求量的快速增加，大型測驗（large-scale assessments）的議題廣泛受到矚目。大型測驗依其功能之不同，大致可分為兩種類型，一為具有篩選功能之大型測驗，例如「國中基本學力測驗（The Basic Competence Test for Junior High School Students）」、「大學學力測驗（College Entrance Examination）」及「美國大學入學測驗（American College Test, ACT）」等。這些大型測驗主要目的為測量學生的學科能力，提供學生於高中入學或大學入學之依據。另一種為建立教育資料庫之大型測驗，例如「台灣教育長期追蹤資料庫」（Taiwan Education Panel Survey, TEPS）」、「臺灣學生學習成就評量資料庫（Taiwan Assessment of Student Achievement, TASA）」、「國際數理趨勢研究（The Trends in International Mathematics and Science Study, TIMSS）」、「國家教育進展評量（National Assessment of Educational Progress, NAEP）」、「國際學生評量（Program for International Student Assessment, PISA）」

及「國際閱讀發展研究（Progress of International Reading Literacy Study, PIRLS）」。這些大型測驗主要目的為建置一套完整且客觀的學生學習成就資料庫，並且藉由例行性地學生資訊蒐集及統整，以追蹤學生學習的成果及分析其變遷趨勢，進而

檢視目前國家教育體制與政策實施是否完善。然而不管是具有篩選功能或是欲建立教育資料庫之大型測驗，實施時常會遇到許多問題，例如：題庫（item bank）

建立、題本設計（booklet design）、資料收集設計（data collection design）、樣本的設計（sample design）、通過標準設定、參數估計（parameter estimation）、

量尺化程序（scaling procedures）、分數量尺（score scale）之計算、次級量尺分數之報告等。然而，這些問題大部分已經有許多相關且完整的研究報告及實施程序的探討，例如：TEPS心理計量報告（楊孟麗、譚康榮、黃敏雄，2003）、The NAEP 1998 Technical Report（Nance, John, & Terry, 2001）、TIMSS 2003 Technical Report（Martin, Mullis, & Chrostowski, 2004）、National Indian Education Study 2007 Part I（Moran, Rampey, Dion, & Donahue, 2008），但卻無針對次級量尺分數之相關研究及分析報告進行探討。因此，本研究的主要目的將著重於不同次級量尺分數計算方法之研究。

測驗的整體分數通常使用來評斷個人等級，測驗的次級量尺分數通常有助於教師評斷學生的特殊專長及弱點（Yen, 1987；Wainer, Vevea, Camacho, Reeve, Rosa, Nelson, Swygert, & Thissen, 2000），這兩種分數提供受試者表現不同訊息重要度之解釋。然而，若能直接測量學生各面向的能力，將會比由學生整體成績來預測學生於各面向表現程度有較好的效果（Bock, Thissen, & Zimowski, 1997）。因此，

若能精準的估計次級量尺分數，便能有效提供受試者更多訊息，所以次級量尺分數的報告亦為許多大型測驗所感興趣的問題（Kahraman & Kamata, 2004）。舉例來說，2007臺灣學生國語文學習成就評量（TASA-LAN 2007），測驗內容包含字詞測驗（如字音、字形及字義等）、語法句式測驗（如句型與語態的辨識、文法與修辭的運用及標點符號、連接詞的使用等）及閱讀測驗（如閱讀方法與理解能力運用）等（台灣學生學習成就評量資料庫，2007）；PISA 2006數學能力測驗

（Mathematical Literacy in PISA 2006），測驗內容包含量數（quantity）、空間與形狀（space and shape）、推論（reasoning）及不確定性（uncertainty）（PISA 2006）。

因此，可知藉由測驗的整體分數能了解學生的整體表現，而藉由測驗的次級量尺分數報告則能呈現學生在字詞測驗、語法句式測驗及閱讀測驗等面向的優勢與劣勢（以TASA-LAN 2007為例），不僅有助於個別化的學習指導，更能掌握學生各面向的表現水準。

次級量尺分數計算通常會遇到試題數過少的問題，使得次級量尺分數估計誤差大。因此，若測驗能有足夠多的試題來測量相同的次級量尺，則能精確的估計次級量尺分數，且對於次級量尺分數之報告為可信的。然而，在真實情境中，次級量尺之試題數通常很少，這是經常存在的問題（Pommerich, Nicewander, &

Hanson, 1999）。由上述能發現，最常使用來增加測驗分數估計精準度的方式為增加試題數，但在大型測驗中，由於受試者接受的測驗可能包含許多次級量尺，為避免試題數過多，導致學生無法於短時間內順利完成，試題數的不足被視為次要的條件。

第二節研究目的

雖然國外已有學者針對次級量尺分數之研究進行探討，但是國內部分目前尚無相關研究，且並沒有研究比較這些方法使用於等化測驗設計。此外，本研究除探討國外學者所提出的幾種常見的次級量尺分數計算方法外，亦提出新的次級量尺分數計算方法。綜合上述，茲將本研究目的歸納如下：

一、比較研究者提出之新的次級量尺分數計算方法，其測驗分數估計效果。

二、單一測驗設計中，不同次級量尺分數計算方法於不同次級量尺相關程度、

施測人數、測驗題型混合比例、次級量尺個數及次級量尺測驗長度之估計效果。

三、等化測驗設計中，不同次級量尺分數計算方法於不同次級量尺相關程度、

施測人數、定錨試題配置及等化方法之估計效果。

第三節名詞釋義

一、次級量尺分數

次級量尺分數係指能測量之學生各面向的能力，這些面向可以為學習目標

（learning objectives）、子測驗（subtests）或是學習規範（learning standards），其目的在提供各面向訊息。如數學科成就測驗包含測量、幾何及空間感、代數及函數等。

二、選擇題

選擇題（multiple choice items, MC items）的構成包含題幹（stem）、選項或可能答案（options, possible answers, alternatives）、正確答案或最佳答案（correct answer, best answer）及誘答（distractors, misleads, foils）。由命題者提出問題後要

求學生作反應，且通常只有一個正確答案（歐滄和, 2002），有一致且客觀的評分

方式，不是對就是錯。

三、建構式反應測驗題

建構式反應測驗題（constructed response items, CR items）依據學生能自由發揮程度，可以分成簡答題（short answer questions）、申論題（essay test）及研究計畫。其作答為由受試者自由書寫，不受試題所提供選項的限制，但是仍然有客

觀的標準答案（歐滄和, 2002）。通常為人工閱卷，並無一致的評分方式，給分方

式可以為部份給分。本研究所使用的建構式反應測驗題為三點計分。

四、單一測驗設計

單一測驗設計有別於等化測驗設計之測驗題型，係指一般測驗情境。本研究

之單一測驗設計有 MC 試題及由 MC 試題與 CR 試題組合而成之混合測驗試題

（mixed-format tests）。

在文檔中次級量尺分數估計法應用於大型教育測驗情境之模擬研究 (頁 9-13)

緒論

第一節 研究背景與動機

第二節 研究目的

第三節 名詞釋義

一、 次級量尺分數

二、 選擇題

三、 建構式反應測驗題

四、 單一測驗設計