標準化測驗之建置流程

第二章文獻探討

第三節標準化測驗之建置流程

標準化測驗是由測驗專家、學科專家、課程專家、教師等共同建構完成，包括測驗編制、施測流程、測量模式、等化設計與方法、量尺化程序、以及建置題庫等都必須有客觀統一標準與固定的實施程序。因此，本研究以 NAEP、TIMSS、

PISA 建置流程為依據，探討測驗實施過程中幾個重要的技術層面，將標準建置流程整理如圖 2-1 所示，分別說明如下（Allen, Donoghue, & Schoeps, 2001; Martin, Mullis, & Chrostowski, 2004; OECD, 2005）。

圖 2-1 大型測驗之標準建置流程

壹、確認測驗目的、發展試題與背景問卷

必須先確認測驗目標，才能進行施測學科試題之研發，例如：NAEP 是美國評量學生成就之代表，自 1969 年便開始定期地對 4 年級、8 年級及 12 年級學生進行閱讀、數學、科學等科目之評量；TIMSS 主要目的為進行學生數學與科學教育成就趨勢調查研究；PISA 由數學、科學及閱讀三個領域中選定一個主要領域進行評量（PISA 2000 為閱讀，PISA 2003 為數學，PISA 2006 為科學）。

確認測驗目的與研究對象之後，才能進行試題規劃，例如：TIMSS 2003 針對四年級學生研發 313 題試題（161 題數學試題與 152 題科學試題）；八年級學生研發 383 題試題（194 題數學試題與 189 題科學試題）。此外，針對參與施測之相關人員研發問卷，以進行受試者學習之評估，其問卷類型包括：課程問卷、學校問卷、教師問卷、學生問卷等。

確認測驗目的、發展試題與背景問卷

抽樣設計與資料收集

測量模式與參數估計

資料分析與量尺化程序

成就表現描述

貳、抽樣設計與資料收集設計

NAEP、TIMSS、PISA 皆是透過多階段的抽樣方法抽取受試樣本，主要分成兩個階段：受試學校與受試學生之選取，如表 2-8 所示。然而，NAEP、TIMSS、

PISA 使用之資料收集設計並不相同，主要仍以平衡不完全區塊設計（balanced incomplete block design, BIB design）與部分平衡不完全區塊設計（partially BIB design, PBIB design）或其變化類型為主，如表 2-9 所示（Allen, Donoghue, &

Schoeps, 2001; Martin, Mullis, & Chrostowski, 2004; OECD, 2005; OECD, 2009）。 表 2-8 大型測驗之抽樣設計 計（ multistage stratified cluster design）：第一階段進行學校樣本的分層抽

參、測量模式與參數估計

表 2-10 為 NAEP、TIMSS、PISA 於不同測驗題型所使用的測量模式，由表 2-9 顯示各測驗所使用的測量模式不盡相同。例如：NAEP 與 TIMSS 針對二元計分試題（dichotomously scored items）使用二參數對數模式（two-parameter logistic model, 2PL）與三參數對數模式（three-parameter logistic model, 3PL）、PISA 使用單參數對數模式（one-parameter logistic model, 1PL），例如：選擇題、填充題等試題；NAEP 與 TIMSS 針對多點計分試題（polytomously scored items）使用一般化部分給分模式（generalized partial credit model, GPCM）、PISA 使用部份計分模式（partial credit model, PCM），例如：問答題、寫作題等開放性試題。此外，PISA 針對多向度測驗則使用多向度隨機係數多項洛基模式（multidimensional random coefficients multinomial logit model, MRCMLM）進行分析。

表 2-10 大型測驗所使用之測量模式

題型 NAEP TIMSS PISA

選擇題 3PL（Birnbaum, 1968; Lord, 1980） 1PL（Rasch, 1960）

填充題 2PL（Birnbaum, 1968） PCM（Masters, 1982）

開放性試題 GPCM（Muraki, 1992）

此外，在測驗軟體使用方面，NAEP 使用結合 BILOG-MG 軟體（Zimowski, Muraki, Mislevy, & Bock, 2003）與 PARSCALE 軟體（Muraki & Bock, 1991）的 NAEP BILOG/PARSCALE 軟體；TIMSS 分別使用 BILOG-MG 軟體（Zimowski, Muraki, Mislevy, & Bock, 2003）與 PARSCALE 軟體（Muraki & Bock, 1991）；PISA 使用 ConQuest 軟體（Wu, Adams, & Wilson, 1998）。

肆、資料分析與量尺化程序

1. 測驗資料分析

試題的信度分析、試題特性分析、差別試題功能（differential item functioning, DIF）分析、維度分析（dimensionality analysis）等。此外，PISA 提出異常值與品質不佳試題（dodgy items）兩個準則進行試題品質的檢視。

2. 量尺化程序

大型測驗中的量尺化方法是指受試者於一個學科領域之表現，此表現為描述受試者量尺分數或次級量尺分數（scale score）。各學科領域之量尺是以 IRT 為基礎，並使用多重插補法（multiple imputation）或可能值（plausible values）的方法論估計量尺分數分布的特徵。因此，量尺化程序是描述不同測驗題本間的量尺化過程。

伍、成就表現描述

受試者不同表現水準決斷值（cut-off points）的建立，需經過複雜的步驟與討論。NAGB 為學生在 NAEP 的表現設定成就目標（achievement goals），以告知社會大眾學生在學校內學了什麼與能做什麼的訊息。因此，透過三個成就水準以界定成就目標，並將其定義為基礎（basic）、精熟（proficient）、進階（advanced）。

TIMSS 提供一個國際的評價基準（international benchmark），以幫助了解成就量尺之意義，並且藉由描述量尺定錨程序應用來描述學生於這些基準之表現，其評價基準分成四個等級：進階國際評價基準、高國際評價基準、中等國際評價基準、

低國際評價基準。PISA 則是將分數量尺依據受試者表現水準分成六等級。

陸、小結

若欲建立一套具有信度、效度的基礎級華語文聽力與閱讀能力電腦化適性測驗，圖 2-1 的步驟是必須確實完成。雖然 NAEP、TIMSS、PISA 提供相當詳盡的經驗，但本研究所研發之華語文能力測驗是否能適用於所有程序仍需要進行探究，

因此，有關於選擇適合華語文能力測驗的測量模式、建置題庫所需考慮的等化設計與方法等步驟，分別於第四節與第五節中進行探討。

在文檔中 CEFR基礎級之華語文聽力與閱讀理解能力測驗研發與電腦化適性評量系統建置 (頁 38-43)

第二章 文獻探討

第三節 標準化測驗之建置流程

壹、 確認測驗目的、發展試題與背景問卷

貳、 抽樣設計與資料收集設計

參、 測量模式與參數估計

肆、 資料分析與量尺化程序

伍、 成就表現描述

陸、 小結