• 沒有找到結果。

第二章 文獻探討

第三節 標準化測驗之建置流程

標準化測驗是由測驗專家、學科專家、課程專家、教師等共同建構完成,包 括測驗編制、施測流程、測量模式、等化設計與方法、量尺化程序、以及建置題 庫等都必須有客觀統一標準與固定的實施程序。因此,本研究以 NAEP、TIMSS、

PISA 建置流程為依據,探討測驗實施過程中幾個重要的技術層面,將標準建置 流程整理如圖 2-1 所示,分別說明如下(Allen, Donoghue, & Schoeps, 2001; Martin, Mullis, & Chrostowski, 2004; OECD, 2005)。

圖 2-1 大型測驗之標準建置流程

壹、 確認測驗目的、發展試題與背景問卷

必須先確認測驗目標,才能進行施測學科試題之研發,例如:NAEP 是美國 評量學生成就之代表,自 1969 年便開始定期地對 4 年級、8 年級及 12 年級學生 進行閱讀、數學、科學等科目之評量;TIMSS 主要目的為進行學生數學與科學教 育成就趨勢調查研究;PISA 由數學、科學及閱讀三個領域中選定一個主要領域 進行評量(PISA 2000 為閱讀,PISA 2003 為數學,PISA 2006 為科學)。

確認測驗目的與研究對象之後,才能進行試題規劃,例如:TIMSS 2003 針 對四年級學生研發 313 題試題(161 題數學試題與 152 題科學試題);八年級學生 研發 383 題試題(194 題數學試題與 189 題科學試題)。此外,針對參與施測之相 關人員研發問卷,以進行受試者學習之評估,其問卷類型包括:課程問卷、學校 問卷、教師問卷、學生問卷等。

確認測驗目的、發展試題與背景問卷

抽樣設計與資料收集

測量模式與參數估計

資料分析與量尺化程序

成就表現描述

貳、 抽樣設計與資料收集設計

NAEP、TIMSS、PISA 皆是透過多階段的抽樣方法抽取受試樣本,主要分成 兩個階段:受試學校與受試學生之選取,如表 2-8 所示。然而,NAEP、TIMSS、

PISA 使用之資料收集設計並不相同,主要仍以平衡不完全區塊設計(balanced incomplete block design, BIB design)與部分平衡不完全區塊設計(partially BIB design, PBIB design)或其變化類型為主,如表 2-9 所示(Allen, Donoghue, &

Schoeps, 2001; Martin, Mullis, & Chrostowski, 2004; OECD, 2005; OECD, 2009)。 表 2-8 大型測驗之抽樣設計 計 ( multistage stratified cluster design):第一階段 進 行 學 校 樣 本 的 分 層 抽

參、 測量模式與參數估計

表 2-10 為 NAEP、TIMSS、PISA 於不同測驗題型所使用的測量模式,由表 2-9 顯示各測驗所使用的測量模式不盡相同。例如:NAEP 與 TIMSS 針對二元計 分試題(dichotomously scored items)使用二參數對數模式(two-parameter logistic model, 2PL)與三參數對數模式(three-parameter logistic model, 3PL)、PISA 使用 單參數對數模式(one-parameter logistic model, 1PL),例如:選擇題、填 充 題 等 試 題;NAEP 與 TIMSS 針對多點計分試題(polytomously scored items)使用一般 化部分給分模式(generalized partial credit model, GPCM)、PISA 使用部份計分模 式(partial credit model, PCM),例如:問答題、寫作題等開放性試題。此外,PISA 針對多向度測驗則使用多向度隨機係數多項洛基模式(multidimensional random coefficients multinomial logit model, MRCMLM)進行分 析 。

表 2-10 大型測驗所使用之測量模式

題型 NAEP TIMSS PISA

選擇題 3PL(Birnbaum, 1968; Lord, 1980) 1PL(Rasch, 1960)

填充題 2PL(Birnbaum, 1968) PCM(Masters, 1982)

開放性試題 GPCM(Muraki, 1992)

此外,在測驗軟體使用方面,NAEP 使用結合 BILOG-MG 軟體(Zimowski, Muraki, Mislevy, & Bock, 2003)與 PARSCALE 軟體(Muraki & Bock, 1991)的 NAEP BILOG/PARSCALE 軟體;TIMSS 分別使用 BILOG-MG 軟體(Zimowski, Muraki, Mislevy, & Bock, 2003)與 PARSCALE 軟體(Muraki & Bock, 1991);PISA 使用 ConQuest 軟體(Wu, Adams, & Wilson, 1998)。

肆、 資料分析與量尺化程序

1. 測驗資料分析

試題的信度分析、試題特性分析、差別試題功能(differential item functioning, DIF)分析、維度分析(dimensionality analysis)等。此外,PISA 提出異常值與 品質不佳試題(dodgy items)兩個準則進行試題品質的檢視。

2. 量尺化程序

大型測驗中的量尺化方法是指受試者於一個學科領域之表現,此表現為描述 受試者量尺分數或次級量尺分數(scale score)。各學科領域之量尺是以 IRT 為基 礎,並使用多重插補法(multiple imputation)或可能值(plausible values)的方法 論估計量尺分數分布的特徵。因此,量尺化程序是描述不同測驗題本間的量尺化 過程。

伍、 成就表現描述

受試者不同表現水準決斷值(cut-off points)的建立,需經過複雜的步驟與 討論。NAGB 為學生在 NAEP 的表現設定成就目標(achievement goals),以告知 社會大眾學生在學校內學了什麼與能做什麼的訊息。因此,透過三個成就水準以 界定成就目標,並將其定義為基礎(basic)、精熟(proficient)、進階(advanced)。

TIMSS 提供一個國際的評價基準(international benchmark),以幫助了解成就量 尺之意義,並且藉由描述量尺定錨程序應用來描述學生於這些基準之表現,其評 價基準分成四個等級:進階國際評價基準、高國際評價基準、中等國際評價基準、

低國際評價基準。PISA 則是將分數量尺依據受試者表現水準分成六等級。

陸、 小結

若欲建立一套具有信度、效度的基礎級華語文聽力與閱讀能力電腦化適性測 驗,圖 2-1 的步驟是必須確實完成。雖然 NAEP、TIMSS、PISA 提供相當詳盡的 經驗,但本研究所研發之華語文能力測驗是否能適用於所有程序仍需要進行探究,

因此,有關於選擇適合華語文能力測驗的測量模式、建置題庫所需考慮的等化設 計與方法等步驟,分別於第四節與第五節中進行探討。

相關文件