科學能力的建構反應評量之發展與信效度分析：以自然科光學為例

(1)

林小慧、林世華、吳心楷科學評量之信效度分析 173 教育科學研究期刊第六十三卷第一期 2018 年，63（1），173-205 doi:10.6209/JORIES.2018.63(1).06

科學能力的建構反應評量之發展與

信效度分析：以自然科光學為例

林小慧

*

林世華

吳心楷

國立臺灣師範大學科學教育研究所教育心理與輔導學系國立臺灣師範大學國立臺灣師範大學科學教育研究所

摘要

由於建構反應試題較選擇題更適於評估學生的高階認知能力，本研究目的係在發展科學能力的建構反應評量，建立評分規準，並分析信度與效度。全評量包含「科學知識的記憶與瞭解」、「科學程序的應用與分析」、「科學邏輯的論證與表達」，以及「問題解決的評估與創造」四個分評量，共計 32 題。分析結果顯示，評分者內之 Cronbach’s α 與評分者間之 Kendall ω 和諧係數值均大於 .90，表示評分者內與評分者間的一致性良好。再者，評分者嚴苛度之多面向 Rasch測量模式之卡方考驗未達顯著水準，表示評分者間的嚴苛度未有差異存在，infit 與 outfit MNSQ 介於 1 ± 0.5，顯示無論嚴格或寬鬆的評分者，均能有效區分高、低能力的學生。另 RSM與 PCM 模式比較的卡方考驗達顯著水準，將所估計的 Deviance 進行 BIC 轉換，結果發現 RSM 較為適配，顯示評分者間有相同的評分閾值。此外，全評量之 Cronbach’s α 在 .85 以上，顯示具有不錯的信度。驗證性因素分析結果顯示，「科學知識的記憶與瞭解」、「科學程序的應用與分析」、「科學邏輯的論證與表達」，以及「問題解決的評估與創造」所檢測四個一階潛在因素，可被二階因素之「科學能力」解釋的變異量分別為 .92、 .56、.46、.46，實徵資料尚且支持「科學能力的建構反應評量」的理論構念模式，係為一項精確測量科學能力的工具。關鍵詞：多面向 Rasch 測量模式、建構反應評量、評分者一致性、驗證性因素分析通訊作者：吳心楷，E-mail: [email protected] 收稿日期：2017/3/20；修正日期：2017/08/05、2017/10/09；接受日期：2017/11/10。

(2)

174 科學評量之信效度分析林小慧、林世華、吳心楷

壹、緒論

科學論證表達、科學實驗設計、儀器操作技術，以及應用科學理論解決問題係為重要的科學能力。為了檢視學生在科學能力的學習發展狀況，開放式申論測驗題型既可深度反映學生的知識層次與應用，亦可評量其闡釋表達能力。基此，許多研究者開始聚焦在建構反應評量暨評分規準的研發與應用（Toranj & Ansari, 2012）。試題類型大致可分為兩類：一、選擇反應型（selecting response type）：受試者需從所提供答案中選出較適當的選項，如是非題、選擇題或配合題；二、建構反應型：受試者必須根據題幹敘述作答，如填充題、簡答題或申論題。其中，簡答題和申論題係要求受試者依據題幹說明，組織、建構暨闡釋想法，反映帶有文字敘述的答案，不僅能夠測量敘述與程序知識，還能評測記憶、組織與想法啟發等高階認知能力（Valenti, Neri, & Cucchiarelli, 2003）。Valenti、Cucchiarelli 與 Panti（2002）指出，現行多數評量工具均植基於明確標準答案的題型，如選擇題、複選題、簡答題、配合題等，而有些複雜的學習成就實難以用單一標準答案的問題來測量。Gronlund（1985）即認為某些諸如回憶、組織、整合想法、文字表達，以及資料詮釋（interpretation）與應用等複雜成就層次的能力，即 Bloom（1956）六種思考模式之綜合（synthesis）、評鑑（evaluation）等高層次能力，並無法透過客觀性的題型測量，必須仰賴建構反應題型方能有效檢測。現行有關科學評量，諸如 Temiz、Taşar 與 Tan（2006）所發展之科學過程技能測驗（science process skills test, SPS），以及 Kuo、Wu、Jen 與 Hsu（2015）所發展之多媒體科學探究能力評量（multimedia-based assessment of scientific inquiry abilities, MASIA）皆為具有信度與效度的評量工具，可提供良好的範例參考給從事科學過程技能或科學探究能力等課程研發或工具發展的研究人員。然由於本研究所欲檢核之科學能力範疇，還包括科學基本概念的理解能力，並非僅止於科學過程技能或科學探究能力這個向度。基此，本研究研擬另外發展「科學能力的建構反應評量」（constructed-response assessment of scientific abilities, CRASA），並驗證評量之理論構念模式是否能為實徵資料所驗證支持，藉以檢視構念效度，期能提供教師瞭解學生科學學習狀況，繼而評估應用分析、闡釋表達，以及問題解決等高階認知能力。然則，Bennett 與 Ward（1993）認為建構反應評量相較於選擇反應評量雖檢具很多優勢，但也存在評量客觀暨耗時費力的雙重疑慮問題，亦即知覺主觀的申論評分歷程往往導致評分回饋的變異，致使評分的客觀性受到質疑（林小慧、曾玉村，2017）。因此，本研究第二個目的即在於發展建構反應評分量規準（rubric），藉以克服人為評量之主觀、疲勞暨偏誤的影響，建立一套評鑑科學能力的標準，裨益客觀公正地評測學生的學習表現。綜上所述，本研究目的係在發展 CRASA 暨其評分規準，並透過 CRASA，藉以檢視學生科學能力的學習發展狀況，包括「科學知識的記憶與瞭解」、「科學程序的應用與分析」、「科學邏輯的論證與表達」，以及「問題解決的評估與創造」。

(3)

林小慧、林世華、吳心楷科學評量之信效度分析 175

貳、文獻探討

一、建構反應評量之基礎研究

（一）建構反應評量的內涵

建構反應試題中的簡答和申論題，需要受試者依據題幹內容，在回答中建構與表達自身想法，可視為是寫作的一種表現。Witkin（2000）指出，科學寫作偏重在理性的闡釋與論述，係以理論基礎為後盾，並檢具諸如問題陳述、文獻探討、方法、結果與討論等文章結構的形式，強調推理、解析和邏輯性。故而學生在產出建構反應的過程中，需植基於理論與邏輯，進行推演和論證，並在客觀的事實範疇內，展開理性思維與合理解析。申論係為評量學習結果有效的工具，其應用到受試者本身的回憶、組織與整合想法等認知能力，也是資料解釋及應用之自我書寫表達能力的展現（Valenti et al., 2003）。因此 Carter、Ogle 與 Royer（1993）提出教師可透過科學建構反映成品，檢視學生科學概念的理解程度暨思考歷程。換言之，教師可藉由科學申論寫作評量來檢視學生理解科學概念的程度（Stepanek & Jarrett, 1997）。 Miller與 Calfee（2004）指出大型寫作評量能檢測兩種截然不同卻呈高相關的認知能力，其一為閱讀理解，其二則是將理解轉換成寫作的能力。其中，學生如何將所獲得的想法與認知轉譯成寫作文字，係植基於有助於進行理解及撰寫之思考建構的基模理論（schema theory）。 Miller與 Calfee 進一步將寫作評量分為兩類，包括文本取向寫作評量（text-based assessments）與單一寫作評量（stand-alone assessments）。

1. 文本取向寫作評量

文本取向寫作評量係植基於一篇閱讀文本，學生必須依據該文本完成寫作任務。Miller 與 Calfee（2004）認為，若在未提供背景知識（background knowledge）的情況下，即期待學生植基個人經驗進行評量或鼓勵創作是不合理的任務。換言之，文本具有提供背景知識的功能，可作為學生進行思考、理解及組織的中介，促使從其不同的認知觀點來執行任務。因此，舉凡學術性寫作評量均納入文本，藉以提供學生從中習得修辭結構暨語意關聯，促使連結先前經驗（prior experiences）。換言之，透過文本聚焦闡述的寫作提示（writing prompts），不僅能夠活化學生的先備知識，還可激發得以融貫（coherence）及有效寫作思考的隱含模式。

2. 單一寫作評量

Miller與 Calfee（2004）主張單一寫作評量僅包含寫作任務，係植基個體的先備知識或經驗進行寫作，並認為個體只有在理解狀態下，才能進行修辭、概念及語意觀點之動態心智活動（dynamic mental entity），致使能夠組織寫作任務。因此，開放性試題應提供作答指引，以

(4)

176 科學評量之信效度分析林小慧、林世華、吳心楷協助學生提取相關既有基模或經驗，進行概念表達的寫作反應。有鑑於本研究係在發展科學能力的建構反應試題暨評分規準，藉以檢視中學生科學能力並提供其可能闕漏的訊息（missing information），以協助學生提升科學概念思考與論證邏輯的能力，因此 CRASA 採用單一寫作評量方式。

（二）CRASA 架構之界定

Foltz、Laham 與 Landauer（1999）研究指出，雖然有些植基於潛在語意分析（Latent Semantic Analysis, LSA）理論所發展的寫作自動評估技術均已聚焦在文法、拼字及標點符號部分，但仍有其他可供評定的因子用以評量申論品質。以摘要能力為例，在評定時主要依據三個規準（criteria）：1.評估學生概念知識的正確性及完整性；2.檢視學生論證（arguments）的合理性；3.審核學生寫作的流暢（fluency）、優雅及理解性。Roid（1994）提出寫作能力的構念約略可從主題（theme）、想法（ideas）、組織（organization）和表達（presentation）四個方面來探討，茲闡述如下：

1. 主題

個體應切入主題並逐步引入相關概念，藉以提供完整及充分的資訊來論述主題內涵或支持主題的論點，其文章內容必須植基主題發展，而非偏重在無法支持主題的描述。

2. 想法

個體並非僅止於主題字面上的描述，而是應針對相關概念進行深入探討。若只是重複描述相同概念，而未進一步地闡釋，顯示學生對於該主題的內涵本質瞭解有限，亦即文章的論述應聚焦在學生是否能正確地使用概念，以及理論的解釋是否符合邏輯。

3. 組織

Roid 認為當個體進行有邏輯的意義表達並提出預期結果時，應呈現一個明確完整且具有層次概念的描述，其主題概念呈現的結構、主題意義鋪陳的邏輯，以及銜接主題之延伸概念的模式，都需要個體的組織能力。Huang（1999）亦指出，個體應利用主題句將理論帶出，並透過「銜接」主題的延伸概念，從一個段落發展到好幾個段落的闡述，最終形成一份完整且具有階層組織的文章。

4. 表達

Roid 指稱，表達包括了描述（descriptive）、說服（persuasive）、說明（expository）及敘事（narrative）等能力。其中，「描述」係指作者對人、事、物的描述，俾使讀者產生生動的視覺影像或印象；「說服」則指作者能提出有效的觀點來說服讀者；「說明」意指作者能提供訊息、解釋事件、澄清過程，或者是定義一個概念；「敘事」泛指作者重述個人經驗或講述一個故事，以利讀者建立中心主題。另 Foster（1984）認為科學論述檢具簡潔、明瞭的風

(5)

格，並質疑讀者看不懂科學內容，係因文章檢具專業的觀點。學生對於概念理解的程度和文章陳述的明確性具有一定的關係。此外，內容是否有文法、標點符號、用法的錯誤存在，也在考量範疇。

雖然早在十七世紀，人們已將文學寫作（literary form of writing）和科學寫作（scientific form of writing）區分開來，文學寫作強調美學、文化與人文思想，並重視語言本身是如何被用以表達、探索、分析與創造。然對科學論述而言，係以理論基礎為後盾，強調推理、解析及邏輯性，亦即必須植基客觀事實，進行理性思維與合理解析，故語言僅只是進行客觀事實描述的媒介（Witkin, 2000）。是以，儘管文學寫作與科學論述在本質上有所差異，前者除了理性闡述之外，更多的是強調感性抒發，後者則偏重理性的闡釋與論證。然而，兩者在構念架構卻是相差無幾。Miller 與 Calfee（2004）認為寫作大致包含摘要、延伸及轉換三種形式。其中，「摘要」主要強調文本中關鍵語意元素及反映文本結構；「延伸」係指超越摘要，內容包括文本訊息與其他相關的知識及經驗；另「轉換」則是要求學生超越摘要及各類連結，用自己的話表達對文章的理解暨演繹對文章觀點的判斷。Anderson（1999）提出 Bloom 修訂版的分類法，包括「知識層次」及「認知層次」。其中知識層次涵蓋事實、概念、程序及後設認知等知識，而認知層次則涵蓋記憶、瞭解、應用、分析、評鑑及創造。綜上所述，本研究透過 Roid 針對寫作評量所提出的主題、想法、組織、表達等構念架構，來界定科學建構反應的評量架構，包括：1.主題：涉及個體對科學概念的瞭解；2.想法：涉及個體科學概念的應用與分析能力；3.組織：不僅涉及個體對科學概念的瞭解，同時還包括活化這些科學概念，繼而演繹新創的觀點；4.表達：涉及個體在瞭解科學概念後，能夠加以整合並提出論述的能力。基此，本研究綜整文獻暨依據 Bloom 修訂版的分類，將 CRASA 架構確立兩大主軸暨四個向度。兩大主軸係指「應知」及「應能」的表現內涵，亦即知識內涵（knowledge connotation）與認知內涵（cognitive connotation）。知識內涵的四個向度包括事實、概念、程序及後設認知等知識。認知內涵的四個向度則涵蓋記憶與瞭解、應用與分析、論證與表達，以及評鑑創造等能力。基此，本研究評分規準包括四個向度：1.評估學生對於主題概念基本知識的記憶瞭解程度；2.端詳學生針對主題概念程序知識的應用分析能力；3.審視學生論證邏輯的合理性，亦即是否具備邏輯論證的表達評論能力；4.檢視學生是否具備連結科學主題或概念解決問題的應用能力，以及領會科學概念的弦外之音而提出未來可能的開發應用，亦即問題解決的評估創造能力。

二、多面向 Rasch 測量模式

多面向 Rasch 測量模式（many-facet Rasch measurement, MFRM）是 Rasch 測量模式的延伸（Eckes, 2009），適用於多個潛在變項影響評量結果的測量模型，暨評分者中介的評量。因此，本節將依序介紹 Rasch 測量模式及延伸模式，包括多元計分模式、評定量尺模式（rating

(6)

scale model, RSM）、部分給分模式（partial credit model, PCM），以及 MFRM 測量模式（引自林小慧、曾玉村，2017）。

（一）Rasch 測量模式

二元計分（dichotomous scoring）的數學模式，係指作答反應非對即錯的差別，亦即 0 分與 1 分的區別，如

公式

1-1。Rasch 模式認為作答反應會受到試題難度與受試者能力的影響，為了顯示答對機率取決於能力和難度的差距，故而將公式 1-1 經 logit 轉換形成公式 1-2

。

1 exp( , ) ( | , ) 1 exp( , ) n i in n i n i P X θ β θ β θ β = = ₊ （公式 1-1） ln 1 0 ni n i ni p p θ β ⎡ ⎤ ₋ ⎢ ⎥ ⎣ ⎦

（公式 1-2）

n θ ：受試者 n 的能力估計值；βi：第 i 題的難度估計值；pni1：受試者 n 在第 i 題答對的機率； 0 ni p ：受試者 n 在第 i 題答錯的機率。

（二）Rasch 延伸模式

1. 多元計分模式

多元計分（polytomous scoring）係指作答反應有多個計分規則，亦即並非只有 0 分與 1 分的區別，而是存在很多計分，其數學模式如

公式

2

。

ln ( 1) nij n ij ni j p p − θ β ⎡ ⎤ = − ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ （公式 2） n θ ：受試者 n 的能力估計值；βij：第 i 題在第 j 階的難度估計值；pnij：受試者 n 在第 i 題得 j 分的機率；pni j( 1)− ：受試者 n 在第 i 題得（j－1）分的機率。

2. RSM

有 k 個點數（1, 2, …, k−1）的多分題，就具有 k−1 個閾難度（threshold difficulty），亦即從 1 分到 2 分、… k−1 分到 k 分的閾難度。RSM 即假設所有題目的閾難度都相同，換言之，評量所有題目都使用相同的評定量尺，即適用公式 3。 ln ( 1) ( ) nij n i j ni j p C p − θ β ⎡ ⎤ = − + ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ （公式 3）

(7)

林小慧、林世華、吳心楷科學評量之信效度分析 179 n θ ：受試者 n 的能力估計值；βi：第 i 題的難度估計值；Cj：第 j 階閾的難度估計值（第 j －1 階進到第 j 階所增加的難度）；pnij：受試者 n 在第 i 題得 j 分的機率；pni j( 1)− ：受試者 n 在第 i 題得（j－1）分的機率。

3. PCM

PCM即假設多分題模式的閾難度不同，亦即評量所有題目使用不同的評定量尺

（公式

4）

。

ln ( 1) ( ) nij n i ij ni j p C p − θ β ⎡ ⎤ = − + ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ （公式 4） n θ ：受試者 n 的能力估計值；βi：第 i 題的難度估計值；Cij：第 i 題，第 j 階閾的難度估計值（第 j－1 階進到第 j 階所增加的難度）；pnij：受試者 n 在第 i 題得 j 分的機率；pni j( 1)− ：受試者 n 在第 i 題得（ j－1）分的機率。

4. MFRM 測量模式

(1)MFRM 的數學公式

Linacre（1989）指出 MFRM 係為 Rasch 模型所延伸發展而來的測驗模式，包含多個面向（facets），如受試者能力、試題難度及評分者嚴苛度等。此模型系將所有需考量的潛在面向放在同一個尺度上，並將分數轉化為一等距尺度 logit 分數（如公式 5）。 ln ( 1) ( ) nijk n i ij k ni j k p C p − θ β η ⎡ ⎤ = − + + ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ （公式 5） n θ ：受試者 n 的能力估計值；βi：第 i 題的難度估計值；Cij：第 i 題，第 j 階閾的難度估計值（第 j－1 階進到第 j 階所增加的難度）；ηk：評分者 k 的嚴苛度；pnijk：受試者 n 被評分者 k 在第 i 題評 j 分的機率；pni j( 1)− k：受試者 n 在第 i 題被評分者 k 在第 i 題評（ j－1）分的機率。

(2)MFRM 的分析應用

有鑑於許多測驗情境並非只有受試者能力及試題難度會影響其作答反應，以建構反應試題為例，即便提供客觀一致的評分規準，評分者仍會有主觀的判斷，因此產生除能力及難度因素外，也會影響作答反應的其他因素（Landy & Farr, 1983）。Linacre（1989）研究指出，影響作答反應主要有四個因素，除了受試者能力及試題難度外，還包括評分者嚴苛度及評分者心中的那把評定量尺。基此，MFRM 就被用來解決此類的問題。證據指出，評分者判斷存在

(8)

180 科學評量之信效度分析林小慧、林世華、吳心楷相當程度之系統性錯誤，若不加以解釋，極可能導致不適當或不公平的結論（Eckes, 2009）。是以，如果忽略相關影響受試者反應表現的潛在面向，可能會誤導或誤判評測結果，造成能力估計的偏誤。因此，雙重 Rasch 測量模式延伸的 MFRM，即可考量能力及難度以外更多的面向，如嚴苛度、任務難度、計分規準等潛在面向以進行分析，藉以客觀估計能力、嚴苛度、任務及規準難度，以及面向間潛在交互作用的偵測。另進行 MFRM 分析的資料不限定二元計分，可以是多元計分資料，尤其是評分者中介的評量。

參、研究方法

一、研究架構

本研究首先召集三位專家教師討論並發展 CRASA，以及「科學能力的建構反應評分規準」。緊接著預試，並將資料進行項目分析與探索性因素分析（exploratory factor analysis, EFA），藉以修訂評量試題。修訂完成即正式施測，並回收資料與進行閱卷。最後進入分析階段，包括構念效度與信度的檢驗，前者係進行二階驗證性因素分析（confirmatory factor analysis, CFA），透過理論模式的考驗，檢視與實徵資料的適配程度，藉此確立評量構念是否能為實徵資料所支持而檢具構念效度；後者則依序檢驗評分者一致性與評量試題內部一致性。評分者部分，研究者依次進行古典測驗理論之評分者一致性分析、現代測驗理論之 MFRM 評分者嚴苛度與 RSM及 PCM 模式比較的卡方考驗。有鑑於卡方考驗所檢定的標的，係為樣本之觀察次數或百分比與統計理論或母群體的次數或百分比之間的差距，因此，當觀察次數與理論次數（期望值）之間的差距很大時，卡方考驗結果即愈易達顯著水準。由於本研究樣本規模在千個以上，因此 χ2差值在大樣本的情況下容易拒絕虛無假設。又 Schwarz（1978）指出在大樣本的條件下，貝氏訊息準則（Bayesian Information Criterion, BIC）正確選取模型的機率比其他準則都要來得好，其值愈小表示模式的適配度較好，如公式 6 所示

。

是故本研究另外採用 BIC 的模式比較，藉以檢核評分者的一致性（consistency）和變異性（variability）。另進行評量試題之內部一致性的估計，以檢視評量的信度。 BIC= −2lnL K+ .lnM （公式 6） L：概似函數（likelihood function）；K：模型參數個數；M：樣本數。

二、研究對象

（一）評量預試暨正式施測對象

本研究對象以上過光學單元之八至九年級學生為主，並以立意取樣臺北市及新北市共計 1,372位學生進行施測，包括預試與正式施測。其中，預試包括兩個階段，前階段以八至九年

(9)

林小慧、林世華、吳心楷科學評量之信效度分析 181 級學生共計九位進行預試，主要目的在確認試題文句敘述是否為學生所理解，並依據學生意見進行修正；後階段共計 173 位接受修正版本預試，主要目的在透過項目分析與 EFA 的結果，進行試題修訂暨提供各向度之內容水準所對應表現水準的範例。此外，計有 1,190 位學生接受正式評量施測（如表 1）。表 1 正式施測人數摘要年級人數性別人數累計（%）總累計（%）男 347 51.33 29.16 八年級 676 女 329 100.00 56.81 男 280 54.47 80.34 女 229 99.02 99.58 九年級 514 遺漏值 5 100.00 100.00 合計 1,190 1,190

（二）評量之評分者

本研究的評分者包括第一作者共計有四位，另外三位分別是資訊工程、衛生教育及教育心理背景的博士後研究員。評閱工作開始前，評分者需針對評分規準進行討論及訓練，之後才開始進行評閱工作。為避免評分者因工作負荷大導致倦怠而影響評分品質，本研究透過等化設計，將四位評分者的評分結果轉換至同一量尺上，以利比較。基此，本研究設計評分者間 37%至 63%的定錨試卷，以便作為評分結果間的連結之用。

三、評量預試題本之編製

（一）評量範圍

本評量命題係植基「國民中小學九年一貫課程綱要」自然與生活科技學習領域國中階段能力指標、「國民中小學九年一貫課程學習成就評量指標與方法手冊」（林世華、盧雪梅、陳學志，2004），暨現行各版本教科書關於「光學」之內容架構，共有 35 題建構反應試題，所涵蓋的單元包括「光的傳播與光速」、「反射定律與面鏡」、「光的折射與透鏡」，以及「色光與顏色」，試題內容則涵蓋「應知」及「應能」的內容標準，包括科學知識的記憶與瞭解、科學程序的應用與分析、科學邏輯的論證與表達，以及問題解決的評估與創造。

（二）試題發展

本評量試題發展包括知識內容與認知內容，前者涵蓋「光的傳播與光速」、「反射定律與

(10)

182 科學評量之信效度分析林小慧、林世華、吳心楷面鏡」、「光的折射與透鏡」，以及「色光與顏色」等四個內容向度；後者則檢核「科學知識的記憶與瞭解」、「科學程序的應用與分析」、「科學邏輯的論證與表達」，以及「問題解決的評估與創造」四個能力向度，共計發展 35 題（如表 2）。其中「科學知識的記憶與瞭解」涵蓋光學四個次單元的基本知識，包括「光的傳播與光速」五題、「反射定律與面鏡」六題、「光的折射與透鏡」三題，以及「色光與顏色」六題，共計 20 題。另其他三個認知向度則各以一個光學次單元來設計題目，依序為「科學程序的應用與分析」五題、「科學邏輯的論證與表達」四題，以及「問題解決的評估與創造」六題。每一題建構題均提供清楚、聚焦陳述的回答提示，藉以激發學生的先備知識與既有基模，致使其能進行修辭、概念及語意觀點之解釋與推論的動態心智活動，並進一步組織回答任務，藉以檢視學生的科學能力。表 2 CRASA雙向細目認知內容科學知識的記憶與瞭解科學程序的應用與分析科學邏輯的論證與表達問題解決的評估與創造合計光的傳播與光速 5 5 反射定律與面鏡 6 6 12 光的折射與透鏡 3 4 7 色光與顏色 6 5 11 合計 20 5 4 6 35

（三）評量格式與評量解釋

CRASA的形式係為建構題型，包括簡答題、勾選題、繪圖題及申論題，採用多元計分模式，依據學生的作答反應進行評分。評分原則包含「無法正確地……」評 1 分、「能部分正確地……」評 2 分、「能正確地……」評 3 分、「能正確及完整地……」評 4 分，未作答則記為「.」（如表 3）。

四、評分規準之發展

建構反應評量評分規準係指明確闡釋內容標準、表現標準，以及所欲評估能力表現之特點或範疇的指引，用以闡釋學生「應知」與「應能」的水準程度暨各水準的計分規則，茲分別簡述評分規準制定歷程如下。

(11)

林小慧、林世華、吳心楷科學評量之信效度分析 183 表 3 評量例題與評分規準之示例能力向度問題解決的評估與創造例題 C11. 假如你是一家專賣凹面鏡、凸面鏡及平面鏡等各式各樣面鏡的老闆（如右圖所示）。某一天，一位住在山上的原住民，因為回家途中的迂迴山路，常讓他在轉彎處看不到對面來車，為了避免與對面來車相撞的危險，於是想買個鏡子自行架設在山路的轉彎處，好讓駕駛可以看到對面來車而降低相撞的危險，請問你會建議他買哪一種鏡子，才能解決他的問題（請填代號：A、B、 C，及寫出鏡子名稱） C12. 請說明你建議原住民買這種面鏡的理由答案 1. A（凸面鏡） 2. 原住民需要能夠看到更大視野的鏡子來解決看不到對面來車的問題。凸面鏡能夠形成正立縮小虛像，因此鏡中能呈現較大範圍的影像，可解決讓原本看不到對向來車的問題。由於凸面鏡的成像範圍擴大，而能讓原住民看到對向來車，避免掉與對面來車相撞的危險答錯 1分寫錯答案或答非所問 2分學生C12得分為1分或2分者 3分學生C12得分為3分者 C11_評分規準答對 4分學生C12得分為4分者答錯 1分寫錯答案或答非所問 2分寫出凸透鏡能發散光線、形成正立、縮小、虛像及呈現較大範圍的影像（其中一或兩個答案） 3分寫出凸透鏡能發散光線、形成正立、縮小、虛像及呈現較大範圍的影像（其中三個答案） C12_評分規準答對 4分寫出凸透鏡能發散光線、形成正立、縮小、虛像及呈現較大範圍的影像（其中四個答案）

（一）釐清評量目的

為避免評分者對於評分規準的詮釋歧異，以及主觀評分回饋的變異，致使疑慮評分的客

(12)

184 科學評量之信效度分析林小慧、林世華、吳心楷觀性，繼而影響評量的效度與公平性。本研究發展科學能力的建構反應評分規準，藉由提供一套統一的計分原則以監控評分品質，使評分者間的評分歧異盡量趨於一致。

（二）訂定內容標準、表現標準與命名

本研究將科學能力的建構反應評分規準確立四個內容向度，包括科學知識的記憶與瞭解、科學程序的應用與分析、科學邏輯的論證與表達，以及問題解決的評估與創造。另依據美國國家教育進展評量（National Assessment of Educational Progress, NAEP）所提出的命名藍圖，將科學能力的建構反應評分規準訂定四個表現標準，並命名為待加強、基礎、精熟與進階。

（三）發展表現標準陳述與計分規則

本研究分別就評量架構中的四個內容標準及表現標準，擬訂各向度內容標準暨所對應之表現水準的陳述，以及計分規則，各項內容詳見表 4。

五、預試分析與結果

（一）項目分析及結果

本研究將 173 份預試資料進行項目分析，依據以下四個刪題標準進行題目的篩選或修訂： 1.同質性考驗：計算題項與評量的相關，＜ .30 者刪除；2.一致性考驗：刪除該題後能提高 Cronbach’s α者，予以刪除；3.因素負荷量估計：以 EFA 之主軸因素法（principal axis factoring, PAF）估計因素負荷量，＜ .30 者刪除；4.決斷值估計（critical ration, CR）：計算各題之 CR，未達顯著水準者，予以刪除。分析結果顯示，「科學知識的記憶與瞭解」之第 4、9、10 題未符合上述篩選標準，故予以刪除。

（二）EFA 及結果

本評量共計 32 個觀察變數，依序為「科學知識的記憶與瞭解」（C1~C3，C5~C8， C17~C19，C24~C27，C33~C35）、「科學程序的應用與分析」（C28~C32）、「科學邏輯的論證與表達」（C20~C23）、「問題解決的評估與創造」（C11~C16）。

1. KMO 和 Bartlett’s 球形檢定

KMO和 Bartlett’s 球形檢定分析結果顯示，KMO 為 .85，Bartlett’s 球形檢定達顯著差異，顯示本評量適合進行因素分析。

2. 因素相關係數估計

相關分析結果顯示，因素之間呈現一定程度的相關介於 .25~ .52，表示本研究資料適合進行因素分析。

(13)

(14)

(15)

3. 因素負荷量估計與因素命名

本研究萃取四個因素，以 PAF 暨直接斜交轉軸法（direct oblimin）進行因素分析。分析結果顯示（如表 5），因素 1 特徵值 9.57，組型因素負荷量絕對值介於 .35- .76，命名為「科學知識的記憶與瞭解」；因素 2 特徵值 2.91，組型因素負荷量絕對值介於 .64- .93，命名為「科學程序的應用與分析」；因素 3 特徵值 2.81，組型因素負荷量絕對值介於 .79- .89，命名為「問題解決的評估與創造」；因素 4 特徵值 1.92，組型因素負荷量絕對值介於 .82- .99，命名為「科學邏輯的論證與表達」。

綜上所述，CRASA 之 EFA 結果顯示，所抽出的因素符合 CRASA 構念向度，試題之因素負荷量絕對值皆大於 .35（ .35- .99），轉軸後四個共同因素可以解釋的總變異量為 53.75%。

六、正式評量施測程序

（一）正式評量之構念與題數

本評量經項目分析共刪除三題，計有四個分評量，依序定名為「科學知識的記憶與瞭解」 17 題、「科學程序的應用與分析」五題、「科學邏輯的論證與表達」四題，以及「問題解決的評估與創造」六題，共計 32 題，評量構念內涵如表 6 所示。

（二）施測程序

本評量採團體施測，每位受試者均有一份評量題本及答案紙，作答時間 85 分鐘，加上指導說明，共需 90 分鐘完成。首先請受試者填寫基本資料，其次由研究者進行作答說明，最後確認受試者瞭解作答方式後，才正式進行施測。

（三）資料處理與分析

本研究施測資料回收後，先請評分者依據評分規準進行評分，並將資料鍵入電腦，依序進行評分者一致性與試題內部一致性的檢驗，以及二階驗證性因素分析。

肆、研究結果

一、信度檢驗

（一）評分者內的一致性

分析結果顯示，四位評分者各自評分的內部一致性分析之 Cronbach’s α 值均＞ .90，足見評分者內的一致性相當良好。

(16)

188 科學評量之信效度分析林小慧、林世華、吳心楷表 5 CRASA組型矩陣因素負荷量因素命名觀察變項因素1 因素2 因素3 因素4 共同性_h2 C1 .76 -.02 .03 .08 .50 C2 .71 -.06 -.01 .05 .45 C7 .70 -.05 .05 .02 .44 C8 .63 -.02 .01 -.05 .41 C19 .58 .04 .00 .03 .33 C18 .56 .02 .02 .06 .29 C6 .55 .00 -.04 -.02 .33 C3 .55 -.05 -.03 -.02 .31 C25 .51 .08 .03 -.03 .30 C17 .46 -.06 .00 -.07 .23 C26 .45 .15 .05 -.05 .28 C33 .45 -.03 -.16 -.01 .28 C27 .43 .13 .02 -.06 .26 C34 .43 -.03 -.16 -.04 .28 C5 .40 .10 .02 -.10 .24 C35 .39 -.02 -.16 -.06 .25 科學知識的記憶與瞭解 C24 .35 .15 .00 -.14 .27 C30 -.12 .93 -.06 .00 .83 C32 .03 .92 .00 -.02 .87 C31 -.04 .91 -.02 .07 .78 C29 .05 .84 -.03 -.02 .77 科學程序的應用與分析 C28 .15 .64 -.03 -.02 .53 C12 -.05 .04 -.89 -.03 .80 C11 -.04 .03 -.87 -.03 .77 C14 .04 -.02 -.87 .02 .76 C15 .04 -.01 -.87 .02 .76 C16 .03 .02 -.81 .01 .68 問題解決的評估與創造 C13 .01 .06 -.79 -.05 .68 C21 .00 -.04 .01 -.99 .95 C22 -.02 -.04 .01 -.99 .94 C20 -.03 .01 -.03 -.93 .86 科學邏輯的論證與表達 C23 .08 .03 -.03 -.82 .79 總累計變異量 53.75% 註：灰色網底係指同一構念之觀察變項的因素負荷量。

(17)

林小慧、林世華、吳心楷科學評量之信效度分析 189 表 6 CRASA構念摘要量表向度主要檢測能力題號題數科學知識的記憶與瞭解使用科學術語或符號記憶基本科學知識瞭解科學概念、原則及理論 C1、C2、C3、C5、C6、C7、 C8、C17、C18、C19、C24、 C25、C26、C27、C33、C34、 C35 17 科學程序的應用與分析使用科學工具執行科學算則或實驗步驟應用科學技巧或方法解決問題推論觀察或實驗的結果 C28、C29、C30、C31、C32 5 科學邏輯的論證與表達解釋科學現象、概念、原則或理論使用科學表徵（符號、圖表）進行科學現象、概念、原則或理論的解釋根據科學資料提出結論 C20、C21、C22、C23 4 問題解決的評估與創造根據觀察資料或科學現象，提出科學問題描述科學問題與提出科學假設針對科學問題與科學假設提出解決方法針對科學問題與科學假設執行所提出的解決方法或創造產品 C11、C12、C13、C14、C15、 C16 6 合計 32

（二）評分者間的一致性

1. Kendall ω 和諧係數分析

如表 7 所示，四位評分者共同評閱 81 位學生，其中「科學邏輯的論證與表達」及「問題解決的評估與創造」有一個學生未填答，故而此兩個向度只評閱 80 位學生。分析結果顯示，「科學知識的記憶與瞭解」、「科學程序的應用與分析」、「科學邏輯的論證與表達」、「問題解決的評估與創造」四個向度分評量的 Kendall ω 和諧係數值均為 .90 以上，卡方考驗達顯著（p ＜ .001），顯示評分者間有顯著相關存在，亦即評分者間相對等級的評分趨勢相當一致。

2. 評分者嚴苛度考驗

(1)MFRM 之卡方考驗

本研究進行 MFRM 兩個面向分析（rater + criteria），結果顯示分散指標信度（separation reliability）為 .57，卡方考驗未達顯著（p ＞ .05），表示評分者間的嚴苛度並未存在顯著差異（如表 8）。此外，infit 與 outfit MFRM 均介於 1±0.5（Wright & Linacre, 1994），表示評分

(18)

190 科學評量之信效度分析林小慧、林世華、吳心楷表 7 Kendall ω和諧係數分析結果（N＝81）科學知識的記憶與理解科學程序的應用與分析科學邏輯的論證與表達問題解決的評估與創造全評量 Kendall ω 000.99*** 000.99*** 000.99*** 000.99*** 000.99*** χ2 318.85 316.04 311.54 312.13 318.90 df 080.00 080.00 79.00 079.00 080.00 ***p ＜ .001. 表 8 MFRM嚴苛度估計與卡方考驗 INFIT MNSQ OUTFIT MNSQ facets 評分者嚴苛度 ERROR MNSQ T MNSQ T A -0.107* 0.06 0.75 -4.6 0.74 -4.0 B -0.043* 0.06 0.62 -6.7 0.63 -5.4 C -0.079* 0.06 0.65 -6.2 0.64 -5.5 rater＋criteria D -0.070* 0.67 -5.5 0.69 -4.4 Separation Reliability＝0.57

χ2 test of parameter equality＝5.01, df＝3, Sig Level＝0.171

註：T 係為 Infit MNSQ 和 Outfit MNSQ 標準化後的指標（ZSTD），服從 t 分布。 *p ＜ .05. 者實際評分資料與預期評分模式是適配的，換句話說，評分者並沒有 misfit（infit 數值≧1.5），或者 overfit（infit 數值≦1.5）的情形。其中，misfit 係指評分者出現非預期的評分，其評分型態過於隨機，亦即學生能力高者反評為低分，學生能力低者反評為高分的情形；overfit 則指評分者的評分變異過低，亦即評分者的評分型態過於一致。因此，本研究 infit 與 outfit MFRM 均介於 1±0.5，表示無論是嚴格或寬鬆的評分者，並沒有出現非預期的評分，亦無評分變異過低暨評分型態過於一致的情形，所有評分者的評分，均呈現自我的一致性（self-consistency），該評高分的就高，該評低分的就低，並無自我矛盾的現象（Park, 2004）。基此，本研究無論是嚴格或寬鬆的評分者，均能有效區分出高、低能力的學生。

(2)RSM 與 PCM 模式比較之卡方考驗

有鑑於難度、能力、嚴苛度，以及試題任務或計分規準等均為面向，可在同一個量尺上進行比較，故本研究將評分者嚴苛度視為試題難度，透過 RSM 與 PCM 模式比較，進行卡方考驗，藉以檢驗評分者間的閾值嚴苛度是否相同。結果顯示，RSM 與 PCM 的卡方差值（△χ2_）為 187.95，自由度差值（△df）為 28，卡方考驗達顯著水準，顯示實徵資料比較適配 PCM，亦即評分者間的閾值嚴苛度存在差異（如表 9）。

(19)

林小慧、林世華、吳心楷科學評量之信效度分析 191 表 9 RSM與 PCM 模式比較之卡方考驗（N＝1,190） Deviance 轉換BIC RSM 11,653.09 11,787.61 Deviance （χ2_） _PCM _11,465.14 _11,812.06 RSM 19.00 19.00 df PCM 49.00 49.00 Δχ2 187.95 24.45 Δdf 30.00 30.00 卡方考驗＜ .01，達顯著水準＞ .01，未達顯著水準

(3)BIC 模式比較之卡方考驗

本研究

將 RSM 與 PCM 所估計出來的 Deviance 進行 BIC 的轉換，結果顯示兩個模式之 BIC值差不多，但以 RSM 更為適配。另進行兩個模式之 BIC 的卡方考驗，結果顯示卡方考驗未達顯著水準（p ＞ .05）。綜上所述，無論是 BIC 值的比較或 BIC 模式比較的卡方考驗，結果均顯示評分者間的評分閾值沒有顯著差異，意謂不同的評分者有著相同評分的閾值嚴苛度（如表 9）。

（三）內部一致性信度

內部一致性分析結果顯示，全評量之 Cronbach’s α 為 .92，各分評量之 α 值介於 .87~ .95，依序「科學知識的記憶與瞭解」為 .87、「科學程序的應用與分析」為 .91、「科學邏輯的論證與表達」為 .95、「問題解決的評估與創造」為 .94，顯示本評量的信度相當不錯。

二、效度檢驗

（一）CFA

本研究以最大概似法（maximum likelihood method, ML）進行二階 CFA，藉以考驗本評量之理論概念模式是否能為實徵資料所驗證支持。建構信度分析結果顯示，一階因素之建構信度（ρc＝(∑λ)2／[(∑λ)2＋(∑ε)]）依序：「科學知識的記憶與瞭解」為 .92、「科學程序的應用與

分析」為 .93、「科學邏輯的論證與表達」為 .83、「問題解決的評估與創造」為 .92，二階因素的組合信度（composite reliability, CR）為 .87，表示 CRASA 的建構信度相當良好。

1. 模式辨識

CRASA共計 32 個觀察變項，可提供 528（＝32×33÷2）個資料點，估計參數為 68（df ＝460），表示整體模式可供辨識。

(20)

2. 基本模式適配度的檢驗

基本模式適配度的檢驗結果顯示，各觀察變項之誤差變異數均為正值，且達顯著。因素負荷量介於 .38- .97，迴歸加權係數均大於 1.96，表示模式徑路係數均達 .05 之顯著水準，因此檢具存在價值。

3. 整體模式適配度的檢驗

整體模式適配度的檢驗，結果顯示卡方分配達顯著水準（χ2_{＝9,602.14, p ＜ .001），表示} 假設模式與觀察值存在顯著差異。絕對適配指標，除 GFI、AGFI、RMSEA 外，RMR 尚契合適配度範圍；另增值適配指標之適配指數則未盡理想；其次，精簡適配指標除卡方自由度比（χ2/df）未盡理想外，PCFI、PGFI 及 PNFI 皆在理想範圍。綜上所述，CRASA 理論構念模式與實際觀察值尚且符合，但未來仍應持續蒐集資料，進行模式的驗證與修正，俾使理論構念模式檢驗之適配指標能夠達到理想適配水準（如表 10）。表 10 CRASA適配度評鑑（N＝1,190）評估項目適配標準或臨界值徑路模式檢定結果模式適配評估誤差變異 1. 無負值 2. 達顯著水準是是佳佳因素負荷量介於 .50- .95 .38- .97之間尚可基本適配 CR值＞ 1.96，達顯著水準是佳 χ2值不顯著（p ＞ .05） χ2＝9602.14 （p＝ .00）未盡理想 GFI ≥ .90 .67 未盡理想 RMR ≤ .05 .08 尚可 RMSEA ≤ .08 .13 未盡理想絕對適配指標 AGFI ≥ .90 .62 未盡理想 NFI ≥ .90 .71 未盡理想 CFI ≥ .90 .72 未盡理想 TLI ≥ .90 .70 未盡理想增值適配指標 IFI ≥ .90 .72 未盡理想 PCFI ≥ .50 .67 佳 PGFI ≥ .50 .58 佳 PNFI ≥ .50 .66 佳模式外在品質精簡適配指標卡方自由度比 1-3之間 χ2/df＝20.87 未盡理想（續）

(21)

林小慧、林世華、吳心楷科學評量之信效度分析 193 表 10 CRASA適配度評鑑（N＝1,190）（續）評估項目適配標準或臨界值徑路模式檢定結果模式適配評估估計參數達顯著水準是佳科學知識的記憶與瞭解 .92 佳科學程序的應用與分析 .56 佳科學邏輯的論證與表達 .46 尚可個別項目信度 ≥ .50 問題解決的評估與創造 .46 尚可模式內在品質潛在變項組成信度 ≥ .50 科學能力的建構反應評量 .92 佳

4. 模式內在結構適配度的檢驗

模式內在結構適配度評鑑結果顯示（如圖 1），所有估計參數均達顯著水準，一階因素負荷量（λ）介於 .38- .97。一階因素對指標變項之個別項目信度（standardized regression weights，類似迴歸係數的 R2_{）介於 .14- .94（因素負荷量的平方），除 C1-C3、C5-C8、C13、C17-C19、} C25-C27、C35 外，均＞ .50。四個一階因素被二階共同因素解釋的因素負荷量（即徑路係數 γ）依次為 .96、 .75、 .68、 .68，是以四個一階因素能被二階共同因素所解釋的變異量（γ2）依序為 .92、 .56、 .46、 .46，除了「科學邏輯的論證與表達」及「問題解決的評估與創造」被共同因素可解釋百分比稍低於 .50 外，其餘均＞ .50 且達顯著水準，亦即本評量之指標信度尚可，表示 CRASA 之理論構念模式其內在品質適配度尚可。

（二）抽取變異比

抽取變異比（average of variance extracted, AVE）係指潛在變項可以解釋觀察變項變異量的比率，亦即觀察變項表徵潛在變項的程度指標，是為一種聚斂效度的指標（李茂能， 2006）。分析結果顯示，一階因素之成分效度（ρ_r＝(∑ λ2)／[(∑ λ2)＋(∑ ε)]）為：「科學知識的記憶與瞭解」為 .41、「科學程序的應用與分析」為 .69、「科學邏輯的論證與表達」為 .77 與「問題解決的評估與創造」為 .70。二階因素之組合效度為 .72，除「科學知識的記憶與瞭解」（ .41）外，其餘均＞ .50，表示本評量之成分效度與組合效度尚在可接受範圍內。

（三）區辨效度的檢定

本研究利用潛在變項配對相關信賴區間檢定法，進行區辨效度的檢定（Torkzadeh, Koufteros, & Pflughoeft, 2003）。分析結果顯示，任兩個潛在變項之相關係數在±1.96 的標準誤後，信賴區間均未包含 1.00，表示任兩個潛在變項之間具有區辨效度（如表 11）。

綜上所述，CRASA 之構念效度的檢驗結果顯示，四因素之 CRASA 二階模式與資料之適配度尚稱符合，但仍有待持續蒐集資料，進行模式的驗證與修正，俾使未盡理想之適配指標

(22)

194 科學評量之信效度分析林小慧、林世華、吳心楷圖1. CRASA理論構念模式徑路圖暨標準化估計值。＋係數係指設定1之參數變項。 .68 + .96 .75 .68 .46 .73 .66 .56 .67 .28 .92 r4 .73 e11 Construct 11 .53 e16 Construct 16 .64 e15 Construct 15 .92 e14 Construct 14 .93 e13 Construct 13 .45 e12 Construct 12 .53 + .73 .73 .97 .46 .96 .80 e1 Construct 1 .38 e2 Construct 2 .35 e5 Construct 5 .38 e3 Construct 3 .15 e6 Construct 6 .35 e7 Construct 7 .41 e8 Construct 8 .42 e17 Construct 17 .42 e18 Construct 18 .38 e19 Construct 19 .41 e24 Construct 24 .49 e25 Construct 25 .40 e26 Construct 26 .40 e27 Construct 27 .45 e33 Construct 33 .55 e34 Construct 34 .55 e35 Construct 35 .46 e28 Construct 28 .58 e29 Construct 29 .79 e30 Construct 30 .77 e31 Construct 31 .66 E32 Construct 32 .64 e20 Construct 20 .72 e22 Construct 22 .87 e21 Construct 21 .94 + .62 .59 .38 .62 .59 .64 .65 .65 .62 .64 .70 .63 .63 .67 .74 .74 .68 + .76 .89 .88 .81 .80 + .85 .97 .93 .75 CRASA 科學程序的應用與分析科學邏輯的論證與表達 r2 r3 問題解決的評估與創造 e23 Construct 23 .56 科學知識的記憶與瞭解 r1

(23)

林小慧、林世華、吳心楷科學評量之信效度分析 195 表 11 CRASA區辨效度檢定相關信賴區間潛在變項相關_係數標準誤 r－1.96×SE r＋1.96×SE 科學邏輯的論證與表達 ↔ 問題解決的評估與創造 0.50 0.03 0.44 0.56 科學程序的應用與分析 ↔ 問題解決的評估與創造 0.49 0.03 0.43 0.55 科學知識的記憶與瞭解 ↔ 問題解決的評估與創造 0.65 0.03 0.60 0.70 科學知識的記憶與瞭解 ↔ 科學邏輯的論證與表達 0.65 0.02 0.60 0.69 科學知識的記憶與瞭解 ↔ 科學程序的應用與分析 0.72 0.02 0.69 0.76 科學程序的應用與分析 ↔ 科學邏輯的論證與表達 0.49 0.03 0.43 0.55 能夠達到理想適配水準。其次，AVE 除「科學知識的記憶與瞭解」外，其餘均顯示觀察變項的變異量主要來自潛在變項的變異量。另區辨效度的檢驗結果證實，本評量潛在變項之間確實為不同的構念。

三、學生科學能力的發展情況

（一）年級變項對科學能力表現的影響

變異數分析結果顯示（如表 12），八、九年級學生其科學能力的表現有顯著差異（F＝ 155.87, p ＜ .001），九年級學生的科學能力表現顯著優於八年級。進一步從關聯強度指數來看，η2_{值等於 12%，顯示年級變項對學生科學能力表現的解釋量呈中度相關（Cohen, 2013）。} 此外，統計考驗力等於 1.000，表示分析推論犯第二類型錯誤之機率為0%，推論正確率高，顯見年級變項對學生科學能力的表現有相當程度的解釋變異量。另八、九年級學生在各分量表的表現亦均有顯著差異，九年級學生在各分量表的表現顯著優於八年級，除年級變項對「科學程序的應用與分析」的解釋量呈低度相關之外，其餘均呈現中度相關。各分量表之統計考驗力亦均等於或接近於 1.000，分析推論犯第二類型錯誤之機率為 0%或接近 0%，推論正確率高，顯見年級變項對學生在科學次能力的表現有相當程度的解釋變異量。綜上所述，八、九年級學生其科學能力暨次能力的發展確實存在明顯差異，九年級學生相較於八年級有較佳的能力表現。

（二）性別變項對科學能力表現的影響

變異數分析結果顯示（如表13），男、女學生其科學能力的表現有顯著差異（F＝5.50, p ＜ .01），女生的科學能力表現顯著優於男生。然而，從關聯強度指數來看，η2_{值等於 1%，顯} 示性別變項對學生科學能力表現的解釋量呈低度相關（Cohen, 2013）。此外，統計考驗力等

(24)

196 科學評量之信效度分析林小慧、林世華、吳心楷表 12 不同年級組在科學能力及各向度之變異數分析摘要評量向度年級人數平均數標準差 F η2 統計考驗力八 676 28.44 10.51 九 513 36.32 10.66 科學知識的記憶與瞭解合計 1,189 31.84 11.27 161.76*** .12 1.00 八 612 9.60 3.43 九 498 10.60 3.65 科學程序的應用與分析合計 1,110 10.05 3.56 22.04*** .02 1.00 八 631 6.34 2.12 九 499 8.14 3.23 科學邏輯的論證與表達合計 1,130 7.13 2.81 127.45*** .10 1.00 八 646 10.07 3.26 九 504 12.08 4.42 問題解決的評估與創造合計 1,150 10.95 3.93 78.33*** .06 1.00 八 676 52.67 18.29 九 513 66.39 19.37 科學能力合計 1,189 58.59 19.95 155.87*** .12 1.00 ***p ＜ .001. 表 13 不同性別組在科學能力及各向度之變異數分析摘要評量向度性別人數平均數標準差 F η2 統計考驗力男 627 31.01 11.52 女 558 32.64 10.82 遺漏值 4 50.50 9.47 科學知識的記憶與瞭解合計 1,189 31.84 11.27 8.73*** .02 0.97 男 576 10.04 3.75 女 530 10.05 3.36 遺漏值 4 10.50 3.42 科學程序的應用與分析合計 1,110 10.05 3.56 0.04*** （續）

(25)

林小慧、林世華、吳心楷科學評量之信效度分析 197 表 13 不同性別組在科學能力及各向度之變異數分析摘要（續）評量向度性別人數平均數標準差 F η2 統計考驗力男 590 7.17 2.89 女 536 7.07 2.71 遺漏值 4 10.00 4.00 科學邏輯的論證與表達合計 1,130 7.13 2.81 2.28 男 600 10.79 3.87 女 546 11.13 4.02 遺漏值 4 12.00 0.00 問題解決的評估與創造合計 1,150 10.95 3.93 1.21 男 627 57.30 20.81 女 558 59.87 18.79 遺漏值 4 83.00 11.92 科學能力合計 1,189 58.59 19.95 5.50** .01 0.85 **p ＜ .01. ***p ＜ .001. 於 .85，表示分析推論犯第二類型錯誤之機率為 15%，推論正確率在可接受範圍（Kirk, 1995），因此性別變項對學生科學能力表現的影響不大，亦即此結果只有統計顯著的意義，欠缺實質應用的價值。另男、女學生在各分量表的表現，除「科學知識的記憶與瞭解」外，其餘均未達顯著水準。性別變項對「科學知識的記憶與瞭解」的解釋量呈低度相關（2%），統計考驗力等於 .97，分析推論犯第二類型錯誤之機率為 3%，推論正確率高，故而性別變項對學生在科學次能力的表現，不是沒有顯著影響，就是僅屬微弱關係。綜上所述，男、女學生其科學能力暨次能力的發展並無明顯差異，儘管女生在「科學能力」與「科學知識的記憶與瞭解」的表現顯著優於男生，但因 η2_{值很低而沒有實用的顯著性。依據本研究的分析結果，可以推論} 不同性別在科學能力的發展上並沒有明顯的差異。

伍、討論與建議

一、綜合討論

（一）CRASA 之信度尚在可接受範圍

1. 評分者內的一致性

分析結果顯示，四位評分者各自評分的內部一致性均＞ .90，顯示評分者內的一致性相當穩定。

(26)

2. 評分者間的一致性

(1)古典測驗理論的分析

本研究分析結果顯示，四個分評量的 Kendall ω 和諧係數均＞.90，並達顯著相關（p ＜ .001），表示評分者間的一致性相當好。此種一致性指標（consistency index）係指評分者間有著相同之相對等級的評分趨勢。Eckes（2009）指出高評分者間的信度是解決評分者變異的標準方法，但並不表示評分的正確性，極有可能導致錯誤的結論。基此，評分者變異係為一個不被期望介入受試者分數的變項，其會隱蔽評測的構念，故而影響評量的效度與公平。因此，本研究繼而輔以試題反應理論的分析，以確認評分者效應是否干擾評量的精確性，造成受試者能力估計的偏誤，藉以確認評量的品質。

(2)現代測驗理論的分析

A.卡方考驗 MFRM 從 Rasch 的觀點，申論的評閱，透過多元觀點專家去評閱單一特性構念會有較好的效果。 MFRM分析結果顯示，評分者間的嚴苛度確實存在差異，並能有效區分出高、低能力的學生。另 RSM 及 PCM 模式比較的分析結果顯示，實徵資料較適配 PCM，表示評分者間的閾值嚴苛度存在差異。 B. BIC準則與卡方考驗

將 RSM 與 PCM 所估計出來的 Deviance 轉換為 BIC 值，分別進行兩個模式之 BIC 值的比較與卡方考驗。適配指標結果顯示，實徵資料與 RSM 較為適配，表示不同的評分者有著相同評分的閾值嚴苛度。綜上所述，古典測驗理論的分析結果顯示，評分者內與評分者間的一致性相當好。MFRM 分析結果顯示，評分者間並未存在嚴苛度的差異，此外，與 Rasch 期望模式的適配程度在理想範圍，表示無論是嚴格或者寬鬆的評分者，均能有效區分高、低能力的受試者。再者，透過 RSM及 PCM 模式比較的卡方考驗，顯示實徵資料較適配 PCM。有鑑於本研究施測樣本在千人以上，考量 Schwarz（1978）認為在樣本數較大的條件下，BIC 準則正確選取模型的機率遠優於其他準則的觀點，本研究繼而將 RSM 與 PCM 所估計出來的 Deviance 轉換為 BIC 值，再進行模式的比較。結果均顯示評分者間的評分閾值沒有顯著差異，意謂不同的評分者有著相同評分的閾值嚴苛度。

3. 試題內部一致性信度

分析結果顯示，CRASA 暨各分評量之 Cronbach’s α 值均大於 .85，顯示本評量信度相當不錯。

(27)

（二）CRASA 之效度尚在可接受範圍內

1. 構念效度

CFA分析結果顯示，CRASA 之「科學知識的記憶與瞭解」、「科學程序的應用與分析」、「科學邏輯的論證與表達」、「問題解決的評估與創造」四個一階因素，以及「科學能力」二階共同因素之理論構念模式，其適配度檢核指標大部分符合理想範圍，但仍有少數適配度指標未達理想，故本研究未來一則仍應持續蒐集資料，進行模式的驗證；二則透過模式修飾（model modification）技術，進行有理論文獻支持的模式修正，俾使構念模式一來有其理論文獻作為基礎後盾，二來亦使檢驗之適配指標能夠達到理想適配水準。

2. 聚斂效度

成分效度分析結果顯示，除「科學知識的記憶與瞭解」外，其餘均高於 .50 以上（ .63- .74），顯示本評量之成分效度與組合效度尚可接受。

3. 區辨效度

潛在變項配對相關信賴區間檢定（r ± 1.96SE）結果顯示，任兩個潛在變項之信賴區間均未包含 1.00，表示本評量潛在變項之間確實為不同的構念，具有區辨效度。

（三）八至九年級學生之科學能力表現有顯著差異

不同年級組之變異數分析結果發現，八、九年級學生其科學能力暨次能力的發展確實存在明顯差異，九年級學生相較於八年級有較佳的成就表現。由於光學單元的教學約在八年級上學期，而本研究受試學生係在下學期接受測驗，是故均已學習過光學概念。然而，由於九年級學生對於該單元的複習遠多於八年級，故無論是學習經驗及單元內容的熟練度，均較八年級學生豐富，加上心智發展也更加成熟，因此，年級變項對學生其科學能力的表現，具有相當程度影響力的結果並不意外。

（四）八至九年級學生之科學能力表現沒有性別差異

性別對科學學習暨科學能力表現的影響，一直是許多研究者關注的議題。Lynn 與 Mikk （2009）指出，國際學生能力評量計畫（the Programme for International Student Assessment, PISA）（2000 年 27 國家；2003 年 40 國家；2006 年 56 國家）及經濟合作暨發展組織（Organiz- ation for Economic Co-operation and Development）（2001、2003、2006 年）的調查資料顯示， 15 歲男、女學生的科學能力表現並沒有差異。另國際數學與科學教育成就調查（Trends in International Mathematics and Science Study, TIMSS）（1999、2003、2007 年）關於臺灣兩性在科學的整體表現亦均無性別差異（張郁雯、林文瑛、王震武，2013）。本研究發現，八至九年級學生在科學能力的表現並未存在性別差異的結果，與前述研究結果一致。

(28)

二、研究建議

（一）評量架構內涵宜持續驗證與修訂

本研究建議未來應持續資料蒐集與模式修正，除延續模式的修訂與驗證外，並進行效標關聯效度的分析，以建立更好的內容效度。其次採用標準參照（criterion-reference）模式，透過標準設定（standard setting），事先訂定各表現等級之「應知」與「應能」的水準（Cizek, 2006; Eckes, 2009），建立決斷分數，以闡釋學生的學習狀況，裨益提供教師和學生更完備的回饋訊息。

（二）CRASA 試題宜持續研發與擴增

本研究因考量評量內容及評測時間的限制，故發展的評量試題係以光學作為試題研發的內容範圍，並未涵蓋所有的科學範疇。建議未來可持續研發涵蓋物理、化學、生物、地球科學等領域之評量試題，建置 CRASA 題庫。

（三）持續驗證與修訂 CRASA 之理論構念模式

本研究以 CFA 結果發現，CRASA 之理論構念模式檢具「科學知識的記憶與瞭解」、「科學程序的應用與分析」、「科學邏輯的論證與表達」、「問題解決的評估與創造」等四個一階因素及「科學能力」之二階共同因素，其適配指標多數符合理想範圍，然而仍有少數指標未達理想。因此，建議未來仍應持續蒐集資料，進行模式的驗證與修正，裨益確立科學能力的評量架構，藉以提供教師一個可精確評測暨診斷學生科學能力的工具。

(29)

參考文獻

一、中文文獻

李茂能（2006）。結構方程模式軟體 Amos 之簡介及其在測驗編製上之應用：Graphics & Basic。臺北市：心理。

【Li, M.-N. (2006). An introduction to Amos and its uses in scale development: Graphics & Basic. Taipei, Taiwan: Psychological.】

林小慧、曾玉村（2017）。科學多重文本閱讀理解評量及規準之建構與信效度分析—以氣候變遷與三峽大壩之間的關係題本為例。教育心理學報，49（2），215-241。doi:10.6251/ BEP.2017-49(2).0003

【Lin, H.-H., & Tzeng, Y.-T. (2017). Developing and validating a scientific multi-text reading comprehension assessment: Evidence from texts describing relationships between climate changes and the Three Gorges Dam. Bulletin of Educational Psychology, 49(2), 215-241. doi:10.6251/BEP.2017-49(2).0003】

林世華、盧雪梅、陳學志（2004）。國民中小學九年一貫課程學習成就評量指標與方法手冊。臺北市：教育部。

【Lin, S.-H., Lu, S.-M., & Chen, H.-C. (2004). The learning achievement assessment indicators and methods manual of grade 1-9 curriculum. Taipei, Taiwan: Ministry of Education.】

張郁雯、林文瑛、王震武（2013）。科學表現的兩性差異縮小了嗎？－國際科學表現評量資料之探究。教育心理學報，44（s），459-476。doi:10.6251/BEP.20111028

【Chang, Y.-W., Lin, W.-Y., & Wang, J.-W. (2013). Is gender gap in science performance closer? Investigating data from international science study. Bulletin of Educational Psychology, 44(s), 459-476. doi:10.6251/BEP.20111028】

二、外文文獻

Anderson, L. W. (1999). Rethinking bloom’s taxonomy: Implications for testing and assessment. Retrieved from ERIC database. (ED435630)

Bennett, R. E., & Ward, W. C. (1993). Construction versus choice in cognitive measurement: Issues in constructed response, performance testing, and portfolio assessment. Hillsdale, NJ: Lawrence Erlbaum Associates.

Bloom, B. S. (1956). Taxonomy of educational objectives: The classification of educational goals. New York, NY: Longmans, Green.

Carter, P. L., Ogle, P. K., & Royer, L. B. (1993). Learning logs: What are they and how do we use them? In N. L. Webb & A. F. Coxford (Eds.), Assessment in the mathematics classroom (pp. 87-96). Reston, VA: National Council of Teachers of Mathematics.

Cizek, G. J. (2006). Standard setting. In S. M. Downing & T. M. Haladyna (Eds.), Handbook of test development (pp. 225-258). Mahwah, NJ: Lawrence Erlbaum Associates.

(30)

Cohen, J. (2013). Statistical power analysis for the behavioral sciences (2nd ed.). Hoboken, NJ: Taylor and Francis.

Eckes, T. (2009). Many-facet Rasch measurement. In S. Takala (Ed.), Reference supplement to the manual for relating language examinations to the Common European Framework of Reference for languages: Learning, teaching, assessment (Section H). Strasbourg, France: Council of Europe/Language Policy Division.

Foltz, P. W., Laham, D., & Landauer, T. K. (1999, June). Automated essay scoring: Applications to educational technology. Paper presented at the World Conference on Educational Multimedia, Hypermedia and Telecommunications, Seattle, WA.

Foster, G. (1984, March). Technical writing and science writing. Is there a difference and what does it matter? Paper presented at the annual meeting of the Conference on College Composition and Communication, New York, NY.

Gronlund, N. E. (1985). Measurement and evaluation in teaching (5th ed.). New York, NY: Macmillan.

Huang, Y.-C. (1999). A study of reformulation relations in scientific reports (Unpublished master’s thesis). National Tsing Hua University, Hsinchu, Taiwan.

Kirk, R. E. (1995). Experimental design: Procedures for the behavioral sciences (3rd ed.). Pacific Grove, CA: Brooks/Cole.

Kuo, C.-Y., Wu, H.-K., Jen, T.-H., & Hsu, Y.-S. (2015). Development and validation of a multimedia-based assessment of scientific inquiry abilities. International Journal of Science Education, 37(14), 2326-2357. doi:10.1080/09500693.2015.1078521

Landy, F. J., & Farr, J. L. (1983). The measurement of work performance: Methods, theory, and applications. New York, NY: Academic Press.

Linacre, J. M. (1989). Many-facet Rasch measurement. Chicago, IL: MESA Press.

Lynn, R., & Mikk, J. (2009). Sex differences in reading achievement. Trames, 13(63/58), 3-13. doi:10.3176/tr.2009.1.01

Miller, R. G., & Calfee, R. C. (2004). Building a better reading-writing assessment: Bridging cognitive theory, instruction, and assessment. English Leadership Quarterly, 26(3), 6-13. Park, T. (2004). An investigation of an ESL placement test of writing using many-facet Rasch

measurement. Teachers College, Columbia University Working Papers in TESOL & Applied Linguistics, 4(1), 1-21.

Roid, G. H. (1994). Patterns of writing skills derived from cluster analysis of direct-writing assessments. Applied Measurement in Education, 7(2), 159-170. doi:10.1207/s15324818ame07

(31)

02_4

Schwarz, G. (1978). Estimating the dimension of a model.Annals of Statistics, 6(2), 461-464. doi:10. 1214/aos/1176344136

Stepanek, J. S., & Jarrett, D. (1997). Assessment strategies to inform science and mathematics instruction: It’s just good teaching. Portland, OR: Northwest Regional Educational Laboratory. Temiz, B. K., Taşar, M. F., & Tan, M. (2006). Development and validation of a multiple format test

of science process skills. International Education Journal, 7(7), 1007-1027.

Toranj, S., & Ansari, D. N. (2012). Automated versus human essay scoring: A comparative study. Theory & Practice in Language Studies, 2(4), 719-725. doi:10.4304/tpls.2.4.719-725

Torkzadeh, G., Koufteros, X., & Pflughoeft, K. (2003). Confirmatory analysis of computer self-efficacy. Structural Equation Modeling: A Multidisciplinary Journal, 10(2), 263-275. doi:10.1207/S15328007SEM1002_6

Valenti, S., Cucchiarelli, A., & Panti, M. (2002). Computer based assessment systems evaluation via the ISO9126 quality model. Journal of Information Technology Education: Research, 1(3), 157-175. doi:10.28945/353

Valenti, S., Neri, F., & Cucchiarelli, A. (2003). An overview of current research on automated essay grading. Journal of Information Technology Education: Research, 2(s), 319-330. doi:10.28945/331 Witkin, S. L. (2000). Writing social work. Social Work, 45(5), 389-394. doi:10.1093/sw/45.5.389 Wright, B. D., & Linacre, J. M. (1994). Reasonable mean-square fit values. Rasch Measurement

(32)

Journal of Research in Education Sciences 2018, 63(1), 173-205

doi:10.6209/JORIES.2018.63(1).06

Developing and Validating a

Constructed-Response Assessment of

Scientific Abilities: A Case of the Optics Unit

Hsiao-Hui Lin

Sieh-Hwa Lin

Hsin-Kai Wu

Graduate Institute of Science Education, National Taiwan Normal University

Department of Educational Psychology & Counseling,

National Taiwan Normal University

Graduate Institute of Science Education, National Taiwan Normal University

Abstract

This study aimed to develop and validate a constructed-response assessment of scientific abilities and an accompanying rubric. The assessment included 32 open-ended test items that were categorized into four subscales—Remembering and understanding scientific knowledge, application and analysis of scientific procedures, argumentation and expression of scientific logic, and evaluation and innovation during problem solving. The analysis revealed the following results: First, the Cronbach’s α values were higher than .90, indicating high intrarater consistency. Second, Kendall’s coefficient of concordance was higher than .90 and its p value was less than .001, denoting a consistent scoring pattern between raters. In addition, many-facet Rasch measurement (MFRM) analysis revealed no significant difference in rater severity, whereas a comparison of the rating scale model (RSM) and partial credit model (PCM) indicated that each rater had a unique rating scale structure. The infit and outfit mean squares of the MFRM were 1 ± 0.5, which suggested that both severe and lenient raters could effectively distinguish high and low-ability students. The Deviance values estimated by the RSM and PCM were converted to Bayesian information criterion values, and the RSM was viewed to fit the empirical data appropriately compared with the PCM. Therefore, the severity thresholds of the raters were the same. Third, Cronbach’s α coefficients of the four subassessments and the full assessment were higher than .85, indicating that the constructed-response assessment of scientific abilities (CRASA) provided a high internal-consistency reliability. Finally,

Corresponding Author: Hsin-Kai Wu, E-mail: [email protected]

(33)

confirmatory factor analysis revealed acceptable goodness-of-fit for the CRASA. These results suggested that the CRASA is a useful tool for accurately measuring scientific abilities.

Keywords: confirmatory factor analysis, constructed-response assessment, many-facet Rasch measurement, rater consistency

(34)