• 沒有找到結果。

國民小學數學科學習成就評量之分析研究

N/A
N/A
Protected

Academic year: 2021

Share "國民小學數學科學習成就評量之分析研究"

Copied!
62
0
0

加載中.... (立即查看全文)

全文

(1)

國立臺中教育大學教育資訊與測驗統計研究所

碩士論文

指導教授:許天維 博士

國民小學數學科學習成就評量之

分析研究

研究生:程國瑋 撰

(2)
(3)

謝 辭

兩年的求學生涯雖然不算長,不過是一段充實的日子!學業、打工、準備國 家考試,以及課後參與一些進修課程與廣泛閱讀習慣,如何在這資訊流通快速且 世界潮流快速轉動的世代不斷學習與交流,都是奠定未來工作基礎的基石。 回想過往兩年,不同領域、業界與國家的同學們聚集在這個系所中,在不同 背景以及專長的同學在課中與課後的交流與分享,使我們學到更多除了課程專業 技能和觀念之外的事物,可以激發出更多沒有想過的方法來面對碰到的困難、障 礙以及迷思。 首先,感謝指導教授─許天維博士,本論文才能夠順利完成,教授在學術上 的指導以及各方面的建議,也在這兩年中給予多方面的照顧。同時感謝教育系何 慧群教授教導一些撰寫論文的方式以及告訴我面對研究應有的態度與方向。 同時,感謝修業期間一起修過課的同學們以及博士生的前輩們,因為同學們 過去所學的主科不同或者是不同的教育職場而交換訊息與經驗使我們不斷學習、 努力向前;還有敦敦教誨的師長們,讓我們不斷吸收、學習其專精領域的事物。 也感謝一直在身邊默默支持與關心的師長們、家人、研究所的同學們以及各界朋 友們,因為有你們的支持與鼓勵,我才能持續走到現在。感謝這段日子的陪伴與 包容。 最後,謹以拙作獻給所有鼓勵、協助與祝福我的學術界、教育界以及補教界 的夥伴們。 程國瑋 謹識 2015.06.15

(4)
(5)

I

摘 要

本研究旨在檢視臺南地區著名的○○高級中學特別施行國民小學學習成就 評量的實際情況。為容易描述起見,本研究首先依據九年一貫課程綱要的數學科 基本概念,透過雙向細目表與試題檢核表進行試題分析,以理解效度情形;再由 評量分析理論,透過 Excel 軟體生成的難易度、鑑別度瞭解試題的反應結果;最 後從中發現可能發生的迷思概念、能力表現與學習成就的情形。 本研究以參加評量的六年級一千餘名學生為研究對象,回收國民小學數學領 域學習成就評量作答反應資料,除去無效後,共得 1190 筆,經分析得到以下結 論: (一)「數與量」單元的基礎影響其他主題的學習。 (二)比較型態的題目比直接演算的題目作答狀況差。 (三)不一致性語言問題會比一致性語言問題的作答狀況比較差。 (四)迷思概念的搜尋法值得推廣。 關鍵字:數學成就測驗、鑑別度分析、難易度分析、迷思概念。

(6)

II

Abstract

The present study was designed to be a good test questions to explore whether students in the sixth grade class outline the basic concepts of understanding and utilization situations in sixth grade mathematics curriculum, and found that the situation from a possible misconception within. And Use Excel software to generate a graph to identify the degree of difficulty and the general ability to analyze student performance and academic achievement scenario.

In this study, the Elementary sixth graders of Nan-Kwang Senior High School were as research subjects. In this study, the following conclusions:

1. The basis of units of "Number and amount" will affect to study other areas 2. The questions of comparison patterns are worse than the direct calculus questions.

3. Inconsistency language problem will be relatively worse than the answer status consistency of language issues.

4. Misconceptions search method should be promoted.

(7)

III

目 錄

摘 要 ... I ABSTRACT ... II 目 錄 ... III 表 目 錄 ... IV 圖 目 錄 ... V 第一章 緒論 ... 1 第一節 研究動機 ... 1 第二節 研究目的與待答問題 ... 2 第三節 名詞解釋 ... 3 第四節 研究限制 ... 5 第二章 文獻探討 ... 7 第一節 數學成就評量 ... 7 第二節 古典測驗理論 ... 8 第三節 評量分析 ... 9 第四節 國際學生能力評量計劃 ... 11 第三章 研究設計與實施 ... 15 第一節 研究流程 ... 15 第二節 研究工具 ... 16 第三節 施測情形 ... 24 第四節 資料處理 ... 30 第四章 研究設計與實施 ... 31 第一節 評量結果分析 ... 31 第二節 迷思概念的探討 ... 32 第五章 結論與建議 ... 37 第一節 研究結論 ... 37 第二節 後續相關研究建議 ... 39 參考文獻 ... 41 中文部分 ... 41 英文部分 ... 43 附錄ㄧ 國民小學六年級數學科學習成就評量試卷 ... 45 附錄二 國民小學六年級數學科學習成就評量試卷解答 ... 49

(8)

IV

表 目 錄

表 三-1 信度統計量 ... 17 表 三-2 項目總和統計量 ... 17 表 三-3 國民小學六年級數學科學習成就評量試卷雙向細目表 ... 18 表 三-4 試題內容要項 ... 19 表 三-5 試題題幹要項 ... 20 表 三-6 試題選項要項 ... 20 表 三-7 題本部分 ... 21 表 三-8 選擇題的鑑別度分析 ... 21 表 三-9 計算題的鑑別度分析 ... 22 表 三-10 「數與量」通過率統計表 ... 25 表 三-11 「幾何」通過率統計表 ... 27 表 三-12 「代數」通過率統計表 ... 28 表 三-13 「統計與機率」通過率統計表 ... 29 表 四-1 描述性統計量表 ... 31 表 四-2 高分組與低分組情況 ... 32 表 四-3 各試題迷思半徑 ... 34

(9)

V

圖 目 錄

圖 三-1 研究流程 ... 15 圖 三-2 試題鑑別度分布圖 ... 23 圖 三-3 選擇題難易度分布圖 ... 24 圖 三-4 非選題難易度分布圖 ... 25 圖 三-5 「數與量」通過率分布 ... 26 圖 三-6 「幾何」通過率分布 ... 27 圖 三-7 「代數」通過率分布 ... 28 圖 三-8 「機率與統計」通過率分布 ... 29 圖 四-1 成績分布情形 ... 31

(10)
(11)

1

第一章 緒論

第一節 研究動機

臺灣目前的教育環境受到時代潮流、科技發展、資訊流通以及媒體介面的變 化而必須運用不同的思維方式去尋求解決問題。而教育環境的刺激,產生學習的 改變,必須透過問題解決(problem solving)的能力才可處理。一般而言,面對處理 數學問題,係在如何運用科學的方式謀求創新。創新的模式,事實上是一個使用 工具的歷程,因此建立嶄新的觀念進行工具的研發,是件相當重要的工作。但是 良善的工具施行的結果,非靠優異的描述能力則無法完全的發揮,而描述的方法 可以是文字、圖表、數學。 處理科學問題,理解工具的核心本質(core essence)是非常重要的條件,一般 會覺得學習數學困難的原因,往往是沒有了解數學公式的涵義與其使用方法,或 是被數學上的迷思概念(misconceptions) 混淆所致,而學習成就評量(assessment of learning achievement)的目的不只是用來判斷學生能力好壞,同時也是在從有限的 學生回答反應訊息資料中,發覺學生在基本能力或是問題處理上的錯誤概念,來 進行教學上的反思(self-reflection)。本研究希望藉由這次參加學校來觀測受試學生 在特定觀念上的理解或迷思的問題之外,也希望能回饋(feedback)教育現場,形成 良性的溝通與互動的管道。 學習成就係指個人在接受教育或訓練的過程中,因而獲致的學習結果,亦即 個人經過學習之後,在實際上擁有的知識或能力。例如:高等考試的及格、駕照 的取得。而學習成就評量為測量個體在各方面學習成就上達成的結果和程度,廣 義而言,包括學校內部學科的評量、課程訓練結果的評量等等。成就評量的使用 可以了解個人在學科上吸收的知識量的多寡?或在一般綜合科目學習上達到的 課業水準?並且將這些結果成為比較的依據,例如可以作為比較男女(sex)或性別 (gender)的異同,參見 Santos, Ursini, Ramirez, & Sanchez (2006)的比較;同時,數

(12)

2 學成就評量亦可用來預測數學資優生未來之表現(呂玉琴、侯成龍,2012)。然而 大部分的有型或系統化的學習都是在學校及訓練機構中實施,所以成就評量幾乎 都運用在教學或訓練情境之中。目前紙筆演算考試成績,仍為許多學校與家長評 鑑學童學習成就表現的主要依據(林吟霞,2010)。因此學習成就評量格外受到社 會廣泛的注意。 在一般的教學實務上,多數的學生都視數學學習為畏途(吳明隆、葛建志, 2006)。有鑒於此,臺南地區的著名○○高級中學特別施行國民小學學習成就評量 以了解學生實際情況,業已歷經十年,每年都有一千名以上的學生參加,雖然該 校聘請○○大學教授進行命題,且獲致好評。然而其吻合評量理論的程度,以及 該地區學生概念分析卻付闕如,殊為可惜。職是之故,本研究參考林壽福、顏錦 偉、蘇柏奇、洪雪芬、詹婉華、張煥泉、阮正誼(2012)與余民寧(1997)的手法,並 透過評量分析學對其 104 學年度的試卷就數學素養(Mathematical literacy)的情況 加以分析,希冀了解其命題的信度(reliability)、效度(validity),進而了解該地區迷 思概念以及其他有用訊息,成為未來補強教學(remedial instruction)的參考。

第二節 研究目的與待答問題

根據前述研究動機,本研究依據教育部在民國 97 年發布的數學領域新課程 綱要與能力指標作為基礎,進行臺南地區的○○高級中學的國民小學六年級數學 科學習成就評量試卷的分析,以了解其導向,透過 SPSS 試題軟體以及 Excel 軟 體進行數據與圖表製作,以檢視全體受試者的偏執,並進而了解較容易在那些地 方可能產生問題。 因此本研究的主要目的希冀透過試題的檢核,完成下列幾點: 1.探討六年級學生在數學領域基礎概念的了解情形。 2.探討六年級學生在數學領域的基礎概念的迷思概念。 而根據上述研究目的,需面對回答的問題如以下幾點: 1.六年級學生對數學領域的基礎概念理解情形為何?

(13)

3 2.六年級學生對數學領域的迷思概念為何?

第三節 名詞解釋

壹、 雙向細目表

雙向細目表(The table of two-way specification)是編製評量的藍圖,也是作為 命題的依據,藉由表格可以描述一份評量中所應該包含的學習內容以及該次評量 所應達到的目標或能力(Anderson & Krathwohl, 2001)。

雙向細目表一般依據教學內容與教學目標,依照教學目標不同,評量功能以 及命題取向範圍或方式將會有所改變。通常以 Bloom 的教學目標作為依據,分別 為知識、理解、應用、分析、綜合、評鑑作為能力層次(Bloom, 1956)。

貳、 質數

質數(prime number),指的是大於 1 的自然數(natural number,正整數)之 中,只有此數的自身之外,無法被其他自然數整除的數,等同於並沒有其他正因 數。 參、 因數、倍數 整數(integer)係包括正整數、負整數與零的集合。現若 n 與 m 為整數,且 m 為非零(nonzero)整數,n 除以 m 為沒有餘數(remainder)的整數,那麼我們稱 m 就是 n 的因數(divisor);反之, n 為 m 的倍數(multiple)。在討論因數與倍數時, 被除數(dividend)、除數(divisor)、商(quotient)皆為整數且餘數為零時,此關係才 會成立。並且在討論因數的時候,因數有正因數以及負因數,由於負因數並沒有 安排在小學課程綱要中,基本上本研究並不會討論。 肆、 餘數 如果 a 和 d 是兩個自然數,就可推演出存在唯一的整數 q 和 r 來滿足 a = qd + r 且 0 ≤ r < d。其中,q 被稱為商, r 被稱為餘數。 在實數的範疇內,將 a 和 d 拓展為整數,d 為非零,那麼餘數 r 滿足這樣的 關係:a = qd + r , q 為整數,且 0 ≤ r < |d|。

(14)

4 伍、 多邊形之內角和與外角和 在幾何學中,多邊形的內角是指由多邊形相鄰兩邊所形成的角度,多邊形在 每一個頂點都有一內角。若一個簡單(simple)、封閉(close)的多邊形,其所有 內角都小於 180°,此多邊形稱為凸多邊形。 多邊形的外角是指由多邊形的一邊和鄰邊的延長線所形成的角度,每一個頂 點都會有兩個大小相等的外角,並且同一頂點的內角和外角互為補角(180°)。 一個簡單的多邊形的內角和為[180(n-2) ]°,其中 n 為多邊形的邊數(n 為大 於 2 的整數)。此公式可用數學歸納法進行證明,已知三角形的內角和 180°,假 設 n=k(k ∈ 𝑁/{1,2,3})成立,使的 n=k+1 成立而完成證明。同時,藉由內角和公式 可以求出外角和:[180n-180(n-2)]°=360°。 陸、 同餘 有兩個整數 a 和 b,分別除以正整數 m 而有同樣的餘數,這時稱 a、b 對於 n 同餘(Congruence),記作 a≡b(mod n),且同餘擁有三種性質:整除性、傳遞性與 保持實數的基本運算。

整除性,若a≡b,則 a-b=cn,c 為整數,換句話說,n 為(a-b)的因數。 傳遞性,若a≡b(mod n)且 b≡c(mod n),則 a≡c(mod n)。

保持實數的基本運算,因為 mod 是建立於乘法與加法之上,所以加法單位元 素、乘法單位元素、加法與乘法的封閉性都會符合。 若a≡b(mod n)且 c≡d(mod n),因為加法交換率、加法反元素以及加法分配律, 則 a±c=b±d(mod n),同時 ac=bd(mod n) 也因乘法交換率、乘法反元素與乘法分配 律而可以通用於所有實數。 柒、 線對稱與點對稱 線對稱,又稱作軸對稱,指一個圖形沿著一條直線(對稱軸)摺疊,使的直 線兩旁的圖型能夠互相重合,同一個圖形可以有多條對稱軸,正多邊形為其典型 例子。 點對稱的定義為在一個封閉的圖形,以其中心的某一點為旋轉點,旋轉 180

(15)

5 度以後,能夠和原來的圖形完全重合,其旋轉的中心點稱做對稱中心。橢圓形可 以為點對稱的例子,其長軸與短軸也是線對稱的對稱軸。 捌、 比例尺 比例尺,意指圖上的距離比實際距離縮小的比例或比值,公式表示即為比例 尺=圖上距離:實際距離=圖上距離 實際距離 。比例尺因為是距離的比例,即為長度上的比較, 在進行面積或體積的比例運算時,需進行平方或立方的運算。

第四節 研究限制

壹、 取樣範圍 因為資料取樣只有臺南市的某地區國民小學的六年級進行施測,參加的學生 都是自願者,資料並不具備同學年的學童能力之一般性,故無法推演到其他地區 的同年級有無類似情況。 貳、 命題題型 此次命題分為選擇題與計算題。選擇題基本上使用一個觀念以及四則運算就 可以處理,為了顧及數學工具上的使用、生活應用、點對稱與線對稱的區別而區 隔學習上的差異。 參、 命題題目樣本之障礙 因國民小學基礎數學的演算基礎建立在單元『數與量』的基礎之上,而無法 比照高中(職)生有基礎演算能力的前提之下做成就評量之討論,若『數與量』 的能力沒有達到某種程度的精熟狀況下很容易造成計算錯誤頻繁或不知如何操 作計算工具而無法得分、計算題空白、選擇題亂猜之情形,而產生誤差,影響推 論的準確性。

(16)
(17)

7

第二章 文獻探討

第一節 數學成就評量

數學成就評量係指利用科學的方法和嚴謹的程序來編製數學評量工具,以進 行學習或訓練後客觀的測量而取得的評價,包括學生學習的知識(knowledge)、技 巧(skills)、態度(attitudes)或價值(value)方面的表現(outcomes)情況(簡茂發,1993; 郭生玉,2004;許天維、蔡良庭,2005;Yoshida, 2007)。通常表現出來的特質稱 為能力(abilities)。依俄國數學家克魯特志基(Krutetskii, V.A., 1976)發現數學能力所 具備的條件如下(引自呂秋文,2000): 1.能發覺數學問題的形式結構並且具備相關應用之能力。 2.能把數學的演算結果一般化之能力。 3.有操作符號、數字之能力。 4.具有部份數學領域中所需的空間概念之應用能力。 5.具有縮減推理演算過程的能力。 6.具備邏輯推理的能力。 7.可從某一問題處理方式轉換成另一處理方式的能力。 8.簡潔有力、合理邏輯的驗證能力。 9.良好的數學概念以及相關記憶能力。 本研究的對象是小學六年級生,主要培養前四項的基礎能力,如何把所學習 的觀念、理論應用在生活中是非常重要的課題,不過臺灣目前的狀況是在教材中 放置大量的習題,都是依照教學內容而配置的設計,也就是說練習題是依照單元 的理論或結論所安排的內涵,雖然經由大量練習會增加熟練度,但在解決問題的 能力和掌握一般性的數學方法(包含解題策略或運思模式)的時候會產生某種程 度的侷限性,也可能產生只會計算而不會靈活運用數學觀念的情況,如何理解應 用題的題意和使用數學方式來描述自身的解題過程,是該階段重要的學習重點。

(18)

8

第二節 古典測驗理論

Gulliksen (1950/1987)首先揭櫫古典測驗理論,別稱古典信度理論(classical reliability theory),主要目的是希望測得受試對象在評量中的實得分數(observed score)的信度,也就是探究真實分數(true score)與實得分數之間的關係,藉由真實 分數的相關假設來做標準化的前提假設,使每一群體的對象在一定時間中進行不 同的測驗中所測得的能力是相等的。因此,古典測驗理論又稱作真實分數理論(true score theory),因為理論基礎來自於真實分數模式(true score model)為名的數學基 礎上(Suen, 1990;余民寧,1995) 古典測驗理論存在七大前提假設: 壹、 X=T+E(觀察值=真實值+誤差值) 基本上一個人的能力無法直接被量化的與觀測的,雖然透過測驗會有量化分 數,但都有一定程度內的隨機誤差,其誤差數據大量收集後的分佈等同於以 0 為 平均值、1 為標準誤的 Normal 分佈(常態分佈)呈現出來。由於有這種隨機誤差 存在,即使受試者的真實能力不改變,每一次測驗出的數值不見得會相同,但其 分佈將呈現常態分佈。

誤差可以分成系統誤差(systematic error)與非系統誤差(unsystematic error)。非 系統誤差是以隨機、沒有規則或不可預測的方式影響受試者的狀態,不同情境之 下,隨時都會影響到測驗分數;由非系統因素造成的誤差,即稱為隨機誤差(random error)。而造成系統誤差主要係來自學生的學習、訓練、遺忘或者生長等因素,以 一種固定、一致性的方式影響評量分數的高低,影響分數高低的測量誤差,不會 受到情境不同,而造成受試者影響程度,由這種系統因素所造成的誤差,即稱為 偏誤 (biased error),詳細情形參見余民寧(2011)。 貳、 ε(X) =ε(T+E) =T(觀察值的期望值=真實值) 用相同評量對相同的對象進行無限多次所得的觀察值分佈期望值會得到受 試者的真實值,因為誤差呈現常態分佈,所以誤差平均為 0。所以當數據收集到 一定量時,雖然數據存在誤差但會接近零而把觀察值的平均值直接視為真實值的

(19)

9 指標。 參、 rET = 0 真實值大小並不會對誤差值有系統性的影響,所以能力真實值不跟誤差值有 直接關係。 肆、 X1= T1+E1,X2= T2+E2,則 rE1 E2 = 0 任何兩個不同的評量,其誤差並沒有關係。因為不同評量中可能有不同的前 提條件與影響因素,任兩評量分別造成的誤差並無法同時討論,所以兩誤差並無 數值上的關聯。 伍、 E1T2 = 0 一個測驗的誤差並不會受到其他測驗的影響,所以某測驗誤差另一測驗的真 實值並無相關。 陸、 平行測驗 若兩測驗符合前五項的假設,且兩測驗具有相等的真實值以及誤差變異量, 則稱作平行測驗(parallel tests)。 柒、 主要真實值相等測驗 若兩測驗符合前五項的假設,且兩測驗的真實值差一個常數(T1 = T2 + C12),

則此二測驗則稱作主要真實值相等測驗(essentially τ-equivalent tests)。

第三節 評量分析

評量(evaluation)就是根據客觀設定的標準,對測量得到的量數進行價值判 斷(value judgment)的描述(郭生玉,2004)。也就是說,如何從測量的資訊中 選擇有用的資訊作價值判斷,須從多方面探討。 壹、 想要了解學生甚麼 學生們在學習前的起點的行為有哪些?學習中應該採取怎樣的教學策略? 學習時有可能會遇到哪些需要克服的問題?學習後是否可以達成預期的教學目

(20)

10 標或成效? 貳、 評量目的 能瞭解學生的潛能、學習成就、是否有學習困難與障礙,可以了解學生努力 的程度,或作為補救教學以及個別輔導的依據,同時從中瞭解學習進步狀況,觸 發學生的學習興趣。 也可以估量教師教學的效率,提供教師改進教材教法的參考,也可以提供家 長做為參考,作為瞭解學生在學校吸收的情形。 參、 評量時機 依照教學前、中、後不同實施的時間點,可分為:安置性評量、形成性評量、 診斷性評量、總結性評量(郭生玉,2004)。 一、安置性評量(placement assessment):依照班級情況決定教學的起點、是否 複習過往教材內容,搭配適合的教材和教法。再依照狀況決定如何將學生 分組或安排在特殊班級中學習,看學生各自的需求或表現,評估特殊性向 與能力給予適切安置。 二、形成性評量(formative assessment):在學習過程中所作的經常性評量來判斷 是否需要調整教學方法以符合學生的需要。當發現學生學習時的優缺點, 並使老師在學期中能修正教學速度或內容。形成性評鑑會問:「你現在學 得怎樣?你要怎樣才能學得更好?」不時雙向提供回饋給師生兩方,使他 們得知教學和學習的成功與失敗以助於教師了解學生在哪些方面的學習 尚未達到教學目標所要求的程度。 三、診斷性評量(diagnostic assessment):目的在於診斷學生的困難所在,並針 對其困難,給予必要的補救教學。診斷性評量是一種更綜合性和精密性的 評量。學習困難特別嚴重者,需要進一步的去探討其真正的原因,有時需 要搭配不同的診斷工具或尋求專業人員的協助。 四、總結性評量(summative assessment):為了了解學生在學習後是否達到教學 目標而存在的評鑑。總結性評量會問:「在過去這段期間,你學得怎樣?」

(21)

11

主要在評估教學單元所列教學目標達成的程度以及檢討所用的教學方法 是否有所成效,並且評定學生的學習成果。評量的試題所涵蓋的難易度範 圍較廣,通常是抽取能代表學習內容的樣本作為試題。

肆、 評量方式

一、紙筆評量(paper and pencil assessment):依照教學目標、教材內容所編定的 書面形式評量。

二、實作評量(performance assessment):是評量做中學的概念引申出來的一種模 式,主要是藉由現場學生的實作觀察與專業判斷來評價學習成效,或間接 由學生操弄完成的作品來評價學習表現(王秀琲、胡豐榮、許天維,2004; 盧雪梅,1995;Airasian, 1996)。

三、動態評量(dynamic assessment):針對學生的所謂 Vygotsky 近測發展區(the Zone of Proximal Development;簡稱 ZPD),進行師生交互作用的評量過程, 其目的在協助學生學習。以「測驗-介入-再測驗」的形式,對兒童的一 般認知能力或特定學科領域進行持續性學習歷程的評量(莊麗娟、邱上真、 江新合,1997;Dörfler, Golke & Artelt, 2009)。

四、檔案評量(portfolio assessment):檔案評量源自於學生自傳文本的概念,其 功能透過檔案歷程的記錄,了解並協助學生的成長。在有目的的蒐集學生 的作品,依作品的品質與進步的情形做評量(Davis & Ponnamperuma, 2005; Paulson, Paulson & Meyer, 1991)。

第四節 國際學生能力評量計劃

一般而言,談到數學的學習成就評量都會以國際學生能力評量計畫(Program for International Student Assessment,簡稱 PISA)的施行為圭臬,該計畫主要調查 國中三年級的在學學生,以現有所學的基礎知識、技能和素養來處理日常中可能 遇到的問題情境,是否擁有相對應的處理問題之程度。也就是希望個體應能確認

(22)

12

與瞭解數學在這個世界所扮演的角色,能做出有充分根據的判斷並且能使用及投 入(engage in),數學以符合作為積極的(constructive)、參與的(concerned)以及具反 思(reflective)之公民的需要(陸昱任、譚克平,2006)。

PISA 評量的內容涵蓋三個不同領域的素養(Competency)程度分別是數學素 養、科學素養以及閱讀素養(洪碧霞、蕭嘉偉、林素微,2009)。由經濟合作暨發 展組織國(Organization for Economic Co-operation and Development, OECD)主導的 國際學生能力評量計畫,選擇 15 歲學生作為施測對象的原因主要是大多數 OECD 的會員國內的 15 歲學生基本上是處於完成義務教育的階段,比較能全面檢測受 試者的相關能力,可與近十年的教育成果與資料進行比較,尤其在技能與態度相 對成熟、穩定。 PISA 的評量主要是以教育品質和公平性作為指標,因為有複數個國家或區域 同時進行施測,而使其結論可以做一個橫向與縱向的比較。在各國的報告中,加 入了受試者的社會經濟背景以及性別差異作為研究變項,來分析受試者的教育表 現間差異,進而討論是否有涉及教育機會均等的相關議題?PISA 是從 2000 年開 始,臺灣也在 2006 年度開始參與長期計畫,目前已發展出相當豐富的數據資料 與資訊。藉由這些資訊,可以精確的知道任何區域的受試者,在知識與技能的變 化情形,同時可以了解學生的母群體,在數學素養、科學素養和閱讀素養上的發 展情形。而每三年進行一次施測時,將會以一領域為主要重點。然而,每一個素 養的內涵都有明確意義,強調學校課程需要精熟之外也需要重視生活中重要知識 以及技能名詞的了解,透過精通知識、概念的了解及對於不同情境領域之適應來 編製題目與分析。 然而在 PISA 數學素養所定義的四大概念有:數量、空間與形狀、改變與關 係、不確定性。這四項數學內容,可以約略的對照國內九年一貫課程數學領域的 數與量、幾何、代數、統計與機率(林素微,2013)。而學生需要的技巧如;數學 語言的理解、建模、解題的假設與執行。評量架構則有五種情境:個人的、教育 的、職業的、公眾的、科學的。題材融入了現在國民都會碰到的全球暖化、溫室

(23)

13

效應、人口成長、浮油與海洋、酸雨或運動常識等課題,生活化的課題都是可涵 蓋的範圍(洪雪芬,2011)。所以其形成的領域廣泛,可以確保試題從課程中均勻 分配的命題,也會避免太過明確而違反真實情境問題解決的疑慮。

(24)
(25)

15

第三章 研究設計與實施

本研究旨在藉由本次研究分析以探討如何以數據方式討論試題是否合宜學 生與相關議題討論而建立流程,俾以解答研究問題,進而達到研究之目的。本章 包含研究流程、研究工具、施測情形以及資料處理。

第一節 研究流程

依照本研究的研究目的以及研究方向而擬定研究流程圖,如圖三-1 所示。首 先根據六年級數學能力指標編製雙向細目表,了解試題單元內容的分布情形;從 學生的試題反應透過Cronbach α 和試題檢核表信度與效度分析,然後審查試題的 難易度和鑑別度以了解試題的良窳;進而檢視試卷的品質;最後則分析學生的概 念與其迷思的地方。 圖 三-1 研究流程 六年級數學能力指標 編製雙向細目表 確立試題分布 信度與效度分析 審查試題 檢視試卷品質 學生迷思概念分析

(26)

16

第二節 研究工具

本研究的分析工具主要為〈國民小學六年級數學科學習成就評量試卷〉,其 試題編製方法與流程,茲說明如下: 壹、 試題編製依據 分析本試題的編製,可知其係參照九年一貫課程數學能力指標上國民小學六 年級課程綱要應有的「數與量」、「幾何」、「代數」、「統計與機率」等四項主題為 內涵,進行編製數學基礎演算概念、生活情境的應用以及靈活運用數學知識、技 能與工具乃至技巧的用到等量公理的求算解題方面的試題,以便培養數學思維的 習慣。此外,各主題的概念係依課程比重與重要性進行分配,再依照試題難易度 進行排序。為了讓試題所用的概念難易度有所區別,而將試題分成三個種類:概 念理解、程序執行、解題思考作為數學概念、數學技能、解題能力(許天維、劉 湘川、施淑娟、施慶麟,2000)等三種能力的檢視區別。 貳、 評量試題 本研究為了探討學生數學觀念與演算能力,除了安排 15 題的選擇題以檢測 基礎觀念與應用觀念,更使用 5 題的計算題之原因除了對稱軸的辨別之外,以檢 驗計算的脈絡與解題方式合宜性。 參、 評量工具的信度 信度即是可靠性(trustworthiness),是指評量結果的一致性(consistency)、穩定 性(stability)的程度(姚開屏,1996;張郁雯,2004)。同樣的受試者在不同時間接 受同樣的問題或在不同情境中接受測量,都可以獲得一致性的結果(王文科, 1993)。為了讓檢驗試題的好壞,必須利用 SPSS 來確認這一份題本與每一個試題 的信度 下表三-1 是本次評量施測結果的信度統計量,係採用 Lee J. Cronbach 所發展 的 Cronbach'sα係數進行測量計算,由於α值都超過 0.8,可見試題的內部一致性 很高。

(27)

17 表 三-1 信度統計量 Cronbach'sα值 以標準化項目為準的 Cronbach'sα值 項目的個數 0.882 0.879 20 下表則是關於各試題之信度所進行的比較。 表 三-2 項目總和統計量 題號 項目刪除時的 尺度平均數 項目刪除時的 尺度變異數 修正的項目總 相關 項目刪除時的 Cronbach'sα值 01 7.982 22.262 0.480 0.877 02 7.996 22.058 0.525 0.875 03 8.307 23.427 0.306 0.882 04 8.006 22.021 0.533 0.875 05 7.849 21.922 0.592 0.873 06 7.842 21.858 0.611 0.872 07 8.317 23.329 0.340 0.881 08 8.134 22.513 0.441 0.878 09 8.027 21.956 0.548 0.874 10 7.945 21.907 0.564 0.874 11 7.864 21.911 0.588 0.873 12 8.177 22.880 0.371 0.880 13 8.261 23.166 0.343 0.881 14 7.885 21.941 0.572 0.874 15 8.430 24.143 0.212 0.883 16 8.257 22.825 0.450 0.878 17 7.963 22.022 0.575 0.873 18 8.007 22.300 0.610 0.873 19 8.076 22.213 0.607 0.873 20 8.327 23.307 0.435 0.878 肆、 評量工具的效度 一、內容效度 本研究除了依據國民中小學九年一貫課程綱要數學學習領域之外,亦參考國 際數學與科學教育成就趨勢調查(The Trends in International Mathematics and Science Study; TIMSS)報告,參見 Martin & Kelly (1996)。並按照概念重要性與

(28)

18 數學概念單元之比例做出〈國民小學六年級數學科學習成就評量試卷〉之雙向細 目表,以作為檢視試題內容效度之用,如表三-3 所列。 表 三-3 國民小學六年級數學科學習成就評量試卷雙向細目表 教學目標 題 號 教材內容 概念 理解 程序 執行 解題 與 思考 合 計 N-3-02 熟練整數四則混合運算,並解決生活中的三 步驟問題。 2 3 12 3 N-3-03 能理解因數、倍數、公因數與公倍數。 1,2 17 20 4 N-3-10 能理解分數、小數除法的意義及計算方法且 解決生活中的問題。 6 1 N-3-18 (A-3-02) 能由生活中常用的數量關係,運用於理解問 題,並解決問題。 17 12 2 N-3-19 能認識量的常用單位及其換算,並用複名數 處理相關的計算問題。 4 1 N-3-21 能理解容量、容積和體積間的關係。 14 1 N-3-22 (S-3-06) 能運用切割重組,理解三角形、平行四邊形 與梯形的面積公式。 12 1 S-3-01 能利用幾何形體的性質解決簡單幾何問題。 13 7 15 3 S-3-02 能透過操作,認識三角形內角和為 180 度及 兩邊和大於第三邊的性質。 8 1 S-3-03 能理解平面圖形的線對稱關係。 18 1 S-3-04 能認識平面圖形放大、縮小對長度、角度與 面積的影響,並認識比例尺。 10 1 S-3-09 能認識球、直圓柱、直圓錐、直角柱與正角 錐。 5 1 A-3-01 能在具體情境中,理解乘法對加法的分配律 與其他乘除混合計算之性質,並運用於簡化 計算。 9 1 A-3-04 能用含未知數符號的算式表徵具體情境之單 步驟問題,並解釋算式與情境的關係。 16,19 2 A-3-05 能解決用未知數列式之單步驟問題。 16,19 2 D-3-01 能整理生活中的資料,並製成長條圖、折線 圖或圓形圖。 11 20 2

(29)

19 二、擬定雙向細目表 雙向細目表示架設評量的支幹,描述評量中所涵蓋的課程內容以及所應評量 到的能力,小學數學的教學目標大致上分成三類:概念理解、程序執行、解題與 思考,小學數學除了建構數量關係與生活中的相關物件外,認識基礎理科工具與 其關係、如何使用工具以及活用所認識的工具。 題目的選擇以數論與代數的基本操作、基礎運算能力與簡單幾何作為主要評 量方針,且設計一道題目確認會使用一種觀念、解讀基本的統計圖表,因為小學 數學是一個建立數論架構的過程,所以解題過程中會用到的數數、四則運算或直 式的運用,所以並不會特別列出。此雙向細目表依照國民中小學九年一貫課程綱 要總綱進行對照。 三、試題題本檢核表 一般而言,為了達成試題的內容效度(content validity),則必須檢驗每一道試 題的品質。並避免難以區分學生答題的困難是因為字數過多所造成的認知負荷 (cognitive load)過重的問題(李麗君、陳玟樺,2010)。其方法就是經由專家進行以 下四個表格的檢查以及確認,讓回收的作答結果受到題本所造成的誤差,盡可能 降到最低,此項表格稱為試題檢核表(item review checklist),本研究的檢核表係參 考 Mullis & Martin (2011)、Haladyna, Downing, & Rodriguez (2002)、Osterlind(2001) 和 Haladyna(1999)而編製。根據試題題本檢核表,本研究工具〈國民小學六年級 數學科學習成就評量試卷〉是符合內容效度。 表 三-4 試題內容要項 檢 查 項 目 是 否 01.試題是否依照課程綱要的項目和層次分類? □ □ 02.試題是否有明確的目的或方向以達成評量目標? □ □ 03.試題之間在確定的內容向度上是否互為獨立? □ □ 04.試題是否只問一個問題以避免涵蓋太多概念? □ □ 05.試題的文字是否簡潔有力且清楚表明問題所在? □ □ 06.標點符號和數學符號是否使用合宜? □ □

(30)

20 07.試題使用的術語、敘述是否為受試者已學習或可認知程度? □ □ 08.試題的詞彙或概念是否避免對於某些受試群體特別熟悉或陌生? □ □ 09.試題是否能與學生生活經驗相互結合? □ □ 10.試題是否存在有問題的敘述方式或描述不完整的句子出現? □ □ 11.試題需要的計算過程是否適配於受試者具備的計算能力? □ □ 12.試題的文字敘述是否過於冗長? □ □ 13.試題的設計是否依據概念內容的雙向細目表? □ □ 表 三-5 試題題幹要項 檢 查 項 目 是 否 01.題幹的指示是否非常清楚? □ □ 02.試題的中心概念是否有出現在題幹而不是選項中? □ □ 03.題幹是否避免出現無關的修飾、沒有用到訊息以及冗長贅詞? □ □ 04.題幹是否使用肯定句,避免出現否定用語或其他造成混淆用語? □ □ 05.題幹要表達的語意是否完整? □ □ 06.題幹是否能完整敘述評量主要概念? □ □ 07.題幹的附圖或表格是否放置於題幹之後選項之前? □ □ 08.題幹的附圖是否提供作答時需要的資訊? □ □ 09 題幹和題號是否明顯區隔? □ □ 表 三-6 試題選項要項 檢 查 項 目 是 否 01.選項或答案是否以眾人意見為基礎來構成試題? □ □ 02.選項是否為四選一的單選題,保持每一選項的一貫性? □ □ 03.每一題的選項是否為只有一個正確且無爭議? □ □ 04.選項是否具有誘答力? □ □ 05.選項是否不具陷阱? □ □ 06.選項內容是否保持同質性? □ □ 07.是否根據正確答案的選項數目而進行調整? □ □ 08.是否使用受試者典型錯誤納入選項中? □ □ 09.選項內容是否避免重複、等量或等價的現象? □ □ 10.選項是否符合題幹問法的邏輯? □ □ 11.選項的列式或文字是否符合一般敘述方式的寫法 □ □ 12.選擇正確選項是否基於受試者具備該試題評量目標的能力? □ □ 13.答錯正確選項是否基於受試者不具備該試題評量目標的能力? □ □

(31)

21 表 三-7 題本部分 檢 查 項 目 是 否 01.試題是否注重定理或概念的理解與應用? □ □ 02.試題是否平均涵蓋各領域內容的概念 □ □ 03.提問方式或題型是否避免連續多題相同? □ □ 04.試題排列基本上是否以簡單到困難排列? □ □ 05.標準答案是否均勻分布? □ □ 06.題幹、附圖或表格與選項是否在同一頁次上? □ □ 07.試題的題目是否與所用資料的長度成恰當的比例? □ □ 08.作答時間是否在合理範圍內? □ □

此外Lawshe (1975) 發展一個內容效度比率(content validity ratio, CVR) 的量 規來檢核試題品質,其公式為: CVR = (2ne / N) – 1, 其中 N 是審題專家的總人數;ne是認為必需的專家人數。CVR 是介於 -1.00 和 +1.00 之間,且最好是高於 0.5 以上。 本研究審題專家共有 3 位,其 VCR 數值均為 1,因此試題都符合優良品質。 伍、 評量工具的鑑別度 本研究的試題難易度採用以下的公式作為難易度指數計算方式為高低分組 的平均值作為指標。 透過難易度指數了解每題試題是否合宜施測對象,王文科、王智弘(2007)指 出難易度指數接近 0.50 時是最有鑑別力的,若有一些考試之目標或者統計上的理 由,題目 P 值會控制在 0.2 至 0.8 的區間是較為適當的,以下兩個表格分別為本 研究施測試卷的選擇題以及計算題的鑑別度分析。 表 三-8 選擇題的鑑別度分析 題 號 全 體 通過率 高分組通 過率(PH) 低分組通 過率(PL) 難易度 鑑別度 施測 情況 (PH+PL)/2 PH-PL T 檢定 P 值 01 0.5261 0.780864 0.106707 0.4438 0.6742 18.142 0.000 優良 02 0.5118 0.830247 0.121951 0.4761 0.7083 24.837 0.000 優良

(32)

22 03 0.2008 0.388889 0.042683 0.2158 0.3462 10.641 0.000 一般 04 0.5017 0.839506 0.115854 0.4777 0.7237 27.042 0.000 優良 05 0.6588 0.935185 0.204268 0.5697 0.7309 29.643 0.000 優良 06 0.6664 0.935185 0.204268 0.5697 0.7309 27.870 0.000 優良 07 0.1908 0.395062 0.021341 0.2082 0.3737 13.964 0.000 一般 08 0.3739 0.675926 0.036585 0.3563 0.6393 18.616 0.000 優良 09 0.4807 0.842593 0.076220 0.4594 0.7664 28.965 0.000 優良 10 0.5630 0.882716 0.118902 0.5008 0.7638 37.443 0.000 優良 11 0.6445 0.938272 0.213415 0.5758 0.7249 30.894 0.000 優良 12 0.3311 0.580247 0.082317 0.3313 0.4979 13.820 0.000 尚可 13 0.2471 0.481481 0.057927 0.2697 0.4236 14.217 0.000 尚可 14 0.6227 0.904321 0.176829 0.5406 0.7275 29.062 0.000 優良 15 0.0782 0.185185 0.018293 0.1017 0.1669 6.955 0.000 一般 表 三-9 計算題的鑑別度分析 題 號 全 體 通過率 高分組通 過率(PH) 低分組通 過率(PL) 難易度 鑑別度 施測 情況 (PH+PL)/2 PH-PL T 檢定 P 值 16 0.2311 0.595062 0.003049 0.2991 0.5920 20.825 0.000 尚可 17 0.5336 0.853086 0.072561 0.4628 0.7805 32.809 0.000 優良 18 0.4992 0.756790 0.078049 0.4174 0.6787 33.717 0.000 優良 19 0.4218 0.742593 0.025610 0.3841 0.7170 34.698 0.000 優良 20 0.1513 0.346296 0.003659 0.1750 0.3426 15.689 0.000 一般 以下的圖表是用雙縱軸座標來表現 T 檢定與高分組與低分組之差進行比較。

(33)

23 圖 三-2 試題鑑別度分布圖 本研究數據的大部分低分組偏低而高分組超過 0.6 的狀況下,使的大部分「數 與量」以及「幾何」主題的觀念題會使高分組以及低分組有所差距,在需要思考、 比較或者是推理類型等需要策略的題目,高分組以及低分組的答對率相對減少。 表格三-8 為 15 題選擇題的鑑別度分析,受試者在第 15 題大部分會誤以第一 個選項的內角和為答案而沒拿下此題,或者選擇放棄作答(包含猜測之情況)。 第 3、7、12 題需要思考、尋找規則或靈活運用所學的公式,使高分組在答題時 比較無法有較高比率的人答對。 表三-9 的通過率設定為答題狀況可拿到一半以上分數之人數所佔比率,因為 一部分低分組的受試者選擇放棄作答而使普遍分數偏低,不過 16 至 19 題相對於 選擇題,作答狀況無法得分的人數比例和通過率超過一半的人數多,使的難易度 落在 0.3 至 0.5 之間。第 16 題的鑑別度雖 0.5920 而落在尚可的區間,高分組也是 接近六成但是低分組只有千分之三的通過率,在不一致性語言問題上形成混亂而 無法得分(李麗君、陳玟樺,2010)。第 20 題,通過率普遍下降使高分組只有 0.3463 與低分組的 0.0037,達到通過率標準也多是高分組的受試者。第 17 題、第 18 題、 0 5 10 15 20 25 30 35 40 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 T檢定 數值 題號 試題鑑別度分布圖 T檢定 低分組 高分組 鑑別度 整體通過率

(34)

24 第 19 題呈現優良的水準,相對回答狀況較佳,不過全體的得分狀況呈現開口向 上的曲線分佈,第 18 題約有 1.5 成受試者的得分落在中間位置,題幹是以直接敘 述方式做答之外,如何將文字敘述方式轉換成數學列式與相關語言,並求出公式 的被除數的方式求出問題,有點呈現兩極化的表現,得分位於中間的作答方式都 有了解作答方法而不小心忽略一些關鍵(題幹的部分重點)而失分。 陸、 依照概念分析 依照九年一貫數學課程綱要所分的四大主題─「數與量」、「幾何」、「代數」、 「統計與機率」─作為題目的類別分別比較其狀況,若有重疊部分一題目重點來 作主題的判別,藉此來看受試者的答題狀況與分布情形,在依照「概念理解」、「程 序執行」與「解題與思考」依序探討。

第三節 施測情形

壹、 整體狀況 以下圖是本研究之評量所使用試題的通過率(答對率)的折線圖,通過率以 得分超過一半為判斷點: 圖 三-3 選擇題難易度分布圖 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 數值 題數 選擇題難度分布 整體通過率 高分組 低分組 難度

(35)

25 圖 三-4 非選題難易度分布圖 小學數學分成四個主題:「數與量」、「幾何」、「代數」與「統計與機率」,把 20 個題目分成四個部分個別進行討論。 貳、 「數與量」情況 以下是關於「數與量」試題的表格與折線圖,因為小學數學課程還在建立基 礎計算能力,所以有些試題會部分重和「數與量」主題之上,這時會以主要觀念 為主,再來做分析與探討。. 表 三-10 「數與量」通過率統計表 評量概念 題號 通過率 全體受試者 高分組 低分組 質數 1 0.5261 0.7809 0.1067 倍數 2 0.5118 0.8302 0.1220 量的單位換算 4 0.5017 0.8395 0.1159 容積與體積 14 0.6227 0.9043 0.1768 大小關係 3 0.2008 0.3889 0.0427 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 16 17 18 19 20 數值 題數 非選題難度分布 整體通過率 高分組 低分組 難度

(36)

26 小數除法 6 0.6664 0.9352 0.2043 餘數反推 17 0.5336 0.8531 0.0726 等差數列 12 0.3311 0.5802 0.0823 圖 三-5 「數與量」通過率分布 第 1 題和第 2 題的概念是接近的且是簡單的,如何分辨與確認、演算小心就 能取得分數,相對的,精熟度不佳的受試者較無法進行回答。第 20 題接續質數, 以機率方式表現,分數有拿到一半以上的偏向於較精熟族群,了解題意與檢視 11 個區間需要一些細心程度。 第 6 題與第 17 題,主要測試受試者如何進行除法的操作,第 6 題須在小數 點後的第一位進行四捨五入,相對於第 17 題利用已知的除數和餘數來判斷推測 同餘來要容易的多。 第 3 題為比較三個未知數的大小關係,答對率普遍低落,雖然解三元一次方 程式是國中範圍,不過藉由兩兩比較而得知其大小關係是可以理解的。 第 4 題與第 14 題,對於常見單位的轉換與使用,除了一公畝為一百平方公 尺可能造成混淆之外,乘法進位的熟悉度、了解題意重點也會影響這兩題的通過 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 3 12 4 2 1 17 14 6 數值 題號 「數與量」通過率分布 通過率 高分組 低分組

(37)

27 率的原因。 第 12 題可用一些方式來處理其規則,其整體通過率不高,且高分組居多, 使數量關係的熟練度可能以上數題看處受試者對於數字敏感度優劣。 參、 「幾何」情況 以下是「幾何」試題分析的表格與折線圖: 表 三-11 「幾何」通過率統計表 評量概念 題號 通過率 全體受試者 高分組 低分組 正八角錐 5 0.6588 0.9352 0.2043 三角形內角和之比例 8 0.3739 0.6759 0.0366 比例尺 10 0.5630 0.8827 0.1189 面積 13 0.2471 0.4815 0.0579 點對稱與線對稱 18 0.4992 0.7568 0.07805 圓的應用 7 0.1908 0.3951 0.0213 多邊形外角和之應用 15 0.0782 0.1852 0.0183 圖 三-6 「幾何」通過率分布 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 15 7 13 8 18 10 5 數值 題號

「幾何」通過率分布

通過率 高分組 低分組

(38)

28 第 5 題出題用意是為了測試受試者是否了解柱體或者錐體的邊長、頂點、面 的個數,了解理念的受試者通過率普遍地高。反觀第 8 題和第 15 題,雖然都是 與內角相關的題目,第 8 題使用比例問題使受試者無法直觀作答而不知如何下手, 第 15 題大多無法了解題意或直接放棄,爾或是求出內角和,使通過率偏低。第 13 題求部分面積雖通過率不高,不過有部分是沒有減半而錯失。而第 7 題是變相 的種樹問題,使正確率都不高。 肆、 「代數」情況 以下是「代數」試題分析的表格與折線圖: 表 三-12 「代數」通過率統計表 評量概念 題號 通過率 全體受試者 高分組 低分組 分數連續除法 9 0.4807 0.8426 0.0762 原價問題 16 0.2311 0.5950 0.0030 梯形面積 19 0.4218 0.7426 0.0256 圖 三-7 「代數」通過率分布 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 16 19 9 數值 題號 「代數」通過率分布 通過率 高分組 低分組

(39)

29 這三題都是分數的連續乘、除法的問題,第 19 題搭配梯形面積問題來操作 代數問題。 第 9 題是連除的問題,本身概念不是很困難,掌握觀念即可求解,從圖四-2 中得知通過率介於中間但集中於高分組的一題,其計算的熟悉度佔了作答一大部 分。第 16 題以及第 19 題是要求物品與邊長的數值,需要從原本習慣的列式模式 逆推回去,要了解乘法與除法的相對關係外,知道題目要問的目標物或者相對關 係才能正確作答,19 題因為目標物較不容易搞混,相對得分率都會比較高。 伍、 「統計與機率」情況 以下是「統計與機率」試題分析的表格與折線圖: 表 三-13 「統計與機率」通過率統計表 評量概念 題號 通過率 全體受試者 高分組 低分組 圓餅圖 11 0.6445 0.9383 0.2134 區間的質數個數 20 0.2311 0.5951 0.0030 圖 三-8 「機率與統計」通過率分布 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 20 11 數值 題號 「機率與統計」通過率分布 通過率 高分組 低分組

(40)

30 圖三-6 是第 11 題關於圓餅圖的應用題,此題目的概念配合幾何中的扇形概 念,可以理解並且進行分數乘法即可作答。依照圖四-2,通過率、高分組與低分 組的數值都比其他主題的題目表現出較高的數值,可見其概念相對於幾何主題是 比較容易理解的。

第四節 資料處理

本研究藉由探討評量的編製方式,來檢視國小六年級生在數學科是否有達到 應學習的重點與邏輯思考,此次研究中使用 SPSS 統計套裝軟體分析鑑別度與信 度,基礎資料的分析與作圖而是將資訊傳給 Excel 2013 軟體中進行總分、通過率、 高低分組的邊界值以及每一試題的難易度來解讀其中的資訊。

(41)

31

第四章 研究設計與實施

第一節 評量結果分析

本研究的試卷有 15 題選擇題(每題四分)與 5 題計算題(每題八分),計算 題分別有切成五等分進行計分以方便區隔能力。表格四-1 為此施測描述性計量表 以及圖 4-1 為成績分布情形。由於常模參照評量是用於設計學生學習成就之高低 順序,因此得分分布盡量擴大較接近常態分佈理論所陳述之情形。 表 四-1 描述性統計量表 資料個數 (Number) 平均數 (Mean) 標準差 (SD) 第一四分位差 (Q1) 第二四分位差 (Q2) 第三四分位差 (Q3) 1190 41.6746 24.9231 24.8 44 60 圖 四-1 成績分布情形 185 4 10 18 30 53 48 69 79 113 90 86 97 105 53 48 37 37 16 10 1 1 0 20 40 60 80 100 120 140 160 180 200 分數區間 成績分布情形 100 [95,100) [90,95) [85,90) [80,85) [75,80) [70,75) [65,70) [60,65) [55,60) [50,55) [45,50) [40,45) [35,40) [30,35) [25,30) [20,25) [15,20) [10,15) [5,10) (0,5) 0

(42)

32 圖四-1 有得分的部分,接近常態分佈,44 為其中間值,40 分到 45 分(含 40 不含 45)與 60 到 65 分(含 60 不含 65)為兩個人數超過 100 的集中群,35 分到 65 分則是人數較為集中的一群。值得注意的是信度適用於測驗分數而非測驗本身 (傅粹馨,1998)。

第二節 迷思概念的探討

本節希冀把各主題試題的高分組與低分組做比較,再跟 PISA2012 年的表現 情況做粗略比較,雖然 PISA 的取樣是國中三年級的取樣,不過希望藉由樣本數 據來代表國中生的能力其成長空間。 表 四-2 高分組與低分組情況 主題 題號 整體 表現狀況 PH 高分組 表現狀況 PL 低分組 表現狀況 數與量 1 優良 0.7809 優良 0.1067 一般 2 優良 0.8302 特優 0.1220 一般 4 優良 0.8395 特優 0.1159 一般 14 優良 0.9043 特優 0.1768 一般 3 一般 0.3889 一般 0.0427 一般 6 優良 0.9352 特優 0.2043 一般 17 優良 0.8531 特優 0.0726 一般 12 尚可 0.5802 尚可 0.0823 一般 幾何 5 優良 0.9352 特優 0.2043 一般 8 優良 0.6759 優良 0.0366 一般 10 優良 0.8827 特優 0.1189 一般 13 尚可 0.4815 尚可 0.0579 一般 18 優良 0.7568 優良 0.0780 一般 7 一般 0.3951 一般 0.0213 一般 15 一般 0.1852 一般 0.0183 一般 代數 9 優良 0.8426 特優 0.0762 一般 16 尚可 0.5951 尚可 0.0030 一般 19 優良 0.7426 優良 0.0256 一般 機率與 統計 11 優良 0.9383 特優 0.2134 一般 20 一般 0.3463 一般 0.0037 一般

(43)

33 在「數與量」與「代數」主題中,題目大部分是優良和尚可,高分組的狀況 影響了數據好壞,雖然低分組「幾何」和「統計」中通過率稍微提高,不過也容 易使高分組在某些題目中容易出錯而降低數據。 數學領域的評量包括一般的計算以及數學思考與分析能力。在這次施測中, 數學基礎概念與數學工具認知對於成績前半段是屬於精熟的知識,但思考與分析 則是屬於較弱的能力。 在 PISA2012 的「空間與形狀」方面雖然相對於整體是較好的,但差異幅度 較大,「數量」差異幅度相對較小,在這次施測中對照「幾何」以及「數與量」 也是相符的,不過在「數與量」在概念執行與程序執行的題目比「幾何」的題目 表現得更好,「代數」以及「機率與統計」部分的題目,在概念上有一些「數與 量」與「幾何」基本概念,所以歸在概念理解與程序執行的題目也有優良的作答 狀況,不過如何讓低分組提升數學基礎概念以及數學的興趣將會是一大課題。 數學迷思概念指的是學生在學習時,由於受到原有思維的影響,而產生尚難 調融概念的別有架構(alternative framework)現象。系統性的個別診斷迷思概念, 臺中教育大學的團隊如以知識結構為基礎的適性診斷(郭伯臣、劉相川、許天維、 白家豪、柯立偉、楊晉民、林文質,2004),都獲致很好診斷的成果,但是目前就 一個受試者整體性而言,其嚴重的迷思概念的偵測方法則付闕如,因此本研究特 別提出一個搜尋迷思概念試題的方法。此方法來自永井正武的學說(Sheu, Tsai, Tzeng, Chen & Nagai, 2013),主要認為在班級上的補強教學(remedial instruction), 只需考慮中等程度的學生,如果全會就無需補強;如果全不會那只有重新教學一 途,亦無需補強;應施補強教學就是中等程度會與不會參雜學生的試題。 職是之故,首先,假設有 N 位受試者參加一個 n 個試題的評量,其得分矩陣 為: (𝑥𝑖𝑗) 𝑁×𝑛 其中𝑥𝑖𝑗表第 i 位受試者在第 j 個試題的得分。則第 i 位受試者的總得分是

(44)

34 𝑥𝑖∙ = ∑ 𝑥𝑖𝑗 𝑛 𝑗=1 第 j 個試題答對人次為: 𝑥∙𝑗 = ∑ 𝑥𝑖𝑗 N 𝑖=1 現在令第 i 位受試者的𝑑𝑖值為{∑𝑛 (𝑥𝑖𝑗)2 𝑗=1 }1/2,則給定 γ𝑖 = 𝑑𝑖− min{𝑑1, 𝑑𝑖, ⋯ , 𝑑𝑁} max{𝑑1, 𝑑𝑖, ⋯ , 𝑑𝑁} − min{𝑑1, 𝑑𝑖, ⋯ , 𝑑𝑁} 又設δ > 0,此稱為迷思半徑;且令Iδ = [0.5 − δ, 0.5 + δ],則稱Iδ為迷思區間;當 𝑀 = {𝑖|γ𝑖 ∈ Iδ}且𝑝𝑗 =∑𝑖∈𝑀𝑥𝑖𝑗

card(𝑀)時,若δ = min{1 − 𝑝𝑗, max{0, 𝑝𝑗}} ≠ 0,則稱第 j 個

試題為迷思試題,應進行補強教學,尤其其值愈接近 0.5 愈需優先補強。其中 card(𝑀)表示集合 M 的元素個數。 下表是所有題目的 p 值、δ值以及迷思半徑。 表 四-3 各試題迷思半徑 主題 題號 𝑝𝑗 δ Iδ 數與量 3 0.0100 0.0100 [0.4900,0.5100] 數與量 12 0.0166 0.0166 [0.4834,0.5166] 數與量 4 0.0251 0.0251 [0.4749,0.5251] 數與量 2 0.0256 0.0256 [0.4744,0.5256] 數與量 1 0.0263 0.0263 [0.4737,0.5263] 數與量 17 0.0272 0.0272 [0.4728,0.5272] 數與量 14 0.0311 0.0311 [0.4689,0.5311] 數與量 6 0.0333 0.0333 [0.4667,0.5333] 幾何 15 0.0039 0.0039 [0.4961,0.5039] 幾何 7 0.0095 0.0095 [0.4905,0.5095] 幾何 13 0.0124 0.0124 [0.4876,0.5124] 幾何 8 0.0187 0.0187 [0.4813,0.5187]

(45)

35 幾何 18 0.0251 0.0251 [0.4749,0.5251] 幾何 10 0.0282 0.0282 [0.4718,0.5282] 幾何 5 0.0329 0.0329 [0.4671,0.5329] 代數 16 0.0126 0.0126 [0.4874,0.5126] 代數 19 0.0216 0.0216 [0.4784,0.5216] 代數 9 0.0240 0.0240 [0.4760,0.5240] 機率與統計 20 0.0091 0.0091 [0.4909,0.5091] 機率與統計 11 0.0322 0.0322 [0.4678,0.5322] 由上表可知各單元中有哪些題目中的觀念需要補強的先後順序,藉由公式進 而推展到不同次考試中,相同概念或解題操作若屢次出現標準之中,就可得知需 要加強這方面的補強與課程的重新檢討。

(46)
(47)

37

第五章 結論與建議

第一節 研究結論

根據本次研究分析結果,排除掉零分群的資料後的 1005 份資料,大致上呈 現一個常態分佈,中位點、平均值、標準差的數值落於 48.8、49.35 與 18.89,成 績落點大多在 40 與 60 的區間中,不過這次分析為了貼切所有學生的學習狀況而 沒有做排除動作。 本研究中所使用的題目挑出重點性的課程綱要條目進行綜合性施測,大多呈 現基礎概念能有四成至六成左右的通過率,比較所有選擇題的題目答對率(通過 率)可以發現,對國小六年級學生來說,在「數與量」相對表現的學生,在代數 方面相較有好的表現;在「幾何」方面,相對有所表現的受試者在「數與量」有 基礎的表現,不過在整體上,不一致性語言問題會比一致性語言問題的作答狀況 比較差。由此可知,中等以上的學生可以在基本概念上能有所認知以及基本情況 的解題,靈活運用概念與較複雜的解題需要琢磨。 在應用題方面,若教師採取較傳統的講解方式以及演練方法的教學方式對於 培養學生的推論、溝通與解題構想等能力可能使學生的自我思考與解題的能力與 方法有所限制或無法了解,或者在教解題策略方式的時候也能了解其學生的理解 題幹的語意,若授課老師也能了解與尊重到每位小學生的個別差異以及學習如何 引導學童自我嘗試與學習狀況,重要他人對學生學習數學的態度越是積極的與多 鼓勵,數學態度越積極正向、肯定,讓數學成就也能相對越高而不是消極地學習 (吳明隆、葛建志 2006),使學習狀況不佳的受試者放棄作答以及學習興趣。 Skemp (1987)指出數學學習分為「機械式的理解」以及「因果式理解」,機械 式的理解只是知道工具的樣子以及如何操作有限的情況;因果式理解是知道工具 本身具備的特性而能應用其原本的效用與推演到類似情況或者是相關物件的連 帶特性(洪雪芬,2011)。然而,有眾多老師(或成人)以及學生對部分概念的

(48)

38 認知也只停留在「機械式的理解」,加上教材所帶給學生們的制式印象,而造成 學生(或成人過去的既定印象)產生數學迷思概念以及畏懼數學的因素。 關於學童在數學領域的迷思,首要讓學童嘗試了解文字敘述以及數學列式的 意義是否有相等意義,以及對每個圖形的定義所包含的圖形有哪幾種(例如:梯 形可以有兩條鄰邊內角為直角、正方形是具有菱形特性的矩形),在他們可以理 解方式下嘗試了解題幹內容與轉換成算式的方法,也培養如何解決問題的能力與 信心,讓學童可以自發性嘗試接觸數學、學習數學以及培養解決問題的基礎能力, 將是第一要務。當然,我們很難期望基礎教育的學童有數學家的領悟,更不能期 待他們跳過一系列的認識發展階段而直達現代數學的大門,如何提供具有通用效 能的解題方法以及解題模式,兼具幾何的直觀性與代數簡潔性(張景中、曹培生 1996),來認識歐基里德體系的數學觀。 同時對於擁有基礎能力的學童,可以讓他們開始接觸基礎數論、代數問題與 幾何的基礎特性開始嘗試碰觸,使他們對於觀念與觀念的連結可以加強,更學以 專精,培養數學知識內容是構成數學素養的基礎,雖然知識與不是數學素養的意 涵的最重要的因素(陸昱任、譚克平 2006),不過在數學素養的養成中對於基礎 概念的理解是必經的過程。 本研究由雙向細目表,得知試題分布適宜,又透過 CVR 與試題檢核表可知 是份具良好內容效度的試題。更由試題內部一致性分析,得知試題具有不錯的信 度。以古典測驗理論分析,試題難易度平均值約為 0.4 左右,所以是一份難易適 中偏難的試題。鑑別度指數利用高低分組法計算平均值約為 0.5 左右,是一份鑑 別度優良的試題。由此進一步分析可得: (一)「數與量」主題是學習的基礎,會影響其他主題的學習。 (二)比較型態的題目比直接演算的題目作答狀況為差。 (三)不一致性語言問題會比一致性語言問題的作答狀況比較差。 (四)迷思概念的搜尋法值得推廣。

(49)

39

第二節 後續相關研究建議

根據研究過程以及數據結果分析,提出下列數項建議以作為未來教學或者相 關研究之參考。 壹、 教學方面 因本研究之施測內容較廣泛,如何在「數與量」以及「幾何」建立好基礎以 及對數學的好奇心,從答題狀況以及偏向來尋找較弱的單元與可能出現的迷思觀 念,並進一步針對錯誤概念重新進行解釋與補強。 因「數與量」與「幾何」的單元在小學偏多,如何建立良好的觀念為國中的 數論單元(包含代數)與幾何單元為主要重點,使統計相關單元(含機率、圖表) 可以更有信心與相關基礎能有自行處理問題且轉換成數學列式,因為對數量觀念 與空間概念來自對自我生活周遭的物件進行有效連結,雖然無法要求速度,但熟 悉或熟練概念其關係就能以不是直接計算或死記攻勢的方式來求得答案的解。 若教學者不熟悉基礎數論以及幾何中的概念的關聯性,只仰賴各個單元單方 面傳授的教學,容易機械化處理問題或放棄思考,無法把概念、數學工具(包含 算符、公式等)、邏輯觀念真的了解與應用。因此,可以透過互相討論方式或師 生互動方式來強化每個單元概念的學習與連結。 貳、 未來研究方面 本研究是利用 Excel 進行綜合性分析來診斷評量試題的好壞,不過無法將每 個課程綱要細目分成多次評量來做完整性分析,未來可搭配其他類型與概念進行 試題分析來增加實驗之驗證性。

(50)
(51)

41

參考文獻

中文部分

Richard R. Skemp (1986)。數學學習心理學。林義雄、陳澤民譯。臺北:九章 王文中(1999)。教育測驗與評量:教室學習觀點(初版)。臺北市:五南 王文科、王智弘(2007)。教育研究法。臺北市:五南 王秀琲、胡豐榮、許天維(2004)。國小五年級學童分數概念之實作評量與 SS 分析。 測驗統計年刊,第 12 卷,101-140 頁。 余民寧(1997)。成就評量的編製原理。臺北:心理。 余民寧(1997)。教育測驗與評量:成就評量與教學評量(初版)。臺北市:心理 吳明隆、葛建志(2006)。國民小學學生數學歸因信念、數學態度、數學焦慮與數 學成就之相關研究。高雄師大學報,1-18 頁。 呂玉琴、侯成龍(2012)。國小四年級數學資優生數學成就評量鑑定工具之編製。 東臺灣特殊教育學報,第 14 期,303-326 頁。 呂秋文(2000)。新數學科教材教法(初版)。臺北市:五南 李麗君、陳玟樺(2010)。數學文字比較題語意結構對國小六年級學生解題影響之 研究。國民教育研究學報,第 24 期,129-153 頁。 林吟霞(2010)。德國小學落實學童主體性教育目標初探-初等教育數學科課程與 教學之分析。課程與教學季刊,17-34 頁。 林素微(2013)。PISA2012 數學素養評量架構與意涵。新北市教育,第六期,49-53 頁。 林壽福、顏錦偉、蘇柏奇、洪雪芬、詹婉華、張煥泉、阮正誼(2012)。數學評量 新趨勢:基測試題解析與 PISA 試題運用。臺北市:國立臺北教育大學。 林碧珍(1990)。從圖形表徵與符號表徵之間關係探討國小學生的分數概念。省立 新竹師院學報,295-347 頁。

(52)

42 姚開屏(1996)。從心理計量的觀點看測量工具的發展。職能治療學會雜誌,14, 5-21 頁。 洪雪芬(2011)。運用 PISA 評量試題於國小六年級之數學解題初探。2011 年南臺 灣教育論壇,2011 年 7 月 25 日。高雄市:國立中山大學。 洪碧霞、蕭嘉偉、林素微(2009)。PISA 數學素養認知成份分析對補救教學的意涵。 課程與教學季刊,3(1),47-66 頁。 張郁雯(2004)。國小學童運用資訊能力之檔案評量研究(II)。行政院國家科學委 員會專題研究計畫成果報告。 張景中、曹培生(1996)。從數學教育到教育數學。臺北市:九章。 教育部(2008)。國民中小學九年一貫課程綱要總綱。臺北市:教育部。 莊麗娟、邱上真、江新合(1997)。國小六年級浮力概念動態評量的效益分析。測 驗年刊,44(1),71-94 頁。 許天維、劉湘川、施淑娟、施慶麟(2000)。國小數學科學習進展指標題庫建立之 編製報告。測驗統計年刊,第 8 卷,35-70 頁。 許天維、蔡良庭(2005)。臺灣國小學生國語科學習成就評量資料庫建置之初探。 研習資訊,22(2),26-35 頁。 郭生玉(2004)。教育測驗與評量(三版)。臺北市:精華書局 郭伯臣、劉相川、許天維、白家豪、柯立偉、楊晉民、林文質(2004)。以結構理 論為基礎的電腦適性測驗。科技化測驗與能力指標評量國際研討會,臺南市: 國立臺南師範學院。2004 年 3 月。 陸昱任、譚克平(2006)。論數學素養之意涵。中華民國第 22 屆科學教育學術研討 會,1092-1097 頁。 傅粹馨(1998)。影響積差相關係數與 α 信度係數之因素。教育學刊,14,193-206

(53)

43 頁。 盧雪梅(1995)。實作評量的應許、難題和挑戰。教育論壇-實作評量與案卷評 量,3-9 頁,臺北市:國立教育資料館。 簡茂發(1993)。測驗的編製。測驗統計年刊,第 1 卷,13-32 頁。

英文部分

Airasian, P.W. (1996). Assessment in the classroom. New York: McGraw-Hall.

Anderson, L.W., & Krathwohl, D.R. (2001). A taxonomy for learning, teaching, and

assessing: A revision of Bloom's taxonomy of educational objectives. New York:

Addison Wesley Longman.

Bloom, B.S., (Ed.). (1956). Taxonomy of educational objectives: The classification of

educational goals: Handbook I, cognitive domain. New York: Longman.

Davis, Margery H. & Ponnamperuma, Gominda G. (2005). Portfolio assessment.

Journal of Veterinary Medical Education, 32 (3), 279-284.

Dörfler, T., Golke, S. & Artelt, C. (2009). Dynamic assessment and its potential for the assessment of reading. Studies in Educational Evaluation, 35, 77–82.

Gulliksen, H. (1987). Theory of mental tests. Hillsdale, NJ: Lawrence Erlbaum Associates. (Originally published in 1950 by New York: Wiley.)

Haladyna, T.M. (1999). Developing and validating multiple-choice test items. 2nd

edition, Mahwah, NJ: Lawrence Erlbaum Associates, Inc.

Haladyna, T.M., Downing, S.M., & Rodriguez, M.C. (2002). A review of multiple- choice item writing guidelines for classroom assessment. Applied Measurement in

Education, 15(3), 309-334.

Jitendra. A.K., & Kameenui, E.J. (1994). An exploratory evaluation of dynamic assessment and the role of basals on comprehension of mathematical operations.

Education and Treatment cf Children, 17(2), 139-153.

Krutetskii, V.A. (1976). The Psychology of Mathematical Abilities in Schoolchildren. Chicago, IL: University of Chicago Press, ISBN 0-226-45492-4. Translated from the Russian by Joan Teller; edited by Jeremy Kilpatrick and Izaak Wirszup.

(54)

44

Lawshe, C.H. (1975). A quantitative approach to content validity. Personnel

Psychology, 28, pp. 563–575.

Martin, M.O. and Kelly, D.L. (Eds.). (1996). Third International Mathematics

andScience Study (TIMSS) Technical Report Volume I: Design and Development.

Chestnut Hill, MA: Boston College.

Mullis, Ina V.S. & Martin, Michael O. (2011). TIMSS 2011 Item Writing Guidelines. International Study center, Lynch School of Education, Boston College.

Osterlind, S.J. (2001). Constructing test items: Multiple-choice, constructed-response,

performance and other formats. 2nd edition, Norwell, MA: Kluwer Academic.

Paulson, F.L., Paulson, P.R. & Meyer, C.A. (1991). What Makes a Portfolio a Portfolio?

Educational Leadership, 58(5), pp. 60-63

Santos, D., Ursini, S., Ramirez, M.P., & Sanchez, G. (2006). Mathematics achievement: Sex Differences VS. Gender Differences. In Novotná, J., Moraová, H., Krátká, M. & Stehlíková, N. (Eds.). Proceedings 30th Conference of the International Group

for the Psychology of Mathematics Education, Vol. 5, pp. 41-48. Prague: PME.

Sheu,Tian-Wei, Tsai,Ching-Pin, Tzeng,Jian-Wei, Chen,Tzu-Liang & Nagai,Masatake (2013). An Algorithm of the Misconception Order. Applied Mechanics and Materials, Vols. 284-287, pp 3010-3014.

Skemp, Richard R. (1987). The psychology of learning mathematics. Hillsdale, NJ: Lawrence Erlbaum Associates.

Suen, Hoi K. (1990). Principles of test theories. Hillsdale, NJ: Lawrence Erlbaum Associates.

Yoshida, Hiroko (2007). Analyzing an Achievement Test. Kansai University forum for

參考文獻

相關文件

Now, nearly all of the current flows through wire S since it has a much lower resistance than the light bulb. The light bulb does not glow because the current flowing through it

8.2.1 In the 2012 Study, only the enrolment ratio method was used in projecting demand from local students. In the present study, both the enrolment ratio and the grade transition

This option is designed to provide students an understanding of the basic concepts network services and client-server communications, and the knowledge and skills

The aim of this study is to develop and investigate the integration of the dynamic geometry software GeoGebra (GGB) into eleventh grade students’.. learning of geometric concepts

This paper aims to study three questions (1) whether there is interaction between stock selection and timing, (2) to explore the performance of &#34;timing and stock

This study aims to explore whether the service quality and customer satisfaction have a positive impact on the organizational performance of the services and whether the

Based on a sample of 98 sixth-grade students from a primary school in Changhua County, this study applies the K-means cluster analysis to explore the index factors of the

The purpose of this study was to explore the effects of learning organization culture on teachers’ study and teaching potency in Public Elementary Schools.. The research tool of