• 沒有找到結果。

以NAEP數學評量中數學能力架構進行國小六年級的幾何測驗編製與分析

N/A
N/A
Protected

Academic year: 2021

Share "以NAEP數學評量中數學能力架構進行國小六年級的幾何測驗編製與分析"

Copied!
70
0
0

加載中.... (立即查看全文)

全文

(1)

0

0

國立臺中教育大學教育測驗統計研究所理學碩士

論文指導教授:郭伯臣 博士

施淑娟 博士

NAEP 數學評量中數學能力架構

進行國小六年級的幾何測驗編製與

分析

研究生:孫長蓀 撰

(2)

I

謝辭

隨著時間的流逝,碩士班的生活也即將劃下句點,兩年來的奔波忙碌, 雖然辛苦,但收穫卻滿滿。學習的過程中,不但增廣了我的見聞;充實了 教學知識;更增進了思考探索能力。

首先要感謝指導教授郭伯臣博士和施淑娟博士的教導與鼓勵,在百忙 之中,不厭其煩的給予指正和教導,還要感謝智為學長及佳樺學姊願意撥 空傳授他們的經驗,本篇論文才能順利完成。此外,也特別感謝兩位口試 委員吳慧珉博士和黃孝雲博士,不辭辛勞的審查論文,並給予寶貴的意見, 使本論文更完善。 求學期間,非常感謝授課教授的諄諄教導,使我受益良多。更要感謝 同班同學給我的照顧與勉勵,尤其是素珍、佩瑾、品潔和培真。大家彼此 互相切磋、互相鼓勵,因為你們的陪伴與幫助,讓我度過愉快的碩士生活。 最後,要感謝我的家人文杰、浚珈和妤安,你們的體諒與付出,讓我 無後顧之憂,專心致力於研究上,有你們的支持與關懷,才能順利畢業。 僅以此文獻給所有關心、愛護我的人,衷心感謝你們! 孫長蓀 中華民國ㄧ 00 年六月

(3)

II

NAEP 數學評量中數學能力架構進行

國小六年級的幾何編製與分析

摘要

近年來為測得學生較高階的能力值,測驗編製者逐漸朝向設計評量架 構為階層式的測驗,如國際的大型測驗—NAEP。然而使用適當的模式進行 分析不僅可同時獲得欲求得的能力估計值,亦可獲得較好的估計結果。本 研究根據NAEP 的數學評量架構,編製一份六年級數學「幾何」測驗,利 用實證資料比較HO-IRT(Higher-order IRT)、MIRT(multidimensional item response theory)和 UIRT(unidimensional item response theory)三種模式對 數學能力值的估計是否有差異,影響如何?以作為數學評量模式的參考。 此份測驗信度是0.82,測驗結果以 HO-IRT、MIRT 和 UIRT 三種模式 進行分析和比較。其中模式適配度指標(model fit indexes)AIC、BIC、DIC 三種指標值都顯示HO-IRT 的模式較適配高階層評量架構;分析結果 HO-IRT 估計出來的能力與答對題數有高相關。因此透過實證方式證實 HO-IRT 模式可以提供較多訊息,估計效果較佳。

(4)

III

Abstract

In resent years, for estimating students’ higher abilities, the framework of assessment graduallly turns into large-scale standardized assessment framework,for example international large-scale assessment—NAEP. Suitable modle not only tells us the ability estimates wanted, and gets the better estimation result. By means of empirical study, the main purpose of the study is to compare if there is difference in mathematical ability estimation by HO-IRT (Higher-order item response theory)、MIRT(multidimensional item response theory)and UIRT(unidimensional item response theory)and what their influences are as the reference of mathematical assessment model. The assessment on Geometry is desinged for six-grade students based on the mathematical assessment framwork of NAEP.

The reliability of the assessment is 0.82. The result is analyzed and compared by HO-IRT, MIRT and UIRT models. According to the model fit indexes (AIC, BIC and DIC), it shows that HO-IRT model is suitable to large-scale standardized assessment framework and has high correlation between students’ abilities and the number of questions correctly answered Therefore, the result of the empiricla study confirms HO-IRT model can provide more information and has better estimation.

(5)

IV

目 次

第壹章

緒論

………...1 第一節 研究動機與目的………1 第二節 名詞解釋………4 第三節 研究限制………5.

第貳章

文獻探討

……….6 第一節 NAEP 數學評量架構…..………..6 第二節 九年一貫數學課程目標與基本能力……….12 第三節 國小幾何教材分析 ……….15 第四節 試題反應理論模式………..…. .17 第五節 相關文獻評述…..………....25

第叁章

研究方法

.………..28 第一節 研究設計………..28 第二節 資料處理………..31 第三節 研究流程………..32 第四節 研究範圍與對象……….33 第五節 研究工具……….33

第肆章

研究結果

………. .36 第一節 數學幾何測驗分析……….………36 第二節 模式適配度指標分析……….38

第三節 HIRT 完整估計與 MIRT 及 UIRT 分開估計之模式分析 結果………...38

第四節 數學幾何與概念、程序、問題解決的關係……….50

(6)

V 第一節 結論………51 第二節 研究建議………53

參考文獻

………...54 中文部分………..54 英文部分………..56

附錄

……….58 附錄一 國小六年幾何能力試卷……….58

(7)

VI

表 目 次

表2-1-1 NAEP 各年級試題百分比………...11 表2-2-1 九年一貫課程學習階段與學生思考形態、學習方式架構表……..13 表2-2-2 NAEP 與九年ㄧ貫能力交叉分析表………...14 表2-23 NAEP 與幾何能力編製架構表……….... .. ..15 表2-3-1 國小幾何教材內容分析類目表………...15 表3-1-1 研究設計……….. ………...…....29 表3-4-1 樣本人數來源表………...……...33 表3-5-1 測驗試題內容………...……...34 表3-5-2 測驗試題內容………...……...34 表4-1-1 試題難度與鑑別度指標………...……...37 表4-2-1 各模式指標的分析結果………...38 表4-3-1 試題難度參數估計值………...…….…..39 表4-3-2 各模式難度相關係數、平均數、標準差比較表…...…….…...40 表4-3-3 UIRT 與 HIRT 在數學幾何能力(H)的估計參數表...……...41 表4-3-4 答對率與能力估計值的相關係數...…….………...……..42 表4-3-5 HIRT、MIRT_C、MIRT_U 在概念的了解(L1)的估計參數表...44 表4-3-6 HIRT、MIRT_C、MIRT_U 在程序性知識(L2)的估計參數表...45 表4-3-7 HIRT、MIRT_C、MIRT_U 在問題解決(L3)的估計參數表…...46

表4-3-8 HIRT 與 MIRT_C、HIRT 與 MIRT_U 對次級量尺能力估計值 之相關係 ………..………...47

表4-4-1 HIRT 廻歸參數比較表………….…..…. ………...…50

(8)

VII

圖 目 次

圖2-1-1 NAEP 數學科評量架構……….……..7 圖2-1-2 NAEP 各年級內容項目分配最低百分比……….……..10 圖2-4-1 題間多向度測驗……….……….……19 圖2-4-2 題內多向度測驗……….…… 20 圖2-4-3 應用於一個D維度的測驗………. …………22 圖3-1-1 UIRT 估計主要量尺模式………. …………..29 圖3-1-2 HIRT 之題間多向度……….. .30 圖3-1-3 MIRT_U 估計次級量尺模式………. ………30 圖3-1-4 MIRT_C 之題間多向度模式……….. 31 圖4-3-1 HIRT 和 UIRT 主要量尺估計值的分布情形………43 圖4-3-2 在相同得分下 HIRT 和 MIRT_C 的 L1 能力值分布圖………48 圖4-3-3 在相同得分下 HIRT 和 MIRT_C 的 L2 能力值分布圖………49 圖4-3-4 在相同得分下 HIRT 和 MIRT_C 的 L1 能力值分布圖………49

(9)

第壹章

緒論

第一節

研究動機

世界各國為了提升國家的競爭力,紛紛編製各種測驗來評量學生的能力, 並藉此提高學生的學習成就。國家教育進展評量(The National Assessment of Educational Progress,簡稱 NAEP),是唯一具有國家代表性且定期持續對美國 學生能力作評量的測驗工具,NAEP 在國家的教育進步與現況上,提供了客觀 具體的評估,NAEP 的評量結果更提供了家長與國家決策者重要的參考。台灣 近年來不斷提倡教育改革,教育部公布自九十學年度開始針對小學一年級實施 九年一貫課程,不但要培養學生帶著走的能力,更要培養學生的文化學習與國 際了解,目的當然是希望培養出具有國際觀的公民。具體而言,九年一貫數學 學習領域的教學總體目標如下(教育部,2003): (1) 培養學生的演算能力、抽象能力、推論能力及溝通能力。 (2) 學習應用問題的解題方法。 (3) 奠定下一階段的數學基礎。 (4) 培養欣賞數學的態度及能力。 再者,數學是較能進行國際性評比的學習領域,教學的成效亦有較客觀的標準, 因此,數學教育成效的評估應有其客觀基礎(教育部,2003)。所以我國學生參加 各種大型數學競賽或數學測驗也日益頻繁,如:國際學生評量(The Programme for International Student Assessment,簡稱 PISA)、國際數理趨勢研究(The Trends in International Mathematics and Science Study,簡稱 TIMSS)(林佳樺,2009)。 這些大型測驗通常都會有總測驗的分數或稱整體量尺(overall ability)及分測 驗的分數或稱領域量尺(domain ability),如NAEP數學科評量架構包含三個向 度:整體量尺是內容成分(content strands);領域量尺包含數學能力(mathematical

(10)

2

abilities)和數學力(mathematical power),而每一向度各有其所屬之子向度。此 NAEP的架構即為高階層的評量架構。但這些大型測驗—NAEP、TIMSS在測驗模 式上是使用單向度試題反應理論(unidimensional item response theory,簡稱 UIRT),僅能對不同學科能力以單一能力值進行描述(Lee, Grigg & Dion, 2007; Mullis, Martin, Ruddock, O`Sullivan, Arora & Erberber, 2007);而PISA雖使用多向 度試題反應理論(multidimensional item response theory, 簡稱MIRT)中之多向 度隨機係數多項logit模式(multidimensional random coefficients multinomial logit model, 簡稱MRCMLM),僅針對各學科之領域量尺(domain ability)進行估計, 至於PISA各學科之主要量尺是使用單向度IRT進行估計(OECD, 2005)。這種分 開估計的結果,可能會因違背其假設而使整體量尺分數估計不準確,或是當領域 量尺分數所對應的題數較少時,會造成估計效果不可靠。

為因應較複雜之評量架構,林佳樺探討適用於階層式評量架構之測量模式, 以PISA 之評量架構作為基礎,設計階層式試題反應理論模式,提出可以同時 估計整體量尺(overall ability)及領域量尺(domain ability)的完整模式,且估 計誤差皆接近或優於PISA 之估計方式(林佳樺,2009)。所以本研究以 NAEP 數學評量架構編製國小六年級的幾何測驗,並以林佳樺所探討的同時估計模式 進行測驗的分析並探究其提出之完整模式應用於實際測驗上是否也有相同的成 效。 另外,幾何教材一直都是數學科教材內容的主要部份之一。在我們生活 的四周,到處充滿各式各樣的形體,無論平面或是立體圖形都與我們的生活息 息相關,但看似容易學習的教材,學生在幾何的學習上卻往往不盡理想。依據 研究者的教學經驗,國小的學童在數學領域的學習上,對數字計算、公式背誦, 都能得心應手;但對圖形的概念、理解、應用、計算,則仍有強行記憶的情形, 以致產生許多迷思概念。然而越高年級,「幾何」教材的比重也越重,圖形也越 複雜、多樣,導致許多學童對幾何的學習產生恐懼。所以若能透過評量,了解

(11)

3 學生的幾何能力,和迷思概念,便可以提供給教學者做為補救教學的參考。

第二節

研究目的

基於上述動機,本研究的目的如下: 1、 依據 NAEP 數學評量架構,編製一份數學幾何測驗。 2、 瞭解幾何能力與概念的了解、程序性知識和問題解決間的關係。

3、比較 HO-IRT、MIRT 及 UIRT 模式的分析結果,驗證 HO-IRT 模式是否可以 應用於數學幾何的測驗,並作為模式選用之依據。

(12)

4

第三節

名詞釋義

一、整體量尺與領域量尺

整體量尺(overall ability)是整合領域量尺(domain ability)欲測量之高 階的學科能力。如本研究主要測量之數學幾何能力即為本研究所述之整體量 尺。而領域量尺是測量學生在不同指標下的能力表現(學習成果),這些指標 可以是學習目標、子測驗(subtests)、學習規範(learning standards)等。如本 研究的幾何概念、程序性知識、幾何問題解決能力為所定義之領域量尺。

二、高階層試題反應理論

階層式試題反應理論模式(Higher-order item response theory,HO-IRT), 就是包含兩階層的能力量尺,第一層的能力量尺是測量學生在不同指標下的能 力表現,稱為次級量尺;第二層的能力量尺是整合次級量尺預測量之高階的學 科能力,稱為主要量尺。因考慮一般化的用法,本研究所述的HIRT即 de la Torre & Song,2009之HO-IRT(Higher-order IRT)。

三、幾何能力

幾何(geometry)是指研究物體形狀、大小、位置以及它們相互關係的學 科。本研究的幾何能力是指九年一貫課程綱要中所訂定的六年級幾何能力指 標。

四、完整估計

完整估計是指在高階層的評量架構下,可同時估計主要量尺與次級量尺的 一種估計方式。

(13)

5

第四節

研究限制

本研究主要探討國小六年級學童的數學幾何能力,編製的試題內容以現行 國小六年級數學課程為主。因時間、資源和人力不足的考量,僅收集紙筆測驗 結果來加以論證,研究的樣本以中部縣市五所國小六年級學童為對象,在這樣 的情況下所推論出來的研究結果可能無法做廣義的推論,因此在推論時要特別 謹慎留意。

(14)

6

第貳章

文獻探討

本研究主要目的是以 NAEP 數學評量架構編製一份國小六年級學童數學幾 何能力之測驗,透過HO-IRT 模式了解學童在幾何內容上概念的了解、程序性 知識及問題解決能力間的關係;比較 HO-IRT、MIRT 及 UIRT 模式的分析結果, 驗證HO-IRT 模式是否可以應用於數學幾何能力測驗,及瞭解學童在數學幾何 測驗上的表現情形。因此本章將分成四節來加以闡述:第一節為NAEP 的數學 評量架構;第二節為九年一貫的幾何課程目標與基本能力;第三節為國小幾何 教材;第四節為試題反應理論模式;第五節為相關文獻評述。

第一節

NAEP 數學評量架構

一、

NAEP 的介紹

NAEP 是指美國國家教育進展評量(The National Assessment of Educational Progress),它是美國非常具代表性的評量。美國國家教育進展評量會持續評量 學生在不同的學科領域中,知道哪些知識和會做些什麼。NAEP 定期進行評量 的科目包括:數學、閱讀、科學、寫作、藝術,公民,經濟,地理,和美國歷 史。 由於 NAEP 在全國評量管理統一使用相同的測試手冊,NAEP 的評量結果 對所有國家和地區可作為一個通用指標。每一年的評量基準都相同,並仔細地 記錄變化。所以 NAEP 可以清楚的提供學生每一階段學業進展的情形。 自 1973 年以來,美國國家教育進展評量(NAEP)已收集到許多有關學生 的數學成績。這些定期評估結果,提供了有價值的訊息,給各種領域大眾。他 們提供一般大眾有關學生所能理解的主題,提供課程專家關於學生的成就水 準,提供教育政策制定者有關教育的學校相關因素及學生在數學上的熟練程度。 NAEP的數學評量有兩種不同的目的。一個是評估長期的趨勢,追溯在相同

(15)

7 的基本設計架構上9歲,13歲,和17歲的學生數學成就表現。這種獨特的設計可 以比較學生的數學知識管理。另一個目的是評估比較在國家、各州和部分市區的 水平。 NAEP將評量結果分為三個水準:基本(Basic)、精熟(Proficient)、和進 階(Advanced)。基本水準表示學生具備該年級的基本學習知能:精熟水準指的 是學生達到駕馭該年級領域的能力;進階水準則表示學生能力優異。NAEP的評 量結果提供了學生表現的具體資料供國家與州政府的決策者參考(NAEP,2003)。 (網址http://nces.ed.gov/nationsreportcard/mathematics/previousframework.asp)

二、

NAEP的評量架構

NAEP數學領域之評量架構主要包含三大向度:內容成分(content strands)、 數學能力(mathematical abilities)、數學力(mathematical power),每一向 度各有其所屬之子向度(如圖2-1-1)。

(16)

8

(引自“The Mathmatics Framework”by National Center for Education, Sataisstics National Assessment of Educational Progress(NAEP),from

http://nces.ed.gov/nationsreportcard/mathematics/previousframework.asp) (一)內容成分(content strands)包含:

1數字的概念、性質與運算(number sense, properties, and operations) 2.測量(measurement)

3.幾何與空間觀念(geometry and spatial sense)

4.資料分析、統計與機率(data analysis, statistics, and probability) 5.代數與函數(algebra and functions)

(二)數學能力(mathematical abilities)包含: 1.概念的了解(conceptual understanding) 2.程序性知識(procedural knowledge) 3.問題解決(problem solving) 其中,概念的了解是指: (1)能辨認、歸類、產生概念的例子及非例子。 (2)能使用相關的模式、圖表、操作方法,及改變概念的表現方式。 (3)辨認和應用原理原則。 (4)能知道及運用事實及定義。 (5)能比較、對照、整合相關概念及原理原則,以擴展原概念及原理原則。 (6)能辨認、解釋及應用來表示概念的符號及術語。 (7)能詮釋在數學情境下相關概念的假設和關係。 程序性知識是指: (1)正確的選擇和應用程序。 (2)使用具體的模式或象徵性的方法證明程序的正確性。 (3)擴展或修正程序以處理問題情境中原有的因素。

(17)

9 問題解決是指: (1)能以確認及規劃解決問題。 (2)決定資料的充分性及一致性。 (3)能使用策略、資料、模式及相關的數學。 (4)產生、擴展或修正程序。 (5)在新的情境中能推理。 (6)判斷結果的合理性及正確性。 (三).數學力(mathematical power)包含: 1.推理(reasoning) 2.連結(connections) 3.溝通(communication) 其中,推理是指: (1)能認知數學的基本內容。 (2)能進行探就與數學臆測。 (3)發展對數學論證的評價,選擇使用不同的推理和證明方法。 連結是指: (1)能理解和進行數學概念之間的連結。 (2)能了解數學概念是環環相扣的體系。 (3)能在數學領域外辨認和使用數學。 溝通是指: (1)能透過溝通強化數學思維。 (2)能和他人溝通他們的數學思維,能分析和評估他人的數學思維和策略。 (3)能使用數學語言表達數學概念。 由NAEP的評量架構可見,課程內容的規畫來自五大數學領域。項目的分類 是根據主要對應的領域,且包括數學能力和數學力。數學力(mathematical power)

(18)

10 被視為數學能力(概念的了解、程序性知識和問題解決)在透過推理和連結的背 景下所構成的,並且數學力是貫穿數學內容和思考。而「溝通」則是學生對數學 作統整的有意義反應(NAEP,2003)。 比對NAEP評量架構和九年一貫數學領域可以發現,NAEP的內容成分:「數 字的概念、性質與運算」、「測量」、「幾何與空間觀念」、「資料分析、統計 與機率」、「代數與函數」與九年一貫的數學領域主題非常雷同。九年一貫的數 學領域有五大主題,分別是「數與量」、「幾何」、「統計與機率」、「代數」 和「連結」。其中,「連結」包含有:察覺、轉化、解題、溝通、評析。所以, 九年一貫的數學前四大主題與NAEP的內容成分相似,而「連結」此項主題則與 NAEP的「數學力」-推理、溝通和連結呼應。因此,本研究便以NAEP與九年一 貫數學領域都有的「幾何」成分當作主要量尺來編製測驗,評量國內六年級學童 的幾何能力。

三、

NAEP各年級內容項目分配最低百分比

NAEP的內容成分項目在四年級時「數字的概念、性質和運算」比率最重, 到了八年級重點則轉向「幾何與空間觀念」、「資料分析統計與機率」;到了十 二年級「代數與函數」則占了較大的比率如圖2-1-2。 圖2-1-2 NAEP各年級內容項目分配最低百分比

(19)

11

(引自Mathematics Framework for the 2003 National Assessment of Educational Progress)。

四、

NAEP評量的試題百分比

根據2007年NAEP評量架構中,四年級、八年級、十二年級評量中的五個數 學內涵試題百分比(如表2-1-1)。在NAEP的評量試題比率中發現,越高年級「幾 何」所占的比率也越來越高,到了12年級,測量與幾何已合併並占試題比率的 30%,可見幾何在高年級數學的重要性。 表2-1-1 NAEP 各年級試題百分比 數學內容 四年級 八年級 十二年級 數字概念與運算 40% 20% 10% 測量 20% 15% 30% 幾何 15% 20% 資料分析與機率 10% 15% 25% 代數 15% 30% 35% 註:引自「NAEP2007評量架構在台灣國小學童之數學成就評量發展模式 之應用,曾明義,2008」

(20)

12

第二節

九年一貫數學幾何課程目標與基本能力

一、國小幾何課程目標

人是視覺的動物,為了生存,人類天賦的「形」或「幾何」直覺,遠比 一般人所想像要豐富堅實。典型的視覺影像處理─如直線、圖形的邊緣、平 行與垂直、對稱、全等操作、放大縮小、圖形識別等,對人類大腦輕而易舉, 卻是電腦處理的重大挑戰。因此,幾何不但是數學教育中的重要課題,而且 也是較易學習、較有趣的教學單元(教育部,2003)。 下列是教育部(2003)針對幾何領域所訂定的階段性課程目標: (1) 階段一(1-3 年級):強調幾何形體的認識、探索與操作,學生對幾何形 體中的幾何要素,也許能指認,但尚不清楚其結 構意義。 (2) 階段二(4-5 年級):由於數與量的發展逐漸成熟,學生開始結合「數」 與「形」兩大主題,學習運用幾何形體的構成要素 (如角、邊、面)及其數量性質(如角度、邊長、 面積)。 (3)階段三(6-7 年級):透過形體的分割、拼合、截補、變形及變換等操作, 來了解形體的性質與幾何量的計算及非形式化推 理。透過方位描述及立體模型的展開與組合以培養 空間能力及視覺推理。 (4)階段四(8-9 年級):開始由具體操作情境進入推理幾何情境中,最終目 標是學會推理幾何證明,學習內容採漸進式安排, 由基本幾何概念進入較深入的幾何推理領域中,學 習方式最開始可由填充式推理幾何,慢慢養成完整 能力,讓學生有能力及信心,快樂地學習幾何學領 域的知識。教材內含有認識生活中的平面圖形,如 三角形、四邊形、多邊形、圓形;認識點、線、角、

(21)

13 符號及幾何相關名詞;使用基本性質描述某一類形 體;能以最少性質對幾何圖形下定義、並熟練定義 的相關操作;體會邏輯概念:包含關係、敘述及逆 敘述、推理幾何;求角度問題、長度問題、面積(表 面積)問題、體積問題;推理證明、尺規作圖、全 等性質、相似性質、平行性質的應用、圓的相關性 質。 根據九年一貫課程「幾何」主題的四個階段,每個階段學生在幾何課程中 都會有不同的思考方式與學習形態。下表是依照學習階段與學生的思考形態、 學習方式分析如表2-2-1(李文豪,2009): 表2-2-1 九年一貫課程學習階段與學生思考形態、學習方式架構表 階段 思考形態 學習方式 一 視覺 具體操作 二 察覺樣式 具體表徵 三 辨識樣式間的關係 類化具體表徵 四 非形式化演繹 符號表徵 由上述教育部針對幾何的階段性課程目標可以發現,六年級的幾何課程目 標著重在「了解形體的性質與幾何量的計算」,關於空間及視覺推理應屬於七 年級的課程目標。因此本研究自編的幾何測驗,會根據六年級的課程目標與學 生思考形態,測驗內容著重在「形體的性質概念」、「辨識形體間的關係」、 「幾何量的計算程序」,及「圖形拼合、折疊、截補等的問題解決」。

二、國小六年級學童應具備的幾何能力

本研究主要在評量國小六年級學童的幾何能力,根據九年一貫課程能力指 標,國小六年級「幾何」課程需達到的能力指標如下(教育部2003): 1. 能利用幾何形體的性質解決簡單的幾何問題。

(22)

14 2. 能認識平面圖形放大、縮小對長度、角度與面積的影響,並認識比例尺。 3. 能以適當的正方形單位,對曲線圍成的平面區域估算其面積。 4. 能理解圓面積與圓周長的公式,並計算簡單的扇形面積。 5. 能認識直圓錐、直圓柱、與直角柱。 6. 能理解簡單直立柱體的體積為底面積與高的乘積。

三、

NAEP 評量架構與九年一貫幾何能力交叉分析

本研究是依據NAEP的評量架構編製一份六年級的數學幾何能力測驗,因此 研究者根據前兩節所探討的NAEP評量架構和九年一貫六年級的數學幾何能力, 作交叉分析如下表2-2-2。 表2-2-2 NAEP與九年一貫能力交叉分析表 幾 何 NAEP 架構 數學能力 九年一貫的數學幾何能力指標 概念 的理解 6-S-02 6-S-05 能認識平面圖形放 大、縮小對角度與 面積的影響,並認 識比例尺 能認識直圓錐、 直圓柱、與直角 柱 程序性 知識 6-S-03(N-3-15) 6-S-04(N-3-16) 6-S-06(N-3-17) 能以適當的正方形 單位,對曲線圍成 的平面區域估算其 面積 能理解圓面積與 圓周長的公式, 並計算簡單的扇 形面積 能理解簡單直立 柱體的體積為底 面積與高的乘積 問題 解決 6-S-01 能利用幾何形體的 性質解決簡單的幾 何問題 6-S-01 代表九年一貫數學學習領域在幾何之六年級分年細目代碼,N-3-15 代表九年一貫數學學習領域在數與量之第三階段細目代碼。所以其中「6-S-03」 「6-S-04」、「6-S-06」三項能力指標和「數與量」數學內容能力指標重疊

(23)

15 (N-3-15、N-3-16、N-3-17),亦即此部分的幾何能力還與「數與量」的能力 有關,因此本研究將此三項幾何能力(包括面積估算、扇形面積、直立柱體體 積的計算)的內容試題刪除。再依據第三階段幾何課程目標,編製評量架構(如 表2-2-3)。 如表 2-2-3 NAEP 與幾何能力編製架構表 單元 NAEP 內容 成分 NAEP 數學 能力 九年一貫幾何能力 形體的 性質 幾何 概念的理解 能認識平面圖形(三角形和四邊形)放大、 縮小對角度與面積的影響。 程序性知識 能計算平面圖形的面積和角度。 問題解決 能利用幾何形體的性質解決簡單的幾何問題

節、國小幾何教材分析

依據各版本的教科書內容,將幾何教材內容分析如下表2-3-1(莊月嬌,2006) 表2-3-1國小幾何教材內容分析類目表 主類目 次類目 說明 A.形體外觀之辨識 與建製 A1.辨識幾何形體 形體之辨認、分類、描述、命名。 A2.建製幾何形體 形體之描繪、仿製、建造。 B.形體組成要素之 辨識、發現與 應用 B1.辨認、理解形體 的組成要素 理解形體的組成要素,如頂點、線、 面、角、邊等。透過實作認識鉛垂線、 水平線、水平面。 B2.發現形體組成要 素間的關係 確定、說出、描述形體要素間的關 係。如觀察平行四邊形時,指出「這 些對邊相互平行,那些也一樣」。 B3.辨別形體間組成 要素的關係及解決 相關問題 依形體間組成要素間的關係,辨別、 分類形體、比較其異同,或利用關係 解決相關問題等。

(24)

16 主類目 次類目 說明 C.形體性質 之探究並 運用其性 質解題 C1.透過實測、實作, 察覺形體性質並 運用其性質解題 三角形內角和是 180°、四邊形內角和 為360°、張開角、旋轉角的大小。 C2.理解垂直、平行、 對角線性質,並 運用其性質解題 理解形體或生活中直線、平面的垂直 平行現象,及對角線性質,並運用其性 質解題。如對角線可平分平行四邊形。 C3.察覺、理解相似、 全等性質,並運用 其解決問題 察覺、理解形體的相似、全等性質, 以相關幾何語言描述其關係,並運用 其性質解決問題,如縮圖、比例尺 等。 C4.形成並使用某類 圖形的定義。 描述某類、定義形體、各類圖形排 序、比較兩個性質、發現新的性質、 建立形體家譜以呈現一些性質間的 內部連結。 C5.理解對稱關係, 並運用其性質 解決問題 察覺形體或生活中的對稱現象,理解 其相關性質,並運用其推測、辨認或 解決有關問題。 D.形體之切割、 重組與變換 D1.理解平面鋪設與 立體堆疊 透過具體操作判斷形體可否做無空 隙之平面鋪設或立體堆疊。 D2.圖形之切割、重組 研究、發現、描述形體切割、組合與 變換的結果。或將形體經由分解、合 成轉換成另一形體。 D3.運用圖形之切割 、重組解決問題 推理、運用形體切割、組合與變換的 結果、如推衍平行四邊形、梯形面積 公式等。 E.空間概念 E1.運用上下、左、右 內外等語詞描述 位置 使用上下、左右、內外等方位語詞描 述兩物體的相對位置。 E2.運用東、西、南、 北等語詞描述方位 使用東、西、南、北等方位語詞描述 物體在空間中的位置、方向、距離。 E3.用直角坐標系統 描述方位與路徑 理解、運用坐標系統描述物體空間的 位置關係,及移動路徑。 E4.平面與立體表徵之 轉換 辨識、轉換立體形體在平面上之表徵 方式並理解其關係如展開圖、視圖等。 註:採自「九年一貫課程小學幾何教材內容分析研究」(莊月嬌,2006)

(25)

17 根據上表的教材分析,A「形體外觀之辨識 與建製」和B「形體組成要素之 辨識、發現與應用」是屬於中、低年級的教材;C.「形體性質之探究並運用其 性質解題」、D.「形體之切割、重組與變換」、E.「空間概念」是屬於高年級的教 材,因此本研究測驗的取材會根據此C、D、E 三項教材為重點,並依據第二節 九年一貫的能力指標分析結果來編製幾何測驗。

第四節

試題反應理論模式

一、單向度

IRT 之 Rasch 模式

試題反應理論(item response theory)簡稱 IRT,建立在兩個基本概念上:(1) 考生(examinee)在某一測驗試題上的表現情形,可由一組因素來加以預測或解 釋,這組因素叫作潛在特質(latent traits)或能力(abilities);(2)考生的表現情形與 這組潛在特質間的關係,可透過一條連續性遞增的函數來加以詮釋,這個函數 便叫作試題特徵曲線(item characteristic curve,簡寫為 ICC)。試題特徵曲線所

表示的涵義,即是某種潛在特質的程度與其在某一試題上正確反應的機率,二 者之間的關係;這種潛在特質的程度愈高(或愈強),其在某一試題上的正確 反應機率便愈大。任何一條試題特徵曲線是由受試者能力和試題的特性共同決 定,代表受試者答對某一試題的機率(余民寧,1992)。

IRT 計 分 方 式 可 分 為 二 元 計 分 與 多 點 計 分 , 模 式 有 單 參 數 對 數 模 式 (one-parameter logistic model)、二參數對數模式(two-parameter logistic model) 及三參數對數模式(three-parameter logistic model)。

本研究只使用單參數對數模式,僅針對單參數對數模式進行介紹,亦即 Rasch model。

(26)

18 n i i b e i b e i ( ) 1,2,3, , 1 ) ( ) ( P = L − + − = θ θ θ 其中,Pi(θ):能力為θ之受試著,答對第i題的機率。

二、多向度

IRT 之 MRCML 模式

多向度測驗主要可以分為兩種﹙Adams, Wilson, & Wang, 1997﹚。一種是 每個試題只測量一種能力(單向度試題),但是一份測驗中包含許多單向度試 題,這些試題分別測量幾種不同的能力,這種測驗稱為題間多向度測驗 ﹙between-item multidimensional test﹚,如圖 2-4-1 所示。測驗組、人格量表與 綜合能力測驗就是屬於這種類型。在人格測驗中,每個試題都是測量某種人 格特質,而一份測驗中通常包含許多分量表,分別測量不同的人格特質。綜 合能力測驗則是將幾種能力類型相似的試題都放在同一份測驗中。

第二種多向度測驗是測驗中有些試題測量了一種以上的能力,這種類型被 稱為題內多向度測驗﹙within-item multidimensional test﹚,如圖 2-4-2 所示。例 如,小學高年級的數學測驗中經常包含計算題與應用題兩種題型:其中計算題 是屬於單向度試題,純粹是測量四則運算能力;而應用題是屬於二向度試題, 受試者需要使用表徵能力(representation)將問題情境用計算式來表示,然後 再使用計算能力將答案算出來。因此單向度 IRT 模式不適合用在這類測驗上。 如果忽略試題多向度的特性,勉強使用單向度 IRT 進行分析,會因為忽略了其 中某一項能力而產生偏差的結果,使分數的意義變模糊﹙Ackerman, 1991﹚。 其模式定義如下: ∑ = + + = = i K k ik ik ik ik ik X 1exp( ' ' ) ) ' exp( ) , ; 1 ( P ξ a θ b ξ a' θ b θ | ξ B A, 其中,Xik:受試者之做答反應組型 i K :第 i 試題的計分類別數

(27)

19 θ:受試者的能力參數矩陣(多向度能力) ξ:試題參數向量 ik a :第 i 題中第k個反應類別的設計向量(design vector) ik b :第 i 題在第k個反應類別上的計分向量(scoring vector) A :整份測驗的設計矩陣(design matrix) B:整份測驗的計分矩陣(scoring matrix) 圖 2-4-1 題間多向度測驗 Item1 Item2 Item3 Item4 Item5 1

θ

2

θ

(28)

20

2-4-2 題內多向度測驗

MRCMLM是延伸Rasch模式而成之多向度IRT模式(Hoskens, & De Boeck, 1997;Wang, Wilson, & Cheng,2000;Wilson, & Adams,1995),其模式定義

如下:

= + + = = i K k ik ik ik ik ik X 1 ) ' ' exp( ) ' exp( ) , ; 1 ( P ξ a θ b ξ a' θ b θ | ξ B A, (2) 其中,X :受試者之做答反應組型 ik i K :第i 試題的計分類別數 θ :受試者的能力參數矩陣(多向度能力) ξ :試題參數向量 ik a :第 i 題中第k個反應類別的設計向量(design vector) ik b :第 i 題在第k個反應類別上的計分向量(scoring vector) Item1 Item2 Item3 Item4 Item5 1

θ

2

θ

(29)

21 A :整份測驗的設計矩陣(design matrix) B :整份測驗的計分矩陣(scoring matrix) MRCMLM 的優點是可推論單向度多點計分的測驗資料,對於測量模式若 存在非獨立的情況可以藉由題組搭配該測量模式來做資料分析、擁有完美的數 學性質等,更可以處理多向度多點計分的測驗資料,其應用範圍足以涵蓋多種 不同變化的測驗類型,但 MRCMLM 的缺點是只可應用於單一階層資料之推論。

三、

HO-IRT 模式

階層式試題反應理論模式,包含兩階層的能力量尺,第一層的能力量尺是 測量學生在不同指標下的能力表現,稱為領域量尺;第二層的能力量尺是整合 次級量尺預測量之高階的學科能力,稱為整體量尺。 在 HO-IRT 模式中,一測驗可觀察多個單向度的子測驗(subtest)。當不 同領域量尺皆測量相同的能力時,則整份測驗就是單向度的測驗。當不同領域 量尺間有關聯時,則會藉由一高階層能力來連接這些領域量尺。以下就 de la Torre & Song ,2009 提出單因子高層次試題反應理論模式來進行說明: 測驗主要可觀察多個單向度的子測驗,即領域量尺分數 (d) i θ , (d) i θ 表示第i位 受試者在領域量尺d的表現,其中,d =1,2,3,L,D。當不同領域量尺測量相同的 能力時,則整份測驗被認為是單向度的測驗,而不同領域量尺間有關聯,則會 藉由一整體量尺能力量尺分數θ 來連接這些領域量尺分數,其中i θ 為第i i位受試 者在整體量尺分數,其中並假設領域量尺分數為整體量尺分數的一線性函數(de la Torre & Song ,2009): i id d d i λ θ ε θ( )= ( ) + 其中,λ 為迴歸參數,(d) id ε 為誤差項,ε 假設服從平均數為 0 且變異數為id 2 ) ( 1−λd 的常態分配,其中|λ(d) |1 。根據這些假設可得知 (d) i θ 的分配與θ 相同屬i

(30)

22

於標準常態分配N(0,1)。此外,更假設在已知整體量尺分數,則領域量尺間會

互相獨立;其中λ 更可表示整體量尺分數與領域量尺分數間的相關,而領域量(d)

dd'間的相關則為λ(d)×λ(d)'。雖然λ 可為負數,但在教育測驗的應用上整(d)

體量尺及領域量尺間的相關皆為正的(de la Torre & Song ,2009)。

圖2-4-3 為該模式的模式圖,第一層表示第i位受試者在領域量尺d中的第 j 題試題之反應情形 (d) ij X ,第二層表示受試者的反應透過 IRT 模式中的試題參數 ) (d j β 連結到領域量尺分數,其中此模式試題參數 (d) j β 假設為已知(de la Torre & Song ,2009),第三層表示受試者的領域量尺分數透過迴歸參數λ 連結到相對(d) 應之整體量尺分數θ 。 i

圖 2-4-3 應用於一個 D 維度的測驗(de la Torre & Song ,2009)

根據de la Torre & Hong (2010),利用 HO-IRT 模式不但可以同時估計

整體量尺和領域量尺,也提高了試題參數的估計。de la Torre & Hong 在研究

) I ( λ λ(II) λ( D) i θ ) I ( i θ (II) i θ ( D) i θ ) I ( ij X Xij(II) Xij( D) ) I ( j β (II) j β ( D) j β 觀察變項以圓圈表示; 固定變項以方框表示; 其他變項表示待為估計。

(31)

23 中採用三參數模式(three-parameter logistic 簡稱 3PL),即試題鑑別度參數、 試題難度參數和試題猜測度參數都未知情況下,以模擬研究和實證研究都發 現,利用HO-IRT 可以改善試題參數的估計。 研究還發現試題參數在未知情況下,對領域量尺能力的估計、測驗的長度 和領域量尺的數量並不會有很大的影響。所以在試題參數事先未知的情形下, HO-IRT 運用 MCMC 的算法,是一個可行的提高領域量尺能力估計的方法。 (de la Torre & Hong,2010)

四、模式檢定

當利用試題反應理論模式進行測驗資料分析,必須先確定資料與模式間是 否匹配,模式選擇是否合適;否則將資料放在不適當的模式分析,結果必定也 是不可靠的。本研究利用AIC(Akaike information coefficient)、BIC(Bayesian information coefficient)和 DIC(deviance information coefficient)來檢驗模式的 適配度。三種指標的定義如下:

1.AIC(赤池信息量準則,Akaike information coefficient,簡稱 AIC)

AIC 是衡量統計模型優劣性的一種標準,是由日本統計學家赤池弘次創立發 展的。赤池信息量準則建立在自由資訊量(information entropy)的概念基礎上, 可以權衡所估計模型的複雜度和此模型適配數據的優良性。在一般情況下,AIC 可以表示為: AIC=2K-2ln(L) 其中K 是參數的數量,L 是概似函數,假設條件是模型的誤差服從獨立常 態分布。讓

n

為觀察數,RSS 為剩餘平方和,那麼 AIC 變為: AIC=2K+

n

ln(RSS/

n

) 增加自由參數的數目提高了適配的優良性,AIC 鼓勵數據適配的優良性但 是避免過度適配(overfitting)的情況。所以優先考慮的模型應該是 AIC 值最小 的那一個。赤池信息量準的方法是尋找可以最好的解釋數據但包含最少的自由

(32)

24

參數的模型(Burnham,K.P & D.R.Anderson,2002)。

2.BIC(貝葉斯信息準則 Bayesian information coefficient )

在統計上BIC 是在有不同參數量的模型下的標準模式選擇指標。當估計參 數模式採用最大概似估計法時,由於參數的增加近似值也可能隨之增加,這會 導致估計結果過度適配。所以BIC 為了解決這個問題,增加了樣本參數。在任 意兩種估計模型下,要選擇 BIC 值較低的模型為佳。因為 BIC 是一個漸增函數 和樣本函數,當不明原因的變量和解釋變量增加時,BIC 的值也會增加,所以 降低BIC 的值意謂著降低解釋變量和不明原因的變量,使得模式更為適配。 3.DIC(deviance information coefficient)

DIC 是在高層次模式下,AIC 和 BIC 的歸納用法。即 AIC 和 BIC 的一般化 高層次模式的指標,以MCMC 模擬方法獲得後設分配,且當後設分配是多元常 態分配時,DIC 指標才有價值。 DIC (Model ) = D(θ)+ pD = D(θ )+ 2× PD D(θ)為後設模式之平均偏差,是一種模式適配度的貝葉斯(Bayesian)測 量,而D(θ)為後設模式之偏差。pD 為模式中的自由參數量, ) ( ) (θ D θ D PD = − 。以DIC 的最小值作為模式的選擇,是觀察一組複製相同結 構之資料的最好預測。此外,DIC 的優點是從樣本中,以 MCMC 模擬方法很容 易就能算出指標值, 謝典佑、林佳樺、郭伯臣、施淑娟(2009)利用貝氏架構(Bayes framework) 下的Akaike’s information coefficient (AIC)、Bayesian information coefficient (BIC) (Congdon, 2003)與 deviance information coefficient (DIC) ( Spiegelhalter, Best, & Carlin, 1998)等指標驗證階層式試題反應理論架構下的測驗資料,以了解 AIC、 BIC 及 DIC 在高層次試題反應理論之試題反應函數(item response function; IRF) 選擇的效果。

(33)

25

Congdon(2003)基於貝氏架構的 AIC、BIC 與 DIC,三種指標的公式如下所述 (引自謝典佑等,2009): 一、 AIC 指標: p D Model AIC( )= (ξ)+2 其中,D(ξ)為MCMC 架構下的後驗差異指標的平均值;p為模式當中,就本 研究而言有主要量尺、三個次級量尺、試題難度參數、三個迴歸參數共八個參 數量。 二、 BIC 指標: (N)) p( D Model BIC( )= (ξ)+ log 其中,D(ξ)和AIC 指標相同;p模式當中參數數量;N 為樣本數,本研究樣本 數為434 人。 三、 DIC 指標: D p D Model DIC( )= (ξ)+ 其中,D(ξ)和AIC 指標相同;而 ( ) ( ) ^ ξ ξ D D pD = − ,而 ^ ξ 為參數估計值。

第五節

相關文獻評述

以下是關於以NAEP架構所編製的數學測驗,以及幾何測驗的相關研究: (一)曾明義(2008)NEAP2007評量架構在台灣數學成就評量發展模式之應用 曾明義依據NAEP2007評量架構編製一份四年級的數學測驗,試題編製的 架構、測驗分析結果如下: 1.編製架構 此依據NAEP評量架構所編製的數學成就測驗是以NAEP的五大內容向

(34)

26 度—數字概念與運算、測量、幾何、資料分析與機率、代數為縱軸;以數學能 力的複雜性—低階複雜性、中階複雜性和高階複雜性為橫軸,題數共26題,計 分方式採二元計分。 2.測驗結果 此份測驗的平均難度 0.668、鑑別度 0.088~0.567、平均鑑別度是 0.345, 此份測驗的信度 Cronbach 的 α 係數是 0.78,並且又根據受測學生上學期的數 學學期總成績為效標,和「國小學童數學成就評量工具」各個構面平均數和 總得分平均數,求其相關係數,皆呈正相關,表示本測驗具有效標關聯效度。 試題選項特徵曲線之分析具有鑑別度的試題約占 96%,具有誘答力的試題約 占 91%。此NEAP2007 評量架構在台灣數學成就評量發展模式是可行的 (二)林杰炘(2006)以能力指標結構為基礎的電腦適性測驗編製及動畫補救 教學之應用-以國小數學領域五年級能力指標幾何為例 此研究以國小五年級數學領域「幾何」能力指標為評量內容,建立電腦適 性診斷測驗系統,同時以電腦補救教學動畫系統,診斷學生能力指標的學習成 效。研究發現適性測驗施測的平均施測題數是45.4題,平均可以節省10.6題。 經過電腦化補救教學後,學生的平均分數有進步,達到顯著水準。 (三)紀小玉(2006)探討接受九年一貫數學課程國小學童幾何思考層次 此研究以Van Hiele的幾何層次理論為基礎,探討接受九年一貫課程國小 學童對於基本平面幾何圖形概念的認知。結果發現三種基本平面圖形通過率在 層次一中以四邊形的凹與凸的圖形判別的通過率最低;在層次二中以四邊形角 度關係的認知的通過率最低;在層次三中對於正方形的對角線互相垂直且平分 的認知以及兩圓心間的距離認知的通過率最低。不同年級和不同地區的學童在 基本平面幾何圖形及Van Hiele幾何層次的表現有顯著差異。 (四)黃雅琪(2007)國民小學五年級學童幾何表現之研究 此研究以自編的幾何測驗探討小學五年級學童的幾何成就。測驗內容以九

(35)

27 年一貫課綱要數學領域幾何分年細目為依據,結果發現:有八成的學童能達成 九年一貫課分年細的教學目標;由數學問題列舉周遭環境的實例,印證數學學 習與日常生活有密不可分的關係存在。 (五)徐于婷(2005)國小六年級學童平面幾何屬性知覺之探討 此研究是探討幾何屬性在視知覺凸顯性上的差異,以及概念有無之相關 性。測驗分為前後測,結果可歸納出直角、平行線、曲線、等邊這四項幾何屬 性,為穩定高知覺凸顯性的幾何屬性;直線、頂點數、等角、垂直邊、對稱、 對稱軸、對角線互相平分、對角線互相垂直這8項幾何屬性,為穩定低知覺凸 顯性的幾何屬性。 (六)張勝凱(2010)使用HIRT模式建立國小六年級學童數學推理能力測驗 透過實證方式證實HIRT模式可應用於數學推理能力測驗,HIRT可以供較 多訊息。 由上述關於幾何測驗的文獻顯示,大部分的數學測驗仍以九年一貫的分年細 目為內容,來設計測驗的架構,以國際大型測驗-NAEP為評量架構的數學測驗 非常缺乏(僅有一篇),因此本研究欲發展一份以NAEP數學評量架構的幾何測 驗,並以HO-IRT模式來分析,探究HO-IRT模式在實證資料上(自編幾何測驗) 是否可以得到較多的訊息,以供測驗編製者和教學者參考。

(36)

28

第參章 研究方法

本章共分為四節作說明,分別介紹研究設計、資料處理、研究流程、研究 範圍與對象、研究工具。

第一節

研究設計

本研究參考林佳樺所探討之 HO-IRT 模式,透過實證資料方式探討完整估 計與分開估計之估計效果。使用WinBUGS 軟體進行單一階層(各階層分開估 計)之估計及兩階層(完整估計)之估計;再比較UIRT 和 MIRT 的分開估計 與HO-IRT 完整估計的成效。

一、計分方式與測驗型態

測驗計分方式一般可分為二元計分與多點記分,測驗型態又有單向度測驗 與多向度測驗,多向度測驗又分成題間多向度測驗及題內多向度測驗兩種。。 本研究自編之國小六年級學童數學幾何測驗是採用二元計分;測驗試題設計為 題間多向度測驗如表3-1-1。

二、模式估計

本研究應用來做測驗參數估計的主要模式有 UIRT、HO-IRT 和 MIRT 三種; 但其中MIRT 的模式又分成 MIRT-C 和 MIRT-U(如表 3-1-1),MIRT-C 代表

次級量尺間有相關的估計模式;MIRT-U 代表次級量尺間沒有相關的估計模 式,意即MIRT-U 是利用 UIRT 的模式來估計次級量尺。四種模式的估計型態 (如圖3-1-1、3-1-2、3-1-3、3-1-4)。

(37)

29 表3-1-1 研究設計 3-1-1 UIRT 估計主要量尺模式 計分方式 二元計分 測驗形態 題間多向度 測驗題數 共24 題單選題 估計模式 HO-IRT、UIRT、MIRT-C 、MIRT-U X01 X12 X13 X20 X24 X21 整體量尺 數 學 幾 何 能 力 (H)

(38)

30 3-1-2 HO-IRT 之估計模式 3-1-3 MIRT-U 估計次級量尺模式 X01 X6 X7 X12 X13 X20 X24 X21 領域量尺 概念 理解 (L1) 程序 性知 識(L 2) 問題 解決 (L 3) X01 X6 X7 X12 X13 X20 X24 X21 1 λ 領域量尺 整體量尺 概念 理解 (L1) 程序 性知 識 (L 2) 問題 解決 (L 3) 3 λ 2 λ 數 學 幾 何 能 力 (H)

(39)

31 圖3-1-4 MIRT-C 估計次級量尺模式

第二節

資料處理

本研究將幾何能力測驗回收後,將作答不全的資料刪除,再將資料編碼, 並使用測驗統計軟體進行估計分析,資料處理方式如下: 1. 先利用統計軟體估計自編幾何測驗的試題難度參數、鑑別度參數和猜測 度參數,用以篩選優良試題並刪除不良試題。 2. 接著利用統計軟體估計 UIRT、HO-IRT 和 MIRT 的試題難度參數。 3. 利用統計軟體估計 UIRT 和 HO-IRT 的主要量尺能力參數。 4. 利用統計軟體估計 MIRT-C、MIRT-U 和 HO-IRT 的次級量尺能力參數。 5. 最後將 UIRT 和 HO-IRT 估計出的參數值及 MIRT-C、MIRT-U 和 HO-IRT

估計出的參數值做相關,相互比較,探討不同模式在估計上是否有一致 性,HO-IRT 之完整估計成效是否較佳。 X01 X6 X7 X12 X13 X20 X24 X21 領域量尺 概念 理解 (L1) 程序 性知 識(L 2) 問題 解決 (L 3)

(40)

32

第三節

研究流程

本研究流程,首先研讀相關文獻以擬定研究主題,而後就研究主題蒐集相 關資料做為理論基礎,將收集到的試題測驗結果進行分析,並做出結論,最後 撰寫研究報告。

參照 NAEP 評量架構 分析 NAEP 與九年一貫六年 級數學領域幾何教材內容 將紙筆測驗結果進行分析 資料比較與分析 撰寫研究報告 確立研究目的與問題 出題、審題、修題、組卷 分析、修題 評估測驗成效 正式施測

(41)

33

第四節

研究範圍與對象

本研究以現行國小六年級的幾何單元教材(形體的性質)進行實作,題目 皆為二元計分的選擇題。 本測驗採立意取樣,對象為九十八學年度六年級學生,包括中部四縣市共 16 個班級,有效樣本共計 434 人。人數來源如表 3-4-1: 表 3-4-1 樣本人數來源表 學校 班級數 男生 女生 小計 A 國小 6 71 69 140 B 國小 2 38 31 69 C 國小 1 14 11 25 D 國小 1 16 18 34 E 國小 6 79 87 166 合計 16 218 216 434

第五節

研究工具

本研究使用的工具有自編之數學幾何能力測驗、Bilog-mg 軟體以分析試題 參數、MATLAB 軟體計算模式適配度指標、WinBUGS 軟體分析試多向度及高 階層試題參數及受試者能力值、SPSS 軟體估計測驗信度。

一、自編測驗

本研究的試題是依據NAEP 的評量架構,形式為選擇題,題目經由現職的國 小數學老師及測驗專家審題後進行組卷。測驗編製依據如下: 研究者依據NAEP 的評量架構,並檢視九年一貫課程目標與幾何能力後,將 數學幾何作為本測驗的整體量尺,再依據教材內容分析出三個領域量尺,分別為 幾何概念、幾何程序性知識及幾何的問題解決能力。研究者配合六年級的數學課

(42)

34 程,分析課程的幾何教材來做試題的編製,配合學生的上課時間進行施測,避免 因範圍過廣而試題太多,在施測上出現不易施測或學生因試題數多而隨意作答的 情況產生。 研究者分析六年級教科書的內容歸納出題範圍包含圖形的結構概念、角度和 邊長的計算、複合圖形面積的計算、解決圖形的拼合、折疊、截補問題,本測驗 有24 題,經試題分析,第 22 題鑑別度太低,予以刪除,所以共 23 題。採二元 計分方式計分。測驗試題內容如表3-5-1,測驗試題分配如表 3-5-2。完整測驗試 卷如附錄一。 表3-5-1 測驗試題內容 單 元 主要 量尺 次要量尺 試題內容 形 體 的 性 質 數 學 幾 何 能 力 L1 概念的了解 四邊形、三角形的形體結構性質辨 認;等高圖形概念;正多邊形的角 度計算公式推衍。 L2 程序性知識 四邊形和三角形角度、邊長、面積 的計算、拼合圖形的面積計算。 L3 問題解決 切割、截補和摺疊圖形的面積、角 度計算;判斷比較複合圖形面積。 表3-5-2 測驗試題分配 次級量尺 題號 總題數 L1 概念的了解 1、16~20、23 7 L2 程序性知識 2~7、14、15、24 9 L3 問題解決 8~13、21 7

(43)

35

二、

Bilog-mg

Bilog-mg是適用於二元計分試題logistic模式之試題參數及考生能力之估 計套裝軟體。Bilog-mg能處理單參數、二參數、及三參數模式的資料。本研究 使用Bilog-mg估計試題的難度參數、鑑別度參數、猜測度參數。

三、

MATLAB 7

本研究使用 Matlab 撰寫程式。因為 Matlab 的程式語法簡單,並具有強大 的函數庫功能,可評估測驗模式之成效。

四、

WinBUGS

WinBUGS統計軟體使用方法很彈性。WinBUGS軟體可應用的模式相當的 廣泛,包括一般線性和非線性模式、處理連續和非連續性資料及多變量模式 (Cowles, 2004; Qiu, Song, & Tan, 2002; Sturtz, Ligges, & Gelman, 2005)。本研 究使用WinBUGS軟體進行單一階層能力估計與完整估計。

五、

SPSS

(44)

36

第肆章

研究結果

本章主要是呈現資料分析之結果與討論,共為四節:第一節為數學幾何測

驗分析;第二節模式適配度指標分析;第三節HO-IRT 完整估計與 MIRT 及 UIRT 分開估計之模式分析結果;第四節為數學幾何與概念、程序、問題解決間的關 係。

第一節

數學幾何測驗分析

本研究的自編數學幾何能力測驗經施測後分析如下: (一)信度 本測驗的信度採用Cronbach α係數,作為分析測驗內部一致性之估計方 法。分析測驗內部一致性的數值,Cronbach α係數值為0.817,顯示有良 好的測驗信度 (二)難度 本研究之測驗以通過率表示難易度,計算全體受試者在該題答對人數的比 率,稱之為難度指數(item difficulty index),難度指數愈高,代表該試 題愈容易;反之,則代表該試題愈難。本測驗之試題平均難度指數為0.560 (如表4-1-1),難度中等。其中試題23通過率最低;試題1、5、12通過率較 高。

(三)鑑別度

試題鑑別度是指能夠區別高低能力學習者的程度,本研究使用點二系列 相關係數rxy(point biserial correlation)來考驗試題得分與測驗總分的同

質性,作為試題鑑別度的依據。本測驗試題鑑別度值介於(0.207~ 0.475),具有良好的鑑別度(如表 4-1-1)。

(45)

37 (四)效度 本測驗之效度採用的是內容效度及專家效度分析。本研究邀請數學系教 授與測驗統計系教授,以及現任國小教師一同開會討論,依據九年一貫 課程數學領域六年級課程內容及試題編製原則來編製數學幾何測驗之試 題。試題完稿後再經討論檢核試題編製合宜,並提供修改測驗工具的建 議,使本研究有良好的專家效度。 表4-1-1 試題難度與鑑別度指標 題號 難度 鑑別度 1 0.783 0.335 2 0.604 0.445 3 0.424 0.311 4 0.581 0.356 5 0.737 0.371 6 0.622 0.459 7 0.482 0.207 8 0.627 0.418 9 0.488 0.386 10 0.592 0.467 11 0.571 0.272 12 0.758 0.475 13 0.456 0.406 14 0.535 0.422 15 0.594 0.419 16 0.652 0.462 17 0.551 0.475 18 0.442 0.309 19 0.592 0.318 20 0.465 0.297 21 0.491 0.33 23 0.389 0.213 24 0.452 0.336 平均值 0.560 0.369

(46)

38

第二節

模式適配度指標分析

HO-IRT、UIRT、MIRT-C 及 MIRT-U 三種模式之適配度指標 AIC、BIC、 DIC 的分析數據如表 4-2-1,數值較低者為佳。AIC、BIC 與 DIC 所獲得的結果 表示模式選取效果,其結果顯示HO-IRT 模式在 AIC、BIC、DIC 的指標中數值 都是最低的,表示HO-IRT 最適合用來分析高階層評量架構之測驗。

4-2-1 各模式指標的分析結果

AIC BIC DIC

HO-IRT 13260 13378 14396

UIRT 14111 14229 16442

MIRT-C 14069 14188 15630

MIRT-U 14960 15078 16808

第三節

HO-IRT 完整估計與 MIRT 及 UIRT 分開估

計之模式分析結果

本研究使用UIRT、MIRT-C、MIRT-U及HO-IRT四種模式來估計學童在數學 幾何能力測驗的模式適配度指標、整體量尺能力值、領域量尺能力值及試題難度 參數,並分析其結果,探討三種模式的優劣勢。 使用UIRT進行整體量尺-數學幾何能力及試題難度參數之估計,使用MIRT-C 和MIRT-U進行三個領域量尺—概念的了解、程序性知識、問題解決及試題難度 參數之估計。使用HO-IRT進行完整估計整體量尺--數學幾何能力及三個領域量尺 --概念的了解、程序性知識、問題解決及試題難度參數。測驗之整體量尺及三個 領域量尺的估計値如表4-3-2、4-3-4、4-3-5、4-3-6;模式適配度指標如表4-2-1; 迴歸參數值(λ)如表4-4-1;試題難度參數如表4-3-1。

(47)

39

一、各模式在試題難度參數的估計比較

將 HO-IRT、MIRT 及 UIRT 與試題通過率來比較,可發現各模式在試題難 度參數的估計上有一致性。各模式皆顯示試題1、5、12 是最容易的試題,試題 23 難度最高(如表 4-3-1)。再把學童測驗的試卷拿來比對,學童在試題 1、5、 12 的答對率高達 75%以上;試題 23 的答對率僅有 38.9%。 由試題難度相關係數的分析,各模式之間所估計的難度相關係數都是 1, 平均數約-0.3,標準差約 0.55(如表 4-3-2),所以四種模式對難度的估計有一致 性。 表4-3-1試題難度參數估計值

題號 UIRT HO-IRT MIRT-C MIRT-U

1 -1.484 -1.548 -1.518 -1.494 12 -1.33 -1.372 -1.38 -1.355 5 -1.215 -1.25 -1.245 -1.229 16 -0.738 -0.783 -0.741 -0.735 8 -0.608 -0.639 -0.615 -0.613 6 -0.585 -0.627 -0.603 -0.594 2 -0.492 -0.533 -0.503 -0.493 15 -0.454 -0.485 -0.465 -0.457 19 -0.444 -0.473 -0.448 -0.443 10 -0.442 -0.46 -0.439 -0.441 4 -0.385 -0.417 -0.382 -0.379 11 -0.343 -0.369 -0.339 -0.336 17 -0.239 -0.27 -0.236 -0.235 14 -0.162 -0.191 -0.16 -0.151 21 0.043 0.013 0.061 0.053 9 0.067 0.035 0.071 0.066

(48)

40

表4-3-1 試題難度參數估計值(續)

題號 UIRT HO-IRT MIRT-C MIRT-U

7 0.094 0.062 0.099 0.098 20 0.186 0.147 0.182 0.17 13 0.216 0.184 0.225 0.215 24 0.235 0.21 0.246 0.232 18 0.283 0.257 0.285 0.281 3 0.374 0.341 0.377 0.368 23 0.544 0.518 0.559 0.549 表4-3-2 各模式難度相關係數、平均數與標準差比較表

HO-IRT UIRT MIRT-C MIRT-U

HO-IRT 1 1 1 1 UIRT 1 1 1 1 MIRT-C 1 1 1 1 MIRT-U 1 1 1 1 平均數 -0.299 -0.333 -0.303 -0.301 標準差 0.544 0.549 0.558 0.547

二、HO-IRT 和 UIRT 在主要量尺的估計比較

1. HO-IRT、UIRT 和答對率的分析 依據學童測驗的作答反應,將總分排序與 UIRT 及 HO-IRT 對學童數學幾何 能力估計值相比較,發現得分低的學童在UIRT 及 HO-IRT 估計下,其數學幾 何能力估計值也低,得分高的學童其數學幾何能力估計值也高如表4-3-3。

(49)

41 表4-3-3 UIRT 與 HIRT 在數學幾何能力(H)的估計參數表(部分) 受試者 UIRT HO-IRT 編號 總分 H H 6001 2 -2.207 -1.973 6010 3 -1.759 -1.971 6007 4 -1.550 -1.433 6090 4 -1.541 -1.578 6006 5 -1.403 -1.405 6043 5 -1.418 -1.353 6012 6 -1.194 -1.094 6030 7 -0.993 -0.985 6017 8 -0.797 -0.936 6045 9 -0.664 -0.721 6023 10 -0.491 -0.472 6057 10 -0.507 -0.675 6049 11 -0.332 -0.324 6064 11 -0.383 -0.389 6019 12 -0.209 -0.224 6138 12 -0.180 -0.186 6013 13 -0.001 -0.064 6027 14 0.127 0.036 6021 15 0.290 0.405 6031 15 0.254 0.337 6015 16 0.463 0.563 6016 17 0.618 0.490 6042 17 0.612 0.675 6020 18 0.818 0.760 6125 18 0.818 0.671 6026 19 1.008 0.972 6036 20 1.228 1.167 6077 21 1.420 1.475 6079 22 1.711 1.560 6214 23 2.005 2.109

(50)

42

將學生作答反應的答對題數(答對率)當作效標,分析 HO-IRT 和 UIRT 的能力估計值與答對率的相關如表4-3-4。其中 HO-IRT 與答對率的相關高達 0.994,UIRT 和答對率的相關高達 0.997,表示 HO-IRT 和 UIRT 對整體量尺的 估計有精準度。並且HO-IRT 與 UIRT 的相關係數也高達 0.995,顯示 UIRT 與 HO-IRT 在整體量尺-數學幾何能力的估計上有一致性。 表4-3-4 答對率與能力估計值的相關係數 CTT_HB HO-IRT-HB UIRT-HB CTT_HB 1 0.994 0.997 HO-IRT-HB 1 0.995 UIRT-HB 1 註:CTT_HB 表示古典測驗理論中的答對率;HO-IRT_HB 表示 HO-IRT 的主要 量尺估計值;UIRT-HB 表示 UIRT 的主要量尺估計值。 2. HO-IRT 和 UIRT 能力估計值的分布情形

將學童的得分與 HO-IRT 和 UIRT 所估計的能力值畫成分布圖,發現 HO-IRT 對於得分相同的學童所估計的能力值區分較大、分布較廣;MIRT 對於得分相 同的學童所估計的能力值區別較小、分布較集中(如圖4-3-1)。

根據(de la Torre & Hong,2010)研究顯示,HO-IRT 模式較 UIRT 模式能 提高整題量尺的估計值。所以HIRT 對於相同得分的受試者,所估計的能力值 會有較大的區別,是因為HO-IRT 模式會考慮到受試者在其它次級量尺的得分 情形,HO-IRT 所估計的能力值會較貼切於受試者的真實能力。

(51)

43 圖 4-3-1 HO-IRT 和 UIRT 整體量尺估計值的分布情形

四、

HO-IRT、UIRT、MIRT-C 與 MIRT-U 在三個次級量尺的估

計比較

1. HO-IRT 在三個次級量尺的估計比較 依據學童在測驗部份得分排序與 HO-IRT 對概念理解、程序性知識和問題 解決估計值相比較,發現得分低的學童在HO-IRT 估計下,其領域量尺—概念 的理解、程序性知識、問題解決估計值也低,得分高的學童其概念的理解、程 序性知識、問題解決估計值也高(如表4-3-5、4-3-6、4-3-7)。

比較HO-IRT、MIRT-C、MIRT-U 次級量尺的估計,發現 HO-IRT 與 MIRT-C; HO-IRT 與 MIRT-U;MIRT-C 與 MIRT-U 對領域量尺 L1、L2、L3 的估計相關係 數都高達0.95 以上;顯示 MIRT 與 HO-IRT 在次級量尺的估計上有一致性(如 表4-3-8)。

(52)

44

所以依據本研究的實證資料研究結果發現,HO-IRT、MIRT 及 UIRT 在整 體量尺-數學幾何能力及三個領域量尺—概念的理解、程序性知識、問題解決及 試題難度參數的估計有一致性。

表4-3-5HO-IRT、MIRT-C、MIRT-U 在概念的瞭解(L1)的估計參數表(部分)

受試者 HO-IRT MIRT-C MIRT-U

編號 總分 L1 L1 L1 6001 2 -1.974 -2.126 -1.689 6009 3 -1.883 -1.674 -1.290 6007 4 -1.315 -1.297 -0.831 6090 4 -1.591 -1.522 -1.239 6006 5 -1.142 -1.434 -1.225 6043 5 -1.504 -1.794 -1.692 6012 6 -0.951 -0.786 -0.431 6030 7 -0.757 -0.456 -0.045 6059 8 -0.754 -0.888 -0.807 6086 9 -0.593 -0.585 -0.413 6023 10 -0.486 -0.486 -0.422 6057 10 -0.673 -0.510 -0.407 6049 11 -0.273 -0.196 -0.100 6075 11 -0.429 -0.436 -0.462 6019 12 -0.308 -0.394 -0.404 6040 12 -0.232 -0.407 0.380 6013 13 -0.171 -0.337 -0.454 6027 14 -0.016 -0.012 -0.037 6021 15 0.304 0.194 -0.033 6031 15 0.343 0.493 0.429 6015 16 0.662 0.736 0.711 6016 17 0.434 0.475 0.369 6042 17 0.492 0.312 0.039 6020 18 0.660 0.605 0.348 6125 18 0.571 1.179 0.321 6032 19 1.068 0.664 0.332 6036 20 1.104 0.664 0.720 6077 21 1.476 1.370 1.114

(53)

45

4-3-6HO-IRT、MIRT-C、MIRT-U 在程序性知識(L2)的估計參數表(部分)

受試者 HO-IRT MIRT-C MIRT-U

編號 總分 L2 L2 L2 6001 2 -1.735 -1.502 -1.023 6009 3 -1.921 -1.71 -1.439 6007 4 -1.444 -1.661 -1.444 6090 4 -1.455 -1.305 -1.011 6006 5 -1.517 -1.527 -1.449 6043 5 -1.418 -1.029 -0.705 6012 6 -1.194 -1.475 -1.431 6030 7 -0.993 -1.136 -1.035 6059 8 -0.887 -1.064 -1.075 6086 9 -0.687 -0.763 -0.734 6023 10 -0.491 -0.725 -0.718 6057 10 -0.507 -0.23 -0.026 6049 11 -0.332 -0.663 -0.759 6075 11 -0.361 -0.362 -0.325 6019 12 -0.209 0.167 0.351 6040 12 -0.073 -0.148 -0.057 6013 13 -0.001 0.455 0.659 6027 14 0.127 0.522 0.716 6021 15 0.29 -0.075 -0.324 6031 15 0.254 -0.076 -0.327 6015 16 0.463 0.173 0.007 6016 17 0.618 0.693 0.653 6042 17 0.612 0.769 0.674 6020 18 0.818 1.059 1.065 6125 18 0.818 1.027 1.012 6032 19 1.008 1.143 1.040 6036 20 1.228 1.248 1.076 6077 21 1.42 1.348 1.086 6079 22 1.711 1.723 1.514 6214 23 2.104 1.897 1.494

(54)

46

4-3-7 HO-IRT、MIRT-C、MIRT-U 在問題解決(L3)的估計參數表(部分)

受試者 HO-IRT MIRT-C MIRT-U

編號 總分 L3 L3 L3 6001 2 -1.999 -2.055 -1.655 6009 3 0.607 0.756 -1.220 6007 4 -1.415 -1.572 -1.274 6090 4 -1.557 -1.512 -1.186 6006 5 -1.306 -0.904 -0.390 6043 5 -1.297 -1.180 -0.763 6012 6 -1.067 -1.054 -0.784 6030 7 -1.053 -1.257 -1.237 6059 8 -0.548 -0.369 0.037 6086 9 -0.613 -0.614 -0.435 6023 10 -0.379 -0.292 -0.018 6057 10 -0.728 -0.742 -0.718 6049 11 -0.276 -0.197 -0.060 6075 11 -0.310 -0.157 -0.012 6019 12 -0.249 -0.392 -0.418 6040 12 -0.124 -0.173 -0.043 6013 13 -0.111 -0.283 -0.412 6027 14 -0.035 -0.193 -0.372 6021 15 0.578 0.991 1.330 6031 15 0.431 0.755 0.835 6015 16 0.564 0.558 0.493 6016 17 0.478 0.551 0.416 6042 17 0.743 0.807 0.780 6020 18 0.724 0.666 0.385 6125 18 1.539 1.533 0.372 6032 19 0.893 1.000 0.869 6036 20 1.158 1.163 0.893 6077 21 1.434 1.218 0.803 6079 22 1.421 1.057 0.436 6214 23 2.081 1.850 1.309

數據

圖 2-1-1 NAEP數學科評量架構
圖 2-4-2  題內多向度測驗
圖 2-4-3 為該模式的模式圖,第一層表示第 i 位受試者在領域量尺 d 中的第 j 題試題之反應情形 (d ) ijX ,第二層表示受試者的反應透過 IRT 模式中的試題參數 )(d j β 連結到領域量尺分數,其中此模式試題參數 (d )j β 假設為已知(de la Torre  &  Song ,2009),第三層表示受試者的領域量尺分數透過迴歸參數 λ 連結到相對(d) 應之整體量尺分數 θ 。  i
表 4-2-1 各模式指標的分析結果
+7

參考文獻

相關文件

2-1 化學實驗操作程序的認識 探究能力-問題解決 計劃與執行 2-2 化學實驗數據的解釋 探究能力-問題解決 分析與發現 2-3 化學實驗結果的推論與分析

在選擇合 適的策略 解決 數學問題 時,能與 別人溝通 、磋商及 作出 協調(例 如在解決 幾何問題 時在演繹 法或 分析法之 間進行選 擇,以及 與小組成 員商 討統計研

理解並欣賞幾何的性質可以透過坐標而轉化成數與式的 關係,而數與式的代數操作也可以透過坐標產生對應的

課程詮釋與學習評估 (修訂)

在選擇合 適的策略 解決 數學問題 時,能與 別人溝通 、磋商及 作出 協調(例 如在解決 幾何問題 時在演繹 法或 分析法之 間進行選 擇,以及 與小組成 員商 討統計研

並以較淺易的方式進行評估,為學生建立學習成就感。整體而言,大多數政治演變的課題,會以概覽式課題的方法處理,即教師

The Hong Kong Musical Composition Ratings (HKMCR) 能力呎..

評定量表 (rating scale) :指用以評定等級的工具,按評定結果可以看出學生 在某種特質上的等級,當中有各種形式如數字評定量表 (numerical rating scal e) 、圖示評定量表