第二節表現標準評估的準備階段

(1)

第五章研究三數學領域能力指標「數與量」、「代數」

主題軸第一、二階段表現標準適切性評估研究

第一節研究三的研究程序

本研究以實徵的方式來評定九年一貫課程數學領域「數與量」和「代數」主題軸中第一階段和第二階段學生表現標準的適切性。在標準設定的程序中，Angoff 法是目前最為廣泛應用的方法，甚至是日後修正標準設定方法的程序都以此方法為依據。

本研究的主要目的雖不訂定明確的切割分數 (cut score)，但仍運用 Angoff(1971) 法的主要概念，以及得懷術的程序進行設計。以下將 Arrasmith ＆ Hambleton(1988) 所提出Angoff(1971)法的步驟，加以整理修改成三階段進行說明：

壹、準備階段

包括提供來進行標準設定測驗的背景訊息描述，以及標準設定程序進行之前的準備工作。此階段可再區分為專家資料和文件資料兩大部分，文件資料則又再包含測驗的發展以及實測結果。

貳、執行階段

本階段主要描述標準適切性評估的步驟和執行過程。主要利用Angoff（1971）程序進行三回合的專家評估，第一回合的主要目的為瞭解專家的評估意見，透過專家全體和實徵研究的資料回饋，再於第二回合的評估中修改初始的評估結果，並在第三回合整理專家的評估資料，再比對能力指標中所指陳的表現標準適切性。

參、後續階段

本階段主要描述標準設定歷程的資料處理以及結果的分析，同時提供回饋問卷，

進一步瞭解專家群體的意見和作為未來研究改進的建議。

(2)

第二節表現標準評估的準備階段

本階段以表現標準評估程序進行之前的準備工作為主。除了表現標準評定的專家學者邀請之外，尚包括評估文件的發展和結果描述，因此以下將區分為試題發展、實測結果和表現標準評定專家三部分進行說明。

壹、試題的編擬和發展

本研究的表現標準設定程序，主要以研究者依據數學領域能力指標所指陳的第一、第二階段學生的表現標準所編擬的試題作為評估的依據。以下針對試題的發展進一步說明：

一、命題

測驗的試題編寫主要以研究者根據所重新整合的九年一貫數學領域能力指標系統

「數與量」和「代數」兩主題軸之內容為主，此重組指標乃是研究者依照目前所實施的數學領域暫行綱要（教育部，民91）的內容進行整合。試題以第一階段(三年級) 、第二階段（五年級）的指標項目中的能力表現標準為主，由研究者參酌現行各版本教科書及參考書（如康軒、南一、翰林、國立編譯館等版本）、若干小學現有之形成性評量以及定期評量試卷、以及教育資源網站上相關資料（例如思摩特網、九年一貫課程網站等），和國際間大型評量方案如：NAEP（2002）、TIMSS（1995）、TIMSS（1999）、

澳洲學科評量（1999）（ETC,1998）等的相關試題所編擬而成，然後透過審題和預試的程序篩選適合該年級學生的試題所組合而成。

試題內容強調原創性，盡可能和坊間流傳和學生熟悉的試題類型區隔，並取材自學生的生活經驗，著重數學知識的理解和應用，而非評量學生的記憶或應試技巧。試卷題型由四選一選擇題以及填充題所組成，每份試卷的作答時間以不超過 40 分鐘為主。

二、審題

題目初稿編擬好之後，先邀請數學領域能力指標暫行綱要中「數與量」和「代數」

內容主題編擬之專家代表對試題內容進行初步審核，並提供具體的建議，了解試題和指標內容之間的關聯。然後邀請同時具有豐富教學經驗（10 年以上）、熟悉測驗相關理論及評量實務工作背景的碩士層級以上、並有超過 10 年以上的教學資歷之專家教師共 4 人，連同研究者 5 人組成審題小組，針對題目的敘寫和核對所評量的能力逐題進行檢視；並且同時邀請經驗豐富且任教於中、高年級之現職教師共 6 名為試題的敘寫和呈現方式提供具體建議，最後再分階段彙集成預試試卷。

三、預試

試題的預試對象為台北市長春國小和台北市五常國小的學生，分兩次實施。首先由三、五年級的學生進行，然後再由四、六年級的學生進行第二次預試，最後以通過率和二系列相關係數作為選題的指標，因為主要是了解學生的基本能力表現，故刪除

(3)

通過率小於.75、二系列相關係數小於.40，以及試題反應不符合學生發展之試題。預試的學生第一階段共95 人，第二階段共 114 人，而預試題本第一階段約 55 題，第二階段59 題，最後保留第一階段 43 題和第二階段 54 題作為正式試題。

四、試題連結的等化設計

所謂的垂直等化是指在單一的量尺，但是涵蓋了數個不同年齡層次的受試者。在鄰近的年齡樣本中提供共同試題的設計，用來連結這兩個群體在同樣的量尺之中

（Scientific Software International，1996）。經過垂直等化的設計，可以了解不同年齡的受試者在所要測量能力特質的分布情形，同時也可以顯現出能力發展的趨勢，符合九年一貫課程的理念，因此，本研究有關於學生數學能力的表現標準評估，採用垂直等化的設計來同步瞭解三、四、五不同年級學生在某一項數學能力的表現，換句話說，

先讓三年級學生和五年級學生分別回答在能力指標中屬於該階段能力的試題，而利用四年級學生的題本把三年級和五年級題本中的試題進行部分組合的設計，即可同時進行三、四、五年級的學生反應估計。

五、正式題本的組成

本研究採用垂直等化的設計來進行試題的連結，在三、四、五不同年級的試卷中加入共同試題，作為連結到相同能力量尺的依據。三年級和四年級的共同題目有 19 題，四年級和五年級的共同題有21 題，為考量學生作答時間和答題負荷，因此各年級的試卷均再分為甲、乙兩卷，同時調整選擇題答案，盡量讓在四個選項的正確答案均勻分布且不呈現規律，以降低學生僥倖猜測的機率。

六、資料分析與統計處理

上述的資料分析分別以 SPSS11.0 、 SPSS12.0 計算學生的表現通過率以及 BILOG-3.1 了解試題的二系列相關係數。

貳、學生表現標準的實測結果一、測驗的實施狀況

本研究主要透過實測以學生的答題反應來了解學生的能力表現。所實施的測驗乃用來瞭解能力指標所指陳的在「數與量」和「代數」兩個主題軸中，第一、二階段學生的具體表現。

測驗實施的時間為九十一學年度的第二學期，約在92 年 4 月下旬至 5 月中旬。各校施測時間考量和配合各學校和施測班級狀況，但最早施測學校和最晚施測學校的前後間隔不超過3 週，並且在施測的同時了解學生課程的實施狀況和進度，以及所使用的教科書版本，經研究者分析後發現各校並沒有太大的差異。

為讓學生能有充裕的答題時間，並再將試卷分成甲、乙兩卷，兩卷施測的時間各為一節課40 分鐘，且兩卷並非連續進行施測，以排除學生的疲勞效應，甲、乙兩卷施測的間隔也不超過一週的時間。

(4)

二、抽樣程序以及施測樣本分佈

由於考量樣本的代表性，本研究以教育部統計處所公布的國小學生統計概況資料為主（教育部統計處，民92），採用分層隨機抽樣，先將母群區分為北（苗栗以北）、

中（中、彰、投地區）、南（高、高、屏地區）、東（宜蘭、花蓮、台東地區）和離島

（澎湖、金門、馬祖）等五區，並按照學生人數比例採用分層隨機抽樣，預計抽取三、

四、五年級學生各約525 人進行施測，並同時考量受試學生之城鄉背景差異是否平均，

不過因為受限於學校行政運作，所以實際抽測人數以原班級作為主要抽樣單位，因此與預期人數會有所差距，最後抽取三年級學生513 人、四年級學生共 517 人、五年級學生共522 人，合計 1552 人進行施測。實際抽樣比例和預期人數差距皆未超過 5%，

並且城鄉人數與男女比例經過 t 考驗均未達到顯著差異，表示正式施測人數的城鄉和性別比例均等，且抽樣比例符合母群樣本。施測學校以及受試人數等詳細資料和比例如表5-1 所示。

(5)

表5- 1 施測學校及人數一覽表

地區別總人數比例抽樣學校三年級抽樣人數四年級抽樣人數五年級抽樣人數

預計實際比例預計實際比例預計實際比例

台北市 194795 國語實小 70 63 70 61 70 64

台北縣 317301 自強國小 30 28 30 30 30 30

興穀國小 30 31 30 33 30 33

基隆市 33454 隆聖國小 60 57 60 61 60 59

桃園縣 177859

新竹縣 43222

新竹市 35898

苗栗縣 8337 苑裡國小 30 28 30 28 30 30

北區 810866 0.422759 220 207 0.403509 220 213 0.413592 220 216 0.413793

台中市 99560 建功國小 70 65 70 62 70 66

台中縣 142518

彰化縣 111811 南郭國小 30 30 30 30 30 30

南投縣 44225 中寮國小 30 41 30 39 30 43

雲林縣 53901 安慶國小 30 30 30 34 30 28

嘉義市 25343

嘉義縣 39380

中區 516738 0.26941 160 166 0.323587 160 165 0.319149 160 167 0.319923

台南市 63710 安順國小 30 34 30 33 30 32

台南縣 87351

高雄縣 98997

高雄市 122953 漢民國小 70 70 70 70 70 64

(6)

南區 446234 0.232652 100 104 0.202729 100 103 0.199226 100 96 0.183908

宜蘭縣 39920

花蓮縣 29315 宜昌國小 35 29 35 31 35 29

台東縣 18792

東區 88027 0.045894 35 29 0.05653 35 31 0.059961 35 29 0.05556

澎湖縣 6452

金門縣 4108

連江縣 573 北竿板里國小 10 7 10 5 10 14

離島 11133 0.005804 10 7 0.013645 10 5 0.009671 10 14 0.02682

學生總數 1918034 1 525 513 1 525 517 1 525 522 1

(7)

三、試題分析和學生答題反應的估計

本研究運用三參數模式來進行學生答題反應的估計。同時將正式題本中的 97 題利用檢定學生答題反應和三參數模式的符合程度，並刪除的試題，最後得到80 題，其中第一、二階段各 40 題作為本研究表現標準評估的依據。

x2 x² <.01

至於全體學生的答題反應則是先逐題利用每一學生的能力估計值(θ )和每一試題的參數值(a、b、c)估計其通過率之後，再進行平均求得。例如將三年級 513 人的能力估計值逐一代入試題1 的 a、b、c 參數，求得每一學生在試題 1 的通過率，然後再求此513 個通過率的平均數作為本研究三年級學生在試題 1 的答題反應(通過率)。關於試題內容、對應的能力指標、三參數值以及三、四、五年級的答題反應，詳見附錄八。

此部分利用Ultra Edit-32 進行學生資料處理編輯和整理、EXCEL2000 進行學生的資料統計和樞紐分析、SPSS11.0 以及 SPSS12.0 進行古典通過率計算並考驗受試樣本差異性、描述學生樣本的特性和因素分析等統計處理、以及 BILOG-3.1 計算 a、b、c 參數以及能力估計值(θ )並同時進行 model-fit 的試題檢定、利用MATLAB5.3 進行三參數估計的矩陣運算、試題特性分析、繪圖等的資料處理和統計工作。

四、學生特性和學習情況概述

九年一貫課程自九十學年度由一年級開始實施，九十一學年度四、七年級隨之啟動，在本研究所施測的學生中，三年級和五年級的學生仍以教育部(民 82) 的課程學習綱要學習內容為主，而四年級的學生在其一至三年級時所接受同樣是 82 年版本的課程，於第四年才接受九年一貫課程（教育部，91 年版）。

但是在九十一學年度的學習總節數以及各領域的學習節數則是以九年一貫課程綱規範為主，在未實施九年一貫課程時，中年級（三、四年級）每週有四節數學課，到了九十一學年度開始則改為三節；高年級由原先的五節課縮減為四節課。換句話說，在九十一學年度中，三、五年級的學生所學習的數學課程為 82 年版本的內容，但是卻每週縮減一節課的學習時間，四年級學生則以每週三節的時間接受九年一貫數學領域的課程。

五、學生的實測結果

（一）學生答題反應分析

在本研究中利用IRT 的三參數模式，估計三、四、五年級學生在九年一貫課程數學領域能力指標所指陳的學生能力表現。並同時利用垂直等化的設計將不同年級學生的答題反應進行連結，以了解不同年級學生的能力發展情形。

在題目的設計中，前40 題的題目依據第一階段三年級學生的能力表現所設

(8)

計，後 40 題依據第二階段五年級學生的能力表現設計。圖 5-1 為三個年級學生在80 題試題的答題反應和通過率的關係。

圖5- 1 三、四、五年級學生實徵通過率分布圖

而表5-2 則為三個年級學生的實測表現通過率統計：

表5- 2 三、四、五年級學生實測表現通過率統計表

通過率

年級（題號） 0.3-0.4 0.4-0.5 0.5-0.6 0.6-0.7 0.7-0.8 0.8-0.9 0.9-1

1-40 0 0 2 6 12 13 7

三

41-80 1 7 5 11 12 4 0

1-40 0 0 2 6 8 11 13

四

41-80 0 3 8 5 12 11 1

1-40 0 0 2 4 12 10 12

五

41-80 0 1 8 6 17 8 0

就整體表現而言，三年級學生的實測表現大多分布在0.6-0.9 之間，共有 66 題，佔82.5%；通過率在 0.9 以上的共有 7 題，屬於第一階段的前 40 題，佔全部試題的8.75%；0.5 以下的有 8 題，為後 40 題，屬於第二階段的能力表現，佔 10%。

(9)

五年級學生的通過率也大部分集中在.60-.80 之間，共有 57 題，佔 71.25%，通過率在0.9 以上的共有 12 題，屬於第一階段的前 40 題，佔全部試題的 15%；不過仍然有通過率低於.60 以下，共有 11 題，佔 13.75%，其中甚至有第一階段的試題兩題，通過率只介於 0.5-0.6 之間，其餘 9 題為第二階段的試題。四年級學生的通過率也大部分集中在.60-.80 之間，共有 53 題，佔 66.25%，通過率在 0.9 以上的共有13 題，是屬於第一階段的前 40 題，佔全部試題的 16.25%，不過有一題第二階段的題目在四年級的通過率就高於.90，是第 67 題，於下一部分進行相關討論；通過率在.60 以下，共有 10 題，佔 12.5%，其中甚至有第一階段的試題兩題，通過率只介於0.5-0.6 之間，其餘 8 題為第二階段的試題，佔全部的 10%。

以下乃針對各年級的實徵通過表現進行逐一討論。

在本研究中，此部份主要是瞭解第一、二階段（三、五年級）學生在「數與量」和「代數」兩內容主題的實徵表現，四年級學生乃是進行等化連結，因此先以三、五年級的實徵表現進行討論，再從四年級的實徵表現反思三、五年級學生的縱貫發展。

（二）三年級學生的實徵表現

圖5-2 為三年級學生在 80 題試題的答題反應和通過率的關係。

圖5- 2 三年級學生實徵通過率分布圖

(10)

在題本的設計中，前40 題是依據在三年級的學生的能力指標所陳述的表現標準來設計，不過有兩題的學生能力表現未達.60，分別是第 18 題(通過率.5021) 和第26 題(通過率.5106)，這兩個題目分別測量「N-1-2.6 知道加減法的逆運算關係」，和「N-1-3.2 推斷和檢驗整數計算結果的合理性」，兩個指標所指陳的能力表現。再從四、五年級的表現來看，第18 題四年級的通過率為.5421，而五年級則為.5673，表示這個題項即使到了五年級，仍然有接近一半以上的學生未能正確回答。同樣的情形在第26 題也顯示四年級學生的答對率為.5582，而五年級學生的通過率則為.5873，表示這兩個能力指標所指陳的學生表現標準第一階段學生而言，似乎稍難一些，即使是第二階段五年級的學生，通過率也不逾6 成（詳見圖5-1）。

前40 題中通過率介於.60-.70 之間的題目有 6 題，分別是 12、32、35、37、

38、39 題，第 12 題為測量「N-1-2.1 知道加、減、乘、除運算法的特性，並運用數學的方式呈現。」的能力表現，不過是屬於非整除的情境，因此對學生而言難度較高，三年級學生的通過率只有.6001。

在41-80 題的表現上，主要是依據第二階段數學領域能力指標所指陳的表現所設計，在三年級學生的實徵表現中，其中有 4 題的表現通過率超過.80，分別是第67、74、76、80 題。在第 67 題的通過率高達.8763，這一題主要是測量「N-2-3.2 選擇和應用適當的方法解決生活情境中的問題」的表現，在此題項的通過率為.8763 而五年級為. 885，顯示類似的問題在三年級學生即可正確回答。但是值得一提的是，由於該指標所指陳的範圍稍過廣泛，因此研究者在設計問題時，關於此指標能力表現列舉了三種不同難度的問題進行瞭解，分別從第 65-67 題，

67 題屬於難度最低(b=.-1.617)，而 65 題難度較高(b=.29)，其通過率的表現在三年級僅為.4062，四年級為.4767 到了五年級也僅有.5304，中等難度的第 66 題 (b=-.91)，其通過率的表現在三年級為.7537，四年級為.8105 到了五年級為.794，

因此何種難度才真正代表該指標合適的表現，應再進一步界定明確。

第74 題主要測量「N-2-5.3 在公制系統下，計算和換算長度、重量、質量、

時間的測量」。在三年級學生的通過率就達到.8038，題目乃是時間單位的計算和換算；第76 題為瞭解學生是否達到「N-2-5.4 發展計算長方形的面積和長方體的體積的策略。」的指標期待，三年級學生的實徵通過率為.8006；第 80 題為瞭解學生「A-2-2.1 列出並解算式填充題中的未知數。」的指標表現，其通過率為.8243，

可見上述能力指標對三年級學生而言已經能有80%左右的學習。

在三年級通過率就已經達到.70 的題項分別為第 46、57、61、62、64、66，

其中第46 題為測量「N-2-1.4 運用具體物、圖示和數學符號描述和比較兩位小數的大小」，顯示在小學三年級的學生已經有.7934 的學生可以表徵和理解兩位小數；在第 64 題所測量的為「N-2.3.1 選擇和應用適當方法或工具進行運算」，主要呈現的問題情境是計算機的操作，三年級即有.7607 的通過率表現。而在 68、

69 兩題項分別測量第一階段學生二階測量單位的表徵，實徵結果顯示在三年級

(11)

第一階段即達到.7628 和.796 的通過率已相當接近八成，顯示三年級學生應該具備表徵二階測量單位的能力。甚至從第74 題的三年級學生實徵結果即顯示三年級學生已經具備進行簡單的二階時間測量單位的運算的能力表現。而第70 題顯示三、四年級的學生已經可以運用24 時制來描述時間。

（三）五年級學生的實徵表現

圖5-3 為五年級學生在 80 題試題的答題反應和通過率的關係。

圖5- 3 五年級學生實徵通過率分布圖

就第二階段學生的實徵表現而言，前40 題為第一階段學生的能力表現，因此會顯示較高的通過率。但經實徵資料中發現其有 6 題的通過率甚至未達.60，

分別是第18 題的.5673 和 26 題的.5873。另外尚有第 12、35、37、38 題的通過率未超過.70，經研究者進一步分析結果發現，第 37、38 題為瞭解學生是否會選擇和應用日常生活的測量單位進行測量「N-1-5.1 選擇和應用日常生活中的測量單位（例如米、厘米、分公升、千克、克和度）進行長度、重量、容量、角度的測量。」，這些問題情境可能和學生日常的課室經驗較不相似，所以顯現出較低的答題表現。第12 題主要測量「N-1-2.1 知道加、減、乘、除運算法的特性」顯

(12)

示五年級通過率為.6785，不過同樣的指標題項有三題，第 12 題屬於較高難度的試題，主要測量學生對非整除概念的理解，不過在實徵資料顯示，三年級學生在該題即有.6001 的通過率表現，因此到了五年級通過率僅上升至.6785，其結果不禁令人感到訝異。第35 題主要以傳統鐘面的問題情境讓學生解讀，其五年題通率也僅有.6534，三年級為.6025，顯示學生對於傳統時鐘的解讀能力似乎有待加強。

物、

問題情境，通過率也僅呈現.6366，58 題為測量學生利用數線表徵分數，

通過現差強人

意。56 題為兩位小數減法的運算，五年級的通過率僅有.5413，但是在 57 題所呈現的兩位小數加法運算通過率就有.7782，顯現學生對減法的運算未若加法得心應手。第 50 題為測量學生「N-2-2.3 知道乘除法的逆運算關係」。通過率僅有.5591，52 題測量「N-2-2.5 運用不同的方式描述概數（例如四捨五入、捨去和進入）。」，題目所呈現的是由答案進行推估的反向情境，五年級學生的通過率表現僅有.555。至於 48、53、65 題主要把生活情境上的運算問題加以延伸，並非學生所熟悉的例行性問題情境，學生的通過率表現僅有.4515、.5097 和.5304，表示學生在將數學概念與在生活情境中的應用上似乎有待加強。

（四）四年級的實徵表現

本研究利用垂直等化的技術，透過四年級學生的等化連結推估來瞭解三、

四、五年級學生實徵反應的發展表現。四年級學生處於剛邁入第二階段的第一個學年，理論上實徵表現應介於第一階段和第二階段的反應區間之中，因此，以下再針對四年級的反應表現來反思和進一步檢視三個年級的實徵表現縱向發展。

圖 5-1 顯示三個年級學生在 80 題的答題通過率表現。而值得注意的是在屬於第一階段能力指標表現的40 題中，共有 32 題四年級學生的實徵通過率高於五年級學生，第二階段的40 題中，同樣有 14 題四年級學生的實徵通過率高於五年級。

圖5-4 為四年級學生在 80 題試題的答題反應和通過率的關係。

過

從41-80 題為配合第二階段學生的能力表現所呈現的試題，理想上應該都會顯示較高的通過率表現，然而在這40 題中，五年級整體表現通過率超過.70 的有 25 題，僅佔全部的 62.5%。其中五年級通過率表現未超過.60 的題項有 43、48、

50、52、53、54、56、58、65 等 9 題，其中第 43 題為測量「N-2-1.2 運用具體圖示和數學符號描述和比較假分數及帶分數的大小。」通過率在五年級僅 0.5905，第 54、55 題為「N-2-2.7 流暢的進行假分數或帶分數的加減和整數倍乘法運算」的測量，54 題顯現減法的情境，五年級的通過率僅.5455，55 題為分數乘法的

率也僅有.5885，顯現五年級學生在分數的運算和表徵能力上表

(13)

第一階段能力指標的表現表

現標準中，如果難，甚至在第23 題

通過率表現中，級(.947)通過五年級(.9137 (.9145) 的五年級題目為瞭解「流暢的進行數的加減運算

1）」中的一位小數加法運算，屬於難度較低的試題表現。

於第二階的41-80 四年級通過級的14 是42、46、、64、66、6 69、70、71、、80 題，經進一步分析這些題項的通了第 71 題三學生的通過率為.6972 外，其餘的通過率也在.70 以上；在四年級均達到.85 以上，雖然五年級的通

圖5- 4 四年級學生實徵通過率分布圖

屬於第一階段能力表現的 1-40 題中，五年級表現的通過率高於四年級的題項分別為12、18、26、32、35、37、38、39 題，若從剛剛的討論中發現，這些題項幾乎都顯現出未達.70 的通過率表現，表示屬於

度偏易，四年級的表現通過率會高於五年級

的不僅四年率高於 )，三年級

表現也高於，而此 N-1-2.10 一位小

（和及被減數<

在屬段能力表現的題項中，率高於五年

題分別 51、62 7、68、 74、78

研究者發現，過率除年級

過率較四年級低，但相差均未超過0.01。換句話說，若屬於第二階段的能力指標表現上，就三個年級的數學能力發展的角度而言，如果是屬於難度較低的題目，四年級的通過率表現會高於五年級學生。

因此，若總結四年級通過率高於五年級的試題可發現，如果試題難度偏低，

而且問題情境的認知複雜程度較低的狀況下，四年級的通過率表現就會高於五年級，其差距大多介於在0.01 以下。

(14)

研究者接下來將學生的樣本特性進行分析，以了解其相關原因。

（五）學生樣本特性分析

本研究以教育部統計處所公布的國小學生統計概況資料為主（教育部統計處，民92），採用分層隨機抽樣，總共抽取北、中、南、東和離島等五地區 13 個學校之三、四、五年級學生共1552 人作為施測的對象，並進一步以集中、分散、偏態和峰度四方面分析學生的能力分布情形(林清山，民 81)，以了解不同年級學生能力的特性，相關統計量數如表5-3 所示。

表5- 3 不同年級學生能力分析之統計量數

三年級四年級五年級

學生人數 513 517 522

能力值平均數 -.219905 0.065567 0.155176 標準差 .9475190 .8445229 1.1469299

偏態 -.978 -.643 -.630

峰度 2.011 1.639 -.389

就能力發展而言，三年級513 個學生的能力平均數值為-.219905，四年級 517 個學生的能力平均數值為 0.065567，五年級 522 個學生的平均能力值為 0.155176，隨著年級的增長學生的能力也隨之增進。而不同年級樣本的標準差以五年級的 1.1469 最大，顯示五年級學生的能力分配的變異情形最大，其次是三年級，四年級樣本的標準差最小，顯示四年級學生的相對的能力分布較為集中。

由於偏態係數為負值，顯示三個年級的能力分布均呈現負偏態(左偏)，也就是其中位數大於平均數，換句話說，三個年級學生的能力平均數容易受較小的極端數值所影響。至於能力分配的曲線，三、四年級均屬於高狹峰分配，而因為五年級的樣本變異情形較大，因此能力分配的曲線比較平坦。

研究者並同時繪出不同年級學生樣本的莖葉圖，以更細部了解學生的樣本分布情形，如圖5-5、5-6 和 5-7 所示。結果發現三年級學生中，有 19 個極端值(能力值≤-2.4)出現；四年級學生中有 8 個極小值和 1 個極大值出現；五年級的學生除了顯示出6 個極小的能力值之外，並呈現出雙峰的現象，表示五年級的學生能力分配除了變異情形較大外，學生能力值介於 0.5-0.9 之間大約有 131 人形成一個高峰的群聚現象，但是在能力值-1.5 至-1.9 間還呈現另一個次高峰，由於形成低能力群的次高峰，因此偏離了常態分配的係數，在峰度上呈現負值。

(15)

19.00 極端值 (=<-2.4) 6.00 -2 . 12&

12.00 -1 . 5678

44.00 -1 . 00001111123344

88.00 -0 . 555555666666677777788888889999

115.00 -0 . 00000011111111222222222223333334444444 130.00 0 . 00000000011111111112222222333333333444444444 63.00 0 . 5555556666677788889999

27.00 1 . 001122233&

9.00 1 . 559&

莖的組距: 1.0000 每一個葉片代表3 個觀察值

& 代表部分的觀察值

圖5- 5 三年級學生能力分配莖葉圖

8.00 極端值 (=<-2.2) 1.00 -2 . &

12.00 -1 . 5788&

19.00 -1 . 001234

76.00 -0 . 55555555666666777778888899

123.00 -0 . 00000001111111111122222222233333334444444 118.00 0 . 000000011111111122222233333333444444444 99.00 0 . 55555555666666667777777888899999

44.00 1 . 00001112233444 16.00 1 . 55569&

1.00 極端值 (>=2.5)

圖5- 6 四年級學生能力分配莖葉圖

(16)

6.00 極端值 (=<-2.4) 15.00 -2 . 00133&

64.00 -1 . 556666777778888999999 10.00 -1 . 044&

24.00 -0 . 5556789

69.00 -0 . 00001111112222333334444 89.00 0 . 00000111112222222333334444444

131.00 0 . 55555555556666666677777777888888888899999999 70.00 1 . 00001111122223333334444

33.00 1 . 5566677789 11.00 2 . 0123&

圖5- 7 五年級學生能力分配莖葉圖

參、表現標準適切性評定專家的組成

在本研究中，評定學生第一第二階段的表現標準適切性的專家共有15 位，

為考量專家群體的代表性，除了教育界的先進和特定領域的專家學者們，尚包括家長、社會人士和教師組織代表等。在15 位專家中，具有豐富教學經驗且擔任數學教學的國小現職教師共有8 位，約佔 53.3%，其中涵蓋任教中年級和高年級的教師，甚至是均有相關教學經驗者；家長代表和關心教育的社會人士代表有4 位，約佔26.6﹪，而此 4 人同時有教育相關領域的背景，例如代理教師、班級愛心媽媽的經驗等；除此之外尚邀請對於九年一貫課程領域相關政策頗有研究的專家、具有測驗專長和教授數學教材教法的學習領域專家以及課程專家和教師團體代表各1 人，總共 3 人，佔 20%，共同組成專家諮詢小組，依據其不同經驗和專長進行評定和判斷。評定專家諮詢小組組成如表5-4 所示：

(17)

表5- 4 表現標準適切性評定專家諮詢小組一覽表

類別評定專家職別或相關背景全體成員比例 A1 教育相關政策和學習領

域專家 A2 測驗評量和課程專家教育相關專家學者

A3 教師團體代表

20%

A4 現任教師 A5 現任教師 A6 現任教師 A7 現任教師 A8 現任教師 A9 現任教師 A10 現任教師教學實務工作者

A11 現任教師

53.3%

A12 家長代表 A13 家長代表 A14 社會賢達人士其他領域代表

A15 社會賢達人士

26.6%

(18)

第三節表現標準適切性評估的執行階段

壹、專家評估的實施步驟

本階段主要進行三個回合。第一回合包括專家的評估任務的訓練說明以及專家評估的進行。首先由研究者當面向專家說明研究目的、相關理論依據和專家們的任務，同時介紹測驗的發展背景和進行評估練習，同時界定基本能力，在這個過程中並且回答和澄清所有專家提出的問題。此步驟主要是希望讓專家群體對評估任務有完整和一致性的共識，盡量降低評估結果的誤差，相關文件詳見附錄九。

然後給予充裕的時間讓專家對三個年級學生的表現進行逐題評估，並且逐題判斷具有該年級基本能力的學生是否可以正確回答的答題通過率為何。第一回合評估的時間為92 年 12 月底至 93 年 1 月初，總計大約 3 週的時間。

第二回合的實施主要是邀請專家學者們依據研究者所提供的回饋資料修正前一次的評估結果。問卷由研究者親自送交給參與的專家學者，然後再向專家學者說明資料的處理，和解釋評估問卷的進行，實施的時間為93 年 1 月中，由於適逢農曆年節假期，所以問卷全部回收時間為 93 年 2 月中旬。實施時間共計 4 週。相關文件包括說明函和第二次評估結果問卷，相關文件詳見附錄十。。

在第二回合實施完畢之後，研究者利用因素分析的方式進行專家意見共識一致性的考驗，發現專家整體的意見已趨於一致，不需進行第三回合的逐題評估，

因此除了相關的結果提供給專家們參考外，所以第三回合專家評估主要目的乃邀請專家進行表現標準適切性進行整體評估和審核，進行時程在93 年 5 月，總計大約3 天時間，相關文件則詳見附錄十一。

貳、實施程序的回饋資料

表現標準適切性評估的回饋資料分為兩個部分，一個是提供給專家群體作為進行第二回合評估的參考依據，以及第二回合的逐題評估結果，提供專家第三回合能力指標表現標準適切性判斷的依據；另一個部分是專家表現標準程序回饋函，以了解專家們對於實施程序中的意見。

提供給專家群體作為修正第一回合評估結果的回饋資料有學生的實徵表現，以及第一回合15 位專家的評估結果，如果是評估是否具有該年級基本能力學生會正確回答，以次數分配來表示；如果是通過率的評估則以全體專家的平均數來表示。而第二回合的回饋資料和第一次的回饋資料類似，並於第三回合表現標準適切性評估中提供給專家參考。

另外，在實施程序結束之後，並設計回饋問卷以進一步瞭解專家們在實施程序中的感受或建議。問卷主要包含對實施程序設計的理解、實施過程專家的感受以及專家的建議等向度，問卷內容則見附錄十二。

(19)

第四節表現標準適切性評估的後續階段

在本階段主要說明資料的處理和分析。藉由學生的實徵資料邀請不同領域中具代表性的專家對學生的表現標準作進一步的評估。由於研究目的考量並非設定學生基本能力表現水準的切割分數，所以研究者修正Angoff(1971)的程序，並同時結合得懷術的技術。而資料的處理上除了考量專家群體的評估是否達到一定的共識性程度外，評估的結果以全體專家評定的平均數值作為代表。

壹、專家意見的一致性分析

專家意見是否能達到一致，此為得懷術實用性的主要關鍵。除了對問卷的型式和內容的審慎設計外，為了避免獨斷和主觀的判斷，在本研究中透過因素分析的流程衡量第二次專家評估問卷的意見一致性程度。其進行步驟為先利用因素分析法萃取專家評估的資料的相關性和共通性，由於有一些因素對於同一變數均具有極顯著的因素負荷量，因此運用最大變異法進行正交轉軸，讓因素變異量極大化，以簡化因素和變數的關係。然後依照分析因素負荷矩陣中各變數的相關係將試題予以分類，最後計算各共同因子的信度指標(Cronbach’s α )，若其值大於 0.6 即可結束得懷術的回饋循環(魏健宏等，民 86)。

由於本研究主要在了解專家評估結果的共識性程度，因此將第二次專家評估問卷的結果以15 個專家為主進行因素分析。透過因素分析結果發現，在專家評定三年級學生的表現標準中，15 個專家的因素特徵值大於 1 者可聚斂成 2 個共同因素，其解釋量共為 78.161%；四年級的因素分析結果也發現 15 個專家的因素分析結果特徵值大於1 者可聚斂成 2 個共同因素，其解釋量共為 81.607%；同樣的情形也發生在五年級的因素分析結果，其2 個因素的解釋量為 74.794%。三個年級專家群體的因素分析結果及其解釋變異量如表5-5 所示。

表5- 5 專家群體評定三年級學生表現標準之因素分析結果

年級因素構面特徵值解釋變異(%) 累積解釋變異(%)

因素一 10.596 70.637 70.637 三

因素二 1.128 7.523 78.161

因素一 11.177 74.515 74.515 四

因素二 1.064 7.092 81.607

因素一 10.137 67.582 67.582 五

因素二 1.107 7.382 74.964

接下來透過因素負荷矩陣將各專家分別歸類在不同的因素構面之下，並求得各因素構面中資料的Cronbach’s α 信度係數，作為判斷專家群體意見的一致性程度依據。其結果如表5-6 所示。

(20)

表5- 6 三、四、五年級專家群體評估結果因素構面的信度係數

因素構面三年級四年級五年級

因素一 .9678（12）^* .9666（12） .9644（12）

因素二 .3959（3） .5957（3） .7910（3）

*( )中的值表示各因素構面所包含的專家數量

結果發現三個年級的第一個因素構面間的內部一致性係數均在.90 以上，屬於高信度，而且均佔全體專家人數的12 人，顯示專家群體在第二回合的評估意見均有80%的共識水準，所以無需再進行第三回合的逐題回饋調查，因此第三回合的問卷評估主要是以表現標準適切性評估為主。

貳、表現標準適切性的評估結果

在本研究中邀請15 位專家評估三、四、五年級學生在「數與量」和「代數」

兩內容主題中的能力表現。

圖 5-8 為專家們評估三、四、五年級學生在 80 題試題的答題反應和通過率的關係。

圖5- 8 專家評估三、四、五三年級答題通過率分布圖

(21)

而表5-7 則為專家評估三個年級學生的答題表現通過率統計：

表5- 7 專家評估三、四、五年級學生表現標準統計表

專家評估通過率

級（

年

0.3-0.4 0.4-0.5 0.5-0.6 0.6-0.7 0.7-0.8 0.8-0.9 0.9-1

題號）

1-40 0 1 3 11 15 10 0

三

41-80 8 6 11 10 5 0 0

1-40 0 0 0 2 14 19 5

四

41-80 0 0 8 11 12 9 0

1-40 0 0 0 0 4 20 16

五

41-80 0 0 0 7 13 20 0

結果發現，就整體表現而言，專家評估三年級學生的應有的通過率表現，屬於第

題都超過.70 以上，共有 33 題，佔 82.5%，不過仍然有通過率在.70 以下

一些質性敘述，例如：「能符合日常生活所需，並應用在食、衣、住、行上」、能真正符合學生的認知發展」、「讓中下程度學生能理解」等，並且以專家認為

只有一位專家認為基本能力的通過率表現為6 ，其餘皆在70﹪以上，且若某一試題平均評估通過率超過 70﹪，大約就

會題屬於基本能力的通過表現，因此，在本研究中的專

家評

切性依據。

若將每一題項和能力指標表現標準細項進行連結，指標細項涵蓋的試題評估表現都在.70 以上的，表示專家評估這些指標細項的表現符合學生發展的適切性，則以「◎」代表該項表現標準和學生的基本能力表現是符合的；如果某一指一階段的前40 題，大多介於.60-.90 之間，共有 36 題，佔全部試題的 90%，

不過有4 題在.60 以下，佔全部試題的 10%；第 41-80 題，屬於第二階段的能力表現，有5 題評估通過率超過.70，佔 12.5%。在五年級學生的評估通過率表現上，

屬於第一階段的前40 題都超過.70，而 41-80 題中屬於第二階段的題項評估表現上，大部分試

，共有7 題，佔 17.5%。以下乃針對各年級的專家評估表現通過率進行逐一討論。

一、基本能力的表現和表現標準評估適切性的界定

在本研究中，邀請15 位專家群體逐題評估若具備數學基本能力的三、四、

五年級學生，在「數與量」和「代數」的相關表現。因此當專家在進行評估判斷時，必須先釐清專家們對基本能力表現的看法。所謂的「基本」能力可能涉及到的層面或定義略為廣泛和模糊，因此，在本研究中，先請專家們補充其對於基本能力的

「

的整體通過率來具體化基本能力的界定，在15 位專家所評估基本能力學生的通過率平均為80.3﹪。

以專家評估通過與否的數據而言，

0﹪

有10 位專家以上贊成該

估適切性的討論，以70﹪-80﹪的通過率區間作為基本能力表現標準評估適

(22)

標細項的表現標準涵蓋了多題，例如 N-1-1.3 有三個問題，而專家評估並非都在.70-.80，則以專家評估二元資料中是否多數題通過為評估適切性依據；倘若該項指標細項專家的評估並非都在.70-.80 的通過率，「○」表示以專家評估的資料而言，該項指標的表現標準適切度可再進一步討論；「×」則表示以專家評估的資料而言，該項指標細項的表現標準和學生的能力表現可能並不適切，需要考慮修改。

在本研究中，邀請專家所評估的為第一、二階段表現標準適切性，因此首先討論三、五年級表現標準適切性的評估結果，然後再以四年級的評估結果來回應第一、二階段縱貫發展的適切程度。

二、三年級的評估結果

圖 5-9 為專家們評估三年級學生在 80 題試題的答題反應和通過率的關係。

圖5- 9 專家評估三年級學生答題通過率分布圖

（一）學生試題表現評估結果

在專家對於1-40 題的三年級學生表現評估中，有 10 題評估是在.80 以上的通過率，分別是1、2、5、6、11、13、27、29、30 和 33；至於通過率介於.70-.80 的題項有15 題，分別為 3、4、8、10、15、19、20、23、24、25、28、32、34、

35 和 40 題。通過率介於.60-.70 的試題共有 11 題，分別是 9、14、16、17、21、

(23)

22、32、36、37、38 和 39 題。至於未超過.60 的試題有 4 題，分別是 7、12、18 和26 題。

這些題項中除了第37 題只有 6 個專家認為三年級學生可以通過外，其餘仍有超過半數以上專家認為三年級具備基本能力學生可以正確回答該題，顯示雖然專家

，除21 題有 9 位專家認為適合具備基本能力的三年級學生的表現外，

其餘

10 題分別是 41、51、62、71、72、73、74、77、78、

80 別是 46、68、69、70 和

76 題

生可以答對這些題項，第12 題主要是因為問題情

級學生可以正確回答，通過率分別為.7567 和.8692，

所以專家主要考量的部分是試題的類型，而非認為該指標的敘述「N-1-2.1 知道加、減、乘、除的特性，並運用數學的方式呈現」不適合三年級學生的表現，第 18 題專家的評估認為三年級學生無法通過可能是因為題目情境的呈現，因為代數「甲」對三年級學生的理解較為困難。至於第26 題為測量「N-1-3.2 推斷和檢驗整數計算結果的合理性」，僅有2 位專家同意適合三年級學生作答，通過率更是未達.50。至於試題和指標表現標準的整體評估，則在第三回合問卷中請專家判準，並在下文中討論。

（二）與能力指標表現標準連結的適切性評估結果

在第三回合中，邀請專家針對題項的平均通過率表現和由研究者重組的能力指標表現標準適切性進行評估。主要是由專家審核研究者所整理的適切性評估表，並提出相關意見進行修正。

首先由研究者彙整所有專家意見整理成表5-8所示，至於指標細項陳述和試題的關連詳見附錄十三。

評估這些題項對三年級學生而言難度較高，但是仍然是屬於基本能力的表現標準。

而第7 (.5858) 、9(.60) 、21(.6350) 、39(.6442)題等 4 題專家們評估未達.70 的通過率

三題僅有7 位專家同意這三題適合三年級的基本表現。第 7 和第 9 題為測量

「N-1-1.3 運用具體物、圖示或文字描述和比較一位小數的大小」主要呈現三種不同的問題情境，測量學生一位小數的理解和表徵能力，第7 和 9 題恰巧是呈現不同的表徵方式，有專家們反應因為問題情境和學生平時學習和答題經驗較不相似，所以評估的表現通過率較低。第 21 題為測量「N-1-2.8 知道概數的使用時機」的能力表現，第 39 題為測量「N-1-5.2 選擇日常生活中的測量參考架構來估測長度中量或質量或時間」的能力表現，專家的評估結果僅接近 6 成左右的通過率，若單就題項表現是否合適在三年級的基本能力學習表現中，值得再進行考量或是調整。

在第 41-80 題屬於第二階段能力表現的試題評估中，通過率在.60 以下的有 25 題；通過率介於.60-.70 有

，而三年級通過率就可以達到.70 以上的共有 5 題，分

。

未達.60 通過率的有 12、18、26 題，分別為.5367、.5067 和.4667，同時也僅有6 個、5 個和 2 個認為三年級學

境中關於非整除的考量，測量同一指標表現的第 10、11 題就專家的評估結果有12 和 10 人同意在三年

(24)

表5- 8 專家評估三年級學生表現標準結果一覽表一、數與量

（一）數與計算

第一階段第二階段

內容標準

表現標準

題項適切性評

估

表現標準題項適切性評估 N-1-1.1 1 ◎ N-2-1.1 41 ○ N-1-1.2 2、3、4、5、6 ◎ N-2-1.2 42、43 ◎ N-2-1.3 44、45 ◎ N-2-1.4 46 × N-S-1

N-1-1.3 7、8、9 ○

N-2-1.5 47 ◎ N-1-2.1 10、11、12 ◎ N-2-2.1 48 ◎ N-1-2..2 13、14 ◎

N-1-2.3 15 ◎ N-1-2.4 16 ○

N-1-2.5 17 ○ N-2-2.2 49 ◎ N-1-2.6 18 × N-2-2.3 50 ◎ N-1-2.7 19、20 ◎ N-2.2.4 51 ○ N-1-2.8 21 ○ N-2-2.5 52 ◎ N-2-2.6 53 ◎ N-1-2.9 22 ○ N-2-2.7 54、55 ◎ N-1-2.10 23、24 ◎ N-2-2.8 56、57 ◎ N-2-2.9 58 ◎ N-2-2.10 59、60、61 ◎ N-S-2

N-2-2.11 62、63 ◎ N-1-3.1 25 ◎ N-2-3.1 64 ◎ N-S-3

N-1-3.2 26 × N-2-3.2 65、66、67 ◎

（二）量與實測

內容標準

表現標準

題項適切性評估

表現標準題項適切性評估 N-1-4.1 27、28 ◎ N-2-4.1 68、69 ×

N-1-4.2 29 ◎ N-S-4

N-1-4.3 30、31、32、33、

34、35、36

◎ N-2-4.2 70、71 ○

(25)

N-2-4.3 72 ○ N-1-5.1 37、38 ○ N-2-5.1 無題項

N-1-5.2 39 ○ N-2-5.2 73 ○ N-2-5.3 74、75 ◎ N-S-5

N-2-5.4 76 × 二、代數

內容標準

表現標準題項適切性評估

表現標準題項適切性評估 A-2-1.1 77 ○ A-2-1.2 78 ○ A-S-1 無指標細項

A-2-1.3 79 ◎ A-S-2 A-1-2.1 40 ◎ A-2-2.1 80 ○

註：1.專家評估通過率為.70-.80 者題號上則無任何記號，如 21、32 2.專家評估通過率為.60-.70 者題號上則以網底記號表示，如 21、32.

3.專家評估通過率為.60 以下者題號上則以加框記號表示，如 21、32 4.專家評估通過率為.90 者題號上則以粗斜體記號表示，如21、32

從表5-8 的結果而言，屬於第一階段的表現標準理想上應介於.70-.80 的評估通過率表現，但是N-1-2.6 和 N-1-3.2 的評估通過率表現在.60 以下，若歸類在第一階段學生的基本能力表現有一些不適當，因此先以「×」來表示，可能進行進一步的調整或討論；而在 N-1-1.3 中，7、8、9 三題的評估結果分別為.5858、.7492 和.60，因此先以「○」進行註記。若屬於第二階段的試題表現理論上應該是低於.70 的通過率，不過 N-2-1.4、N-2-4.1、N-2-5.4 等指標下的試題評估通過率皆高於.70，顯示這些指標所指陳的能力表現評估在三年級就可達到基本能力的水準，是否對第二階段學生而言太簡單了一些？研究者的初步整理中，先以「×」

來註記，然後再提供專家於第三回合適切性評估中進行判斷。

三、五年級的評估結果

圖5-10 為專家們評估五年級學生在 80 題試題的答題反應和通過率的關係。

(26)

圖5- 10 專家評估五年級學生答題通過率分布圖

在專家對於上的通過率，

過10 位以上的專家認為五年級學生可以答對，甚至有 16 題試題的評，即使是評估表現最低的第18 和 26 題，專家的評估也在.7733

和第一階段的所指陳的表現，並未有難連第二階段

的學生都無法現象。

在 41-80 題的評估中，屬於第二階段學生的表現標準，其中有 33 題專家評估通過率超過.70，佔 82.5%，有 7 題的評估介於.60-.70 之間，分別是 48、50、

52 4、 5 題，第 0 題測量 -2.2.3 法的算關係

10 位專家贊五本表現計通有.6

可能是因為以代形式呈現問題情境，提高了度。題為

「N-2.2.5 運用式描專家估通，共 10 人同意為五年級學生基本能力表現，第53 題為測量「N-2.2.6 發展估算整數運算結果的策略」專家的評估通過率為.6583，共有 10 人同意為五年級學生基本能力表現；第 58 量指出分數在線上的位置關係」專家的評估通過率為.6858，共有力表現；第 65 題為測量「N-2.3.2 選擇和應用適當方法解生活情境中的問題率為，共有 9 人同意為五年

1-40 題的五年級學生表現評估中，均顯示有. 70 以每一題項也超

估高達.90 的水準

.7358 顯示能力指標度太高，

達成的

、53、5 58、6 5 「N 知道乘除逆運」有同其應為年級學生的基能力，但是估過率僅 692，

數試題的難第 52 測量

不同方述概數」的評過率為.6833 有

題為測「N-2.2.9 數和小數 9 人同意為五年級學生基本能

」專家的評估通過 .6792 級學生基本能力表現。

(27)

另外，專估中，題未達通過是第 54 題，其評估通過率為 .620 這兩題仍有9 位專家認為應屬於為五年級學生的基本能力表是說雖然在這兩個項中表現通較低，

仍應該是適合五級學生的基本能力表現。

（二）與能結的適性評估結果

同樣的由研究者先將專家的逐題評估通過力指標表現標準進結，整理成表5-9。

表5- 9 專家評估五年級學生表現標準結果一覽表一量

（一）數與

家的評有2 .70 的率，分別 48 和 .6250 和 8，不過

現，也就題五年級的過率但是

年

力指標表現標準連切

率和能行連

、數與

計算內容標準

表現標適切表現標準適切性

評準

題項

性評估

題項

估

N-1-1.1

1

◎ N-2-1.1 41 ◎

N-1-1.2

2

、3、4、

5

、

6

◎ N-2-1.2 42、43 ◎ N-2-1.3 44、45 ◎ N-2-1.4 46 ◎ N-S-1

N-1-1.3 ◎

N-2-1.5 47 ◎ 7、

8

、9

N-1-2.1 10、

11

、12 ◎ N-2-2.1 48 ◎ N-S-2

N-1-2.2

13

、14 ◎ N-1-2.3 15 ◎ N-1-2.4 16 ◎

N-1-2.5 17 ◎ N-2-2.2 49 ◎ N-1-2.6 18 ◎ N-2-2.3 50 ◎ N-1-2.7 19、

20

◎ N-2.2.4 51 ◎ N-1-2.8 21 ◎ N-2-2.5 52 ○ N-2-2.6 53 ○ N-1-2.9

22

◎ N-2-2.7 54、55 ◎ N-1-2.10

23

、

24

◎ N-2-2.8 56、57 ◎ N-2-2.9 58 ○ N-2-2.10 59、60、61 ◎ N-2-2.11 62、63 ◎ N-1-3.1 25 ◎ N-2-3.1 64 ◎ N-S-3

N-1-3.2 26 ◎ N-2-3.2 65、66、67 ◎

(28)

內

估容標準

表現標準

表現標準題項適切性評 N-1-4.1 27、

28

◎ N-2-4.1 68、69 ◎

N-1-4.2

29

◎ N-1-4.3

30

、31、32、33、

34

、35、36

◎ N-2-4.2 70、71 ◎ N-S-4

N-2-4.3 72 ◎ N-1-5.1 37、38 ◎ N-2-5.1 無題項

N-1-5.2 39 ◎ N-2-5.2 73 ◎ N-2-5.3 74、75 ◎ N

N-2-5.4 76 ◎ -S-5

二、代數

內容標準

表現標準題項適切性評估 A-2-1.1 77 ◎ A-2-1.2 78 ◎ A-S-1 無

A-2-1.3 79 ◎ A-S-2 A-1-2.

40

◎ A-2-2.1 80 ◎

註：1.專家評估通過率為.70-.80 者題號上則無任何記號，如 21、32 2.專家評估通過率為.60-.70 者題號上則以網底記號表示，如 21、32.

3.專家評估通過率為.60 以下者題號上則以加框記號表示，如 21、32 4.專家評估通過率為.90 者題號上則以粗斜體記號表示，如21、32

若是五年級學生的評估通過率表現屬於第一階段的表現標準理想上應會達到.70 以上的評估通過率表現，而從表 5-9 的結果而言，並未有表現通過率在.70 以下的題項，因此整體而言五年級學生的評估通過率表現在第一階段中是適切的。不過屬於第二階段的試題表現理論上應該是介於.70-.80 的評估通過率，不過 N-2-1.4、N-2-4.1、N-2-5.4 等指標下的試題評估通過率在三年級的評估表現中就

高於.70，顯示這基本能力的水

準，因此在五年級的評估中仍是屬於適宜基本能力表現的評估，是否對第二階段

學步整理中，仍以「◎」來註記，然後於第三

回合

些指標所指陳的能力表現評估在三年級就可達到

生而言太簡單了一些？研究者的初

適切性評估中另行提出讓專家們進行審核。

四、四年級的評估結果

圖5-11 為專家們評估四年級學生在 80 題試題的答題反應和通過率的關係。

(29)

圖5- 11 專家評估四年級學生答題通過率分布圖

在專家對於1-40 題的四年級學生表現評估中，均顯示有. 70 以上的通過率，

每一題

0 的水準，即使是評估表現最低的第 18 和 26 題，專家的評估約在.64 階段的能力指標所指陳的表現，並未有難度太高的情況發生。

0 題的評估二階段學生的表現標準 21 題專家評估通過率超過 52.5 中有9 評估 .80，分別是

68、69、70、 76、78、80 題，並且同時皆有 12 位專家認為在四年級具備基本能力學生就可以通過，顯示這些題項專家們認為四年級的學生就應該可以學會

（二）評估結果的縱貫表現檢核

雖然本研究主要瞭解第一和第二階段學生能力指標表現標準的適切性，若從三、四、五年級學生的縱貫表現來看，將四年級學生的評估表現和三年級以及五年級學生的評估表現進行對照，發現在第二階段中有一些指標的表現標準在四年

級就可以達到，例 N-2-1.4 等，位

專家認為四年了，此，這些指標的表現標準在第二階段結束時是否可以進難度上的調整？或是再加深加廣？由研究者將其整理在第

題項也超過10 位以上的專家認為四年級學生可以答對，同樣也有 5 題試的評估高達.9

和.6258，顯示第一

在 41-8 中，屬於第，其中有

.70，佔 71、

%，其題的更是超過 46、67、

。

.80 以上的評估通過率如、N-2-4.1 同時也有12 級學生就已經可以學會因

行

(30)

三次表現標準評估中專家的。

五、專家評估表現標準適

在本研究中第三回合問卷主要邀請專家針對題項的平均通過表現和由研究者重組的能力切性進行評估。首先由研究者將專家逐題審核的評估通過率整，提供專家參考和審核。然後再將整體評估結果中，

家進一步審核或判斷的題項列出，徵詢專家意見，再由研究者進行最後的彙整列表和整理專家建議。表 5-10 為研究者所彙整專家評估數學領域能力指標暫行綱要「數與量」、「代數」學生表現標準適切性結果。

表5- 10 專家評估「數與量」、「代數」學生表現標準適切一、數與量

（一）數與

適切性徵詢判斷

切性總結

率指標表現標準適

理列表需要專

性結果一覽表

計算內容標準

表現標準

題項適切表現標準題項適切性評性評

估

估 N-1-1.1 1 ◎ N-2-1.1 41 ◎ N-1-1.2 2、3、4、5、6 ◎ N-2-1.2 42、43 ◎ N-2-1.3 44、45 ◎ N-2-1.4 46 × N-S-1

N-1-1.3 ◎

N-2-1.5 47 ◎ 7、8、9

N-1-2.1 10、11、12 ◎ N-2-2.1 48 ◎ N-1-2.2 13、14 ◎

N-1-2.3 15 ◎ N-1-2.4 16 ◎

N-1-2.5 17 ◎ N-2-2.2 49 ◎ N-1-2.6 18 × N-2-2.3 50 ◎ N-1-2.7 19、20 ◎ N-2.2.4 51 ◎ N-1-2.8 21 ◎ N-2-2.5 52 ◎ N-2-2.6 53 ◎ N-1-2.9 22 ◎ N-2-2.7 54、55 ◎ N-1-2.10 23、24 ◎ N-2-2.8 56、57 ◎ N-2-2.9 58 ◎ N-2-2.10 59、60、61 ◎ N-S-2

N-2-2.11 62、63 ◎ N-S-3 N-1-3.1 25 ◎ N-2-3.1 64 ◎

(31)

N-1-3.2 26 × N-2-3.2 65、66、67 ◎

內

評估容標準

表現標準

表現標準題項適切性

N-1-4.1 27、28 ◎ N-2-4.1 68、69 × N-1-4.2 29 ◎

N-1-4.3 30、31、32、33、

34、35、36

◎ N-2-4.2 70、71 × N-S-4

N-2-4.3 72 ◎ N-1-5.1 37、38 ◎ N-2-5.1 無題項

N-1-5.2 39 ◎ N-2-5.2 73 ◎ N-2-5.3 74、75 ◎ N-S-5

N-2-5.4 76 × 二、代數

內容標準

表現標準題項適切性評估 A-2-1.1 77 ◎ A-2-1.2 78 ○ A-S-1 無指標細項

A-2-1.3 79 ◎ A-S-2 A-1-2.1 40 ◎ A-2-2.1 80 ○

由表 5-10 顯示專家認為第一階段所指陳的表現標準適切性大致和學生的基本能表現符合，惟「N-1-2.6 知道加減法的逆運算關係」（第 18 題）、「N-1-3.2 推斷和檢驗整數計算結果的合理性」（第26 題）可能比較適合放在第二階段學生 3.2 可能屬於比較高層次的認知表現，專家們認為對三年

N-1-1.3 可能因為試題的呈現對學生而言為非例行性問題，影響其通過率表現，但是仍應屬於第一階段學生的基本能力表現。

至於第二階段的表現標準評估中，「N-2-1.4 運用具體物、圖示和數學符號描述和比較兩位小數的大小」、「N-2-4.1 知道長度、容量、重量、面積、體積等的較大或二階的測量單位和關係（例如：千米、毫米、公升、毫公升、時、分、秒……

等）。」、「N-2-5.4 發展計算長方形的面積和長方體的體積的策略。」由於在三年級就

學習，是否涉及數學學習教材安排和學生的學習力

的表現標準中，尤其是N-1-

級學生而言稍微困難一些。至於有一些評估的結果雖然未達.70 的評估標準，但若和指標的表現標準進行連結，專家們仍然傾向於贊成其為第一階段學生應有的表現標準，例如

已經達到.70 的評估通過率，所以大部分的專家認為放在第二階段並不適切，贊成將指標移到第一階段，不過在 N-2-1.4 牽涉兩位小數的學習，若在第一階段同時進行一位和兩位小數的

(32)

進展

關係（例如：千米、毫米、公升、毫公升、時、分、

秒…

在於學生是否能將學習內容和生活進行連結，因此對第二階段學生應是屬於基本的表現標準。

整體而言，專家們評估指標的表現標準適切性程度大致符合，在第二階段中的某些指標指陳的表現標準可能稍微簡單一些，可以再進行進一步的調整。

參、專家回饋資料分析

為能更清楚了解專家們在表現標準評定程序中的感受和意見，本研究設計了專家表現標準程序回饋函，透過專家意見的回饋，作為本次研究的檢討和未來進行相關研究的建議。

在實施程序部分，有9 位專家認為實施程序的困難度適中，佔 60%；認為整個實施程序有點困難的有 2 位，佔 13%；認為還算簡單的有 3 位，佔 20%。讓專家們感到困擾的主要是基本能力的界定過於模糊，佔53%，另外有 3 位專家認為整個實施程序過於複雜，同時有2 位認為資料處理過於複雜，以及各有 1 位專家認為工作過於繁重和資料呈現不夠清楚。

由於必須要同時估計三個年級學生在80 題試題中的表現，對專家而言相當繁重，再加上並非每一個專家實際接觸該年齡層或是有相關的教學經驗，因此有一些估測其實是相當困難的。

整個研究中，專家們相當肯定試題取材的生活化和靈活程度，提供實際學生的表現作為參考依據，並且了解學生能力的縱向發展，和專家的預期和學生實際表現之間的落差，同時也希望能提供給實際教學者參考，能更了解學生實際表現和成人預期之間的差距。

在某些題目中四年級的通過率比五年級高，除了讓專家們意外之外，更有興趣探究其中的原因，同時有專家建議可以在下一年度反覆施測，以了解接受不同版本課程孩子的能力變化趨向，或是進行小學階段的全面性研究。雖然研究者在邀請專家進行評估時皆說明了研究的目的和程序，但是仍然有專家希望能更詳盡的了解相關的理論基礎，程序和目的，以及研究結果對教育可能的產生的貢獻。

整體而言，對於整個研究和實施程序專家們皆抱持肯定和支持的態度，甚至認為值得進一步探究學生的能力表現，或是進行更大範圍的研究。不過評估的工作對專家而言稍嫌繁重，這是未來進行相關研究時需要克服的部分。

，專家們認為值得進一步探討和瞭解。

另外，若由四年級的表現評估而言，「N-2-1.4 運用具體物、圖示和數學符號描述和比較兩位小數的大小」、「N-2-4.1 知道長度、容量、重量、面積、體積等的較大或二階的測量單位和

…等）」、「N-2-4.2 知道日、時和分的關係，能用 24 時制來描述時間」、「N-2-5.4 發展計算長方形的面積和長方體的體積的策略」以上四項指標表現標準，專家評估四年級學生就可以達到.80 的表現，因此認為在第二階段五年級結束時，可以將難度或認知複雜度進行調整，因此這些表現標準所指陳的內容適切性可能並不理想。而「N-2-3.2 選擇和應用適當的方法解生活情境中的問題」專家認為主要

(33)

第五節結論和建議

本研究透過實徵的方式，邀請不同領域具代表性的專家學者，針對三、四、

五年級學生在數學領域「數與量」和「代數」兩內容主題基本能力的表現標準適切性進行評估。結果以表現標準專家適切性評估結果、實施程序、學生能力實測表現等三方面進行討論，並同時提出具體建議作為未來進行相關研究的參考：

壹、專家評估表現標準適切性的結論

至於「N-1-1.3」專家們認為可能是問題的表徵形式對學生而言比較困難，影響通過率表現。但就指標而言仍應屬於第一階段學生的基本能力表現。在 N-1-2.4、N-1-2.5、N-1-2.8、N-1-2.9 等指標表現標準中也出現類似的情形，不過就第一階段所指陳的部分而言，專家評估表現標準的適切性大致符合學生的基本能力表現。

一、第一階段的能力指標，大多符合三年級學生的認知表現

第一階段的40 題評估中，15 位專家估測通過率大多在.70 以上，未達.60 的僅有4 題，再就指標細項和試題進行連結，邀請專家進行表現標準的適切性評估和審核。除了「N-1-2.6 知道加減法的逆運算關係」（第 18 題）、「N-1-3.2 推斷和檢驗整數計算結果的合理性」（第 26 題）的適切性評估為「×」外，整體而言，

專家評估第一階段的學生表現大多符合學生的認知表現。

而測量「N-1-2.6」的第 18 題，專家們認為可能是問題描述加入了代數符號，

增加試題的難度，影響學生的表現，不過關於此表現指標的適切性可以再做進一步的分析和評估。「N-1-3.2 推斷和檢驗整數計算結果的合理性」為第 26 題的評估，其在五年級的通過率表現也未達.70，顯示該指標的適切性需要再進一步討論。

二、第二階段的能力指標中，某些指標表現在三年級即可達成

在第二階段41-80 題的試題評估中，46、68、69、76 在三年級的表現評估中，

總共有超過10 位專家認為三年級就可以達成，評估的通過率也都超過.70，其依序為測量：「N-2-1.4 運用具體物、圖示和數學符號描述和比較兩位小數的大小」、

「N-2-4.1 知道長度、容量、重量、面積、體積等的較大或二階的測量單位和關係（例如：千米、毫米、公升、毫公升、時、分、秒……等）」以及「N-2-5.4 發展計算長方形的面積和長方體的體積的策略」顯示以上三個指標所指陳的表現對於第二階段學生而言可能太過簡單，因此專家建議將這些指標提前到第一階段的表現標準中。

三、第二階段的表現標準所指陳的能力表現較為簡單

在第二階段的試題評估中，有 21 題專家評估四年級學生通過率就已經超過.70，且超過 10 個專家認為該題項所測量的能力表現在四年級學生就可以達

(34)

成，這些試題分別為41、45、46、49、51、56、58、62、64、66、67、68、69、

70、71、72、73、74、76、77、78、80，也就是說，在對應第二階段能力指標的 29 個表現標準中，有 18 個指標表現在四年級就幾乎可以達成，經由研究者再進一步分析這些試題內容細項，除了分數的理解和運算部分外，大多是屬於數學知識的理解和基本運算的認知表現，換句話說，在第二階段所指陳的學生表現中，

專家們認為大多數四年級學生就可以學會，除了分數的理解和運算考量教材的邏輯性組織，還是保留在第二階段外，在第二階段能力指標所指陳的表現標準可以考慮內容難度的增加。

因此研究者再將這些試題和能力指標的表現標準進行對應，請專家在第三回合進行評估，結果發現除了「N-2-3.2 選擇和應用適當的方法解生活情境中的問題」，所指陳的表現標準涵蓋範圍較廣，難度彈性較大，因此不需調整之外，其餘指標細項如「N-2-1.4 運用具體物、圖示和數學符號描述和比較兩位小數的大小」、「N-2-4.1 知道長度、容量、重量、面積、體積等的較大或二階的測量單位和關係（例如：千米、毫米、公升、毫公升、時、分、秒……等）」、「N-2-4.2 知道日、時和分的關係，能用 24 時制來描述時間」、「N-2-5.4 發展計算長方形的面積和長方體的體積的策略」都應考量將第二階段學生的表現標準加深或加廣。

貳、專家表現標準評估部分的建議一、專家代表性的考量

表現標準的評估關鍵在於專家對所執行任務的勝任程度(Plake &

Impara,2001)，在本研究中，因為考量專家意見的代表性，所以邀請不同領域專家和實務經驗豐富的教師組成評估小組，但因受限於資源的窘蹙，僅能以個人名義邀請專家的加入。NAEP 因為有 NAGB 的支援，在專家的邀集上可以透過嚴謹的抽樣程序，邀請各行政區和各相關領域更具權威和代表性的專家提供建議 (Raymon,&Reid,2001)，未來的相關研究若能由國家層級進行，或許可以加入更多更具代表性和權威性的專家。

二、試題和指標內容的連結可再加強

在本研究中，審題過程中所邀請的專家中包括日後表現標準評估的專家學者，主要即是考量試題和指標所指陳表現之間的連結，不過因為審題小組只包含所邀請15 個表現標準評估專家中的 5 位，僅佔1

3的比例，未來可以在審題過程中就邀集相關表現標準評估的專家，視為表現標準評估的程序之一，可強化試題和指標內容之間的連結。

三、相關政策的訂定和支持

若要進行表現標準的設定，需要有相關政策的支持，例如美國國家政府評量委員會(National Assessment Government Board,NAGB)的政策中，要求 NAEP 訂定

第二節 表現標準評估的準備階段

第五章 研究三 數學領域能力指標「數與量」、「代數」

主題軸第一、二階段表現標準適切性評估研究

第一節 研究三的研究程序

第二節 表現標準評估的準備階段

第三節 表現標準適切性評估的執行階段

第四節 表現標準適切性評估的後續階段

1

2

5

6

8

11

13

20

22

23

24

28

29

30

34

40

第五節 結論和建議

第二節表現標準評估的準備階段

第五章研究三數學領域能力指標「數與量」、「代數」

第一節研究三的研究程序

第二節表現標準評估的準備階段

第三節表現標準適切性評估的執行階段

第四節表現標準適切性評估的後續階段

第五節結論和建議