• 沒有找到結果。

TIMSS數學實作評量試題在台灣試行施測結果之分析比較

N/A
N/A
Protected

Academic year: 2021

Share "TIMSS數學實作評量試題在台灣試行施測結果之分析比較"

Copied!
147
0
0

加載中.... (立即查看全文)

全文

(1)國立台中教育大學教育測驗統計研究所教學碩士論文. 指 導 教 授:胡豐榮. 博士. TIMSS 數學實作評量試題在台灣試行 施測結果之分析比較. 研 究 生:蔡嘉宮. 撰. 中 華 民 國 九 十 五 年 八 月.

(2) 謝辭 讀完了四個暑假,論文也總算完成,這中間的點點滴滴,對於有兩個小孩的 我,感受特別深刻,而要感謝的人也太多了。首先要感謝我的指導教授胡豐榮老 師,在我寫論文的期間,不斷的為我的論文細心修改,並提醒叮嚀所上的規定, 讓我能夠順利完成論文,也讓我見識到嚴謹的治學態度,對我往後教學生涯的影 響至為深刻。同時也要感謝口試委員劉湘川校長與許天維所長,為我的論文給予 教導與指正,給我不同的觀念和視野,使得本論文能更臻充實與嚴謹。 另外,要感謝曾經為我們授課的老師,在這四個暑假中,除了給予我們課程 的傳授之外,並讓我們見識到一個好老師應該具備的教學態度及敬業精神。還有 一起研究的同學,國棟、榮煌、英哲、宏鳴、淑真,跟您們一起讀書寫報告,將 永遠豐富我的人生。 還要感謝我的家人,特別是我的妻子政君,在我必須用心於課業上時,能夠 給予我最堅強的支持,不只照顧好我那兩個在這四年內出生的寶貝,更操持整個 家務,讓我無後顧之憂,順利完成學業,期間辛勞自是不言可喻,在此要特別衷 心感謝她。還有我的母親,能夠幫我照顧兩個活潑的小孩,默默支持我完成學業, 為我無私的奉獻她的ㄧ生,讓我深深體會有媽的孩子真是幸福! 最後,謹以此論文,獻給我的妻子政君,因為有她,才能有這篇論文,我的 人生也才能圓滿豐富!. 蔡嘉宫 謹致於 台中教育大學教育測驗統計研究所 2006 年 8 月.

(3) 摘要 本研究旨在運用TIMSS實作評量的試題,探討特定環境背景的國小四年級兒童 之學習成就與施測結果之比較。是以,本研究主要探討: 一、 特定環境背景的國小四年級兒童對TIMSS 1999實作評量的成績有何差 異? 二、 特定環境背景的國小四年級兒童對TIMSS 2003的實作評量試題的成 績,在性別及班級間是否有差異? 三、 特定環境背景的國小四年級兒童對TIMSS 2003 的實作評量試題的成 績,與台灣原始施測資料中的成績是否有差異? 四、 特定環境背景的台灣國小四年級兒童對TIMSS 2003 的實作評量之學習 成就與國際間是否有差異? 本研究基於立意取樣,故採臺中縣城鄉交界的國小四年級兒童,共4班127 人為研究對象,研究發現: 一、 在魔術師題型上,民國95年的結果較佳;在擲骰子題型上是民國89年 的結果較佳;在猜一猜題型上,民國89年的結果較佳。此結果顯示在 幾何概念的對稱觀念上,民國95年的學生有較佳的表現,但在統計觀 念及概數觀念上,民國89年的學生表現較佳。 二、 TIMSS實作評量在性別及班級之間,沒有顯著差異。 三、 在圖形題題型上,與台灣西元2003年施測結果沒有達到顯著差異;在 數字卡題型上,與台灣西元2003年施測結果沒有達到顯著差異;在幾 何方塊題型上,與台灣西元2003年施測結果達到顯著差異。 四、 在圖形題題型上,我國優於新加坡、比利時及美國;在數字卡題型上, 我國優於比利時、美國;在幾何方塊題型上,我國優於新加坡、香港、 日本、比利時、美國。 關鍵字:TIMSS、實作評量、性別. I.

(4) II.

(5) Abstract This study aims at using TIMSS to look into the performance assessment of fourth-grade elementary students with a specific environmental background. Our purpose is to investigate the following questions: 1. What are the variations of the test results between year 2000 and 2006 on TIMSS 1999 ? 2. Are there discrepancies in regard to gender and class on TIMSS 2003 ? 3. Are there differences between the result of fourth-grade elementary students with a specific environmental background and the national data on TIMSS 2003 ? 4. Are there distinctions between the result of fourth-grade elementary students with a certain environmental background and the international data on TIMSS 2003 ? Using selective-sampling method, this study chose its 127 fourth-grade subjects from four classes in a school at the urban-rural line of Taichung County. We found that: 1. The subjects showed better performance on the “Magician" questions, but poorer on the “Dice Throwing" and “Guessing" questions, than a comparative group in 2000. This finding indicated that students of year 2006 had a better idea of geometry, yet students of year 2000 demonstrated better comprehension in statistics and approximate numbers. 2. There was no significant difference between genders or classes. 3. No differences were found on the “Figure" questions or “Number-card" questions between the subjects and 2003 mother. III.

(6) group. However, the outcome on the “Geometrical Square" questions reached significance than that of 2003 mother group. 4. On the “Figure" questions, our students performed better than those of Singapore, Belgium and U.S.A. On the “Number-card" questions, they were superior to those of Belgium and U.S.A. On the “Geometrical Square" questions, they displayed better abilities than those of Singapore, Hong Kong, Japan, Belgium as well as U.S.A.. Keyword:TIMSS、performance assessment、gender. IV.

(7) 目 錄 第一章 緒論 第一節 研究動機.......................1 第二節 待答問題.......................5 第三節 名詞釋義.......................5 第四節 研究限制.......................7. 第二章 文獻探討 第一節 實作評量.......................8 第二節 第三次國際數學與科學教育成就研究 ..........25 第三節 TIMSS試題與國內數學課程關係之分析..........34. 第三章 方法與步驟 第一節. 研究架構......................40. 第二節. 研究工具發展....................40. 第三節. 研究的信效度與實作評量的試題架構..........47. 第四章 結果與討論 第一節 利用TIMSS 1999實作評量試題,比較民國89年跟民國95年的成績差 異.............................49 第二節 利用TIMSS 2003實作評量試題,檢視施測學校在性別及班級間是否 存在差異..........................60. V.

(8) 第三節 利用TIMSS 2003實作評量試題,比較施測學校與原始施測資料的成 績差異...........................65 第四節. 實作評量試題的類推性................84. 第五章 結論 第一節. 結論........................88. 第二節. 建議........................90. 參考文獻 壹. 中文部分........................92. 貳. 英文部分........................96. 附錄 附錄一. TIMSS 2003參與的國家................102. 附錄二. 題目........................103. 附錄三. 給老師的話.....................113. 附錄四. 分析資料補充....................125. VI.

(9) 表目錄 表 2-1-1. 實作評量與紙筆測驗的比較.............17. 表 2-1-2. 各種評量類型的比較................18. 表 2-2-1. TIMSS 2003課程架構................27. 表 2-2-2. 維京評分系統...................28. 表 3-3-1. 試題架構.....................48. 表 4-1-1. 95年魔術師題組得分情形分配表...........50. 表 4-1-2. 89年魔術師題組得分情形分配表...........50. 表 4-1-3. 魔術師ㄧ獨立樣本t 檢定..............51. 表 4-1-4. 魔術師二獨立樣本t 檢定..............52. 表 4-1-5. 魔術師三獨立樣本t 檢定..............52. 表 4-1-6. 95年擲骰子題組得分情形分配表...........53. 表 4-1-7. 89年擲骰子題組得分情形分配表...........54. 表 4-1-8. 擲骰子一獨立樣本t 檢定..............55. 表 4-1-9. 擲骰子二獨立樣本t 檢定..............55. 表 4-1-10 擲骰子三獨立樣本t 檢定..............56 表 4-1-11 擲骰子四獨立樣本t 檢定..............56 表 4-1-12 擲骰子五 a獨立樣本t 檢定.............57 表 4-1-13 擲骰子五 b獨立樣本t 檢定.............57. VII.

(10) 表 4-1-14. 95年猜一猜題組得分情形分配表...........58. 表 4-1-15. 89年擲骰子題組得分情形分配表...........58. 表 4-1-16. 猜一猜資料統計..................59. 表 4-1-17. 猜一猜獨立樣本t 檢定...............59. 表 4-2-1. 各題型之相關係數.................61. 表 4-2-2. 班級對總分之變異數分析..............62. 表 4-2-3. 性別對總分之組別統計量與t檢定表..........62. 表 4-2-4. 性別對各題之組別統計量與t檢定表..........63. 表 4-3-1. 95 年圖形題題組得分情形分配表...........66. 表 4-3-2. 圖形題百分比同質性檢定..............66. 表 4-3-3. 圖形題題組各國答對率的比較............67. 表 4-3-4. 圖形題各題之資料統整...............68. 表 4-3-5. 圖形題各題之變異數分析..............69. 表 4-3-6. 圖形題各題之事後比較...............70. 表 4-3-7. 圖形題總分變異數分析的結果............71. 表 4-3-8. 圖形題總分事後分析................72. 表 4-3-9. 95年數字卡題題組得分情形分配表..........72. 表 4-3-10. 數字卡題題組各國答對率的比較...........73. 表 4-3-11. 數字卡題各題之變異數分析.............74. VIII.

(11) 表 4-3-12. 數字卡題之事後比較................75. 表 4-3-13. 數字卡題總分變異數分析的結果...........77. 表 4-3-14. 數字卡題總分事後分析...............77. 表 4-3-15. 95年幾何方塊題題組得分情形分配表.........78. 表 4-3-16. 幾何方塊題題組各國答對率的比較..........78. 表 4-3-17. 幾何方塊題各題之變異數分析............80. 表 4-3-18. 幾何方塊題各題之事後比較.............81. 表 4-3-19. 幾何方塊題總分變異數分析的結果..........83. 表 4-3-20. 幾何方塊題總分事後分析..............83. 表 4-4-1. 實作評量概化程度變異成分表............84. 表 4-4-2. G研究與各種D研究之變異成分分析與推論力係數....87. 表附錄. 4-1-1 圖形題各國得分統計表.............125. 表附錄. 4-1-2 圖形題各國事後分析表.............126. 表附錄. 4-2-1 數字卡題各國得分統計表............128. 表附錄. 4-2-2 數字卡題各國事後分析表............130. 表附錄. 4-3-1 幾何方塊題各國得分統計表...........132. 表附錄. 4-3-2 幾何方塊題各國事後分析表...........134. IX.

(12) 圖目錄 圖 2-2-1. 1995年到2003年4年級學生的數學趨勢........31. 圖 2-2-2. 4年級學生在男女性別上的差異...........33. 圖 2-2-3. 1995 到2003年的男女生進退步情形.........34. 圖 4-1-1. 百分比圖表比較結果................51. 圖 4-1-2. 百分比圖表比較結果................54. 圖 4-1-3. 百分比圖表比較結果................59. 圖 4-3-1. 圖形題題組答對率之比較圖.............67. 圖 4-3-2. 數字卡題題組答對率之比較圖............73. 圖 4-3-3. 幾何方塊題題組答對率之比較圖...........79. X.

(13) 第一章. 緒論. 本研究主題是利用 TIMSS 1999 跟 TIMSS 2003 的公開實作評量試題為測驗工 具,比較探討台灣學生在這方面的進退步情形,本章節將說明本研究的研究動機 與目的、問題和研究中所用的特定名詞。. 第一節. 研究動機. 從民國八十二年民間團體發起了 410 教改大遊行迄今,此波教育改革歷時 12 年,最近因為中央研究院李遠哲院長在立法院接受立委質詢時,對教育改革因為 沒有減少學生的壓力而公開道歉(中時電子報, 2005) ,又引起了一陣教改失敗 的言論,其實改革是多面向的,學生的壓力固然是改革的重點,但學生的程度更 是我們所關心的,畢竟學生的程度關係著下一代的競爭力,所以在國民中小學九 年一貫課程綱要(教育部,民 92)中特別提到:迎接二十一世紀的來臨與世界各 國之教改脈動,政府必須致力教育改革,期以整體提升國民之素質及國家競爭 力,所以改革是為了回應社會期待,以及國家發展的需求。基於此項認知,由中 央研究院、國科會和教育部共同規劃的「台灣地區教育長期追蹤資料庫」 (Taiwan Education Panel Survey,簡稱 TEPS),預計用六個學年,國中樣本從 2001 年 9 月開始,高中樣本分成 2001 年下半年和 2003 年上半年進行兩個梯次的資料收 集,主要研究團隊包括六位中研院全職研究人員投入大量的時間與精力,以及多 位大學相關領域之研究者積極參與,可見這項工程的浩大與重要。所以本研究主 要為利用一份已發展成且具有信效度及良好試題特性的國小數學實作評量題目 來進行施測,其結果除了跟民國 89 年研究者徐美英的結果相互比較學生程度差 別外,並為後續研究者提供相互比較的基準。 國 際 教 育 成 就 調 查 委 員 會 (The International Association for the Evaluation of Educational Achievement,簡稱 IEA) 主辦的「國際數學與科 學教育成就趨勢調查」(Trends in Mathematics and Science Study 2003,簡. 1.

(14) 稱 TIMSS 2003)是自 1995 年以來第三次主辦連續週期性調查學生的數學和科學 成就,主要目的在提供各國長期追蹤學生數學和科學趨勢成就,以提升學生數學 和科學的學習成效。由此可見學生程度一向是國際重視的課題,世界各國,尤其 是美國,不斷的監測自己國家學生的程度,不僅僅與國際上各國進行比較,並將 資料建檔,也進行縱貫比較,另外除了本研究所提的 TIMSS 是針對數學與科學外, 還有 PIRLS 針對語文科進行比較,PIRLS 目前有 2001 跟 2006 年兩年資料,而 TIMSS 則已經有 1995、1999、2003 三年的施測,2007 年的施測目前已經開始進行籌劃。 TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生)為調查對象,國科會和 教育部體認到未來我國國民在國際上競爭力的重要性,希望持續了解我國學生的 學習成就與家庭背景、學習環境、教師等影響因素的關係,以及我國學生的學習 特色與優缺點,並與其他國家進行比較,提供改進我國中小學數學及科學教育政 策及課程之參考,並積極參與國際間科學教育的交流與合作,因此補助國立台灣 師範大學科學教育中心進行 TIMSS 2003 調查研究。TIMSS 2003 從 2000 年九月 開始發展研究調查相關工作,總計有 49 個國家參加,其中 48 個國家參加 13 歲 群調查,26 個國家參加 9 歲群調查。我國自 2001 年元月開始加入 TIMSS 2003 國 際調查工作,包括提供命題架構意見、數學和科學試題命題、試測(field test) 資料收集、參加專家問卷會議、實測(main survey)資料收集、參加公佈 TIMSS 2003 結果記者會國際成果指標會議、國際資料分析會議等各項工作。國內學者 引用 TIMSS 相關資料進行相關研究的有: (1)徐美英,TIMSS 數學實作評量在台灣之試用探討(民國 89 年) 。 (2)洪瑞鎂,從「第三次國際數學與科學教育成就研究後續調查」探究台灣國 二學生的數學基本能力(民國 90 年) 。 (3)洪佳慧,由教科書內容與性別面向分析我國國二學生在第三次國際數學與 科學教育成就研究後續調查(TIMSS-R)的學習表現-生命科學以及環境與資源議 題部分(民國 91 年)。 (4) 劉佳容,我國國二學生在 TIMSS-1999 中之理化學習成就分析(民國 91 年) 。. 2.

(15) (5)侯怡如,由考試文化的角度分析我國學生在 TIMSS 1999 的答題表現----生 命科學部分(民國 92 年)。 (6) 鄭心怡,教育指標與經濟指標對學業成就影響之國際比較:以 TIMSS 為例 (民國 93 年)。 (7)羅珮華,從「第三次國際科學與數學教育成就研究後續調查(TIMSS 1999) 」 結果探討國中學生學習成就與學生特質的關係:七個國家之比較(民國 93 年)。 (8)顏秀玫,我國小學四年級學生在「2003 年國際數學與科學教育成就趨勢調 查(民國 93 年)。 (9)張謝玲,宜蘭區某國中國二學生 科學成效影響因子之探討-引用國際調查 報告 TIMSS-R 之研究方法(民國 93 年)。 綜觀上述國內學者研究的內容,可以發現均重視該年段橫向的比較,而缺乏 進行縱貫的研究,值此世界各國進行教育大改革之際,台灣也難免追隨這波改革 浪潮,在課程內容與制度大變動之際,學生是否保持原有的程度或甚至更好,是 值得我們更加關注。在國民中小學九年一貫課程綱要(教育部,民 92)中,針對 數學科明確提出下列四個原則:一、 參考施行有年且有穩定基礎的傳統教材。 二、 採用國際間數學課程必備的核心題材。三、 考慮數學作為科學工具性的特 質。四、 現有學生能夠有效學習數學的一般能力。具體而言,九年一貫數學學 習領域的教學總體目標為: (1) 培養學生的演算能力、抽象能力、推論能力及溝通能力。 (2) 學習應用問題的解題方法。 (3) 奠定下一階段的數學基礎。 (4) 培養欣賞數學的態度及能力。 其中,國民小學階段的目標為: (5) 在第一階段(一至三年級)能掌握數、量、形的概念。 (6) 在第二階段(四至五年級)能熟練非負整數的四則與混合計算,培養流暢 的數字感。. 3.

(16) (7) 在小學畢業前,能熟練小數與分數的四則計算;能利用常用數量關係,解 決日常生活的問題;能認識簡單幾何形體的幾何性質、並理解其面積與體積公 式;能報讀簡單統計圖形並理解其概念。 由以上的課程目標中可以清楚的看出數學課程的改革內容,除了參考以往課 程內容之外,也參考國際的課程內容進行改革,並因為數學具有工具性的性質, 具體的指出各階段需要具備的基本能力。研究者希望透過已具有信效度及良好試 題特性的國小數學實作評量題目的施測,一方面跟國際資料庫進行學生程度的比 較,另一方面也跟徐美英,TIMSS 數學實作評量在台灣之試用探討(民國 89 年) 在台灣施測的資料進行縱向比較,以了解學生在這幾年的教育改革中,在國小四 年級這個範圍內透過實作評量的方式評斷出來的能力,是否有所差異。 徐美英論文中指出,其自編試題(猜一猜)學生能夠完整的敘述解釋百分比 僅達 54.9%,所以表示台灣學生在以數學語言的溝通上尚待加強,而該試題與 TIMSS 試題有一定程度相關的是擲骰子、繞過彎道和魔術師,所以本研究研究者 打算選取其中 3 題(猜一猜、擲骰子、魔術師) ,找跟原論文相似的環境(住宅 跟工業混合區的學校)進行施測,將兩項資料進行比較,以探討在這樣的環境背 景中的學生,經過這 5 年的教育改革後,對這個範圍內經由實作評量所測出來的 能力,是否有所不同。另外,再從 TIMSS 2003 已公佈的實作評量題目中找出 3 題(幾何方塊、數字卡、圖形題)進行施測,其結果跟國際資料庫進行比較,進 一步探討這樣環境下的學生跟原始台灣施測資料中的學生是否有程度上的差 異、跟國際上整體表現較好的國家學生的表現比較是否有程度上的差異。 本研究測驗題目將從徐美英論文中選取 3 題,從 TIMSS 2003 公佈的實作評 量試題中選取 3 題,並以 TIMSS 對實作評量採取的維京評分系統(又稱建構反應 評分系統,Constructed Response,簡稱 CR)為評分工具,資料用 SPSS 進行分 析比較,並以推論力理論推算本次施測的信度係數,研究者希望能從施測中獲得 教育改革的成果,從實作評量的角度是否是進步的,並期待施測的資料,能提供 未來需要再做類似研究者的比較基準。. 4.

(17) 第二節. 待答問題. 壹、探討特定環境背景的台灣國小四年級學生,在民國 89 年與民國 95 年對 TIMSS 1999 實作評量的成績有何差異? 貳、探討特定環境背景的台灣國小四年級學生,對 TIMSS 2003 實作評量的 成績,在性別及班級間是否有差異? 叁、探討特定環境背景的台灣國小四年級學生,對 TIMSS 2003 實作評量的 成績,與台灣原始施測資料中的學生實作評量成績,是否有程度上的差 異? 肆、探討特定環境背景的台灣國小四年級學生,對 TIMSS 2003 的實作評量 成績,與國際上整體表現較好國家的學生實作評量成績,是否有程度上 的差異?. 第三節. 名詞釋義. 壹、實作評量 在教室情境中,學生有幾類學習行為及其成就表現,是無法用客觀式紙筆測 驗來正確評量出來的,這些學習行為表現包括: (1)溝通技能(如:說話、口語表達、演講、朗讀、寫作等) (2)心理動作技能(如:實驗室內的儀器操作、書法、打字、繪畫、工藝、烹 飪、樂器演奏、戲劇表演等) (3)運動技能(如:跑、跳、直球、游泳、舞蹈等運動技能) (4)概念應用(如:應用所學的概念和知識解決日常生活所遇到的實際問題) (5)情意特質(如:團隊合作、遵守規定、自我反省等) 這些都是強調實際的表現行為(actual performance),都需要教師根據學生的 表現過程之有效性或最後完成作品的成果品質,分別或合併地進行評分,才能決 定學生在這方面學習的成就高低,這種強調實際表現行為的評量方式,稱為「實. 5.

(18) 作評量」(performance assessment)(余民寧,民 93)。所謂實作評量就是在自 然或已建構好的環境中,要求學生執行或處理(process)一件指定的工作,並 由教師觀察或評鑑學生的建構性反應的過程與結果,看他們是否適當、精確和完 美的達成教學目標。(歐滄和,民 91) 。. 貳、TIMSS 國際數學與科學學習成就調查研究,係由國際教育學習成就調查委員會主 持,主要目的在於了解各國數學與科學學習成就與各國文化背景、教育環境影響 因子之相關性,並進一步做國際間之比較研究分析。第一次國際數學與科學教育 成就調查於 1970 年舉行,共有 19 個國家參與。經十年後,1980 年進行第二次國 際數學與科學教育成就調查(SIMSS),有 24 個國家參與。我國曾於 1987 年 5 月 經 IEA 總部同意,引用第二次國際數學與科學教育成就調查工具,在我國進行測 驗(但不是正式參加),由國立台灣師範大學科學教育中心負責執行,以了解我國 國小、國中及高中學生數學及科學成就在國際上所佔的地位。IEA 自 1990 年開始 推動進行「第三次國際數學與科學教育成就研究(Third International Mathematics and Science Study, TIMSS)」 ,本計畫有四十餘國參加。第三次國 際數學與科學教育成就研究後續調查(稱為 TIMSS REPEAT,TIMSS-R)於 1999 年 舉辦,調查對象為國二學生(13 歲群),共有 38 個國家參加。鑒於世界各國對國 際數學與科學教育成就研究的熱烈反應,IEA 計劃往後每四年辦理國際數學與科 學教育成就研究一次,並改名為國際數學與科學教育成就趨勢調查(Trends in International Mathematics and Science Study , 簡稱 TIMSS )。TIMSS 2003 的調查對象包括國小四年級及國中二年級學生。TIMSS 的測驗內容包括數學跟科 學,並從學生、教師和校長們的回答中廣泛地蒐集有關數學跟科學教學與學習資 料,另外還經由課程指引、教科書和其他教學媒體的分析,探討參與國家的數學. 6.

(19) 和科學課程,並將結果發表成一系列的國際報告,讓參與國家的教育政策制定者 和實務工作者得到有關在數學與科學教學上跟學生學習成就上的珍貴訊息。. 第四節. 研究限制. 本研究對於整個計畫的擬定與進行過程中,由於在時間上與人力上尚有所不 足的影響,以至於對本研究的進行有所限制,茲分別就研究工具與分析、研究樣 本與應用範圍兩方面說明之:. 壹、研究工具與分析 在 TIMSS 2003 試題部分,由於是翻譯試題,照理應該經專家學者進行反譯 程序,以確保試題的原意未被扭曲,但因資源限制,所以只經國小專任資深英文 教師與研究者討論而定案。. 貳、研究樣本與應用範圍 因人力與時間的限制,只能選擇一間學校來實驗,因樣本受限於某一學校, 所以本研究的結果與建議限制受限於相同類型的學校。. 7.

(20) 第二章. 文獻探討. 本研究的文獻探討將分成三節,第一節為探討實作評量的意涵和特色,以及 國內相關實作評量的研究,第二節為 TIMSS 的簡介及國外相關的研究,第三節為 TIMSS 試題與國內數學課程的分析。. 第一節. 實作評量. 壹、實作評量的緣起 長久以來,多數人將評量窄化為紙筆測驗的考試,用考試的成績來論斷一個 人的高下,使得評量的目的偏狹、方式單調、內容枯躁、意義盡失。再加上過度 倚賴標準化測驗常導致課程窄化,且易流於基本技能與片面瑣碎事實的學習,忽 視複雜思考和問題解決能力(江文慈,民 87;詹志禹,民 85) 。簡言之,考試第 一、分數至上的迷思,等於將評量窄化了,也扭曲了評量的目的,更簡化了評量 的結果。事實上,考試只是評量的方法之一,評量的目的是要提供學生有益的回 饋。評量的改革意味著教學與課程發展的改進。因此,在教育改革中,教師要採 用新的評量方式,以符合教學的新趨勢。評量的意義在於了解學生學習與教師教 學之用。其主要的目的是在教育的過程,能隨時掌握學生的學習,讓教師明白教 學情況,藉以發揮教育的效率與效能。實作評量受到歡迎的主要原因之一是:一 般人對於選擇式的測驗題感到不滿意,例如,選擇式的測驗題只能測量學生「知 道」什麼,但無法測量學生「能做」什麼;此外,認為以選擇題為主的標準化測 驗對於教師的教學和學生的學習造成一些偏差的影響。標準化測驗經常是一般家 長用來評估學校教學績效的方式,在績效的壓力之下,造成部分教師教學側重於 測驗的內容,而扭曲了教學的面貌和窄化學生的學習結果。在教育改革的推動 上,教育界期望藉著評量的革新來提升教師教學的品質和學生學習的成就。此 外,一些入學考試和證照考試也在原有的選擇題之外,增加建構反應題或實作測. 8.

(21) 驗部分,實作評量在教育界和測驗界已是一個非常顯明的趨勢。。Silver(1993) 認為假如我們沒有將看過或聽過的數學留住,那它將永遠不會變成我們的知識。 所以實作評量吸引人的地方正在於它讓教師更能洞悉學生的思考並將所得的訊 息直接應用在教育計畫中。 實作評量的提倡者主張實際工作的評量模式比紙筆測驗更能充分、深入的了 解學生的知識和理解程度(Haertel & Linn,1996)。以下將各學者對實作評量 的定義整理概述如下: 一、以觀察和專業判斷來評量學生學習成就的評量方式都可以稱為實作評量。其 型式非常的多元化,例如建構反應題、書面報告、作文、演說、操作、實驗、 資料蒐集、作品展示等,都是實作評量的例子。( Stiggins, 1987 ) 二、案卷評量也是實作評量的一種型式。實作評量具有下列幾點特徵: (一)要求學生執行或製作一些需要高層思考或問題解決技能的事或物; (二)評量的作業( tasks )是具有意義性、挑戰性且與教學活動相結合; (三)評量的作業能與真實生活產生關聯; (四)歷程( process )和作品( product )通常是評量的重點; (五)表現的規準( criteria )和標準( standards)-也就是評量的重 要層面與給分標準,要事先確定,實作評 量有時也被稱為真實性評量 (authentic assessment )。 ( Herman, Aschbacher & Winters, 1990 ) 三、實作評量可視為『以超越傳統評量方式,為了解學生熟練度而蒐集資料的一 種評量方式』。 (Dnubar,Koretz & Hoover,1991) 四、實作評量不僅反應出學生解答的正確性,同時也顯現出其得到答案的過程。 (Ruiz-primo,Baxter & Shavelson,1993) 五、實作評量是應用各種評量方式,評量各種能力及技巧,要求學生展示知識的 應用,而非僅展示知識的本身。(Long & Stansbury,1994) 六、實作評量乃是模擬一些標準情境(亦即是在自然情境下的實作)之測驗,其. 9.

(22) 模擬的程度高於一般紙筆測驗所代表者。(陳英豪、吳裕益,民 85) 七、實作評量係指根據學生實際完成一項特定任務或工作表現所作的評量。這些 任務或工作,可能是實際操作、口頭報告、科學實驗、數學解題、寫作…等。 因此,其所使用的方式,係透過直接的觀察學生表現或間接的從學生作品去 評量。 (吳清山、林天祐,民 85) 八、凡是以學生在評量過程中的表現或成果作為評量的依據,再根據教師的判 斷,用事先指定的標準來評定等級的評量方式,都可稱之為實作評量。(夏 淑琴,民 88). 貳、實作評量的特色 綜合國內外學者觀點,實作評量具有以下特色: 一、銜接教學與評量:教學與評量的密切配合可以對學生的學習情形提供較全面 性的、完整的、深入的訊息,此訊息可以幫助老師更了解學生的學習優勢及 問題,掌握學生真正的能力及進步情形,使老師能在教學上做適當的調整來 幫助學生解決問題,提升其學習水準。而惟有重視過程的評量,學生才有機 會去反思自己學習上的問題,省察如何在學習上求進步,而這些也才是真正 的學習。 二、使學習更有意義、更深入:強調教學與評量的內容應為重要的、完整的概念, 而非瑣碎知識的累積;應重視思考與問題解決能力的培養,而非低層次的記 憶與歸納。它的目的在幫助學生獲得完整、有意義的概念,增進表達技巧及 運用策略的能力,並激發學生從事較複雜的深層思考。所以實作評量著重脈 絡下有意義的學習,在教學與評量的過程中,它鼓勵學生主動探索、深入思 考、並表達學習。此種評量方式有助於提升學生的思考及問題解決能力,使 學生的學習更有意義、更為深入。. 10.

(23) 三、強調學生知道什麼、能做什麼:實作評量的重心不在於偵測學生哪裡做錯了, 而在於強調學生知道什麼、能做什麼、及如何再進一步知道得更多、做得更 好,簡言之,其精神是「你會做很多事,你還可以學會更多事」,對於學生 嘗試去做好某一件事的努力(縱然尚未達到預期的目標)也給予正面的回 饋,以學習理論而言,較符合學習理論中的公平性或正當性,亦即努力是有 收穫的。 四、強調與實際生活的結合:實作評量可以讓教師瞭解學生對問題瞭解程度、投 入程度、解決的技能和表達自我的能力,能夠較完整的反映出學生的學習結 果;因為實作評量與真實生活較為相近,其支持者認為實作評量能夠增進學 生學習的動機、提高學生參與和投入的程度。 五、幫助學生建構有意義的學習情境、發展問題解決能力、批判性思考和表達自 我的能力。 六、有時候實作評量也可以做為一種教學策略,提高學生的學習興趣和學習結 果:評量和學生的學習以及老師的教學應該是密不可分並且互相支援的,評 量的目的是幫助學生學習跟老師教學,所以評量應該是自然的融入、出現在 課堂,而不是強制性的加進課堂上。實作評量與實際教學過程有相當密切的 關係,往往可以成為實際教學的一部份,實作評量本身就是一種有效的教學 活動。 七、鼓勵合作學習:許多文獻顯示,合作學習可以提高學生的學習成就,增強學 生的理解能力,藉由溝通與辯論的過程,學生可以重述自己的概念架構和知 識體系,以促成有效的概念改變,並達到有意義的學習。在一個小組合作評 量的情境下,藉由同儕的誘導和鼓勵、彼此意見的分享,並相互進行共同評 量,是提高學生成就表現的重要機制。 八、直接評量,排除語文能力的干擾:實作評量比較不需要用到語文能力,這對 於閱讀或文字表達能力較差的學生而言,是比較公平的。. 11.

(24) 叁、實作評量的目的 Webb(1992)認為一個好的評量應具備四個目的,第一個目的是成為教師蒐 集資料的工具,透過評量的回饋,教師可以知道學生學會多少和能做什麼。第二 個目的是要表達學生在學習過程中,所做所學的哪些東西是有價值。第三個目的 是提供教育決策者一些教學績效之訊息。最後的目的,評量應該對整個教育體系 提供積極之建議(張敏雪,民 86)。雖然,評量方式會因不同的評量目的而有所 不同,然而,現行的紙筆測驗過於強調排等第,忽略了評量原先之目的,教師只 教要考的,學生只讀要考的,成了所謂「考試領導教學」。然而,二十一世紀的 國民不是只會在試卷作答的人,而是要有「分析、預測及適應能力的人」。簡而 言之,就是能為生活而思考的人(曾慧敏,民 87)。實作評量重視教育過程本身 的價值和學生主動建構的能力,因此,重視學生學習過程和結果,讓學生有意義 的學習,使學生能靈活應用所學,不僅評量認知層次,也評量技能及情感層次, 較傳統的紙筆測驗更能蒐集到學生較豐富的學習訊息。 實作評量的目的如下(桂怡芬,民 85;曾慧敏,民 87; Linn, 2000): 一、檢視學生學習成果是否能達到教學期望的結果。 二、從評量的結果,能清楚交代學生的學習成就。 實作評量能直接觀察學生到達結果的過程,不只是評量答案之正確性,能完 整的呈現學生在複雜能力及歷程上的表現,並能依表現推論其構念表現。 三、藉由此評量,可展現學生的技能和能力。 實作評量除了能直接的測出學生問題解決的歷程與結果,也能展現出高層次 認知、情意與技能及後設認知等能力。 四、使得教學與評量能充分配合。 實作評量注重與教學的互動,其主要的目的為幫助學生的學習與改進教師的 教學。. 12.

(25) 五、為課程改革的重要指標。 因實作評量標榜著可提升學童高階思考與問題解決的能力,因此在教育改革 時備受重視。. 肆、實作評量步驟 實作評量強調在和生活相關的情境下,能讓學童展現所知、所學的能力來解 決問題。然而,若是活動或作業設計不夠完整,評分規準不夠明確等,都可能導 致實作評量無法達到預期的目的(鄒慧英,民 87)。因此,應如何設計出一份好 的實作評量試卷呢(Stiggins, 1994)?以下提出幾個注意要點: 一、確立設計評量的原因與目的 評量之所以實施,一定有其原因,包括確定評量結果所要作的決定,例如: 分組、個別鑑定、等第評定與優缺點的診斷等。接著,考量評量結果是否用於「排 名」,或用於決定學生否達到精熟水準。 二、設計實作評量的內容 (一)選擇作業的形式 可以蒐集教室中自然而然發生的事件,也可以設計結構化作業,引發 學生表現的機會,測出學生真實能力的實作評量。 (二)決定評量的實施情境 因為怕受試者的動機與考試的焦慮,可能影響學生的真實能力之表 現,施測者可考慮事先告知學生相關評量的性質與評分標準。因此,在一 般的測驗情境下,應先觀察受試者的焦慮情形,再決定是否事先告訴受試 者評量事宜,或採取不事先告知以測出學童最大的表現能力,本研究採取 後者。 (三)確定所要編製的實作試題數. 13.

(26) 決定實作題目數量應考慮評量的作業是否具代表性,蒐集到的證據數 量是否可以提供較精確的學生能力思考層次。 三、確定實作評量成績計分標準 (一)決定分數的型式 如果評量的目的是做為分組或選擇的依據,則可採整體性評分,若是 診斷或檢定學童的基本能力,可採取分析性細部評分。本研究為診斷學童 分數的學習能力,採用開放式的結構題型,由學生自行建構答案,因此, 根據不同的答案給予不同層次的分數。 (二)選擇評分者 評分者可為教師、專家、同學或受試者本身,但基本上,所有的評分 者得先接受專業的評分者訓練,使每個人對評分歸準有所共識。本研究請 已有五年以上之教學經驗的教師擔任評分者。 (三)紀錄評分結果的方法。 可採用檢核表、評定量表,軼事紀錄表等。評定量表同時呈現了觀察 項目及分數評比,常用於歷程與結果之評量,適用於各學科之實作評量, 本研究採用評定量表來紀錄評量結果。總之,發展實作評量時,首先,需 澄清「教學目標」與「評量的目的」是必要的;其次, 「評量內容」或「評 量對象」取樣的代表性,更是影響評量效度的重大因素;最後,清楚的「評 分規準」與完整的「評分者訓練」及詳細的「評分程度」 ,則是影響評量的 信度,唯有如此,才能獲致高品質的實作評量(鄒慧英,民 86) 。. 伍、實作評量的限制 一、實施上非常耗費人力、時間跟金錢 真正在實施實作評量時,通常會受到器材跟場地的限制或是因為擔心產生相. 14.

(27) 互干擾因素,而一次只能有限個學生同時進行施測,這點跟團體施測的紙筆測驗 相比是非常耗費人力跟時間,另外實作評量常需要有器材設備以及消耗性材料這 點跟團體施測的紙筆測驗相比是非常耗費金錢。 二、測驗情境控制困難 由於不是同時全體施測,所以先後受測的學生容易相互干擾,而且未受測 的學生跟已受測的學生的交談或傳授經驗,也影響到考試的公平性。加上前後施 測,使得後面的同學很難有一致的施測條件,例如場地未乾淨、儀器未復原或被 損壞等。 三、計分不容易客觀 實施實作評量的目的,不外乎想根據評量結果來為學生做決策,因此,獲 得一個正確而又可靠的評量結果(即高信度跟高效度值),便成為一件很重要的 事。然而很不幸的,實作評量如論文評分一樣,由於是使用觀察跟判斷等兩類比 較主觀的評分方式來進行,所以其結果難免具有很高的評分者誤差存在。一般而 言,評分者誤差有三種來源:偏見、月暈效應跟評量次數過少。 四、對容易焦慮的學生不利 實作評量的正式性與控制性,會使得缺乏自信心或很在意他人評價的學生 產生過度焦慮,進而影響其表現。. 陸、實作評量的信效度 實作評量的信效度仍有待探討,實作評量的信度通常是以概化程度 (generalizability)來描述(Baxter、Shavelson、Goldman&Pine,1992;Dunbar et al.,1991;Linn、Baker&Dunbar,1991;Linn,1993;Moss,1994;Ruiz-Primo et al.,1993;Shavelson、Baxter&Gao,1993)。概化程度包括評分者之間一致 的 程 度 以 及 學 生 在 不 同 工 作 項 目 ( task ) 表 現 的 一 致 程 度 ( Shavelson et. 15.

(28) al.,1993) ,根據 Shavelson 等人的研究結果發現實作評量在評量工作項目方面 的概化性較低,顯示學生在不同工作項目上的表現有較大的差異。在效度方面, 實作評量所顯露出的問題有以下三個: 一、客觀性及公平性:實作評量通常僅以一個評分者評定學生的表現,所以 評量的結果可能過於主觀或有潛在的偏見(bias)問題(Airasian,1991; Frechtling,1991;Linn et al.,1991;Linn,1993) 。 二、評量內容的涵蓋性:由於實作評量實施方式及時間的限制,通常所評量 的學生行為表現較傳統測驗為少,即評量內容的涵蓋範圍較小,不易獲得學生行 為的適當樣本(Airasian,1991;Linn et al.,1991;Linn,1993)。 三、成本及效率問題:這部份即時間與經濟的考量。Linn 等人(1991) 、Linn (1993)及 Messick(1994,1995)將這一點併入實作評量的效度標準。 Baxter 等 人 ( 1992 )、 Ruiz-Primo 等 人 ( 1993 ) 及 Shavelson 等 人 (1991,1992,1993)均從概化理論(generalizability theory)的觀點出發, 採用取樣架構(sampling framework)來分析實作評量的信度(概化性),探討 評分者間、評量項目間、評量時間等的取樣變異以及其他潛在的誤差來源。他們 針對神秘的電路盒(electric mysteries)、毛細現象(paper towels)及小蟲 的習性(bugs)等評量項目,採專家觀察(expert observation)、實驗筆記 (notebook)、電腦模擬測驗(computer simulation test)及紙筆測驗等方式 記錄學生的表現。研究結果發現,與評分者有關的取樣變異不大,評量時間的取 樣變異極小,而評分者與受試者間的交互作用(rater×person interaction)和 評分者與評量項目的交互作用(rater×task interaction)這兩個部份的變異也 幾乎為 0,故他們認為只要一個經過良好訓練的評分者(one well-trained rater) ,即可用以評定學生在實作評量上的表現。但他們發現在實作評量中,評 量項目與受試者及該兩者與時間的交互作用是兩個最大的變異來源,研究結果顯 示學生的表現因為工作項目的不同而有極大的差異,而這樣的變異在不同時機上. 16.

(29) 更是明顯。因此欲提高實作評量結果的一致性必須增加評量的工作項目,使得以 學生在實作評量上的行為表現做其能力的推論時,能夠降低與學生實際能力無關 的變異。 Baxter 等人(1992)及 Shavelson 等人(1992,1993)主要是從評量對學生 能力的鑑別程度、不同評量方式間的輻合效度、不同特質及方法間的區辨效度等 三方面探討實作評量的效度。他們的研究結果顯示不同的測量方法所得到的結果 並不一致,Shavelson 等人(1993)發現在同一個工作項目之下,不同的測量方 法中,實驗操作與實驗記錄的相關最高,實驗記錄與紙筆填充測驗及電腦模擬測 驗與紙筆填充測驗之間的相關最低,這是因為實驗操作與實驗記錄為同一思考流 程,所以相關較高。此外,他們也發現受試者與工作項目及測量方法間的交互作 用及誤差是變異的最大來源,表示不同的測量方法可能是在測量科學成就的不同 面向(Shavelson et al.,1993,p.227-229),最後,在不同工作項目之下,採用 相同或不同測量方法所得到的相關的確較低,顯示實作評量具有區辨效度。. 柒、實作評量與其他評量的比較 大體上,實作評量具有下列各項功能(Airasian, 1994),茲列表如下: 表 2-1-1 實作評量與紙筆測驗的比較 實作評量. 紙筆測驗. 學生把知識轉化成可觀察的表現行. 主要涉及學生的知識及資訊的獲得。. 為或成品的能力。 設計及施測費時,但評量表可針對. 設計費時,但可同時施測許多學生,. 同一或新的學生重複施測。. 同組學生僅能使用一次。. 學生表現不佳,可予診斷及補救,. 除論文式及開放式數學題之外,甚少. 可監控學生進步實況。. 提供方向,指示如何改進表現。. 教學首重表現及過程。. 教學重內容知識。. 資料來源:Airasian (1994), P.236.. 17.

(30) 表 2-1-2 各種評量類型的比較 客觀式測驗 以最大的效率 及信度,測驗 目的 代表性的知 識。. 論文式測驗. 口頭發問. 實作評量. 評估思考的技 巧及知識結構 的瞭解程度。. 教學時,評估 知識。. 評估知識及瞭 解化為行動的 能力。. 學生的 閱讀、評量、 反應 選擇。. 組織、寫作。. 口頭回答。. 計劃、建構、 及表達原始的 反應。. 效率─在測驗 主要優 時間內可測驗 點 到許多項目。. 可測量複雜的 認知結果。. 使評估與教學 結合。. 提供充分的表 現技巧。. 鼓勵思考及寫 作技巧的發 展。. 刺激學生參與 學習,提供教 師立即回饋了 解教學是否有 效。. 強調運用知 識、技巧於實 際的問題情 境。. 過度強調回 憶,鼓勵背誦 對學習 記憶,如能適 的影響 當出題可促進 思考技巧。. 資料來源:Airasian (1994), P.229. .et .ls. 捌、實作評量相關研究 國內有許多探討實作評量設計的可行性研究,以下將就國內學者所做的研 究,整理說明: 一、陳文典、陳義勳、李虎雄、簡茂發(民 84):美國馬里蘭州學校實作評 量國際共同研究計畫。 將 MSPAP(the Maryland School Performance Assessment Program)的. 18.

(31) 試題轉譯成中文,在國內進行小規模的施測,藉以了解這種測驗的功能, 使用上的時機及應用上的困難。在其對我國五年級學生施以數學、理化 和生物等實作評量題目後,發現此種測驗模式能遍及各項科學能力,我 國學生在回答問題時,顯示其傳達與獨立作業能力均不足,其評分客觀 的標準化可經由評分者講習的培訓達到目標,實作評量可適用於平時作 業、學生的科學能力競賽或教育行政單位的各校科學教育教學成效評鑑 等時機。 二、徐美英(民 89):TIMSS 數學實作評量在台灣之試用探討 (一)TIMSS 試題在台灣之施測具有信效度。 (二)台灣四年級學生在 TIMSS 實作評量的表現顯著優於美國和香港地 區的學生。 (三)TIMSS 試題在台灣之施測,在男、女生之間和班級間在總得分並 沒有顯著差異。 (四)自編之試題"猜一猜"與 TIMSS 試題"擲骰子"、"繞過彎道" 和"魔術師"有一定程度的相關。 三、洪之昀(民89) :數學科實作評量對國小高年級學童學習策略影響之研究。 (一)學生認為實作評量能增加對數學內容的了解、提升學習興趣、發 現數學的有趣、擴大學習範圍,並兼具情意評量的功能。但也有學生認 為實作評量在實施上太麻煩且費時。 (二)學生批判思考、數學溝通、數學表達的能力有待加強。 (三)學生具有多方面的潛能,亟待以實作評量的方式加以開發。 四、詹元智(民 91):國小數學科實作評量之效度探討。 採準實驗研究設計的方式進行,以屏東師範學院附屬小學六年級兩個班 的學生為研究對象,一班為實驗組,接受為期二個半月的數學實作評量, 另一班為對照組,接受傳統數學紙筆測驗的評量。研究者於實驗前與實. 19.

(32) 驗後對兩組學生施以「傳統數學紙筆測驗」、「數學實作評量」及「數學 學習/解題態度」等三種測驗的前、後測,並對部份學生進行「數學實作 評量前、後測的放聲思考訪談」 。概化性研究的分析結果顯示在一位評分 者及一題作業項目上之評分者間的變異相當小(3.19%),不過分數的變 異有相當大的比例(約 50%)是來自作業項目間及作業項目與受試者交 互作用的變異。而在二位評分者及五題作業項目之概化性係數可達 0.8 以上,顯示該研究之數學實作評量的結果能有效地推論至學生在其他評 分者及實作評量作業上數學問題解決的表現。 五、李長柏(民91) :國小數學簡單機率解題實作評量與後設認知之相關研究 (一)數學解題實作評量具有良好的信效度。 (二)本研究結果顯示具有良好的評分者信度。 (三)數學解題能力和後設認知能力具有相關性。 (四)性別在數學解題能力和後設認知能力上沒有差異。 六、王秀琲(民 92) :實作評量在國小數學科之應用-以五年級學童分數為例 (一)實作評量能實際測出學童的分數概念,在分割活動上,連續量比 離散量好;在表徵轉換上,具體操作轉換符號模式為佳,圖形轉換符號 模式較不理想;分割策略,會因情境的不同,而使用較為簡便的方式來 解題。 (二)從實作評量中,學童能展現自行所建構的解題策略,所獲得的訊 息比紙筆測驗多。 (三)以 SS 分析法,來分析實作評量之試題,所呈現的試題關聯結構圖 中,可以了解等分和連續量的分割活動是學童最易理解的概念,而離散 量分割、等值及單位量則是學童最難理解的概念。 七、張永杰(民 92):實作評量取向的幾何思考研究 (一)年級之幾何水準層次分佈情形,有統計上的顯著差異存在。年級. 20.

(33) 越高,屬於高層次水準的學生越多。 (二)當受試學生通過某一水準層次n的考驗,但卻未能通過之前的任 一水準層次的考驗,則稱為逆序現象。有 6.97%學生之幾何層次分佈呈 現逆序的情形。 (三)學生不同 van Hiele 水準層次在後設認知能力上表現出顯著差異。 (四)順序組學生能力值越高,集聚的情形越明顯,結構越完整。逆序 組學生的概念結構比較少集聚,呈現零散不完整的結構。 (五)順序組能力低的學生,所形成的關連結構比較零散,而且概念間 的關聯程度不高;能力越高的學生,其關連結構概念問題結構化比較明 顯,而且上下位觀念比較顯著。逆序組學生的關連結構不但呈現零散不 完整的結構,且關連結構圖中,上下位觀念的情形比較不規律,顯現其 概念結構比較雜亂。 八、林敬修(民 92):影響國小數學科實作評量信度相關因素之類推性理論 分析 (一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業 項目交互作用(p×t)變異,其次為受試者(p)變異,再其次為作業項目(t) 變異。 (二)在評分者數學知能背景及評分者訓練對數學科實作評量分數一致 性的影響方面,評分者的給分一致性因評分者數學知能背景及評分者訓 練而不同。 (三)在題目結構度對數學科實作評量分數一致性的影響方面,跨不同 結構度之作業項目對分數一致性的影響遠大過於跨相同結構度之作業項 目對分數一致性的影響。此外,不同數學知能背景及評分者訓練的評分 者在不同結構度的試題給分一致性上也有差異。 (四)整體而言,各評分組別的評分者一致性因評分向度之不同而有差. 21.

(34) 異,其中,以在「溝通表達」此一評分向度上的評分者一致性最低。 九、呂政隆(民 93):國小學童在數學實作評量解題、整合認知與課程之相 關研究。 運用實作評量的方式,分別在九十學年度、九十三學年度對五年級學生 施測,以探討學生的數學解題與整合認知能力之相關性,進而探討性別、 課程在數學解題與整合認知能力上是否有顯著差異。研究結果顯示實施 九年一貫課程後之九十三學年度整合認知中能力組在本研究之四份實作 評量之數學解題能力明顯低於九十學年度實施八十二年版國民小學課程 標準之數學解題與整合認知能力組。 十、石千奇(民 93):國小六學童在數學實作評量中的小組解題歷程分析 解題歷程模式受同儕討論的影響,小組解題是四個人四條思考路線互相 牽引的結果;解題歷程模式受操作實物的影響,操作實物會影響解題階 段進行的走向;小組成員並非全程參與解題歷程,會因為題目的難易、 互動過程、階段性質等因素的影響而未能全程參與;小組解題的階段變 化各行其道,在各個解題階段的參與變化沒有一致性的發展;操作實物 對各個解題階段皆有影響,各產生不同的作用;小組成員喜歡在實作評 量中以小組解題的模式解題,覺得這樣的評量方式可以幫助解題。 因此,建議數學教師多採用以四人為一個小組,在形成性評量中以小組 解題的方式進行實作評量。 十一、曲慧娟(民 94):實作評量在國中學術性向優異班招生鑑定之效度研 究~以臺灣北區為例 (一)錄取組和未錄取學生在入學後成就表現的差異分析顯示:英文組 達顯著水準 (t=6.159,p<.05),數理組未達顯著水準。 (二)實作評量錄取學生在入學後之特殊表現的訪談結果發現,各組學 生在發表能力、競賽檢定、檔案成果上的參與興趣濃厚,也比較有所發. 22.

(35) 揮。 (三)受訪教師、學生及參加座談會的教師們,對實作評量的看法和意 見主要有下列重點: 1、命題是最大的困難,各校命題均請專家學者指導,師生都反應覺 得題目的品質不錯,題型也很有創意,和其它測驗不一樣。但自然 科實驗器材的準備耗時費工是很大的負擔,因此很多學校選擇用資 料分析的題目類型,避免實驗操作器材準備的困擾。 2、實施程序上,時間、說明、器材提供均適宜,但場地的考量較多, 如實驗位置的區隔、語文施測時需安靜的場所等。監考過程也是爭 議較多的,如:學生覺得監考老師應多幾位、老師的尺度不同等。 3、受訪學生指出,實作評量的應答方式和以往參加過的測驗有很大 的不同,但都持肯定態度,同時覺得語文表達能力會影響到實作評 量的成績。 4、各校評分都採集中閱卷的方式,評分標準、爭議性得分大都透過 閱卷老師討論後,取得共識再給分。 5、目前各校在鑑定學生時決策的標準不一,因此反應意見差異頗 大。但從訪談資料發現,受訪學生及教師都較支持運用初試、複試 成績加權計算作為選擇學生的標準。 6、受訪教師表示,學生入學後的表現和以往相較起來,沒有明顯的 差異,但在科展、競賽、檢定、發表上的熱誠度較高。 7、學生的訪談結果發現,大多數學生覺得實作評量可以測出他們在 學術性向上的能力或天份。 8、實作評量的保密情形比其它測驗要好很多,但坊間仍有業者猜 題、補習。受訪學生及老師也表示,有模擬實作或補習經驗者,對 實作表現或多或少有影響。惟一沒有保密困擾的是國文組。. 23.

(36) 十二、陳怡玉(民 94):降低國小數學科實作評量人和作業交互作用變異方 法的探討---以類推性理論分析 (一)由於分層變項選取不易,導致「作業分層」無法有效降低人和作 業交互作用的變異。 (二) 「以圖表組織圖為鷹架」可以降低人和作業交互作用的變異。 (三) 「以圖表組織圖為鷹架」比「作業分層」更能讓人和作業交互作用 的變異降低。 (四)進行「作業分層」的比較時,實作評量的類推性係數和可靠性指 標以同一階層的作業採 p×T×R 設計最高,但屬分層之 p×(T:S)×R 設計 卻低於作業未分層時的分析(即採作業 1&2&3&4 的 p×T×R 設計來分 析)。 (五) 「以圖表組織圖為鷹架」能提高實作評量的類推性係數和可靠性指 標。 十三、蔡正濱(民 95):國小數學科實作評量評分者ㄧ致性相關因素探討 (一)影響數學科實作評量分數一致性的主要變異來源為受試者與作業 項目交互作用(p×t)變異,其次為受試者(p)變異,再其次為受試者、 作業與評分者三者之交互作用及誤差(p×t×r,e)的部分。 (二)在使用不同類型及等級數的計分規準對評分者間一致性的影響方 面,在 p×t×r 類推設計下,不分計分規準種類,與評分者有關的變異量 (含 r、p×r、及 t×r 三者的總和)均相當小,幾乎接近 0,而在 p×r 設 計的整體類推性、相關係數及給分差異比例方面,分析式計分規準優於 整體式計分規準;在不同等級數方面,p×t×r 類推設計中,與評分者有 關的變異量及整體類推性,七等級計分規準略佳,但差異性不大,在 p×r 設計的整體類推性、相關係數及給分差異比例方面,七等級計分規準優 於四等級計分規準,其中又以使用整體式計分規準及評定高複雜度試題. 24.

(37) 時較為明顯。 (三)在不同複雜度作業對評分者間一致性的影響方面,低複雜度試題 的一致性高於高複雜度試題,顯示評分者面對受試者在高複雜度試題的 作答反應時,出現給分較不一致的情形。最後,受試者是否具備實作評 量計分規準之經驗對評分者間一致性的影響方面,在低複雜度試題,兩 組受試者之評分者一致性的差異性不大,在高複雜度試題, A 組評分者 一致性大致高於僅具實作評量經驗之組別 B 組,而 A、B 兩組受試者的評 分者一致性差異程度,在分析式計分規準上低於其在整體式計分規準之 差異程度。. 第二節. 第三次國際數學與科學教育成就研究. 由國際教育成就調查委員會(The International Association for the Evaluation of Educational Achievement,簡稱 IEA)主辦的「國際數學與科學 教育成就趨勢調查」(Trends in Mathematics and Science Study 2003 ,簡稱 TIMSS 2003)」是目前有關國際間對學生成就的調查研究中規模最大的一項調查, 該測驗採取全世界合作模式,主要單位有: 一、國家研究協調中心(National Research Coordinators):國家研究協 調中心負責選擇學校樣品, 收集資料, 計分標準和資料輸入, 和準備研究結 果的一個國際報告。 二 、 TIMSS & PIRLS 國 際 研 究 中 心 ( 在 波 士 頓 學 院 )( TIMSS & PIRLS International Study Center at Boston College):國際研究中心(ISC) 負責 TIMSS 的整體設計、發展和實施。這包括建立規程、監督工具發展、舉辦訓練。 ISC 進行分析並且在國際報告和用戶資料庫中發布研究結果。 三、IEA 秘書處(IEA Secretariat):總部設在荷蘭的阿姆斯特丹。IEA 秘 書處負責提供整體支持、監督籌款和協助參與國家、協調參與 TIMSS 的國家取得. 25.

(38) 測驗工具的翻譯證明。 四、IEA 資料處理中心(IEA Data Processing Center):IEA 有它自己的 資料處理中心位於德國的漢堡。資料處理中心(DPC)負責處理和核對從所有參與 國家得到的資料和建立國際資料庫。 五、統計(Statistics Canada):在加拿大的渥太華,負責 TIMSS 的所有採 樣活動。包括開發取樣步驟和文獻和協助參加者能符合 TIMSS 的採樣設計。 六、教育測試的服務(ETS)(Educational Testing Service (ETS)):ETS 為 TIMSS 成就測驗資料提供軟體和心理測量的支持。 ETS 總部設在新澤西州的普 林斯頓。 TIMSS 2003 是 IEA 自 1995 年以來第三次主辦連續週期性調查學生的數學和 科學成就,主要目的在提供各國長期追蹤學生數學和科學趨勢成就,以提升學生 數學和科學的學習成效。TIMSS 2003 以 13 歲群(即國二生)和 9 歲群(即小四生) 為調查對象,從 2000 年九月開始發展研究調查相關工作,總計有 49 個國家參 加,其中 48 個國家參加 13 歲群調查,26 個國家參加 9 歲群調查。測驗的內容 包括數學和科學,並從學生、教師和學校的問卷回答中廣泛的搜集有關數學和科 學的教學和學習資訊,並經由課程指引、教科書和其他教學媒體的分析,探討參 與國家的數學和科學課程,以提供參與國家的政策制定者和實務工作者有關教學 和學生學習成就方面的珍貴訊息,而技術報告和完整的國際資料庫也一併出版公 佈。 TIMSS 試題的編製流程是先製訂課程架構,在根據課程架構編製成就測驗, 而此課程架構是由一群來自 TIMSS 國家研究協調中心(TIMSS National Research Coordinator)的數學和科學教育專家所發展出來的。在 TIMSS 2003 的課程架構 中共分為兩個向度:內容領域跟認知領域,詳細內容如表 2-2-1 所示:. 26.

(39) 表 2-2-1. TIMSS 2003 課程架構. 數學. 科學. 內容領域. 內容領域. 數. 生命科學 第. 第 代數. 化學 8. 8 測量. 物理學 年. 年 級. 幾何學. 級. 地球科學 環境科學. 資料 第. 數目. 第. 生命科學. 4. 模式、等式和關係*. 4. 自然科學. 年. 測量. 年. 地球科學. 級. 幾何學數據. 級. 認知領域. 認知領域. 知道事實和程式. 事實的知識. 使用概念. 概念的理解. 解決日常問題. 推理和分析. 推理 *第4年級,代數內容領域被叫為模式、等式和關係。. 其中,在實作評量方面,設計的原則是依照實用的、可負擔的和容易翻譯成 多國語言和文化原則所設計的,透過預試時取得評分指南,包括正確的答覆跟不 正確答覆的描述,及給分標準,其評分系統採用維京評分系統,以表格說明如下. 27.

(40) 表 2-2-2 (1). 維京評分系統. * 2 類型的 CR 項目(分數碼) 2 分:(外延反應評分). 2分. 2 分:完整無誤 第一個碼 1分. 1 分:部分對 (2). 1 分:(問答). (3). 0 分:7-9. . *診斷訊息碼. 0-5:表出現之頻次類次,配合參數碼標之 如 20-25、10-15、70-75. 第二個碼. 9 :為其他,無特殊類別 . 如 29,19,79. 7、8=自個兒“診斷碼"(國家碼, 可自選) . 99 為空白. . 79(Erases). 另外在問卷調查部份分為 一、課程 (一)公式化課程 (二)課程的範圍和內容 (三)課程的組織 (四)監測和評估被實施的課程 (五)課程材料和支持. 二、學校. 28.

(41) (一)學校組織 (二)學校目標 (三)校長的角色 (四)支持數學與科學的資源 (五)父母親介入 (六)學校環境. 三、老師和他們的準備 (一)學術準備和證明 (二)老師補充 (三)老師任務 (四)老師歸納 (五)老師經驗 (六)教的樣式 (七)專業發展. 四、教室活動和特徵 (一)課程題目 (二)時間 (三)家庭作業 (四)評量 (五)教室氣氛 (六)資訊技術 (七)計算器用途 (八)強調的研究重點 (九)班級大小. 29.

(42) 五、學生 (一)家庭背景 (二)經驗 (三)態度 當 TIMSS 施測後,許多國家對於施測結果所蘊藏的意義做了許多的解釋,他 們認為施測結果不止顯示了學術成就,還包括了學生所接受的課程和教育 (Schmidt,Jorde,Cogan,Barrier,Gonzalo,Moser,Shimizu,Sawada,Valverde, Prawat,Mcknight,Raizen,Britton,Wiley,&Wolfe,1996) 。國際比較主要的目的 在於評估不同國家的學生程度,而另一個同樣重要的目的在於嘗試去了解及解釋 造成差異的原因,Jaekyung Lee 在 1999 年時提出當我們進行國際比較時,有三 點要注意的事項:一、應該要同時著重正規教育和學校教育以外的學習經驗; 二、重視區域性的差異; 三、注意學校的改革政策,因為它會影響教育的實施與成果。所以成績好不應沾 沾自喜,而表現不好也應深究原因,去注意其他表現好的國家真正做了什麼,並 加以學習,而非歸罪於整個制度。 根據 TIMSS 2003 國際數學和科學報告(TIMSS 2003 International Reports in Mathematics and Science),其中提到幾個圖表是跟本文有關並值得分析注 意的:. 30.

(43) 圖2-2-1. 1995年到2003年4年級學生的數學趨勢. 31.

(44) 上圖是從該報告第一章表格1.3擷取出來的,該圖表顯示出從1995年到2003 年的4年級學生的數學趨勢,其中香港、拉脫維亞、英國、賽普勒斯、紐西蘭、 斯洛伐尼亞、加拿大安大略省等七個國家或地區是呈現進步的情況,而荷蘭、挪 威、加拿大魁北克省是退步的趨勢,其他在圖表中的國家是沒有顯著差異的,另 外在其文字說明部份也提到:以色列和菲律賓從1999到2003也顯示出顯著的改 進,像上述這些國家數學成就方面趨勢的變化,可能跟社會或教育的改變有關, 例如東方的政治變化跟歐洲十幾年前的教育改革,已經實際改變這些國家的教育 成就,例如立陶宛跟拉脫維亞,這兩個國家的成就趨勢反映他們在改革過程中的 努力已經獲得某些驚人的成就。. 32.

(45) 圖 2-2-2. 4 年級學生在男女性別上的差異. 上圖是從該報告第一章表格1.4擷取出來的,該圖表顯示大部分國家或地區4 年級學生在男女性別上並無顯著差異,但在幾個國家例外,新加坡、菲律賓、亞 美尼亞跟Moldova共和國的女生有較高的數學平均成就,荷蘭,美國,義大利, 蘇格蘭,賽普勒斯,和兩個加拿大省份則是男生有較高的數學平均成就。. 33.

(46) 圖2-2-3. 1995到2003年的男女生進退步情形. 上圖是從該報告第一章表格1.5擷取出來的,該圖表表示從1995到2003年的 男女生進退步情形,從圖表中得知男女生同時進步的國家或地區有賽普勒斯、英 國、香港、拉脫維亞、紐西蘭、斯洛伐尼亞和安大略省;而同時退步的國家有挪 威和魁北克省;僅有男生退步但女生沒有的國家是荷蘭。. 第三節. TIMSS 試題與國內數學課程關係之分析. 在魔術師的題組中,研究者希望學生透過摺紙的方式,不管對摺幾次,最後 限制只能用剪刀剪一次的情況下,要求學生剪出下列 3 個圖型:. 34.

(47) 每個學生剪每個圖型都有 3 次機會,這個題組的目的不止希望學生可以運用 全等的直覺,利用幾何操作如平移、旋轉、翻轉等方式,印證平時的經驗,並將 全等的概念更加清晰,還希望學生透過摺紙的方式了解認識垂直和對稱,而剪紙 又可以增進學童分解圖形與建構圖形的能力,所以本題組主要在測量學生對於全 等的直覺跟幾何操作、垂直跟對稱和空間關係的瞭解,以及解決非慣例題目的能 力。 在圖形題中,前 2 個小題分別要求學生在一個長方形中劃一條直線,將該長 方形分成 2 個三角形或 2 個長方形,第 3 小題要求學生在一個長方形中劃兩條直 線,將該長方形分成 2 個三角形跟 1 個長方形,第 4 小題則給等腰梯形並連接 2 條對角線,在內部形成的 4 個三角形中,要求學生找出形狀相同但大小不同的兩 個三角形,本題組在了解學生能否透過操作直尺或三角板,在二維空間上剪裁出 指定的基本圖型,並利用直觀的方式指出形狀相同但大小不同的三角形。 上述兩個題目在評量學生的幾何能力,根據我國國民中小學九年一貫課程綱 要數學學習領域中指出:小學教師在從事幾何教學時,最要避免的是來自本身歐 氏公設幾何訓練的干擾,處處受制於定義的認定與邏輯順序。由歷史來看,人類 是先由應用、操作、實踐中,認識各種幾何要素與性質,彼此之間並沒有一定的 先後關係。歐氏幾何的價值,首先是對這些先民知識的歸類與整理,其次才是作. 35.

(48) 為知識典範的演繹系統。所以將幾何課程概分成四階段,而學生在四年級時所應 該要學習到的幾何知識,就如下列所示: 一、階段一(一年級到三年級):較強調幾何形體的認識、探索與操作,學生對 幾何形體中的幾何要素,也許能指認,但尚不清楚其結構意義。 二、階段二(四年級到五年級) :由於數與量的發展逐漸成熟,學生開始結合「數」 與「形」兩大主題,學習運用幾何形體的構成要素(如角、邊、面)及其數量性 質(如角度、邊長、面積)。 更詳細的相關能力指標,詳列如下: 1-S-04:能依給定圖示,將簡單形體作平面舖設與立體堆疊:給定的圖示 可為圖卡或實物,透過拼圖與堆積木等活動,讓學童進行平移、翻轉、重疊、 比對…等全等操作的練習。 3-S-06:能透過操作,將簡單圖形切割重組成另一已知簡單圖形。 4-S-02:能透過操作,認識基本三角形與四邊形的簡單性質。 4-S-03:能認識平面圖形全等的意義。 4-S-16:能理解平面上直角、垂直與平行的意義。 4-S-07:能由直角、垂直與平行的概念,認識簡單平面圖形。 4-S-08:能利用三角板畫出直角與兩平行線段,並用來描繪平面圖形 例:學童會使用直尺或三角板畫出直角及兩平行線段,進而用來繪製直角三角 形、正方形、長方形、平行四邊形與梯形。 因此學生在回答這兩個問題時,應已具備足夠的能力。 在幾何方塊的題組中,給學生 3 塊白色方塊、4 塊黑白相間的方塊和 3 塊黑 色方塊,要求學生完成 一、利用 2 張黑白相間方塊拼出一個較大的黑色三角形。 二、利用 4 張黑白相間方塊拼出一個黑色的正方形,並求出佔幾分之幾。 三、不准使用黑白相間方塊,將 4 張方塊拼出一個正方形使得黑色的部分佔 1/2。. 36.

(49) 四、請用 8 張方塊拼出一個如下圖的長方形,使得黑色部分佔 5/8。 這是一種包含幾何跟數與量的題目,其中幾何的部份是要求學生建立一個二維圖 形,並滿足題目的要求(數與量),幾何部分已經如上所述,現在分析相關的數 與量 根據我國國民中小學九年一貫課程綱要數學學習領域中指出:有理數是小學 的核心課程之一,也是小學數學教育中,最有挑戰性的教學主題,因為學生較缺 乏有理數的前置經驗,日常生活中的有理數情境也比整數少;分數的形式是學生 首次碰到兩整數並置的約定。至於什麼是穩當的有理數教學,並無定論。但是基 本的共識是,學生需要較長的時間,來學習掌握有理數的概念;不論是先形式程 序,或者先概念理解,兩者都必須不斷互相支持;在有理數教學中,必須將材料 作適當的安排,先從較容易的平分或測量入手,而將其它的應用課題,作為錘鍊 有理數數感的課題。 在相關的能力指標,詳列如下: 3-n-09:能在具體情境中,初步認識分數,並解決同分母分數的比較與加 減問題:學童從具體情境或活動中掌握分數的概念,能學會分數的記號,並理 解運用分數記號來記錄同分母分數的比較與加減的方式。例如以平分為基礎的 活動(離散量) :問下列深色區域是全部圖形的幾分之幾。. 。 4-n-07:能認識真分數、假分數與帶分數,熟練假分數與帶分數的互換, 並進行同分母分數的比較、加、減與非帶分數的整數倍的計算。 4-n-08:能理解等值分數,進行簡單異分母分數的比較,並用來做簡單分 數與小數的互換:在具體情境中,說明分數等值的理由。可先由分母的倍數差 2、 4 倍的分數先出發(因為切半的操作最簡單)。 在施測學校所使用的教科書中,第七冊第十單元分數中,其教學目標也有:. 37.

參考文獻

相關文件

七、

七、

七、

第二十四條 學、術科測 試辦理單位應遴聘具有 下列資格之一者,擔任 學科測試及術科測試採 筆試非測驗題方式之監 場人員:. 一、

二、應檢人員須攜帶附有照片足資證明身分之國民身分證、護照、全民健康保險卡或駕駛執 照之身分證明文件、准考證、術科測試通知單及規定之自備工具應檢,請於 7

2-1 化學實驗操作程序的認識 探究能力-問題解決 計劃與執行 2-2 化學實驗數據的解釋 探究能力-問題解決 分析與發現 2-3 化學實驗結果的推論與分析

(以下簡稱「99 課綱微調」)命題 1 。本考試說明即針對實施 99 課綱微調後,施測之化學 科,說明命題方向與

推理論證 批判思辨 探究能力-問題解決 分析與發現 4-3 分析文本、數據等資料以解決問題 探究能力-問題解決 分析與發現 4-4