學習回饋及系統監察：香港的經驗

(1)

學習回饋及系統監察：香港的經驗

摘要

一些國家設有評估機制，以監察各年級跨年度的學業水準變化（如美國的NAEP計畫），其結果可作為整個教育系統成敗的指標，故常簡稱為國家成績表（Nation's Report）。如果學生成績表能反映學生的努力與能力，

則國家成績表也可作為教育部官員政策成敗的評估。此外，透過經常性的評估，學生也能不斷獲取有關自己學習進度的回饋，進而促進學習。本文主要介紹香港政府在新近教育改革中，推行的一套全地區性評估計畫，包括隨時可參與的電腦化學生個人評估服務以及每年一次的學校評估系統。

自1976年以來，香港教育署向學校提供一套自小一至中三的中、英、

數學科測驗（HKAT），但因試題外泄及批改費時等，導致問題甚多。故本計畫既針對將來的需要，亦希望同時解決現存問題。

在建立整個計畫時，曾考慮以下幾項因素，包括：對學習提供診斷性資料；評估及監察各學校的教學；避免學校及教師為提高校譽，而作防礙正常教學的不正常操練；若有操練應如何提高其正面作用，支持學校改善教學；改變家長只關心排名而不重視進步的態度；具備足夠彈性以配合日後改革等。

學生個人評估服務是一個龐大的電腦化評估自學系統。涵括小一至中三每級的中、英、數學科。考核將包括多項選擇以及其它更多樣化富趣味性的題目；試題由中央統籌設計，透過網路送至各校，由各校自行安排考核及保存成績，中央亦答應提供相應的輔助教材，以協助學生改善診斷所知的弱項。試題主要由電腦自行評分，以減低教師工作量。這部份是低風險協助個侯傑泰

香港㆗文大㈻教育㈻院教育心理系講座教授

何穎欣

香港㆗文大㈻教育㈻院教育心理系碩士生

(2)

別學生的服務。

學校評估服務則是每年進行一次，在小三、小六及中三各級範圍內對中、英、數三科進行測試。題目將儘量多樣化，並以矩陣取樣以擴大考核範圍。考核成績將用以回饋學校，作為監控其教學成效之用，成績是否向公眾公佈尚待討論，該計畫亦對全港學生成績作整體監控。

本文將描述上述計畫的優點，並討論在實施上所出現的種種爭議及問題。

關鍵詞：教學評估、電腦化評估、學習回饋、系統監察、診斷性評估

註：論文曾於2008年11月3-4日於雲南昆明的“全國教育與心理統計測量學術年會暨第八屆

海峽兩岸心理與教育測驗學術研討會”中發表。

(3)

Abstract

Since 1976, the Hong Kong Education Department has provided a series of Chinese, English, and Mathematics attainment tests for Primary 1 to Secondary 3 students (HKAT).

The system has a number of problems including item leakage and heavy workload in marking. In this article, we would like to introduce a new educational assessment project to be implemented in the recent educational reform, which included a computerized student assessment service that students could take any time they liked and a monitoring system that assessed the schools every year.

The following have been considered in the implementation of this system: offering diagnostic information for learning, assessing and monitoring individual schools, avoiding unhealthy drilling by teachers and schools that hampers normal teaching, changing parental emphases on student ranking to a focus on their improvement, and allowing sufficient flexibility for future reform.

The student assessment service is a large computerized assessment self-learning system. It covers Chinese, English and Mathematics in Primary 1 to Secondary 3. The questions are scored by the computers to reduce teachers’ work load. This is a low stake service to help individual students and the government promises to provide appropriate remedial teaching materials to help and improve students’ diagnosed weaknesses.

The territory-wide school assessment system will be conducted once a year at Primary 3, 6 and Secondary 3 on Chinese, English and English. Matrix sampling will be used to cover a large curriculum. The system attempts to monitor the standard of all Hong Kong students and will also generate reports to individual schools as feedback on their teaching.

We will describe the strengths of the above project, and discuss the various issues and problems in the implementation process.

Keywords: Educational Assessment, Computerized assessment, Learning feedback, System monitoring.

Kit-Tai Hau

Chair Professor, Educational Psychology Department, Faculty of Education, The Chinese University of Hong Kong, Shatin, N.T., Hong Kong.

Feedback and System Monitoring of Students’ Learning:

The Hong Kong Experience

Jasmine Wing-Yan Ho

Master Student,Educational Psychology Department, Faculty of Education, The Chinese University of Hong Kong, Shatin, N.T., Hong Kong.

(4)

學習回饋及系統監察：香港的經驗

為配合二十一世紀的社會需要，香港在2000年時對整個香港的教育制度、教育內容及考核方法等，進行了一個甚為全面的檢討，各項內容及建議，部分已實施，部分則仍待實施。如將〝7年中學加3年大學本科〞制度，改為〝6年中學加4年本科〞，則將於2009年開始進行。

為監控香港中、小學學生學能水準的變化及提升教學質素，政府決定推行兩項相關的評核系統（EC, 2000）。整個評估計畫原先以改善教學為主要目的，故此評估亦希望有相應輔導學生的配套練習和課頁（task），以及協助學校改善教學的支援系統。本文主要是介紹這個基本能力評估方案（

Hau, 2001），並展示公眾與教育政策制定者的爭論要點（EC, 1999b），以及評論計畫實施以來的問題，比較原先構念（Hau，2001）與日後實施運作的差距，從而反映以考試改善教學的種種困難及契機（Hau & Zhang, 2008）。

全世界教育政策制定者均明白公開考試對教育系統的影響（Huang, 1992; McGraw, 1996; Noah & Eckstein, 1992），一如Noah和Eckstein（1998, p.211）指出各地均以考試導引學校改革，英國一份公眾調查更顯示家長、

學生甚至老師也極歡迎考試，愈多愈好，尤其是高利害（high stake）性質的考試（Phelps, 1998）。

壹、香港的考試：現行系統及新評核服務

一、現行考試系統

毋庸置疑，教育及考試系統直接影響學生身心發展（單、鄭、曹, 2000；

Board of Education, 1997; EC, 1997, 1999a; Hau, 1997b, 2000; Marsh, Hau, &

Kong, 2000; Marsh, Kong & Hau, 2000）。在香港的公開試方面，傳統上學生要面對的第一個公開試是小六的學能試（AAT），試題內容接近於較難操練的性向推理（aptitude reasoning）。從2006∕2007開始，改為一個功能相似、但更接近學校課程的中、英、數考試（EC, 2005），該公開考試成績只

(5)

用於調整整所學校的校內成績。具體操作上，個別學生的成績，經公開試將全校成績調高或調低後，粗分為三個能力組別，組別能力較高者先選心儀的中學，同一能力組別內的學生則以隨機號碼決定選校先後次序。

學校極為重視公開試，故進行大量操練，但AAT及新的中英數公開試對個別學生的壓力並不算太大。總體來說小六升中學，仍是重要關卡，學生競爭著名英文中學，仍算激烈。

至中學五年級及七年級，學生需參加兩次高利害的公開試，以爭取中六及大學學位。從2009年升讀中四（即高一）的學生開始，香港學生需讀六年中學，再升讀四年制為主的大學。

在監控香港學生學能水準方面，在小一至中三各年級，自1976年起教育署亦提供一個標準化考試，即香港學科能力考試（HKAT），包括中、

英、數三科，以瞭解學生的能力。試卷存放於學校，每年由教師主考及批改。HKAT附教師手冊，提供全港常模，故教師可依據常模瞭解各學生相對全港學生的能力。

HKAT因試卷使用多年才轉新版本，故在種種原因下，包括教師無意間加強有關的訓練，或外間補習社洩漏試題，雖然考試成績並不對學校及個別學生有任何影響，但全港的成績有逐年上升的趨勢，尤以小學的情況更為明顯，這一現象在其它國家同類考試中也有出現（簡稱Lake Wobegon效應）（

e.g., Linn, 1995），學生成績的進步，不一定反映學生能力逐年上升，而只不過是集中操練某一特定考試範籌所致。

HKAT除了供老師瞭解其學生進度外，主要讓教育署監控全港水準，方法是由全港學生，隨機抽取三十分之一樣本（例如：在每一月份14日出生學生；在2000年初，亦曾增多至抽取全校三分一的樣本），將試卷呈教育署。

故此HKAT既能提供個別學生的能力，亦能反映整個香港學生能力的變化。

不過，HKAT在運作上兩種功能均未盡完善。首先，大部份學校並未能善用學生HKAT的成績作輔導之用，考試每年進行一次，除瞭解學生的總得分外，老師需花費極多的精力，才能一一計算學生的進步等資訊。為令試題照顧全港學生的能力水準，能力較高名校常投訴試題太淺，學生接近滿

(6)

分，考卷沒有區分能力。再者，因試題不能保密，全港成績亦不足以準確反映學生真正能力的變動。因為HKAT對協助教學及監控全港學能水平均有嚴重局限，故此發展另一系統的測量評估工具實有其必要。

二、新學生基本能力評估服務

香港教統會在二○○○年五月發表「教育檢討改革方案諮詢文件」（

pp. 37-42），決定發展一套新的學生基本能力評估服務，逐漸取代香港學科測驗。整個改革的目的是（EC, 2000, Section 5.2.34）：

『（a）協助教師及家長瞭解學生的學習問題和需要，從而及早提供適切的幫助；同時，透過適切的教學措施，讓學生有最大空間發揮潛能，既能保證基本水準，又能發展所學；

（b）為政府及學校管理當局提供全港學校主要學習範疇水準的資料，以便政府為有需要的學校提供支援和監察教育政策執行的成效。』

整個基本能力評估（basic competency assessment，BCA）將包括兩部份：學生評估（student assessment, SA）及系統評估（system assessment, TSA）。前者主要是協助學校教師及家長瞭解學生的強弱，以便提供協助、

輔導及補救。後者主要發揮監察作用，監察整個香港學生的學習水準。至於如何由此監控每一學校的表現，政府可能刻意低調進行，故未有詳細官方檔案描述或討論。

三、以考試改善教學的相關爭論

在設計上述兩項計畫時，專家及本港教育界人士曾討論一些觀點，這些爭論點包括：

（一）反對考試人士的想法

高利害關係的考試，常會錯誤地引導學生及教師將所有精力都用於操練考試題上去。尤其是紙筆考試模式，永遠無法囊括所有教學內容及重點，所以社會上及教育界也普遍彌漫著反對考試的氣氛，這是可以理

(7)

解的。再者，頗多學者相信，雖然頗多研究顯示，中國學生重視努力及個人進步（Chen, Lee & Stevenson, 1996; Hau & Ho, 2008; Hau & Salili, 1996a, 1996b; Stevenson & Lee, 1996），但中國乃至亞洲是比較重視考試成績的，

那麼這個新教育評估服務，是否會給學生帶來不必要的壓力及負擔，而根本就不應該開展呢？一般來說，這個系統對學生及家長並無直接的影響，但如何避免該系統異化，妨礙學生正常學習，卻是值得留意的。

教育界內亦有人說考試無助提高學生的知識，不斷考試及測驗，妨礙學習。在學習動機理論上，這不一定是對的。近年來我們極為重視學生自我調控學習，但是學生若沒有一個很好的學習回饋系統（如考試），他們如何知道自己學得怎樣呢？也就是說，在某一階段的學習結束以後，學生應該參加某些測評及考試，讓他們看見自己的進步。

這就正如我們想減肥，若我們不去買一個秤，不斷監察自己體重的變化，我們又怎會減肥成功呢？如果我們看見自己某些減肥方法有成效，這便是非常正面的回饋，可以推動我們繼續採用那些痛苦而有效的減肥方法。

簡而言之，經常進行有效的學習評估及分析，對學生學習並無害處，

這是學生瞭解自己進度的正面回饋。我們不願看到的只是過多高利害的妨礙性考試。

（二）兩個評估系統的關係

理念上，兩個系統均是測量學生中、英、數的能力，故可合併。例如：只要在學生評估系統中，求出每校的平均，再求全香港學生的能力分佈，自然無需舉行系統評估。相反，只要在進行系統評估時，在每校要求更多學生參與，考試的成績自然也可以作為學生能力的指標。

雖然上述兩個系統可以互通，但專家及教育署經過反覆比較優劣後，

最後的方案仍是將兩系統獨立處理。因為考試導致負面操練狹窄課程的可能性甚高，若將輔助教學及監控香港學生水準這兩個目標，由一個考試去達成，很容易兩方均不討好，故有如今區分兩個系統的最後方案。

（三）多式樣的評核方法、處理複雜測量課題

在多次研討會中，專家亦指出評估要成功，必須有多樣式的評估，例

(8)

如：傳統多項選擇、填充題、課頁等題式（task-based）等。外國經驗指出電腦可以自行評改多類形式的試題，不一定局限于選擇題（e.g., Burstein, Wolff, & Lu, 1999）。香港能否發展一系列成功樣品，亦是計畫成功的要素。

因為整個計畫涉及頗多香港現存考試，仍未採用的技巧及分析方法，

故需立刻著手培養及訓練相應人材。這包括：電腦自我調整的技術、如何選題（item-selection）（Hau & Chang, 2001; Chang & Ying, 1996, 1999）、平衡內容（content balancing）、非選擇題計分方法（e-rater）、不同系統的分數等值（equating and linking）、矩陣取樣（matrix sampling）等。這些課題部份在其它國家已有較穩定的成果，另一部份則仍是國際尖端研究課題。

貳、學生評估計畫

一、計畫模式及內容

在這個教育改革中的「學生評估」計畫，是一個政府免費提供予各學校及學生隨意使用的系統。在原來的構思中（EC, 2000, pp.38-39），該計畫與香港學科測驗相同，主要是為小一至中三程度的中、英、數科目而設，日後有需要時亦可擴展至其它科目。考試內容與學生課程相同，亦儘量依教學範疇分項，以方便教師及學生提取部份專案使用。

為減輕教師工作量及易於管理，測驗將以電腦輔助學生，在任何適合時侯，在學校或家中，上網參與考核，並即時知道自己的成績。在系統成熟後，增加互動自我調整模式（computerized adaptive mode, van der Linden, 2000），電腦因應學生的進度及能力，從題庫選取合適的試題測試。分數的記錄及分析也將儘量自動化，易於管理及使用。

二、計畫執行與成效

（一）教學服務與評估計畫的區分

香港政府委任香港考試及評核局負責本服務。好處是所有題目都經多重審核，精心雕琢，質素甚高；但缺點也正正是為了保持題目的質素，題量

(9)

太少，題目的種類變化不大，過於保守。

從考評專家的角度，他們希望提高評分的信、效度，跨不同考試的可比性等（Brennan, 2006），在整個計畫的設計上是一個〝考試〞及〝評核〞

的取向。但這是錯誤理解整個計畫的原意，我們需要的是學生可以天天利用的學習工具，每一次上課後，學生應可輕易利用這系統去瞭解自己是否掌握教學內容。部分題目甚至可以是一些延伸的學習內容，令能力較高的學生透過這些問題去學習。

由此可見，原先是一個輔助的教學活動，變質成一個非經常性的測評計畫。在原計劃中，很準確測量學生的能力從來並非設計的關鍵所在。現今整個計畫的普遍使用程度不高，是定位及執行計畫與原先構想有偏差所致。

（二）電腦的方便與局限

因電腦應用日益普遍，故原有設想整個計畫可讓家長參與，成績報告表等將以簡單易明為原則。毋庸置疑，電腦評改將大大限制試題的內容。但因科技發展，海外已有頗多成功例子，展示作文及其它更複雜的試題均可透過電腦測量及批改，其中包括高利害的公開試及執照試在內，電腦作為改卷員（e-rater）已是測驗中的重要研究領域，題目甚至可較傳統種類問題更為有趣，考核更高層次的思考能力。

自計畫實施以來，學生正常使用該系統協助學習並不普遍，遑論家長的參與。正因為整個系統仍偏向傳統考試模式進行，故在題型、種類等方面也無重大突破。

（三）標準參照、低風險

這是一個低風險的考試，目的在於診斷及改善學習，學生及家長甚至可用作課外練習之用。在某一些科目（如：數學），甚至具備可替代學生課外操練性補習的功能。

因題庫無需教師管理，而測驗結果亦非決定學生生死，故無需全班或全級同時進行，每一班級或每一學生均可在其方便及需要的時間參加考試。

當電腦更為普及時，不難預計，頗多學生可隨時在家中參加測驗，因此該計畫主要是一個對學生教師及家長的服務。

(10)

正因為該測驗的目的主要是作輔導及診斷之用，故無必要提供常模性的分數，也無需依常態分佈等強將學生分為合格或失敗類別。因此考試可能是以標準參照（criterion-referenced）為主，由公眾、教師等共同厘定合格標準。原先計畫內成績報告應能輔助學習，但如今這類回饋資訊不多，各類標準參照資訊亦不一定能化為輔助學習的資料。

對大部份家長及教師而言，提供各類教學目標在全香港的平均表現等資料，亦可協助教師瞭解教學及學生能力的強弱，故也不能斷言不能提供常模性（norm-referenced）資料。

為免增強競爭，成績不應強調班中排名。此外，為保證學生及學校不作非理性的操練，該測驗的試題、成績等，由學校管理及保存，當然中央亦可提供適當軟體協助。因為整個計畫是以協助學生學習，以服務教師及家長為前提，故此，個別學生的資料應可由教師及家長使用，學校當然亦有全校學生的表現。至於教署，除了作研究之用外，無需提取各校資料。

（四）考試與輔導

在討論過程中，專家及各教育工作者亦強調各評估系統應配備補充教材及其它輔助措施，使成績較差的學生及學校有機會得以改進，令計畫成為一個能發揮拔尖保底作用的評核。故此教育局需針對每一考試課題，提供一些相應的輔助教材，以協助學生因應其表現進行改進學習。而在首階段，不難預計，整個計畫將以保底為更重要的目的，故此設計一些能力較弱學生可以自學的教材，將十分重要。

不過系統運作至今，連接評估系統的補充教材極為匱乏，未能達致保底及拔尖的功能。

參、系統評估計畫

一、計畫模式及內容

每一個政府在做整體規劃時，需要掌握很多基礎教育資料，以監察、

分析及檢討各項政策的成效，並規劃未來，這是不言自明的道理。教育部門

(11)

在規劃時，除了搜集學生的升學率外，也積極關注學生的知識水準，例如美國自19世紀60年代就已經開始這項工作，香港特區也有近20年的監控資料。

各國政府每年用科學的取樣方法，測查中小學多個年級的學生在一些主要學科上的表現，從而瞭解整個國家以及不同省市學生的能力水準，然後制定相應的教育政策。這有點類似教育上的人口普查，是任何國家不可或缺的資料。

美國自19世紀60年代開始進行國家教育進展評估（National Assessment of Educational Progress，簡稱NAEP）。簡單說來，就是每年由美國政府委派研究人員（現為ETS），用科學的取樣方法，在全國各州抽取小學四年級、初中二年級以及高中三年級的學生，參加各個學科（閱讀、數學、科學、寫作、歷史、地理、公民、美術）的考試。

計畫主要報告各州學生在這些學科上的表現，但測量結果不回饋給具體的學校及學生，因此這種測試對學校和學生來說是低利害的。當然，各科成績的總和就是美國教育部長及總統的個人成績表了。所以，NAEP又稱為國家成績表（Nation's Report Card），對各州及聯邦政府來說是高利害的，

因為人們可對各州政府以及美國總統能否提升學生的學業成績一目了然。

在香港教育改革中，基本能力評估的另一部份是系統評估計畫。評估由中央統籌，在小三，小六及中三舉行，成績不直接影響個別學生，只計算全港及每一學校的表現。這是與美國NAEP相類似的計畫。簡而言之，計畫的目的在於監察全香港學校或學區在主要學習範疇的表現（EC, 2000），當然政府亦希望透過各學生的整體表現與其它國家比較。不過因課程不同等原因，令跨國比較難以進行，故亦可能難以準確瞭解香港與其它國家的差異。

簡而言之，系統評估可以達至的目的包括監察（i）全香港及（ii）各個別學校的水準改變，第一類的監察足以反映整個教育系統的成敗，是教署的成績報告，第二類則反映各校的水準，除反映各校學生水準變動外，亦可作為學校行政問責的指標。

因整個計畫的詳細內容公佈不多，故此難以確實瞭解兩類目的如何具體執行，又或是否真的推行。第一類目標並無重大爭論，但第二類目標容易

(12)

導致學校為此操練學生，忽略及干擾正常教學。如何減低整個計畫對正常教育的負面影響，是一門技術，也是一個教育哲學的重大課題，香港在這方面的公開討論並不充分。

二、計畫執行與成效

（一）涵括面

由以上分析可知，若此學業品質分析系統並不用於評價個別學生，我們就無需對每一學生每年均進行測試，只要在全香港抽取學校及學生樣本便可。

學校課程一般覆蓋範圍甚廣，但每一名學生作答的時間不能太長。例如，若要全面考核某年級的數學課程要點，學生須回答一份10小時的試題，

但因為這類考試並不針對個別學生報告結果，學生自然沒有興趣去盡力回答一份長達10小時的試卷。因此，在不同國家，均用矩陣取樣方法，通常將試卷分為多份較短（如每份40分鐘）的試卷，每一被抽選到的學生只需回答其中一份短試卷。

此外，因恐怕學校會因應考試內容操練學生，令課程欠缺平衡，故系統評估所涵括的內容應儘量廣泛及全面。例如：某校部份學生考作文卷，部份則考選擇題等。甚至每校每年所考核的範疇亦可以不同，目的在於令考核範圍極為廣泛。

故此，如何在整份問卷中包含最多不同類型的題目，從而減輕學生操練一個狹窄的課程，是整個計畫成敗的關鍵。

香港在執行這個計畫時較重測量的準確性，如何減低教育負面影響的考慮較少。後果是，學生因為操練一個狹窄的課程，他們的成績不斷上升，

而學校亦因此花費更多寶貴時間去操練這個狹窄考試的內容，而不去進行更全面有系統的學習，浪費了寶貴的時間。這類計畫需要測量專家，也要教育學者共同設計及推行。

（二）測試的年級及學科

因為該系統無需仔細地考查學生每年的學習表現，所以在不同國家的

(13)

同類系統中，我們通常只需測查中小學課程中某兩三個年級便可（例如小學三年級、六年級、初中三年級）。

此外，我們也會週期性地改變每年考核的重點。例如，科學並不是每年必考科目，我們只會每3年一次，普查及分析學生的科學知識。

在香港，評估內容以中、英、數為主，會否擴至其它學科則尚待日後發展決定。香港趁這個機會站穩腳步後，應儘快考慮搜集整理中、英、數以外的學科成績。建立這些基礎資料需時，二十年後我們無法得知二十年前學生的表現以作比較。香港仍未有這方面的計畫。

（三）是否只考察基本能力？

為了減輕這類學業品質分析系統對日常教學的影響，一些香港教育界人士要求考核內容只限於一些最基本的教學重點，也就是說，若學生能回答這些最基本的問題，我們的教學就算成功。此外，這些教育界人士也認為，

就算學生不斷操練這些基本內容，也是有益無害的。故此，他們建議整份試卷應該全是較淺的最基礎的教學重點。

但這類考核方法導致的問題甚多。首先我們無法用這個系統監控能力中等或能力稍高學生的能力變化，花費巨大的品質分析系統的效能大大減弱，能提供的有用資訊太少。此外，因為試題全部偏向淺易，區分度低，信度等測驗特性均不會理想。

較可取的方法是多加插一些中等難度甚至部分較難的題目。但若真的需要減輕學校及學生的壓力，我們只需簡單報告合格與不合格的人數，而不再細分優異等級，免得誘使學校及學生操練去追求更高的等級，但我們無需因此而將試題全改為較易的基本題目。簡單而言，若果真需要減輕學生的壓力，那麼在開展這個學業品質分析系統初期，我們只區分合格與不合格即可，待日後再擴展為優異、良好、合格等更多等級。香港在執行該計畫中的一些思考角度及方向，不一定有充足及縝密的理據。

（四）比較才有意義

我們必須明白〝優異〞、〝合格〞等標準是一個主觀的判斷，有比較才有區分。測量學界有一套公認的方法，去協助我們設定這些等級的分割分

(14)

數（例如：83分以上是優異）。明白這一道理，故這類學業品質分析系統的報告十分倚重跨年、跨不同地區（或學校）的比較，去瞭解及分析教學品質的好壞。

例如，某學校40%的學生獲得優異，那麼這算是滿意還是亟需改善的成績呢？假設我們得知，很多背景相近的學校，均有70%以上學生獲得優異，

那麼40%優異算不了什麼。同理，假設該學校數年前平均有60%學生達優異，若近年在學校領導改變後只有40%學生獲優異，我們必定十分焦急地去找出問題所在。故此，在這類學業品質分析系統中，跨學校、地區及年份的比較才能提供較有用的資料。也正因為這樣，香港及各地也必須儘快建立一個有高信度及效度的系統及資料，以便日後比較之用。

此外，顧問亦建議學生評估與系統評估，應用同一量表予以表示，例如若果某一計畫用五級量表，另一計畫亦應同樣用五級量表。此外，統籌機構應用統計方法以保證跨學年的成績可以互相比較（Cizek, Kenney, Kolen, Peters, & van der Linden, 1999）。

（五）考核時間

雖然長期來說，希望考核方法可以部份或全部由電腦協助，但在短期來看，仍是以紙筆測驗為主。考核時間初步定於學年終考核，但為行政方便

（減低同時考核眾多考生），及令學校不作過份操練，考試會否以突擊方式進行，亦難預料。

（六）應否作問責之用

近年用種種可量度的表現（如：學生成績），作為各學校（或地區）

在教育上的成敗指標，已成世界潮流。這是基於只要學校需為其學生負責，

那麼學校必能看到其弱點，也會因而改善。

雖然整體上這類可量度的指標，可能是一個好的驅動力，但也引來不少惡果，尤其是當學生的成績，並不完全受學校所影響時，要學校為此負責並不公平。最明顯而廣為不同系統所採用的方法，包括依學生入學成績

（即：用增值概念）及學生社經地位（來自較差背境者可獲加分）而調整

（Hau, 1997a; Hau, Ip & Cheng, 1996）。

(15)

一個過於簡化及高利害的問責制度，令學校及教師傾向于操練狹窄的考試課程，系統評估應儘量增大評估範圍，從而減低負面影響。整個系統評估計畫中，如何公佈成績，如何依據這些成績向學校提供輔助、獎勵或懲罰，仍未有十分具體及詳細方案公佈，故此系統評估對學校文化的影響，尚待觀察。

系統評估的目的在於監察整個系統，而個別學校的成績，則可用以改善學校整體性的教學措施。為減輕無必要的惡性操練，所以學校間不應公佈互相的排名次序。雖然主觀意願如此，但除非各校不向教師、家長等公佈成績，否則必有第三者整理各校成績，並予以排名次。所以教育局怎樣處理各校成績，將成為該計畫的最大爭論點。若各校成績極為影響該校（例如：撥款等），則該考試必會令各校用盡各種途徑加以操練。所以怎樣處理各校資料，實在難有萬全之計。

（七）如何平衡及處理高、低利害的影響

只要我們提供及公佈某一級（學生、學校、地區）的成績表，這成績表就變為該級（學校或地區）的高利害關係報告了。

我們的思考重點是清晰的，我們必需要問：（1）該高利害關係的報告帶來的好處多還是壞處多呢？（2）這是必須的措施嗎？是否有其它方法替代？（3）對學生的學習會產生什麼正面或負面的影響呢？

我想上述第3個問題是公眾最關心的，也就是說，我們所設計的系統絕對不應提供一個對學生有高利害關係的成績報告。有任何可能被誤用、使之變成高利害關係的報告，都應該避免及禁止。若禁止不了，就需要暫時考慮不開展這個評估系統及分析，這是最基本的原則。（註：美國的《不讓一個兒童落後法案NCLB》提供個別學生成績表，與NAEP及香港正開展的學業成績分析系統不同；NCLB對學生是高利害的，而NAEP及香港的系統性評估對學生是低利害的。）

香港教育局對每一學校提供該校學生的簡單合格率資料。這些報告當然會對學校領導構成壓力，但我們認為這是管理及規劃教育不可缺少的資料依據，不能因為高利害關係而不去搜集。

(16)

用考試導引學校及教育改革已成世界潮流，本文介紹香港正在進行的一個頗大型的學生能力評估計畫，其中包含對每一學生以及每一學校的評核，後者可能引致的負面效果較富爭論性，如何妥善處理，並不容易。香港負責這些大型評核計畫的官員、委員會內學者及主事人員等的調動，令計畫原有面貌及精神欠缺充分理解，公開討論不足，最終未能完全發揮評核計畫的果效。上述所介紹的各種爭論，希望能供進行類似計畫的其他地區參考。

參考文獻

單文經、鄭勝耀、曹常仁。（2000）﹕香港教育。臺北，臺灣：商鼎文化。

Board of Education. (1997). Report on review of 9-year compulsory education. Hong Kong: Sub-Committee on Review of School Education, The Board of Education, Hong Kong Government.

Brennan, R. L. (Ed.) (2006). Educational measurement. Westport, CT: American Council on Education and Praeger Publisher.

Burstein, J., Wolff, S., & Lu, C. (1999). Using lexical semantic techniques to classify free-responses. Unpublished manuscript, Educational Testing Service, NJ.

Chang, H., & Ying, Z. (1996). A global information approach to computerized adaptive testing. Applied Psychological Measurement, 20, 213-229.

Chang, H., & Ying, Z. (1999). A-stratified multistage computerized adaptive testing, Applied Psychological Measurement, 23, 211-222.

Chen, C. S., Lee, S. Y., & Stevenson, H. W. (1996). Academic achievement and motivation of Chinese students: A cross-national perspective3., In S. Lau (Ed.), Growing up the Chinese way: Chinese child and adolescent development. Hong Kong: The Chinese University.

Cizek, G. J., Kenney, P. A., Kolen, M. J., Peters, C. W., & van der Linden, W. J. (1999).

An investigation of the feasibility of linking scores on the proposed voluntary national tests and the national assessment of educational progress. Unpublished report.

Education Commission (EC). (1997). Education Commission Report No. 7: Quality School Education. Hong Kong, Hong Kong Government.

Education Commission (EC). (1999a). Education Blueprint for the 21^st Century: Review of the Academic system Aims of education Consultation Document. Hong Kong:

Hong Kong Government.

Education Commission (EC). (1999b). Proposed core competency assessments.

(17)

Unpublished paper presented in the Seminar on Public Examination, Performance Assessments and Admission Systems for Primary and Secondary Education, 2 November, Hong Kong.

Education Commission (EC). (2000). Review of Education System Reform Proposals:

Consultation Document. Hong Kong, China: Hong Kong Government.

Education Commission (EC). (2005). Report on review of medium of instruction for secondary schools and secondary school places allocation. Hong Kong, China: Hong Kong Government.

Hau, K. T. (1997a). Outcome indicators in assessing good quality schools: Many problems but a few solution. Occasional Paper Number 5. Hong Kong: Hong Kong Institute of Educational Research, The Chinese University of Hong Kong.

Hau, K. T. (1997b). To avoid jumping from the fire pan into fire: Recommendations on assessing primary students’ academic ability. Occasional Paper Number 12. Hong Kong: Hong Kong Institute of Educational Research, The Chinese University of Hong Kong.

Hau, K. T. (2000). Through road: Are there better substitutes than the abolishment of the high stakes academic aptitude test (AAT)? Journal of Psychology in Chinese Societies, 1, 163-169.

Hau, K. T. (2001). New educational assessment services to monitor the educational system and to help teaching. In Leung S. W. (Ed.), Assessment and Mathematics Education (pp.46-53). Hong Kong: Faculty of Education, The Chinese University of Hong Kong.

Hau, K. T., & Chang, H. H. (2001). Item selection in computerized adaptive testing:

Should more discriminating items be used first. Journal of Educational Measurement, 38(3), 249-266.

Hau, K.T. & Ho, I. T. (2008). Editorial: Insights from research on Asian students’

achievement motivation. International Journal of Psychology, 43, 865-869.

Hau, K. T., Ip, M. H., & Cheng, Z. J. (1996). Target oriented curriculum and inter-school comparison. Education Journal, 24(2), 1-13.

Hau, K. T., & Salili, F. (1996a). Achievement goals and causal attributions of Chinese children. In S. Lau (Ed.), Growing up the Chinese way: The role of culture in socialization. Hong Kong: Chinese University Press.

Hau, K. T., & Salili, F. (1996b). Prediction of academic performance among Chinese students: Effort can compensate for lack of ability. Organizational Behavior and Human Decision Processes, 65, 83-94.

Hau, K. T. (侯傑泰), & Zhang, S. (張珊珊). (2008). Conducting academic quality analyses: Could accountability and educational feedback be achieved simultaneously?

(開展學業品質分析：問責與教學回饋能否兩者兼得？) People’s Education (人民

(18)

教育), 570, 36-39.

Huang, S. (1992). The restoration of national unified college entrance examinations in the People's Republic of China, and current policy issues. In M. A., Eckstein &

H. J. Noah (Eds.), Examinations: Comparative and International Studies. Oxford, England: Pergamon.

Linn, R. L. (1995). High-stakes uses of performance-based assessments: Rationale, examples, and problems of comparability. In T. Oakland & R. K. Hambleton (Eds.), International Perspectives on Academic Assessment. Norwell, MA: Kluwer Academic.

Marsh, H. W., Hau, K. T., & Kong, C. K. (2000). Late immersion and language of instruction (English vs. Chinese) in Hong Kong high schools: Achievement growth in language and nonlanguage Subjects. Harvard Educational Review, 70, 302-346.

Marsh, H. W., Kong, C. K., & Hau, K. T. (2000). Longitudinal multilevel modeling of the Big Fish Little Pond Effect on academic self-concept: Counterbalancing social comparison and reflected glory effects in Hong Kong high schools. Journal of Personality and Social Psychology, 78, 337-349.

McGaw, B. (1996). Their future: Options for reform of the Higher School Certificate.

NSW, Australia: Department of Training and Education Co-Ordination.

Noah, H., J., & Eckstein, M. A. (1992). Comparing national systems of secondary school leaving examinations. In M. A., Eckstein & H. J. Noah (Eds.), Examinations:

Comparative and International Studies. Oxford, England: Pergamon.

Noah, H. J., & Eckstein, M. A. (1998). Doing Comparative Education: Three Decades of Collaboration (CERC Studies in Comparative Education 5). Hong Kong:

Comparative Education Research Centre, The University of Hong Kong.

Phelps, R. P. (1998). The demand for standardized student testing. Educational Measurement: Issues and Practice, 17(3), 5-23.

Stevenson, H. W., & Lee, S.-Y. (1996). The academic achievement of Chinese students.

In M. Bond (Ed.), The Handbook of Chinese Psychology. Hong Kong: Oxford University Press.

van der Linden, W. J. (2000). Constrained adaptive testing with shadow tests. In W. J.

van der Linden & C. A. W. Glas (Eds.), Computerized adaptive testing: Theory and practice. Boston: Kluwer.

學習回饋及系統監察：香港的經驗

學習回饋及系統監察：香港的經驗

摘 要

Abstract

Kit-Tai Hau

Feedback and System Monitoring of Students’ Learning:

The Hong Kong Experience

Jasmine Wing-Yan Ho

學習回饋及系統監察：香港的經驗

壹、香港的考試：現行系統及新評核服務

一、現行考試系統

二、新學生基本能力評估服務

三、以考試改善教學的相關爭論

貳、學生評估計畫

一、計畫模式及內容

二、計畫執行與成效

參、系統評估計畫

一、計畫模式及內容

二、計畫執行與成效

參考文獻

摘要