學習回饋及系統監察:香港的經驗
摘 要
一些國家設有評估機制,以監察各年級跨年度的學業水準變化(如美 國的NAEP計畫),其結果可作為整個教育系統成敗的指標,故常簡稱為國 家成績表(Nation's Report)。如果學生成績表能反映學生的努力與能力,
則國家成績表也可作為教育部官員政策成敗的評估。此外,透過經常性的評 估,學生也能不斷獲取有關自己學習進度的回饋,進而促進學習。本文主要 介紹香港政府在新近教育改革中,推行的一套全地區性評估計畫,包括隨時 可參與的電腦化學生個人評估服務以及每年一次的學校評估系統。
自1976年以來,香港教育署向學校提供一套自小一至中三的中、英、
數學科測驗(HKAT),但因試題外泄及批改費時等,導致問題甚多。故本 計畫既針對將來的需要,亦希望同時解決現存問題。
在建立整個計畫時,曾考慮以下幾項因素,包括:對學習提供診斷性 資料;評估及監察各學校的教學;避免學校及教師為提高校譽,而作防礙正 常教學的不正常操練;若有操練應如何提高其正面作用,支持學校改善 教學;改變家長只關心排名而不重視進步的態度;具備足夠彈性以配合日 後改革等。
學生個人評估服務是一個龐大的電腦化評估自學系統。涵括小一至中 三每級的中、英、數學科。考核將包括多項選擇以及其它更多樣化富趣味性 的題目;試題由中央統籌設計,透過網路送至各校,由各校自行安排考核及 保存成績,中央亦答應提供相應的輔助教材,以協助學生改善診斷所知的弱 項。試題主要由電腦自行評分,以減低教師工作量。這部份是低風險協助個 侯傑泰
香港㆗文大㈻教育㈻院教育心理系講座教授
何穎欣
香港㆗文大㈻教育㈻院教育心理系碩士生
別學生的服務。
學校評估服務則是每年進行一次,在小三、小六及中三各級範圍內對 中、英、數三科進行測試。題目將儘量多樣化,並以矩陣取樣以擴大考核範 圍。考核成績將用以回饋學校,作為監控其教學成效之用,成績是否向公眾 公佈尚待討論,該計畫亦對全港學生成績作整體監控。
本文將描述上述計畫的優點,並討論在實施上所出現的種種爭議及問 題。
關鍵詞:教學評估、電腦化評估、學習回饋、 系統監察、診斷性評估
註:論文曾於2008年11月3-4日於雲南昆明的“全國教育與心理統計測量學術年會暨第八屆
海峽兩岸心理與教育測驗學術研討會”中發表。
Abstract
Since 1976, the Hong Kong Education Department has provided a series of Chinese, English, and Mathematics attainment tests for Primary 1 to Secondary 3 students (HKAT).
The system has a number of problems including item leakage and heavy workload in marking. In this article, we would like to introduce a new educational assessment project to be implemented in the recent educational reform, which included a computerized student assessment service that students could take any time they liked and a monitoring system that assessed the schools every year.
The following have been considered in the implementation of this system: offering diagnostic information for learning, assessing and monitoring individual schools, avoiding unhealthy drilling by teachers and schools that hampers normal teaching, changing parental emphases on student ranking to a focus on their improvement, and allowing sufficient flexibility for future reform.
The student assessment service is a large computerized assessment self-learning system. It covers Chinese, English and Mathematics in Primary 1 to Secondary 3. The questions are scored by the computers to reduce teachers’ work load. This is a low stake service to help individual students and the government promises to provide appropriate remedial teaching materials to help and improve students’ diagnosed weaknesses.
The territory-wide school assessment system will be conducted once a year at Primary 3, 6 and Secondary 3 on Chinese, English and English. Matrix sampling will be used to cover a large curriculum. The system attempts to monitor the standard of all Hong Kong students and will also generate reports to individual schools as feedback on their teaching.
We will describe the strengths of the above project, and discuss the various issues and problems in the implementation process.
Keywords: Educational Assessment, Computerized assessment, Learning feedback, System monitoring.
Kit-Tai Hau
Chair Professor, Educational Psychology Department, Faculty of Education, The Chinese University of Hong Kong, Shatin, N.T., Hong Kong.
Feedback and System Monitoring of Students’ Learning:
The Hong Kong Experience
Jasmine Wing-Yan Ho
Master Student,Educational Psychology Department, Faculty of Education, The Chinese University of Hong Kong, Shatin, N.T., Hong Kong.
學習回饋及系統監察:香港的經驗
為配合二十一世紀的社會需要,香港在2000年時對整個香港的教育制 度、教育內容及考核方法等,進行了一個甚為全面的檢討,各項內容及 建議,部分已實施,部分則仍待實施。如將〝7年中學加3年大學本科〞制 度,改為〝6年中學加4年本科〞,則將於2009年開始進行。
為監控香港中、小學學生學能水準的變化及提升教學質素,政府決定 推行兩項相關的評核系統(EC, 2000)。整個評估計畫原先以改善教學為主 要目的,故此評估亦希望有相應輔導學生的配套練習和課頁(task),以及 協助學校改善教學的支援系統。本文主要是介紹這個基本能力評估方案(
Hau, 2001),並展示公眾與教育政策制定者的爭論要點(EC, 1999b),以 及評論計畫實施以來的問題,比較原先構念(Hau,2001)與日後實施運作 的差距,從而反映以考試改善教學的種種困難及契機(Hau & Zhang, 2008)。
全世界教育政策制定者均明白公開考試對教育系統的影響(Huang, 1992; McGraw, 1996; Noah & Eckstein, 1992),一如Noah和Eckstein(1998, p.211)指出各地均以考試導引學校改革,英國一份公眾調查更顯示家長、
學生甚至老師也極歡迎考試,愈多愈好,尤其是高利害(high stake)性質的 考試(Phelps, 1998)。
壹、香港的考試:現行系統及新評核服務
一、現行考試系統
毋庸置疑,教育及考試系統直接影響學生身心發展(單、鄭、曹, 2000;
Board of Education, 1997; EC, 1997, 1999a; Hau, 1997b, 2000; Marsh, Hau, &
Kong, 2000; Marsh, Kong & Hau, 2000)。在香港的公開試方面,傳統上學生 要面對的第一個公開試是小六的學能試(AAT),試題內容接近於較難操練 的性向推理(aptitude reasoning)。從2006∕2007開始,改為一個功能相 似、但更接近學校課程的中、英、數考試(EC, 2005),該公開考試成績只
用於調整整所學校的校內成績。具體操作上,個別學生的成績,經公開試將 全校成績調高或調低後,粗分為三個能力組別,組別能力較高者先選心儀的 中學,同一能力組別內的學生則以隨機號碼決定選校先後次序。
學校極為重視公開試,故進行大量操練,但AAT及新的中英數公開試對 個別學生的壓力並不算太大。總體來說小六升中學,仍是重要關卡,學生競 爭著名英文中學,仍算激烈。
至中學五年級及七年級,學生需參加兩次高利害的公開試,以爭取中 六及大學學位。從2009年升讀中四(即高一)的學生開始,香港學生需讀六 年中學,再升讀四年制為主的大學。
在監控香港學生學能水準方面,在小一至中三各年級,自1976年起教 育署亦提供一個標準化考試,即香港學科能力考試(HKAT),包括中、
英、數三科,以瞭解學生的能力。試卷存放於學校,每年由教師主考及批 改。HKAT附教師手冊,提供全港常模,故教師可依據常模瞭解各學生相對 全港學生的能力。
HKAT因試卷使用多年才轉新版本,故在種種原因下,包括教師無意間 加強有關的訓練,或外間補習社洩漏試題,雖然考試成績並不對學校及個別 學生有任何影響,但全港的成績有逐年上升的趨勢,尤以小學的情況更為明 顯,這一現象在其它國家同類考試中也有出現(簡稱Lake Wobegon效應)(
e.g., Linn, 1995),學生成績的進步,不一定反映學生能力逐年上升,而只 不過是集中操練某一特定考試範籌所致。
HKAT除了供老師瞭解其學生進度外,主要讓教育署監控全港水準,方 法是由全港學生,隨機抽取三十分之一樣本(例如:在每一月份14日出生學 生;在2000年初,亦曾增多至抽取全校三分一的樣本),將試卷呈教育署。
故此HKAT既能提供個別學生的能力,亦能反映整個香港學生能力的變化。
不過,HKAT在運作上兩種功能均未盡完善。首先,大部份學校並未能善用 學生HKAT的成績作輔導之用,考試每年進行一次,除瞭解學生的總得 分外,老師需花費極多的精力,才能一一計算學生的進步等資訊。為令試 題照顧全港學生的能力水準,能力較高名校常投訴試題太淺,學生接近滿
分,考卷沒有區分能力。再者,因試題不能保密,全港成績亦不足以準確反 映學生真正能力的變動。因為HKAT對協助教學及監控全港學能水平均有嚴 重局限,故此發展另一系統的測量評估工具實有其必要。
二、新學生基本能力評估服務
香港教統會在二○○○年五月發表「教育檢討改革方案諮詢文件」(
pp. 37-42),決定發展一套新的學生基本能力評估服務,逐漸取代香港學科 測驗。整個改革的目的是(EC, 2000, Section 5.2.34):
『(a)協助教師及家長瞭解學生的學習問題和需要,從而及早提 供適切的幫助;同時,透過適切的教學措施,讓學生有最大空間 發揮潛能,既能保證基本水準,又能發展所學;
(b)為政府及學校管理當局提供全港學校主要學習範疇水準的資 料,以便政府為有需要的學校提供支援和監察教育政策執行的成 效。』
整個基本能力評估(basic competency assessment,BCA)將包括兩 部份:學生評估(student assessment, SA)及系統評估(system assessment, TSA)。前者主要是協助學校教師及家長瞭解學生的強弱,以便提供協助、
輔導及補救。後者主要發揮監察作用,監察整個香港學生的學習水準。至於 如何由此監控每一學校的表現,政府可能刻意低調進行,故未有詳細官方檔 案描述或討論。
三、以考試改善教學的相關爭論
在設計上述兩項計畫時,專家及本港教育界人士曾討論一些觀點,這 些爭論點包括:
(一)反對考試人士的想法
高利害關係的考試,常會錯誤地引導學生及教師將所有精力都用於操 練 考 試 題 上 去 。 尤 其 是 紙 筆 考 試 模 式 , 永 遠 無 法 囊 括 所 有 教 學 內 容 及 重點,所以社會上及教育界也普遍彌漫著反對考試的氣氛,這是可以理
解的。再者,頗多學者相信,雖然頗多研究顯示,中國學生重視努力及個 人進步(Chen, Lee & Stevenson, 1996; Hau & Ho, 2008; Hau & Salili, 1996a, 1996b; Stevenson & Lee, 1996),但中國乃至亞洲是比較重視考試成績的,
那麼這個新教育評估服務,是否會給學生帶來不必要的壓力及負擔,而根本 就不應該開展呢?一般來說,這個系統對學生及家長並無直接的影響,但如 何避免該系統異化,妨礙學生正常學習,卻是值得留意的。
教育界內亦有人說考試無助提高學生的知識,不斷考試及測驗,妨礙 學習。在學習動機理論上,這不一定是對的。近年來我們極為重視學生自我 調控學習,但是學生若沒有一個很好的學習回饋系統(如考試),他們如何 知道自己學得怎樣呢?也就是說,在某一階段的學習結束以後,學生應該參 加某些測評及考試,讓他們看見自己的進步。
這就正如我們想減肥,若我們不去買一個秤,不斷監察自己體重的變 化,我們又怎會減肥成功呢?如果我們看見自己某些減肥方法有成效,這便 是非常正面的回饋,可以推動我們繼續採用那些痛苦而有效的減肥方法。
簡而言之,經常進行有效的學習評估及分析,對學生學習並無害處,
這是學生瞭解自己進度的正面回饋。我們不願看到的只是過多高利害的妨礙 性考試。
(二)兩個評估系統的關係
理念上,兩個系統均是測量學生中、英、數的能力,故可合併。例 如:只要在學生評估系統中,求出每校的平均,再求全香港學生的能力分 佈,自然無需舉行系統評估。相反,只要在進行系統評估時,在每校要求更 多學生參與,考試的成績自然也可以作為學生能力的指標。
雖然上述兩個系統可以互通,但專家及教育署經過反覆比較優劣後,
最後的方案仍是將兩系統獨立處理。因為考試導致負面操練狹窄課程的可能 性甚高,若將輔助教學及監控香港學生水準這兩個目標,由一個考試去 達成,很容易兩方均不討好,故有如今區分兩個系統的最後方案。
(三)多式樣的評核方法、處理複雜測量課題
在多次研討會中,專家亦指出評估要成功,必須有多樣式的評估,例
如:傳統多項選擇、填充題、課頁等題式(task-based)等。外國經驗指出 電腦可以自行評改多類形式的試題,不一定局限于選擇題(e.g., Burstein, Wolff, & Lu, 1999)。香港能否發展一系列成功樣品,亦是計畫成功的要素。
因為整個計畫涉及頗多香港現存考試,仍未採用的技巧及分析方法,
故需立刻著手培養及訓練相應人材。這包括:電腦自我調整的技術、如何選 題(item-selection)(Hau & Chang, 2001; Chang & Ying, 1996, 1999)、平衡 內容(content balancing)、非選擇題計分方法(e-rater)、不同系統的分數 等值(equating and linking)、矩陣取樣(matrix sampling)等。這些課題部 份在其它國家已有較穩定的成果,另一部份則仍是國際尖端研究課題。
貳、學生評估計畫
一、計畫模式及內容
在這個教育改革中的「學生評估」計畫,是一個政府免費提供予各學 校及學生隨意使用的系統。在原來的構思中(EC, 2000, pp.38-39),該計畫 與香港學科測驗相同,主要是為小一至中三程度的中、英、數科目而設,日 後有需要時亦可擴展至其它科目。考試內容與學生課程相同,亦儘量依教學 範疇分項,以方便教師及學生提取部份專案使用。
為減輕教師工作量及易於管理,測驗將以電腦輔助學生,在任何適合 時侯,在學校或家中,上網參與考核,並即時知道自己的成績。在系統成 熟後,增加互動自我調整模式(computerized adaptive mode, van der Linden, 2000),電腦因應學生的進度及能力,從題庫選取合適的試題測試。分數的 記錄及分析也將儘量自動化,易於管理及使用。
二、計畫執行與成效
(一)教學服務與評估計畫的區分
香港政府委任香港考試及評核局負責本服務。好處是所有題目都經多 重審核,精心雕琢,質素甚高;但缺點也正正是為了保持題目的質素,題量
太少,題目的種類變化不大,過於保守。
從考評專家的角度,他們希望提高評分的信、效度,跨不同考試的可 比性等(Brennan, 2006),在整個計畫的設計上是一個〝考試〞及〝評核〞
的取向。但這是錯誤理解整個計畫的原意,我們需要的是學生可以天天利用 的學習工具,每一次上課後,學生應可輕易利用這系統去瞭解自己是否掌握 教學內容。部分題目甚至可以是一些延伸的學習內容,令能力較高的學生透 過這些問題去學習。
由此可見,原先是一個輔助的教學活動,變質成一個非經常性的測評 計畫。在原計劃中,很準確測量學生的能力從來並非設計的關鍵所在。現今 整個計畫的普遍使用程度不高,是定位及執行計畫與原先構想有偏差所致。
(二)電腦的方便與局限
因電腦應用日益普遍,故原有設想整個計畫可讓家長參與,成績報告 表等將以簡單易明為原則。毋庸置疑,電腦評改將大大限制試題的內容。但 因科技發展,海外已有頗多成功例子,展示作文及其它更複雜的試題均可透 過電腦測量及批改,其中包括高利害的公開試及執照試在內,電腦作為改卷 員(e-rater)已是測驗中的重要研究領域,題目甚至可較傳統種類問題更為 有趣,考核更高層次的思考能力。
自計畫實施以來,學生正常使用該系統協助學習並不普遍,遑論家長 的參與。正因為整個系統仍偏向傳統考試模式進行,故在題型、種類等方面 也無重大突破。
(三)標準參照、低風險
這是一個低風險的考試,目的在於診斷及改善學習,學生及家長甚至 可用作課外練習之用。在某一些科目(如:數學),甚至具備可替代學生課 外操練性補習的功能。
因題庫無需教師管理,而測驗結果亦非決定學生生死,故無需全班或 全級同時進行,每一班級或每一學生均可在其方便及需要的時間參加考試。
當電腦更為普及時,不難預計,頗多學生可隨時在家中參加測驗,因此該計 畫主要是一個對學生教師及家長的服務。
正因為該測驗的目的主要是作輔導及診斷之用,故無必要提供常模性 的分數,也無需依常態分佈等強將學生分為合格或失敗類別。因此考試可能 是以標準參照(criterion-referenced)為主,由公眾、教師等共同厘定合格標 準。原先計畫內成績報告應能輔助學習,但如今這類回饋資訊不多,各類標 準參照資訊亦不一定能化為輔助學習的資料。
對大部份家長及教師而言,提供各類教學目標在全香港的平均表現等 資料,亦可協助教師瞭解教學及學生能力的強弱,故也不能斷言不能提供常 模性(norm-referenced)資料。
為免增強競爭,成績不應強調班中排名。此外,為保證學生及學校不 作非理性的操練,該測驗的試題、成績等,由學校管理及保存,當然中央亦 可提供適當軟體協助。因為整個計畫是以協助學生學習,以服務教師及家長 為前提,故此,個別學生的資料應可由教師及家長使用,學校當然亦有全校 學生的表現。至於教署,除了作研究之用外,無需提取各校資料。
(四)考試與輔導
在討論過程中,專家及各教育工作者亦強調各評估系統應配備補充教 材及其它輔助措施,使成績較差的學生及學校有機會得以改進,令計畫成為 一個能發揮拔尖保底作用的評核。故此教育局需針對每一考試課題,提供一 些相應的輔助教材,以協助學生因應其表現進行改進學習。而在首階段,不 難預計,整個計畫將以保底為更重要的目的,故此設計一些能力較弱學生可 以自學的教材,將十分重要。
不過系統運作至今,連接評估系統的補充教材極為匱乏,未能達致保 底及拔尖的功能。
參、系統評估計畫
一、計畫模式及內容
每一個政府在做整體規劃時,需要掌握很多基礎教育資料,以監察、
分析及檢討各項政策的成效,並規劃未來,這是不言自明的道理。教育部門
在規劃時,除了搜集學生的升學率外,也積極關注學生的知識水準,例如美 國自19世紀60年代就已經開始這項工作,香港特區也有近20年的監控資料。
各國政府每年用科學的取樣方法,測查中小學多個年級的學生在一些 主要學科上的表現,從而瞭解整個國家以及不同省市學生的能力水準,然後 制定相應的教育政策。這有點類似教育上的人口普查,是任何國家不可或缺 的資料。
美國自19世紀60年代開始進行國家教育進展評估(National Assessment of Educational Progress,簡稱NAEP)。簡單說來,就是每年由美國政府委 派研究人員(現為ETS),用科學的取樣方法,在全國各州抽取小學四年 級、初中二年級以及高中三年級的學生,參加各個學科(閱讀、數學、科 學、寫作、歷史、地理、公民、美術)的考試。
計畫主要報告各州學生在這些學科上的表現,但測量結果不回饋給具 體的學校及學生,因此這種測試對學校和學生來說是低利害的。當然,各科 成績的總和就是美國教育部長及總統的個人成績表了。所以,NAEP又稱為 國家成績表(Nation's Report Card),對各州及聯邦政府來說是高利害的,
因為人們可對各州政府以及美國總統能否提升學生的學業成績一目了然。
在香港教育改革中,基本能力評估的另一部份是系統評估計畫。評估 由中央統籌,在小三,小六及中三舉行,成績不直接影響個別學生,只計算 全港及每一學校的表現。這是與美國NAEP相類似的計畫。簡而言之,計畫 的目的在於監察全香港學校或學區在主要學習範疇的表現(EC, 2000),當然政 府亦希望透過各學生的整體表現與其它國家比較。不過因課程不同等原因,令 跨國比較難以進行,故亦可能難以準確瞭解香港與其它國家的差異。
簡而言之,系統評估可以達至的目的包括監察(i)全香港及(ii)各個 別學校的水準改變,第一類的監察足以反映整個教育系統的成敗,是教署的 成績報告,第二類則反映各校的水準,除反映各校學生水準變動外,亦可作 為學校行政問責的指標。
因整個計畫的詳細內容公佈不多,故此難以確實瞭解兩類目的如何具 體執行,又或是否真的推行。第一類目標並無重大爭論,但第二類目標容易
導致學校為此操練學生,忽略及干擾正常教學。如何減低整個計畫對正常教 育的負面影響,是一門技術,也是一個教育哲學的重大課題,香港在這方面 的公開討論並不充分。
二、計畫執行與成效
(一)涵括面
由以上分析可知,若此學業品質分析系統並不用於評價個別學生,我 們就無需對每一學生每年均進行測試,只要在全香港抽取學校及學生樣本便 可。
學校課程一般覆蓋範圍甚廣,但每一名學生作答的時間不能太長。例 如,若要全面考核某年級的數學課程要點,學生須回答一份10小時的試題,
但因為這類考試並不針對個別學生報告結果,學生自然沒有興趣去盡力回答 一份長達10小時的試卷。因此,在不同國家,均用矩陣取樣方法,通常將試 卷分為多份較短(如每份40分鐘)的試卷,每一被抽選到的學生只需回答其 中一份短試卷。
此外,因恐怕學校會因應考試內容操練學生,令課程欠缺平衡,故系 統評估所涵括的內容應儘量廣泛及全面。例如:某校部份學生考作文卷,部 份則考選擇題等。甚至每校每年所考核的範疇亦可以不同,目的在於令考核 範圍極為廣泛。
故此,如何在整份問卷中包含最多不同類型的題目,從而減輕學生操 練一個狹窄的課程,是整個計畫成敗的關鍵。
香港在執行這個計畫時較重測量的準確性,如何減低教育負面影響的 考慮較少。後果是,學生因為操練一個狹窄的課程,他們的成績不斷上升,
而學校亦因此花費更多寶貴時間去操練這個狹窄考試的內容,而不去進行更 全面有系統的學習,浪費了寶貴的時間。這類計畫需要測量專家,也要教育 學者共同設計及推行。
(二)測試的年級及學科
因為該系統無需仔細地考查學生每年的學習表現,所以在不同國家的
同類系統中,我們通常只需測查中小學課程中某兩三個年級便可(例如小學 三年級、六年級、初中三年級)。
此外,我們也會週期性地改變每年考核的重點。例如,科學並不是每 年必考科目,我們只會每3年一次,普查及分析學生的科學知識。
在香港,評估內容以中、英、數為主,會否擴至其它學科則尚待日後 發展決定。香港趁這個機會站穩腳步後,應儘快考慮搜集整理中、英、數以 外的學科成績。建立這些基礎資料需時,二十年後我們無法得知二十年前學 生的表現以作比較。香港仍未有這方面的計畫。
(三)是否只考察基本能力?
為了減輕這類學業品質分析系統對日常教學的影響,一些香港教育界 人士要求考核內容只限於一些最基本的教學重點,也就是說,若學生能回答 這些最基本的問題,我們的教學就算成功。此外,這些教育界人士也認為,
就算學生不斷操練這些基本內容,也是有益無害的。故此,他們建議整份試 卷應該全是較淺的最基礎的教學重點。
但這類考核方法導致的問題甚多。首先我們無法用這個系統監控能力 中等或能力稍高學生的能力變化,花費巨大的品質分析系統的效能大大 減弱,能提供的有用資訊太少。此外,因為試題全部偏向淺易,區分度 低,信度等測驗特性均不會理想。
較可取的方法是多加插一些中等難度甚至部分較難的題目。但若真的 需要減輕學校及學生的壓力,我們只需簡單報告合格與不合格的人數,而不 再細分優異等級,免得誘使學校及學生操練去追求更高的等級,但我們無需 因此而將試題全改為較易的基本題目。簡單而言,若果真需要減輕學生的壓 力,那麼在開展這個學業品質分析系統初期,我們只區分合格與不合格 即可,待日後再擴展為優異、良好、合格等更多等級。香港在執行該計畫 中的一些思考角度及方向,不一定有充足及縝密的理據。
(四)比較才有意義
我們必須明白〝優異〞、〝合格〞等標準是一個主觀的判斷,有比較 才有區分。測量學界有一套公認的方法,去協助我們設定這些等級的分割分
數(例如:83分以上是優異)。明白這一道理,故這類學業品質分析系統的 報告十分倚重跨年、跨不同地區(或學校)的比較,去瞭解及分析教學品質 的好壞。
例如,某學校40%的學生獲得優異,那麼這算是滿意還是亟需改善的成 績呢?假設我們得知,很多背景相近的學校,均有70%以上學生獲得優異,
那麼40%優異算不了什麼。同理,假設該學校數年前平均有60%學生達優 異,若近年在學校領導改變後只有40%學生獲優異,我們必定十分焦急地去 找出問題所在。故此,在這類學業品質分析系統中,跨學校、地區及年份的 比較才能提供較有用的資料。也正因為這樣,香港及各地也必須儘快建立一 個有高信度及效度的系統及資料,以便日後比較之用。
此外,顧問亦建議學生評估與系統評估,應用同一量表予以表示,例 如若果某一計畫用五級量表,另一計畫亦應同樣用五級量表。此外,統籌機 構應用統計方法以保證跨學年的成績可以互相比較(Cizek, Kenney, Kolen, Peters, & van der Linden, 1999)。
(五)考核時間
雖然長期來說,希望考核方法可以部份或全部由電腦協助,但在短期 來看,仍是以紙筆測驗為主。考核時間初步定於學年終考核,但為行政方便
(減低同時考核眾多考生),及令學校不作過份操練,考試會否以突擊方式 進行,亦難預料。
(六)應否作問責之用
近年用種種可量度的表現(如:學生成績),作為各學校(或地區)
在教育上的成敗指標,已成世界潮流。這是基於只要學校需為其學生負責,
那麼學校必能看到其弱點,也會因而改善。
雖然整體上這類可量度的指標,可能是一個好的驅動力,但也引來不 少惡果,尤其是當學生的成績,並不完全受學校所影響時,要學校為此負責 並不公平。最明顯而廣為不同系統所採用的方法,包括依學生入學成績
(即:用增值概念)及學生社經地位(來自較差背境者可獲加分)而調整
(Hau, 1997a; Hau, Ip & Cheng, 1996)。
一個過於簡化及高利害的問責制度,令學校及教師傾向于操練狹窄的 考試課程,系統評估應儘量增大評估範圍,從而減低負面影響。整個系統評 估計畫中,如何公佈成績,如何依據這些成績向學校提供輔助、獎勵或 懲罰,仍未有十分具體及詳細方案公佈,故此系統評估對學校文化的影 響,尚待觀察。
系統評估的目的在於監察整個系統,而個別學校的成績,則可用以改 善學校整體性的教學措施。為減輕無必要的惡性操練,所以學校間不應公佈 互相的排名次序。雖然主觀意願如此,但除非各校不向教師、家長等公佈成 績,否則必有第三者整理各校成績,並予以排名次。所以教育局怎樣處理各 校成績,將成為該計畫的最大爭論點。若各校成績極為影響該校(例如:撥 款等),則該考試必會令各校用盡各種途徑加以操練。所以怎樣處理各校資 料,實在難有萬全之計。
(七)如何平衡及處理高、低利害的影響
只要我們提供及公佈某一級(學生、學校、地區)的成績表,這成績 表就變為該級(學校或地區)的高利害關係報告了。
我們的思考重點是清晰的,我們必需要問:(1)該高利害關係的報告 帶來的好處多還是壞處多呢?(2)這是必須的措施嗎?是否有其它方法替 代?(3)對學生的學習會產生什麼正面或負面的影響呢?
我想上述第3個問題是公眾最關心的,也就是說,我們所設計的系統絕 對不應提供一個對學生有高利害關係的成績報告。有任何可能被誤用、使之 變成高利害關係的報告,都應該避免及禁止。若禁止不了,就需要暫時考慮 不開展這個評估系統及分析,這是最基本的原則。(註:美國的《不讓一個 兒童落後法案NCLB》提供個別學生成績表,與NAEP及香港正開展的學業 成績分析系統不同;NCLB對學生是高利害的,而NAEP及香港的系統性評 估對學生是低利害的。)
香港教育局對每一學校提供該校學生的簡單合格率資料。這些報告當 然會對學校領導構成壓力,但我們認為這是管理及規劃教育不可缺少的資料 依據,不能因為高利害關係而不去搜集。
用考試導引學校及教育改革已成世界潮流,本文介紹香港正在進行的 一個頗大型的學生能力評估計畫,其中包含對每一學生以及每一學校的評 核,後者可能引致的負面效果較富爭論性,如何妥善處理,並不容易。香港 負責這些大型評核計畫的官員、委員會內學者及主事人員等的調動,令計畫 原有面貌及精神欠缺充分理解,公開討論不足,最終未能完全發揮評核計畫 的果效。上述所介紹的各種爭論,希望能供進行類似計畫的其他地區參考。
參考文獻
單文經、鄭勝耀、曹常仁。(2000)﹕香港教育。臺北,臺灣:商鼎文化。
Board of Education. (1997). Report on review of 9-year compulsory education. Hong Kong: Sub-Committee on Review of School Education, The Board of Education, Hong Kong Government.
Brennan, R. L. (Ed.) (2006). Educational measurement. Westport, CT: American Council on Education and Praeger Publisher.
Burstein, J., Wolff, S., & Lu, C. (1999). Using lexical semantic techniques to classify free-responses. Unpublished manuscript, Educational Testing Service, NJ.
Chang, H., & Ying, Z. (1996). A global information approach to computerized adaptive testing. Applied Psychological Measurement, 20, 213-229.
Chang, H., & Ying, Z. (1999). A-stratified multistage computerized adaptive testing, Applied Psychological Measurement, 23, 211-222.
Chen, C. S., Lee, S. Y., & Stevenson, H. W. (1996). Academic achievement and motivation of Chinese students: A cross-national perspective3., In S. Lau (Ed.), Growing up the Chinese way: Chinese child and adolescent development. Hong Kong: The Chinese University.
Cizek, G. J., Kenney, P. A., Kolen, M. J., Peters, C. W., & van der Linden, W. J. (1999).
An investigation of the feasibility of linking scores on the proposed voluntary national tests and the national assessment of educational progress. Unpublished report.
Education Commission (EC). (1997). Education Commission Report No. 7: Quality School Education. Hong Kong, Hong Kong Government.
Education Commission (EC). (1999a). Education Blueprint for the 21st Century: Review of the Academic system Aims of education Consultation Document. Hong Kong:
Hong Kong Government.
Education Commission (EC). (1999b). Proposed core competency assessments.
Unpublished paper presented in the Seminar on Public Examination, Performance Assessments and Admission Systems for Primary and Secondary Education, 2 November, Hong Kong.
Education Commission (EC). (2000). Review of Education System Reform Proposals:
Consultation Document. Hong Kong, China: Hong Kong Government.
Education Commission (EC). (2005). Report on review of medium of instruction for secondary schools and secondary school places allocation. Hong Kong, China: Hong Kong Government.
Hau, K. T. (1997a). Outcome indicators in assessing good quality schools: Many problems but a few solution. Occasional Paper Number 5. Hong Kong: Hong Kong Institute of Educational Research, The Chinese University of Hong Kong.
Hau, K. T. (1997b). To avoid jumping from the fire pan into fire: Recommendations on assessing primary students’ academic ability. Occasional Paper Number 12. Hong Kong: Hong Kong Institute of Educational Research, The Chinese University of Hong Kong.
Hau, K. T. (2000). Through road: Are there better substitutes than the abolishment of the high stakes academic aptitude test (AAT)? Journal of Psychology in Chinese Societies, 1, 163-169.
Hau, K. T. (2001). New educational assessment services to monitor the educational system and to help teaching. In Leung S. W. (Ed.), Assessment and Mathematics Education (pp.46-53). Hong Kong: Faculty of Education, The Chinese University of Hong Kong.
Hau, K. T., & Chang, H. H. (2001). Item selection in computerized adaptive testing:
Should more discriminating items be used first. Journal of Educational Measurement, 38(3), 249-266.
Hau, K.T. & Ho, I. T. (2008). Editorial: Insights from research on Asian students’
achievement motivation. International Journal of Psychology, 43, 865-869.
Hau, K. T., Ip, M. H., & Cheng, Z. J. (1996). Target oriented curriculum and inter-school comparison. Education Journal, 24(2), 1-13.
Hau, K. T., & Salili, F. (1996a). Achievement goals and causal attributions of Chinese children. In S. Lau (Ed.), Growing up the Chinese way: The role of culture in socialization. Hong Kong: Chinese University Press.
Hau, K. T., & Salili, F. (1996b). Prediction of academic performance among Chinese students: Effort can compensate for lack of ability. Organizational Behavior and Human Decision Processes, 65, 83-94.
Hau, K. T. (侯傑泰), & Zhang, S. (張珊珊). (2008). Conducting academic quality analyses: Could accountability and educational feedback be achieved simultaneously?
(開展學業品質分析:問責與教學回饋能否兩者兼得?) People’s Education (人民
教育), 570, 36-39.
Huang, S. (1992). The restoration of national unified college entrance examinations in the People's Republic of China, and current policy issues. In M. A., Eckstein &
H. J. Noah (Eds.), Examinations: Comparative and International Studies. Oxford, England: Pergamon.
Linn, R. L. (1995). High-stakes uses of performance-based assessments: Rationale, examples, and problems of comparability. In T. Oakland & R. K. Hambleton (Eds.), International Perspectives on Academic Assessment. Norwell, MA: Kluwer Academic.
Marsh, H. W., Hau, K. T., & Kong, C. K. (2000). Late immersion and language of instruction (English vs. Chinese) in Hong Kong high schools: Achievement growth in language and nonlanguage Subjects. Harvard Educational Review, 70, 302-346.
Marsh, H. W., Kong, C. K., & Hau, K. T. (2000). Longitudinal multilevel modeling of the Big Fish Little Pond Effect on academic self-concept: Counterbalancing social comparison and reflected glory effects in Hong Kong high schools. Journal of Personality and Social Psychology, 78, 337-349.
McGaw, B. (1996). Their future: Options for reform of the Higher School Certificate.
NSW, Australia: Department of Training and Education Co-Ordination.
Noah, H., J., & Eckstein, M. A. (1992). Comparing national systems of secondary school leaving examinations. In M. A., Eckstein & H. J. Noah (Eds.), Examinations:
Comparative and International Studies. Oxford, England: Pergamon.
Noah, H. J., & Eckstein, M. A. (1998). Doing Comparative Education: Three Decades of Collaboration (CERC Studies in Comparative Education 5). Hong Kong:
Comparative Education Research Centre, The University of Hong Kong.
Phelps, R. P. (1998). The demand for standardized student testing. Educational Measurement: Issues and Practice, 17(3), 5-23.
Stevenson, H. W., & Lee, S.-Y. (1996). The academic achievement of Chinese students.
In M. Bond (Ed.), The Handbook of Chinese Psychology. Hong Kong: Oxford University Press.
van der Linden, W. J. (2000). Constrained adaptive testing with shadow tests. In W. J.
van der Linden & C. A. W. Glas (Eds.), Computerized adaptive testing: Theory and practice. Boston: Kluwer.