教育評鑑初探

(1)

壹、引

3.6、民間

教育評鑑初採

教育學院教育系

盧增緒

教育評鑑初探教育評鑑( Edu個tional

Evaluation

)一詞，自從民國六十四年教育部大力推行各級學校評鑑以來，已漸為教育界乃至關心教育問題的社會大眾所熟知，評鑑之風也會盛極一時，但何謂評鑑?卸言人人殊，莫衷一是，究其原因，可略如以下數端: 件評鑑是近二三十年來，社會科學領域中新聞拓的園地，一則由於現代社會瞬息萬變，為求有效解決日趨繁攘的社會問題，除強調事前的研究、規劃與決策的重要之外，並且還要求能夠隨時了解各項創新方案之得失與績效，期能及早提出適切的對策或改進措施，以達到掌握與指導社會變遷的目的;因此評鑑遂獲得空前未有的重視與權寢。各有關行故人員，計劃及研究人員群起推動，有關學者專家亦全力參與，並各抒所見，自定界說，一時蔚然成風，眾說紛耘，殊無定論;這對評鑑之發展及其完整學理之建立來說，不但是必然而且也是必需的現象，實不足為慮。但是由於社會科學範圍廣潤，評鑑之應用亦因而無所不在，學凡政治、經濟、科技、教育、文化等一切社會現象或有關措施均可實施評鑑;例如近年來園內亦評鑑成風，除在教育領域中實施之各級學校之評幣外，小如梅花餐，大如國計民生之重大方案，無一不可施于評鑑。正因評鑑的應用如此廣泛，所以極易使一般人用常識性的了解去說明或批評教育評鑑之實施，流於人云亦云或以訛傳訛的現象，嚴重影響我們對教育評鑑的明確認識，但久則親為當然，竟誤認眾說雜陳乃見仁見智，任由各說自是其是，全然不予任何較為深入之探究，終致無是無非，顯然增加對評鑑意義界說之困難。亡3 評鑑運動的發展與推廣雖為時尚短，但人類對評鑑之應用卸由來已久，評鑑之概念當然也有其時代背景;換句話說:在不同的時期，評鑑一詞就會有不同的含義，應用

此一概念的時代越久遠，不同的含義自然也可能越多。因此當我們解釋某些概念而忽略

了它的時代背景或時間因素時，當然也就極易造成觀念上的分歧或混淆。美國學者

Phi-lip H.

DuBois曾經先後在他的一篇種文(

A Test-Dominated Socety: China.1115 B.C.

-1905

A. 泣，

1965

)和一本專書(

A History of

Psychol句ical

Testing

,

1970)

中提出世界上最早的評鑒始於古代的中國。這種說法後來有不少美國學者或教育評鑑專家，例如 Jack

C.

Merv妞 9

W. J ames Popham

，以及 Tim

L.

Went 1ing 等都在討論評

(2)

師大學報第三十期

鑑概念的歷史演變時引用;英國學者 Bruce Choppin 也在討論關於不同觀點之教育測驗

i 問題時，引用了 DuBois 的諸法。顯然這些引徵和說朋全都是把評鑑視同教育測量甚或親評鑑若考試來討論的。(註一〉園內部份評鑑專家主張「有系統的評鑑觀念遠在紀元前

二千年前的中國科學制度日具雛型。 J (註二) r我國古代帝王對於太學的定期巡視與

考試，乃至選拔人才所採用的鄉舉旦選與科學制度，均富有一部份評鑑的意義。 J (註

三〉以及認為「我國古代科學制度之選拔人才，亦為評鑑之一種。 J (註四〉似乎都與

前舉諸英美學者之觀點頗為雷同。但是同時我們也發現，國內也有些教育評鑑專家提出

r 教育評鑑就是從教育成果的觀點所做之價值對斷，並非考試、考查或考核。 J (註

五〉這些不同的看法雖然都各有其立場及正確性，但是對於不太熟悉教育評鑑概念演變

歷史與忽略了時間因素的人來說，必然就會造成觀念上的困惑。尤其是近半世紀以來，

教育評鑑在美國的蓬勃發展下，其基本觀念亦日新月異，例如:一九三 0年代著重學生

學習結果的評鑑，一九六 0 年代以後的課程評鑑，一九七0 年代以決策為核心的評鑑，以及近年來格外受到重視的，以積效責任(

Accountabili ty

)為目的之評鑑，均無不各有其時代背景，亦無不各有其不同之含義與界說，這些例証都足以說明界定評鑑意義甚為困難的原因所在。已男外一個導致評鑑意義界說不易的原因是社會背景，如果說時代背景是評鑑的意義界說中的時問因素，那麼社會背景便是它的空間因素。因為任何一種社會活動和觀念的產生除了其歷史淵源外，其當時之文化、政治與經濟等社會狀況均為其根本條件。這也就是說教育評鑑的意義在不同的地區或國家，自然會因為其文化背景‘政治理想、經濟狀況以及教育思想之不同而有顯著的差異。例如:英國和美國這兩個國家，儘管在社

會背，景方面具有相當程度的類似之處，但在教育評鑑的實施及理論上t卸仍然顯示，出明顯

的不同。或許由於英國人一向重蘭學校教育的選擇功能，所以在教育評鑑方面格外注重學生學習成果之評量;而美國人卸始終強調個體發展的重要，因而重蘭教育評鑑在教育實施過程中所佔有的重要地位，與教育評鑑的設計、方法與效用的重要，進而依據其所謂的評鑑模式來建立理論藉以說明教育評鑑的意義。由此可見)如果我們為了說明教育評鑑的意義，只引用外國教育評鑑專家們的定義，而忽略了他們做那些界說的社會背景時，則無疑的非但無助於我們對教育評鑑的正確觀念之建立，而且還會妨磚我們去樹立一個正確的教育評鑑觀念。也許這正是目前我國普遍實施各級學投評鑑之際，所遇到的一個最根本也最嚴重的問題。從台北市、高雄市以及台灣省各縣市第一次國民中學評鑑的評鑑報告中不難發現，幾乎一致公認我們對教育評鑑普遍缺乏正確的觀念。但是正確的觀念從那真來呢?也許寄望於我們國內的教育評鑑專家或學者們的敵導，可能是最便捷的途徑之一，可是如果我們的教育評鑑專家們只是依攘其個人的愛好或專長\'譯介一些外國教育評鑑上的所謂的重要概念，喃全然不告訴我們那些重要概念產生的社會背景或原因，恐怕或將會是徒勞無功的。例如國內部份教育評鑑專家似乎偏愛或是格外重觀所謂的評鑑模式，因此有人會以類似直譯的方式介紹了美國教育評鑑名著的有關篇章，但卸未交待評鑑模式是怎樣產生的?評鑑模式的功能何在?在何種條件下才需要評鑑模

(3)

_116-教育評售量街探式?再加上許多生疏的專門術語的譯名帶來的困惑，結果在樹立教育評鑑的正確觀念上成效不著。當然這個例子並非全然否定譯介作品的客觀價值，而僅在強調教育評鑑的正確觀念之樹立實植基於其社會背景，無法全盤移植也無法當作孤立事件去了解的。這也是評鑑意義界說困難的一大原因。綜合以上三點所述，不難得知教育評鑑的意義不易界定，大體由於教育評鑑乃新興學術而其應用內容叉極接雜，以及悠久的歷史因素與復雜的社會背景所使然。好在本文的目的並不在尋求一個放諸四海而皆準的教育評鑑的定義，而僅在試著縮短歧見中的距離，藉以滅少了解上的困惑，期能提高我國當前實施教育評鑑的效果;何況上學各項困難也並非全然無法避免或消除，問題只在於我們該如何面對這些困擾。就目前我國的教育評鑑工作來看，無可否認的是，美國給我們的影響最大。但是誰都知道全盤採用美國的辦法非僅不智而且亦無可能。因此我們認為當前最急迫的需要是:腳踏實地的站在我們自己的立場實是求是的去了解及思考我們目前所面臨的教育評鑑問題，進而尋求可行性最高的解決途徑。表面上看起來這只是提出了一個極為淺顯易解的常識性的原則而己，甚而至於就是老生常談，了無新義;但實質上卸主張從根本上去徹底檢討許多最基本的教育觀念與問題。例如:我們是否在認知與行動上都認定教育是與其社會環境(

m

"i 1

ieu )

結合為一體的，無法單獨或孤立的去發揮其功能的?我們是否認定學校教育的功能在於促進個體的發展而不在於選擇?我們是否深信科學運動下的教育研究與教育評鑑確實有助於我們的教育理想的實現?可能這些問題都是屬於理論方面的。此外我們也可以從實施方面舉出幾個例子:如民國六十八年我國初次籌劃正式實施國民中學評鑑時，曾經有人提出反對的意見，認為國民中學評鑑與視導重覆，徒然浪費人力物力~ (註六〉或認為我國教育行政單位已設有督學，並有加強國中小學教學督導小組，似無再實施園中評鑑之必要。〈註七〉而且這些意見都曾經代表輿論的報紙提出，自應有其重要性，但是我們的教育評鑑專家們卸極少重視，未予解說亦少深入之討論;但在實施園中評鑑中，如果我們竟然真正認為「重金禮聘」來的評鑑專家，取代替學或教育行政當局去評鑑學校的優劣，即可表示客觀時，則足見早先的顧慮是有其價值的。再如我們的教育評鑑專家學者們在說明教育評鑑的意義時，往往著重教育評鑑與教育研究的不同，而少論及教育評鑑與教育測量的不同，在討論教育評鑑與教育研究時叉往往只強調兩者之不同，.而少說明兩者之關係'顯然這些都不是針對著我們當前實際的需要而提出的，也不是真正站在我們自己的立場主去了解及思考我們的教育評鑑問題的。當然，我們當前也極需要吸取外國的經驗，國外教育評鑑的觀念、目的、內容、方法與技術之譯介均將有助於我國教育評鑑工作之實施，但其譯介方式應求其完整正確，對其歷史背景及社會環境尤應詳予說明，期能有助於了解其前因後果及真象。如能進一步詳予分析並與我國當前之狀況與問題相互比對，以明其參考價值，則俾鑫尤多。例如我們如果介紹美國實施的以決策導向為基礎的教育方案評鑑，(

Educational Program

Evaluation )

,

(註八)就該先行說明教育方集在以系統分析為單則的教育計劃(

Ed-ucational Planning

)中的地位與意義，進而說明決策在整個教育計劃中的重要以及決

(4)

-117-師大學報第三十期策導向的性質，然後才能真正了解其教育方案評鑑之真象。根接這些了解才能檢討它在我國教育評鑑上的參考值價。總之，筆者因有鑑於近年來各級學校之評鑑雖已普遍實施，但所有有關人員卸一致認為普遍缺乏對於教育評鑑的正確認識，實為當前實施各級學校評鑑之根本問題之一，

其影響所及，顯已嚴重降低其實施成效，甚至若平學校，乃至教育主管當局，亦因全面

實施學校評鑑之熱潮已過，新鮮感也已全失，再加上財力與人力的不足，漸漸消極被動

，觀評鑑已流於形式者亦非鮮見。於此可知，尋求樹立正確的教育評鑑觀念之途徑，實為當務之急。一般說來，任一新觀念之樹立，雖非朝夕所能為功;但學者專家之有關論述及倡導，常為正確觀念樹立之重要力量。但不幸截至目前為止，國內有關教育評鑑之專著仍為數不多，部份論著叉多以介述美國之教育評鑑實施之狀況及問題為主，且亦多半未及詳述其時代背景及其社會因素。能確實掌握其教育評鑑實施之基本精神，藉以導正我們對教育評鑑概念的認識之論著尤屬罕見。基於此，本文乃試圖依攘目前國內所有之有關教育評鑑之文獻，析其得失，並參照若平英美教育評鑑之主要論著，針對當前之需要，自教育評鑑之意義與功能方面著手，探討教育評鑑之基本概念，期能於溝通觀念，建立共識方面，提供一得之愚，就教於方家﹒祇以才疏學洩，謬誤在所不免，尚請讀者不吝指正。本文之論述概分為:教育評鑑之意義與教育評鑑之功能兩部份，前者著重理論之解析，後者著重實施之說明。有關探討教育評鑑之意義的部份，則採取以下三種途徑及重點: (1)從教育評鑑實施的歷史中，探討教育評鑑意義之變遷; (2) 從比較各著名的教育評鑑專家學者所提出的主張及定義中，說明教育評鑑是什麼; (3) 從比照與教育評鑑有關或易與教育評鑑相混淆的活動或概念中，澄清教育評鑑不是什麼。有關探討教育評鑑之功能的部份，則著眼於教育評鑑在整個教育實施的歷程中，應有之地位。並針對當前教育評鑑之實施的實際需要，闡明教育評鑑之實施在教育歷程中應具的功能。全文之內容為: 「引論，二之教育評鑑的歷史回顧高教育評鑑的界說用教育評鑑概念之澄清其教育評鑑的功能有結論

貳、教育評鑑的歷史回顧

如前所述，為了正確認識教育評鑑，首在了解其歷史背景，以闡明其意義與性質之

變遷。謹先述其淵源;美國學者 Philip

H. D晶。 is 曾經說世界上最早的評鑑始於中國的

古代，並且說早在公元前二千二百年，攘說中國就有每三年考查百官一次的辦法。 Jack

(5)

_118-敬育評鑑街揉

C.

Merwin 則認為那時的考查內容與方法尚無可信的記載，直到公元一一一五年的周代 (該文原為 Chan dynasty) 始有明確的考查性質，並且提出了樂、射、御、書、數的考試內容(想係指六藝言，然獨缺禮一項) 0 (註九)

W. J

ames

Popham 更引用 D過01S 的近著說:早在近四千年以前中國就已舉行公職人員考試。(註十〉以上這三種說明雖然在時間與內容上都有欠正確，但以下數點卸是可以斷定的: (1)較具規模的正式評鑑確以中國古代為其開端，因中國商周以降已有文字記載的史料為徵: (2) 中國最早的正式評鑑應始於周代，而非始於公元前二二 00年的夏以前的時代; 因夏以前之信史尚少; (3) 中國最早的正式評鑑應非指陪唐時期(公元五八九一九 O 七年〉建立的科學制度，因科學僅憑考試，其評鑑之意義已窄化，不足為訓。依攘這些推斷似可確定;我國最早的正式評鑑應指周代鄉遂之治中的邦比之法，主要由於在 DuBo is 的論著中提到的每三年考查百官一事顯指「三年大比」而言，其詳見於周禮、鄉大夫 r以歲時登其夫家之眾寡。辨其可任者，以歲時入其書。」

「三年則大比，考其德行道藝，而興賢者能者。 J

遲大夫 r以歲時稽其夫家之眾寡六畜田野。辨其可任者與其可施舍者。」

「三年大比，則帥其吏而興眶。」

州長[""三年大比。則大考州里。以贊鄉大夫廢興。」

於此足見邦比之法已頗具今日評鑑之意義:學其著者: (1)注重平時之正確調查與記錄，學凡人畜車輩旗鼓兵草以及田野藤器無一不需詳實調查填記。 (2)以平時調查記錄之多寡高下代表地方官吏之政韻。 (3)三年大比則攘其政績而任免或升降地方官吏。這正是現代評鑑中之(1)系統搜集具體之事實與証據， (2)預定評鑑之標準，以及 (3)依攘預定標準採取行動以顯示其續放責任(

Accountability

)。然部份學者不察，而誤以科學制度之鄉試解釋大比，造成以科學制度為最早的正式評鑑之誤解。然而從男一角度來看，陪唐時代確立的科學制度也確曾左右了我國千餘年的教育評鑑，煙沒了周代邦比之法的系統評鑑精神，使我國成為一個格外重現考試也越來越被考試所困擾的國家。這對我們實施各級學校的評鑑來說，當然會產生相當的影響的。例如近年來我國實施各級學校評鑑，從未把學生的學習成果納入評鑑的項目。由此亦可看出我國教育評鑑在觀念與實施上的偏頗之處 3 此外，如就現代教育評鑑在我國的發展來看，國內學者均一致以民國六十四年教育部首次實施大專評鑑為開端，然後依次實施高中、高職、園中、國小之評鑑，這無形中使我們在先入為主的影響下，不自然而然的就把大專評鑑的目的、內容、方法都看傲是定

i型的模範，各級學校許鍾似乎多少總有些模做大專評鑑EF意味，忽略了大專評鑑尤其是

(6)

-119-師大學報第三十期大學評鑑木與中小學，格外是國民中學的評鑑具有若干根本的不同，難怪不少人認為我們的國中評鑑與美國認可評鑑的模式相類﹒這也限制了我們對教育評鑑的正確認識。其

實我國在國民教育階段的評鑑早在自民國五十三年至五十八年的國民教育發展五年計劃

的實施方案中訂定了對該計劃的實施進行評鑑的具體安排，並於民國五十五年九月成立評鑑委員會正式展開評鑑工作，其期中評鑑報告與期終評鑑報告亦先後於民國五十六年及五十九年發表。(註十一〉由於該一發展計劃是由我國教育部與聯合國兒童基金會合作訂立，其評鑑工作亦獲聯合國兒童基金會及聯合國教科文組織派遣專家梅農(

T. K.

N. Menon

)參加及協助。該次評鑑在亞洲地區確屬首剖，時間上則適在美國初等、中

等教育法案(

ElemeMtary and

Se∞ndary

Education Act.

1965. 縮寫為 ESEA) 公

佈的次年，因此該次評鑑不論在基本觀念、設計、過程、內容、方法或是評鑑報告方面

均反映著美國 ESEA 法案中要求的精神，可以算是本世紀六十年代美國典型的教育方案

評鑑在亞洲地區的翻版。只不過由該次評鑑帶來的教育評鑑基木觀念與精神對於告:國當

前的教育評鑑工作並未產生多少影響，說不定由於近二十年歲月的沖酋早已被我們遺忘

了。但是以下數端似仍有重新強調之必要，因為這都可l能是了解當前教育評鑑的重要關鍵或起點 J

.

(1)該項評鑑已被視為該發展計劃的一部份，顯示評鑑與計劃的密切結合，評鑑工作可依照計劃中預定之目標進行，故評鑑之結果明確其體，效果亦較著。 (2}該項發展計劃之評鑑分期中與期終兩次，前者屬過程評儡.(

P

1"

ocess Evaluation

)

，具形成性評鑑 (Fonnmative ， evlaluation) 的作用;後者則屬成果評鑑(

Product

eval ua tion )

，其總結性評鑑(

Swnmative evaluation

)的作用。

(的該項發展訐劃之評鑑旨在掌握及保障其用於該計劃之經費確能產生預期之成效，避免浪費「公稽 J 。同時亦足加強執行該計劃人員的績效責任。用句更洩顯的話說就是

:出錢的人有權要求明瞭用那筆錢所產生的成果。用那筆錢來執行計劃的人自然也該有

責任向出錢的人交代清楚，証明那筆錢的確運用的極具成效及價值。、 (4)該項計劃的評鑑雖在形式上已相當完整，但從實質上去看它的評鑑內容與項目時，均不難發現評鑑與計劃之間仍然存在著相當的距離，如果從整個教育活動的過程來看，其評鑑仍僅著眼於輸入評鑑(

Input evaluation )

，其所謂的成果評鑑亦僅止於執行計劃的作業或行政部份，例如在該計劃的現階段目標中雖明列有「提高教師之素質J 一項，但在實施及評鑑中均限於在職教師研習會之舉辦、參加研習的班次與人數等項目，致於舉辦研習之實質成效如何?教師素質提高的情況如何則少顧及。換句話說:評鑑也僅在監督該方案之執行能否按預定之班次、人數泊在預定時限內完成研習。至於參加研習之教師有何實質收獲則未予考慮﹒關於這一點，我們也不宜苛求，因為那只代表二十年前的了解與趨向，只是教育評鑑觀念發展的一個階段。不過如果這種現象依然存在於三十年後的今天的教育評鑑中，則不能不說是一個值得深入了解與探討的問題了。姑不論上學四端對於自民國六十四年開始實施的各級學校評鑑有無影響，僅從近年來各方對教育評鑑實施之反應來看，美國在教育評鑑方面的觀念與作法顯然對我們有極大的影響，只是往往流於支離片斷，難獲正確而完整的了解，這在我國實施各級學校評

(7)

_120-教育評鑑劫探鑑時，對被評鑑的學校有關人員及實際評鑑各級學校的專家來言尾，可能都會產生或多或

少由不良影響，間接影響到評鑑實施的效果及正確教育評鑑觀念的建立，也許這種缺失

可以從了解近世紀以來，教育評鑑觀念及實施毛主美國發展及演變的整個過程，來獲得彌

補。不過這種了解須以美國教育觀念及教育研究的發展為基礎，始能窺其全貌。可惜這

一類的文獻不多，國內學者譯介的可能只有兩篇:一篇是 J

ack C. Merv

in一九六九年發表

的文章。(註十二〉另一篇則是 w.

Jamcs

Popham 於一九七五年出版的「教育評鑑」一

書的第一章。(註十三〉顯嫌不足，今僅以個人管見所及，本得窺全貌之原則，簡述美

國教育評鑑在本世紀之發展模概如次: H 首就美國的教育觀念、來說;杜威(

J ohn Dewey

)的教育哲學實為其根源，視教育為個體獲致完美發展之歷程的主張已被普遍接受，實用主義 (Pragmatism )的哲學

也一直是美國精神的代表。這些都是我們所熟知的，自然無庸贅述。

目次就美國的教育研究來看:美國人一本實用哲學之精神，往往從應用或費用的研究著手，然後建立學理進行理論的研究。教育研究自不例外，學校教育的實施是從事教育的費用研究的最好園地，因此美國的教育研究便以研究責際的學校教育問題為核心，其研究內容大都集中於: @學生:有沒有學好?怎樣才能學好? @教師:有沒有教好?怎樣才能教好? @教材:那些教材比較好?那種組織教材的方式較好? @學校:什麼樣的學校最好?要具備什麼樣的條件才是好學校? 當然這四個核心問題都是以同一個社會背景為基攘的，而且相互密切關聯，無法孤立研究的，例如師生關係，教學方法、教學內容以及教學環境等問題之了解均彼此關聯蒼，同時也必須與其社會緊密桔舍不能脫節。不過在這襄最值得我們強調的還是:每一個核心問題的研究都必然與其價值判斷息息相關，而應用研究所追求的主要價值，不在

於「真J ，而在於「好J ，在美國一般人的心目中，好就是有效用，有效、費用就是價值

。因此我們可以說:美國教育評鑑的發展是由於美國的教育研究注重應用研究而格外蓬

勃，而且美國教育評鑑的發展是與其教育研究(尤其是教育的費用研究〉的發展相伴而

行的。也許這正是為什麼美國人在探討評鑑的意義時，格外強調評鑑與研究不同的一大原因吧! 的根據以上兩點之說明，我們可以進一步來探討自一九00年以來，教育評鑑在美國的發展狀況。大體上我們可以把它區分為下列四個階段來說明: 第一個階段:可以概指一九 00--九三。這三十年，在這三十年中的教育評鑑以教育測量(

Educátional measurement

)與學校調查為主要內容，茲分述如下:

@教育測量:桑代克(

Edward L.

Thorndike) 的教育心理學及行為心理學(

Be-ha

,

vioraI

Psychol嘻的的挑戰是教育測量發展的主要動力，當時僅蒼眼於學生的學習成

果之評量，教育測驗極受重現，時至今日仍有入調教育評鑑 ~O 教育測驗，也有人把這個階段看傲是教育評鑑的教育測驗時期。其實就在這段時間內還有一件大事是與教育評鑑

(8)

_121-師大學報第三十期

直接關聯的，那就是學校調查( Sch∞ 1

Survey

)。

@學校調查:一九一七年 M

E.

Haggerty 所做的學校問卷調查，雖然僅在了解教育測驗在學校教育上所產生的影響，但自此也引導教育評鑑從學生學習成果方面轉向學校

行政及有關狀況之評鑑。(註十四〉而更重要的是自一九 0 一年成立的大學入學考試委

員會 CCo l1ege

Entrance Examination

Board，}囡開始致力於解決大學入學學生教育程度

的問題而建立的認可(

Accredi

tation) 制度。認可制度的建立雖然也是從關心學生的學習成果開始的，但在決定認可過程、訂定認可標準及實施認可的努力中，為後來學校評鑑(

Instrtutional Evaluation

)樹立了一種可行的典型。但實質上，當時都是聘請專門人員

依攘既定之標準，實際到可能被認可的學校去進行調查和了解，所以不論在觀念上、方

法上或在內容上都對教育評鑑產生了極為深遠的影響，這對大學評鑑的影響尤為顯著。

同時此一制度的建立也促使教育評鑑的領域從僅重學生個人的學習成果漸漸轉變為兼童

學校的素質之評鑑了。

第二個階段:指一九三0到一九四 0 年這十年，這十年是現代教育評鑑發展中的第

一個鼎盛時期，也是教育評鑑的奠基時期，若平重要的基本觀念都在這十年中確立。其

最重要的成就可以 Ralph

W. Ty

ler 領導下的八年研究 C

Eight

Y 個r

S tudy

)和一九三

三年成立的中等學校標準研究社( Coop凹的 ive

Study of

Se∞ndary

School Standards

〉的努力成果為代表。 @八年研究旨在比較進步教育(

Progressive elncation

)與傳統教育方式的成效，並進而証明進步教育是否真比傳說教育的效果好，而如何評鑑兩者之成效坤一直是最難解決的棘手問題，直到 R

álph W.

Tyler 接替主持該項研究才算找出了解決途徑，那便是後來發展出來的所謂「行為目標J

(

Behavioral

Objectives) 的確立的辦法，有了事先訂好了的明確而文具體的目標，然後攘以評鑑其達成的程度，自然就簡易得多了。同時在內容方面擴及批倒思考的學習成果之評量，從學生學習成果的評鑑中完成其課程評鑑之目的，正是後來教育方案評鑑的雛型。至於 Ralph

W.

Tyler 根據八年研究之經驗提出來的一些基本的教育評鑑觀念則留待討論教育評鑑的功能時再行說明。 @中等學校標準研究甜亮在一個由美國全國六個地區的認可機構的代表組成的常設委員會的主持下展開其評鑑研究工作的。該社於一九四 0年出版的評鑑規準(

Evalua-tive Criteria

,

1940

)是他們具體研究成果的代表，然而其更大的貢獻封在於改正了認可制度下僅求保持最起碼的標準的評鑑觀念，而極力促使學校努力追求最好的工作表現。並且開始探尋好學校應其備的各種條件及評鑑學校的具體步驟及方法。國內部份評鑑專家所謂的認可評鑑的模式想即指此而言，但是實際上由該社研訂的評鑑過程與方法早已與早期認可評鑑之精神大異其趣，這可從該社出版的評鑑規準初版中窺知一二。當然

無可否認，認可評鑑也深受其影響，做過若干顯著的修正 c

第三個階按:指一九四 0至一九六 0 年這二十年，這是美國教育評鑑發展中的低潮時期，中等學校標準研究社出版的評鑑規準雖r仍繼續研究修訂，並於一九五0年及一九六 0年出版第二版及第三版，但由 Ral戶 W. Tyler 倡導而發展的教育評鑑運動熱潮姆大

(9)

_122-教育評鐘初探有日暮塗遠的跡象。也許是由於 RalphW. Tyl 缸所設計的具體界定教學目標的過程，在工具心理學(

Operant

Psychology) 的助長下，行為逐漸被逐層肢解為現碎的片段而失其真貌，則據以評量的學習成果亦難獲普遍的信賴。教育評鑑於此不利情況頁，則因教育研究重點之轉移而趨向於教師評鑑與教學評鑑，而其評鑑之基礎仍建立於學生的具體表現(

Performance

)上，這種依據評鑑學生的學習成果來評鑑教師及教學的假定雖也有人懷疑，不過這方面的具體轉變部是近十年的事。當時的研究成就僅在否定了用評等

(

Rating) 的辦法來評鑑教師的價值。概括的說，美國的教育評鑑在這二十年中的進展極緩，成就也不多。其主要原因可能一則是由於當時評鑑工具的缺乏及評鑑技術欠精，尤其在評量學生學習成果方面，往往僅評量出表面的不太重要的部份，而無法評量到真正重要的部份，終致使多年努力下建立起來的系統評鑑的美好藍圖變成了空中樓閣。人們雖然相信教育評鑑是教育改進的鎖鑰，但如今不由不使人懷疑它實現的可能性了。再則由於評鑑工具僅限於成就測驗，所引起的問題及反省亦降低了評鑑工作的價值。例如: @測驗獲得的分數變成了學生學習成果的代表，結果為了提高學習成果便首目地追求較高的測驗所獲得的分數，教師可以僅教測驗中的題目，學生可以專心王軍磨參加測驗獲得高分的技巧，學校行政人員也可以千方百計設法提高學生在測驗中獲得的分數。直如自草案欺人。 (爸在評量學生學習成果時往往懂著重於當前的成就，而當前的成就如從長遠的觀點來看，似乎叉與未來的或長期的成就無甚相關。何況從教法上看來，若平對當前學習成果的提高頗具成效的教學方法，反而在學生的學習活動中產生顯著的消極反應(格外是情緒方面的) ，嚴重影響未來的學習成果，也就是說在急功近利的要求下所獲得的學習成果雖高，但實質上甜可能完全是反教育的。 @何況既使在評鑑中發現了顯著的缺失，也足以証明這些缺失是由於教學或教師造成時，教師仍可以「日盡全力 j 來答覆，當然教師的答覆可能是忠實的，但是自一九三 0 年代以來人們所深信的「評鑑是教育改進之鎖鑰」的信仰，卸因此而產生了動搖。以上這三個實例顯然都不是指教育評鑑的實施內容說的，而只是對於評鑑結果表示懷疑，而深入研究求証，是對於教育評鑑所做的研究，也就是對於教育評鑑所做的「評鑑 J '只不過沒有用教育評鑑在當時所用的方法和過程去進行，而是運用實地的觀察方法完成的。其結果雖然降低了教育評鑑的價值，但也產生了積極的作用一那就是使教育評鑑的實施在這種機戰下，發現了觀察法在教育評鑑上的重要，因而教育評鑑的方法也逐漸加重寶地觀察的運用，研究改善觀察的技術(

Observational Te chniques

)。可是這種發現在當時真正受益的是教育評鑑的研究(

Evaluation Studies

)而不是教育評鑑的實施，對於教育評鑑實施方法的改進來說，在當時只能算是一個可貴的契機。可能直到今天，觀察法的運用依然是教育評鑑實施上尚待更進一步研究改進的重要課題。第四個階段 t 就是指自一九六 0 年到目前這段時期，也是美國教育評鑑再度蓬勃發展的時期，其主要的動力或原因可如下列數端:

@課程改革運動:六0年代的美國在太空科學競爭中，因俄國的領先而處於劣勢，為

(10)

-123-師大學報第三十期

急起直追，乃全力從事學校數學科及自然科學的課程改革，後來逐漸及於所有學科。結

果一時形形色色的新課程、新教材、新設計充斥，為了能做一明智的選擇，勢需正確之

評鑑;為了能有更好的新課程，勢需於課程發展中不斷評鑑;前者即總結性評鑑，後者

自H 形成性評鑑。〈註十五〉

@教育上的問標管理 JManagement

by

Objectives) 觀念:目標管理(縮寫 MOO

)

本僅用於工商界，一九六三年接任美國總統的詹森(

Lyndon

B. Johnson

)因對國防部

長麥納瑪拉(

Robert

McNamara) 將福特汽車公司(

Ford Motor Company

)的管理技術

運用在國防部的業務上的成功極為讚賞，而鼓勵政府各部門採用 ρ 自一九六五至六七年

並舉辦了不少的研論會讓當時的健康教育福利部(

Dep

t.

of Health

,

Eduation

,

and

Welfare

)學習國防部的管理技術。當然系統分析(

SystemAnalysis )

，成本一收益分

析(

Cost - benefi t

An

alysis

)、 P

P B S ( P

,

lanning

,

Programming

,

Budgeting System

)

，以及 P

E R T ( Program Evaluation and Review Technique

)等觀念與技術也隨

著 M ，BO 逐漸成為教育事務處理上的基本依攘和內容。後來與教育評鑑有密切關聯的決策(0.自ision ma~ing )、績效責任( Ac∞untability )等概念差不多都是從這襄演變出來的。但是 MBO 對教育評鑑所產生的最大影響還在於行為目標模式的確定和輸入一輸出評鑑模式的應用，前者是與Ra lph

W.

Tyler 與 Benj

aræn .

BloOII靜人的理論基礎相結合而完成的。(註十六〉而後者則僅來自系統分析的粗淺應用，J但系統分析之應用於教育評鑑或教育的理論基礎，卸還有待深入一層的探討和認定。、這聯邦政府之介入:上學N1BO 之觀念連用於教育，影響教育評鑑，始於聯邦政府之介入已

極明顯，但更重要的是聯邦經費在學校教育及教育研究上的運用，一九六五年的初等及

中等教育法案附帶規定按該法案 I 與 E 兩項下接受聯邦經費資助之教育方案，均須提交

評鑑報告，並須將其評鑑計劃列入其教育方案中 9 一九六三年通過及一九六八年修正的

職業教育法案(

Voeational Educaion

Act) 也一再強調各州及地方對各職業教育方案實施評鑑之規定，並成立全國委員會對該法案的修訂案下的各項職業教育方案實施獨立的評鑑，同時亦協助各州成立州顧問委員會實施職業教育評鑑。一九七六年的九四一凶八二號公共法(

Public Law

94-482) 對職業教育之評鑑規定即達廿八種之多﹒(註十七〉這一類的立法雖藉加強各州及地方實施教育評鑑之責，使教育評鑑工作在全國各地普遍展開，但聯邦當局對教育評鑑之意義、評鑑之過程等均均無明確的說明與準則，而且具備教育評鑑有關知識與素養的人叉極為缺乏?美國的教育評鑑工作就在這種準備不足的條件下，強予擴展 5 一時各地實際從事評鑑工作的人員均感無前例可循只好各行其是 .的是所謂的評鑑模式便應運而生。可是我們必須了解:評鑑模式僅在提出評鑑的過程或方法，而不在說明評鑑之意義;雖然我們也無法否認這些所謂的模式對教育評鑑概念所產生的影響。如單從評鑑過程與方法來看，一九六八年f修廖訂的職業教育法案已使早期採用之認可評鑑的小組訪問 9 正式轉變為第三者的評鑑(

Third-party evaluation

)。所謂第三者是指郎不屬於撥給經費的一方，↓也也不屬於執行該教育方案的一方果應向出錢與用錢的兩方面報告。近年來美國教育評鑑的實施大都依接這個原則，委託

(11)

-124-教育評鑑初諜，

私人或學術團體進行和完成。此外，一九八 0 年成立的聯邦教育部(

United States

De-partment of

Education 更把支助教育研究與評鑑列為其中心任蕩之一，相信聯邦政府

仍將為教育評鑑發展的推動主力之一。

總之，近二十幾年來，美國教育評鑑的理論與實施都在上列三種因素下急劇發展，

使美國近二十年來的教育實施變成了教育評鑑的時代( Evaluation-of-edu臼tion

Era )

。雖然眾說紛耘，倒也多呆多姿，但展望未來卸還有一段艱苦而叉漫長的路要走，真可

謂任重道遠啊! 綜觀以上有關我國和美國的教育評鑑之歷史演變的敘述，相形之下，我國的教育評鑑顯然較美國遜色甚多，但是面臨的問題卸同樣艱巨，我國的問題在過份貧乏，而美國的問題均在過份復雜。顯然在過份貧乏的狀況下，不論建立正確的觀念或是創立完整的制度都是比較困難的。我們缺乏足夠的評鑑研究，也缺乏有力的推動教育評鑑的機構，也許我們還缺乏普遍的支持教育評鑑的力量和要求。因此目前我們除了要針對這些缺失加倍努力外，也該隨時提高警覺，不斷提醒自己:盲目地或冒然地移植或抄襲外國的評鑑制度或主張都是不智的，也都是不實際的。

奎、教育評鑑的界說

本節在就各教育評鑑專家學者所提之評鑑定義相互比照中，了解教育評鑑是什麼。但是我們要知道相互比照的目的僅在增加了解，而不在比個高下，找出一個最好的定義或主張，更不在集各專家之高見拼湊出一個「最周到的」定義來，因為有些定義彼此間可能是相互衝突，根本無法「共治於一爐」的。同時我們也要知道我們在美國教育評鑑格外發展下，所能接觸到的主張幾乎也清一色.的來自美國，國內學者所提主張中能與美國學者相媲美的實在難求。因此國內這類的研究也都以美國學者的主張為主。而且這些主張中文都是從評鑑過程或方法的立場所提出來的，這對增加我們關於教育評鑑之了解的助益並不顯著﹒而且萬一不能充份了解其立場與背景，說不定還會形成許多不必要的困擾，倒不如索性根攘我們自己實際上的經驗和了解，去分析我們自己的教育評鑑觀念和問題，當然這並不排除去參考外國學者專家的主張的可能性與必要性，而是要我們先了解了自己的實際狀況，知道了自己的優點和缺點之後，再去用批判的態度吸取外國的經驗，知所取捨而不去盲目跟進。這樣擻，在起初也許會失之於粗淺，但是教育評鑑是教育實施中的重要部份，它的理論也該從實施中慢慢建立起來，否則理論就會流於華而不實的裝飾，於事無補。就拿教育評鑑的意義來說吧!如果我們給教育評鑑所下的定義中充滿了許多只有評鑑專家才能了解的字彙和術語，那麼這個定義對於我們的教育評鑑工作必然是不會有多少幫助的。因為學者專家們建立理論，是為了要幫助我們了解事實的真相，指導我們在實施上的方便，如果我們連它的表面字義都不能切實了解，那麼這，種理論對我們叉有什麼意義呢?現在我們就根攘這種認識來分析及比較教育評鑑的界說

如下:

....,

(12)

125-師大學報第三 f 期首就評鑑一詞來看在中文字彙中雖確屬新創，但始於何人何時卸極難斷定。如就

「評」與「鑑J 兩字分別來看: r評」字的含義較為簡單， r凡對於事務之是非美惡有

所平議皆謂之評」。而「鑑」字則較夜雜，一般指其引申義，有鑑定、鑑別及鑑賞等義。合此二字用指英文中之 Evaluation 的現代含義，確有其獨到之妙處。因 Evaluation 在中英字典中均不譯「評鑑」而譯為「估價」。而 Evaluation一字在英文中使用已久，其含義因時代而變異﹒薔字突生新義，在界說上則遠不如另創新詞來得簡易。如就 Evalua

tion一字看，它本與價值(

valve

)密切相關，但現代含義的 Evaluation用在教育上，

卸往往由於過份著重過程與方法，而逐漸變得似乎全然忽略了價值的性質，形成當前美

國教育上實施評鑑的最大缺點，因此近年來有些學者倡導用教育鑑賞(

Ed

ucational

Con-noisseurship

)和教育批評(

Educational Cri

ticism) 來取代Educational

Evalua tion

，以糾正在用 Evaluation上的缺點，斯坦福大學(

Stanford

University 的 ElliotW.

Eis-ner 是最主要的代表。(註十八〉在這襄所說的「鑑 J 賞與批「評」正與我們所說的「

評鑑J 的含義相同。但是這並不能証明我們早已有了「先見之明 J '因為我們選用了評

鑑這兩個極具主觀成份的字，來指稱現代意義的 Evaluation ，做乎也說明我們一直是相

信:既使是現代意義的 Evaluation 也必然是主觀的，見仁見智的。結果使我們在教育評

鑑的實施上大力追求的客觀，量化的效果大打折扣，太多人懷疑它的可能性，也有人根

本否定它的必要性和價值。殊不知所謂的評鑑的主觀意義並非指全無公認的是非好壤，雖然忽略價值的主觀因素，也是缺點，但是全然無視於客觀及量化的價值更足以妨害我

們在實施上的發展與進步。

其次談到評鑑的定義:我們說評鑑的定義探討是在找出究竟評鑑是什麼，倒不如說是探求評鑑究竟應該是什麼﹒所謂「應該 J 常常是指我們的期望或理想，因此所謂評鑑的意義就是指評鑑在我們理想中的面目，也可以說:我們是在說明我們認為最理想的評鑑該是付麼樣子。然而這個理想的造型均是我們在實施的經驗中建立起來的，它不該是與現實全不相關的空中樓閣，也不該只是現實狀況的寫照。一般說理想是理論建立的動力，這與我們的目的及目標相關聯，而在實施中自然也會不斷追求更理想的實施方法和內容。這一切全活生生的在我們左右，並不是紙上談兵。探討教育評鑑的意義自然也不該例外，那麼我們不妨就依攘這條棧索，從我們周遭的教育現象開始。例如: 份我們是不是覺得這一代的孩子們的語文或某方面的程度日漸低落呢?我們這種感覺是否正確呢?我們有正確而叉足夠的証攘嗎?這些誼攘都是什麼?都是怎樣得到的? 我們依攘這些証攘所傲的解釋和結論是否合適無誤呢?如果這一切全足以保証我們覺得這一代的孩子程度日漸低落是對的，我們還會間，為什麼會低落呢?是什麼因素使然的呢?教得不好嗎?教材不好嗎?是社會風氣不好嗎?還是學校辦得不好呢?但是在我們去找出導致學生程度低落的因素之前，我們卸叉必須先弄清楚怎樣才是教得好?什麼樣的教材才是好教材?什麼樣的社會風氣，什麼樣的學校才是好的?然後我們還要問怎樣才會教得好?怎樣才會有好教材、好社會、好學校?怎樣才會使我們的孩子們的程度不再低落下去?甚而至於我們還要設法知道怎樣才能使我們的孩手們的程度不但不再低落自

(13)

-126-教育評鑑初探反而會日益提高?因為我們相信孩子們的程度日益提高是好的，提晶孩子們的程度才是我們的目的﹒我們並不是只為了滿足好奇而去了解和証明孩子們程度低落下去的事實〈

Fact)

，而是要追求理想，找尋達到理想的道路。這一連串的問題的認定與解答，處處都與我們的價值判斷(

Judgement of

value) 息息相關，這正是教育評鑑概念發展的根源，許許多多的教育評鑑理論都是從這一類的問題中發展出來的。大體上說:英國的教育評鑑幾乎就是這樣，從關心孩子們的程度問題開始，進而研究課程及課程評鑑，近年來才由於經濟不景氣的種種問題，漸形強調學校評鑑對決策與讀效責任的重要，然其內容則仍以學生學習成果之評鑑為主體。這從英國教育科學部於一九七四年間設立的 AP

U ( Assecsment of

Perfonnan臼 Unit) 專責監督學校學生學習成果的品質，以提高學生程度的措施中看到英國教育評鑑發展的趨向〈註十九〉和他們賦予教育評鑑的現代意

義。

且我們是不是覺得我們的學校化費了大筆的教育經費，而實際上均沒有達到我們預期的效果呢?為了証實我們這種感覺是否正確，當然我們需要用最適當的人員、最適當的方法和過程去接集足夠而叉可靠的証諜，做最合理的解釋和結論﹒一旦証實了我們的這種感覺是對的，那麼必然會進而探商為什麼我們的學校不能達到我們預期的效果?因此我們除了對我們的學校做成本一收益的分析之外，還要探討一切與學校教育效果不彰的有關因素，包括學生、教師、課程、學校環境、社會狀況等。等我們找到真正的原因之後，我們還要繼轎找尋消除這類不利因素及促使學校達成我們的預期教育教果的途徑。從証實我們的感受正確，尋得原因，到找出解決辦法，每個階段都如同例付中所舉狀況一般，對於所有的有關因素和問題做一番客觀而完整的分析與判斷，再根攘其價值決定取捨，發展出各種不同的教育評鑑主張和理論。大體上說:近廿年來美國的教育評鑑就是在類似於這種情況下蓬勃發展的。他們視學校為正規教育(

fonnal

education) 實施的主體，強調學校管理的重要，重視決策過程，教育計劃、績效責任，便與教育評總相結合。自從一九八 0年聯邦教育部成立後，教育評鑑的地位益形重要，尤其在公立學校方面，幾乎變成了處處評鑑、事事評鑑的程度，評鑑的過程、方法和技術變成了教育評鑑的主要領域，評鑑的觀念和意義也從這襄發展出來，相形之下評鑑中最基本的價值意義反而被沖淡了。這段時期內美國教育評鑑發展的狀況，對我們來說雖然並不算陌生，但它對於我們產生的影響能否有助於我們的教育評鑑工作健全發展，去P還有賴於我們對於我們自己的教育評鑑問題的正確了解。比較以上兩例，足見英美兩國的教育評鑑雖重點各異，但結果卸殊途同歸，幾乎均涉及教育的全部。如就我國的當前狀況來看:例村中所學學生程度問題似較受普遍之重視，但諱於獨重智育之議，每不以此為教育評鑑之中心。例臼中所舉學校教育之成本效益問題倒尚未受到普遍之關切，甚至還有不少人認為我們用於學校教育之經費尚應大幅提高，這顯然與美國目前之狀況不同;因此我們對於學校的評鑑僅在了解學校的問題與困難，而不在要棄學校証明其所用經費已否達到應有之效能。近年來美國教育評鑑之理論與實施對我國之影響雖極顯著，但由於各有關條件尚付闕如，例如教育計劃、決策

(14)

-127-師大學報第三十期及績效責任等，不論在觀念或實施上均未獲廳、有之重鸝與配合，所以教育評鑑之實施難

免陷於孤立，形式的要求似仍高於實質上的效用。這種現象只要我們能夠參考任何一個

教育評鑑的定義來檢討分析我們的教育評鑑的實施，自然就會了然﹒今試舉下列三個定

義，比較說明之如下:

甘美國學者 Tim

L.

Wentling 說 r教育評鑑是搜集資料與判斷，以利於教育計劃之完成，教育方案實施之改進及滿足績效責任之要求。 J (註二十〉此一定義可包括教育評鑑之內容與目的兩部份，前者包括有關資料及各方意見(即判斷) ，後者格外強調教育計劃、實施方案之改進及績效責任三端。

亡3 英國學者 B.

Mac

Lbnald 說

r評鑑是資料構成(

Concei ving)

，獲得與溝通的

過程，期能做為某一特定方案做決策之指導。 J (註廿一〉此一定義之特點在於已注意

到資料之來源及內容並非搜集所有有關之客觀資料，亦非有何資料即探取何種資料，而

實具有按照評鑑之目的去取捨資料的意思，構成(

Conceiving

)一字尤足見其價值意義

之影響，此外則提出「決策j 與「特定之方案 J 兩個概念，足使評鑑之實施益形具體。

的紐西蘭學者 C. E.Beeby 認為: r評鑑乃自系統的搜集及解釋証據、至為採取實際行動而作價值判斷之過程。 J (註甘二〉此一定義之重點除在強調CD r系統的」方法、

@r解釋証攘」、 @r為採取實際行動」、及 @F作價值判斷」之重要外，並視資料為

「証攘 J '視証攘之搜集與解釋乃評鑑過程中的一部份。如果我們把我們從六十八學年度起開始實施的國民申學評鑑中的有關觀念與經驗，來與上學三個定義中所列教育評鑑之特點，分別對照著去檢查一下，可能會較深入的了解我們自己的泓育評鑑觀念。例如:

什在搜集資料方面:我們相信力求客說的重要，內容方面則依據教育部頒佈之評鑑

標準所列各項目之內容搜集，並盡量子以量化，故在評鑑結果的「最」的分析方面頗為考究，為該評鑑之顯著特點，但在到斷方面則仍限於部份專家學者之判斷。在評鑑立方式方面雖分自我評鑑，各投間交五評鑑及專家組成之小組評鑑三種，但實際上仍以小組評鑑為其最後結論，各縣市出版之評鑑報告內容即小組評鑑之結果﹒與自我評鑑或交互評鑑之結果的關聯似乎不多也不太顯著f 故視評鑑若專家判斷(

Professional

Jtidgem-ent

)之儼向仍極濃厚。且其評鑑結果之「質 J 的分析與「量」的分析問之關聯似乎也

不高。是以一般認為專家難求，應及早設法廣為培植。持在評鑑目的方面:不知道為什麼我們一開始就探用了何又在証明，而在改進J

(

not prove but

improve) 的方向，但卸沒有做徹底的發展，而只要求受評的學校及人

員「開誠佈公 J 不必隱瞞。甚至還產生了一種類比性的說明，把評鑑比做「健康檢查J ，還有人把評鑑專家比做「醫生 J '因此使我們的評鑑變成了僅在了解事實或現況，因此評鑑內容有些像是學校調查資料，最多也只在發現當前學校教育的「優點」和「缺點

J

'反而把改進的目，的置於次要地位，甚或全然忽略了:似乎我們從未較深入的想過，

醫生的重要工作不只是檢查而是治療疾病，何況我們也明知不能把受評的學校比做看醫

128

(15)

-放育評盤初探生的病人。因此我們的教育評鑑既使真能了解我們學校的當前真象也發現了真正的優點和缺點，但僅賴少數的專家也是無法達到改進的目的的。至於教育評鑑結果與發育計割的擬定能有多少關聯?能受到決策者何種程度的重視?以及所具有的績效責任的意義及可能性究竟叉能有多少?這一連串的問題恐怕都需要進一步探討才能答覆了。非到獲得這些答覆之後，是無法輕易斷言那些來自外國的定義對我國會具有多少意義的。國內引

介的這一類的定義或主張很多，都可以用以上的方式去比較分析，來獲得較深入的了解

。以上所學的三個例子和說明 F 只不過僅供參考而已，至於有關問題實質上的探討，且留在以下有關節次說明。

肆、教育評鑑概念的澄清

本節旨在用比較若平與教育評鑑有關而叉易被混淆的概念，來說明教育評鑑不是什麼。顯然這是由於字彙本身所引起的困擾，眾詞同義的現象本非罕見，但對介紹或建立一種新的概念或一個新詞來說，均是有必要慎重從事的。通常用舊經驗來說明新概念是便捷而叉必要的，但是我們也必須牢記舊經驗對新概念來說，只能說明新概念中與我們的某些舊經驗類同之處，當非全同，更無法由舊經驗取代。新概念的內容往往是除了?匯合某些萬字彙中的有關意義外，尚有其本身獨具的新生意義﹒當然這並非我們在這里討論的主題，只要我們知道在比較與教育評鑑有關而且極易被混淆的某些概念或字彙時，僅僅區分其不同是不夠的，至少還該進一步說明彼此間的，關係'才能有助於新概念的確立。同時不論說明彼此間的同異或關係，還都要依據我們自己的經驗與需要，也就是說我們先要知道那些與教育評鑑有關而叉易被混淆的概念中，那些是實際上我們最易混淆的?因此我們就該先去比較這些概念，而不是把所有有關的詞彙全拿來分析比較，更不是按照美國人的經驗與需要來決定我們該選擇那些概念來比較分析的。否則恐怕我們會未蒙其利卸已先受其害了。、例如近年來國內專家學者在這方面所做的，大體上說是以比

較「教育評鑑 J 與「教育研究」的不同為主，若平這類文獻在性質上雖均神似，但篇數

最多，內容也較充實。可是教育評鑑與「教育測量 J 之比較的研究或論述則甚少見，至於我們一般人所關心的「考核」、「教育觀導」以及始終威脅著我們的「考試」等概念是否也與「教育評鑑 J 相關?是否也需要區分?除偶有提及者外，就更少有人做較深入而實際的研討了。這種現象何以產生?以及這種現象所產生的影響如何?恐怕都是十分值得研究的問題。在這襄我們只是站在澄清我們對於教育評鑑的了解上，說明教育評鑑不是什麼?不過我們說教育評鑑不是什麼?只是說不就是、不等於、不完全一樣的意思，並不是說兩者全不相關、全不需要把那些與教育評鑑類似或易被混淆的概念之意義或內容應用在教育評鑑上。換句話說:我們要在避免教育評鑑的被誤解誤用的同時，還要積極的充實教育評鑑的實質意義。那麼現在我們首先要解決的問題就是決定選擇那幾個與教育評鑑類似或易被混淆的概念來進行比對了。在中文中一般有字義上類似的如:評價、評估、評量、估量、測量乃至測驗等都是，這種現象與英文中的字彙困擾並無不同，

(16)

_129-師大學報第三十期不過我們在應用或說明這些類似的字彙時，文習慣於把這些概念與英文字彙相對照，中譯英或英譯中的都有，而且譯法文仁智五見，因而在澄清觀念上叉會多增加一份負擔丸。男外在實質的含義上類似的如:考核、觀導、考評、評等乃至考試等，也都可能是易被我們與教育評鑑相混淆的字彙;至於某些在美國格外強調須與教育評鑑分清的概念如: 績效責任、教育研究等，對我們目前的教育評鑑來說，似乎反而不如考核、視導、教育測量、考試等概念來得更迫切需要分析比較說明了。因此我們就暫時先以這幾個對我們目前的教育評鑑影響較為顯著的概念依次說明如下: 科評鑑與考核 r評鑑不是考核 J 是我們第一次國民中學評鑑所特別強調的實施原則，姑先不論此一主張之利弊得失，僅就評鑑與考核兩者間不同之處來說:至少可舉出下列兩點:

(1)基本精神不同:通常我們所謂考梭，往往都必然包括了考被者與被考核者兩方面

，而且都是指上級施之於下級的，考核者居高臨下，對被考核者施行考核，進而明其功

過，據以賞罰。被考核者則僅能靜待判決，唯命是從，下焉者更曲意逢迎，顯然不合民主之要求。而評鑑則無評鑑者與被評鑑者之顯著對立，被評鑑者亦為評鑑者，是非曲直之斷定全以有關人員共同之體認為基礎，故自我評鑑實為評鑑之主體，自求改進不專賴

上級之監督與鞭策，自己是主人，不必逢迎他人意願，受評者固可得到評鑑者之協助對

本身可以有更深切的了解，但評鑑者亦須於受評者的合作下始能有較正確的了解與判斷，合衷共濟，求改進的目的始可達成，此正合乎民主與民治的精神。

(2)對象內容各異:如上所述，考核每不免考核者與被考核者之對立，兩者均以「人

J 為主體，以「人」來考核「人 J '權責為其根本，則上級必具考接下級之權威，自亦

以人為考核之對象。近代之考核雖力求客觀而公開，但訴諸考核者主觀之判斷的成份仍甚高，且考核之結果與被考核者之個人利害直接相闕，人皆以個人利金為重，凡無關個人切身利害者則少人關注。而評鑑則全然不同，非僅無上級與下級，評鑑者與受評者之顯著對立，且評鑑全以「事J 為評鑑之對象與內容﹒著眼於「事J 之處理過程，自計割、執行、檢討至再計劃之再執行、再檢討，週而復始，務求「事 J 之處理臻於完美。計劃階段之評鑑屬總結性評鑑，執行階段之評鑑屬形成性評鑑，而檢討階設之評鑑則總結性與形成性兼而有之。於各階段中，人皆須對個人經理之事務負責，依期達成，如有困難亦由評鑑中共同分析與克服﹒評鑑之結果亦僅用於再計劃與執行的改進，而非以用於判定某人之功過為目的。以上的比較只在說明評鑑與考核之不同，並非比較兩者之得失或利弊，以其各有其必要與地位，不可相互取代或混淆。評鑑與考核雖不相同，但並非說兩者問並無何關聯，反之，可能正由於兩者間本具相輔相成之密切關係，才易被誤解誤用的。如果說「對事

不對人」為評鑑之顯著特徵，但畢竟「事在人為 J '如全無對人之考核，恐「改進」亦

將難竟全功﹒近年來美國教育評鑑問題之討論頗以積效責任為核心，甚或有以積效責任為教育評鑑之主旨者，實則並非所有教育評鑑皆屬績效責任之範圈。(註廿三〉年來國內亦有「錯誤的決策比貪污更可怕」的深切體認，想亦同意評鑑重視績效責任之必要﹒ _130"'"

(17)

教育評鐘劫探再如:我國於六十八年決定全國實施國民中學評鑑前，輿論界亦提出「將評鑑結果非僅作為考核校長之依攘，並且也作為教育局長年終考核之依擴 IJ 的主張。(詮廿四)相信這全都是出於對教育評鑑的熱切期望。不過在這襄我們可以就將「評鑑結果 J 用作考核校長或教育局長之依攘的主張，做些補充說明，也許可以顯示出評鑑與考核兩者間的緊密關係。我們認為:如果我們所謂的評鑑結果是指某梭所獲得的最後總評或等第，那就是說 :如果某校經評鑑後發現優點多，無缺點或缺點極少，列入優等或甲等，則其校長之考績好，反之則校長之考績不好;顯然這樣做是不合適的，也是不合乎「評鑑不是考核」的實施原則的 P 但是如果我們把評鑑結果做極廣義的解釋，觀之為實施評鑑後對學校改

進所產生的成殼來看，則評鑑必然會有助於考核。那就是說:如果某校校長對評鑑中所

發現的有關該校之優缺點，並未重視，亦未針對其優缺點與全校有關人員共同商訂加強或改善的具體計劃或方案，切實執行，則有關當局自可據此考接校長反之，船某某慟令評鑑中發現的缺點甚多，評列等第亦甚低，但其校長卸能深入了解該校各項有關缺點與問題，並針對各項缺點與全校有關人員共同商訂具體可行之改進計畫1戚方案，認真執行，力求改進，則有關當局以此為考核該校長之依攘應屬合理。同時近年來先進國家對於教育評鑑實施之優劣的判斷，已自形式上的要求轉向於效用及影響方面，都認為好的教育評盤必然是能產生積極改進效用的評鑑。由此亦可說明評鑑可以引導考積的方向，考核亦可助長評鑑的教用，兩者相輔相成，並行而不悸。口評鑑與現導:視導一詞或謂與英文中 Supervision 所指者相同，但實質上我國教育觀導制度去。因政府體制與西方諸國不同而自有其特色，例如中央、省(市)、縣( 市〉三級觀導人員各有其視導對象，現行之駐區督學制度強調駐區脅學責任制等，自然均有其完整之體系。近年來由於教育輔導與教學輔導之實際需要，視導的內容亦因以擴大，但迄近目前為正規導人員之騏掌、權責、員額及任用各方面似均尚未達到完備而正常運作的地步。凡此種種現象無疑自必限制我們對於視導意義之說明，但在顯示親導與評體之不同方面，均可以目前我國教育視導之實施的一般趨向說明之。教育觀導制度之建立木在管理、監督與督導教育事務，教育觀導人員亦本為學校與教育行政主管當局之橋樑，也是學校教育實施之直接督導者，故觀導之性質近於考根，重賞罰，視察與監督為其工作重點，輔導部份之方向亦以離底推行教育行政當局之政策為目的、觀罵人員又均為教育行政人員，有權指示或下達命令，亦有權禁止或取締。而評鑑則全然不同，非但無考較、

賞罰、指示、取締等意義，且評鑑人員除要求共同參與，近年來主張由第三者進行之詞瞥，大

體均委託學術團體或機構進行。我國國民中學評鑑亦探納此種精神。但是由於實施上一直是由故府之教育部門主持，所謂接受委託之學術團體文非專門研究及實施教育評鑑之機關，評鑑人員亦多臨時應遲或應聘;各校自我評鐘又未獨蓋有之重蘭;因此我國目前之教育評鑑與教育視導之關係甚為種雜，例如依國民中學評鑑暫行實施要點之規定， r評鑑小組成員應包括@督學室主任或主任督學及督學;@主管科長或課長;@有關專家。」並規定「由專家為召集人 J

'

r教育部得視需要每年組成評鑑小組抽訪各國民中學J '於此足見至少國民中學之評鑑與平時之觀導殊不易全然分清，因由同一批人員先後實施兩

(18)

_131-師大學報告奮三十期

種不同性質之工作，對受評或接受視導的學校來說，實在極難改換其平時接受視導的態

度，而用另一種態度接受評鑑。抽訪小組雖亦名為評鑑小組，但畢竟抽訪並非評鑑，難

怪有人戲稱

r督學借同專家蒞校便是評鑑，督實蒞校無專家相伴便是視導。 J 也許這

正是我們的評鑑觀念建立上實際的困擾之一。

的評鑑與測量:在美國的教育評鑑發展過程中，我們不難發現教育測量(

education-al measurernent

)本是教育評鑑初期的主要內容，因此至今仍有不少人引用那個時期的

教育評鑑定義，認為教育評鑑便是教育測量，所以許多美國出版的教育評鑑書籍亦強調

評鑑與測量之不同，而重點文在於價值意義的有無，也就是說教育測量僅在了解現象，

教育評鑑才關心其價值，引申來說:教育測量之目的在比較學習者相互間之地位，或了解某一學習者在其所處團體中所佔之地位，而在教育評鑑中則無此必要，因其目的在判斷教育實施或某一教育方案的價值。教育測量為了比較，所以在內容上往往選定某一特質(如某一學科之成就) ，要求同組之每一個體使用同一種測量工具(如某學科之成就測驗〉進行測量;是一種單一取向的測量過程 (One-dïmensional process) 。而教育評鑑則在評定教育實施中某方案之價值，所以在內容上絕不能僅限於某一項因素或資料，而須由各種不同的方式獲得各種不同的資料或証攘，始能判斷;是一種多重取向的估量(

muti-dimensional assessment

)0 教育評鑑與教育測量雖然有如此顯著的差異，但在上舉之差異與說明中，卸又顯示教育測量實在是教育評鑑過程中，搜集資料或証攘的重要工其或來源，而搜集資料或証攘文是教育評鑑的起點，教育評鑑所最需要的資料或証接叉必以學習者的學習成果為最重要。因此我們對於教育測量的內容、技術與限制了解得越多越深刻，則越能為教育評鑑搜集越可信、越充足的資料與詛噱"作越有意義的評鑑﹒可情這類的問題在我國目前的狀況實在比美國來得更接雜，我們把教育測量稱為教育測驗，進而把教育測驗視為教育測量的全部，尤其是經過標準化了的教育測驗，在我們心目中

幾乎變成了最可信的科學工具，甚至視某生於某種標準化的教育測驗中所獲得的分數便

是該生接受該項教育實施的真實成果。近年來叉有人提出「教學評量 J 的概念，但其內容卸依然是以教育測畫中的成就測驗為主的。儘管我們可以把近年來教育測量中所重視的觀念如形成性測量與總結性酒.u量、常模參照測量 (norm!-~eferenced

measurement

)輿

規準參照測量(

Criterion-referenced

m個surement) 等作為教育測量討論的主要內容，但是如果我們不能充份了解成就測驗應用在評鑑上的限制，或是忽略了常模參照測量對教育評鑑所產生的不良影響﹒以及教育測量的單一取向的特點，那麼「教學評量」一詞的提出則不但無助於教育評鑑的實施，而且還可能妨害我們對於教育評鑑的正確認識。總之，教育測量確可有助於教育評鑑的搜集足夠之資料或証攘，如果僅憑教育測量當然無法完成教育評鑑之目的，但如無足夠的教育測量的知識與技術，也同樣是無法真正實施有強的教育評鑑的。倒評鑑與考試:如單就目前之國民中學評鑑來看，因迄未涉及學生學習成果之評鑑 '所以在一般僅與國民中學評鑑有關的人們心目中，考試似乎與評鑑全然無涉，但是如能稍知其他學校階段的評鑑，即可知考試在評鑑上可能發生的問題之嚴重了。例如我國

(19)

_132-教育評鐘劫探於民國六十五年實施的首次師專評鑑中間包括教育學科之教學效果評鑑;何況教育評鑑中最重要的資料和証懷就是以學習者的學習成果為主的;而考試成績常被誤認為是學習者學習成果的代表。因此早在十九世紀末期英國即有因依學生學習成果付給教師薪金( Pa~ent

by result

)而引起的不良後果; (註廿五〉廿世紀五十年代的美國也會發生過教師僅教標準測驗中的題目的弊端﹒近年來強調教師績效責任的教育評鑑'.也有類似

的顧慮。其實這都是由於教育評鑑之價值意義尚未能得到普遍的了解與重視的結果﹒我

國一向重視考試，目前我們最關心的學校入學考試(如大專及直跟牛等學校的聯合招生考試〉、留學考試、就業考試以及考試院舉辦的高等、普通考試與各類專業的考試等，也一直受到普遍的尊重與信賴，我們肯定這些考試的選擇功能，極少人會懷疑這些考試的信度和效度，也許由於我們相信選擇必然需要「標準 J '只要「標單」一致，保証絕對公率也就夠了。只有當我們對學校教育中的考試做實質上的價值意義考慮時，才會發生

「考試領導教學」這一類的宣難，但是最多也只歸咎於考試命題之不當，認為只要提高

命題技術、改革命題內容即可，而把這份改革的熱望寄託於教育測量，對教育評鑑來說，無疑地會使考試走上前面所說過的教育測量所走的歧路。但是同樣的，這也並非否定考試對於教育評鑑的助益，只-是我們必費強調千萬不可觀考試即教育評鑑，而應予考試以正確的評價。位。評鑑與研究:前面曾經說過，評鑑與研究這個問題較受國內學者之重視，發表的文章也較多。美國有關教育評鑑的著作中提出討論的更多，其中 J

ames W.

Popham 的分析似乎比較簡明完整，除提出兩者相同與類似之處外，並且把兩者最顯著的不同處衰列出來。(註廿六〉大體上認為教育評鑑為指導決策者的決策行動而了解現象，著重實際上的效用及價值，但其結論之普遍性(

Generalizability

)很低，每僅實用於其評鑑之情境或事件;而教育研究了解教育現象之目的則在尋求律則，重視真理(

Truth

)價值，故其結論之普遍性亦高，可應用於較多之情境或事件中。其詳細之說明，國內亦有相當忠實之介紹可供參考， (註廿七)可不多贅。但是實際上兩者間的差別及關係並非如此

單純，

J

ames W.

Popham

I1lP曾在區分兩者目的之不同時，格外說明尋求律則作成結論〈

Conc

1 u t i

on) 或為指導行動，形諸決策(decision)上，兩者只在其趣向之程度上有其差異t 並提

出鑒本研究(

Basic rescarch

)與應用研究(

Applièd

res回rch )之區分來說明教首研究與教育評鑑僅具取向上的差異，並非根本的不同。(註廿八〉更何況這還牽涉到我們對於近年來教育研究的新趨向的認識，尤其是近十年來，教育研究在教育人類學

CEdnca-tional

Anthropology) 與教育社會學 C

Edncational

Sociology) 的興起，以及廿世紀六

十年代社會急劇變遷的衝擊下，對於科學運動導致的量的研究 (Quanti

tative

Res個rch

)壟斷教育研究的現象有了軍陸的反動力量，終於報鋪了錯仰視 (Qualitative Res闊的〉的花朵。〈註廿九〉所謂行動研究 C

Act

i:

on Research

)與評鑑研究(

Evaluation'Research )

的日受重觀正代表這種新趨向，也說明了教育評鑑與教育研究間日益密切之關係。不過如果我們能深入一層去看這個問題，就會發現以上的說明畢竟還是完全站在教育研究的

立場所提出來的，一旦從教育評鑑的角度來看，則又將是男外一番臣說﹒那就是 Bl

a

i

I'l

e R.

(20)

_133-師大學報第三十期、

Worthen 與 J

ames R.'

Sanders 所說的探討的自主性(

Autonomy of the ingniry

)的問

題，也是 James

W. Popham 當年所忽略了的，可 i惜Worth.m 與 Sanders 的說明卸未能深

入。(註三十〉因為從表面上看，評鑑只是不能像研究那樣可以按照自己的意思選定問題，也不能像研究那樣只運用自己僅有的工具和方法，回答自己所能回答的問題;而是

要在工具、方法、技術、財力與時間均極有限的條件下，盡一切之可能，對所有有關的人

們認為重要的所有的問題做全盤的考慮，在眾說紛耘的狀況下決定或澄清評鑑的目的，選出那些人的意見或問題才是最重要的，那些資料或証攘才是最足採信的，處處為人作蟻，叉要面面俱到，顯然不能像研究那樣容易自己作主。i 但是實際上這是一連串的價值判斷與選擇，這里至少有兩個重要的影響因素:一個是評鑑者本人的價值觀念及價值體系，另一個則是敢治的因素，而前者文常受後者的影響。因此政治因素影響之有無才是區分教育評鑑與教育研究的關鏈，英國學者 Macllinald 即因有鑑於美國有太多評鑑人員參與決策的「怪現象 J '証明評鑑絕不具備研究應有之條件，而極端強調區分評鑑與研究的必要， (註卅一〉不過政治因素影響之大小亦與我們給予教育評鑑之定義相關聯，顯然我們如果探用Daniel Stuffleb個m 的看法，視教育評鑑在搜集提供資料或ð"ill露，會較採用 Michael Scriven 的主張，蘭教育評鑑乃判斷教育方案之價值所受到的政治因素的影響來得小。當然這叉是另一個值得討論的1大問題，也不是三言兩語可以交待清楚的。所以我們目前只能從教育評鑑與教育決策的關係上來稍做探討。我們都知道學校，格外是公立學校，其本身就是一種政治性的組織，足以影響其他政治性的組織，也必受整個政治體系的影響。(註卅二)因此學校素質之高下自必受到教育行政當局及主持教育行放的領導者之影響。而教育與社會、文化間交互影響之關係叉極夜雜，誰是決策者?如何決策?在在都與教育評鑑之意義息恩相關。評鑑者兼為決策者是否必然滅低評鑑的研究性質?是否評鑑與研究就會因此而分道揚鑼呢?近年來不是也有許多人肯定而且重視形成性評鑑對於政策導向的( policy-oriented) 研究的貢獻嗎?

B.

MacD:mald 說:我們最好是把研究觀為評鑑的一種，而不要把評鑑視為研究的一支。(註卅三〉這類有關講明評鑑與研究之關係的主張，正是我們於比較兩者異同之餘，不可不深切關切的問題。綜合以上對教育評鑑意義之探討，約可歸納出下列三點意見: l 我國教育評鑑之發展為時尚鐘，而受美國之影響叉極為顯著，所以對於美國的教育評鑑概念之演變做一番全盤而叉較深入的了解，必然會有助於我們對教育評鑑之正確認識 ;r 他山之石可以攻錯 4 應該是可信的。 2. 片斷的引介英美教育評鑑專家所作的評鑑定義刁遠不如從實際的、本身的教育問題中了解我們自己對於教育評鑑的需要，充實我們對於教育評鑑的認識來得更有意義。 3. 為了說明評鑑不是什麼而比較評鑑與某些易與評鑑相混淆的類似概念時，除了強

調其相互間之差異外，如能兼及其相互間嘯係之說明，則必將有助於我們對教育評鑑觀

念之澄清與正確教育評鑑觀念之樹立。 1 3 4