博物館教育活動評量的意義與重要性 - 國立臺東大學教育學系文教行政碩士在職專班

什麼是評量？評量有哪些種類？為什麼要進行評量？由於本研究屬於評量研究，因此以上的問題便應該先釐清其意義。

博物館就其體制上雖有別於學校教育，但在活動實施評量上，仍可套用教育理論的教育評量進行分析與探究。Korn（1989）曾表示博物館評量所用的理念和方法，許多借自其他領域，例：教育和社會科學、行為心裡學等。1965 年美國國會通過初等及中等教育法案，將聯邦政府經費分配到地方教育機構，並規定受贊助的方案必須實施評鑑，因而使評鑑活動開始風行，也促成研究機構發展教育評量的方法，並提供訓練的機會，更使得教育評量走向專業。簡茂發(2002)指出美國在「八年研究」（The Eight-year Study）時代之前，強調的是 "Measurement" 以量化的方法取得正確可靠的數據；到後來則認為應該從教育的目標、人格的發展各方面來進行評量，亦即除了客觀的數字之外，尚須有一些價值標準來加以衡鑑，

而將 "Measurement"提昇至"Evaluation"；之後，學者們又將"Evaluation"提昇至

"Assessment"的境界，強調評量時應考量各種相關的整體情境，從各種可行的途徑，蒐集全面性、多元化的詳細資料，再從各個角度和不同觀點加以比較分析與綜合研判，進行整合性的詮釋，以獲致充分的了解。（簡茂發，2002）

評量常被簡單的定義為決定某一事物的價值，是一種涉及價值判斷的過程，

藉以提供改進方向與進行回饋工作。評量可運用於各領域，教育評量的目的，便是對教育現象做出價值判斷。評鑑制度雖由來已久，然不論評鑑的定義為何，其目的皆是要透過評鑑歸準及運作的探討，進而改善其不足，以達成更好的成效。

不論何種形式的評鑑，皆是持續進行的活動，對蒐集的資料進行量的分析與質的敘述，再回饋到受評者進行持續改進修正，繼之再度進行評鑑，週而復始的持續發生，是一個連續性、系統化的歷程。Mclean（1993）認為「評量是一項周到的評鑑工作，並且可以研究某些事情的可行性與有效性。（吳鴻慶，2003）」評量最終的原因，是為了幫助改善計畫方案、產生知識進而做出更好的決策。而評量結果的使用，可讓我們獲得方案上的支持，重整資源並提高效益以回應機構需求。

（Laura & Lindsey，2009）

博物館教育活動首重規劃，然而規劃與評量是一體兩面，因為評量是檢視教育活動執行成果的工具。評量的目的除了檢視博物館內部組織、人員是否健全外，

亦在衡量活動的規劃執行，是否使觀眾與博物館產生互動、達成預期成效。漢寶德（1988）認為博物館教育效果評量是很重要而且很基本的問題，負有教育使命的博物館生命，緊繫於評量所得的回饋，評量涉及到博物館的存在價值，與博物館學理論的研究。（漢寶德，1988）

教育評量的目的是為了瞭解教育內容不足之處為何？有何可加強之處？以做為提升教育活動品質的參考。因為評量可使博物館有效掌握觀眾需求、評估是否達成館方或教育活動目標、衡量活動或教育型式是否受觀眾喜歡等，教育評量工作對博物館整體發展有其必要性。（吳鴻慶，2003）

教育活動的品質或類型、教育對象、活動的接受度等透過評量，可讓館方教育人員掌握未來發展及規劃方向。因此，評量資料對教育工作的推展，具有良好的輔助成效。教育活動評量，是對活動規劃前，預測其目標與執行方針提供參考數據，或對活動本身做進一步的省思，以瞭解活動的優缺得失，並作為下次活動參酌依據。經由活動評量，可檢視博物館教育政策是否擬定妥當，甚至檢討改進博物館的經營管理。（黃淑芳，1997）所以評量工作具有兩層意義：一是在事情還沒發生前，就可以先有預先的判準，知道事情執行的成功機率與可能遇到的阻礙等；二是當事情結束後，可以提供檢討、改進的依據，可作為下次進行類似事情時的參考。（吳鴻慶，2003）

蔡嘉恆轉譯 Weiss，在《Evaluation: methods for studying programs and policies 》一書中對評鑑給的定義(引自 Thomson & Hoffman, n.d. )：評鑑是針對活動或政策的執行與/或成果進行系統性分析，並與一些潛藏或外顯的標準作比較，目的在於協助提升該活動或政策的成效。Weiss 並對這個定義中的幾個關鍵詞句加以說明：系統性分析（systematic assessment）是強調評鑑的研究本質。不論是以質化或量化的方式進行，都必須遵守嚴格的、規劃良好的研究策略。特別是在教育評鑑上，因為教育的成果通常是複雜難以觀測的。活動的執行與成果（operation and outcomes of a program）是評鑑真正著眼的地方。有些評鑑研究的重點是過程，有些著重結

果與成效。教育活動評鑑通常兩者都加以測量。比較的標準（ standards for comparison）是指一系列評鑑結果與比較的標準（expectations or criteria）。有時標準來自活動本身的目標或目的，有時來自活動贊助者、經營者、執行者等人所設定的目的。提升活動的成效（improvement of the program）意指評鑑的目的不在指責做的不好的地方，而是要提供建設性的意見讓活動能進行得更好、資源能更有效的利用。(蔡嘉恆，2003)

安奎(1989)在其論述中指出，博物館評量研究可促使博物館人員更瞭解觀眾，

提高工作經驗，評量的結果可供館方做為政策決定、活動執行的改進參考，提高服務品質。同時提出博物館評量研究的原則：

1. 博物館各種活動的目的，是使觀眾或參與者能學習知識，觀眾是否學得知識，可由觀眾或參與者的反應而瞭解。博物館工作人員辦理各類活動時，都認為非常成功。但也要瞭解觀眾及參與者對活動的評價，評量可完成此一目的。評量是使觀眾之間建立相互影響的關係，要能達到相互影響是評量研究的首要原則。

2. 評量研究要具有科學精神，使用正確的抽樣方法、設計方法、統計資料分析方法，把收集的資料完整的、系統的表達出來，使研究結果更具科學精神。

3. 考慮人的特性。對人的行為研究，要注意到人們經驗、知識水準，對於問答及問卷可能產生的變異性。評量研究通常要採取多種方法同時進行，以獲得正確資料。(安奎，1989，pp.149-150)

于瑞珍（2001）引用美國教育評量大師 Stufflebeam 最常被引用的名言「評量的目的是為了改進，更可以清楚地呈現，評量在教育品質的確保與提升上所扮演的角色。」在實務上，教育評量的實施多以方案評量（program evaluation）型態呈現。方案評量的任務包含監督教育的服務，以及針對不同群眾的反應，能夠做出正確的回應，或是創新性的變革；其目的是確保教育的提供是完整且成功的。

Loomis（1987）在《博物館觀眾評量》（Museum Visitor Evaluation）一書中提到以評量改進博物館教育方案的理念，與教育評量方向不謀而合。Loomis 更建議評量的焦點，應放在各活動所呈現的迥異特徵，以及活動的目的。（于瑞珍譯，2001）

壹、評量的種類

于瑞珍（2001）提出由 Stufflebeam 與同僚們共同發展以決策為導向的 CIPP 評量模式。CIPP 模式主要的論點：評量不是為了證明（prove）誰是第一，或是誰好誰壞，而是為了改進（improve）。其次 CIPP 模式也是相當完整而全面性的評量模式。CIPP 是 Context、Input、Process、Product 四個英文字首的組合字，他們代表了四種評量型式。分別為背景評量 (Context Evaluation) 、輸入評量 (Input Evaluation)、過程評量(Process Evaluation)、及成果評量（Product Evaluaiton）。使用者可依其欲達成之評量目標，選擇合適的評量型式與方法；而四種型式的評量可分開使用，亦得依需求自行組合應用。（于瑞珍，2001）

表表

表表 2-6 CIPP 模式的應用模式的應用模式的應用模式的應用

型式目標

背景評量（C）

定義機構的背景環境，包括評估整體狀況及優缺點。

確認目標觀眾和評估他們的需求確認提出需求的時機

診斷問題

判斷建議的目標是否足以回應評估所需得的需求

輸入評量（I）

協助機構從本身的需及和環境的脈絡中考慮替代方案，並發展出可行的計畫

確認、評估相關的可行途徑（包含現行的在內），協助分析、選出最適合的途徑

探詢、考慮相關的障礙、限制，以及潛在可用的資源避免投入預期將會失敗或浪費資源的變革

過程評量（P）

提供有活動使否準時、是否依計畫執行，以及是否有效運用現有資源等資訊，回饋給相關人員參考

當需要修改或詳細說明計畫內容時，可以提供指導。

定期評估參與者接受或實現他們所扮演的角色的程度。

針對實際在執行的計畫，提供一份廣泛的紀錄，包括完整的支出帳目，以及觀察者與參與者的整體評價。

成果評量（P）

廣泛地瞭解該計畫的影響，包含預期或不預期的，與正面或負面的結果。

蒐集、分析相關人員對該計畫的成效所做的評論。

查驗結果。

資料來源：于瑞珍（2001），p.21。

活動規劃者要進行評量有兩個用意：一是評量活動是否成功的達成目標，一是在活動進行中是否能做一些修正。依照時間前後粗略區分，評量有兩類型：形成式評量（Formative evaluation）、總結性評量（Summative evaluation）。 (高慧芬，

2001)

1. 形成式評量：在活動進行中所做的評量，以提供資料給管理這在活動運作上加以修正。著重過程目標以及活動本身。

2. 總結性評量：施行的時機是活動告一段落或是全部完成之時，乃是為了評量活動是否成功而設計。

一般教育活動規劃依作業時間可以分為前置評量（front-end or preliminary Evaluation）、形成評量（Formative Evaluation）和總結評量（Summative Evaluation）

三種。（黃淑芳，1997）

1. 前置評量（教育活動規劃前）：包括對最早先教育活動應厭的回顧與檢討、

有關該次活動所需數據之調查與收集（如過去學習成效、民眾對活動的期

在文檔中國立臺東大學教育學系文教行政碩士在職專班 (頁 43-50)