• 沒有找到結果。

第二章 文獻回顧

第一節 政策評估基本概念與重點

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

第二章 文獻回顧

在美國,系統性的評估最初是應用於教育及公共衛生領域,以評估方法進 行的研究可以追朔至1930 年代,社會科學家於各個領域都使用了嚴謹的方法來 評估社會方案(Freeman,1977),1935 年社會學家 Stephan 用實驗設計法對美 國羅斯福總統所提出的《New Deal Social Program》進行評估,評估至此才有了 較大規模且系統性的研究。到了1950 年代左右,大規模的評估更是常見,研究 者將評估應用各個領域,如:預防青少年犯方案、心理測驗學及精神病藥物學 治療、公共住宅方案、教育方案及社區組織活動上。

在1960 年代間,有關於評估研究、文章、書本等數量急遽成長,到了 1960 年代末期,評估研究早已是個發展相當迅速的領域。1970 年代,評估研究 在社會科學中展現其特殊性,不同種類的書籍開始出現,包含評估的第一本教 科書、探討評估研究方法論及評估限制等等的書籍出現,至1976 年,Sage Pub-lication 上刊載了第一篇有關評估的論文-《Evaluation Review》,到了 1980 年 代,根據Cronbach et al.(1980)的論述:「評估早已是美國社會科學中最活躍 的新境界」,雖然,評估的結果不一定會是頭版新聞,但是對於公民、方案贊助 者、決策者以及受到直接、間接影響的政策利害關係人等卻是至關重要的

(Rossi, Freeman, & Lipsey, 1999)。

第一節 政策評估基本概念與重點

「政策評估」的重要性來自於政府大量的資源投入,使我們有必要去檢視 政策績效、政策目標與政策執行的妥適性,並且釐清責任歸屬。針對教育政策 的評估更有其必要性,由於我國政府教育經費的投入逐年增加,根據教育部統 計處(2015)所公布的資料顯示,尤其在國中、小階段的上升幅度更是明顯,

由2008 年支出 2666 億元,到了 2013 年則達 3024 億元,且相較於幼兒園、高 級中等學校及大專院校等其他階段的教育經費支出,國中、小所佔比例最重

(42.7%),且我國教育經費約占政府歲出五分之一,近六年占了 GDP 的 5.2%

至6%之間,甚至高於德國、日本的 5.1%。因此,當政府大幅增加公共投資的

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

同時,政策評估的重要性將更加凸顯,政策評估不僅有提供評估政策資訊的功 能,還能作為擬定政策建議及分配政策資源的依據(李允傑、丘昌泰,1999)。

一、實驗評估的發展:測量、描述、判斷

按照Guba & Lincoln(1989)在《Fourth Generation Evaluation》歸結評估 於時代的演進,依序分成四個時期:第一代評估「測量」;第二代評估「描 述」、第三代評估「判斷」以及第四代評估「回應性」。且根據公共行政評估典 範的變遷,第一代至第三代評估為「量化政策評估」或是「實驗政策評估」,相 較起第四代評估的「質化評估」,第四代評估方法與前三代的方法論及研究重點 皆有相當大的不同,以下茲就其內容,探討前三代與第四代評估之特點及評估 理論的發展。

第一代評估概念的建構與發展,可以從「學校測驗」(school test)作 為起點,早期的評估,源於為了瞭解學生對於課程內容的理解程度,「評估」與

「測量」劃上等號,評估者的角色也僅是測量工具的操作者(曾冠球,2007)。

教育領域中最早的例子是 Rice(1987)對拼音訓練與學習效果的測驗 分析,該研究即為《The Futility of the Spelling Grind》(Rice, 1987),其以學童 的拼音測驗分數作為研究數據,且發現到學童研讀拼音的時間長短與測驗成績 並無顯著相關。早期針對學生解題能力測量的重要文獻為:Newcomb(1922)

所發表的《Teaching Pupils How to Solve Problems in Arithmetic》,其利用四個班 級作為實驗組,兩個班級作為對照組,實驗組學生必須透過研究者建議的方式 來解決問題,而控制組的學生則是採用與平常相同的方式,經過六個月的反覆 實驗,實驗組的學生在精確度及速度上都優於控制組的學生;此外,亦有 Hanna(1930)針對一千位 4 到 7 年級的學生進行三種不同「解題方法」(prob-lem-solving methods)的比較(Johnson, 1944: 398-399)。

由上述兩個研究可以發現,當時教育領域的測量評估研究著重如何能達到 好的效果,這樣的追求除了當時為強調科學管理的年代之外,亦受到John Stu-art Mill(1843)提倡應透過「科學途徑」(the science approach)來研究人類及

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23

社會現象等影響,致使政策評估的檢定基準,被置於「效率」與「效能」是否 有效達到預期目標上。

研究方法方面,欲有效測量效能及效率,需透過實驗設計、準實驗設計及 統計分析方法等來達致,評估方法以實驗室實驗法為主,強調測量、測度問 題,故此階段的評估方式又稱為「測量評估」(孫本初、傅岳邦,2009)。測量 評估到目前為止,仍被廣泛地使用在學生入學測驗、學校排名教師效能等領域 上(Gronlund,1985),我國目前也最常將測驗評估應用於教育實務現場,主要 用途為瞭解學生學習成效,以及評估是否為學生進行補救教學等(楊思偉,

2012)。

第二代的政策評估研究興起乃是為了修正第一代評估的諸多缺陷,舉例而 言,實驗室內的評估方式透過人為控制環境等變化,難以反映實際現象,且測 量導向的評估方法難以滿足當時評估的許多目的(曾冠球,2007)。因此,在第 二代評估中,最著名的評估研究為俄亥俄州立大學教育研究處所執行的「八年 研究」(Eight Year Study),計畫主持人的 R. W. Tyler(1983)在其所負責課程 研究計畫中建立了一套有別於過去將學生視為評估標的之評估,其嘗試將方案 目標加以運作化,並利用評估結果資訊分析其方案優劣,使得評估結果對評估 標地有了更直接的影響,在「八年研究」中,評估是為了使當時的課程設計更 加精緻,並確保該課程方案於未來能夠持續運作應運而生的。

綜上所述,第二代評估中除了評估者的角色從過去的測量工具「技術人 員」逐漸轉變為評估結果「描述者」之外,評估的目的也有了明顯地改變,評 估即是透過描述來評估方案的優勢、劣勢,並以實際結果是否達成方案目的,

作為判斷方案成敗的判準,即所謂「目標導向的描述途徑」(objective-oriented descriptive approach)。

1967 年後評估模型大量的出現,在教育的應用上,如美國評鑑學者 Stake

(1967)所提出的「外貌模式」(Countenance Model),其主張教育評鑑模式應 同時包含描述與判斷,而透過搜集課程方案的「先在因素」、「過程因素」及

「結果因素」後再對課程的整體進行評鑑;再者,Stufflebeam 等人(1971)則 提出決策導向的「CIPP 評鑑模式」(Context Input Process Product Model),他們

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

24

認為教育評鑑是一種過程,旨在描述、取得及提供有用資料,做為判斷各種決 定變通方案之用。Stufflebeam 等人(1971)認為,此模式的最大目的在於向學 校行政人員、教育方案領導人,以及學校教師們提供訊息,以便修正教育方 案。換言之,評鑑是為了作決定、從事選擇,進而改變教育行動促成教育改 革。

在我國,教育政策上採用CIPP 評鑑模式者,如:謝健全(1995)利用該 模式及深度訪談法,評估高中數理資優教育發展成效,並且根據該模式的「背 景評鑑」如方案目標、組織結構;「輸入評鑑」如師生來源、課程教材、經費設 備等;「過程評鑑」包括教學活動、教師角色等;以及最後「成果評鑑」如學校 效能、學生表現等,透過此四大評鑑要素進行評估,並給予相對應的政策建 議。從該研究中可以發現,單純的CIPP 評鑑模式並無法了解高中數理資優發 展過程中重要「政策利害關係人」之觀點,研究者透過深度訪談法補足了教師 與學生於「感受」方面之意見,並在政策建議上從學生及教師的角度出發,試 圖解決學生在數理資優班中對未來進路的擔憂,以及教師課程設計上的困境,

之後,亦有許多碩士論文以該模式來評估幼稚園多元智能發展、服務學習課程 及特殊教育推展等,仍再利用訪談法、教學觀察、意見調查表等來補充評鑑模 式不足之處(林凰茹,2013;張建茹,2013;唐雅蘭,2000)。

然而,評估發展至1980 年代時,卻在操作上面臨到評估者如何詮釋評估發 現的價值意義之問題(曾冠球,2007),以教育領域而言,當評估者僅將自己視 為一個價值中立的「描述者」便是狹隘了評估的意義,Stake(1967)認為「描 述」與「判斷」皆是評估中不可或缺的,因為不論是「描述」或是「判斷」,兩 者皆是評估中基本且重要的作為。當評估者僅是單純的闡述方案中有亮點、有 價值之處時,如此的評估是不完全的,在教育評估中惟有透過完整的描述與判 斷才能達致完整的評估,而此時的評估亦應用至社會方案領域當中,因此,判 斷評估不僅是加入了評估者自己的判斷,也透過「評估標準」及「嚴謹的論 證」對政策進行周延的分析(林鍾沂,1987)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

25