多面向評量系統 - 九年一貫課程「自然與生活科技」領域國小學童科學本質多元化評量工具之發展與個案研究(3/3)

V 型圖專案計畫延伸調查實驗室實作

操作技能

概念圖

關係圖發表

使用、結果評定與師生角色等六方面來分析兩者特質上的差異：

作業、實作、成果展示、學生各項記錄、量表、示範、學生自我評量、同儕評量、以及檔案評量。

鄭富森（1999 民 88）認為多元化評量就實務而言，與傳統紙筆測驗最大的差異在於：多元化評量材料主要由三大類材料所構成，即開書考試、在家考試、與非紙筆測驗。

陳明終（2000 民 89）則認為多元化評量應包含下列的作法：（1）評量內容多元化；（2）

評量方式多元化；（3）評量歷程多元化；（4）評量人員多元化；（5）評量標準多元化；（6）

評量環境多元化；（7）評量時間多元化；（8）評量參考資料多元化；（9）評量科技應用多元化；（10）評量通知單呈現多元化。

陳佩君（2002）定義多元化評量為根據教育目標與內涵，在真實性的學習歷程中，蒐集全面性的資料，將其結果適當的詮釋與運用，以激發每個學生能進行有意義的學習，促進教師實踐有效教學的動態歷程，為達此目的，須有評量內容多元、評量方式多元、評量人員多元、評量標準多元，因而統稱為多元化評量。在此所稱的四項多元化，再更進一步說明如下：

1. 評量內容多元：指符應多元的教學目標、課堂的教學內容，涵蓋認知、情意、

技能等層面。

2. 評量方式多元：指包含觀察、口頭詢問、實驗報告、成品展示、專案報告、紙筆測驗、作業、操作、設計實驗…等實作評量，及檔案評量、多元智慧評量等各種評量方式。

3. 評量人員多元：指納入促進學習的所有相關人員，含老師、學生、同儕、家長等。

4. 評量標準多元：指涵括能力、進步與努力等不同面向，區分不同能力等級的指標。

洪碧霞（n.d.）認為在提到多元評量時，要特別注意的是：實施多元化評量的要義不在方式或內容的多樣化，而是在於能充分而有效的反映教育目標的全貌。因而傳統的筆測驗，能經濟快速地評量出學生的知識概念，當然亦是多元化評量中的一種；甚至如果能加以靈活變化通地設計，許多重要的學習成果依然可以採用有趣或真實的素材以客觀式題型進行評量。

楊銀興（n.d.）認為從國內學者對多元化評量所引申的觀點來看，雖然多元化評量的概念從不同的觀點切入，似乎有不同的意涵。不過，彼此並沒有衝突，而且更是擴充多元化評量的概念，各項內涵的所包括的內容，也正是今後教師教學評量所應努力的地方。

（三）、多元化評量的方法

以往傳統的學習評量，大都採用標準化紙筆式測驗（paper-and -pencil test）或教師自編的課堂測驗（teacher-made classroom test），為時已久，習以為常。由於紙筆式測驗較為通俗，

使用普遍，易於被非專業的人所誤用或濫用，而造成許多不良的結果。因此，現今教學評量的研究發展趨勢更注重彈性的、變通的、多元化的評量，並且強調動態的過程，乃出現

"Alternative Assessment"（另類評量、變通性評量）、"Dynamic Assessment"（動態評量）和

"Performance Assessment"（實作評量）等新名詞(簡茂發，1999)。同時有所謂的"Authentic Assessment"（真切性評量）。此種評量特別注重在真實的或模擬的情境中進行考查，強調評量的內容與方式應配合兒童當前的生活經驗，使其覺得自然親切，而不致格格不入，且能充分反映其真實的行為改變或成長，獲得全面的深切了解。此外，尚有"Portfolio Assessment"

（卷例評量），係指在學生學習過程中彙集相關的各項資料，針對評量的需要，找出一些切要的項目作成適當的組合，進行成套的評量，而非零碎個別項目的考核，具有持續累積的評量

效用。由於評量不只限於靜態的作品，還要評量作品產生的過程以及作品的優劣，是一種整體系統性的評量，因而又連帶出現一種"Work Sampling System"（工作取樣系統），亦即從工作項目中找出重要的樣本，讓學生操作反應，再進行觀察和記錄。

Linn 和 Gronlund（1995, 引自李坤崇，民 90）以科學實驗為例，闡述科學實驗精熟內涵類別所運用之實作評量技術，如評量「實驗程序知識」宜用紙筆測驗或實驗辨別測驗，如評

留意評量後果所造成的影響；評量實施的當場及評定等級後都可能再去修正評量編制及實施，而評量的後果會影響當次及以後的評量實施。

陳佩君（2002）除了提出她所實踐的多元化評量整個歷程外，並提出實踐多元化評量時的建言供給現場教師參考：

1. 首先澄清評量的意義：教師須先澄清評量是為了協助孩子達到學習目標、激勵孩子發展得更好。

2. 其次是掌握讓學科（領域）的課程目標與教學方法：以自然領域為例，課程目標不僅僅是科學認知，尚有思考智能…等多項科學素養，教師須掌握適當有效的教學方法來達成目標。

3. 事先告知家長與孩子擬實施的評量理念與指施：事先告知評量理念與作法，以贏得家長與孩子們的了解與認同。

4. 依據學習目標選擇適當的評量型式，進行評量編製與流程規劃：依照學習目標來選擇評量型式，編製試題或實作方式，擬定記錄型式與初步的評量規準，並預先設想評量實施流程，準備相關資源、編製評量說明。

5. 評量實施時給予適當的引導：給予孩子適當的引導，以提供孩子學習發展的鷹架；

給予評量人員適當的訓練，有助於評量的施展。

6. 發展評量規準並評定結果：發展或修訂評量規準，並依照規準來評定學習結果。

7. 運用評量結果並評估造成的迴響：依照各評量項目清楚地呈現評量結果，並將結果回饋在促進學習、改進教學上，並評估評量對親師生造成的影響。

8. 在評量歷程中不斷省思修正並有因應突發問題的心理準備：教師在評量歷程中不斷省思檢討，以修正下一次的評量活動，並應有解決突發問題的心理準備。

圖 6：評量流程圖

（五）、多元化評量的信效度考量

近來對於信、效度的概念已隨著評量方式的不同而有所改變，當評量的形式愈遠離標準化測驗、評量的情境愈接近真實的世界後，要考量依據該評量的後果來做受試者能力推論時的信、效度標準必須更多元化、更全面性（桂怡芬、吳毓瑩，1998）。Linn 等人（1991）認為現今的效度已考慮評量本身的品質及有用性－評量對教室活動的影響及是否有益於教師的

及整個歷程所傳遞的價值，都是效度要考慮的範圍（吳毓瑩，民 88b）。

事實上，Messick 早於 1989 年即提出一個效度概念的漸進矩陣（progressive matrix），認為效度的概念雖然以概念為基礎，但這僅止於詮釋的證據面而已，效度應該涵蓋測驗結果的詮釋與使用兩方面，而不僅以證據為基礎，還應擴展到影響後果的層面，因此這個 2×2 的矩陣包含兩個向度：詮釋及使用為一個向度（interpretation and use），證據基礎及後果基礎

（evidential basis and consequential basis）為另一個向度，二者交互後便形成四種情況，這四種情況就是效度應該涵蓋的層面。Messick 更於 1992 年時，將效度由建構概念一層層推演到社會影響層面的企圖闡釋得更清楚（引自吳毓瑩，1996，p. 12）：

表 4：效度漸進矩陣的層面(Messick, 1992)

測驗解釋測驗使用

證據基礎建構效度建構效度＋適切性／使用性

後果基礎建構效度＋價值意涵建構效度＋適切性／使用性＋價值意涵＋社會後果

隨後，Messick 於（1994）將後果效度（consequence validity）－著重評量後果影響面，

納入建構效度定義的範圍內的。他認為效度的後果基礎包括對評量解釋所蘊含的價值及使用所造成的長期和短期之有意圖或無意的後果做評鑑；效度不是只看評量工具本身好不好而已。Tombari 和 Borich（1999）也認為應重視評量之後，評量結果的使用及評量結果對教師與學生行為的影響。

對於評量結果的詮釋，Phye（1997）建議可從三方面來考量：

1. 與學生過去學習表現做比較，判斷是否進步。

2. 與學習目標或精熟標準做比較，判斷是否達到預訂的期望水準。

3. 與班上同學或其他班級做比較，說明學生在班上的排名或全學年的排名是先還是落後。

對於詮釋出結果後的使用，侯雅齡（2000）提出以下的建議：

1. 適切的安置～進行補救教學；表現優異者則給予加深加廣的學習。

2. 正向的回饋～對於有優異表現、進步表現、適性表現（符合能力的表現）者給予將勵；展示作品讓學生更瞭解自己、共可觀摩他人，以作為自我改進的參考。增強給學生的成就感將有助學生正向自我概念的形成，進而建立更高的學習自信。

3. 與家長溝通～向家長說明學生學習歷程與成果；評量的結果也可以是親師合作、溝通的管道。

4. 作為改善教學之參考～教師可據以反省教學目標是否達到、教學進度是否合宜、評量標準是否具體有意義、有無提供潛在課程、是否重視到生態環境等。

5. 建立題庫～分析評量題目，選取好的評量題目建立題庫，以供未來有相同需要時使用。

陳佩君（2002）歸納學者們（李坤崇，1999；辛慶偉，1998；桂怡芬，1996；Airasian，

1996；Linn，1994；Tombari & Borich，1999）的看法，從編製上、實施前、評分上、結果運用等四方面來探討如何提高多元化評量的信效度：

Kimball (1968) NOSS (Nature of Science

在文檔中九年一貫課程「自然與生活科技」領域國小學童科學本質多元化評量工具之發展與個案研究(3/3) (頁 31-38)