綜合討論 - 第一節實作評量作業之內容分析

一、實作評量建構效度的討論

以下就六項檢驗建構效度在詮釋實作評量結果時，所必須考量的證據，加以分析討論：

(一)在內容上

1.從實作題目對照國民中小學九年一貫課程能力指標的分析發現，實作作業的內容含括國民中小各學習階段的能力指標，而不僅止於現階段的學習能力，

以學術性向優異的定義(學生在某一學習領域表現得比同齡同儕明顯傑出)來看，實作評量的題目超越現階段的能力，是統合性的能力表現。

2.命題人員認為實作評量必須「動手作」的想法，多少會限制住題型的設計，以英語科為例，虛擬式的

「人工語言」題型，測出的可能不是學生的語感，

而是對語言的抽象邏輯推理能力和這個語言背後的系統，所以受訪教師表示，實作評量似乎和智力有相關。在數理科方面，命題教師認為適合命成實作評量的題型不多，以「找規律」和「幾何」為主。

3.那些能力是學術性向優異學生所需具備的能力呢?

除了學科基礎知識的能力外，受訪者表示創造力、

記憶力、反應能力、思考分析能力、速度等，都是學術性向優異學生該具備的能力。

(二)在本質上

1.從訪談資料發現，學生對題目能確實理解，但應試者的反應經常和設計者所預期的反應會有差別，而這種非預期性的反應也是學術性向資賦優異的特質之一。

2.受訪學生認為實作評量是「線索比較少，比較沒有接觸過，所以我要自己去作，才能知道到底什麼東西會出來」(KWSF931218)。這種看法正如實作評量所欲評估，學生是否能將既有的知識轉化成為行動的能力，強調的是學生處理問題的過程能力。

3.受訪學生表示，實作題目有些是要國小程度不錯的人才做得出來的，有些範圍是國中的程度，還有一些是需要廣泛的閱讀知識才能瞭解的。

(三)結構上

1.實作評量的評分方式，大多事先訂定標準，但未實施評分者訓練，評分不一致的情況容易出現在英文口試部分，其它學科較少出現不一致的狀況。

2.評分歷程的結構，如配分比重、主次能力的結構和關係，多由命題者決定，審題的專家學者提供意見，

但對於比重的結構、能力面向所反應出來的構念問題，本研究未加以探討。

(四)在概化上

1.由於實作評量題目數及施測時間的限制，在內容廣度上就有所犧牲，因此在概化的推論上有許多的考

2.此外，本研究對概化係數、評分者一致性未加以探討。

(五)在外部的輻合及區辨上

1.國文科實作評量和團體智力測驗、國語文性向測驗相關達顯著水準。

2.英文科實作評量和各其它測驗工具相關未達顯著水準。推究原因可能是目前尚無適當之英文性向測驗，所用之性向測驗為國語文性向測驗。

3.數理科實作評量丙校和性向測驗相關達顯著水準，

和成就測驗未達顯著水準，丁校則和性向測驗相關未達顯著水準。

(六)在後果上：實作評量、性向測驗、成就測驗，三項指標形成取決的鑑定標準，但各校如何運用此三項指標方法不一，採成績合併計算方式的受訪教師和學生未表示異議，但在複選時只採用實作評量成績作為決選標準的受訪者建議，應納入初試的性向測驗、成就測驗成績一併考量較合宜。

二、實作評量效標關聯效度的探討

研究結果發現除了英文組實作評量紙筆測驗和英文學業成就表現相關達顯著水準外，其它各組實作評量和學業成就表現之相關多未達顯著水準，這反應出實作評量所測得的能力和學業表現所測得的能力不全然是相似的。這樣的結果可能有二項值得再深思的重點：1.實作評量和學業成就表現的能力向度不同。2.

實作評量測得的特質是學術性向優異概念下的什麼特質。若由訪談資料中加以驗證，是否足以說明實作評量是測學生的創造思考、記憶反應、問題分析、操作驗證和表達的能力。

三、實作評量錄取與未錄取組的差異性考驗

在錄取組與未錄取的差異性考驗發現，英文組的差異達顯著水準，數理組的差異未達顯著水準。雖然英文組在樣本的人數上呈現比率上的差距，有可能是樣本人數所造成的結果。但應試學生的背景因素應該納入考量，英文組參加甄選的原始學生人數只有 39 人，且均為原該校學生，參加數理組甄選的原始學生有 400 多人，進入複試者 60 人，且學生來自臺北縣各國小應屆畢業生。若進入複試後的 60 名學生，在學業成就表現上的差異未達顯著水準，是否意味著這 60 名學生的能力差異極小，是另一個值得考慮的觀點。

在文檔中第一節實作評量作業之內容分析 (頁 103-106)