第二章 文獻探討
第三節 閱讀理解評量
由於閱讀理解是一種複雜抽象的心智過程,我們只能藉由閱讀理解評量間接瞭解 讀者之閱讀理解能力,基於各家學者對於閱讀理解的定義和層次劃分不盡相同,國內 外閱讀理解評量在編製與設計的內容、形式亦有所差異。而閱讀理解評量的設計能否 兼顧各閱讀理解層次,發揮診斷學生問題、分析閱讀表現及提供教師改進教學方法等 功能,亦是在編製命題時應審慎考量的。本節將分別由其定義、類型、設計及國內外 發展出的幾個閱讀理解評量做一簡要說明。
一、 評量的定義
評量在「教」「學」上經常扮演著舉足輕重的角色。除了可提供教師作為進行或修 正教學時的參考,也可讓學生自我檢核學習情況、改善學習方法。評量的意義依照目 的及範圍的不同可分為評鑑(evaluation)、評量(assessment)和測驗(test)三者(Brown,
1989)。
「評鑑」涵蓋的意義層次最高,係「有系統地蒐集相關資料以改善課程、評估其 成效、了解學生的態度」(Brown,1989),甚至可包括「評估測驗試題的品質」(Alderson,
Clapham & Wall,1995)。評鑑的對象可以是個人專業表現、教材適用性、政策或計 畫方案的實施成效等,通常由數位專家參與,雖有時會運用到測驗技術卻較不重視量 化,結果報告包含較多的價值判斷與建議改進事項(歐滄和,2002)。因此評鑑目的 在於改善,而非證明。
「評量」範圍較廣,係指教師蒐集、綜合、解釋有關學生的各種資料,以協助教 師後續進行各種「教」與「學」決定的歷程(李坤崇,1999)。主要以測驗、面談、
實作或工作計畫、檔案評量等方式蒐集資訊,並對結果做出價值判斷以診斷學生的能 力。因此評量可能同時包含「量」與「質」的描述(陳英豪、吳裕益,1993)。
範圍最小、最明確的則為「測驗」,僅屬於評量中的一種類型(Airasian,1996)。
英文的test 和 testing 雖都指「測驗」,但在教育心理學上,其本質有些微差異。testing 主要是指一種有系統的施測程序,多作動詞用;test 係指一種正式且有系統的方法,
大多採紙筆測驗以蒐集學生表現的資料,主要是用以鑑別個別差異或能力的觀察工 具,作名詞用(余民寧,1995;李坤崇,1999;歐滄和,2002)。測驗(test)形式和 內容均已事先清楚地架構,通常包含一組題目,且試題皆有「正確」或「最恰當」的 答案,如智力測驗、性向測驗、期中考、隨堂考等皆屬此類(王文中,1999;歐滄和,
2002;Linn & Gronlund,1995)。
因此,閱讀理解評量係指教師在進行閱讀教學活動,為求瞭解學童學習成果及教 學成效,所進行的一種客觀判斷和評估。本研究探討的「閱讀線上認證系統」是讓學 童閱讀完書籍後,進行自我檢測的一種線上測驗。每一本書的認證,系統會由題庫隨 機抽取10 道選擇題讓學生進行施測,每一題只有一個標準答案,作答完立即給予積分 回饋,故本研究中所指的閱讀理解評量屬於評量中的「測驗」(test)層次。
二、 閱讀理解評量的類型
Harris 與 Sipay( 1980)將閱讀理解評量大致區分為閱讀理解產物評量及閱讀
理解過程評量兩種類型。閱讀理解產物的評量通常運用在讀者閱讀之後,測驗讀者 對閱讀材料理解的多寡以瞭解其閱讀理解能力,可採口頭或書面的形式進行評量,
如:選擇題、問答題、是非題等(柯華葳、范信賢,1990)。閱讀理解過程的評量 則試圖複製閱讀理解過程的發生,以檢視讀者的閱讀心理歷程,如:放聲思考法、
迷思概念分析、眼動測量等。一般常用的閱讀測驗方式有選擇題、問答題、克漏字、
自由回憶、文章重點摘要和文章結構覺察等幾種類型(蔡銘津,1997;鄭妃玲,2003;
黃琬玲、魏嘉慧、簡俐珊,2010)。
(一) 選擇式閱讀理解測驗
由於選擇式閱讀理解測驗是先讓受試者閱讀文本獲取文意,再由題目選項中 選擇最適切的答案,這種測驗題型的優點為便於施測,易於計分和分析,利用電 腦閱卷計分更可大量、快速的進行,因此在許多標準化的大型閱讀研究測驗中,
仍採用選擇式的評量設計。蔡銘津(1997)指出問題與選項的設計是影響評量成 效最主要的關鍵,好的設計者多能依照理解層次的高低編擬,評量出學生真正閱 讀理解能力。
(二) 問答式閱讀理解測驗
此類型測驗的施測步驟類似選擇式閱讀理解測驗,先讓受試者閱讀文本獲取 文義,再填寫問題的答案。根據答案的性質可分為結構性問答題和開放性問答題 兩種題型,「結構性問答題」的設計通常只要受試者在閱讀文本後進行訊息提取、
檢索或推論,便能填答出一正確的標準答案,可客觀計分;反之,「開放性問答
題」沒有正確的標準答案,受試者可依其主觀的想法作答,較能測驗其高層次的 閱讀理解能力,但也較難以客觀計分,故評分者須經過專業訓練,並依據特定的 計分標準進行評分。
(三) 克漏字測驗
克漏字測驗通常選擇一篇長約200~250 字,且符合受試者程度的文章,除首
尾二句會完整呈現外,其餘會將文章中的重要關鍵字或平均每隔幾個字留白,讓 受試者根據上下文填入適當的字詞(林惠芬,1993)。黃琬玲(2010)指出此類 測驗的缺點在於研究者很難進一步分析瞭解受試者答題錯誤時,其閱讀理解困難 的癥結所在。魏嘉慧(2010)認為克漏字較能評量受試者的字義理解能力,但無 法評量其高層次閱讀理解表現。
(四) 自由回憶測驗
此類型測驗是評量受試者對閱讀文本主要命題(proposition)的回憶量,受 試者於閱讀後回憶文章內容並口述出來,回憶的命題量愈多則代表其記憶理解能 力愈佳(林玟慧,1995;蔡銘津,1997;鄭妃玲,2003)。評分標準則根據 Kintsch
(1974)提出的以動詞、形容詞、副詞為主之三種命題方式,分析文章內容所含 的命題數(蔡銘津,1997)。
(五) 文章重點摘要測驗
此類測驗主要考驗受試者摘要文章重點的能力,以了解受試者理解文章的程 度,倘若受試者能以最簡潔的文字表達出最多文章內容涵蓋的重要概念,即表示
其摘要能力愈強,愈能掌握理解文章重點。其作法是在選定文本後,以句子為單 位,分析為數個觀念單位之後,再依據Garner(1982)提出之摘要效率公式來計 算受試者的得分,評量其摘要表現(蔡銘津,1997)。
綜上所述,可知閱讀理解評量的類型相當多樣,除上述五種外,還有「文章結構 覺察測驗」、「文章偵錯測驗」等其他評量類型。但許多大型的閱讀研究測驗採用選擇 式閱讀理解測驗,主因在於只要設立試題細目表並參照編擬,便可編製出評量各理解 層次的試題,且易於施測、計分客觀,而克漏字、自由回憶和文章重點摘要的測驗重 點只偏重閱讀理解某些特定的技巧,難以評量受試者高層次的閱讀整合與批判能力(黃 琬玲,2010)。本研究欲分析的閱讀線上認證系統測驗題庫類型,屬於施測與計分方便 的選擇式閱讀測驗,目的在評量學生閱讀理解產物的表現,作為檢核其閱讀成果的標 準。
三、 閱讀理解評量的設計
一般而言,評量的設計大致可分為下列三個步驟(鄭富森、劉瓊文、梁琬菁,2000):
(一)訂定內容規範。明列出欲評量的知能、概念及欲考核的能力層次,作為設 計依據。通常可用課程標準、教學目標或詳細概念表以及能力層次作劃分
(彭森明,1995)。
(二)訂定學習或能力程度的要求與標準。根據學童各階段能力的發展,可明訂 各項具體的能力指標,作為評估的標準。
(三)針對每項內容或概念,決定試題方向並製作試題。每一道試題不但要確保
能測量其所應測量的能力與概念,還必須考慮其難易程度與分辨能力,該
陳昭珍、李央晴、曾品方(2010)以學者意見為基礎,並參考美國國家研究委員 會(National Research Council)提出的閱讀能力指標、我國九年一貫國語文閱讀能力 指標,及PIRLS 閱讀能力指標,歸納整合出閱讀知能指標,該指標根據兒童閱讀能力 發展程度,將閱讀知能分為六個層級,研究者將其中三、四年級的閱讀知能指標、九 年一貫國語文閱讀能力指標與PIRLS 閱讀評量指標相對照,中年級在四個閱讀理解歷 程中需達到的具體目標應該如表2-3-3 所列。
最後為求能確切測量學童的閱讀能力,PIRLS 不僅考量題目跟選項的陳述方式,
使其符合小學四年級學童的閱讀發展程度,在測驗開始前有指導語示範填答方式,以 幫助學童熟悉題型。其評分方式為選擇每題一分;問答依理解之難易度分為一至三分。
本研究將依循此閱讀理解評量設計之三步驟,針對閱讀線上認證系統的測驗內容進行 分析檢視。
表2-3-3 國小中年級閱讀知能指標、九年一貫國語文閱讀能力指標與 PIRLS 閱讀評量指標
表2-3-3 國小中年級閱讀知能指標、九年一貫國語文閱讀能力指標與 PIRLS 閱讀評量指標(續)
表2-3-3 國小中年級閱讀知能指標、九年一貫國語文閱讀能力指標與 PIRLS 閱讀評量指標(續)
目前國內幾個標準化閱讀理解測驗的目的,多半在評量學生國語文綜合能力,閱 讀理解測驗僅佔其中的一小部分,施測方式亦以選擇題的紙筆測驗為主,且多適用於 篩選有閱讀障礙或閱讀理解困難的學生。其中「臺灣學生學習成就評量資料庫」(Taiwan Assessment of Student Achievement, 簡稱 TASA)和 PIRLS 立意相仿,目的在建立瞭 解學生學習成就的資料庫,以做為國家教育決策改進之參考,且施測方式和臺中市國
表2-3-4 國內標準化閱讀理解測驗簡介(續)
本研究欲分析之閱讀線上認證系統題庫類型為選擇式測驗,以下僅就國內幾種針對