閱讀理解評量

第二章文獻探討

第三節閱讀理解評量

由於閱讀理解是一種複雜抽象的心智過程，我們只能藉由閱讀理解評量間接瞭解讀者之閱讀理解能力，基於各家學者對於閱讀理解的定義和層次劃分不盡相同，國內外閱讀理解評量在編製與設計的內容、形式亦有所差異。而閱讀理解評量的設計能否兼顧各閱讀理解層次，發揮診斷學生問題、分析閱讀表現及提供教師改進教學方法等功能，亦是在編製命題時應審慎考量的。本節將分別由其定義、類型、設計及國內外發展出的幾個閱讀理解評量做一簡要說明。

一、評量的定義

評量在「教」「學」上經常扮演著舉足輕重的角色。除了可提供教師作為進行或修正教學時的參考，也可讓學生自我檢核學習情況、改善學習方法。評量的意義依照目的及範圍的不同可分為評鑑（evaluation）、評量（assessment）和測驗（test）三者（Brown，

1989）。

「評鑑」涵蓋的意義層次最高，係「有系統地蒐集相關資料以改善課程、評估其成效、了解學生的態度」（Brown，1989），甚至可包括「評估測驗試題的品質」（Alderson，

Clapham ＆ Wall，1995）。評鑑的對象可以是個人專業表現、教材適用性、政策或計畫方案的實施成效等，通常由數位專家參與，雖有時會運用到測驗技術卻較不重視量化，結果報告包含較多的價值判斷與建議改進事項（歐滄和，2002）。因此評鑑目的在於改善，而非證明。

「評量」範圍較廣，係指教師蒐集、綜合、解釋有關學生的各種資料，以協助教師後續進行各種「教」與「學」決定的歷程（李坤崇，1999）。主要以測驗、面談、

實作或工作計畫、檔案評量等方式蒐集資訊，並對結果做出價值判斷以診斷學生的能力。因此評量可能同時包含「量」與「質」的描述（陳英豪、吳裕益，1993）。

範圍最小、最明確的則為「測驗」，僅屬於評量中的一種類型（Airasian，1996）。

英文的test 和 testing 雖都指「測驗」，但在教育心理學上，其本質有些微差異。testing 主要是指一種有系統的施測程序，多作動詞用；test 係指一種正式且有系統的方法，

大多採紙筆測驗以蒐集學生表現的資料，主要是用以鑑別個別差異或能力的觀察工具，作名詞用（余民寧，1995；李坤崇，1999；歐滄和，2002）。測驗（test）形式和內容均已事先清楚地架構，通常包含一組題目，且試題皆有「正確」或「最恰當」的答案，如智力測驗、性向測驗、期中考、隨堂考等皆屬此類（王文中，1999；歐滄和，

2002；Linn & Gronlund，1995）。

因此，閱讀理解評量係指教師在進行閱讀教學活動，為求瞭解學童學習成果及教學成效，所進行的一種客觀判斷和評估。本研究探討的「閱讀線上認證系統」是讓學童閱讀完書籍後，進行自我檢測的一種線上測驗。每一本書的認證，系統會由題庫隨機抽取10 道選擇題讓學生進行施測，每一題只有一個標準答案，作答完立即給予積分回饋，故本研究中所指的閱讀理解評量屬於評量中的「測驗」（test）層次。

二、閱讀理解評量的類型

Harris 與 Sipay（ 1980）將閱讀理解評量大致區分為閱讀理解產物評量及閱讀

理解過程評量兩種類型。閱讀理解產物的評量通常運用在讀者閱讀之後，測驗讀者對閱讀材料理解的多寡以瞭解其閱讀理解能力，可採口頭或書面的形式進行評量，

如：選擇題、問答題、是非題等（柯華葳、范信賢，1990）。閱讀理解過程的評量則試圖複製閱讀理解過程的發生，以檢視讀者的閱讀心理歷程，如：放聲思考法、

迷思概念分析、眼動測量等。一般常用的閱讀測驗方式有選擇題、問答題、克漏字、

自由回憶、文章重點摘要和文章結構覺察等幾種類型（蔡銘津，1997；鄭妃玲，2003；

黃琬玲、魏嘉慧、簡俐珊，2010）。

（一）選擇式閱讀理解測驗

由於選擇式閱讀理解測驗是先讓受試者閱讀文本獲取文意，再由題目選項中選擇最適切的答案，這種測驗題型的優點為便於施測，易於計分和分析，利用電腦閱卷計分更可大量、快速的進行，因此在許多標準化的大型閱讀研究測驗中，

仍採用選擇式的評量設計。蔡銘津（1997）指出問題與選項的設計是影響評量成效最主要的關鍵，好的設計者多能依照理解層次的高低編擬，評量出學生真正閱讀理解能力。

（二）問答式閱讀理解測驗

此類型測驗的施測步驟類似選擇式閱讀理解測驗，先讓受試者閱讀文本獲取文義，再填寫問題的答案。根據答案的性質可分為結構性問答題和開放性問答題兩種題型，「結構性問答題」的設計通常只要受試者在閱讀文本後進行訊息提取、

檢索或推論，便能填答出一正確的標準答案，可客觀計分；反之，「開放性問答

題」沒有正確的標準答案，受試者可依其主觀的想法作答，較能測驗其高層次的閱讀理解能力，但也較難以客觀計分，故評分者須經過專業訓練，並依據特定的計分標準進行評分。

（三）克漏字測驗

克漏字測驗通常選擇一篇長約200～250 字，且符合受試者程度的文章，除首

尾二句會完整呈現外，其餘會將文章中的重要關鍵字或平均每隔幾個字留白，讓受試者根據上下文填入適當的字詞（林惠芬，1993）。黃琬玲（2010）指出此類測驗的缺點在於研究者很難進一步分析瞭解受試者答題錯誤時，其閱讀理解困難的癥結所在。魏嘉慧（2010）認為克漏字較能評量受試者的字義理解能力，但無法評量其高層次閱讀理解表現。

（四）自由回憶測驗

此類型測驗是評量受試者對閱讀文本主要命題（proposition）的回憶量，受試者於閱讀後回憶文章內容並口述出來，回憶的命題量愈多則代表其記憶理解能力愈佳（林玟慧，1995；蔡銘津，1997；鄭妃玲，2003）。評分標準則根據 Kintsch

（1974）提出的以動詞、形容詞、副詞為主之三種命題方式，分析文章內容所含的命題數（蔡銘津，1997）。

（五）文章重點摘要測驗

此類測驗主要考驗受試者摘要文章重點的能力，以了解受試者理解文章的程度，倘若受試者能以最簡潔的文字表達出最多文章內容涵蓋的重要概念，即表示

其摘要能力愈強，愈能掌握理解文章重點。其作法是在選定文本後，以句子為單位，分析為數個觀念單位之後，再依據Garner（1982）提出之摘要效率公式來計算受試者的得分，評量其摘要表現（蔡銘津，1997）。

綜上所述，可知閱讀理解評量的類型相當多樣，除上述五種外，還有「文章結構覺察測驗」、「文章偵錯測驗」等其他評量類型。但許多大型的閱讀研究測驗採用選擇式閱讀理解測驗，主因在於只要設立試題細目表並參照編擬，便可編製出評量各理解層次的試題，且易於施測、計分客觀，而克漏字、自由回憶和文章重點摘要的測驗重點只偏重閱讀理解某些特定的技巧，難以評量受試者高層次的閱讀整合與批判能力（黃琬玲，2010）。本研究欲分析的閱讀線上認證系統測驗題庫類型，屬於施測與計分方便的選擇式閱讀測驗，目的在評量學生閱讀理解產物的表現，作為檢核其閱讀成果的標準。

三、閱讀理解評量的設計

一般而言，評量的設計大致可分為下列三個步驟（鄭富森、劉瓊文、梁琬菁，2000）：

（一）訂定內容規範。明列出欲評量的知能、概念及欲考核的能力層次，作為設計依據。通常可用課程標準、教學目標或詳細概念表以及能力層次作劃分

（彭森明，1995）。

（二）訂定學習或能力程度的要求與標準。根據學童各階段能力的發展，可明訂各項具體的能力指標，作為評估的標準。

（三）針對每項內容或概念，決定試題方向並製作試題。每一道試題不但要確保

能測量其所應測量的能力與概念，還必須考慮其難易程度與分辨能力，該

陳昭珍、李央晴、曾品方（2010）以學者意見為基礎，並參考美國國家研究委員會（National Research Council）提出的閱讀能力指標、我國九年一貫國語文閱讀能力指標，及PIRLS 閱讀能力指標，歸納整合出閱讀知能指標，該指標根據兒童閱讀能力發展程度，將閱讀知能分為六個層級，研究者將其中三、四年級的閱讀知能指標、九年一貫國語文閱讀能力指標與PIRLS 閱讀評量指標相對照，中年級在四個閱讀理解歷程中需達到的具體目標應該如表2-3-3 所列。

最後為求能確切測量學童的閱讀能力，PIRLS 不僅考量題目跟選項的陳述方式，

使其符合小學四年級學童的閱讀發展程度，在測驗開始前有指導語示範填答方式，以幫助學童熟悉題型。其評分方式為選擇每題一分；問答依理解之難易度分為一至三分。

本研究將依循此閱讀理解評量設計之三步驟，針對閱讀線上認證系統的測驗內容進行分析檢視。

表2-3-3 國小中年級閱讀知能指標、九年一貫國語文閱讀能力指標與 PIRLS 閱讀評量指標

表2-3-3 國小中年級閱讀知能指標、九年一貫國語文閱讀能力指標與 PIRLS 閱讀評量指標（續）

目前國內幾個標準化閱讀理解測驗的目的，多半在評量學生國語文綜合能力，閱讀理解測驗僅佔其中的一小部分，施測方式亦以選擇題的紙筆測驗為主，且多適用於篩選有閱讀障礙或閱讀理解困難的學生。其中「臺灣學生學習成就評量資料庫」（Taiwan Assessment of Student Achievement, 簡稱 TASA）和 PIRLS 立意相仿，目的在建立瞭解學生學習成就的資料庫，以做為國家教育決策改進之參考，且施測方式和臺中市國

表2-3-4 國內標準化閱讀理解測驗簡介（續）

本研究欲分析之閱讀線上認證系統題庫類型為選擇式測驗，以下僅就國內幾種針對

在文檔中臺中市國小推動校園閱讀線上認證系統題庫內容分析─以中年級為例 (頁 55-70)

第二章 文獻探討

第三節 閱讀理解評量

第二章文獻探討

第三節閱讀理解評量