國內外閱讀理解相關測驗

第二章文獻探討

第三節國內外閱讀理解相關測驗

一、PISA（Programme for International Student Assessment）

（一）測驗簡介

國際評量計畫（Programme for International Student Assessment, PISA）是由經濟合作發展組織（Organization for Economic Co-operation and

Development, OECD）每三年主辦一次的大型國際測驗，它的目的在評估十五歲青少年的閱讀、數學和科學素養，以檢視十五歲的青少年是否具備參與未來社會所需的基本知識和技能（賓靜蓀，2012）。每個參與的國家可以根據測驗結果檢討及調整國家的教育政策。

（二）測驗內容

PISA 旨在評估 15 歲學生在面臨日常生活中的各種情境和挑戰時，應用學校習得之知識與技能所可能達到的程度（引自臺灣 PISA 國家研究中心網站，

2013）。因此它的測驗內容偏重生活化的知識技能，利用生活化、情境化的閱讀文本，評量青少年是否具備批判性思考及分析的能力。而上述能力對於資訊日新月異的現代是很重要的。

PISA 的文本材料主要分為「連續文本」及「非連續文本」。連續文本以句子所形成的文章為主，其包含各式文體，如：說明文、記敘文及相關文件記錄等。非連續性的文本，像是表格、圖表、地圖或表單等，主要測驗受試者分析、

統整訊息的閱讀能力。

PISA 測驗假設多數 15 歲學生已具備基本簡單的閱讀技巧，所以評量焦點放在擷取訊息、對文本有廣泛普遍的理解、解釋文本、省思文本內容、以及省思文本的形式與特色的能力。

PISA 所要評量學生的閱讀理解能力如下表 2-3-1 所示：

http://pisa.nutn.edu.tw/pisa_tw.htm，2013/8/11 查閱。

二、PIRLS（Progress of International Reading Literacy Study）

（一）測驗簡介

國際閱讀素養評比（簡稱 PIRLS）是由國際教育學習成就調查委員會

（International Association for the Evaluation of Educational Achievement, IEA）

主辦的國際測驗，這個測驗重點在評量接受國家教育的孩子在他們教育階段的第四年，其在家裡和學校閱讀的成效與經驗。這個測驗創辦於 2001 年，每五年舉辦一次，其目的在衡量學生閱讀成績的進步情形與發展趨勢，這樣測驗的結果，可以做為教育單位了解學生閱讀能力及推動相關政策的成效。

（二）測驗內容

PIRLS 的研究包括閱讀理解測驗及問卷兩部分。閱讀理解測驗主要是藉由兩種文體—故事體與說明文—的閱讀材料來檢視閱讀理解歷程。閱讀歷程包括

「直接理解歷程」和「詮釋理解歷程」兩部分，「直接理解歷程」又分為提取訊息及推論分析；「詮釋理解歷程」則分為詮釋整合及比較評估（柯華葳，

2009）。

資料來源：柯華葳（2009）。認識 PIRLS-一項新閱讀運動的重要指標。載於天下雜誌（主編），閱讀動起來（6-8 頁）。臺北：天下雜誌。

由 PISA 及 PIRLS 閱讀理解評量向度可知，其主要評量的概念大致相同，

都有對文本提取訊息的部分，這是閱讀理解歷程中較為基本的技能；而 PISA 的「形成廣泛普遍的理解」強調讀者能從整體或廣泛的觀點來思考文本，PIRLS 則是有「推論分析」，推論分析是指讀者需要連結段落內或段落間的訊息，以

推斷出訊息間的關係；另外，PISA 的「發展解釋」等同於 PIRLS 的「詮釋整

統整國內各標準化閱讀理解測驗內容可發現音韻處理、詞彙、語法及文意測驗為大多數測驗之評量向度（吳武典、張正芬，1984；周台傑，1993；林寶貴、楊慧敏、許秀英，1996；林寶貴、錡寶香，1999；王木榮、董宜俐，2006），

其中吳武典、張正芬（1984）所編製的「國語文能力測驗」還包含聽覺記憶及聽覺理解測驗部分，另外在「中華國語文能力測驗」、「國民小學國語文成就測驗」及「國語文能力測驗」還有評量字彙辨識的字形測驗，而能夠評量學童較高閱讀理解層次的推論能力，僅有「中文閱讀理解測驗」及「國小學童中文理解測驗」。

由林寶貴、錡寶香（1999）所編製之「中文閱讀理解測驗」為評量向度較廣的測驗，也能夠評量二至六年級國小學童，但題數過多，共有一百道試題，

過多的試題容易造成受試者疲累而影響測驗結果，其餘測驗則是偏重在閱讀理解的基本能力部分而較少評量到較為高層次的推論理解能力，而王木榮、董宜俐（2006）所編製的「國小學童中文理解測驗」雖有評量到推論理解的部分，

但測驗僅限於六年級施測。國內閱讀理解測驗以表 2-3-5 呈現如下：

參、小結

本節主要在比較國內外的閱讀理解測驗，國外大型閱讀測驗主要評量的概念大致相同，都包含對文本提取訊息、形成理解、推論分析與整合資訊加以詮釋等能力。而國內的閱讀理解測驗將閱讀理解的次能力分得更細，以林寶貴、

錡寶香（1999）所編製之「中文閱讀理解測驗」的評量向度最廣，綜合比較國內外相關閱讀理解測驗後，本研究確立以音韻處理能力、詞彙理解能力、句意理解能力、語法能力、文意理解能力及推論能力六向度為編製測驗之架構進行國小四年級電腦化適性理解測驗之依據。

第四節電腦化適性測驗

適性（adaptive）測驗意指給受試者所做的測驗是符合其能力水準，且能反映受試者能力或特質的測驗。因為當某份測驗的難度值越接近受試者的能力程度時，該測驗測得的受試者能力值也最為精確（余民寧，2009）。本研究所發展的適性閱讀理解測驗是以 IRT 三參數模式為依據編製閱讀理解測驗之試題，以下就電腦化適性測驗的意義、相關理論及適性測驗題目之編製過程做說明。

壹、電腦化適性測驗的意義一、適性測驗

適性測驗又稱為量身訂製的測驗，也就是在測驗的過程中，試題的選擇是根據受試者的能力，是依據受試者的作答反應去選擇適切的題目，比如某道試題對受試者來說偏難，因此下一道題目便會自動挑選較簡單的題目讓受試者作答，所以適性測驗的試題非固定不變的，會根據考生能力之不同而有所差異。

因為接受一份統一且固定長度的測驗無法有效滿足受試者能力估計的需求。而欲做到適性化的測驗，就必須仰賴電腦系統，因此適性測驗與電腦密不可分，

所以適性測驗又可稱作電腦化適性測驗（computerized adaptive test, CAT），以下就電腦化測驗及電腦化適性測驗做說明。

二、電腦化適性測驗的演進

因為科技的進步，在教學上有多媒體教學的推動，在評量上，透過電腦化測驗的幫助，我們可以使測驗的施行、計分與結果解釋更快速、精確。適性化測驗仰賴電腦化測驗的技術，而電腦化測驗的發展隨著科技日新月異，以下說明電腦化測驗的演進及電腦化適性測驗。

（一）電腦化測驗

電腦化測驗的演進主要分為四大階段，分別是電腦化測驗、電腦化適性測

驗、連續性測驗和智慧性評量（方金雅、陳新豐、黃秀霜，2004）。

電腦化測驗（computerized testing, CT），主要是將傳統的紙筆測驗題目以電腦的方式呈現；電腦化適性測驗（Computerized Adaptive Testing, CAT），則可針對學生的程度從電腦題庫中選取符合能力的題目，用最少的題數測驗出受試者的能力；而連續性測驗（continuous measurement, CM）和電腦化適性測驗的差別在於能夠將測驗與教學做結合，透過受試者在連續性測驗的表現來決定接下來的教學內容；而智慧性評量（intelligent measurement, IM）是結合人工智慧，對受試者的表現給予精密的計分與解釋，包含個人能力側面圖、了解內在差異，並提供智慧型的建議（方金雅、陳新豐、黃秀霜，2004）。

（二）電腦化適性測驗

電腦化適性測驗（Computerized Adaptive Testing, CAT），是指考生透過電腦，利用適性的選題方式進行測驗。在電腦化適性測驗裡，會依據受試者的表現來決定下一題的題目，而這樣的方式能夠精確估計受試者的能力，使達到「因材施測」的目的，它是一種結合試題反應理論以及適性測驗優點的一種測驗方式（吳裕益，1995；李茂能，2001；余民寧，2009；許擇基，1998）。

執行電腦化適性測驗有以下四個步驟（李茂能，2001）：1、估計考生的起點行為；2、選擇適合其能力的題目進行施測；3、根據答題反應估算能力以決定下一題的題目；4、如果達到中止標準時，即停止施測。

三、電腦化適性測驗的優點

也因為電腦化適性測驗是結合是題反應理論與適性測驗優點的一種測驗方式，所以此種測驗方式也以下優點：

（一）較能精確測出受試者的能力

根據古典測驗理論，難易適中的題目是最能測出受試者實際能力的，但是每位受試者的能力有所不同，所以同樣一份測驗很難滿足所有受試者的能力

（余民寧，2009），因此，適性化的測驗應用試題反應理論（IRT），從測驗過程中，找出符合受試者能力的試題，也就能更精確測量出受試者的能力。

（二）節省測驗時間

受試者的能力在哪就用符合其能力的題目來施測，是適性測驗的設計理念。

在電腦化適性測驗中，測驗題目的選擇是根據受試者的答題表現，根據受試者的答題表現來選擇下一題的題目，能夠對受試者的能力做精確的估計，也就能產生最大訊息量（maximum item information），所以也就能大幅縮短測驗的長度及時間。

（三）便於分析受試者能力

電腦測驗的方式可以記錄受試者每題答題的速度，這是傳統測驗所辦不到的，再加上測驗結果可以馬上計算出來，也就能夠立即給予受試者回饋，而施測者也省去人工計算測驗結果的麻煩，能直接透過電腦分析過的資料，給予測驗結果的說明（方金雅、陳新豐、黃秀霜，2004）。

貳、適性測驗的相關理論－IRT（試題反應理論）

根據古典測驗理論，難易適中的試題較能有效且精準反映受試者的能力，

但一份試卷的難易度很難符合所有受試者的能力水準，因此唯有採行適性測驗

在文檔中國小四年級電腦化適性閱讀理解測驗編製與開發 (頁 58-0)

第二章 文獻探討

第三節 國內外閱讀理解相關測驗

第二章文獻探討

第三節國內外閱讀理解相關測驗