屏東縣四~六年級學童之閱讀理解認知層次—Rasch模式之應用

全文

(1)國立屏東教育大學教育心理與輔導學系碩士論文指導教授：張麗麗博士. 屏東縣四~六年級學童之閱讀理解認知層次—Rasch 模式之應用. 研究生：李蒨蒨撰. 中華民國. 103 年 7 月.

(2) II.

(3) 屏東縣四~六年級學童之閱讀理解認知層次— Rasch 模式之應用摘要本研究旨在應用 Rasch 模式分析屏東縣四至六年級學童的閱讀理解認知層次，並建立具診斷回饋功能的測驗報告。研究者先以 Rasch 模式檢視測驗是否符合單向度及閱讀理解的認知階層性，接著再以 Rasch 模式對測驗結果進行分析，且將受試學童(包含學校規模、年級與性別等變項)依照測驗中的三個閱讀理解層次(尋找與回憶、整合和解釋、批判與評鑑)進行理解認知層次分析，最後再將 Rasch 模式提供的訊息整合為測驗結果報告，可供診斷之用，以利後續的教學規劃。主要研究結果如下：一、測驗具理想心理計量特性：(1)參考殘差化 t 值、差異試題功能、試題內容等，刪除部分試題，保留原測驗 29 題；(2)測驗具理想心理計量特性(多元計分試題之等級適切、試題契合單向度模式、受試者分隔信度 0.78 等)；(3)測驗難度與受試者能力的對應關係佳。二、測驗難度依認知階層及題型而不同：(1)三個認知層次的平均難度不同，依層次難度而平均值遞減，其中「批判與評鑑」的平均難度顯著高於「整合和詮釋」及「尋找與回憶」；(2)題型方面，建構反應題的平均難度高於選擇題的難度。三、屏東縣學童閱讀理解認知層次分析：(1)整體約 50%學童閱讀理解能力達到「整合和詮釋」層次的平均值，但僅 40%及 10%左右學童達到「尋找和回憶」及「整合和詮釋」的精熟水準（精熟指具.80 以上機率答對該層次平均難度的試題）；(2)大型學校在任何認知層次的表現都比中、小型學校佳，大校學童達到「尋找與回憶」（約 15%）及「整合和詮釋」（約 44%）精熟水準的比例皆較中、小校為高；(3)學童閱讀理解表現具年級差異（六年級＞五年級＞四年級），達到「尋找與回憶」精熟水準的比例依年級高低分別約 56%、36% 及 23%，達到「整合和詮釋」精熟水準的比例分別約 22%、9%及 3%，幾乎沒有學童達到「批判與評鑑」的精熟水準；(4) 女生閱讀理解表現優於男生，達到各認知層次精熟的比例也是女高過男；(5)以年級區分，大型學校學生表現亦優於中、小型學校學生的表現，但大型學校學生表現分散小，小型學校 I.

(4) 學生表現則分散大。四、測驗分數的轉換與應用：(1)測驗報告中，可透過由 Rasch 模式提供的 logit 值，計算學童在單一題目上及不同閱讀理解認知層次的答題機率，以了解學童在不同閱讀理解認知標的上的強弱情形，以及其可能的閱讀理解發展層次；(2)能透過常模參照的方式（年級及年級內性別常模），了解學童在群體中的相對表現，也能以答題勝算率比較個別學童間的閱讀理解表現差異；(3) 提供個別學童的測驗結果診斷報告，內容包含量尺分數、各閱讀理解認知層次答題機率、可能發展層次，及文字說明及建議；（4）提供班級的測驗結果診斷報告，內容包含班級內達到各閱讀理解認知層次之學生及全班比例、相同年級及相近規模學校之對應比例，以及文字說明及建議；(5)透過 Rasch 模式提供的訊息(如前述)，可以視為後續教學計畫的依據，同時也可做為補救教學的參考。. 關鍵字：閱讀理解、閱讀理解認知階層、Rasch 模式、學校規模. II.

(5) Analysis of Reading Comprehension Levels of 4th to 6th Grade Students in Pingtung County Using the Rasch Model Abstract The study aim at understanding the reading comprehension levels of 4th to 6th grade students in Pingtung County, Taiwan, and at constructing a diagnostic report by using the Rasch model. The first step of this study was to test whether the data conform the one-dimensional Rasch model, and to validate the reading comprehension cognitive levels. Next, students’ reading comprehension performance was analyzed according to the three reading comprehension levels (i.e., locate/recall, integrate/interpret, and critique/evaluate), separated by school size, grade and gender. Finally, diagnostic report for individual student and for class were designed by integrating information obtained from the Rasch analysis. The results are summarized as follows： 1. The test holds satisfactory psychometric properties: (1) Twenty-nine test items were retained according to various fit statistics (i.e., standardized residual t values and differential item functioning) and test content; (2) the 29-item test holds satisfactory psychometric properties (i.e., rating scales are appropriate, items fit the Rasch model, all items are free from gender and grade DIF, and the person separation index is .78); (3) items spread reasonably well along the latent continuum and are aligned with various ability levels 2. Item difficulties vary according to item format and cognitive levels: (1) The three reading cognitive levels show hierarchical structure as expected; (2) item difficulties of the constructed- response items are significantly higher than that of the multiple- choice items. 3. Cognitive level analysis: (1) Although 50% of the students reaches the average difficulty of ‘integrate/interpret’ level, only 40% and 10% of the students reach the mastery levels (defined as having 80% or higher the chance to reach the average difficulty of a particular cognitive level) of ‘locate/recall’ and ‘integrate/interpret’ levels, respectively; (2) Students in large schools outperformed those in medium and small schools on all reading comprehension cognitive levels, and the percentages of reaching the mastery levels of ‘locate/recall’ (44%) and ‘integrate/ III.

(6) interpret’ (15%) are also higher for large schools than those for medium and small schools; (3) students’ reading comprehension performance increases as they move up to higher grade levels, and the percentages of reaching the mastery level of ‘locate/recall’ are 56%, 36% and 23% for 6th, 5th and 4th grade students, separately, while the percentages of reaching the mastery level of ‘integrate/interpret’ are 22%, 9% and 3% for 6th, 5th and 4th grade students, respectively; (4) girls performed significantly better than boys not only on all reading comprehension cognitive levels, but also on the percentages of reaching mastery level; (5) within each grade level, large schools performed better than medium and small schools; yet, the variability is smaller in the large schools. 4. Conversion and application of test scores：(1) The probabilities of answering each item correctly and of reaching a particular cognitive level were computed for each student; (2) norm conversion tables (grade level, gender with in each grade level) were provided to locate students’ relative performance; (3) individual diagnostic report, including scale score, probabilities of reaching each cognitive level, ‘item - person map,’ and summary and suggestions concerning student’s reading comprehension performance, was designed; (4) class diagnostic report, including the distribution of all students reaching each cognitive levels in the ‘item-person map,’ and summary and suggestions concerning class’s reading comprehension performance and teaching practices, was offered.. Discussions and suggestions for future research and teaching practices are also provided.. Keywords：reading comprehension, the cognitive level of reading comprehension, Rasch model, school size. IV.

(7) 目錄中文摘要…………………………………………………………… 英文摘要…………………………………………………………… 目錄………………………………………………………………… 表次………………………………………………………………… 圖次…………………………………………………………………. I III V VI VII. 第一章. 緒論……………………………………………………… 第一節研究動機………………………………………… 第二節研究目的與問題………………………………… 第三節名詞解釋…………………………………………. 1 1 5 5. 第二章. 文獻探討………………………………………………… 7 第一節閱讀理解………………………………………… 7 第二節閱讀理解的測量………………………………… 14 第三節 Rasch 模式及其應用…………………………… 19 第四節影響閱讀理解的因素…………………………… 23. 第三章. 研究方法………………………………………………… 第一節研究對象………………………………………… 第二節研究工具………………………………………… 第三節研究程序………………………………………… 第四節資料處理與分析………………………………… 第五節研究限制…………………………………………. 第四章. 閱讀理解測驗結果分析………………………………… 39 第一節測驗結果與 Rasch 模式契合之情形…………… 39 第二節以 Rasch 模式進行閱讀理解認知階層性之分析.45 第三節屏東縣四至六年級學童閱讀理解分析………… 52 第四節 Rasch 模式測驗分數轉換與測驗結果應用…… 73. 第五章. 結論與建議……………………………………………… 第一節結論……………………………………………… 第二節討論……………………………………………… 第三節建議………………………………………………. 27 27 28 33 35 37. 89 89 94 99. 參考文獻…………………………………………………………… 101 V.

(8) 表次表 2-1 表 2-2 表 2-3 表 2-4 表 3-1 表 3-2 表 3-3 表 3-4 表 4-1 表 4-2 表 4-3 表 4-4 表 4-5 表 4-6 表 4-7 表 4-8 表 4-9 表 4-10 表 4-11 表 4-12 表 4-13 表 4-14 表 4-15 表 4-16 表 4-17 表 4-18 表 4-19 表 4-20 表 4-21 表 4-22 表 4-23 表 4-24 表 4-25 表 4-26 表 4-27 表 4-28 表 4-29 表 4-30 表 4-31 表 4-32 表 4-33. 研究者整理閱讀理解歷程層次之分類…………………………...... .... 12 三大國際閱讀理解評量認知層次整理………………………………... 16 NAPE 文本類型的認知目標…………………………………………… 17 學校因素和學業表現之探討……………………………………………25 研究對象依學校規模及年級之分配…………………………………... 27 接受不同閱讀理解測驗之學生年級分配……………………………... 27 測驗明細表--試題刪除前後各認知層次比例………………………… 31 文本試題之認知層次、題型及計分………………………………….. 32 建構反應題各等級之次數分配表及閾值表……………………….….. 39 刪題前、後試題難度及適合度指標………………………………….. 40 刪除試題之內容檢視………………………………………………….. 41 年級、性別 DIF 摘要表……………………………………………….. 42 性別、年級 DIF 試題刪除表…………………………………………. 43 不同分類試題之平均難度與差異考驗……………………………….. 46 試題難度及受試者能力……………………………………………….. 46 不同閱讀理解認知層次之試題難度………………………………….. 48 不同閱讀理解認知層次難度之單因子變異數分析摘要表………….. 48 不同閱讀理解認知層次難度之 Scheffé 事後比較及答題機率……… 48 全體學生閱讀理解層次次數分配表………………………………….. 52 全體學生答對不同認知層次人數比例 (累積百分比)………………. 53 不同學校規模學生的閱讀理解能力…………………………………. 54 不同學校規模在閱讀理解能力之單因子變異數分析摘要表………. 54 不同學校規模認知層次難度之 Scheffé 事後比較…………………… 54 不同學校規模閱讀理解認知層次次數分配表……………………….. 55 不同學校規模答對不同認知層次人數比例 (累積百分比)…………. 57 不同年級學生的閱讀理解能力……………………………………….. 57 不同年級在閱讀理解能力之單因子變異數分析摘要表…………...... 57 不同年級認知層次難度之 Scheffé 事後比較及答題機率…………… 58 不同年級閱讀理解認知層次次數分配表…………………………….. 58 不同年級學生答對不同認知層次人數比例 (累積百分比)………..... 60 不同性別閱讀理解表現……………………………………………….. 61 不同性別閱讀理解能力單因子變異數分析摘要表………………….. 61 不同性別閱讀理解層次次數分配表………………………………….. 62 不同性別答對不同認知層次人數比例 (累積百分比)……………….. 63 不同年級下不同學校規模學生次數分配……………………………... 65 不同年級下不同學校規模學生答對不同認知層次比例(累積百分比). 68 原始分數與 logit 值及量尺分數對照表……………………………….. 74 試題 logit 值及量尺分數對照表……………………………………….. 74 四年級 PR 值對照表……………………………………………………. 78 五年級 PR 值對照表……………………………………………………. 79 六年級 PR 值對照表……………………………………………………. 80. VI.

(9) 圖次圖 2-1 Kintsch 建構整合論…………………………………………………… 11 圖 2-2 診斷學習困難與教學過程的整合……………………………………… 21 圖 3-1 研究流程圖……………………………………………………………… 33 圖 4-1 年級 DIF 試題 ICC……………………………………………………… 42 圖 4-2 性別 DIF 試題 ICC……………………………………………………… 44 圖 4-3 受試者能力與試題難度 Wright Map……………………………………47 圖 4-4 不同閱讀理解認知層次平均難度圖…………………………………… 49 圖 4-5 受試者能力與不同認知層次試題難度 Wright Map……………………50 圖 4-6 全體學生 logit 數值之次數分配直方圖……………………………… 53 圖 4-7 不同學校規模 logit 數值之次數分配直方圖………………………… 55 圖 4-8 不同年級 logit 數值次數分配直方圖………………………………… 59 圖 4-9 不同性別 logit 數值之次數分配直方圖……………………………… 62 圖 4-10 圖 4-11 圖 4-12 圖 4-13 圖 4-14 圖 4-15 圖 4-16 圖 4-17 圖 4-18 圖 4-19 圖 4-20 圖 4-21. 年級與規模誤差分配長條圖…………………………………………… 66 四年級閱讀理解達到不同水準人數比例折線圖……………………… 70 五年級閱讀理解達到不同水準人數比例折線圖……………………… 70 六年級閱讀理解達到不同水準人數比例折線圖……………………… 70 不同性別閱讀理解達到不同水準人數比例折線圖…………………… 71 TCC 轉換圖……………………………………………………………… 75 試題認知層次與認知標的……………………………………………… 76 個人診斷報告(1)…………………………………………………………82 個人診斷報告(2)…………………………………………………………83 班級診斷報告(1)…………………………………………………………86 班級診斷報告(2)…………………………………………………………87 班級診斷報告(3)…………………………………………………………88. VII.

(10) 第一章緒論研究者深感閱讀理解能力對學生的學習與生活上的重要性，因此欲了解國小學童閱讀能力之表現情形，進而提供閱讀理解能力的診斷結果，作為學習評量的回饋，以提供給受試學童或教師在閱讀理解方面的訊息。本章分為三節，第一節說明研究動機，第二節陳述研究目的與研究問題，第三節為名詞解釋。. 第一節研究動機在現今充斥著各式各樣資訊的時代，網路文章隨手可得，報章、雜誌、媒體在生活中亦隨處可見，生活中存在著各種文字訊息，此時，擷取訊息、應用訊息便顯得相當重要，其中牽涉的即是「閱讀能力」。因此國際上紛紛興起了推動閱讀的教育計劃，例如：聯合國教科文組織自 1995 年起定每年的四月二十三日為「世界閱讀日」(The World Book Day)；英國更是從一九九八年九月到一九九九年八月訂出「英國閱讀年」(National Year of Reading)，舉行一系列閱讀活動，目的是希望打造一個「舉國皆是讀書人的國度」(Build a Nation of Readers)；美國在閱讀方面的推動也不遺餘力，前總統柯林頓提倡「美國閱讀挑戰運動」(America Reads Challenge)，前總統布希也有閱讀優先方案，並提出「不讓任何一個孩子落在後面」(No Child Left Behind) 法案，以「閱讀優先」(Reading First)做為政策主軸，在在顯示出各國對閱讀的重視程度(齊若蘭，2002，2003 )。前教育部長曾志朗曾說：「閱讀是教育的靈魂」，因此文建會將 2000 年訂為「兒童閱讀年」，致力推廣國內兒童閱讀。可以想見，閱讀是現代人不可或缺的能力，由此可以了解閱讀能力對於現代人的重要性。「閱讀」究竟是什麼？簡單的說，閱讀是一主動建構知識的歷程，同時也和自己已有的知識連結形成意義(柯華葳，2011；Lipson & Wixson, 2009)，國際上大型的閱讀評比測驗如促進國際閱讀素養研究（Progress in International Reading Literacy Study, 簡稱 PIRLS）、學生能力國際評量(Programme for International Student Assessment, 簡稱 PISA)都提及閱讀理解是能了解書寫語言的形式，從不同的文本建構意義以達到個人的閱讀目標，像是發展知識、與他人連接、參與社會等，美國的國家教育發展評量(The National Assessment of Educational Progress,. 1.

(11) 簡稱 NAEP)對閱讀理解的定義也包含理解文本、發展並詮釋意義等，這和早期行為主義學派將閱讀僅以「單一字詞的知覺歷程」或是「對一字詞的反應時間」來測量閱讀理解已有很大的不同。就現今認知科學的角度言，閱讀是一複雜的內在心理歷程，而純熟的閱讀更是一項高度複雜的能力，如 Gagné 將閱讀歷程區分為解碼、字義理解、推論理解、理解監控等四個層次(岳修平譯，1998)； Kintsch(1988)則區分為表層理解、微觀結構、鉅觀結構與情境模式四部分；此外還有 Rumelhart(1984)的基模理論(引自 Gunning, 2008)，以及 McNamara, Miller 及 Bransford(1991)的情境理論(引自 Gunning, 2008)，這些理論清楚說明從閱讀生手到閱讀專家的過程必須具備相當多的理解能力及閱讀技巧，所以閱讀理解是一複雜的認知活動；閱讀時不僅要能解碼與分析語法規則，同時也需要運用自己的先備知識來理解文本所要傳達的意義(Graesser, Singer, & Ttabasso, 1994，引自陳明蕾，2010)，也就是說，閱讀理解不只是單一且被動的接收訊息，更要主動建構意義以達到閱讀的目標，因此診斷閱讀理解的困難並加強閱讀能力也就更顯重要了。二十一世紀的閱讀素養是有關個人如何蒐集、管理，整合及判斷文書資訊，進而解決問題，生產新知識，達到參與社會運作與貢獻社會的能力，國際上也出現了閱讀理解的評比以了解學生閱讀素養(reading literacy)的現況。臺灣在 2006 年首次參加以小學四年級學生為施測對象的「促進國際閱讀素養研究」(PIRLS) 國際評量，根據國際教育成就調查委員會(The International Association for the Evaluation of Education Achievement, 簡稱 IEA)公佈的結果(引自教育部，2013)， 46 個參加評量的國家中臺灣排名第 22 名(閱讀成績為 535 分)，遠落後於排名第二的鄰近國家—香港，這個結果讓教育界譁然，開始檢視國內的閱讀教育情形； 2011 年，臺灣再次參與 PIRLS 國際測驗，根據 IEA 於 2012 年所公佈的結果，49 個參與國家中臺灣排名第 9(閱讀成績為 553 分)，比起五年前確實有進步，這或許表示五年來推動的閱讀理解教學有稍稍的成果出現。但若是跳脫總分與排名的框架，在閱讀理解的範疇中，學生在各個理解層次的表現皆一致嗎？有沒有特別突出或是特別弱的表現？如何發現學生較為不足的地方以供課程做進一步的指導，成為教學的另一重點。 PIRLS 的閱讀理解大致區分為「直接歷程」與更高層次思考的「解釋歷程」，在 2006 年的評量結果中，發現臺灣學生直接歷程的通過率為 73%，而解釋歷程的通過率僅 49%，反觀鄰近的香港及新加坡，解釋歷程的通過率則分別是 60% 與 57%，顯示在更高一層次的閱讀理解方面臺灣學生表現稍嫌弱了些；至於 2011 2.

(12) 年的評量結果，臺灣學生在直接歷程方面通過率略升為 74%，解釋歷程的通過率則增加至 55%，顯示在解釋理解層面臺灣學生已稍有進步，但香港學生的解釋歷程通過率為 62%，新加坡為 59%，顯然香港與新加坡在亞洲國家中仍屬較佳表現。即使臺灣學生在解釋歷程方面有所進步，但兩次測驗下來都發現「解釋歷程」表現略差於「直接歷程」之表現，也就是臺灣學生較缺乏歸納推論、詮釋整合、評估批判之能力，而藉由 PIRLS 評量結果傳達出的訊息即是，我們除了強調直接歷程的尋找外，亦應加強學生解釋歷程的理解。除了 PIRLS 對閱讀理解區分為兩個層次外，另一國際大型測驗「PISA」也將閱讀理解區分為三個層次，分別為接觸與提取、詮釋與整合，以及反應與評鑑；此外，美國另一大型閱讀理解評量「NAEP」亦將理解區分為尋找與回憶、整合與詮釋，以及批判與評鑑三個層次，並更深入的區分為文學文本與訊息文本不同之處，也就是說，談及「閱讀理解」時絕非能以一概括，反之，是有層次之別，並且是一逐步加深理解深度的過程。診斷測驗的目的是界定學生未精熟的範圍，接著更進一步找出原因或理由，依此解決學習的問題，甚至形成一個補救行動的計畫(Nitko, 1996；Linn & Gronlund, 鄒慧英譯，2003；吳清山、林天祐，2011 )。如果我們能利用評量提供的結果，幫助學生檢視較差的表現，找到學習的問題，讓教學者有機會針對較弱的概念做加強的工作，像是：補救教學、課後輔導等，協助提升學生在該能力的學習表現，如此便是針對評量結果給予回饋以達加強學習表現之效。透過評量找出未達到的能力，就是測驗理論當中，診斷測驗之功能與目的(Nitko, 1996； Caldwell, 2002)；可以說診斷評量在學生學習過程中扮演了相當重要的角色。國內的語文領域測驗不少，不過，針對診斷功能進行編製的測驗算是少數，也較少對不同年級做語文能力的比較，大部分都以語文成就測驗居多，包括有依據民國六十四年國語課綱編纂而成的測驗，如「國民小學國語文成就測驗」(周台傑，1993)，內容方面和今天九年一貫課綱已有相當大的不同；有的則是按照當時的國語教材編寫，如「國語文能力測驗」(吳武典、張正芬，1984)，文本內容以課文為主；也有的測驗著重字形、字音辨識，如「中華國語文能力測驗」(林寶貴、楊慧敏、許秀英，1995)。而以閱讀理解為主要測量構念的測驗有「閱讀理解困難篩選測驗」(柯華葳，1999)、「國小六年級學童中文閱讀理解測驗」(董宜俐，2003)、「以 NAEP 架構建置國小高年級閱讀理解測驗」(林怡君，2010)以及「以 NAEP 架構建置國小四、五年級閱讀理解測驗」(黃琬玲，2010)等，雖然都是理解測驗，但施測對象也略有不同，柯華葳所編製的測驗目的在挑選理解有 3.

(13) 障礙的學生，董宜俐的測驗僅針對六年級，而林怡君與黃琬玲編製的測驗則是跨年級做不同年紀的比較。測驗種類繁多，不過較少看見測驗結果以報告的形式呈現，如果測驗結果能嘗試以診斷報告的方式呈現，對於確認學生對學習目標是否精熟，應能有不同面向的回饋。因此，基於評量對於學習回饋的重要性，本研究其中一目的便是研究如何提供詳盡、確實的測驗回饋訊息，以利受試者及教學者了解測驗結果，期望透過此方式達到診斷功能。 Rasch 單向度客觀測量模式與古典測驗理論不同的一點是，不採用原始分數為單位，以取自然對數的方式做運算單位，結果相較於原始分數穩定；Rasch 模式強調「客觀測量」，每個受試者在變項中都只有一個值，視為「單向度」(王文中，1996)。Rasch 單向度客觀測量模式具有樣本獨立性與測驗獨立性，也就是說，受試樣本能力與測驗試題難度的估計之間彼此不會互相依賴 (林怡君、張麗麗、陸怡琮，2013)。當數據契合 Rasch 模式時，透過 Rasch 模式的特性，能為受試者找到自己在測量工具上的排序位置，對於受試者而言，能清楚知道自己的能力為何，了解自己通過哪些程度的題目、還有哪些程度的題目仍須加強，正巧是符合診斷測驗的功能。目前國內以 Rasch 模式進行分析的研究不多，以 Rasch 模式和診斷做結合的研究亦較少見，也較缺乏這方面的探討，這也是本研究欲進行的原因之一。綜合上述研究動機與內容，研究者考量施測對象要能跨年級比較閱讀能力的表現，選擇以林怡君(2010)、黃琬玲(2010)分別依據 NAEP 閱讀理解架構所編製的高、中年級的閱讀理解測驗，經張麗麗、陳品華、羅素貞、陸怡琮（2011)等挑選組合而成的兩個題本，並已對屏東縣國小四至六年級學童施測後的數據進行研究。從不同層次(整體、學校規模大小、年級、性別及個別學生等)了解屏東地區學童閱讀理解在各個閱讀理解層次上的表現，用 Rasch 模式進行學童不同認知層次的理解診斷分析之前，先檢視測驗是否契合單向度，在契合的情形下，才進行上述內容之診斷分析。. 4.

(14) 第二節研究問題綜合前面所述，本研究旨在探討屏東地區學童在整體、學校規模大小、年級、性別及個別情形下閱讀理解表現的差異情形為何，以進行診斷報告之編製，因此本研究欲研究之問題如下： 1. 測驗結果契合 Rasch 單向度模式之情形如何？ 2. 以 Rasch 模式進行閱讀理解認知階層性分析之結果如何？ 3.屏東縣四至六年級閱讀理解表現情況如何？(不同學校規模、年級、性別之學童在各個閱讀理解認知層次的表現為何？) 4.如何利用 Rasch 模式呈現的分數與結果進行診斷？(如：個別班級或是個人的閱讀理解診斷報告). 第三節名詞解釋一、閱讀理解「國際教育評量促進會」(NAEP)認為閱讀理解為一主動且複雜的認知過程，因此對於閱讀理解的定義為「能理解書寫文本、發展及詮釋意義，並能在文本類型、目的與情境下適當的使用意義」(NAGB, 2008, p.11)。NAEP 對閱讀理解分為三個認知目標：尋找與回憶、整合和詮釋、批判與評鑑。尋找與回憶是在確認文本中的明確訊息，做跨段落的簡單推論，例如：事實、定義等；整合和詮釋是跨文本段落間做複雜的推論，像是：描述因果關係、判定未明述之假設；批判與評鑑即是以帶著批判性的角度思考文本，例如：評論作者寫作技巧、手法等。依據 NAEP 架構編製之閱讀理解測驗有二，分別為林怡君(2010) 所編製「以 NAEP 架構建置國小高年級閱讀理解測驗」、黃琬玲(2010)編製的「以 NAEP 架構建置國小四、五年級閱讀理解測驗」，因此本研究採取學童在兩份綜合題本的能力估計值表現做為閱讀理解能力操作型定義。. 5.

(15) 二、診斷報告診斷測驗的功能是找出學生困難的所在，並依此找出原因或理由後進一步解決學生的困難(Nitko, 1996)。本研究所指「診斷報告」是依照個別學生以及年級在張麗麗等（2011）組合林怡君（2010）及黃琬玲（2010）所編製高、中年級閱讀理解測驗之題本中「尋找與回憶」、「整合和詮釋」及「批判與評鑑」不同認知層次表現的診斷報告。. 三、表現水準本研究將測驗結果的表現水準區分為三等級，分別是一般水準、精熟水準與嚴格水準。一般水準指的是受試對象有.50 的機率答對認知層次平均難度試題；精熟水準參考「精熟」一詞定義，在一個測驗或評量中能得到 80%~90%的分數(張春興，1989)，因此訂出受試對象具有.80 以上的機率答對認知層次平均難度試題，即表示達到精熟水準；嚴格水準指受試對象有.80 的機率答對認知層次中最難試題，此即為嚴格水準。. 四、學校規模學校規模分為大型、中型與小型，學校班級數在 12 班以下為小型學校，學校班級數為 13~48 班為中型學校，49 班以上的學校則歸類為大型學校。. 6.

(16) 第二章文獻探討根據研究目的與研究問題，研究者蒐集閱讀理解相關文獻做為研究依據。本章共分為四節，第一節說明閱讀理解相關理論，第二節為閱讀理解測量之說明，第三節為 Rasch 模式及其應用，第四節則闡述與閱讀理解相關的因素。. 第一節閱讀理解閱讀是一複雜的認知過程，以下從閱讀的定義開始說明，接著是閱讀發展歷程、層次，最後整理國際評量中對閱讀素養的定義。. 壹、閱讀的定義「閱讀」指的是讀「書寫語言」，書寫語言就是文字與符號，讀者可以透過文字與符號，掌握文字間所串連出的訊息，進一步與自己已知的知識連結，形成一筆知識，這就是閱讀(柯華葳，2011)。Caldwell(2002)更直言的說，閱讀就是理解，如果沒有理解，閱讀文字就沒有意義了，理解可說是促使讀者繼續閱讀的誘因。Lipson 及 Wixson(2009)也從互動觀點論認為理解是從文本中運用明顯且已知的資訊建構出意義的能力。因此，為了要從文本建構意義，閱讀形成了一種動態的活動(Gunning, 2008；Caldwell, 2002)。也就是說，閱讀首先要認得「書寫符號」，即「識字」，接著再和自己的經驗結合並了解文本作者的意思，建構出個人觀點，即「理解」，由於閱讀行為並非使用單一技巧便能完成，所以說「閱讀」是ㄧ複雜的心理認知歷程。Lipson 及 Wixson(2009)整理了以下幾點閱讀發展的歷程，首先，從歷史的觀點(historical perspectives)看閱讀，十九世紀中期提供閱讀教學的公立學校為的是使人民擁有基本道德與政治常識，所以閱讀材料以簡短的聖經短文、道德文本為主；接著到了第二次世界大戰期間，電腦的盛行帶動了認知心理學的發展，認知心理學的角度(cognitive information-processing perspectives)認為閱讀是動態的、具有自我監控的系統，大腦如同電腦系統，閱讀時記憶體的使用越少，能進行理解運作功能越多；若在社會觀點(social perspectives)之下看閱讀，認為閱讀的意義是由讀者根據作者所提供的文本所建構出來的，過程中牽涉到讀者所處的社會背景，依社會環境的不同建構出不同意. 7.

(17) 義，這也就是為何社會情境在社會觀點之下佔有重要位置；最後，從互動論的觀點而言(an interactive perspective)，閱讀是一建構意義的過程，此建構過程來自讀者與文本的互動，互動過程非固定僵化的，是一結合認知訊息處理與社會觀點而成的理論。閱讀的意義與重要性依照歷史的演進而逐漸有不同的成份涉入，但就如同 Mayer 在他的著作 Educational psychology:A cognitive approach 中引述 Bartlett 的話說明閱讀：「閱讀是努力追求意義(effort after meaning)」的過程(林清山譯，1997)，在在都強調閱讀是「主動」的心理認知歷程，並以「理解意義」為閱讀的最終目標。. 貳、閱讀發展的歷程閱讀能力為發展而來的能力，意即會隨著個體的成熟而有不同的變化，了解不同階段的發展，進而有助於知道孩子閱讀時的需求(Gunning, 1996)。哈佛大學 Chall(1983)曾以六個階段描述兒童學習閱讀的歷程，六個階段當中又可分為兩部份，分別是學習如何閱讀(learning to read)以及從閱讀中學習(reading to learn)(引自柯華葳，2006)。在學習如何閱讀階段，讀者正在學習「如何閱讀」，主要發展任務是字詞辨識與識字流暢性，要達到此階段任務可以閱讀熟悉的文本，藉由先備知識引導來促進字詞的理解；從「閱讀中學習」指導讀者自閱讀中獲取新知識，主要發展推論與詮釋任務，此時需要理解策略協助理解(陸怡琮，2012)。根據 Gunning(1996)整理 Chall 等學者的論述，四年級是閱讀階段的重要分水嶺，四年級以前進行的閱讀活動，受限於識字量少及認知發展在具體運思階段，目的都是「學以讀」，倚靠認字的技巧來進行閱讀，理解的層次較淺，以字彙內容理解為主；但四年級以後，具備足夠的認知能力，此時閱讀的目的成為「讀以學」，利用閱讀與理解技巧從文本中吸收文章的知識，既可以了解抽象的概念，也能做較抽象的推理，而這兩者的分別，也就是「學習如何閱讀」與「從閱讀中學習」的差異。Gunning(1996)整理了 Chall、Cook、Erikson、Piaget…等學者的論述，將閱讀發展濃縮成五個階段，內容如下：一、階段一：前閱讀期-讀寫萌發(出生-五歲) 此階段幼兒年齡約 0~5 歲，這個階段的孩子利用直觀與經驗來形成具體的概念，利用文字來表達有相當程度的困難，但這個階段的孩子語文能力正快速的發展。所以，在讀寫萌發接近結束的時候，孩子通常能讀標誌以及標籤上的文字，也會出現類似字母的符號和自創的拼音。由於這個階段的孩子還處於「自我中心」期，所以無法從作者的觀點欣賞文本，他們喜歡一直聽喜愛的故事，但還沒有足 8.

(18) 夠的能力了解因果關係，所以這個時期的孩子喜歡具有魔法色彩、擬人化的故事，同時，有韻腳、重複性高的文本也是他們喜歡的類型。二、階段二：開始閱讀(幼稚園-小學一年級) 這個階段孩子可以透過操作物品來理解具體的概念，但是在抽象理解仍有相當的困難。這個階段的孩子開始出現「拼音法則」(alphabetic principle)，意即了解字母代表一個聲音，所以會利用字母的拼音關係與文本中的文字做解碼，這個時候，孩子如果必須只靠著「由下而上」的理解模式進行閱讀，對他們說負擔會太大；反之，若只被教導用「由上而下」的模式進行閱讀，會變成過度倚賴文本脈絡，所以，會整合拼音與文本線索進行閱讀。這個階段適合給孩子大量簡單的讀本，包括閱讀材料簡明、有大量的插圖、句子簡短不複雜、組成之字彙是簡單且出現頻率高等，讓這個階段的小朋友有充足的機會練習與發展他們的閱讀技巧。三、學習閱讀期 (國小二年級-三年級) 這個階段孩子的「解碼」工作趨於自動化，也可以聚焦在「意義」上，所以閱讀會成為他們喜歡的活動之一，許多這個階段的孩子閱讀已經能延伸至文學類與非文學類兩種兼具，包括幽默的故事、傳記，以及仍喜愛幻想為主的書籍。由於這個階段孩子的自我中心的情形降低，所以他們更能欣賞故事中人物的生命，但對於解釋為何喜歡某本書籍還是有困難。閱讀材料方面，句子會越來越長、越來越複雜，在三年級的尾聲，孩子會遇到相當大量的字彙，一般的孩子只要能「拼讀」出來大概就能對字彙進行「解碼」，也就是說了解它的意思，所以這個階段的孩子還有一項主要任務是朗讀，透過朗讀字彙來了解意思。四、由閱讀而學習 (四年級-六年級) 由閱讀而學習的意思是孩子需要廣泛的運用文字與理解的技巧，從這個階段開始，閱讀的重點會是從文本中抓取訊息，字彙與概念的認知負荷會明顯的增加，許多概念也越來越抽象，涉及的領域也增廣至自然與社會科學，而興趣、謎語與運動類的書籍也開始受這個階段孩子的歡迎，閱讀的材料相較於之前，也會更長、更複雜。此外，男生和女生的閱讀興趣也開始有明顯的分歧，由於這個階段是青春期風暴之前，所以他們擁有許多的精力與時間投入在學校課業中，可以說是達到閱讀的巔峰。當然，這個階段孩子面對閱讀也是具有挑戰的，他們要能理解大量的字彙，因為他們所面對的字彙已不再是以往常聽見的語詞。五、抽象的閱讀 (七年級以上) 11 歲至 14 歲期間，孩子進入形式運思期，這表示他們可以進行抽象的思考 9.

(19) 了。所以這階段孩子可以理解組織的原則、建構多元假設、思考不同觀點以及思考邏輯上的問題。依此特性，學校通常會為提供學生更複雜、篇幅更長，也更抽象的書籍。但這個階段的孩子相當需要和同儕進行各種活動，所以閱讀的量反而可能是最少的，甚至在電視機前的時間都遠多於閱讀的時間。五個階段的孩子在閱讀的發展上有各自的特色，也具有各自的挑戰。整體說起來，在閱讀的前三階段都還在「學以讀」，靠的是認字的技巧來進行閱讀，理解的層次較淺，以字彙內容理解為主；後面兩個階段則到了「讀以學」，利用閱讀與理解技巧從文本中吸收文章的知識，可以了解抽象的概念，也進而能做較抽象的推理，兩者的分別，即能分為「學習如何閱讀」與「從閱讀中學習」兩類別。雖然文本深層的理解在後面兩個階段，但我們也不能忽視前面閱讀發展的三個階段的重要性，因為前面的發展階段都是為後面的階段奠定的基礎，即使是文本中較淺顯的理解對於該階段的孩子而言也是ㄧ項重要的發展任務。. 由上可知，所謂的「閱讀理解」，必須在足夠的認知與識字能力下發展而來，欲了解學童的閱讀理解能力，四年級及以上年紀會是比較適合的對象，因此國際的閱讀評量受試對象幾乎沒有小於國小四年級(唯 prePIRLS 除外)，有鑑於此，故本研究也以四至六年級為施測對象。. 參、閱讀理解的層次以下就訊息處理理論、建構整合論、基模理論及情境理論四者作說明。一、訊息處理理論 (Information process theory) Gagné 依據閱讀所需要的能力區分為四個次群組：解碼(decoding)、字義理解(literal comprehension)、推論理解(inferential comprehension)以及理解監控 (comprehension monitoring)(岳修平譯，1998)，解碼指的是破解書面文字符號並使其具有意義，其中包含配對和譯碼；字義理解是在辨識出文字符號後，再來追溯每個字的字義，其中包括了字義取得和語法分析，簡單的說就是理解文字所表示的意義，例如閱讀公車時刻表或是讀菜單時使用的能力；接著是高一層次的推論理解，若要對文本中的文字訊息形成更深入、更廣博的意義，需要靠推論理解，包括整合、摘要、詳細論述；最後一個群組則是監控理解，為的是要確認讀者能有效率的達成閱讀目標，是ㄧ種閱讀時使用的後設認知。. 10.

(20) 二、建構整合論(A construction-integration model) Kintsch(1988)也對於閱讀表徵提出三項分類，分別是表層訊息(surface)、文本基礎(textbase)與情境模式(situation model)。在表層訊息上的理解，僅限於字面意思；而文本基礎上的理解則又分為兩種結構，微觀結構(microstrucure)與鉅觀結構(macrostucture)，分類如圖 2-1。微觀結構指的是讀者能了解複雜的命題網絡，從句子中抽取意義來形成對文本的初始理解；鉅觀結構指的是在閱讀文本之後，能擷取出文章的方向與重點，是一具有整體性的理解，如此便能達到更深的理解層次。情境模式是指讀者會將自己的先備知識與文本主題連結，因而豐富文章的詮釋，當然也因個人先備知識的不同而對文章有不同的詮釋。. 表層訊息微觀結構建構整合論. 文本基礎鉅觀結構情境模式. 圖 2-1 Kintsch 建構整合論(1988). 三、基模理論 (schema theory) 基模是ㄧ組關於人、地方、事情甚至事物的知識(Rumelhart, 1984，引自 Gunning, 2008)。Bartlett (1932)認為基模是ㄧ個人用以同化新訊息以及產生訊息回憶的現存知識(林清山譯，1997)。也就是說，基模是讀者的抽象性知識結構，基模知識可以很廣泛(例如：動物的基模)，也可以很狹小(例如：暹羅貓的基模)，這個結構可以用選擇及組織訊息，使進入的訊息能被納入一個整合、有意義的架構中。所以讀者在閱讀時，能應用已具備之說明文的基模或是敘述文的基模，甚或是文本內相關的知識基模，都有助於將文章內容整合到自己的知識架構中，對於理解文本內容便會有助益。. 四、情境理論 (situation model theory) 情境理論將理解視為「文本中描述事件、情境的建構與維持歷程」(McNamara, Miller & Bransford, 1991，引自 Gunning, 2008)，基模理論描述的是如何理解熟悉的情境，而情境理論則反過來描述的是如何理解新的情境。也因此，為了要能持 11.

(21) 續的建構與維持歷程，讀者會在閱讀過程中不斷的自問”為什麼”，這個過程會一直持續到讀者的期待與文本內容相符合為止。. 整合上述四個閱讀理解歷程的理論，發現 Gagné 的前兩個群組「解碼」與「字義理解」的內容與「表層理解」有關，後兩個群組的「推論理解」和「理解監控」分別是「深層理解」與「批判理解」之義；在 Kintsch 的理論方面，「表層訊息」的理解與「微觀結構」指的都是對於文本的「表層理解」，而「鉅觀結構」所說的是對於文本的更深一層的詮釋，「情境理解」要運用讀者的先備知識，可視為一種「批判理解」；至於基模理論與情境理論則是協助讀者同化或理解新訊息的一種方式，皆可謂之為「深層理解」。因此，不難推測出閱讀歷程由淺至深包含了文章表層理解、文章深層理解與文章之批判理解這三部份，而理解便是閱讀的最終目的，可以想見「理解」的認知能力既是複雜的，也是重要的。綜合上述四個理論整理如表 2-1。. 表 2-1. 研究者整理上述閱讀理解歷程層次之分類. 理解層次理論. 訊息處理理論. 層次一：. 層次二：. 層次三：. 表層理解. 深層理解. 批判理解. 解碼. 推論理解. 理解監控. 鉅觀結構. 情境模式. 字義理解建構整合論. 表層訊息理解微觀結構. 基模理論情境理論. 基模文本中描述事件. 文本中情境建構. 文本中維持歷程. 肆、國際評量對閱讀讀寫素養的定義國際上具有良好信效度的大型評量，包括 NAEP、PIRLS 及 PISA 都對閱讀素養(reading literacy)提出見解。 NAEP 為「國際教育評量促進會」的簡稱(National Assessment of Educational Progress，簡稱 NAEP)，該會認為閱讀是動態且複雜的歷程，包含「能理解書寫文本、發展及詮釋意義，並能在文本類型、目的與情境下適當的使用意義」(NAGB, 2008, p11)。 PIRLS 為「促進國際閱讀素養研究」(Progress of International Reading Literacy 12.

(22) Study，簡稱 PIRLS)，由國際教育成就調查委員會(The International Association for the Evaluation of Educational Achievement，簡稱 IEA)所主導，對於閱讀素養的看法是「能了解並運用書寫語言所需要形式，並從豐富的閱讀環境中建構出意義，讀者也能從每天的互動中、學校生活中參與閱讀、享受閱讀的樂趣。」(IEA, 2011, p.11)。更具體一點的來說，可以分為以下五點：(1)學生能夠理解並運用書寫語言的能力；(2)能夠從各式各樣的文章中建構出意義；(3)能從閱讀中學習；(4)參與學校及生活中閱讀社群的活動；(5)在閱讀當中可以獲得樂趣(天下雜誌教育基金會，2008)。至於 PISA ，更是國人所熟知的大型測驗之一， PISA(Programme for International Student Assessment ，簡稱 PISA) 是由經濟合作暨發展組織 (Organization for Economic Cooperation and Develoment，簡稱 OECD)所主導的評量，PISA 認為閱讀素養是「了解、使用與反思文本，以達到個人目標來發展個人知識、潛能和社會參與的情形。」(OECD, 2010, p.23)。. 三個大型評量對閱讀素養的定義裡都提出閱讀不僅是「識字」，更應該要能與生活結合，並能從文本中建構出屬於自己的意義，像是增加知識、與人互動等等，進而達到使用的意圖。可以了解「識字」並不是閱讀的最主要目的，閱讀最終目的是對文本進行「理解」與「應用」，因此閱讀理解的測量便顯得相當重要了。. 13.

(23) 第二節閱讀理解的測量本節先說明國際性閱讀理解測量 PIRLS、PISA 及 NAEP 評量對閱讀理解的認知目標，接著介紹國內以 NAEP 為架構所編製的測驗。. 壹、 PIRLS PIRLS 每五年會針對四年級學生進行ㄧ次國際性評比，所以是ㄧ長期且跨國的大型研究，目的是瞭解四年級學生是否具備閱讀的基本能力。 PIRLS 認為閱讀目的有二，ㄧ是從閱讀中得到讀寫能力之經驗；二是從閱讀中獲得訊息並應用(IEA, 2011, p.11)。因此，針對這個目的，PIRLS 將閱讀歷程分為四個部份：(1)提取明顯存在的訊息；(2)做直接的推論；(3)解釋、組合想法與訊息；(4)檢核、評價內容、文字措辭與文本細節。簡單說明即為「直接提取」、「直接推論」、「詮釋、整合觀點和訊息」以及「檢驗、評估內容、語言和文章的元素」四個歷程，前兩者為基本的「直接理解歷程」，後兩者需要高階思考的為「解釋理解歷程」。. 貳、PISA PISA 是針對 15 歲青少年的學習情形所設計，評量範圍涵蓋閱讀、數學與科學等三種學科，每三年舉行一次，每次只進行一種學科的評量，每次評量涵蓋的國家有越來愈多的趨勢，從 2003 年的 41 個參與國家至 2009 年有 67 個國家參與，足以想見 PISA 在國際間被重視的程度。由於本研究與閱讀有關，所以以下僅針對閱讀部份做說明。 PISA 對閱讀素養提出五個觀點：(1)提取訊息；(2)形成概括性的理解；(3) 發展解釋；(4)反思與評鑑文本內容；(5)反思與評鑑文本形式，由於五個觀點無法在 PISA 的評量項目中完全被細分出來，因此又將閱讀素養的五個觀點統整成三個類別，並依此三個類別作為評量發展的標準，分別是(1)擷取訊息；(2)詮釋與整合；(3)反映與評鑑。其中，「詮釋與整合」則包括了「形成概括理解」以及「發展解釋」；而「反映與評鑑」則包括了「評鑑文本內容」與「文本形式」。. 14.

(24) 參、NAEP NAEP 的評量對象為美國四年級、八年級以及十二年級學生，編製評量前先行完成測驗明細表，稱做「測驗藍圖」，也就是所謂的文本地圖，以提供文本更多的訊息。就 NAEP 測驗而言，閱讀歷程區分為三個認知目標：(1)尋找與回憶； (2)整合和詮釋；(3)批判與評鑑。「尋找與回憶」指的是確認文本中明確訊息，做跨段落的簡單推論；「整合和詮釋」指的是跨文本段落間做複雜的推論；最高認知層次的「批判與評鑑」則是能批判性的思考文本，三者閱讀的層次逐漸加深，詳細內容如表 2-3。上述三大國際評量作答方式皆有四選一的選擇題及開放式的建構反應題，此外，都將閱讀理解的層次劃分為三~四個，並依此做為評量準則發展評量。從層次的劃分來看，皆由較低層次的提取訊息歷程進入較高層次的推論訊息，最後則是批判評鑑能力，可以了解閱讀理解的測量是依不同認知表現來評定，所以在測量「閱讀理解」概念時，將評量內容劃分為三~四個認知層次，較符合閱讀理解的發展情形。上述三大國際性評量認知層次劃分方式整理如表 2-2。. 整體而言，NAEP 測驗的對象較廣，跨越三個年段，文本內容的區分也相對完整，包含訊息文本與文學文本的差異(如表 2-3)，並利用文本地圖設計測驗明細表。此外，從 NAEP 評量三階段閱讀歷程的內容看來，與上一節閱讀歷程所歸納之理解三層次似乎有相同之處，「尋找與回憶」為找到文本明確訊息與簡單推論，內容符合閱讀歷程之「表層理解」；「整合和詮釋」為在文本中跨段落的整合訊息，則符合閱讀歷程之「深層理解」；至於「批判與評鑑」則是跳脫文本，從客觀角度進行思考，和「批判理解」的意義相當接近，可見 NAEP 評量的三個認知目標分類與閱讀歷程是相呼應的，說明了以此分類方式確實能判斷閱讀理解的程度，故本研究採取以 NAEP 評量為理解測驗之依據，詳細認知目標與文本類型之說明如表 2-3，。. 15.

(25) 表 2-2 三大國際閱讀理解評量認知層次整理，引自張麗麗(2012) 測驗 PIRLS. 閱讀理解歷程直接理解直接提取 ‧ 直接提取句子或段落層次的明確訊息 ‧ 不涉及或極少推論，但須組織與特定目標有關的訊息. PISA. NAEP. 接觸與尋找提取訊息(聚焦在獨立且分開來的訊息). 尋找與回憶(確認明確訊息及做簡單推論) 評量文本中小部份 (如：一個句子、一個或相鄰少數段落)的明述訊息. 直接推論 ‧ 對文章中未明述，但卻相當清楚的觀點或想法進行推論。 ‧ 訊息明述，但其間的關聯不明確，必須推論。 ‧ 可為局部或整體的直接推論。. 解釋理解檢視/評鑑內容、語言及文章元素詮釋整合 ‧ 在能進行許多直接推論此階段已從建構意義到批判文本，讀者跳脫文本，依據個人知識，從後，讀者能超越句子或段落個人或客觀的角度進行批判。的層次，將文本與背景知識 ‧ 評鑑內容：讀者比較其對文章及對世界的了解，對文本所呈現的觀及經驗連結，透過詮釋及整 ‧ 點做出接受、拒絕或中立的態度(如：反駁或支持文本的訴求) 合觀點或想法來建構意義。 ‧ 評鑑結構及語言：評鑑體裁、結構及語言，作者使用策略在傳達意義上的有效性，質疑作者的目的、觀點或技巧如：從個人經驗推論作者潛 ‧ 評鑑結構或語言的元素：文章是用來傳達觀點、情感及訊息，讀者在動機、形成意象等。可批判作者寫作手法的優缺點(讀者過去的閱讀經驗及對語言的熟悉度是此歷程的基礎). 整合與詮釋. 反思與評鑑. 整合 ‧ 聚焦在整個文本以形成更廣泛的理解. 詮釋 ‧ 聚焦在文本中部分與部分之間的關係以發展詮釋 ‧ 找出未明顯註明的意義整合與詮釋. 反思文本內容(關於實質內容) 反思文本形式(文本結構、功能). 批判與評鑑. ‧ 大部分、整體，甚至跨文本訊息的整合及解釋；超 ‧跳脫文本，從多元觀點綜合其他資料或經驗，客觀的批判文本越文本提供之間斷訊息、觀點、細節、話題等，在一個較抽象的層次提問、形成意象或連結 ‧ 讀者能連結文本訊息及先前所學或經驗、為特定目的或需要而閱讀、應用閱讀所得新知於真實生活中。. 16.

(26) 表 2-3 NAEP 文本類型的認知目標尋找與回憶文學與訊息文本兼有. 整合和詮釋. 批判與評鑑. 批判性的思考文本，確認文本中明確訊息，跨文本段落間做複雜例如：做跨段落的簡單推論，的推論，例如：＊描述問題與解決、因＊評論作者的手法例如：和技巧果關係＊定義＊比較內容主旨、問題＊在段落或段落間＊事實評鑑作者的觀點或解決方式＊支持細節＊判定論述中未明定＊持與文本不同的觀點的假設＊描述作者如何使用文學手法及文本特徵. 文學文本特有. 批判性的思考文本，在文本段落內或段落間在文本段落內或段落例如：確認明確的訊息，例如：間做複雜的推論，例＊評鑑角色在文學如：＊角色特點手法中表達的意＊事件或行為的順序＊推論情緒或氛圍義＊整合概念以決定主＊場景＊決定文學手法增題＊確認象徵、比喻性的加文學作品的程＊確認或解釋角色動語言度機與決定＊檢視主旨與場景或＊評鑑一個角色的動機和決定角色之間的關係＊解釋詩、節奏或形式＊從作者的觀點進行分析對韻文意義上的貢獻. 訊息文本特有. 在文本段落內或段落間在文本段落內或段落批判性的思考文本，例如：確認明確的訊息，例如：間做複雜的推論，例＊分析訊息的呈現如：＊主題句或主要概念方式＊摘要主要概念＊作者的目的＊做結論並提供支持＊評估作者選取的＊因果關係語言對讀者的影的訊息＊在文本或圖表中找響＊找出支持論點的證到特定的訊息＊評估作者使用的據證據來支持論點＊在文本段落或段落的強度和品質間決定訊息的重要＊在文本段落或段性落間決定反面論點的品質＊評價論點的連貫性、邏輯以及可信度. 資料來源：NAGB(2008, p.47). 17.

(27) 肆、國內以 NAEP 為架構之國小閱讀理解測驗「以 NAEP 架構建置國小高年級閱讀理解測驗」為林怡君於民國 99 年所編製，目的為測驗國小五、六年級學童的閱讀理解，是以 NAEP 2009 閱讀評量架構為編製參考，依據閱讀理解歷程的「尋找與回憶」、「整合和詮釋」、「批判與評鑑」，以及文本類型「文學文本、訊息文本」形成雙向細目表，題本內容有二篇文學性文本，三篇訊息文本，題型為 27 題選擇題與 10 題結構問答題，與「中文閱讀理解測驗」(林寶貴、錡寶香，民 88)的相關為.75。「以 NAEP 架構建置國小四、五年級閱讀理解測驗」為黃琬玲於民國 99 年編製，目的是測量國小四、五年級一般學童的閱讀理解情形，以 NAEP 2009 閱讀評量架構為編製參考，如同林怡君的「以 NAEP 架構建置國小高年級閱讀理解測驗」，按照三個認知層次進行題目編製，與「中文閱讀理解測驗」(林寶貴、錡寶香，民 88)的相關為.77。由上述可知，林怡君與黃琬玲之閱讀理解測驗，符合國際性大型評量 NAEP 的閱讀認知層次分類，也幾乎與表 2-1 的表層理解、深層理解及批判理解分類方式一致，此外，測驗目的、測驗架構以及計分方式，都以國際測驗為參照對象，確實以「閱讀理解」為構念之測驗，故本研究選此二測驗為施測工具。. 18.

(28) 第三節 Rasch 模式及其應用本節將說明研究使用的 Rasch 模式、診斷測驗以及 Rasch 模式在診斷測驗上的應用，以下將分為三部分說明。壹、Rasch 模式介紹 Rasch 測量模式創始者為丹麥數學家和心理學家 Gerog Rasch，強調的是「客觀測量」，認為每一個受試者在測量變項上都只會有一個值，因此變項是單向度的，和古典測驗理論(CTT)中的樣本依賴與試題依賴不同(王文中，1996)。CTT 中利用答對率來決定測驗的難度，如果受試者的程度很高，那麼題目相對通過率高，測驗難度便低；反過來說，如果受試者的程度較低，題目通過率變低，而測驗難度便會提升，所以一份測驗的難度決定於受試樣本，也就是說，試題的難度除了受題目本身的影響外還受到了受試樣本的影響，易造成不穩定的結果。Rasch 模式建立在試題反應理論之上，這裡強調變項是「單向度」(unidimensionality)，而 Rasch 模式本身已具備檢驗這個前提的功能(趙小瑩、王文中、葉寶專，2007)。這裡指的單向度是說每一個受試者在欲測量構念上都不受其他因素影響，具有樣本獨立性(sample independent)與測驗獨立性(test independent)，也就表示樣本與測驗工具間彼此不會互相依賴，在控制試題難度的情形之下，受試者能力的差異只與受試者能力有關；同樣的，在控制受試者能力的情形之下，試題難度的差異只和試題難度有關，因此測量工具與被測量的客體是相互獨立的，受試者的能力與試題難度都能依序在量尺上排列出來，即明確客觀(specific objectivity)測量(張麗麗、羅素貞，2011)，意即 Rasch 模式解釋的表現決定於測驗所測量到的受試者能力，不同於依賴試題難度而產生變化的受試者分數(Embretson & Hershberger, 1999)。此外，CTT 用原始分數做結果分析，原始分數或其轉換後並沒有等距特性，不適用於參數估計(王文中等，2007)。Rasch 模式則使用取自然對數的方法進行分析，發現取自然對數的方法在受試者間的排序與差距都較原始分數穩定，因此 Rasch 模式採用 logit 為單位，將試題難度和受試者的能力透過 logit 做轉換，並以機率的數學模式解釋二者關係，使之具有客觀及等距之特性，在分析上，亦可同時混合不同題型、不同計分方式做分析(張麗麗等，2013；王文中等 2007)。另外，Rasch 模式值得提出來的一點是由於具有單向度特質，所以能對受試者的能力與題目難度進行排序，當受試者有異常反應時，也就是答對題目與試難度排序不同時可以深入追蹤，說不定能因此看到新的現象、發現新的理論(王文中，2004)，因我們採用數據契合模式的方法而非尋找統計模式來契合數據(Wilson, 2005)，當我們在檢驗數據是否契合 Rasch「測量模式」(measurement model)的同時，也檢驗或甚至建立了符合測量原則的變項(張麗麗、羅素貞，2011)，這些是和古典測驗理論不同之處。換句話說，Rasch 模式可以具備診斷的功能，找出異常反應的原因，進而了解受試者的困難並協助受試者解決。此外，也是因具備單 19.

(29) 向度特質，所以不同受試者可以作答不同的題目，只要依照其作答反應界定出其能力水準即可(王文中，2004)。其原理就像是做視力檢測一樣，受測者不用看每一個視力圖，檢測人員會依據受測者作答情形給予下一個視力圖，反覆幾次後便能找到受測者的視力狀況，Rasch 模式也是利用此原理界定受試者能力。貳、診斷測驗(diagnostic assessment) 學生的學習過程與教學、診斷及評量這三者的關係密切，來自評量的回饋會引導教師下一步驟的教學(Nitko, 1996)；Lipson & Wixson(2009)表示診斷測驗是讓教師透過具代表示性評量更了解學生的真實表現情形，目的是為了能調整教學並幫助教師做下一步的決定。而班級教學使用的測驗分類中包含安置測驗、形成測驗、診斷測驗與總結測驗(Linn & Gronlund, 鄒慧英譯，2003)。診斷評量的目的在診斷學生的困難，即診斷學生在教室中有關學習、情緒及社交等各項問題，教師會找出問題、了解現狀及提出解決方法(張麗麗，2007)，也就是說，診斷型評量除了診斷學習問題之外，還能依此結果進一步解決學習問題(吳清山、林天祐，2011)；Nitko(1996)也認為診斷評量有兩種目的：(1)界定學生在哪個學習目標未達精熟；(2)對學生未能精熟的學習目標提出可能的原因或理由。基於上述內容，可以了解診斷評量是利用測驗形式來找出學生困難的原因(Linn & Gronlund, 鄒慧英譯，2003)，並進而協助提出改善或解決之道。因此，Nitko(1996) 針對學習問題診斷提出六項方法，分別是(1)分析內容優勢與缺點；(2)確定缺乏的先備知識；(3)確定不精熟的目標；(4)確定學生出現的錯誤；(5)確定學生的知識結構；(6)確定學生解決文字題的能力，並用診斷流程圖表示學生學習與教學的過程，如圖 2-2。從認知心理學的角度而言，認知診斷測驗的研究方法是以客觀、可以量化和以較深奧的數學模式架構做基礎，來探究人類的學習行為以及日趨複雜的認知活動(余民寧，1995)，每一種不同的知識都有其獨特的結構，透過學生作答的一致錯誤表現，可以找出學生在解題時產生的迷思(李盛祖、林世華，1999)，所以由上述內容中，我們可以發現診斷學習困難與教學是密不可分的。Tatsuoka(1983， 1986，1990)發現小學生在解決四則運算中答錯者反應組型皆不相同，進一步了解才得知因學童使用錯誤規則而產生系統化的認知失誤(引自余民寧，1995)，而也因有了診斷評量才能給予教學者回饋，讓教學者診斷出學生不懂的地方或是具有認知失誤的學生，並能對症下藥試圖解決原因，可以說是協助學生進步的重要評量之一，由此可知診斷評量在教學過程中的重要性。. 20.

(30) 進行下單元前是否具備. 是. 進行下一單元教學. 學生練習單. 學生是否. 元學習目標. 精熟學習. 先備知識？. 是. 目標？. 否. 否. 教導或重新. 重新教導未. 確認未精熟. 教導先備知. 精熟的學習. 的學習目標. 識. 目標. 更正錯誤. 學生犯的錯誤是什麼？. 更正學生不. 為什麼這些. 完善的思考. 錯誤會出現？什麼樣不完善的思考導致錯誤的出現？. 圖 2-2 診斷學習困難與教學過程的整合，Nitko(1996), p.286. 參、Rasch 模式在診斷評量上之應用透過 Rasch 具備單向度的特性，也就是受試者與試題彼此能相互獨立，在量表上排出順序，就能了解受試者在測驗中實際表現的情形(王文中，2004)。前面已稍稍提過，當受試者有異常反應時，可以深入了解問題所在，因此，在進行 Rasch 分析時，可以讓測驗的使用者更進一步的了解受試者的資料，了解每道試題的意義、關心每位受試者作答的情形，亦能測量出特定領域的結構及觀察值的類型，所以說 Rasch 模式可以用來診斷資料，以達到診斷測驗的目的(Wilson, 2005；王文中，1996)。也就是說，欲了解受試者實際表現，僅以靠著數人頭，或者是總計多少人答對、多少人答錯的方式有其不足之處，應該試著了解答對的人過程中有沒有疏漏，答錯的人他的問題是出在哪裡，以便進行下一步教學決策 (李盛祖、林世華，1999)。 21.

(31) Mead(2009)以 Rasch 模式為基礎對學生的智能提出報告(The ISR：Intelligent Student Reports)，說明透過 Rasch 模式中的適配度分析(analysis of fit 或 analysis of misfit )能描述受試者在量表尺度上的特定落點，找出受試者能做到哪些能力以及無法達到哪些能力，也能從不符合模式期待的表現中看到偏離預期的情形，而這項特徵能點出受試者非典型的優勢與弱勢之表現，因此，將這些結果帶給專家了解，便能有實質性的解釋和診斷表現的功能。Mead 更指出，以 Rasch 模式為測量方式所獲得的結果，能提供更多、更有用的資訊給受試者參考，也就是如前所述，不僅具備測驗功能，更能指出受試者能力所在，並兼具診斷之特性。 Connolly, Nachtman 及 Pritchett(1971)即以 Rasch 為測量方法對幼稚園到國小六年級學生進行 14 個數學主題測驗，並製做成診斷剖面圖 (Diagnostic Profile)，透過診斷結果可以了解受試者在數學方面已獲得的能力或尚未學會的能力(引自 Embretson & Hershberger, 1999)。此外，診斷剖面圖提供了極具意義性的測驗表現內容，特別是給需要設計教學計畫的教師、家長等，更能幫助我們界定學生的表現以進行後續的補救教學計畫，也就是說明，Rasch 模式能幫助測驗豐富解釋基模，提供和測驗主題有關的更多、更重要的表現訊息(Embretson & Hershberger, 1999)。 Wilson(2005)指出，Rasch 模式提供了一個便利的方式來估計受試者表現與試題難度，這有助於促進以測驗內容來解釋受試者表現的估計情形。Wilson(2005) 更以自然科學的浮力為例，利用 Rasch 模式來描述學生在測驗內容中的表現；簡而言之，利用 Rasch 模式來了解學生對於測驗內容的表現及教學所需對於教學而言是一件很有意義的事情，能利用圖表發展出學生表現情形使讀圖者掌握對受試者的表現以進行診斷功能，甚至是一眼就能得知受試者在量表上各子概念之間的距離，了解學生與學習目標的距離，進而做出最適當的重要教學判斷 (educational-important decision)，是 Rasch 模式的特點，也是在教學中可以提供的重要資訊。綜合上述，可以明白 Rasch 模式建立在試題反應理論之上，與古典測驗理論有相當多的不同，其一是受試者能力與測驗難度彼此相互獨立；其二是使用的數據不同，Rasch 使用的 logit 較原始分數穩定，並能同時處理不同計分方式的題型；其三是具備了診斷測驗的功能，能找出受試者的異常反應，供研究者做進一步的分析，由於上述三點特質符合本研究欲探討的內容，故採取 Rasch 模式進行分析。. 22.