• 沒有找到結果。

第五章 結論與建議

第二節 討論

根據研究分析與結果,分為以下五個部分進行討論,第一部分為本研究與其 他大型閱讀測驗評比(如 PIRLS、PISA)的結果比較,第二部分為外在因素對閱讀 理解的影響(如學校規模大小),第三部分為受試者本身因素(如年級與性別等) 對閱讀理解的影響,第四部分是 Rasch 模式的優勢與適切性,第五部分為 Rasch 模式分析測驗結果之應用(如應用在診斷報告中),以下將分別作說明。

壹、屏東縣四~六年級學童表現與國際大型閱讀測驗評比結果相比較

以屏東縣來說,達到「尋找與回憶」認知層次的一般水準(有.50 以上機率 答對認知層次平均難度試題)比例是最高的,為 83.3%,其次是「整合和詮釋」

認知層次,達到一般水準的比例是 50.8%,最後是「批判與評鑑」認知層次,達 到一般水準的比例僅 6.1%;而臺灣學生 PIRLS 2011 對四年級抽樣的測驗結果顯 示,直接解釋歷程(包括直接提取、直接推論)通過率約為 74%,解釋歷程的通過 率為 55%(包括詮釋整合、批判與檢視),比較兩者的測驗結果,發現屏東縣學童 的ㄧ般水準和 PIRLS 的通過率相當接近,如果將「整合和詮釋」及「批判與評 鑑」合為最高層次(相當接近於 PIRLS 的解釋歷程),共有 56.9%,與 PIRLS 直接 歷程 55%的通過率接近,以「尋找與回憶」的 83.3%而言,甚至略高於 PIRLS 解 釋歷程 74%的通過率;但是以精熟水準(有.80 以上機率答對認知層次平均難度試 題)而言,三個認知層次依「尋找與回憶」、「整合和詮釋」及「批判與評鑑」的 順序,所佔比例分別為 38.9%、11.5%及 0.02%,和 PIRLS 2011 的通過率就相去 甚遠。另外,2009 年的 PISA 測驗以閱讀素養為主,以該測驗中三個認知歷程的 測驗結果而言,第二層次的「統整與解釋」平均分數最高,為 499 分,其次為第 一層次的「提取與檢索」,平均分數為 496,最低分的層次為「省思與評鑑」,是 493 分,也就是說最高層次的「省思與評鑑」對於受試者而言相對較難(臺灣 PISA 研究中心,2014),本研究的最高認知歷程「批判與評鑑」不論是在一般水準或 精熟水準的比例,也都出現如此現象。

結果顯示,在層次一「尋找與回憶」的認知階段,能精熟者僅 38.9%,仍然 不到一半,令人對於閱讀方面低成就的學童有些許的擔心。研究中,發現未達到

「尋找與回憶」一般水準的學生有 16.4%;PIRLS 2011 與 PISA 2009 也都針對 閱讀能力落後的比例提出警訊,前者未達最低分水準與低分水準的比例合起來約 13%,後者未達最低水準與最低水準的比例約為 16%,與屏東縣受試對象的 16.4%

相當接近,也就是說,閱讀理解能力落在後頭需要加強補救的比例大過 10%,在 不同閱讀評比及不同對象上皆有相當接近的結果。

雖然 PIRLS、PISA(以閱讀素養為主時)及本研究旨都在測量閱讀能力,但彼 此之間仍有些不同。首先,就測驗結果詮釋方式而言,PIRLS 在認知層次上以通

過率、平均分數與量尺分數計算,而 PISA 採總分來區別不同水準(非認知層次),

本研究採能力估計值計算,並將不同閱讀認知層次能力估計值區分為一般水準與 精熟水準;測驗層次的分類上也不全相同,PIRLS 分為四類,PISA 分為三類,本 研究則依照 NAEP 架構分為三類;建構反應題的計分方式也不同,PIRLS 與 PISA 的開放題(建構反應題)最高計分達到 3 分,也就是有 4 個層級(0 分、1 分、2 分、

3 分),本研究最高到 2 分,僅 3 個層級(0 分、1 分、2 分);受試對象也不同,

PIRLS 施測對象為四年級生,PISA 測驗則是十五歲的青少年,本研究施測對象 為四到六年級,總共三個年級。

在各閱讀測驗不同條件之下,雖然無法做到完全對應的關係,但是就屏東縣 學童能力達到ㄧ般水準的比例而言,和 PIRLS 2011 在臺灣四年級學生施測的結 果是相近的,但本研究為四~六年級學生,顯然在有高年級學生的加入之下,成 績依然沒有較全臺灣四年級的表現來得好。這樣的結果可能和兩種測驗的詮釋方 式不同有關,也可能和兩份測驗測抽樣地區不同有關。屏東縣地處臺灣邊陲地 帶,素有「國境之南」的稱號,相對於熱鬧且繁華的都市而言,較為純樸與偏遠,

文化刺激及對於子女教育的重視程度可能都不如都市地區來得高,因此這種差異 便可能反映在閱讀測驗的表現上。

貳、受試對象外在因素對閱讀理解的影響,如學校規模

在研究結果中發現不同學校規模的學生,即使是相同年級之下,閱讀理解的 表現也有相當程度的不同,大型學校的表現優於中、小型學校。我國的學校規模 大小是依照班級數而定,大型學校規模的班級數多,表示附近人口較為稠密,也 就是較為接近甚或已是都市的環境;反觀規模為小型的學校,班級數少,人口數 相對而言降低許多,表示居住人口較少,極可能是類似山區或偏遠地區的環境,

可以說大規模的學校幾乎是位在城市地區,而小校則幾乎是位在鄉村,因此也表 示,位在城市地區的學童在閱讀理解的表現較鄉村地區的學童佳,國內針對學業 成就進行城鄉探討的結果也幾乎是城區表現優於鄉村表現(陶韻婷,2006;蔡本 元,2008;潘明智,2010;林寶貴等,1995;吳幼妃,1980),僅黃崇桓(2008) 的研究顯示學校規模與診斷測驗無顯著相關,但整體看來,學業表現與學校位在 的環境是有明顯關連的。

接著探討大、小型學校設施的差異,大型規模學校的經濟條件與設備常優於 小型學校,因此在校內圖書資源上亦有如此差異(郭明堂、羅瑞玉,1995),也可 能影響學生平日接觸、閱讀書籍的量與書籍的種類。根據 PIRLS 2011 的報告,

學校藏書量高於 10000 本的學校,學生閱讀成績顯著高於藏書量不到 10000 本的 學校學生閱讀成績;但甄曉蘭(2007)在教育機會不均等的研究中,發現東部偏遠 國中學校圖書館藏書量平均高於其它地區偏遠國中,不過大多是各方捐贈圖書,

因此許多書籍不符合學校需求,反而造成管理上的困擾,也並未因此而有較佳的 閱讀表現,顯然校內圖書館藏書量以及書籍內容是否符合學生需求,都可能和閱

讀理解能力有關。

在校外,市區通常擁有較完整的公共資源,相對於偏遠地區的圖書館,藏書 也較為豐富和多元,此外,坊間的租書中心、各大書局也較有可能在都市地區設 立,因此就接觸閱讀這件事情上位在城市的大規模學校學生擁有較多機會。

本研究在大校與中、小校閱讀理解的差異,反映了城區與鄉村地區學童表現 上的差異,除了前述圖書設備不同外,可能與偏遠地區學校處在交通、經濟不利 地區也有關聯。以科學成績來說,不論是城區或是鄉村,與學生科學成績相關最 強的變項皆為「家中資源」(陶韻婷,2006);在張芳全(2009)的研究中,發現都 市地區家庭父親教育程度、母親教育程度、學生課後補習的時間都比鄉村地區來 得高,也就是說,在較為偏遠地區學校的學生,家庭提供的資源可能普遍而言不 如都市的家庭,不僅在科學成績上反映出差異,在本研究的閱讀理解表現也有如 此情形。

在校內、外閱讀環境、家中資源、文化資本皆不同的情形之下,以同年級而 言,大型規模學校的閱讀理解表現顯著優於小型規模的學校,顯示學校規模及其 相關的因素影響著閱讀理解表現。

參、受試對象本身的因素對閱讀理解的影響,如年級、性別

根據研究結果發現,不論在哪一個年級,各認知層次或整體的表現上女生的 表現都優於男生,這個結果和 PIRLS 2006 及 PIRLS 2011 的調查結果相同,同時 PISA 2009 測驗十五歲的受試者亦有女生表現高於男生的現象,也與國內的研究 結果一致(林怡君,2010;黃琬玲,2010;林寶貴等,1995;周台傑,1993;吳 武典等,1984);以年級而言,在各認知層次或整體表現上,皆是年級越高表現 越佳,如同 Gunning(1996)整理之 Chall(1983)等人所提的發展理論相同,而國 內針對閱讀理解所做的研究,都發現年級不同而有顯著的差異,年級越高,閱讀 理解的表現越好(錡寶香,1999;林怡君,2010;黃琬玲,2010;吳敏而,1993),

顯示閱讀理解能力確實隨著年齡增加日趨成熟,也表示任何階段都有機會透過學 習及自身的發展增進閱讀理解能力。

肆、Rasch 模式的優勢與適切性

本研究透過 Rasch 模式的個別試題適合度指標、殘差主成分分析及 DIF 分析 檢視試題內容是否符合單向度假定,再以符合單向度的能力估計值檢視試題階層 的關係。測驗結果採用 Rasch 模式提供的「試題-受試者分佈圖」(如圖 4-3、圖 4-5 Wright Map),幫助受試對象了解試題的難度與測量構念的階層性,亦能利 用 Rasch 模式計算出答題機率,求出不同能力受試者答對不同題目的機率,不論 是「試題—受試者分布圖」或是答題機率,都能在效標參照及常模參照上做應用。

將之整理成測驗報告後,不僅能讓受試對象了解自己在不同難度試題的表現及答 對機率,亦能提供給教學者進行下一步教學計劃之依據,與「總分」、「平均數」

相比,能呈現更多面向的訊息。

Rasch 模式是不同於古典測驗理論的測量模式。簡要言之,Rasch 模式具有 客觀和等距的特性,可以將試題難度與受試者能力直接在量尺上排序與比較,具 備樣本獨立性與測驗獨立性,可以克服古典測驗理論的樣本依賴與試題依賴的問 題,亦能檢核不同認知層次試題是否符合「單向度」特性,也能檢驗計分等級的 階層性(張麗麗等,2013)。Rasch 模式具備上述特點之外,和古典測驗理論在測 驗解釋及應用方面也有差異,測驗解釋方面,古典測驗理論中答對的試題即予以 計分,而 Rasch 模式考量到試題難度的訊息,即使原始分數相同,但其能力估計 值也不一定相同;應用方面,由於古典測驗理論較淺顯易懂,所以能廣泛的被應 用在實際測驗情境(特別是小規模資料),而 Rasch 模式則因理論與計算較為繁 複,在適合的軟體問世前較少被接受,並且 Rasch 模式適用於大樣本的施測分析

Rasch 模式是不同於古典測驗理論的測量模式。簡要言之,Rasch 模式具有 客觀和等距的特性,可以將試題難度與受試者能力直接在量尺上排序與比較,具 備樣本獨立性與測驗獨立性,可以克服古典測驗理論的樣本依賴與試題依賴的問 題,亦能檢核不同認知層次試題是否符合「單向度」特性,也能檢驗計分等級的 階層性(張麗麗等,2013)。Rasch 模式具備上述特點之外,和古典測驗理論在測 驗解釋及應用方面也有差異,測驗解釋方面,古典測驗理論中答對的試題即予以 計分,而 Rasch 模式考量到試題難度的訊息,即使原始分數相同,但其能力估計 值也不一定相同;應用方面,由於古典測驗理論較淺顯易懂,所以能廣泛的被應 用在實際測驗情境(特別是小規模資料),而 Rasch 模式則因理論與計算較為繁 複,在適合的軟體問世前較少被接受,並且 Rasch 模式適用於大樣本的施測分析