• 沒有找到結果。

第三章 研究方法

第二節 研究工具

本研究採用「國小高年級閱讀理解測驗」(林怡君,2010)以及「國小中年級 閱讀理解測驗」(黃琬玲,2010)兩份題本,測驗題本裡各有五個文本及試題,下 列先介紹測驗內容,再說明本研究採用之文本及試題。

壹、國小高年級閱讀理解測驗 一、測驗文本及試題說明

測驗對象為國小五年級和六年級學童,以 NAEP2009 閱讀評量架構為編製參 考,並依閱讀理解層次和文本類型形成雙向細目表,閱讀理解歷程包括「尋找與 回憶」、「整合和解釋」以及「批判與評鑑」三個認知層次,文本類型則包含文學 文本及訊息文本兩類,文學文本二篇(瑞秋‧卡森的故事、記憶的項鍊),訊息文 本三篇(台灣的嬌客-不再旅行的櫻花鉤吻鮭、巧克力最早是「苦水」飲料?、地 球發燒了),總計五篇。測驗題型分為選擇題(27 題)和建構反應題(10 題),前者 採對錯計分,後者採 0~1 及 0~2 的多元計分。

二、信度說明

信度方面,林怡君研究者將受試者在相隔兩週的二次測驗所得之能力估計 值,用 Person 相關求取再測信度係數,得再測信度係數為 0.84;受試者分隔信 度指的是受試者變異能由真分數變異所佔的比率,也就是由 Rasch 模式解釋的比 率,係數越高表示試題越能區隔受試者的能力特質,得到係數為 0.84;試題分隔 信度係數代表受試者區隔試題難度的程度,係數為 0.99;此外,評分者部分是利 用 Rasch 的多面向模式(Many-facet)來估計評分者的嚴苛度,兩位評分者位置為 0.06 和-0.06,顯示評分者嚴苛度相近,原始分數 Spearman 相關係數介在 0.87~0.96 之間,也就是給分一致性佳。

三、效度說明

效度方面,由專家檢視題本確定測驗與閱讀理解有關聯性,以確認試題具有 代表性;使用 Rasch 模式分析,首重是檢驗樣本所得數據是否符合模式預期,也 就是檢驗試題所測構念是否符合單向度,透過個別試題適合度指標、殘差主成份 分析等二者分別檢驗之。在個別試題適合度指標方面,MNSQ 值介於 0.76~1.16 之間,屬 MNSQ 的合理範圍;殘差主成份分析得到特徵值為 1.7,亦尚在合理範 圍之內,前者顯示個別試題符合單向度之檢定,後者則說明整體試題符合單向度 檢定。此外,為了確認測驗內容是否出現不同次群體有非測驗擬測特質影響著受 試者的作答表現,林怡君研究者亦利用殘差雙因子變異數分析,對不同年級及性 別做 DIF 檢定(試題差異功能,differential item functioning,簡稱 DIF),並同時以 F 值和各題 ICC(試題特徵曲線,item characteristic curve,簡稱 ICC)做檢視,確

定該測驗試題對不同年級與性別的高年級學童無明顯 DIF,表示測驗試題對於不 同年級與性別的學童都測到相同構念。試題內容也呈現階層分布,「尋找與回憶」

層次的試題原始分數平均得分比例為 62.5%,「整合和解釋」層次試題原始分數 平均得分比例為 38.64%,而最高層次的「批判與評鑑」中原始分數平均得分比 例為 16.67%,結果顯示三種層次的試題裡面,「批判與評鑑」層次的試題最為困 難,「整合和解釋」層次的試題其次,以「尋找與回憶」層次的試題為簡單。

四、與外在效標之關聯

在效標關聯效度方面,以 Rasch 模式得到的受試者能力估計值與「中文閱讀 理解測驗」(林寶貴、錡寶香,1999)相關為 0.75,與學童國語文和數學學期的成 績相關分別為 0.59 和 0.54;此外,不同年級、性別、語文能力的高年級受試學 童在閱讀理解表現上達顯著差異,以年級而言,六年級學童顯著優於五年級學 童;以性別而言,女生學童明顯優於男生學童;以語文能力而言,高語文能力學 童閱讀理解表現最佳,中語文能力學童閱讀理解表現次之,低語文能力學童的閱 讀理解表現最差。

綜合前述之試題信度、單向度檢定、DIF 檢測以及外在關聯效度的憑證,整 體言之,「國小高年級閱讀理解測驗」是一份相當具有信、效度的閱讀理解測驗。

貳、國小中年級閱讀理解測驗 一、測驗文本及試題說明

測驗對象為國小四、五年級學童,以 NAEP2009 閱讀評量架構為測驗編製參 考依據,閱讀歷程同「國小高年級閱讀理解測驗」分為三個層次,文本方面分為 三篇文學文本(琪琪的「實話」運動、漏米岩、自立)及二篇訊息文本(黑面琵鷺、

肥胖—現代學童的流行病),總計五篇。測驗題本同樣有選擇題(32 題)和建構反 應題(9 題),前者為對錯計分,後者為 0~1 及 0~2 多元計分。

二、信度說明

信度方面,黃琬玲研究者用 Rasch 模式中的受試者分隔信度,求得信度為 0.89,此係數越高代表試題在分隔受試者的能力上越穩定;而試題分隔信度為 0.99,此係數越高表示受試者在分隔試題難度上越穩定;並間隔兩週後再次施測 取得能力估計值,以 Pearson 相關求兩次估計值的相關得到 0.89,顯示受試者在 不同時間進行測驗的表現亦相當穩定。評分方面依照 Rasch 模式進行嚴苛度估 計,兩位評分者變異不大,評分者位置分別為 0.06 和-0.06,若以評分者原始計 分之 Spearman 相關係數則介於 0.9~0.99,表示評分者的嚴苛度相當接近,給分 情形具有一致性。

三、效度說明

效度方面,題本本身經過雙向細目表及編製測驗領域專家之檢核,建立憑證 支持測驗內容為欲測構念的代表性樣本;並利用「個別適合度指標」(infit MNSQ 和 out MNSQ)及整體適合度指標(殘差主成分分析)來檢視數據在 Rasch 模式裡符 合單向度之情形。首先,在個別適合度指標中,大部分試題的 MNSQ 二元計分 介在 0.7~1.3 之間,惟試題 22 及 19 outfit MNSQ 為 1.34 及 1.32,也僅略高於 1.3,

屬可接受之合理範圍,多元計分則介於 0.6~1.4 的理想範圍之中;接著利用殘差 主成分分析檢視整體適合度指標,得到特徵值 1.8,與理想的 1.5 標準接近,前 者說明了測驗的個別試題都符合 Rasch 模式的單向度檢定,後者則是說明整份測 驗皆符合單向度之意。黃琬玲研究者亦利用殘差雙因子變異數分析檢視年級及性 別 DIF 檢定,並檢視 ICC 及試題內容性質,得到測驗試題對不同年級與不同性 別的學童具有相同意義,也就是測到了相同的構念。試題內容的理解階層分布 上,發現受試學童在「尋找與回憶」層次試題之得分比例為 62%,在「整合和解 釋」層次試題的得分比例為 40%,最高層次的「批判和評鑑」得分比例降為 25%,

顯示出試題內容具有階層性。

四、與外在效度之關聯

在效標關聯效度方面,學童在本測驗的能力估計值與「中文閱讀理解測驗」

(林寶貴、錡寶香,1999)原始得分相關為 0.77,與學童學期國語文領域成績相關 為 0.58,與數學學期成績相關為 0.47,表示和特質接近的國語文構念相關較高,

反之,和特質較不接近的數學構念相關較低。此外,測驗結果以 Rasch 能力估計 值進行單因子變異數分析,發現不同年級、不同性別和不同國語文程度在測驗表 現上有顯著差異,以年級而言,五年級學童的閱讀理解能力顯著優於四年級學 童;以性別而言,女童顯著優於男童,惟實質差異並不是非常大;再以語文能力 程度而言,高語文程度學童顯著優於中語文程度及低語文程度學童。

綜合上述之試題信度、單向度檢定、DIF 檢視、效標關聯的結果,整體看來,

「國小中年級閱讀理解測驗」是一份相當具有信度與效度之閱讀理解測驗。

參、本研究選用之測驗內容

依據「國小學童識字與閱讀理解能力診斷之研究活動」(張麗麗等,2011)的 說明,考量學童作答時間與專注力的限制,因此在題本選擇上採組合方式,選用

「國小高年級閱讀理解測驗」中的三篇文本,分別是「巧克力最早是『苦水』飲 料?」、「地球發燒了」及「記憶的項鍊」,前兩篇為訊息文本,最後則是文學文 本;亦從「國小中年級閱讀理解測驗」中選用兩篇文本,分別是「漏米岩」與「自 立」兩篇文學文本。由「巧克力最早是『苦水』飲料?」、「漏米岩」與「自立」

三篇形成題本一;由「巧克力最早是『苦水』飲料?」、「地球發燒了」及「記憶

的項鍊」為題本二,四年級學生 561 人做題本一的測驗,六年級學生 632 人做題

表 3-4 文本試題之認知層次、題型及計分