研究工具

第三章研究方法

第二節研究工具

本研究採用「國小高年級閱讀理解測驗」(林怡君，2010)以及「國小中年級閱讀理解測驗」(黃琬玲，2010)兩份題本，測驗題本裡各有五個文本及試題，下列先介紹測驗內容，再說明本研究採用之文本及試題。

壹、國小高年級閱讀理解測驗 一、測驗文本及試題說明

測驗對象為國小五年級和六年級學童，以 NAEP2009 閱讀評量架構為編製參考，並依閱讀理解層次和文本類型形成雙向細目表，閱讀理解歷程包括「尋找與回憶」、「整合和解釋」以及「批判與評鑑」三個認知層次，文本類型則包含文學文本及訊息文本兩類，文學文本二篇(瑞秋‧卡森的故事、記憶的項鍊)，訊息文本三篇(台灣的嬌客-不再旅行的櫻花鉤吻鮭、巧克力最早是「苦水」飲料？、地球發燒了)，總計五篇。測驗題型分為選擇題(27 題)和建構反應題(10 題)，前者採對錯計分，後者採 0~1 及 0~2 的多元計分。

二、信度說明

信度方面，林怡君研究者將受試者在相隔兩週的二次測驗所得之能力估計值，用 Person 相關求取再測信度係數，得再測信度係數為 0.84；受試者分隔信度指的是受試者變異能由真分數變異所佔的比率，也就是由 Rasch 模式解釋的比率，係數越高表示試題越能區隔受試者的能力特質，得到係數為 0.84；試題分隔信度係數代表受試者區隔試題難度的程度，係數為 0.99；此外，評分者部分是利用 Rasch 的多面向模式(Many-facet)來估計評分者的嚴苛度，兩位評分者位置為 0.06 和-0.06，顯示評分者嚴苛度相近，原始分數 Spearman 相關係數介在 0.87~0.96 之間，也就是給分一致性佳。

三、效度說明

效度方面，由專家檢視題本確定測驗與閱讀理解有關聯性，以確認試題具有代表性；使用 Rasch 模式分析，首重是檢驗樣本所得數據是否符合模式預期，也就是檢驗試題所測構念是否符合單向度，透過個別試題適合度指標、殘差主成份分析等二者分別檢驗之。在個別試題適合度指標方面，MNSQ 值介於 0.76~1.16 之間，屬 MNSQ 的合理範圍；殘差主成份分析得到特徵值為 1.7，亦尚在合理範圍之內，前者顯示個別試題符合單向度之檢定，後者則說明整體試題符合單向度檢定。此外，為了確認測驗內容是否出現不同次群體有非測驗擬測特質影響著受試者的作答表現，林怡君研究者亦利用殘差雙因子變異數分析，對不同年級及性別做 DIF 檢定(試題差異功能，differential item functioning，簡稱 DIF)，並同時以 F 值和各題 ICC(試題特徵曲線，item characteristic curve，簡稱 ICC)做檢視，確

定該測驗試題對不同年級與性別的高年級學童無明顯 DIF，表示測驗試題對於不同年級與性別的學童都測到相同構念。試題內容也呈現階層分布，「尋找與回憶」

層次的試題原始分數平均得分比例為 62.5%，「整合和解釋」層次試題原始分數平均得分比例為 38.64%，而最高層次的「批判與評鑑」中原始分數平均得分比例為 16.67%，結果顯示三種層次的試題裡面，「批判與評鑑」層次的試題最為困難，「整合和解釋」層次的試題其次，以「尋找與回憶」層次的試題為簡單。

四、與外在效標之關聯

在效標關聯效度方面，以 Rasch 模式得到的受試者能力估計值與「中文閱讀理解測驗」(林寶貴、錡寶香，1999)相關為 0.75，與學童國語文和數學學期的成績相關分別為 0.59 和 0.54；此外，不同年級、性別、語文能力的高年級受試學童在閱讀理解表現上達顯著差異，以年級而言，六年級學童顯著優於五年級學童；以性別而言，女生學童明顯優於男生學童；以語文能力而言，高語文能力學童閱讀理解表現最佳，中語文能力學童閱讀理解表現次之，低語文能力學童的閱讀理解表現最差。

綜合前述之試題信度、單向度檢定、DIF 檢測以及外在關聯效度的憑證，整體言之，「國小高年級閱讀理解測驗」是一份相當具有信、效度的閱讀理解測驗。

貳、國小中年級閱讀理解測驗 一、測驗文本及試題說明

測驗對象為國小四、五年級學童，以 NAEP2009 閱讀評量架構為測驗編製參考依據，閱讀歷程同「國小高年級閱讀理解測驗」分為三個層次，文本方面分為三篇文學文本(琪琪的「實話」運動、漏米岩、自立)及二篇訊息文本(黑面琵鷺、

肥胖—現代學童的流行病)，總計五篇。測驗題本同樣有選擇題(32 題)和建構反應題(9 題)，前者為對錯計分，後者為 0~1 及 0~2 多元計分。

二、信度說明

信度方面，黃琬玲研究者用 Rasch 模式中的受試者分隔信度，求得信度為 0.89，此係數越高代表試題在分隔受試者的能力上越穩定；而試題分隔信度為 0.99，此係數越高表示受試者在分隔試題難度上越穩定；並間隔兩週後再次施測取得能力估計值，以 Pearson 相關求兩次估計值的相關得到 0.89，顯示受試者在不同時間進行測驗的表現亦相當穩定。評分方面依照 Rasch 模式進行嚴苛度估計，兩位評分者變異不大，評分者位置分別為 0.06 和-0.06，若以評分者原始計分之 Spearman 相關係數則介於 0.9~0.99，表示評分者的嚴苛度相當接近，給分情形具有一致性。

三、效度說明

效度方面，題本本身經過雙向細目表及編製測驗領域專家之檢核，建立憑證支持測驗內容為欲測構念的代表性樣本；並利用「個別適合度指標」(infit MNSQ 和 out MNSQ)及整體適合度指標(殘差主成分分析)來檢視數據在 Rasch 模式裡符合單向度之情形。首先，在個別適合度指標中，大部分試題的 MNSQ 二元計分介在 0.7~1.3 之間，惟試題 22 及 19 outfit MNSQ 為 1.34 及 1.32，也僅略高於 1.3，

屬可接受之合理範圍，多元計分則介於 0.6~1.4 的理想範圍之中；接著利用殘差主成分分析檢視整體適合度指標，得到特徵值 1.8，與理想的 1.5 標準接近，前者說明了測驗的個別試題都符合 Rasch 模式的單向度檢定，後者則是說明整份測驗皆符合單向度之意。黃琬玲研究者亦利用殘差雙因子變異數分析檢視年級及性別 DIF 檢定，並檢視 ICC 及試題內容性質，得到測驗試題對不同年級與不同性別的學童具有相同意義，也就是測到了相同的構念。試題內容的理解階層分布上，發現受試學童在「尋找與回憶」層次試題之得分比例為 62%，在「整合和解釋」層次試題的得分比例為 40%，最高層次的「批判和評鑑」得分比例降為 25%，

顯示出試題內容具有階層性。

四、與外在效度之關聯

在效標關聯效度方面，學童在本測驗的能力估計值與「中文閱讀理解測驗」

(林寶貴、錡寶香，1999)原始得分相關為 0.77，與學童學期國語文領域成績相關為 0.58，與數學學期成績相關為 0.47，表示和特質接近的國語文構念相關較高，

反之，和特質較不接近的數學構念相關較低。此外，測驗結果以 Rasch 能力估計值進行單因子變異數分析，發現不同年級、不同性別和不同國語文程度在測驗表現上有顯著差異，以年級而言，五年級學童的閱讀理解能力顯著優於四年級學童；以性別而言，女童顯著優於男童，惟實質差異並不是非常大；再以語文能力程度而言，高語文程度學童顯著優於中語文程度及低語文程度學童。

綜合上述之試題信度、單向度檢定、DIF 檢視、效標關聯的結果，整體看來，

「國小中年級閱讀理解測驗」是一份相當具有信度與效度之閱讀理解測驗。

參、本研究選用之測驗內容

依據「國小學童識字與閱讀理解能力診斷之研究活動」(張麗麗等，2011)的說明，考量學童作答時間與專注力的限制，因此在題本選擇上採組合方式，選用

「國小高年級閱讀理解測驗」中的三篇文本，分別是「巧克力最早是『苦水』飲料？」、「地球發燒了」及「記憶的項鍊」，前兩篇為訊息文本，最後則是文學文本；亦從「國小中年級閱讀理解測驗」中選用兩篇文本，分別是「漏米岩」與「自立」兩篇文學文本。由「巧克力最早是『苦水』飲料？」、「漏米岩」與「自立」

三篇形成題本一；由「巧克力最早是『苦水』飲料？」、「地球發燒了」及「記憶

的項鍊」為題本二，四年級學生 561 人做題本一的測驗，六年級學生 632 人做題

表 3-4 文本試題之認知層次、題型及計分

在文檔中屏東縣四~六年級學童之閱讀理解認知層次—Rasch模式之應用 (頁 37-42)

第三章 研究方法

第二節 研究工具

第三章研究方法

第二節研究工具