國小高年級英語閱讀線上測驗研發

全文

(1)國立臺中教育大學教育測驗統計研究所碩士論文. 指導教授：郭伯臣. 博士. 國小高年級英語閱讀線上測驗研發. 研究生：張語婷. 中. 華. 民. 國. 一. ○. 三. 撰. 年. 七. 月.

(2) 謝辭一個偶然的機會讓我考上了測統所，讓我一腳踏進我最不擅長的統計學。兩年的時光轉眼已逝，真是既艱辛又充實。首先要感謝的是我的指導教授郭伯臣博士在這兩年來的悉心指導、督促與循循教誨讓我可以每每在快要迷失時重新找到新的方向，重新站起來。老師，感謝您。其次要感謝我的口考委員：曾建銘教授、廖晨惠教授，您們的細心審查與寶貴建議讓我在論文撰寫與修正上獲益良多。還有我最愛的老公，謝謝你七百多個日子裡天天辛苦接送、陪伴，讓我覺得我不是孤軍奮戰；也要感謝我的公婆和媽媽有你們全力支持，不辭辛勞的幫我照顧我的兩個寶貝兒子，讓我無後顧之憂的與論文、學業、工作奮鬥。除此以外，還有一路走來，相互扶持的好伙伴：莉葉、雅真、玉環、珣琪等等；有你們盡心盡力的幫忙、教導讓我可以如期完成對我來說難如登天的統計作業；也要特別感謝鎧誌學長的協助與不吝指教讓我在論文撰寫及投稿上找到靈感，使我受益匪淺。最後，謹以此論文獻給所有教導過我的師長以及幫助過我的伙伴們和我最愛的家人，能夠如期畢業，各位都是大功臣，也都是我生命中最重要的貴人。. 台中市中華民國一○三年七月.

(3) 摘要本研究主旨是編製一套國小英語閱讀電腦化測驗，以國民中小學九年一貫課程綱要英語閱讀能力指標為命題依據。在試題設計方面則參考朗文、康軒、何嘉仁、翰林、吉的堡等版本的國小英語課課程內容以及 TASA 的英語題庫架構。期望藉由此測驗來評量國小六年級學童在國小畢業前所應該擁有字彙、文法等相關閱讀理解能力。再者，也期望能更有效的幫助國小英語教師瞭解學生英語閱讀理解能力與學習瓶頸，以便進行補救教學，同時幫助國中英語教師有效銜接國中一年級英語教學的工具。整份測驗以國小英語基礎能力所涵蓋的字母、單字、文法句型為依據設計共計40題，3選1的選擇題，以台中、彰化地區的國小六年級學童為施測對象，共計590位有效樣本。本份測驗的分析結果如下： 1.. 本份測驗的信度是0.84，顯示試題信度達到良好程度。. 2.. 以IRT軟體分析出的試題平均難度是-0.58，平均鑑別度是0.99，平均猜測度是0.35。. 3.. 整體測驗的平均通過率是0.74，顯示試題屬於中間偏易。. 本研究在收集並且以IRT的3PL公式分析過所有學生的作答反應後，以實徵資料模擬電腦化適性測驗，結合MLE、EAP、和MAP三種能力估計方法逐一分析後發現，EAP與MAP估計法比MLE估計法得到的數據更精準；也發現當測驗信度達到0.84，接近0.85時，受試者只需作答到第16題，EAP估計法中的SE即小於0.38，達到節省施測題目與作答時間的效果。. 關鍵詞：國小英語閱讀理解、成就測驗、試題反應理論、電腦化適性。. I.

(4) Abstract The purpose of this research is to design a computerized online English reading test for grade six elementary students. It is designed on a basis of the English reading abilities for the Nine-Year Curriculum Outline. The question types and contents have been exploited from the English elementary textbooks published by Longman, Kang Hsuan, Hess, Han Lin and Kid Castle, as well as TASA Online Exam Bank. It is expected that this study can assist the frontline elementary English teachers to find out how well the six graders have learnt their vocabulary, grammar and daily English, as well as the difficulties they may experience in the learning process. What’s more, it is believed that this study can used as a tool for junior high school English teachers to pick up and expand students’ English acknowledgement. The test is consisted of 40 multiple choice questions, with a total of 590 test takers from Taichung and Chunghwa Areas. The results of the research are as follows: 1. The test reliability is 0.84, which is considered reasonable. 2. The test takers responses are analyzed with the 3PL IRT model, and the findings are: the average discrimination index is 0.99; the average difficulty index is -0.58; and the average guessing rate is 0.35. 3. The average passing rate of the test is 0.74, which means the test questions are considerably easy. More thorough analysis have been taken place using the A, B, C values, with a basis of the MLE、EAP and MAP methods. It is found that the EAP and MAP estimation methods are more desirable than the MLE method as far as standard II.

(5) errors and test takers’ ability estimates are concerned. Added to this, when the test reliability reaches 0.84, close to 0.85, the test takers only need to answer 16 test items for the SE estimated with the EAP method to be smaller than 0.38.. Keywords: Achievement Test, Computerized Adaptive Test (CAT), Item Response Theory (IRT), Elementary English Reading Competence. III.

(6) 目錄摘要……………………………………………………………………………….I Abstract…………………………………………………………………………..II 目錄……………………………………………………………………………..IV 表目錄…………………………………………………………………………..VI 圖目錄………………………………………………………………………….VII 第一章緒論……………………………………………………………………..1 第一節研究動機…………………………………………………………..1 第二節研究目的…………………………………………………………..3 第三節名詞解釋…………………………………………………………..3 第四節研究貢獻…………………………………………………………..4 第五節研究範圍與限制…………………………………………………..5 第六節論文架構…………………………………………………………..5 第二章文獻探討……………………………………….……………………….7 第一節閱讀與理解………………………………………………………..7 第二節英語與英語閱讀的內涵………………………………………....10 第三節英語閱讀現況與評量……………………………………………11 第四節測驗理論………………………………………………………....15 第五節電腦化評量………………………………………………………17 第三章研究方法……………………………………….……………………...25 第一節研究流程與步驟…………………………………………………25 第二節國小英語閱讀測驗試題編製…………………………………....29 第三節研究對象…………………………………………………………30 第四節研究工具………………………………………………………....31 第四章研究結果……………………………………….……………………...39 第一節施測結果…………………………………….…………………...39 第二節模擬電腦化適性評量分析…………………………………........49 第五章結論與建議…………………………………….……………………...53 第一節結論…………………………………….…………………...........53 IV.

(7) 第二節未來研究方向…………….………………………………….......54 參考文獻………………………………………………………………………..56 中文部分…………………………………………………………………...56 英文部分…………………………………………………………………...59 附錄…………………………………………………………………………......62. V.

(8) 表目錄表2-1 表2-2 表3-1 表3-2 表4-1 表4-2 表4-3 表4-4 表4-5 表4-6 表4-7. 國小英語閱讀相關研究………………………………………………12 國小英語閱讀理解能力指標…………………………………………14 試題雙向細目表……………………………………………………....29 題型介紹與相關閱讀能力指標………………………………………32 整體測驗信度…………………………………………………………40 個別試題信度分析……………………………………………………40 試題CTT難度分析對照表……………………………………………42 試題CTT鑑別度分析對照表…………………………………………42 個別試題CTT鑑別度與難度分析……………………………………43 個別試題IRT三參數與通過率分析………………………………….44 國小英語閱讀能力指標通過率..……………………………………..48. VI.

(9) 圖目錄圖2-1 圖2-2 圖3-1 圖3-2 圖3-3 圖3-4 圖3-5 圖3-6 圖4-1 圖4-2 圖4-3 圖4-4 圖4-5 圖4-6. TASA國小英語閱讀測驗範例……………………………………….15 電腦化適性測驗流程圖………………………………………………19 研究流程……………………………………………………………....26 國小英語閱讀電腦化測驗系統介面…………………………………36 正式施測的測驗系統介面……………………………………………36 正式施測時選擇測驗類別的介面……………………………………37 測驗作答畫面（一）………………………………………………….37 測驗作答畫面（二）………………………………………………….38 國小高年級英語閱讀測驗試題鑑別度分析圖………………………46 國小高年級英語閱讀測驗試題難度分析圖…………………………47 國小高年級英語閱讀測驗試題猜測度分析圖………………………47 受試學童的英語閱讀能力分佈……………………………….……...49 SE在不同能力估計法上的變化……………………………….……..50 RMSE在不同能力估計法上的變化………………………………….52. VII.

(10) 第一章緒論本研究是參考臺灣學生學習成就評量(Taiwan Assessment of Student Achievement, TASA)的英語測驗架構，以國內國小高年級學童為對象，並以試題反應理論（Item Response Theory, IRT）為分析基礎，建立一套具有相當信度和效度的英語閱讀能力測驗。本研究共計五章：第一章是緒論，第二章是文獻探討，第三章為研究設計與實施，第四章為結果與討論，第五章為結論與建議。本章主要針對研究動機與目的、重要名詞解釋，研究範圍與限制、以及論文架構逐一闡述。. 第一節研究動機在二十一世紀的現在，是科技、資訊爆炸的世紀，也是凡事都講究國際化的世紀，但是無論科技如何進步，如何日新月異，語言，一個全世界人們共通的語言更是在其中扮演著不可替代的重要角色。在全世界上百種不同語言中，英語無庸置疑是通行最久，也最為世界各國認同的共通語。所以要提高個人在專業領域或學業上的競爭力，就必須把英語學好。事實上，要確定我們經過一段時間的學習後的學習成效就必須要有測驗去評量學習的好壞。評量的方式有很多種，面對面的溝通是一種最直接的評量方式。在臺灣英語被視為學生在母語以外必須學習的第二外國語言。另一種最常見評量方式是紙筆測驗，那就是老師會針對學生學習的內容設計一份紙筆測驗來評量學生英語能力的高低。因為科技的進步，這種傳統的紙筆測驗漸漸被電腦化測驗所取代，學生從以一支筆在紙上作答，演變成坐在電腦前面，動動滑鼠作答。為了檢測學生英語能力的高低，更是設計過不勝其數的各種大型測驗，臺灣也發展了自 1.

(11) 己的英語閱讀理解能力檢測，其中最被廣泛應用的是全民英檢，但是眾多測驗中卻始終沒有一個真正針對國小學童英語閱讀能力檢測的測驗。如此造成國小與國中的英語教學出現脫節狀態。換句話說，諸如英語的基本音標、文法句型，國小英語教師先入為主的認為小朋友上國中以後會學所以沒教，而相對的國中英語教師確認為那些是國小畢業就應該具備的基礎能力而直接略過也沒教。余民寧曾經在「試題反應理論（IRT）及其應用」一書中提到電腦化測驗的優點有以下幾點（余民寧，2009）： 1.. 電腦化測驗可以針對受試者的作答反應給予立即性的回饋，讓施測者與受試者可以立即得知分數。. 2.. 電腦化測驗能夠降低施測時的誤差，提高評量的可信度。. 3.. 電腦化測驗能夠充分減少達一半以上的測驗時間。. 4.. 電腦化測驗施測時間彈性大。受試者或施測者可以隨時施測，隨時掌握學生的學習狀況。. 5.. 電腦化測驗可以記錄學生解題歷程。讓教師瞭解學生的解題技巧以及困難所在，或是更輕易瞭解學生的學習瓶頸，進行補救或延伸教學。目前國內已經有許許多多與英語閱讀理解相關的研究，例如：電子書融. 入文法教學、以影片協助國小六年級英語學習成效、國中學生英語閱讀電腦化適性測驗、國中英語聽力測驗、國中英語閱讀測驗自動化出題系統等等（黃詩芳，2013；張喬富，2012; 張元隆，2013；廖麗貞，2013）。但是在眾多研究中，卻沒有真正針對國小英語閱讀理解電腦化測驗的相關研究，筆者在國小擔任中高年級的英語專任教師至今快十年，一直期望可以設計一份真正可以評量國小六年級學生英語閱讀能力的電腦化測驗。. 2.

(12) 第二節研究目的基於上述的研究動機，本研究以國小六年級學童為研究對象，探討學生在國小畢業時應該具備的英語閱讀理解能力，以銜接未來國中階段的學習。本研究的具體研究目的如下： 1.. 國小高年級英語閱讀電腦化測驗研發。. 2.. 進行資料蒐集與試題分析與探討. 3.. 以實徵資料計算出的 a、b、c 試題參數模擬比較不同能力估計法於電腦化適性測驗的可行性。. 第三節名詞解釋本節僅針對本研究中常見的名詞逐一說明：一、英語閱讀閱讀，特別是英語閱讀是一種處理接收語言的過程。閱讀也是一種心理語言學的過程，也是一種語言與想法的互動。以英語閱讀為例，閱讀是作者將想法編碼成文字或語句，再由閱讀者以自身對英語字彙及文法的瞭解將語言解碼成思想。英語閱讀理解則是涵蓋認字解碼到理解文章意義的能力與過程（Goodman, 2003; 洪月女，2009）。二、成就測驗成就測驗（achievement test）是測量以教育或訓練所得到的實際能力。也就是說，成就測驗的目的在於測量受試過去的行為或已經學得的能力。成就測驗(Achievement Test)在學校教育中扮演重要的角色，是在教學過程中，幫助教師了解學生學其情形的測驗方式，以便選擇最適合學生程度的教材和教法。在輔導過程中，教師可以利用成就測驗的測驗結果，協助學生選課等 3.

(13) 升學輔導工作。在行政上，教師可利用測驗結果當作分班依據。（郭生玉， 1985）三、電腦化測驗電腦化測驗（CBT，Computer Based Tests）與紙筆測驗最大的不同是用以評量的媒體不同，也就是說紙筆測驗是以鉛筆或原子筆在紙上作答，電腦化測驗是以滑鼠或鍵盤在電腦上作答。電腦化測驗可被視作是紙筆測驗的電腦版，因為兩種測驗方式的測驗題目完全相同（余民寧，2009）。四、試題反應理論試題反應理論建立在兩個基本概念上：（1）受試者在某一試題上的表現情形，可由一個（或一組）因素來加以預測或解釋，該組因素即稱作「潛在特質」（latent traits）或「能力」（abilities）。（2）受試者的作答表現情形與該組潛在特質之間的關係，可以透過一條連續性遞增的數學函數來表示，這條數學函數便稱作「試題特徵曲線」（item characteristic curve, ICC）（余民寧，2002）。. 第四節研究貢獻國內目前雖然也有不少以國小六年級學生為研究對象的英語閱讀相關探究，但是這些研究只要專注在如何教導學生更有效的學習，而不是測驗相關的主題。因此設計一份以國小六年級學生為對象的英語閱讀電腦化測驗，不但可以協助國中小英語教師掌握學生學習狀態，更能有效降低國小與國中的英語教學出現的無法銜接的狀況。本研究會針對測驗題目進行試題分析，評估專家效度，以作為第一線的國中小英語教師教學上的參考。 4.

(14) 第五節研究範圍與限制本研究因為經費、人力與時間等限制，選擇以 590 名臺中、彰化地區的國小六年級學童為施測對象，題目方面參考了朗文、康軒、何嘉仁等版本的國小英語課本，規劃出共計 40 題的 3 選 1 的選擇題來評量國小六年級學童在國小畢業前所應該擁有字彙、文法等相關閱讀理解能力。本研究依據國小九年一貫的課程指標設計一套以三選一選擇題的理解能力測驗，同時以試題反應理論 Logistic 三參數的模式分析學生的學習達成率。本研究最大的限制有兩點：(1)受試樣本較少；(2)受試樣本只侷限於中彰地區。. 第六節論文架構本論文以五個章節來達成研究目的，略述如下：第一章：緒論闡述本論文的研究動機、研究目的、研究貢獻、研究範圍與限制。第二章：文獻探討針對研究相關背景知識進行探究與說明。第三章：研究設計與方法詳述研究流程與步驟、國小英語閱讀測驗試題編制、研究工具、英語電腦化評量系統。第四章：研究結果與討論闡述施測結果、模擬電腦化適性評量分析。第五章：結論與建議統整論文結論與建議，並描述英語閱讀電腦化適性測驗的未來研究方 5.

(15) 向。. 6.

(16) 第二章. 文獻探討. 本研究的研究目的是研發國小高年級英語閱讀線上測驗試題，本章節將針對英語閱讀理解、英語閱讀測驗相關理論基礎、試題分析的基礎理論、建置題目的電腦化測驗等進行相關文獻探討。. 第一節閱讀與理解壹、閱讀理解閱讀是學校學習活動的主要內容，閱讀對於技巧較差的學生來說，是將看到的課文或一篇文章視為一些互相無關之事實所結合而成的字串，其閱讀的唯一的在於仔細的「閱讀或堆砌每一個字」。相反的，閱讀對於純熟且有技巧的學生則將一篇同樣的文章看作一組有組織的、有意義的知識，原因在於他們知道如何決歸納文章的主題或是摘要重要的事實（林清山，1990）從基模理論的觀點來看，基模乃是閱讀者的普遍性知識結構，用來選擇及組織輸入的訊息，在將其納入一個整合的、有意義的架構之中（林清山， 1990）。Lerner（2000）指出成功的學習者能夠運用策略導引、控制與組織自己的想法，將新的學習材料與自己先前的知識經驗做結合，更甚者試著預測結果，並且監控和新資訊的關聯。如此的技巧對學生在閱讀上的成功與否佔有重要的地位，英文閱讀理解的原理亦相同。理解是閱讀的主要目的。當讀者面對一篇文章或短文時，會先運用已知文字知識去瞭解閱讀的內容，接著再將文字轉譯成有意義的型式，這個過程便是理解。所以理解是一種行為，也是一種能力。基本上，任何語言的閱讀理解，包括英語，可分為傳統的觀點和心理語言學的觀點二方面來加以闡述（藍慧君，1991）。 7.

(17) （一）傳統的觀點(Mercer, Evans, & Evans 1986； Swaby, 1989) 認為理解就是技能的表現，具備應有的技能，理解便自動發生。這技能有程度之別，因而產生四種不同層次的理解: 1. 字義的理解（literal comprehension)是指讀者可從字句中的語意，了解文章中述說清楚的主題、思想，包括回憶事實、細節、次序，並且知道字的意義。 2. 指讀者根據文章中描述的訊息，再以自己的經驗，直覺推論其中隱涵的意義。這種理解需要的技能包括推論中心思想，再做適當的解釋、預測、比較、對照、因果等。 3. 評鑑的理解（evaluative comprehension）即依據文章所傳達的訊息而產生自己的觀點，其中涵蓋價值判斷、決定主張，支持或拒絕某些意見。 4. 批評的理解(critical comprehension)也就是分析閱讀材料的格式、內容。其相關的技能包括知道文章思想的邏輯性和一致性、區別文章字句的型式和語態。(Mercer, Evans, & Evans, 1986；Swaby, 1989) （二）心理語言學的觀點(Lerner, 2000)認為理解是已知事物和未知事物之間的橋樑，要真正做到閱讀理解需要具備以下條件。 1. 閱讀理解必須依靠讀者具備的知識和經驗。換句話說，理解的表現必須建構在讀者具有的經驗、語言的知識、文章結構的認識等背景知識才能發生，也就是坊間常見的「基模理論」。 2. 閱讀理解是語言的過程，即閱讀理解是透過語言去獲得意義的過程。 3. 閱讀理解也是一種思考的過程。閱讀理解本身就像問題解決的過程一樣，為了能夠理解，讀者必須運用概念，設立並且考驗假設，進而修正假設。 4. 閱讀理解要求閱讀者主動投入文章中，主動融合他們原有的基模，即本身既存的概念結構和知識，以貫通文章的內容，最後得到理解。 (Swaby, 8.

(18) 1989)。總而言之，閱讀常常被解讀成一種積極而且具有高度自主性的行為。也就是說閱讀是一種複雜的認知歷程，其中包括認字與理解。閱讀主要的目的在於理解進而獲得更多知識。所以閱讀理解是一種行為，也是一種能力。擁有良好的閱讀理解能力可以讓我們在求新求知的路途上事半功倍。閱讀理解則是一種複雜的心智運作過程，有思考、語言的活動在內，與讀者本身已具有的舊知識（prior knowledge）、基模密切相關。理解的產生更需要運用某些相關的技能，以達到不同程度的理解狀態。英語閱讀理解則是涵蓋認字解碼到理解文章意義的能力，本研究中提到的英語閱讀理解泛指受試者在國小英語閱讀理解電腦化測驗的表現，此測驗包括字母、單字、句子和短文等面向的測驗。. 貳、閱讀理解的干擾因素藍慧君（1991）、劉玲吟（1994）、蔡銘津（2009）都曾經指出過干擾學生閱讀理解的因素有以下幾個： 1. 就整體文章而言：包括文章的結構、語言的清晰度、作者的寫作手法等等都會影響讀者的閱讀理解。 2. 閱讀者的字彙量、文法掌握度、母語能力、注意力、智商、動機、學科能力等等都會影響其閱讀時的理解力。 3. 閱讀者在閱讀時的環境因素諸如：是否有人在旁指導、環境吵雜與否、閱讀時間的限制等等也是閱讀時潛在的干擾因素。總而言之，閱讀理解不是讀者與語言文字的單純互動，而是一種讀者、文章與環境間交互作用的經歷。英語閱讀測驗是一種協助語言學習者自身或是第一線的英語教學者確實掌握學生學習狀況的一種最直接的工具。在建置測驗的同時必須將此節中提到的閱讀理解在不同層面的定義列入考量。 9.

(19) 第二節英語與英語閱讀的內涵壹、英語的內涵英語是世界上眾多語言中最容易學習的一種語言，但是英語也是最不容易精熟一種語言。英語是一種按照字母順序排列的語言，其語言特徵可以分以下幾點逐一說明(Goodman, 1996)： 1. 接收性（Receptiveness）：英語吸收或接受了很多來自亞洲、歐洲、非洲、印度、日本、中國等其他國家的語言的詞彙。甚者，英語有很多詞彙是來自古希臘、拉丁和梵文。 2. 異構性（Heterogeneousness）：英語是一種異構性的語言。因為英語許許多多來自其他不同語言的外來語讓其成為最複雜的語言之一。這個吸收的過程從以前開始並且一直持續著，然而在這個過程中，不同詞彙的定義和發音都與原來的字詞有一定程度的改變。 3. 固定的字詞順序（Fixed word order）:英語的語言結構中有固定的字詞順序，也就是說句子中不同生字的排列組合有一定的順序，避免語句模糊不清。甚者，句子中每個生字的位置決定它們之間的關係。 4. 片語或俚語（Use of Periphrases）：英語有非常多的俚語與片語，同樣一個理念或意思可以用好幾種不同的表達方式說明。 5. 多變的語調（Intonation）:英語中的不同語調可以完全改變一句話所要表達的意思。. 貳、英語閱讀的內涵英語是一種拼字語言。理解是閱讀的主要目的之一。英語閱讀（English Reading Comprehension）是處理書寫語言的過程，其主要目的也是為了理解，並且在理解的同時，學習新的知識與加強英語的語言表達能力。一個好的英 10.

(20) 語閱讀者必須具備以下幾個條件（洪月女，2009）： 1. 好的英語閱讀者必須擁有積極的態度與明確的閱讀目的。 2. 好的英語閱讀者在閱讀時需要隨時查看、回顧、建構、預測所閱讀的內容。 3. 好的英語閱讀者在閱讀時會將自身既有的知識與閱讀的內容整合、內化。 4. 好的英語閱讀者會在閱讀前謹慎選擇讓閱讀成為既有趣有可以增長知識的一個過程。. 參、小結閱讀是一種行為，一種過程，也是理解的主要目的。所以閱讀與理解之間有著密不可分的關係，英語的閱讀與理解也是。在臺灣英語閱讀是第二外國語言的閱讀，所以要評量在國小學童在國小六年級畢業時的英語閱讀理解能力就必須將教育部九年一貫課程綱要的規範的國小學童在畢業時的字彙量以及有限的英語文法基礎知識列入考量。因此本研究中的國小英語閱讀測驗題型選擇是 3 選 1 的單選題。. 第三節英語閱讀現況與評量壹、英語閱讀測驗就科目而言，成就測驗可以簡單的分作兩大類：單科成就測驗和綜合成就測驗。其中綜合成就測驗是指綜合多個不同學科測驗所組成，目的是在評量學生在團體中的一般成就標準，評量結果通常做為分班編輯或升級之用。單科成就測驗即應用於測驗某一特定學科的成就水準，例如：英語科、數學科、國語科、自然科、社會科等等。單科成就測驗所涵蓋的主題通常比綜合 11.

(21) 成就測驗更多而且更加詳盡。（郭生玉，1985）閱讀測驗就是一種成就測驗，其主要目的是測量或檢測學生閱讀理解的能力。英語閱讀測驗意指測量學生英語閱讀相關的理解能力。所以本研究中的英語閱讀測驗亦是一種成就測驗，其意義在測量學生從認字解碼到理解文章意義的能力。. 貳、英語閱讀現況分析為瞭解 21 世紀的社會大眾的英語閱讀能力，現今已在社會廣泛應用的相關大型英語閱讀成就測驗諸如：托福、多益、全民英檢、國中英語會考、臺灣學生學習成就評量等等。表 2-1 是目前國內針對閱讀和閱讀測驗所做相關研究。表2-1 國小英語閱讀相關研究：作者陳新豐（2002）顏惠英（2004）. 高曉倩（2008）劉思吟（2008）林慧雯（2008）. 研究內容此研究目的是開發線上題庫與適性測驗整合系統、驗證建置題庫的相關理論。研究發現線上題庫與適性測驗兩個系統可整合為一，而且線上題庫與適性測驗之整合系統具有多項功能。此研究目的是探討直接而有系統的字母拼讀教學與練習有涵義的閱讀讀物對國小學童閱讀英語的成效。研究發現這種有系統有意義的讀物對英語初學者在建立自信心與興趣方面有明顯的提昇。此研究主旨是探討國小英語教師的閱讀信念與閱讀教學信念並且比較兩者之間的差異。研究結果顯示兩種信念的差異在於教師在教學上經歷的困難。此研究探討英語歌曲融入故事教學對於臺灣五年級學童的英語閱讀理解成效與影響。研究發現可以有效提高學童英語學習動機與閱讀理解能力。此研究目的是比較合作閱讀策略教學與傳統文法翻譯教學法對學生閱讀說明文的成效。研究發現合作閱讀策略教學法的學習成效顯著優於傳統翻譯教學法。 12.

(22) 李主媛（2009）牛素杏（2010）廖芷臺（2011）張喬富（2013）張元隆（2013）黃詩芳（2013）廖麗貞（2013）. 此研究的目的在分析英語閱讀測驗的試題難度來源與探討認知成份編碼的適用性。研究發現認知成份見解尤其適合作為國中英語補救教學的參考。此研究目的是以內容分析法探討國小英語教科書識字教材的內容等，其研究發現作為教科書編輯者或使用者參考依據。此研究主旨是探討專題式學習法對某國小 12 位國小學童的英語閱讀理解學習的影響。研究結果顯示此學習法對學生的學習態度及學習動機上有上面而且顯著的效果。此研究以模擬全民英檢中級閱讀理解測驗的出題方式提供英語學習者一個驗證閱讀成果的工具。研究結果發現此系統的建立可以提供未來研究者研究的方向與基礎。此研究主旨是探討使用影片註記系統融入英語教學對國小六年級學童學習成效的影響。研究結果發現影片註記系統教學應用在英語科的學習成效顯著優於傳統式影片教學。此研究的目的是瞭解國中九年級學生對電子書融入英語文法句型教學的學習態度看法與成效。研究結果發現電子書融入英語文法教學是一向教學上的利器，提昇學生學習成效。此研究目的是發展仿國中教育會考英語電腦化適性測驗。研究結果發現此測驗有良好的鑑別度可以作為提供評估受試者能力的參考，亦可作為預測教育會考表現的利器。. 資料來源：研究者自行整理從表 2-1 可以發現國內目前針對英語閱讀這個主題已經有許許多多的研究，例如：廖麗貞、黃詩芳、張喬富雖然是研究英語閱讀測驗，但是研究對象卻都是國中三年級的學生；又例如：廖芷臺、牛素杏、顏惠英、劉思吟雖然研究對象是國小學童，研究主題卻著重於英語閱讀教學，而非測驗。所以國內雖說有不勝其數針對不同年齡層或不同目的導向的英語閱讀相關研究，其中卻沒有一個確確實實為國小六年級學童設計，最適合用以評量學童在國小年級畢業時所必須掌握的英語閱讀能力的測驗，這也本研究的最終目的。. 參、國小英語閱讀評量架構臺灣學生學習成就評量（Taiwan Assessment of Student Achievement, 13.

(23) TASA）的評量目的有兩個：（1）建置學習成就資料庫；(2)反映課程綱要學習表現（TASA 臺灣學生學習成就評量資料庫，2009）。 TASA 的命題架構是依據教育部規範的九年一貫語文領域中的英語能力指標所建置的。本研究中的閱讀測驗命題架構亦是如此，其能力指標的細節如下（表 2-2）: 表2-2 TASA英語閱讀評量架構：指標內容 3-1-1 能辨識印刷體大小寫字母。 3-1-2 能辨識課堂中習得的詞彙。 3-1-3 能使用字母拼讀法(phonics)中基本常用的規則讀出單字。 3-1-4 3-1-5 3-1-6 3-1-7 3-1-8 3-1-9 3-1-10 3-1-11 5-1-1 5-1-2 5-1-3 5-1-5. 能看懂簡易的英文標示。能辨識故事、韻文、歌謠中的常用字詞。能看懂簡單的句子。能了解英文書寫格式，如字間空格、句首大寫、由左到右、上而下及句尾適當標點符號。能跟著老師或錄音帶正確地朗讀課本中的對話和故事。能藉圖畫、圖示等視覺輔助，閱讀並了解簡易故事及兒童短中的大致內容。能藉圖畫、書名或上下文做簡易的預測或推論。能活用字母拼讀法(phonics)的規則讀出單字。能正確地辨識、唸出與寫出26個英文字母。能讀懂及辨識課堂中所習得的英語詞彙。在聽讀時，能辨識書本中相對應的書寫文字。能讀懂日常生活應對中常用語句（如問候、致謝、道歉、道別等），並能作適當的回應。. 資料來源：臺灣學生學習成就評量資料庫 TASA 的國小英語閱讀測驗全部以 3 選 1 的選擇題(multiple choices)為命題題型。本研究中建置的國小英語閱讀測驗即是參考 TASA 的命題形式，所以題型與 TASA 相同（臺灣學生學習成就評量資料庫，2009）。 Example 1: 單字辨識（Vocabulary） 14.

(24) 小朋友，請依單字選出正確的圖，並將其號碼塗在答案卡上。 1. a bus A. B. C. 圖 2-1 TASA 國小英語閱讀測驗範例教育部所編製的九年一貫英語能力指標是特別根據臺灣學童在英語學習時會遇到的困難和必須具備的基礎聽說讀寫的能力所訂定的標準，此標準與 TASA 的命題架構和命題依據有異曲同工之妙（如圖 2-1）。本研究中的國小英語閱讀測驗亦是如此，希望可以提供國小英語教師在確定學生學習瓶頸、即時提供補救教學的利器。. 第四節測驗理論壹、試題與測驗所謂的試題一般分成題幹（stem）和作答反應（response）兩部分，其中前者提供受試者一個刺激(stimuli)，後者則提供受試者一些作答的提示(hint)。例如：選擇題（multiple choices），題幹就是一句話或者一個問句，作答反應則是選項。試題是一種測驗工具，用於瞭解受試者在某方面的能力。一份測驗通常是由很多不同形式的試題組成，所以測驗編製 (test construction)是指 15.

(25) 在某些教學指引或目標的規範下，製作一系列的試題。廣義的來說，所謂測驗編製涵蓋測驗題目的設計，預試，以及測驗編輯和修正。（余民寧，2009）. 貳、古典測驗理論古典測驗理論（Classical Test Theory，CTT）是從整體的觀點來解釋測驗分數的涵義。也就是說理論的依據是以受試者在所有題目得到的總分的解釋。這個理論又被稱作「古典信度理論」，因為理論中求得的信度是估計某個測驗實得分數的信度（余民寧，2009）。古典測驗理論企圖估計實際得到分數與真實分數之間的關聯程度。古典測驗理論（CTT）可以用以下公式來說明：. X T E. (1). 公式中的 X 為觀察分數；T 為真實分數；E 為誤差分數；觀察分數等於真實分數與誤差分數的和（王寶墉，1995）。古典理論的發展至今已為時甚久，並且頗具規模，也因為所使用的計算公式簡單明瞭、淺顯易懂，而被廣泛適用於大多數的教育與心理測驗資料，以及社會科學資料的分析，為目前測驗學界使用與流通最廣的理論依據之一。然而，凡事都是一體兩面，有利也有幣。歸納起來，古典測驗理論的缺點如下(余民寧，2009)： 1. 理論中所採用的指標包括難度(difficulty)、鑑別度(discrimination)、信度 (reliability)皆是一種樣本依賴(sample dependent)的指標。 2. 古典測驗理論以一個相同的測量標準誤(standard error of measurement)當作每位受試者的測量誤差指標，而沒有將受試者能力的個別差異列入考量。 3. 古典測驗理論忽視了受試者的試題反應組型 (item response pattern)，認為原始得分相同的受試者，其能力必定一樣；但事實不然。. 參、試題反應理論： 16.

(26) 試題反應理論(Item Response Theory)的誕生是為了克服古典理論中的種種缺失。兩種理論最大的不同是，有別於古典理論是以整份測驗的得分為思考依據，試題反應理論是以個別試題分數（item score）來解釋測驗分數的涵義。試題反應理論中最常出現的試題特徵曲線是指某種潛在特質的程度與其在某一試題上作答(正確)反應的機率之間的關係，此潛在特質的程度數值愈大，其在某一試題上的作答正確的反應機率便愈大。（余民寧，2009）。本研究是使用 IRT 的三參數模式進行試題分析，其公式如下（余民寧， 2009）：. . a j  b j. . Pj    c j  1  c j  a  b  1 e j j e. (2). Pj(θ)是指能力值是 θ 的受試者答對 j 題的機率 ai 為第 j 題鑑別度參數、bi 為第 j 題難度、ci 為第 j 題猜測度此公式廣泛應用於解釋學生能力與試題特徵曲線之間的關係。例如： TOEFL，GRE，TASA，TOEIC，等等都是以單選的選擇題(multiple choices) 作為考試題型，再以 IRT 的三參數模式為設計基礎的測驗。. 第五節電腦化測驗壹、電腦化測驗在科技日新月異的現在，雖然國小的大部分評量包含小考、單元考、段考等還是以紙筆測驗為主，但隨著電腦使用的普及，越來越多的教師也會在課堂上請小朋友在線上練習一些題目，方便及時瞭解學生學習困難點，及時補救。所謂的電腦化測驗主要有兩大類，其一是指 Computer Based Tests，簡 17.

(27) 稱 CBT；另一個是指 Computer Adaptive Tests，簡稱 CAT。前者是一般的電腦化測驗，後者則是一種電腦化適性測驗（余民寧，2002）。. 貳、電腦化適性測驗電腦化測驗是指運用電腦來實施測驗。電腦化適性測驗（CAT，Computer Adaptive Tests）是一種新科技時代量身訂製的測驗。每位受試者的評量題目會隨著其在上一題的答題狀況而即時改變，整份測驗是根據受試者的能力與技能而設計編製的。簡單來說，每位受試者所被施測的試題和題數會因為受試者能力的不同和作答反應的不同而有所不同（Thompson & Weiss, 2011；余民寧，2002）。事實上，以電腦化適性測驗來施測不僅可以達到因才施測般精確估計受試者的能力，更可以節省施測時間與成本，同時兼具與傳統紙筆測驗相當的信度和效度(Weiss, 1982; Weiss & Kingsbury, 1984)。電腦化測驗之所以漸漸受到各領域教師們的喜愛，其優點可以歸納如下（余民寧，2009；Lord, 1980）： 1. 加強測驗的安全性。 2. 依據需求施測。 3. 不需使用任何紙張，符合環保要求。 4. 適合每位考生的作答速度。 5. 立即的計分和報告成績。 6. 降低學生作答時的挫折感。 7. 加強施測的標準化過程。 8. 容易從題庫中找出並刪除不良試題。 9. 對於試題類型的選擇更具彈性。 10. 減少監視的時間。 18.

(28) 然而，工欲善其事，必先利其器。要達到以上 CAT 施測時的優勢，做到因才施測，必須搭配下列條件，才能事半功倍（余民寧，2002）: 1. 已建置好的題庫或電腦化題庫系統。 2. 欲建立的電腦化測驗試題必須經過校準或量尺化（calibration）。 3. 適當的心理計量學理論基礎（e.g. IRT）。 4. 電腦及其週邊設備。 5. 適當的軟體程式。 6. 具使用適性測驗理論與實務經驗的專業教師。開始測驗提供練習題數題，同時估計受試者能力值的起始值. 開始選題. 受試者作答. 能力估計值. 電腦化題庫系統（運算、挑題、呈現下一題）否. 終止條件滿足？是測驗結束. 輸出考試成績圖 2-2 電腦化適性測驗流程圖（余民寧，2009）余民寧（2009）曾經在「試題反應理論及其應用」一書中提到電腦化適性測驗之實施步驟（如圖2-2）的第一步是一組3-5題的練習題，以確認受試者的能力起始值。所以為提高測驗的精準度，在進行正式的適性測驗前要有 19.

(29) 一個簡單的預試，讓電腦系統瞭解受試者的能力以利精準選題，真正做到省時省題。以下僅將電腦適性測驗的實施要點包括測驗題庫、測驗起點、能力估計、選題策略、測驗終止條件，逐一說明如下：一、測驗題庫 CAT的施測原則是依據試題參數來選擇試題，題庫品質與試題參數有絕對的相關，也就是說試題品質的優劣直接影響測驗的精準度。要設計出一個良好的CAT題庫需要具備幾個要點：（1）題庫的試題量要達到紙筆測驗的十倍以上；（2）受試者的能力分佈則要呈現常態分配；（3）測驗試題的難度參數需介於-3~3之間；（4）試題的鑑別度參數應介於0~2之間；試題的猜測度指數應小於試題選項分之一。（余民寧，2009）二、測驗起點 CAT 的設計原則是依據受試者的能力來選擇作答題目，但是在施測起始時，因為尚無數據來掌握受試者的能力，所以受試者需要作答的第一題試題庫中難度適中的題目。換句話說，所謂依據受試者實際能力選題的原則是從其作答的第二題開始。三、選題策略就電腦化適性測驗而言，常用的選題方法有以下三種（Chen, Ankenmann & Chang, 2000；余民寧，2009）： 1. 從題庫中隨機抽取能夠確實針對受試者提供最大訊息量的試題。 2. 以常態分配作為受試者的能力分配，結合貝氏選題法挑選試題。 3. 選擇難度最接近受試者現階段能力估計值的試題。四、能力估計就電腦化適性測驗而言，受試者在每作答一題後，電腦都會依據其作答反應重新估計其能力值，用以做為選擇下一個受試題目的依據。目前測驗界， 20.

(30) 最被廣泛應用的三種能力值估計法是最大近似值估計法（Maximum Likelihood Estimation，MLE）、貝氏期望後驗法（Expected a Posteriorin，EAP）與最大後驗法（Maximum a Posteriori，MAP）(Cheng & Liou, 2000)。在實際進行電腦化施測時，通常是三種估計法交替使用以便更精準的估計受試者的能力（洪碧霞，1989）。以下僅將 MLE、EAP、MAP 三種能力估計法逐一說明： 1.. 最大近似值估計法（MLE）(Birnbaum, 1968)：此估計法的原理是將受試者的反應組型代入公式（3），計算出其最大概似估計值。依據 IRT 的理論基礎，受試者在測驗中的整體表現即答題反應之聯合機率。 n. L(u  )  L( X 1 ,..., X n )   Pi X Q1i  X i. i. (3). i 1. 其中，n 為測驗總題數，u 為所有作答反應的向量， L( X 1,..., X n  ) 為概似函數，  為受試者真實能力，. ， X i 為受試者在第 i 題的作答反應（答對為 1，答錯為 0） Pi 為受試者在第 i 題的答對機率， Qi 為受試者在第 i 題的答錯機率，. L(u  ) 為受試者最有可能的能力值。. 2.. 貝氏期望後驗法（EAP）(Bock & Mislevy,1982)： Bock 與 Mislevy (1982)主張 EAP 估計法的目的是用以找出受試者能力值的是後機率密度函數的期望值，其公式如下： kq. kq. q 1. q 1.  EAP   q f ( q U )  q. L(U  q ) f ( q ) kq.  q 1. 21. q. L(U  ) f (  q. q. (4).

(31) 公式中，U 為所有作答反應的向量， L(U  q ) 為概似函數，.  q 為受試者真實能力， q 為計算能力的期望值時所切割的分割點， k q 為切割點的總和， k q 的值愈大，則計算出的能力值愈精準。. 3.. 最大後驗法（MAP）(Samejima, 1969)：此估計法 MAP 是依據受試者的事前能力分布 f ( ) 作為加權值，在計算出事後機率密度函數的同時，計算出能夠使此事後機率密度函數最大化的程度值。其數學公式如下：. f ( U ) . L(U  ) f ( ) f (U ). (5). 公式中， L(U  ) 為受試者  的概似函數， f (U ) 為受試者的邊際機率，是透過 L(U  ) f ( ) 從  －  積分所得到的數值。五、測驗終止標準電腦化適性測驗可以依據以下幾個標準作為終止測驗的條件（余民寧， 2009）：(1)以可以估計受試者能力的變異數 < 預設標準 (1.0)；(2)以試題提供的訊息量總和，例如：25；(3)以一個可以被容許的估計標準誤收斂值，例如：0.01；(4)以一個施測試題上限，例如：30 題；(5)以一個固定的作答時間，例如：40 分鐘。. 參、小結目前在臺灣被廣泛應用的大型英語電腦化閱讀測驗諸如：全民英檢、 GRE、TOEFL IBT 測驗等等，筆者在表 2-1 中整理的國內英語閱讀電腦化相關研究，例如：張喬富（2013）、廖麗貞(2013)的研究對象卻是國中三年級的學生。換句話說，在眾多已經被研發並且應用的英語閱讀電腦化測驗系統中 22.

(32) 卻沒有真正針對國小六年級畢業學童設計，用以評量這些學童在畢業時應該具備的英語閱讀理解能力。所以本研究的初衷是編製一份可以作為國小教師檢測學生學習成效的測驗，同時也提供國小學童在英語學習過程中自我檢測，及時補救相關英語閱讀能力的工具。總結來說，電腦化測驗，特別是一個針對國小學生設計的國小英語閱讀電腦化測驗，在科技日益進步的今天可作為第一線的國小英語教師在教學過程中的一個重要工具，也可成為協助國小學童自我英語閱讀能力檢測的一項利器，這也是本研究的目的之一。. 23.

(33) 24.

(34) 第三章研究設計與方法本研究的主旨是以國民中小學九年一貫課程綱要英語領域的閱讀分段能力指標與內涵和臺灣 TASA 英語領域的題型架構與範例為依據，針對國小六年級學童設計一份國小英語閱讀電腦化適性測驗。本章分為五小節來說明整體研究設計與方法。. 25.

(35) 第一節研究流程與步驟確認研究主題文獻探討編製測驗試題預試與題目修正. 電腦化測驗正式施測收集學生作答反應. 試題分析結果與成效分析結論與建議. 圖 3-1 研究流程圖本研究主題的研究設計如圖 3-1 所示，並敘述如下： 1. 確認研究主題：在國小擔任中高年級的英語專任教師至今快十年，發現國小英語教室中的雙峰現象愈趨嚴重，其中又以國小六年級學童最嚴重。測驗既是一種評量的工具，更是一種發掘問題的工具。期望可以設計一份真正可以評量國小六年級學生英語能力的電腦化測驗來發掘雙峰問題的原因，進而解決之。 26.

(36) 2. 文獻探討：蒐集、閱讀、彙整英語閱讀相關的文獻，並且探究研究學者的測驗理論。例如：閱讀理解、英語閱讀理解、國小英語閱讀能力指標、古典測驗理論、現代測驗理論、電腦化測驗、各種大型英語閱讀測驗…等等。 3. 編製測驗試題：依據教育部規範的九年一貫語文領域國小英語能力指標，康軒、何嘉仁、朗文、吉德堡、翰林等版本國小英語課程內容所規劃的單字、發音與語法，臺灣 TASA 英語領域的題型架構與範例等，進行試題編製，並且廣邀英語專家學者和第一線的資深英語教師進行審題。 4. 預試與題目修正：以三個六年級的應屆畢業班學生為對象以紙筆測驗的方式進行預試，並且以 SPSS 統計軟體和古典測驗理論分析出測驗的信度和通過率等，進而找出不良試題，再進行修題或刪題。分析結果顯示預試中的第 33 小題的鑑別度是-1.27。個別試題分析題號第 33 小題. 選項高分組低分組. 題目 A: Thank you for ______. B: See you next time! (1) your watching (2) watching (3) watch A 100 78. B 113 93. C 14 23. 27. 無作答 0 0.

(37) 作答反應分析. 正確答案為 B 由選項人數可得知選擇 A 與 B 選項的高低分組人數呈現平均分散現象，顯示題目過難，以致高低分組學生皆無法選出正確答案，所以此題在預試後刪除。. 總結來說，此題中高低分組受試者會有如此的表現其主要原因在於中文與英文語言上的文化差異。習慣在言語上加上尊稱「您的」，英語翻譯為「your」，可是英語並沒有這種文法，造成學生認知上的差異。 5. 電腦化測驗系統建置：要將一份紙筆測驗電腦化，必須先將每個題目中的題目、題幹、選項等截圖並且儲存，再上傳到由國立臺中教育大學教育測統所的研發團隊所研發的「電腦化測驗診斷系統」平臺上才能進行施測。 6. 正式施測：確認所有施測對象、時間、場地、硬體設備等等，進行正式施測。 7. 收集學生作答反應：以 EXCEL 檔彙整所有受試學童在每一題的作答反應，並且以「0」來標記答錯的題目；以「1」來標記答對的題目。 8. 試題分析：以 SPSS 統計軟體和 IRT 三參數模式分析學生作答反應，進而瞭解整份測驗的信度、鑑別度、難度和猜測度等等。 9. 結果與成效分析：本研究以受試學童的作答反應利用MATLAB軟體撰寫三種能力估計方法 – MLE (最大近似值估計法)、EAP(貝氏期望後驗法)、MAP(最大後驗法）分析六年級學童英語閱讀能力值。 10. 結論與建議：依據統計軟體分析所得到的數據資料彙整分析，並且提出相關延伸研究 28.

(38) 或解決方案的建議，同時將所有資料彙整寫成論文。. 第二節英語閱讀測驗試題編製壹、九年一貫英語閱讀能力指標在國小六年級的英語評量架構中將英語評量的指標分成兩大類，分別是聽力和閱讀，其中閱讀的相關指標如表 2-2。本研究中的國小英語閱讀測驗以九年一貫英語能力指標中最基礎，也最重要的指標為基準來設計共計 40 題的選擇題來評量六年級學童的英語閱讀能力。. 貳、試題雙向細目表本研究中的國小英語閱讀測驗共計 40 小題，以 A、B、C、D 大題呈現，其試題分配與其相對應的能力指標如下：表 3-1 試題雙向細目表指標. 指標內容. 題目. 3-1-1 3-1-2 3-1-6. 能辨識印刷體大小寫字母。能辨識課堂中習得的詞彙。能看懂簡單的句子。. 3-1-7. 能了解英文書寫格式，如字間空格、句首大寫、由左到右、上而下及句尾適當標點符號。能閱讀並了解簡易故事及兒童短文中的大致內容。能藉圖畫、書名或上下文做簡易的預測或推論。. 3-1-9 3-1-10. 29. A 大題 B 大題 C 大題 D 大題 C 大題. 能力記憶理解 ★ ★ ★ ★. D 大題. ★. C 大題 (3, 5,6,9,10). ★.

(39) 5-1-5. 能看懂日常生活應對中常用語句（如問候、致謝、道歉、道別等），並能作適當的回應。. D 大題 C 大題 (2,4,7,8). ★. 參、題型介紹本研究中的測驗題目皆是 3 選 1 的選擇題，最適合於國小六年級學童在進行電腦化測驗中使用，進而以學生作答反應精準分析出受試者的能力範圍。選擇題（multiple choice items）是由兩個部分組成 – 題幹(stem)和選項 (option)，其命題的優點如下（郭生玉，1985）： 1. 選擇題的題意比是非題或填充題清楚明確。 2. 選擇題的信度比是非題高，因為受猜測因素影響較少。 3. 選擇題計分方式迅速而且準確。 4. 選擇題的試題難度可以藉由調整選項的同質性而受到控制。 5. 降低學生作答時的焦慮。研究者將本研究中試題選項設定在三個的原因是依據教育部九年一貫課程綱要中規範的國小學童在國小畢業時必須掌握的字彙、文法、會話等標準設計。換句話說，國小學童在單字、基礎會話、文法句型等的基礎是非常有限的。. 第三節研究對象本研究的施測對象為臺中、彰化地區的國小六年級學童，共計 690 位，其中 100 是預試對象，已於 102 年 6 月畢業；其餘 590 位為正式施測的對象。在所有受試者中男生與女生的比例是 6:4。. 30.

(40) 第四節研究工具本研究中所用到的研究工具如下： 1.. SPSS 統計分析軟體. 2.. BILOG-MG 軟體. 3.. MATLAB 應用軟體. 4.. 自編國小英語閱讀測驗試題. 5.. 電腦化測驗系統研究中所用的各種工具將會在此節逐一說明。. 壹、 SPSS 統計分析軟體 Statistical Package for Social Science，簡稱SPSS是一個在統計方面廣泛使用的分析軟體，是一個設計簡單亦操作的軟體，可以同時迅速分析幾十筆到上萬筆資料，並且在分析的同時搭配統計圖表使數據更淺顯易懂。因此以 SPSS18.0統計分析軟體進行本研究中編制的英語閱讀測驗的信度分析。. 貳、 BILOG-MG軟體 BILOG-MG軟體是以IRT的三參數為依據設計的一套專門用於分析不同測驗參數的統計分析軟體。本研究則以BILOG-MG試題分析軟體透過學生的作答反應估計出測驗試題的參數值，包括難度、鑑別度、猜測度及受試者的能力值。. 參、 MATLAB 軟體本研究以MATLAB軟體撰寫三種能力估計方法，即： 1.. Maximum Likelihood Estimate (最大近似值估計法 – MLE). 2.. Expected a Posteriori (貝氏期望後驗法 – EAP). 3.. Maximum a Posteriori （最大後驗法 – MAP）等三種能力估計方法。 31.

(41) 本研究根據資料蒐集得到的實徵資料模擬電腦化測驗分析，並探討此三種不同能力估計方法於模擬電腦化適性測驗的成效。. 肆、自編國小英語閱讀測驗試題本研究中的測驗以四個大題去呈現國小英語閱讀能力指標，如表 3-2：表 3-2 題型介紹與相關閱讀能力指標題題目說明號 A 請小朋友仔細看題目中的大字母，找出畫線字母相對題應的大小寫字母。 B 請小朋友仔細看題目中的大圖片，選出相對應的單題字。 C 請小朋友仔細閱讀題目中大的句子及提示選出最適當題的選項。 D 請小朋友仔細閱讀短文，大並依據短文內容，回答問題題。. 能力指標測驗目標 3-3-1. 3-1-2. 3-1-6 3-1-7 3-1-10 5-1-5 3-1-6 3-1-9 3-1-10. 評量學童是否能從單字中辨識並挑出相對應的大小寫字母。藉由圖片評量學童對習得單字的掌握程度。評量學童生對日常生活用語和所習得的單字與句型的理解與應用能力。評量學童對英語短文內容的理解能力，並且對內容做出推測及回答相關問題. 以下僅將本研究中的測驗題型逐一舉例說明：. 32.

(42) A 大題：. B 大題：. 33.

(43) C 大題：. 34.

(44) D 大題：. 伍、電腦化測驗系統每一位被施測的受試者在進入系統進行測驗前都會給予個別個人帳號、密碼以登入系統，以確認身份才能施測。本研究試題編製完成後，採用臺中教育大學測驗統計所郭伯臣教授所領導的團隊所發展的英文電腦化測驗並進行正式施測，其系統介面如下：. 35.

(45) 圖 3-2 國小英語閱讀電腦化測驗系統介面. 圖 3-3 正式施測的測驗系統介面. 36.

(46) 圖 3-4 正式施測時選擇測驗類別的介面. 圖 3-5 測驗作答畫面（一） 37.

(47) 圖 3-6 測驗作答畫面（二）. 38.

(48) 第四章研究結果與討論第四章將針對研究者所參與研發的國小高年級英語閱讀理解電腦適性化測驗的相關施測的結果做詳細的分析與探討。本章共分為兩個小節，第一節是施測結果描述，包括測驗的信度、效度、三參數分析；第二節是模擬電腦化適性評量的相關分析。. 第一節. 施測結果. 本節次針對測驗施測後所得到的學生作答反應，進行詳盡分析，以檢測測驗的適切性、信度、效度、鑑別度、難易度、猜測度、通過率等逐一分析說明。. 壹、信度分析余民寧（2009）曾經提出信度（reliability）探討的是測驗分數的一致性或穩定性。一般而言，分數愈一致，受誤差的影響愈小。換句話說，信度所陳述的是測驗分數中，測量誤差所佔的成分。用以衡量信度的方法有很多種，其中最被學術界廣泛應用的是Cronbach提出的Cronbach’s α係數(Cronbach, 1951)。這種信度計算方法的核心主旨是測驗中每個試題必須與研究主題相關，再以整份測驗的變異數與個別試題間的變異數做為評量信度的指標，也就是α係數。計算Cronbach’s α係數的公式如下： 2 K   i     K  1    x2 . K 為測驗題數.  i2 為試題 i 的變異數  x2 為整份測驗的變異數 39. (6).

(49) 以此信度公式所得到 Cronbach’s α 係數的解釋為： (1). Cronbach’s α＞0.75，表示信度良好。. (2). 0.35<Cronbach’s α<0.75，表示信度尚可。. (3). Cronbach’s α<0.35，表示信度低劣。本研究中的整份測驗共計 40 題的選擇題，以公式計算得到信度. Cronbach’s alpha 值是 0.835~0.846，平均值是 0.843＞0.75，顯示信度良好，試題與試題間有高度的內部一致性。表 4-1 整體測驗信度. Cronbach's Alpha 值. 以標準化項目為準的 Cronbach's Alpha 值. .843. .848. 試題（總） 40. 表 4-2 個別試題信度分析試題. 項目刪除時的項目刪除時的修正的項目總尺度平均數尺度變異數相關 Item 1 29.36 37.95 .16 Item 2 29.35 37.62 .30 Item 3 29.34 37.84 .25 Item 4 29.38 37.51 .27 Item 5 29.33 37.91 .23 Item 6 29.67 35.55 .47 Item 7 29.60 36.50 .32 Item 8 29.52 35.65 .53 Item 9 29.75 36.03 .37 Item 10 29.55 35.96 .45 Item 11 29.54 36.63 .32 40. 項目刪除時的 Cronbach's Alpha 值 .843 .841 .842 .841 .842 .835 .840 .834 .838 .836 .840.

(50) Item 12 Item 13 Item 14 Item 15 Item 16 Item 17 Item 18 Item 19 Item 20 Item 21 Item 22 Item 23 Item 24 Item 25 Item 26 Item 27 Item 28 Item 29 Item 30 Item 31 Item 32 Item 33 Item 34 Item 35 Item 36 Item 37 Item 38 Item 39 Item 40. 29.67 29.40 29.73 29.39 29.64 29.56 29.70 29.66 29.56 29.58 29.52 29.66 29.69 29.61 29.52 29.58 29.51 29.45 29.52 29.50 29.60 29.50 29.71 29.40 29.46 29.49 29.51 29.56 29.51. 35.57 37.21 36.16 37.12 37.26 36.16 36.42 37.23 36.43 36.16 36.30 36.49 36.81 36.35 37.57 36.84 36.80 37.00 36.27 36.60 37.65 37.31 36.76 37.38 36.52 36.69 36.29 36.09 36.53. .46 .32 .35 .36 .17 .40 .31 .17 .35 .39 .40 .30 .24 .34 .15 .26 .31 .31 .41 .36 .11 .20 .25 .27 .40 .34 .41 .42 .36. .836 .840 .839 .839 .844 .838 .840 .844 .839 .838 .838 .840 .842 .839 .844 .841 .840 .840 .838 .839 .846 .843 .842 .841 .838 .839 .837 .837 .839. 貳、效度分析廣義的效度指的是測量變數是否能真正測量到研究者所要探究的問題。效度可分為三種：內容效度（content validity）、效標關聯效度(criterion-related validity)、建構效度(construct validity)。本研究所使用的是內容效度。內容效 41.

(51) 度是以研究者或某研究團隊的專業知識來評量測驗內容是否能準確評量所預測驗的內容，所以內容效度又名專家效度。（郭生玉，1985）本研究誠邀國立臺中教育大學英語系教授、國小英語資深在職教師，依據專家學者在英語方面的專業知識，在本研究進行指標與題目認定及試題編製時，提出審查和編輯方面的寶貴建議。. 參、古典鑑別度與難度試題參數分析 Ebel & Frisbi (1991)曾提出將CTT的難度（P）值分為四個不同等級用以說明試題的難易度。試題的P值越大，答對的人數越多，顯示試題越簡單；相對的，試題的P值越小，答對的人數越少，顯示試題越困難。試題P值與其相對應的難易度分析如下：表4-3 試題CTT難度分析對照表試題難易度試題極為容易試題容易試題難易適中試題困難試題極為困難. P值 P ≥ 0.80 0.60 ≤ P ≤ 0.80 0.40 ≤ P ≤ 0.60 0.20 ≤ P ≤ 0.40 P≤ 0.19. 除此以外，古典測驗理論中的鑑別度(D)值可以讓研究者充分了解個別試題中高分組與低分組通過人數的比率，此數值愈大，顯示該試題越能夠鑑別出高低分組受試者的差異。一般而言，試題的鑑別度指數介於1與-1之間， Ebel(1979)也曾經提出相對CTT的鑑別度(D)值的試題分析對照如下：表4-4 試題CTT鑑別度分析對照表試題難易度試題非常優良. D值 D ≥ 0.40 42.

(52) 0.30 ≤ D ≤ 0.39 0.20 ≤ P ≤ 0.29 D≤ 0.19. 試題良好試題尚可試題不良，建議修改或刪除. 依據古典測驗理論的理論基礎分析本研究中的國小高年級英語閱讀能力測驗所得到鑑別度與難度值如（表4-5）所示。整份測驗的平均鑑別度為 0.46，顯示整體試題優良；整份測驗的平均難度為75.74%，顯示整體試題偏易。表 4-5 個別試題 CTT 鑑別度與難度分析試題 Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item 7 Item 8 Item 9 Item 10 Item 11 Item 12 Item 13 Item 14 Item 15 Item 16 Item 17 Item 18 Item 19 Item 20 Average. 鑑別度 (D) 0.31 0.61 0.57 0.50 0.53 0.60 0.42 0.74 0.46 0.61 0.44 0.59 0.54 0.44 0.62 0.22 0.54 0.39 0.22 0.47. 難度 (P)% 93.70 94.70 96.10 92.00 96.30 63.10 69.80 77.60 54.60 74.90 75.90 62.70 89.70 56.30 90.50 65.60 73.90 59.70 63.40 73.70. 試題（續） Item21 Item 22 Item 23 Item 24 Item 25 Item 26 Item 27 Item 28 Item 29 Item 30 Item 31 Item 32 Item 33 Item 34 Item 35 Item 36 Item 37 Item 38 Item 39 Item 40. 43. 鑑別度 (D) 0.52 0.55 0.39 0.31 0.45 0.21 0.35 0.44 0.47 0.57 0.51 0.14 0.29 0.31 0.47 0.60 0.50 0.59 0.56 0.50 0.46(D). 難度 (P)% 72.00 77.50 63.60 60.50 68.30 78.10 71.40 79.20 84.70 77.80 80.00 69.30 79.30 58.50 90.00 83.20 80.80 79.20 73.70 78.30 75.74 (P).

(53) 個別試題與作答分析題號 Item 32. 題目 The coffee is _______ bitter _______ drink. (1) too, too (2) to, too (3) too, to. 選項高分組低分組作答反應分析. 無作答 A B C 16 45 139 0 50 70 92 0 正確答案為 C 從個別選項的高低分組答題人數瞭解到選擇 B 的受試者是選擇 A 的近兩倍。原因其一應該是看錯選項；其二是對此句型的掌握度不夠，造成認知上的錯誤。. 肆、試題反應理論分析本研究中的國小英語閱讀測驗除了以古典測驗理論進行試題分析外，更深入的以試題反應理論的三參數模式分進行了受試者的能力值與試題參數的評估，其評鑑結果如下： N. Pirt .  Pi (θ j ) j1. (7). N. 其中 Pirt 是指所有受試者在該題的平均通過率、 N 為施測總人數 Pi ( j ) 為第j個受試者在該題的通過率。. 表 4-6 個別試題 IRT 三參數與通過率分析題號 1 2 3 4. 鑑別度 0.53 0.89 1.17 0.711. 難度 -2.89 -2.30 -2.24 -2.13. 猜測度 0.33 0.29 0.30 0.31 44. 通過率 0.87 0.90 0.93 0.86.

(54) 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40. 1.04 1.67 0.65 2.02 0.92 1.03 0.70 1.17 0.99 1.05 1.15 0.73 1.14 1.47 1.34 1.41 1.65 0.95 1.54 1.32 1.43 0.40 0.47 0.59 0.69 1.04 0.81 0.33 0.43 0.89 0.66 1.06 1.10 0.88 0.89 0.81. -2.32 0.08 -0.42 -0.51 0.36 -0.61 -0.63 0.05 -1.48 0.54 -1.53 0.74 -0.26 0.56 0.81 -0.02 0.02 -0.62 0.44 0.78 0.30 -0.57 -0.62 -1.02 -1.34 -0.57 -0.80 0.51 -1.09 0.74 -1.86 -0.82 -0.46 -0.73 -0.52 -0.62. 0.34 0.29 0.27 0.30 0.24 0.25 0.32 0.27 0.34 0.32 0.30 0.48 0.37 0.40 0.49 0.45 0.43 0.32 0.42 0.45 0.45 0.46 0.28 0.31 0.32 0.34 0.35 0.45 0.37 0.39 0.35 0.39 0.46 0.33 0.28 0.37 45. 0.93 0.63 0.68 0.76 0.57 0.72 0.73 0.63 0.8 0.59 0.86 0.68 0.72 0.61 0.65 0.73 0.72 0.75 0.65 0.63 0.69 0.76 0.69 0.75 0.80 0.75 0.76 0.70 0.75 0.61 0.84 0.80 0.79 0.76 0.71 0.75.

(55) Average. 0.99. -0.58. 0.35. 0.74. 從表4-6說明整體測驗的平均通過率在0.74。結合圖4-1的個別試題鑑別度分析可以了解本測驗中鑑別度低於0.5的分別是Item 26, Item 27, Item 32, Item 33。整體鑑別度介於0.33 ~ 2.02，平均鑑別度為0.99。測驗中，有19題的鑑別度高於1.0，Item 8的鑑別度大於2.0，達到2.02，顯示整體鑑別度良好。. 18 16 14 12 10 題數 8 6 4 2 0 0.10~0.50. 圖4-1. 0.51~1.00. 1.01~1.50. 1.51~2.00. 2.01~2.50. 國小高年級英語閱讀測驗試題鑑別度分析圖. 圖4-2呈現整體英語閱讀測驗的難度介於 -2.89 ~ 0.74，平均難度為 -0.58。本測驗中，有11題的難度小於-1.0，16題難度介於-0.90 ~ 0.00之間，占總題數的40%，13題的難度在0.00以上，占總題數的32.5%，顯示本測驗試題為中間偏易。. 46.

(56) 16 14 12 10 題數. 8 6 4 2. 0 -2.90~-2.00. -1.90~-1.00. 圖4-2. -0.90~0.00. 0.01~0.50. 0.51~1.00. 國小高年級英語閱讀測驗試題難度分析圖. 從圖4-3可以發現本閱讀測驗的猜測度介於 0.24 ~ 0.49，平均猜測度為 0.35。本測驗中，有24題的猜測度低於0.35，占總題數的60%，顯示本測驗試題猜測度尚在合理範圍內。. 14 12 10 8 題數 6 4 2 0 0.2-0.25. 0.26-0.3. 圖4-3. 0.31-0.35. 0.36-0.40. 0.40-0.45. 0.46-0.50. 國小高年級英語閱讀測驗試題猜測度分析圖 47.

(57) 伍、九年一貫國小英語閱讀能力指標通過率表4-7 國小英語閱讀能力指標通過率英語閱讀能力指標. 題號. 能辨識印刷體大小寫字母。能辨識課堂中習得的詞彙。能看懂日常生活應對中常用語句（如問候、致謝、道歉、道別等），並能作適當的回應。 3-1-6 能看懂簡單的句子。 3-1-7 能了解英文書寫格式，如字間空格、句首大寫、由左到右、上而下及句尾適當標點符號。 3-1-9 能閱讀並了解簡易故事及兒童短文中的大致內容。 3-1-10 能藉圖畫、書名或上下文做簡易的預測或推論。. A大題 B大題 C 大題 (2,4,7,8). 3-1-1 3-1-2 5-1-5. C 大題 D 大題. 題平均數通過率 5 0.90 10 0.70 4 0.69. 21 0.73. 由表 4-7 的個別能力指標通過率可以瞭解，國小六年級學童在大小母辨識上的表現極佳，平均通過率達到 90%的高標。其次是句子與字彙的辨識率也達到 70%以上的水準；相對表現略差的是受試學童對日常生活用語的辨識與應對，平均通過率為 69%。顯示目前國小學童因為英語學習的逐漸普及，增加了國小學童對英語的接觸與認識。依據研究者與其他資深國小英語教師討論後推測受試學童通過率最低的題型是「日常生活對話」的原因有幾點：其一是文化與文法上的差異；其二是國小英語教科書採一綱多本制，版本眾多但涵蓋的單字與句型介紹不盡相同，很多都是點到為止，造成學生無法瞭解單字與句型真正用法。其三是英語句型中有相當的用法相當於中文的俚語或諺語，也影響學生對句子用法的掌握。 48.

(58) 陸、以IRT為基礎分析受試學童的英語閱讀能力由圖 4-4 發現若以 IRT 的三參數模式作為理論基礎來分析本研究中的國小六年級受試學童，其分析結果是占總受試人數的 60%以上的受試學童的能力值介於-1.0~1.0 之間。. 圖4-4 受試學童的英語閱讀能力分佈. 第二節模擬電腦化適性評量分析壹、估計標準誤（SE）本研究中所提出的電腦化適性測驗所使用的選題策略為最大訊息選題法，王寶墉曾經在「現代測驗理論」一書中提到試題訊息量與受試者的能力估計值有絕對的相關。試題的訊息量越大，越能精準估計出受試者能力值，得到受試者的能力估計標準誤也就越小。本研究以能力估計參數計算出受試者估計標準誤（standard error of estimation, SE），結合真實施測作答反應等 49.

(59) 模擬電腦化適性測驗評量CAT的施測程序，藉以比較最大概似估計法比較最大概似估計法 (maximum likelihood estimation, MLE) 、最大後驗估計法 (maximum a posteriori, MAP)與期望後驗法(expected a posteriori, EAP)等不同能力估計法在電腦化適性測驗評量的成效。（王寶墉，1995）能力估計標準誤的公式如下： SE(ˆ) . 1. (8). I (ˆ). SE(ˆ) 為估計標準誤、 I (ˆ) 為測驗訊息函數、 ˆ 為受試者的能力估計值上述SE的公式說明試題訊息量與受試者的能力估計標準誤成反比，此推斷與王寶墉所提出的測驗理論大致相同。 SE. 1.2. 1. 0.8 EAP 0.6. MAP. MLE 0.4. 0.2. 題數. 0 0. 10. 20. 30. 40. 50. 圖4-5 SE在不同能力估計法上的變化從圖4-5 可以瞭解，MLE，MAP與EAP三種估計法的SE 起始值皆介於 0.9～1.0之間，再隨著受試者作答題目的增加，誤差值漸漸變小，曲線逐漸 50.