國小高年級英語聽力線上測驗研發

(1)

國立臺中教育大學教育測驗統計研究所碩士論文

指導教授：郭伯臣博士

國小高年級英語聽力線上測驗研發

研究生：侯莉葉撰

(2)

謝辭

人生總是充滿意外。年輕時，從來不曾將「老師」列入職涯規劃中。不惑之年，意外通過教育部招考的國小英語師資，多了個國小英語教師的頭銜。原以為，可以從此過著樂天知命的日子到退休。豈料，年過半百，禁不住好同事方琦與冠廷的慫恿，在「碩專班」報名截止的最後兩小時，走進緊鄰學校的 7-11，在 ATM 上繳了報名費。知道自己上了「測統所」時，心頭一驚：不會吧!測驗與統計不是得有深厚的數學基礎做後盾嗎? 豈是念書時，數學屢屢補考的我所能應付的了。正想鳴金收兵，就此打住。方琦與冠廷不斷勸進並使出激將法，生性疏懶的我再度至中教大報到。兩年的研究生涯，感謝老師及同學的耐心與幫忙，讓搞不清楚函數、對數與指數的我，可以順利完成學業。尤其是育斐、桂綾、珣琪及玉環屢次出手相助，解決困惑，才能按時交出作業。撰寫論文期間，感謝語婷與雅真的同甘共苦，互相激勵打氣。論文的完成，除了感謝郭伯臣教授的指導，宗恩學長的幫忙與鎧誌學長的全程協助外，特別要感謝曾建銘老師的細心指導與廖晨慧教授的建議，讓我受益匪淺。最後，感謝家人對我的關心與呵護、感謝同事們的鼓勵與打氣、也要謝謝貼心的兒女做我的後盾，讓我無後顧之憂，順利完成學位。侯莉葉中華民國一○三年六月

(3)

摘要

本研究旨在發展一套國小高年級英語聽力線上測驗，以國民中小學九年一貫課程綱要英語聽力能力指標為命題依據。題型規劃則參照臺灣學生學習評量資料庫的國小英語評量架構，希望能藉由多元題型的試題編製，檢測學生的英語聽力能力。研究樣本為 602 位國小六年級學童。研究以三階段方式進行，第一階段研發英語聽力試題，並以紙筆測驗方式進行預試。第二階段採用電腦化線上施測，再依據施測結果，進行試題分析。最後，評估模擬電腦適性化測驗的成效。研究結果如下：一、以古典測驗理論所測得的平均難度為 0.61，而平均鑑別度為 0.41。試題內部一致性為 0.81，顯示具良好的測驗信度。二、施測結果經試題反應理論三參數對數模式分析，發現本測驗試題平均鑑別度、難度及猜測度指數分別為 1.118, 0.219 及 0.299。顯示本測驗試題為中間難度，具有良好的鑑別度及合理的猜測度。三、在電腦化適性測驗的模擬研究方面顯示，三種不同的能力估計法中，採用期望後驗估計法(expected a posteriori, EAP)及最大後驗估計法

(maximum a posteriori, MAP)的估計效果明顯優於最大概似估計法 (maximum likelihood estimation, MLE)。

研究結果證實本次研發之國小高年級英語聽力線上測驗，確實能達到檢測學生英語聽力能力的目標，也具有達到電腦化適性測驗節省題數與施測時間的功效。

關鍵詞：英語聽力、線上測驗、臺灣學生學習評量資料庫、電腦化適性測驗、試題反應理論。

(4)

Abstract

The purpose of this research is to develop an English listening comprehension online test for the fifth and the sixth graders. The test is designed in accordance with the English Competence Indicators of Grade 1-9 Curriculum. The question types and contents are mainly adopted from Taiwan Assessment of Student Achievement (TASA) designed English listening comprehensive tests for elementary school students. A further study to apply it on a computerized adaptive test (CAT) is also conducted.

The test is consisted of 35 multiple choice questions, with a total of 602 test takers from Taichung and Chunghwa areas. The results are as follow:

一、 The Cronbach’s alpha value of the test is 0.81 which shows a good content reliability.

二、 The average index of item discrimination, difficulty and pseudo-guessing are 1.118, 0.219 and 0.299 respectively, which were appropriated in item response theory (IRT).

三、 In simulation study of CAT, compared the effect of three different ability estimation methods, both the expected a posteriori (EAP) and the maximum a posteriori (MAP) are superior to the maximum likelihood estimation (MLE). In conclusion, the online test developed by the researcher is proved effective both in evaluating the sixth graders’ English listening comprehension ability and in

retrenching question numbers and testing time when applied to computerized adaptive test.

Key words: English listening comprehension, Online test, TASA, computerized

(5)

目錄

摘要 ……….I Abstract ……….II 目錄 ………..III 表目錄 ……….V 圖目錄 ………IV 第一章緒論 ... 1 第一節研究動機 ... 1 第二節研究目的 ... 3 第三節名詞解釋 ... 4 第四節研究範圍與限制 ... 5 第五節論文架構 ... 6 第二章文獻探討 ... 7 第一節英語聽力理解能力 ... 7 第二節國小英語聽力測驗 ... 14 第三節英語聽力測驗相關研究 ... 17 第四節測驗理論 ... 24 第五節電腦化測驗 ... 29 第三章研究設計與方法 ... 39 第一節研究流程 ... 39 第二節研究對象 ... 41 第三節英語聽力測驗試題編製 ... 41 第四節研究工具 ... 46 第四章研究結果與討論 ... 51 第一節試題分析 ... 51 第二節模擬電腦化適性測驗 ... 61 第五章結論與建議 ... 67 第一節結論 ... 67 第二節建議 ... 68 參考文獻 ... 70

(6)

中文部份 ... 70 英文部分 ... 73 附錄國小英語聽力線上測驗試題 ... 77

(7)

表目錄

表 2-1 英語聽力認知理解過程………9 表 2-2 TASA 國小六年級英語文聽力評量架構 ... 17 表 2-3 英語聽力測驗相關研究 ... 19 表 2-4 國內外英語能力檢定聽力測驗重點整理 ... 23 表 3-1 國小高年級英語聽力測驗命題架構 ... 42 表 3-2 國小英語聽力試題雙向細目表 ... 43 表 4-1 試題信度分析表 ... 52 表 4-2 國小英語聽力測驗 CTT 試題參數表 ... 54 表 4-3 試題與作答反應分析 ... 55 表 4-4 國小英語聽力測驗之 IRT 試題參數表 ... 56 表 4-5 九年一貫國小英語聽力能力指標通過率 ... 60

(8)

圖目錄

圖 2-1 聽力對話測驗介面 ... 36 圖 2-2 聽力測驗介面 ... 38 圖 3-1 研究流程圖 ... 39 圖 3-2 系統登入畫面 ... 47 圖 3-3 進入測驗系統畫面 ... 47 圖 3-4 選擇測驗類別畫面 ... 48 圖 3-5 測驗作答說明畫面 ... 48 圖 3-6 試題作答畫面 ... 49 圖 4-1 國小英語聽力測驗試題鑑別度長條圖 ... 58 圖 4-2 國小英語聽力測驗試題難度長條圖 ... 58 圖 4-3 國小英語聽力測驗試題猜測度長條圖 ... 59 圖 4-4 全體受試學生能力分佈長條圖 ... 62 圖 4-5 英語聽力測驗試題訊息曲線 ... 63 圖 4-6 SE 在不同能力估計法上的變化情形 ... 64 圖 4-7 RMSE 在不同能力估計法上的變化情形 ... 65

(9)

第一章緒論

本研究是以臺灣學生學習評量資料庫(Taiwan Assessment of Student

Achievement, TASA)英語評量為參考架構，透過現代測驗理論(item response theory, IRT)之技術，建立一套具有信度與效度的國小高年級英語聽力線上測驗評量系統。本論文共分五章：第一章為緒論，第二章為文獻探討，第三章為研究設計與方法，第四章為研究結果，第五章為結論與建議。本章主要針對研究動機與目的、重要名詞解釋及研究範圍與限制，一一進行闡述。

第一節研究動機

教學十幾年來，每當看見課堂上一群眼神呆滯、百般無聊的「客人」，總會去關心一下，得到的答案不外乎是「聽不懂」或「早就學過了」。如何設計出能同時滿足南北兩極學生的英語教學與評量，讓「客人」變成「主人」，一直是老師最大的挑戰。隨者可汗學院 (Khan Academy) 與翻轉教室 (flipped classroom) 透過網路推廣個人化學習 (personalized learning) 與精熟學習 (mastery-based learning)，讓學習者自我掌握進度，不再害怕上課聽不懂的窘境（許芳菊，2013）。引發研究者思考是否能結合電腦網路的便利性，研發國小英語聽力線上測驗。由於高年級的學童在學校學習的英文時間較久，能取材的範圍較廣，因此，決定編製一套國小高年級適用的英語聽力電腦化試題，參考TASA國小英語聽力測驗範圍、題型，加上電腦化測驗的優點，提供學生多元題型的練習，讓學生能針對自己所學進行診斷，也能做為教師選擇與修正教學策略的參考。英語一向是國人重視的競爭力指標。為了提升國人的英語能力，教育部早在民國九十年便將英語教學提前至國小階段實施。自九十四學年度起，更向下延伸至國小三年級全面實施英語教學。同一年，教育部委託國家教育研究院籌備處所建置的臺灣學生學習評量資料庫(TASA)第一次實施國小英語聽力與閱讀評量，並

(10)

連續三年（2005、2006及2007）針對國小英語能力進行施測。

然而，根據美國教育測驗服務社( Educational Testing Service, ETS)及劍橋大學 (English for Speakers of Other Languages, ESOL)考試中心於2009年發表「臺灣學童英語表現趨勢報告」顯示，臺灣七到十二歲學童的英語表現，聽、說、讀、寫僅次於印尼，亞洲排名第二。但隨著年齡增長，臺灣學生讀寫能力卻不進反退。十三到十六歲亞洲學生的英語表現，依次為南韓、臺灣、日本（王彩鸝，2009）。當時的教育部長吳清基指示在課綱內涵與教學活動上加強聽說能力之培養，以提升學生整體英文能力（教育部，2009）。因此，自2009年起，TASA奉教育部指示改為每三年一個循環，每年輪流對國小、國中或高中職進行施測。但是，近兩年針對臺灣十六歲以下學生的「英語表現趨勢報告」指出，小學生的英文程度遜於大陸，國高中生則輸南韓一大截，顯示臺灣學生的英語能力與學習方式亮起紅燈（游婉琪，2012）。有鑒於此，教育當局決定積極推動提升學子的英語溝通能力，要求國小需增加英語聽力評量、民國103年舉辦的第一次國中會考，更將英語聽力納入考試科目。大學招聯會亦於民國101年10月20日舉辦第一次高中英文聽力測驗，題型包含看圖辨義、對答、簡短對話與短文聽解，皆為四選一的選擇題，共計40題。並決議自104學年度起，將高中英語聽力測驗成績納入大學「繁星推薦入學」、「個人申請入學」與「考試入學」之檢定項目。根據大考中心的統計，採計英聽成績為大學「繁星推薦入學」、「個人申請入學」審查項目的校系由101學年度的118校系增加至102學年的59所534系（大學入學考試中心，2014）。英語聽力評量日益受到矚目已是不爭的事實。語言學習的本質是應用，而非應付考試。任何語言的學習皆以聽、說、讀、寫四種能力循序漸進，但語言溝通的先決條件是聽得懂，才能互相交流。英語不是臺灣的官方語言，以學習環境來說，算是先天不足。因此，藉由評量來了解學生的學習成果及探究學習的盲點，提供教師檢視、調整教學策略效，以期對症下藥，提升教學成效與品質，實屬必要。

(11)

目前TASA英語聽力測驗仍以紙筆測驗的方式進行。但是，隨著數位科技的日新月異，過去數年間，許多大型測驗已逐漸由紙筆測驗轉變成電腦化測驗

(Computer Based Testing, CBT)。例如：托福(Test of English as a Foreign Language, TOEFL)便於西元2000年起改為電腦化測驗，更於2006改為網路化測驗 ( iBT)；由歐洲語言檢測協會(ALTE)中的四個會員之一的英國劍橋大學語言測評考試院 (Cambridge English Language Assessment)研發的劍橋職場英檢(Business Language Testing Service, BULATS)亦然。根據親子天下在2013年「直擊美國數位教育浪潮」的專刊中提到，歐巴馬總統為提升教育競爭力，在2011年九月宣佈推動「數位承諾」(Digital Promise)；在其「奔向卓越」(Race to the Top Initiative)的教改計畫中，

明訂在2014到2015間，將各州標準學力測驗改以電腦化線上進行（賓靜蓀，2013）。電腦化測驗重視「評量即學習」的理念，其優點不勝枚舉。不論是試題的呈現：運用多媒體影音，搭配文字、圖像或動畫，呈現多元的評量方式；或是施測的環境：一人一機，在電腦教室進行，將外在環境的干擾降至最低；最重要的是施測的方式：不受時空限制，隨時可進行並給予立即的回饋。隨著電腦運算軟體的提升，電腦化適性測驗乃應運而生並逐漸成為當代測驗的勢趨。電腦化適性測驗能依受試者程度進行選題，估計出受試者的能力，進而減少施測題數及縮短施測時間，有效地測量出受試者的能力水準。因此，將編製好的試題進行模擬電腦適性化測驗亦為本研究的目標。

第二節研究目的

英語聽力評量在英語學習歷程中扮演著舉足輕重的角色且日益受到正視，加上電腦化評量的諸多優勢，研究者乃參照TASA的評量架構編製國小學生英語聽力學習成就電腦化測驗，以作為國小英語教學與評量的參考。因此，本研究目的為：

(12)

（一）編製國小高年級學生英語聽力線上測驗，考驗其信度與效度。（二）依所編製之國小高年級學生英語聽力線上測驗，進行試題分析及探討施測結果。 (三) 依據施測結果所得的實真資料模擬電腦化適性測驗，並比較不同能力估計方法對電腦化適性測驗之使用成效。

第三節名詞解釋

壹、TASA 英語評量架構

臺灣學生學習成就評量資料庫(TASA)是由國家教育研究院籌備處所建置。 TASA 英語評量架構以九年一貫國民中小學英語科正式課綱要為主要依據，並參考 NAEP 外國語言之評量架構(Framework for Foreign Language National

Assessment of Educational Progress, FLNAEP)之共同能力指標作為試題設計的依據。測驗採用通過能力指標與學習目標的比例，作為學習成就之指標。一方面用以充分溝通英語評量的結構內涵與認知重點，另一方面作為各縣市常模參照的評量工具（臺灣學生學習成就評量資料庫，2008）。

貳、英語聽力測驗

本次所研發之英語聽力測驗是針對國小高年級的英語學習者，以九年一貫國民中小學英語科正式課綱及微調後於一百學年度正式生效的九七課綱為主要依據，針對 Bloom 認知教育目標分類中「記憶」及「了解」兩個認知向度為評量架構。將小學階段所習得的英語內容，包括字母、語音、基本詞彙和常見的生活用語，編製成一份包含聽辨字母、聽辨語音、聽辨單字及句子中的單字、聽辨語調、聽辨日常生活對話、聽辨簡單的句子以及聽辨簡易韻文內容的試題。

(13)

參、線上測驗

電腦化測驗(CBT)是藉由多媒體科技，將試題以影音互動的方式呈現在每位受試者面前。受試者則利用鍵盤或滑鼠來點選答案。答題的過程中，通常允許受試者檢查或修正答案。線上測驗(On Line testing)則是以網路為基礎的電腦化測驗 (Web Based Testing, WBT)。透過網路，克服空間距離的限制，讓每位受試者同時同步上線進行測驗，可算是電腦化測驗的進階版。運用網路進行的電腦化測驗重視「評量即學習」的理念，充份運用網路環境的優勢，讓受試者在施測後可立即思考學習上的缺失，檢視學習歷程，而不只是測驗結果。（陳新豐，2007）

肆、電腦化適性測驗

電腦化適性測驗(Computerized Adaptive Testing, CAT)是以電腦處理選題、訊息及能力估算等問題的一種測驗。適性測驗以試題反應理論為基礎，根據每位考生能力水準選擇適合施測的試題，有效縮減測驗長度，又不失測驗的精確性（余民寧，2011；吳慧珉、蘇少祖、趙佑軒，2009；郭伯臣、吳慧珉、陳俊華，2102）。當全球都在運用科技引爆學習革命，電腦適性化測驗發揮其便捷化、個別化、標準化等優點，在速度及正確性均占有優勢，符合網路世代學子的需求。目前，許多大型測驗機構多改以電腦化適性測驗取代傳統的紙筆測驗。

第四節研究範圍與限制

本研究主要針對國小高年級英語聽力理解能力作探討；受到人力、物力與時間之限制，以臺中市兩所屯區國小及彰化縣某國小六年級的學生，以班級為單位，進行立意取樣，共計602名受試者為測驗樣本。因抽樣方式及學生英語程度有所差距，且僅以此三所小學六年級學童為研究對象，對施測結果與描述有所限制，無法推論到受試者以外及其他縣市的六年級學童。

(14)

第五節論文架構

本篇論文主要分成五個章節，其章節安排如下：第一章：研究動機、研究目的、名詞解釋、研究範圍與限制。第二章：針對研究相關背景知識進行文獻探究，包括英語聽力理解能力、國小英語聽力測驗、英語聽力測驗相關研究、測驗理論、電腦化測驗。第三章：研究設計與方法，闡述本研究流程與步驟、研究對象、英語聽力線上測驗試題編製、研究工具。第四章：研究結果，包括試題質性分析、模擬電腦化適性測驗成效評估。第五章：結論與建議，提出結論、針對未來實施英語聽力線上測驗及電腦化適性測驗提出檢討及建議。

(15)

第二章文獻探討

本研究目的為研發國小英語聽力電腦化測驗試題，本章節將探討與英語聽力相關理論與測驗，並對分析試題性質及施測結果相關的測驗理論、以及建置題目所應用的電腦化測驗，進行相關文獻探討。

第一節英語聽力理解能力

壹、英語聽力理解的定義

學習外語的目的是能溝通，而溝通的先決條件是聽得懂。以前，許多學者都認為「聽」是語言學習中的接收技巧；學生經由不斷的聽及複誦，以改善自己的發音。1980年代以後，才陸續有學者認為聽力是促進語言學習的關鍵因素。但這些學者也贊同聽說教學法(audio-lingual method) 所主張的，認為聽力是一項被動的接收技能( Anderson & Lynch,1988; Gilbert, 1988)。直到90年代，聽力才被視為是一項主動又複雜的心路歷程。「聽到」與「聽懂」不同；「聽到」(hearing)是身體本能的感受聲音，而「聽懂」(listening)卻是一種複雜的心智活動，需要將該聲音中所含有的單字、片語、子句、句子及上下文解讀為有意義的話語 (Feyten, 1991)。聆聽需要主動的從對方的口說及非口說的訊息中擷取建構出意義(Nunan, 1998)。聽力不僅是單向的接受音訊，更是聽、說雙方互動的一個過程(Brown, 2001)。聽懂對方的語意後，能適時的回應，才算真正擁有聽力。

貳、英語聽力理解的過程

聽力是一項推理的歷程(Rost, 2002)。聽者必須運用各式各樣的相關資訊，包含語言學與非語言學的知識，去推論、詮釋所聽到的話語(Buck, 2001)。Eom (2010) 在探討影響EFL學生聽力理解的研究中發現，學生在語言學的知識及聽力的認知

(16)

過程是影響英語聽力理解的主因。簡述如下：一、英語的語言特徵英語是拼音文字(alphabetic language)，單字以一個或多個字母組合而成，擁有單音或多音節的語音文字。語言的音韻節奏常透露出說話者所要表達的訊息；說話者的重音、語調、停頓等皆有助於句意的理解(Brown, 2001)。所謂的語言理解應包含語言學與非語言學兩種知識。語言學知識又可概分為字彙（語音、語詞）、概念形成（語意、語法）與交談連結（連貫、一致）；而後者包括對主題及脈絡的一般性知識等(O’Malley & Chamot, 1990; Buck, 2001)。分述如下：（一）語言學知識 1. 單字的理解：單字的理解可分為辨識單字與理解字義兩個層次。聽到單 字時，聲音訊息的接收包括音頻的高低、輕重、大小與快慢等線索。除了單字本身，學習者也常需使用常識來辨識單字。具備基礎文法知識者，會知道辨識詞性，如冠詞之後加的是名詞，主詞之後出現動詞等。而字義的理解則可透過上下文來達成；再根據單字的特色與關連，直接連結複雜的語意脈絡，如聽到「snow」，會自動與冬天、寒冷等相關字聯結。常用單字較容易辨識，透過有脈絡可循的上下文，有助於迅速的辨識、確認單字的字義。 2. 概念形成：除了單字的辨識外，聽者會藉由語意與語法將數個單字連結 成有意義的概念，甚至會逐漸忽略單字的原意，只記得有意義的重點。將每一個概念互相結合，最後建構出整個文意的主旨(O’Malley & Chamot, 1990)。

3. 交談連結：單字與概念的辨識固然重要，然而在真實交談中，常出現許 多不同的概念與話題，因此「連貫性」以及「一致性」是文本中重要的語意連接（Halliday & Hasan, 1976）。例如敘述事件時，使用正確的文法時態；或正確適時的使用「但是、所以、然後、而且」等連接詞，都可以協助聽者確認所接受到的訊息無誤。

(17)

（二）非語言學知識非語言學知識包含對主題及脈絡的常識。 1. 主題：對主題的熟悉度會影響聽者對文本的推論。談到熟悉的主題時，相關的知識有助於推論文本；若聽者對文本所述的內容一無所知，便難以理解或推論。 2. 脈絡：脈絡是語言理解中的關鍵因素；即便瞭解基本的語音與語意，還是需要透過上下文的脈絡來瞭解建構其意義。二、英語聽力認知過程聽到的聲音稍縱即逝，不像書寫的文字，可以一再閱讀。認知心理家認為聽力的理解過程，首先得能察覺並分辨出聲音及語調的類型(Anderson, 1983; Chastain, 1976)，其次要能將聽到的訊息保存在記憶中(Chastain, 1976)，最後還得將存在記憶中已轉化為心理表徵的訊息與原有的背景知識、過往經驗及自身心得互相結合，才算是真正擁有聽的理解能力(Anderson, 1983)。從1970年代開始，許多學者從各個不同的認知觀點探討聽力的理解過程。茲整理如表2-1，並於稍後加以說明。表2-1 英語聽力認知理解過程研究者聽力認知理解過程 Chastain (1976) 1. 聽者能區分聽到的聲音、語調和音質 2. 聽者能感知說話者欲傳達的訊息 3. 聽到的訊息能停留在記憶中等待處理 4. 聽者能將訊息解碼、利用並儲藏在腦中 Anderson (1983) 1. 感知的過程：聽者專注於聽到的話語且將其存在記憶 2. 分析：利用聽到的話語和訊息建構成重要的心理表徵 3. 使用：聽者將文本與舊有的知識連結

(18)

研究者聽力認知理解過程 Wolff (1987) 1. 「由下而上」和「由上而下」的過程是相互融合的。 2. 「由下而上」是聽者能解讀說話者的原義；「由上而下」則是聽者能根據原有的知識做預測並消化聽到的訊息 Brownell (1996) 六個元素：聽到、了解、記得、詮釋、評估及回應，彼此活躍且交互影響 Buck (2001) 1. 能自動處理當下聽到的話語 2. 能了解說話者文中所含的語言訊息 3. 能了解並且推導出話語中所隱含的意思 Rost (2002) 接收聲音、建構意義、回應、藉由互動參與而創造

資料來源：翻譯整理自” A Study of Factors Affecting EFL Learners’ English Listening Comprehension and the Strategies for Improvement” by A. P. Gilakjani & M. R. Ahmadi. 2011. Journal of Language Teaching and Research, 2(5). 977-978.

由上表可知，聽力的理解包含許多繁複的過程，得先感知聲音、分析句子、整合意義、建構說話方式、從而推敲出言下之意(Call, 1985; Rost, 2002;

Underwood, 1989)。

在談到語言技巧的習得時，Anderson(1983)表示從受限於規則的陳述性知識 (descriptive knowledge)進化到自主的程序性階段(procedural knowledge)，需經過三個過程：認知(cognitive)、聯想(associative)、自主(autonomous)。認知是指學習者經由引導或自學而產生的心智活動。聯想則是認知進化到自主的過度期，在此階段，學習者會慢慢修正早先所犯的錯誤。自主期是臻於完美的階段；該學的技巧都已習得，還有餘力接收處理新的信息。在信息處理過程，需經過三個過程：感知(perceptions)、分析(parsing)、使用(utilization)。感知是指能對聽到的話語保持專注。分析是將聽到的聲音編碼成有意義的信息並存入短期記憶中。使用著重運用背景知識，解讀聽到的話語後儲存入記憶中。簡單的說，聽力理解的層次是由聽懂關鍵字、專心聽、理解內化並在意識中形成記憶、擁有預測力(Anderson, 1983)。

(19)

Anderson (1983) 認為許多知識是以基模(schema）的形式儲存在人的記憶。聽者利用基模，將聽到的文本賦予意義並利用語言學及情境來預測即將聽到的訊息來喚醒基模。依此原理衍生出訊息處理的兩個基本模式：「由下而上」模式與「由上而下」模式。「由下而上」的處理是指活化新進的資料；在「由下而上」的過程中，聽者針對聽到的聲音，從最小的、有意義的音素至整段話語進行解碼。聽者利用自身單字、語法及文法的知識逐步形成「由下而上」的過程(Rubin, 1994)。換句話說，聽者需將聽到的語言片段組織消化成能理解的意思；若沒有語言學及語音學的基礎，如何從隻字片語、語氣及說話節奏中判斷說話者的意思。「由上而下」的模式是指運用背景知識去理解訊息的意義。Carrell and Eisterhold (1983) 指出在「由上而下」的過程中，聽者需擁有相當的背景知識，才能聽懂話題並猜測或推斷出接下來可能談論的事。1980 年代，「由上而下」的理論當道。但近年來，學者皆認同唯有當聽者能同步整合這兩個過程、相互運用，才能說他們有聽的能力。綜上所述，不論認為聽力過程是「由下而上」還是「由上而下」，都可確定聽力的理解過程牽涉許多環節，缺一不可。

在語言教學上，臺灣是英語為外國語文(English as a Foreign Language, EFL) 的語言環境，日常生活中不太有機會使用英語。因此，聽力對多數的學童而言，是較難突破的技能。國小學童學習英語的時間不長，不易建立英語聽力「由上而下」的模式，因此，本研究編製英語聽力試題時，著重「由下而上」基本語音知識。

參、影響英語聽力的因素

一、聽力與外語習得英語是國際上最通行的語言，在許多國家推行英語的同時，將英語的學習概分為雙語(bilingual) 、以英語為第二語言(English as a Second Language, ESL)及以英語為外國語言(English as a Foreign Language, EFL)三類。雙語是指該國家或地

(20)

區，需要以兩種語言相互溝通。這兩種語言分為第一語言(First language, L1)與第二語言(Second language, L2)。在非英語系國家的環境或英語為非官方語言的國家，英語學習就屬於英語為外國語言。臺灣便是EFL的語言環境，雖然英語早已列入國小課程中，但日常生活中少有使用英語的機會，在缺乏環境刺激的情境下，聽力自然成了學生學習英語的一道鴻溝。二、影響L2聽力的成因對外語學習者而言，聽力理解有時候只是單字或語調，有時候卻是訊息中關鍵的文化背景的差異，造成理解上的困難。當語言知識有隔閡時，聽者會很自然的藉由視覺訊息，如面部表情或肢體語言等可觀察的動作來確認。學習外語時，聽者常因受限於自身所缺乏的語言知識而難以突破，且因為來自不同的時空，缺乏重要的背景知識去補償所缺少的語言技能(Mendelsohn, 1994)。自1980年代起，國外學者開始針對L2及EFL學習者，探究干擾聽力習得的因素。Boyle (1984) 率先於年將干擾英語聽力的因素從三個層面來討論：聽者、說話者及媒材。從聽者的角度來看，過往的聽力經驗、個人資質、對世界的了解、受教育的程度、智力及心理因素都會影響聽力。從說話者的角度來看，說話者的語文能力、說話的方式、速度及個人的特質與個性會影響傳達的方式。相關的媒材因素可細分為四小項：傳達訊息時使用的語言、內容的難度、週遭環境是否有噪音或干擾、提供視覺與手勢表情的多寡。隨之Underwood (1989) 提出影響聽力理解的七大原因：聽者無法掌控說話者的速度、聽到的字句無法重複再聽、本身字彙有限、無法察覺話中的轉折、缺乏文章脈絡的知識、無法專心聽外語、不同的聆聽習慣（習慣聽懂每個字：遇到不懂的字便會因擔心而卡住）。Rubin (1994) 年提出影響聽力的五大主因：文本的性質，包括演說的速度、停頓與遲疑、感知的程度、連聲、重讀、節奏的類型、語法的變化、形態學的複雜度、文字排列、話語標記、文本類型及視覺輔助；說話者的特質，如性別偏見及精練與否；任務性質，包括任務的形式與教學法的研

(21)

究；聽者的特質，包括對語言的精熟度、記憶、性別、年齡、專注力、喜好、學習力及背景知識；過程策略運用，包括由上而下及由下而上的過程、聽力策略、做筆記、策略訓練等。 Goh (2000) 在針對一群母語為中文的大學生對英語聽力困難度調查的研究中發現，學生列出了十個困難點，分別是：無法聽出學習過的單字、思考時錯過下一段文意、無法將成串的話語組織起來、錯過文本的開頭、太專心或無法專注、很快就忘了聽到的句子、無法將聽到的句子在心中烙印、前面碰到問題導致後面無以為繼、每個字都知道但不懂句子的意思、混淆了主題思想。

美國馬里蘭大學高級語言中心(Center for Advanced Study of Language, CASL) 與美國政府合作建置的國防語言能力測驗(Defense Language Proficiency Test, DLPT)是專為評估美國軍事單位及政府員工外語聽力與閱讀能力的測驗。在2010 年所釋出的研究報告中，將影響L2聽力的因素歸納為三個面向:聽者的特質、話語片段及試場的氛圍。聽者自身工作(短期)記憶的能力、對L2的精熟度、和L2接觸的時間、採用的後設認知策略及焦慮程度都會影響聽者的表現。聽到的文章長度、複雜度、類型、句子安排、是否是真實語料及聲音特色是影響的另一個因素。試場是否有時間限制、試題數、是否可暫停或重複播放及是否能做筆記亦是影響的因素(Bloomfield & Wayland, 2010)。

對學習英語時間僅有三、五年的小學生而言，音韻學及語言學上的問題，也就是認知心理家所說的「由下而上」知識不足，才是最基本要克服的。對外語初學習者而言，明顯的重音和語調有助學生理解；但不熟悉的口音、說話速度太快及過長的文本則會造成溝通上的鴻溝(Chen, 2005; Vandergrift, 1999)。由於本研究的受試皆為EFL的學習者，比L2的學習者在聽力的理解上更難突破，故命題時，特意避開後設認知及文化差異的變項，亦即「由上而下」知識，而僅引用經教育部審定合格的國小英語教科書中所涵蓋的發音、單字、句型與日常生活對話作為

(22)

第二節國小英語聽力測驗

聽力向來被認為是外語學習歷程中的首要技能。但聽力不易評量，因為它是無形的。學生需要集中心力，努力的從聽到的言詞結構中，找出關鍵字句、歸納重點，對學生的認知負荷極大(Gilbert, 1988)。近年來，愈來愈多的學者正視聽力在外語習得的重要性。隨之而來的是各國政府及教育學者大力鼓吹英語聽力測驗的必要性。不論是紙筆測驗或電腦施測，英語聽力對母語與英語大不同的臺灣學生來說，都是難度較高的技能。因此，為了確保所編製的聽力測驗內容與測驗目的相符，就得先瞭解九年一貫英語課程綱要的理念與能力指標的意涵。

壹、九年一貫課程英語科的課程綱要與教學目標

九年一貫英語課程自九十學年度起開始在國小五、六年級同步實施，九十四學年度起，為配合政府國際化的政策，提高國際競爭力，英語教學也提前至國小三年級開始實施。有關國小英語科的課程與教學簡述如下：一、基本理念九年一貫英語課程之設計強調營造自然、愉快的語言學習環境，以培養學生的學習興趣和基本溝通能力（教育部,2014）。教材內容與體裁以多樣化呈現；活動設計則以生活化、實用化及趣味化為原則。透過多元教材與活動練習培養溝通能力，讓學生多方面的接觸並實地應用英語，而非由老師單向講述文法結構等語言知識。二、課程目標九年一貫的課程綱要中，國民中小學英語課程的目標為： 1. 培養學生基本的英語溝通能力。 2. 培養學生學習英語的興趣與方法。 3. 增進學生對本國與外國文化習俗之認識。三、分段能力指標

(23)

在課程綱要中，英語科課程分為國小及國中兩個階段：國小階段以聽、說為主，讀、寫為輔；國中階段則聽、說、讀、寫並重。國小階段聽的能力指標為： 1. 能聽辨26個英文字母。 2. 能聽辨英語的基本語音。 3. 能聽辨課堂中所習得的字詞、片語的重音及句子的節奏。 4. 能聽辨問句及直述句的語調。 5. 能聽懂常用的教室用語及日常生活用語。 6. 能聽懂簡易的句子及日常生活對話。 7. 能聽懂簡易歌謠和韻文的主要內容。 8. 能聽懂簡易兒童故事及兒童短劇的大致內容。在微調的97課綱中，發音教學除了單音的聽、說模仿外，更強調音的組成及音節、重音的練習。字母拼讀法能讓學生熟悉字母與發音的對應關係，建構主動看字讀音的能力，適時融入單字中介紹，最適合在啟蒙階段教導。國小階段的聽力及口說教學首重語意理解與表達，老師若能利用圖卡、影片及誇張的臉部表情及肢體動作等視覺輔助，定能增進學生對語意的掌握及提昇學習興趣。綜上所述，九年一貫國小英語課程目標是希望在自然的情境之下，兼顧學生認知與情意的發展，讓學生習得能實地運用於人際溝通的生活技能：包括日常交談、社交應對(問候、感謝、道歉、同意、請求、問路、打電話)等；而不是把英語當作一門為考試而背誦的學科。當然，若非教育政策的修定(國小增加口說與聽力評量、國中會考加考英聽、大學推甄增加英語聽力項目)，光要求英語老師活化教學與評量方式，恐難讓學生及家長重視英語的實用性。

貳、 TASA 英語評量架構

臺灣學生學習成就評量資料庫所建置的 TASA 英語評量架構以九年一貫國民中小學英語科正式課綱要為主要依據，並參考 NAEP 外國語言之評量架構

(24)

（(Framework for Foreign Language National Assessment of Educational Progress， FLNAEP）之共同能力指標作為試題設計的依據。測驗採用通過能力指標與學習目標的比例，作為學習成就之指標。一方面用以充分溝通英語評量的結構內涵與認知重點，另一方面作為各縣市常模參照的評量工具。一般來說，成熟的語言可分為語音、字形、語法、語意和語用五個面向。在語言學習上，常將聽力與閱讀列為接受性能力，將口說與寫作列為表達性能力。TASA 英語測驗編製者便依據此分類，事先整合國內各版本英文教科書內容及參考東亞地區英文試題架構編制題目，以確定命題方向，訂定好試題在架構中的分佈，即分別在兩個向度上的題數百分比，以常模參照模式，研發小六英語成就之測驗工具（臺灣學生學習成就評量資料庫,2008）。在 2001 年新版的 Bloom 教育目標分類中，將認知歷程目標由低而高分為記

憶（remembering）、了解（understanding）、應用（applying）、分析（analyzing）、

評鑑(evaluate)及創造（creating）六大類（葉連祺、林淑萍，2003）。以臺灣學習英語的環境來說，國小階段的評量標準以能達到前三項為主要目標。記憶是指能從長期記憶中提取相關知識。在 TASA 英語國小評量架構中，則是指學生能夠回想起以前學過的語言知識，包括語音、字母、詞彙和常用的教室用語及日常生活用語等等。了解是指將所學的新知識與舊有的經驗相連結，亦即能從口述、文字書寫及圖表溝通的教學資訊中做分類、摘要、推論、比較與詮釋。在 TASA 英語國小評量架構中，了解較偏重由一種呈現資訊方式轉成另一種方式，例如聽到語音後，能辨識出其相對應的字母或單字。應用的認知歷程可再細分為執行與實行；執行與實行的區別在於，前者為解決例行性的問題，而後者為解決陌生的問題。在 TASA 小六英語文評量架構中，應用較偏重解決例行性的問題（臺灣學生學習成就評量資料庫, 2008）。由於國小學生所能學習到的語言知識僅限於字母、語音、基本詞彙和常見的生活用語，所以只有口說和書寫測驗才能評量到應用層次的認知歷程。茲將英語聽力評量架構製表如下：

(25)

表 2-2 TASA 國小六年級英語文聽力評量架構 能力指標能力指標內涵 1-1-1 能聽辨 26 個字母。 1-1-2 能聽辨英語的語音/音素 1-1-3 能聽辨課堂中所習得的詞彙。 1-1-4 能聽辨問句和直述句的語調。 1-1-5 能聽辨基本的單字、片語及句子的重音。 1-1-6 能聽辨句子的節奏。 1-1-7 能聽懂日常生活應對中常用語句（如問候、致謝、道歉、道別等），並能作適當的回應。 1-1-8 能聽懂簡單的句子。 1-1-9 能聽懂簡易的日常生活對話。 1-1-10 聽懂簡易歌謠和韻文的主要內容。 1-1-11 能藉圖畫、布偶及肢體動作等視覺輔助，聽懂簡易兒童故事 1-1-12 及兒童短劇的大致內容。 5-1-1 能正確地辨識、唸出與寫出 26 個英文字母。 5-1-2 能聽懂及辨識課堂中所習得的英語詞彙。 5-1-3 在聽讀時，能辨識書本中相對應的書寫文字。 5-1-5 能聽懂日常生活應對中常用語句（如問候、致謝、道歉、道別等），並能作適當的回應。資料來源：臺灣學生學習成就評量資料庫(2008)

第三節英語聽力測驗相關研究

學習語言總脫離不了評量。經過嚴謹設計的評量，應能如實的反映受測者所具備的知識和能力，讓學生了解自己的學習成效，同時讓老師了解教學效果及學生的學習歷程。以下就本研究主題，整理相關英語聽力測驗研究論文，以及對國內外較受重視之英語測驗進行相關探討。

壹、英語聽力測驗研究

英語聽力測驗應考量學習者特性，如年齡、語言能力發展、先備知識多寡等

(26)

情形，以多樣大量不同的學習聽力素材，最好能採用真實語料如廣播劇與影片，利用鮮明的故事角色或視覺訊息將語文學習與真實情境結合，透過口說、對話或獨白，以貼近學習者的日常生活，才能在無形中增進英語聽力技能(Marsaid, 2008)。在聽力評量試題方面，Weir (1993)建議聽力理解試題的設計應著重在直接理解與推論理解兩個層次。所謂直接理解，即是聽者可以從敘述或對話中判斷出主旨或重要訊息，明瞭說話者的態度。推論理解，則意味著聽者需透過說話者的語調，辨識其意圖，並連結所聽到的脈絡情境，進而對不熟悉的詞彙做出推論。 Thompson (1995)也表示聽力測驗問題應評量所欲傳達的重要訊息或主旨，著重語意理解，避免瑣碎的片段記憶。試題編製時，試題難度應由易而難，符合各種程度；題型應採多樣化，避免主觀性強又不易批改的題型（余民寧，2011）；題幹應避開長篇大論或考驗受試者拼字、文法的技能，適時的運用圖片或影片，可以提供情境線索，減輕受試者焦慮；選項及答案的安排則要留意猜測度的問題。聽力測驗的說明指導語，應清楚明瞭並以受試者的母語來陳述，以免造成受試者的困惑。錄音的品質、速度、語調與播放的次數、題與題之間是否有足夠的停頓時間讓受試者思考與作答，整體測驗時間的長度，皆是造成聽力疲勞，影響聽力理解成效的主要原因，宜多加注意(Weir,1993)。以下就本研究主題，整理相關英語聽力教學與測驗研究論文，以及對國內外較受重視之英語測驗進行相關探討。

(27)

表2-3 英語聽力測驗相關研究研究者研究主題與方法研究對象研究結果鄭月珠（2000）圖像式英語聽力測驗對臺灣國中生的影響研究將學生分為文字組試卷及圖像組試卷測驗。再利用問卷與訪談分析國二學生兩組測驗沒有明顯不同。發現圖像式英語聽力測驗會降低學生焦慮、減少題目思考時間，對女生幫助大於男生。林宜如（2002）使用真實語料做為高中生英語聽力輔助教材之個案研究利用廣播真實語料作為課程教材及測驗試題，探討廣播真實語料教學的可行性及試題題型設計與不同程度學生表現的關係。高中生一、收聽廣播語料的難度在於速度及連音。二、在題型方面，克漏字題型對高程度學生、選擇題題型對中低程度學生而言，較能增強其聽力訓練。李玉珍（2004）多媒體英語檢測試題與傳統試題之分析比較---以國小高年級生課程範圍為例 1000位小六生多媒體試題較傳統試題具有豐富的資訊，及溝通功能，較能與生活相結合。使學生能應用所學的語言知識與能力，達到多元評量的效果。羅靜倫 (2004) 測驗形式與文類對聽力理解與策略使用之效應探討測驗型式(test format) 及文類(text type)對高中生聽力理解之影響，與高中生聽力策略使用的情形。將受試學生分為32位聽力程度較佳者(高分組)及33 位聽力程度較差者(低分組)）。做完一份聽力測驗後，並填寫了一份問卷。 65位高中生一、受試學生在圖片式聽力測驗之得分顯著高於在無圖片式聽力測驗之得分。二、受試學生在單句式 (statement)文類之得分顯著高於在對話型(dialogue)文類之得分。三、高分組使用聽力策略之頻率顯著高於低分組，尤其是在補償策略、後設認知策略、及社會策略上有差異。四、測驗型式及文類與聽力策略確實有密切之關係。

(28)

研究者研究主題與方法研究對象研究結果黃本杲（2004）班級適性化測驗系統之建置 -以英語學習護照為例以國小英語聽力測驗做為系統實作案例，並以班級為單位小五學生適性化護照系統之能力估算值與傳統測驗具強相關之關係，使用單參數、三參數或老師自設難易等級均測試出類似結果，在班級教學具可行性。陳安琪（2006）國小電腦化英語聽力理解評量之發展利用電腦多媒體開發電腦化英語聽力理解評量工具，分析不同背景之國小學童在不同試題難度的表現水準及在不同測驗內容型態的理解狀況，並提供不同年級、性別及城鄉之常模，作為測驗分數解釋之參考 2263位小四到小六學生一、不同年級的學生在英語聽力理解評量的表現有顯著差異。二、女生的表現優於男生。三、城市學生的表現優於鄉村學生。四、家長教育程度、補習時間、補習型態及聽力練習頻率在英語聽力理解評量的表現差異亦達顯著。五、評量加入多媒體影音效果，在測驗時可提升學生的聽力理解。許淳瑩（2009）國小學童英語聽力評量工具之發展模式:以金門地區國小六年級學童為例以語法能力、社會語言能力、言談能力三個構面來發展評量內容。採分層隨機取樣。 162位小六學生根據蒐集到的資料，針對試題進行信度、效度和試題分析。以語言溝通觀為理論基礎的國小英語聽力評量工具發展模式是可行的。張玉茹楊智為（2009）國小學生英語聽力電腦化測驗之編製與發展以試題反應理論分析試題信度及與英語畢業考成績之效標關聯性 5908位小六學生該英語聽力學習成就電腦化測驗具良好信度；與受試者英語畢業考成績成正相關。（續下頁）

(29)

研究者研究主題與方法研究對象研究結果宋珮如（2012） 認知成分對ASAP英語聽力 理解試題難度的預測提出英語聽力理解的認知架構，針對教育部攜手計畫中電腦化英語聽力測驗題庫試題進行分析，探討其與試題難度的成分。 1459位五到七年級控制試題難度，能有助於增進試題效度與鑑別度，更精確測得學生對該學習範圍的精熟度。結果可供後續英語聽力補救教學教材設計以及測驗試題編製的參考。殷開雯（2012）應用多媒體輔助英語學習之成效評估:以苗栗縣國中小英語學習為例國中小學生多媒體試題比傳統測驗更能呈現互動式評量，使測驗更具效能，同時也增進學生在英語聽力的學習成效。周玟妤（2014）國中英語聽力電腦化測驗研發國三英語聽力電腦化測驗可提供適性化的評量，節省施測題數與時間。由上述資料整理可發現，以探討英語聽力學習方式與輔助教材的論文居多。對於英語聽力電腦化評量與測驗的則有五篇，其中黃本杲（2004）的研究雖也強調電腦適性化測驗，但方向偏重在班級英語學習護照的建置；陳安琪（2006）雖也研發編製國小電腦化英語聽力測驗，但研究對象，涵蓋小四到小六的學生，所要探討的目的也不盡相同。宋珮如（2012）則針對教育部攜手計畫中電腦化英語聽力測驗題庫試題，進行分析英語聽力的認知架構與探討其與試題難度的成分，與本研究的目標接近但對象及目的則有所差異。周郁玟（2014）的研究主題與研究者相同但對象為國中生。張玉茹、楊智為（2009）的研究則是最接近研究者所欲探討的目標。但在參考張玉茹與楊智為的試題編製時，注意到三個問題：首先，其所有試題的選項皆為二選一，容易增加試題猜測度，影響測驗結果；其次，整份測驗的試題偏重在句型與短句對答，對於聽辨字母、字母拼讀、分辨語調、韻文歌謠及故事短文理解等相關題型都附之闕如，無法涵蓋教育部九年一貫課綱所訂定的國小英語聽力理解的能力指標；最後，也是讓研究者最為欽佩之處，該研

(30)

究的樣本數龐大：5908位小六畢業生，且遍及全臺、北、中、南、東四區。可惜的是或很可能的是，當時的電腦運算軟體或程式開發還未臻成熟，以致於該研究並未針對試題分析與學生作答反應探討電腦適性化的可行性。因此，研究者在編製測驗時，針對以上發現，將所有選項改為三選一、加入多元的試題類型、模擬電腦適性化的可行性，並比較不同能力估計方法對電腦化適性測驗的使用成效，力求編製出一份完善的試題，來測驗學生在英語聽力理解的學習成效。

貳、國內外大型英語聽力測驗

一、劍橋大學國際英語認證（UCLES）

由英國劍橋大學英文測驗 (Cambridge English Language Assessment)所認證

的考試包羅萬象，從適合小學生的YLE兒童英語測驗、國、高中至大學學術用途的KET/PET/FCE/CAE/CPE五級認證到檢測職場英語能力的博思測驗（BULATS）都深受許多非英語系國家的公民營機關、學校之認可與採用（語言測驗訓練中心， 2014）。二、STYLE / JET 全國兒童暨青少年英語分級檢定 由英國試題中心 Saxoncourt Examinations 根據「兒童托福」的概念延伸，並邀集多位分別在歐、美及亞洲相關領域的學者專家，針對所有非英語系國家學生所研發設計的一套英語評量系統，且此檢定已被日本、韓國等30幾個非英語系國家廣為採用（師德文教網，2014）。 三、雅思測驗（IELTS）

雅思測驗(International English Language Testing System，IELTS)於1989年由英國文化協會(the British Council)、劍橋大學考試委員會(Cambridge ESOL)、及澳洲大學聯盟(IDP Education Australia)共同創設。大多數非美英語系國家如：澳洲、英國、紐西蘭、加拿大等偏好此項英語能力認證，為國際公認最符合實用性及生活情境的測驗（臺灣IELTS雅思官方考試中心，2013）。

(31)

四、托福測驗（TOFEL）

美國教育測驗服務社(ETS) 於1965年開始推行旗下的TOEFL測驗，托福成績單是想申請入學美加地區大學或研究所，必備的語言證明文件。

五、多益測驗（TOEIC)

多益測驗(Test of English for International Communication, TOEIC）是ETS於 1979年應日本企業的邀請，研發的語言測驗，目的在為非英語母語人士，檢定其在國際職場中使用日常生活英語的能力。

六、全民英檢（GEPT）

教育部自2000年起委託財團法人語言訓練中心 (The Language Training & Testing Center. LTTC) 開發全民英語能力分級檢定測驗 (General English

Proficiency Test，簡稱全民英檢或GEPT)，作為升學和選才評量工具，目前已陸續推出初級、中級、中高級、高級與優級測驗 (全民英檢網、師德文教網， 2014) 。茲將以上各項英語能力檢定之聽力測驗重點分列整理成如表2-4示。表2-4 國內外英語能力檢定聽力測驗重點整理 英語檢定 適用對象 測驗時間 題型 測驗方式 劍橋小院士 YLE（3 級） 7~12 歲 20-25 分鐘 20-25 題連連看、改錯、著色紙筆測驗 KET/PET/FC E/CAE/CPE 國中 ~ 大學 30-40 分鐘 25-30 題紙筆測驗 BULATS 16 歲以上職場人士 60-80 分鐘 110 分鐘（含閱讀） 50 題選擇題（圖片、對話、短文）電腦化適性測驗或紙筆測驗（續下頁）

(32)

英語檢定 適用對象 測驗時間 題型 測驗方式 STYLE (1-6) & JET (3 級) 6~17 歲視級別而定配對、是非、選擇、（圖片、單字、對話）填充、短文紙筆測驗托福 TOFEL-ibt 申請美、加留學 60~90 分鐘 34-51 題：對話 2~3 段、演講 4~6 篇電腦化測驗雅思 IELTS 申請英、澳紐、加留學 30 分鐘 40 題配對、是非、選擇、填充、問答紙筆測驗多益 TOEIC 職場人士 40 分鐘 100 題照片描述、應答、簡短對話、獨白紙筆測驗全民英檢 GEPT 12 歲以上 20 分鐘 30 題看圖辨義、問答、簡短對話、短文紙筆測驗資料來源：整理自臺灣托福資源中心、臺灣IELTS雅思官方考試中心、語言測驗訓練中心、全民英檢網、師德文教網 (2014) 由上表可見，一般大型英語聽力測驗仍以紙筆測驗為主，只有托福 (TOFEL-ibt)與劍橋職場英語(BULATS) 採用電腦化測驗，採用適性化測驗的則僅 有劍橋職場英語 (BULATS)。但是，隨者數位科技的大躍進，電腦化測驗或適性 化測驗全面取代紙筆測驗，已是大勢所趨。

第四節測驗理論

測驗理論是用來解釋測驗資料與受試者間實證關係的理論學說，主要分為二大學派：古典測驗理論以及試題反應理論學派。茲分述如下：

壹、 CTT古典測驗理論

(33)

式；該模式假設測驗所得的分數(observed score)包含了真實分(true score）與誤差 (error)兩個部份，目的在估計受試者所測得分數的信度，並試圖找出所測得分數與真實分數之間的關聯性（余民寧，2009）。其公式如下： X （測得分數）= T （真實分數）+ E （誤差）該理論認為直接將答對題目的分數加總即可得到受試者的能力值，不需考慮受試者的答題反應與題目難易度之間的關係或與受試者能力之間的關係。換句話說，受試者的能力高低便可決定試題難易度參數（通過人數百分比）；受試群體的能力分布也直接影響試題的鑑別度：以點二系列相關（point biserial correlation）即受試者在每一題得分與總分之相關係數來表示，相關高，表示答對該題者的總分也可能較高，所以該題具有分辨受試者能力的差異。通常認為試題的相關係數介於0.3 ~ 0.6之間最佳，若相關小於0.25，該試題會減低測驗整體的信度（余民寧， 2009）。以古典測驗理論編製的測驗，通常僅以試題的內容及難度和鑑別度做為選擇試題的依據；先挑選鑑別度較高（大於0.25）的試題，再根據施測目的及受試者的能力分佈，挑選出難度適中的試題編製而成（郭生玉，1980）。古典測驗理論的假設較少，且容易滿足，但該理論為人詬病的缺失也不少，茲整理如下： 1. 直接將答對題目的分數加總形成能力值的作法，完全忽視受試者的試題反應組型 (item response pattern)，會造成誤判受試者真實能力估計值的情形。 2. 其難度、鑑別度及信度的估計值都取決於受試者的能力，屬於樣本依賴 (sample dependent)。同一份試題會因受試者樣本的能力差異而獲致不同的指標；無法直接依題目參數特性來分析解釋（余民寧，2009）。

3. 將所有受試者的測量標準誤 (standard error of measurement)，皆視為相同，即採用單一的標準誤，對能力極高與極低的兩端受試者而言，易造成較大的誤差（余民寧，2009）。

(34)

5. 僅對相同測驗的前後測分數能提供比較；對於非複本(nonparallel)但功能相同的測驗所測得的分數之間，無法提供有意義的比較。對信度的假設也建立在複本測量的概念上，不實際又相互矛盾，因為無法要求受試者重複做同一份試題數次，卻聲稱每次測量皆獨立且不相關（余民寧，2009）。儘管如此，古典測驗理論歷史悠久、流通最廣，計算公式淺顯易懂，故短期之內還不會被取代。

貳、 IRT 測量模式

試題反應理論（item response theory, IRT）主要用來描述試題特性：難度、鑑別度、猜測度，與受試者能力之間的關係如何影響答題反應的一種數學模式。其理論較嚴謹，假設也較難滿足。目前TASA及國際上較知名的大型評量測驗，如 TIMSS、PISA和NAEP便採用此理論進行能力估計分析（郭伯臣等人，2012、曾建銘，2009）。IRT的出現，似乎是為了改善古典測驗理論的缺點而生，以下是IRT 的特點（余民寧，2009；郭伯臣等人，2012）： 1. 試題參數（item parameters）不受受試者能力影響（sample-free）；可以直接依題目參數特性來分析解釋。 2. 提供每位受試者個別差異的測量標準誤，能精確的估算受試者的能力值。 3. 適用於同質性試題組成的分測驗，進行等化，能針對受試者不同分數間，提供有意義的比較。 4. 同時考慮反應組型與試題參數等特性，能提供受試者較精確的能力估計值。 5. 以試題訊息量與試卷訊息量作為評定試卷內部一致性的指標。 6. 可提供測驗模式與資料間的適合度考驗（goodness-of-fit）。不過，要用IRT來分析測驗資料，需滿足幾個基本假設。其一是單向度且非速度的測驗，即測驗中所有的題目都是測量同一向度（uni-dimensionality）的能力或特質，且與作答速度無關；其二是局部獨立性（local independency），即對每

(35)

位受試者而言，答對任何一題的機率與答對他題的機率無關聯性（余民寧，2009；郭伯臣等人，2012）。試題反應理論除了改善古典測驗理論的缺失外，其主要的概念為受試者作答反應是受到受試者本身能力或潛在特質以及試題參數影響的關係。因此，在試題反應理論中，由受試者的表現，可推測受試者能力或特質。將受試者表現與受試者能力特質之間的關係，以一條連續性遞增函數，稱為試題特徵曲線（item characteristic curve, ICC）。觀察函數曲線變化情形即可了解不同能力受試者在試題上的表現（余民寧，2009）。

以下為試題反應理論的要點： 一、IRT單向度試題反應模式

IRT單向度試題反應模式適用於二元化計分（dichotomous scoring），將正確作答記錄為1，錯誤作答記錄為0。可依試題參數多寡分為單參數對數模式

（one-parameter logistic model, 1PL）、二參數對數模式（two-parameter logistic model, 2PL）、三參數對數模式（three-parameter logistic model, 3PL）。

（一）1PL 模式：由丹麥學者Rasch提出，因此也被稱為Rasch模式。具有描述受 試者能力與試題難易度之間的關係及預測受試者答對機率的功用（王文中， 2004），公式如下：

 

 _  _ j j j j b b j

e

P

_ 





_ 



1

j=1,2,3,…,n (1) P_j (θ)：受試者在ｊ題的答對機率； θ：受試者能力; e：以2.718為底的指數; bj：第j 題難度參數。 理論上，b值應介於±∞之間。但一般在應用時，多將b值設定在±3之間。b值

(36)

（二）2PL 模式：二參數模式是在1PL 模式中加入了鑑別度參數，是美國學者 Lord (1952)所提出，再經過Birnbaum (1968)簡化而成。公式如下：

 

 _  _ j j j j j j b a b a j

e

P

_ 





 _



1

j=1,2,3,…n, 其中 (2) P_j (θ) ：受試者在ｊ題的答對機率； ：受試者能力; e：以2.718為底的指數; a_j：第 j 題鑑別度參數 bj：第 j 題難度參數。 理論上a值介於±∞之間，但一般在應用時，多將a值設定在0~2之間； a 值越 大，表示該題目對受試者能力的鑑別度越高。 （三）3PL 模式：三參數模式是在2PL 模式中加入猜測度參數，是Lord (1974) 所提出。公式如下所示：

 







_



_

j j j j j j b a b a j j j e e c c P _       _



1 1 _{j=1, 2…n , 其中 (3)} P_j (θ)：受試者在j題的答對機率； θ：受試者能力; e：以2.718為底的指數; aj：第j 題鑑別度參數; b_j：第j 題難度參數; cj : 第j 題猜測度參數。 猜測度參數為 j A j C  1 _{，其中 A} j 為試題 j 的選項數。 本研究所編製的試題即採用IRT 中的三參數對數模式進行試題之鑑別度、難度及猜測度分析。

(37)

二、IRT 訊息函數

（一）試題訊息函數（item information function）

每道題目都可提供受試者訊息量，訊息量越大，受試者能力估計值越精確（王寶墉，1995）。可用於挑選或描述試題。訊息量的計算公式，即為試題訊息函數（Birnbaum, 1968；Lord, 1980）。公式如下：

 



_{   }

 



    j j j j Q P P I 2   j =1, 2…n , 其中 (4) Ij (θ)：第 j 題在受試者能力值為θ時所提供的試題訊息量； θ：受試者能力值; P_j (θ)：為在θ 點上P_j(θ) 值的導數； Qj (θ)：為受試者能力θ值在試題 j 上的試題反應函數；

 

 _j

 

 j P Q 1 。

（二）測驗訊息函數 (test information function)

將每道試題訊息函數加總，即可得整體試卷的測驗訊息函數（余民寧，2009），公式如下所示：

 



 

  n j j T I I 1   (5) n：試題數目; I j：第 j 題的試題訊息量； I_T：測驗訊息函數，即 n 個 Ij 的總和

第五節電腦化測驗

壹、電腦化測驗的優勢

電腦化測驗（CBT）就是利用電腦來施測、讓學生透過電腦螢幕閱讀試題，

(38)

利用滑鼠點選答案，通常允許學生重複檢查與修正答案，在確定完成之後，送出試卷即離開測驗系統。電腦化測驗之所以廣受萬方矚目，最大的優勢就在於它能透過精確的科學方法去分析試題，事後再透過有系統的運算，迅速評估學生的學習成效及診斷學生的困難點。隨著資訊科技的大躍進，電腦化測驗運用多媒體的優勢，不僅早已廣泛被國際間大型的測驗所採用，更是先進國家測驗發展的趨勢（陳新豐，2007）。電腦線上測驗藉由網路，將試題、答案及作答結果等資料直接傳送到伺服器，受試者只要有電腦及網路即可隨時隨地上線施測，並能即時回饋、得知測驗結果。自動計分與即時提供分析數據及統計報告給受試者，這兩點正是電腦化測驗逐漸取代傳統紙筆的主要原因。

貳、電腦化適性測驗

電腦化適性測驗（Computerized Adaptive Tests, CAT）是以試題反應理論（IRT）為基礎所建置的測驗。實行的步驟是先大量進行預試，算出各試題的難易度、鑑別度、猜測度等參數，建立題庫，然後自題庫中挑選試題組成測驗。測驗完畢，再根據學生作答反應推估考生的能力。因為題庫裡的試題的參數都在同一量尺上，一旦建置好題庫，就可以編製許多量尺相同但題目內容不一樣的測驗。其特性是依受試者程度進行選題，再估計出受試者的能力。不僅可節省施測時間與成本，更具有精確估計考生能力或某種潛在特質的功能（余民寧，2009）。茲將電腦化適性測驗之實施要點：測驗題庫、測驗起點、能力估計、選題策略、測驗終止條件，概述如下：一、測驗題庫 CAT需根據試題參數來挑選試題，因此試題參數會影響題庫的品質。題庫的試題量多寡亦攸關題庫的品質，若CAT施測試題數是紙筆測驗試題數的一半，則 CAT題庫試題量應為紙筆測驗試題數的六到八倍，亦即題庫試題量需為施測試題數的十二倍以上（Stocking, 1994）。一般建議若使用試題反應理論的1PL模式，

(39)

需500位受試者，若使用2PL或3PL模式，至少需1000位受試者，受試者能力最好呈常態分配。由受試者能力估計出的試題參數，其難度參數應介於±3，均勻分佈; 鑑別度參數應介於0~2，猜測度應小於ㄧ除以試題選項數（余民寧，2009）；例如，四選一的選擇題，猜測度應小於1/4；三選一的選擇題，猜測度應小於1/3等。二、測驗起點 CAT施測原則是挑選適合個別受試者能力的試題，提供受試者作答。但在測驗起始，因不知受試者能力，通常由電腦隨機選擇中難度試題測試。後續的選題則根據受試者再前一題的答題狀況來估計其能力值，並挑選能對該能力值提供最大訊息量的下一個適性題目。三、能力估計能力估計法與一般測驗的計分方法類似，差別在於，受試者每作完一道題目，系統會根據答題反應及由IRT所獲得的各參數代入概似函數（likelihood function）公式，重新估計受試者的能力值，以便挑選最適合受試者能力的試題，一直持續到測驗終止（郭伯臣等人，2012）。目前常用的能力估計法有最大概似估計法（maximum likelihood estimation, MLE）與貝氏估計法（Bayesian procedure）中的期望後驗法（expected a posteriori, EAP）與最大後驗估計法（maximum a posteriori, MAP）。簡述如下： 1. 最大概似估計法（MLE） 最大概似估計值的計算，是以受試者的作答反應組型代入概似函數公式（likelihood function），再將概似函數取對數，用牛頓法（Newton-Raphson）進行迭代，加速找出能使函數最大化的能力值(Birnbaum, 1968)。缺點是在最初幾道試題中，其估計能力不穩定；對於全對或全錯的作答反應組型，會因能力值無法收斂，而難以估計（Wang & Vispoel, 1998）。公式如下：

(40)

  



i Xi i n i X i n P Q X X L u L  



  1 1 ,..., 1   (6) u: 所有作答反應的向量；



X X_n



L ₁_,..., ：概似函數； θ：受試者的真實能力； Xi：受試者在第i題的作答反應； Pi：受試者在第i題的答對機率； Qi：受試者在第i題的答錯機率。 2. 最大後驗估計法（MAP） 以受試者的事前能力分布 f (作為加權值，得到事後機率密度函數，找出能使該事後機率密度函數最大化的程度值即為最大後驗法(Samejima, 1969)。其公式如下：



_{ }

  

U f f U L U f  )   (7) 其中，L

 

U 是受試者θ的概似函數； f(U)是受試者的邊際機率，是由

 

U L f(θ)從-∞~∞積分而得。為了加速找出能使事後機率密度函數最大值， MAP也以牛頓法進行迭代。 3. 期望後驗估計法（EAP）

期望後驗法是將事後機率密度函數期望值當作能力估計值(Bock & Mislevy, 1982)。可用來改良MLE估計法在全對或全錯答題反應時無法估計的缺點。其公式如下：

 





 



     q q q k q q q q q k q q k q q q EAP f U L f U L U f 1 1 1         (8) 其中，u 為所有作答反應的向量，L

 

u_q 為概似函數；θ_q為受試者的真實能力；q是計算能力期望值時所切割的分割點，共有kq點；k愈大，計算愈精確。

(41)

根據洪碧霞、吳裕益、吳鐵雄、陳英豪（1992）比較不同能力估計法的研究顯示，EAP法與MAP法對各種答題反應的受試者皆可進行估計，兩者的估計誤差較MLE小，但易造成迴歸性的偏誤；MLE較無迴歸性的偏誤，但易產生較大的均方根誤（root mean square of error, RMSE）。本研究即採用上述三種估計法來模擬國小英語聽力測驗在CAT 上的成效，並分析三種估計法的估計效能。

四、選題策略

常用的CAT 選題策略為最大訊息法（maximum information strategies）及貝氏選題法（Bayesian strategies）。概述如下： 1. 最大訊息法 最大訊息法是以訊息函數值做為選題依據，在受試者做完該題之後，系統會計算各試題在該受試者能力估計值中的試題訊息量，自動挑選能提供最大訊息量的試題，當作下一個施測的試題。當題目的難度符合受試者的能力時，就能提供較好的測量精確度（余民寧，2009）。試題訊息函數在三參數對數模式(3 PL) 的應用公式如下（Birnbaum, 1968; Lord, 1980）：

 

_

_

_

2

_



_

_



_

_

_

₂ exp 1 exp 1 j j j j j j j j b a b a c c a I            (9) I_j：受試者能力值在第ｊ題的試題訊息函數； ：受試者能力; e：以2.718 為底的指數; a_j：第j 題鑑別度參數; b_j：第j 題難度參數; cj : 第j 題猜測度參數由公式(6)可得知，a, b, c三參數對試題訊息函數的影響為：a值愈大時，b值愈接近θ時，以及c值接近0時，試題訊息量愈大。訊息量最大值所對應的能力水準，即代表該試題所能最精確測量到的能力參數估計值。本研究即採用最大訊息法做為CAT的選題策略。

國小高年級英語聽力線上測驗研發

國立臺中教育大學教育測驗統計研究所碩士論文

指導教授：郭伯臣 博士