要研究、計畫測驗，首先必須界定語言能力的內涵

(1)

2. 文獻探討

「理論指導實務，實務修正理論」(歐陽教 1998)，所以如何看待語言的本質以及如何界定語言能力(language abilities)，決定了語言教學的方式，也形塑了語言測驗的架構和內涵。

本章第 1 節針對語言能力的定義如何影響語言測驗的發展階段進行文獻回顧與討論，最後採用 Backman(1990)的語言能力架構為本文探討測驗法的基礎；第 2 節提出 5C’s 標準，並藉由美國外語教學理事會(ACTFL) 等共同規畫出的外語測驗的架構，闡釋 5C’s 與外語測驗之關係；第 3 節為 Bloom(1956)測驗考察之六個認知層次，作為本文評析測驗法之依據；第 4 節為 Bachman & Palmer (1996)提出評定測驗效用的六大特質，作為第 4 章評析試題效用的參考；第 5 節闡釋語法測驗之必要性；第 6 節為小結。

2.1 語言測驗之形式與發展

語言測驗的形式與內容體現了語言觀。如何看待語言的本質，決定了測驗的內容與方法。隨著語言教學與心理學的發展，不同時期的研究者對於「語言能力」持有不同的看法，這不僅攸關語言教學的方法，同時也決定了語言測驗的方式與內涵。回顧第二語言教學的歷史，從早期的語法翻譯法、聽說教學法到二十世紀七十年代以來的溝通交際法，對於語言能力的探討已由語言本身擴展到語言使用，乃至於語言與認知、社會文化的關連。要研究、計畫測驗，首先必須界定語言能力的內涵。

論及語言能力，有的人會立即聯想到「聽、說、讀、寫」四種技能，

然而這四種技能本身並不是語言能力，它們只是語言輸出或輸入的不同形式而已(崔頌人 1994)。Bachman(1990)也指出，聽、說、讀、寫是構成語言能力要素之一的心理和生理機制；語言能力是一個由多因素組成的複雜能力系統，既非純知識亦非純技能，而是兩者有機的結合。知識的多寡，技能的高低，顯示出人與人之間，或個人母語和外語能力之間的差異。

Fromkin & Rodman(1974)認為精熟語言規則的知識，意即語音、詞彙、

結構、意義以及其所組成的規則，並不等同於擁有良好的語言能力，因為

(2)

語言能力是一個複雜的認知系統。因此，「測驗學習者記誦的語言單位和測驗他們語言使用能力有所區別」(李英哲 1984)。

廣義來說，語言能力是人們在實際生活中以不同的形式(如口頭、書面、靜思、或手語等)使用語言來進行思維或(信息、思想、感情等)交流的能力(崔頌人 1994)。但是對語言測驗而言，這樣的定義卻不免顯得籠統。

由於語言能力本身是一種摸不著、看不到的能力，因此定義起來特別費力，然而卻又是編製語言測驗時必須的工作(柯華葳 2004)。

隨著心理、語言相關研究的發展，語言能力的定義有所不同，測驗的形式與方法也隨之改變。這樣的歷史演變在在凸顯出語言觀與語言測驗之間密不可分的關係。儘管學者們對於語言測驗發展的分類名稱或標準略有不同(McNamara 2000；Purpura 1999；Heaton 1988；劉潤清 1999)，不過主要仍可歸納整理成三大階段(stages)，每一個階段的背後皆有一個語言能力定義作支持，以下將系統性地呈現這三個測驗階段的形式及其語言觀。

2.1.1 語言測驗的三大階段

語言測驗發展的三大階段為：分立式測驗(Discrete-point test)、整合式測驗(Integrated and pragmatic tests)，以及溝通交際式測驗(Communicative language tests)。值得注意的是，這樣的劃分體現語言觀與語言測驗的密切關係，凸顯出不同階段之特點，不同階段之間仍有部分重疊之處，不能截然切割。各個階段皆有其主要的教學觀以及代表性的測驗方式，儘管自七十年代以降溝通交際教學觀愈趨主流，但並不代表先前所發展的測驗方式就毫無價值。

2.1.1.1 分立式測驗(Discrete-point test)

一九六零年代，受到結構語言學 (structural linguistics) 的影響，

「Lado(1961)、Carroll(1961, 1968)等學者主張語言能力可以分解為語言技能（聽、說、讀、寫）和語言成分（語音、語法、詞彙）」(Purpura 1999：

17)，而語言能力的展現即精熟語言的各個成分(McNamara 2000)。於此同時，受到心理學行為主義(Behaviorism)之影響，語言學習被視為獲得操作語言這套符號系統的技能(劉潤清 1999)。於是在兩大主義的激盪下，形成了心理計量-結構主義(Psychometric-Structuralist)測驗。

6

(3)

由於結構語言學首重語法系統、詞彙、語音的知識，因此語言測驗的項目十分龐雜，但是語言測驗所能囊括的項目有限，為了推測受試者的語言能力，非進行抽樣不可；於是反映在測驗上便產生了分立式測驗，其特徵為：

1. 一次只測驗一個結構；

2. 語法、詞彙、語音分開；

3. 以最小文段（大多為單句）呈現試題；

4. 四種語言技能(聽、說、讀、寫)分開測驗。以選擇題(multiple choice) 為代表題型。

縱使分立式測驗能夠有效地提高測驗的信度，卻遭受到不少批評。首先，它太過重視語言的形式系統(formal linguistic system)，切斷文意的脈絡，僅取最小文段（通常是單句）進行測驗，嚴重地忽略語言使用的真實情境。其次，Spolsky(1978)更指出這樣的語言觀忽視了語言本身的諸多特性，如創造性(creativeity)與多餘性(redundancy)。

此外，由於強調測驗項目不超出語言本身，且四種語言技能分離處理，語音、語法、詞彙也分別測驗，往往忽略語境，缺乏真實性，顯得非常不自然且造作。在這些抨擊的聲浪中，整合式測驗於焉誕生。

2.1.1.2 整合式測驗(Integrated and pragmatic tests)

在教學界溝通交際運動(communicative movement)的推波助瀾下，針對分立式測驗之不足，整合式測驗著眼於將意義 (meaning) 與篇章段落 (discourse)結合，以文意完整的文段取代孤立的句子，並且融合語法、詞彙、

語用等語言知識於測驗之中，測驗方式包括口語訪談(oral interview)、全文寫作(whole text writing)與聽寫(dictation)。不過由於這些測驗方式過於昂貴且費時，評分又容易流於主觀以致於信度不高，為求改進，Oller(1979)根

(4)

據他所提出的單一能力假說(Unitary Competence Hypothesis, UCH)¹，主張克漏字測驗(cloze test)是最適切的題型。

克漏字測驗基本上是一種閱讀測驗，要求受試者藉由對篇章段落的理解，補上遺漏的字詞，藉此測得詞彙、語法等能力。儘管克漏字測驗符合人類閱讀認知的習慣，易於設計與計分，解決了種種不經濟的問題，但是因為影響測驗結果的因素太多，如受試者的智商、教育背景、對文章主題 (topic)的熟悉程度、克漏字刪除的字距長度等等，導致測驗結果不可靠 (Hughes 1989)，引發不少爭議。另外，Weir(1990)及 McNamara(2000)都指出克漏字側重語言的接收(receptive)能力，並不能呈現真實的交際，仍舊測不出實際溝通交際的能力。

2.1.2.3 溝通交際式測驗(Communicative language tests)

八十年代隨著語言能力導向教學法(proficiency-oriented instructional approach)的興起，語言教學強調語言的實用性，凸出交際的能力(崔頌人 1994)。社會語言學者認為語言不單是個人內在的能力，而是具有社會交際功能，依賴外在環境使用的工具(McNamara 2000)。

社會語言學家指出，語言的運用涉及一系列社會文化因素，所謂的溝通交際能力，包含了語言能力以及超出語言能力的能力。易言之，語言不僅要用得正確，還得用得得體。李英哲(1984)即指出一個人的語言能力不外乎被動的領會或理解能力以及主動的表達或創作能力；無論是領會或表達，都必須根據特殊的情景，依循特定語文的性質和功能，達到領會或表達的目的，而這個情景是受社會文化條件所限制的。趙金銘等(2004)認為語言交際能力即指運用語言進行交際溝通的能力，語言交際能力的概念源自於交際能力理論，此一理論認為一個人的語言能力就是一種行為處事的能力，即使用語言的能力；它注重語言的恰當性，即語言運用要適合具體的社會交際環境。

隨著語言研究的深入，單一能力假說(UCH)遭到否定，認為交際能力是由多種因素構成的觀點逐漸受到青睞。許多專家學者紛紛開始著手分析

1 人使用語言靠的是單一能力，一種融合語音、語法、詞彙、篇章以及語用知識的能力。這種單

一能力不可劃分為多個因素。

8

(5)

所謂「交際能力」，其中較著名的如Canale和Swain(1980)以及Bachman(1990) 就先後提出了不同的交際能力構成模式²。

由於 Bachman 的交際語言能力(Communicative Language Ability，CLA) 模式充分吸收了晚近語言學與應用語言學研究領域的成果，對交際能力的構成因素之分析更客觀、全面，因此本文採取他所提出的模式，說明如後：

Bachman 的交際語言能力模式將語言能力定義為由語言知能(language competence) 、策略知能 (strategic competence) 和心理生理機制 (psycho-physiological mechanisms)三部分所構成的能力。

1. 語言知能：即指語言知識(language knowledge)，是一個人對語言本身所具備的知識，包括語法知識(grammaticl knowledge)、篇章知識(textual knowledge) 、語用知識 (pragmatic knowledge) 、功能知識 (functional knowledge)等。

2. 策略知能：指使用語言時所運用的後設認知策略³(metacognitive strategies)，包括：(1)對交際情景、目的、對象等各方面情況的評估；

(2)對所要用的語言材料、訊息的計畫；(3)用口頭或書面的形式對交際任務的具體實施。

3. 心理生理機制：指把語言視為一種物理現象（如聲音），運用語言交際時所牽涉到的神經和心理過程。

這些知能與語言使用的情景以及語言使用者內在的知識結構之間的關係如圖 2-1 所示：

2 Canale&Swain (1980)認為交際能力由四個部分組成：語法能力(grammatical competence)、社會語言能力(sociolinguistic competence)、篇章能力(discourse competence)、交際策略能力(strategic competence)。Bachman(1990)根據Canale&Swain (1980)所提出的模式進行修正。

3 Metacognitive strategy亦譯為“元認知”，本文採取的是國內教育心理學的譯名。

(6)

語言知能知識結構

（語言知識）

（世界知識）

策略知能

心理生理機制

語言使用情景

圖 2-1 Bachman 的語言交際能力(CLA)組成模式

人類的語言表達和大腦的認知系統息息相關，個體內在的認知基模 (cognitive schema)、情感基模(affective schema)、語言知識等，無時無刻不對所接收的語言訊息發生影響，個體因而能夠依據情境對所接收的語言訊息進行最合理而適切的理解(Bachman1990)。質言之，語言能力是一個不可分割的整體，進行語言測驗時，受試者不僅僅運用其語言知識，同時也運用各種認知策略和試題進行互動。CLA 模式充分展現了語言、認知與社會文化因素的關連。

由於重視語言的實際運用性，溝通交際式測驗除了大量採用真實材料 (authentic materials)外，也針對考試的目的設計個別的情景，把現實生活中

10

(7)

真實的情境設計成任務(real world tasks)⁴，大大地強化了測驗的效度。它的特點有：

1. 強調測驗內容的真實性，盡可能符合實際語言使用的情境；

2. 以文意完整的文段(context)進行測驗，反對任何脫離上下文的孤句單詞；

3. 具針對性，亦即針對某目的或團體所設計的測驗，不適用於其他測驗目的或受試者；

4. 重視受試者接收(receptive)與產出(productive)的能力。

溝通交際式測驗強調實際運用語言的能力，因此多採取具體行為表現 (performance)的方式來評估受試者之能力，並以等級來區分不同語言程度的學習者所應達成的能力指標。不過由於傾向於以直接的方式測驗，如何形成標準化測驗，仍有待後續的研究與努力。

2.1.2 小結

語言能力是一個複雜的認知系統，人類所展現的語言溝通能力除了涉及語言知識、內在認知系統外，還涉及一系列外在的社會文化因素。語言觀的轉變影響測驗的內容與形式，而測驗又直接為教學帶來影響。語言測驗發展的三個主要階段比較如下：

表 2-1 語言測驗的發展階段

測驗形式年代測驗特點優缺點

分立式測驗 1960 1.一次只測驗一個結構。

2.語法、詞彙、語音分開。

3.以最小文段（多為單句）呈現試題。

4.四種語言技能分開測驗。

優點：有效地提高測驗的信度。

缺點：太過重視語言的形式，

往往忽略語境，缺乏真實性。

4 比方在給醫護人員的語言測驗中，就將醫療診所實際可能發生的情境設計為聽力或口語的考

題。

(8)

整合式測驗 1970 晚期

1.將意義與篇章段落結合，以文意完整的文段取代孤立的句子。

2.融合語法、詞彙、語用等語言知識於測驗之中。

優點：注重意義與形式的結合。

缺點：不易客觀評分，且影響測驗結果的因素太多，致使測驗結果不可靠。側重語言的接收能力，仍舊測不出實際溝通交際的能力。

溝通交際式測驗

1980 1.強調測驗內容的真實性，盡可能符合實際語言使用的情境。

2.以文意完整的文段進行測驗。

3.具針對性。根據目的或測驗對象來設計測驗。

優點：強調實際運用語言的能力，具有針對性，重視接收與產出的能力。

缺點：由於傾向於以直接的方式測驗，如何發展成標準化測驗仍有待研究。

上述三個階段的測驗方式並無絕對的優劣之分，各有見長之處，當然也各有應用上的限制。事實上，根據測驗的種類⁵、目的不同，採用的測驗方式也應當有所差異。在實際的測驗中，為了藉由有效的抽樣來推論受試者的語言能力，往往將測驗劃分為分開的項目，如語法結構、詞彙、閱讀、

寫作等。但儘管如此，語言知識的各組成部分，以及語言知識和策略知能之間密切關連、相互影響的關係，卻是測驗編製者設計試題時所需謹記在心的。因此如何編寫測驗、評估測驗的適用性與優劣，將於第 3 章、第 4 章有所討論。

2.2 5C’s 標準

美國國會把加強學生學習外語的能力列入二十一世紀全國教育目標，隨後結合全美四個主要外語組織⁶，於一九九六年頒佈作為全美K-12

5 語文測驗的種類各學者的認定略有出入，一般可歸納為能力(proficiency)測驗、成就

(achievement)測驗、安置(placement)測驗、診斷(diagnostic)測驗、就業(employment)測驗與性向 (aptitude)測驗。

6 The American Council on the Teaching of Foreign Languages (ATCFL)、The American Association of Teachers of French(AATF)、The American Association of Teachers of Greman(AATG)、The American Association of Teachers of Spanish and Portuguese (AATSP).

12

(9)

各級學校的外語學習標準，鼓勵學生將外語能力變成探索新知的利器，也敦促外語教師在課程設計上，盡可能涵蓋此一學習標準。這個外語學習標準共列舉了五大範疇：溝通 (Communication) 、文化 (Culture) 、聯繫 (Connection)、對照(Comparisons)、社群(Community)，簡稱 5C’s。

溝通：溝通是外語學習的核心，無論透過何種方式為之，都為達成交際目的。包括使用外語取得或交換訊息以及表達情感、通過口語或書面等方式，理解或表達各種主題的訊息、觀念或見解。

文化：藉由學習外語，獲得並瞭解該外語的相關文化內涵，明白外國文化習慣行為、文化觀念之間的關係，以及理解外國文化產品與文化思維之間的關係。唯有理解外語的文化才能真正精通外語。

聯繫：學習外語提供獲得母語文化、群體之外的知識之條件。運用外語強化、擴展不同學科的知識，並且找出只有外語或外語文化中所顯現的獨特觀點。

對照：經由比較以及對比外語與母語，更加深入瞭解語言的本質與文化，因此能以不同的視角看待世界。

社群：使學習者何時何地都具有參與多元語言社群 (multilingual communities)的語言和文化能力，藉由活用外語而延伸生活的觸角，並將外語視為個人終身學習的渠道之一。

測驗是教學重要的一環，教學目標對測驗具有決定性的影響，而測驗結果又會左右教學。5C’s 標準的提出不僅對課程目標起了指導作用，對測驗自然也起了重要影響；如何藉由測驗反映 5C’s 標準於是成為當今外語測驗的關注點。有鑑於此，國家評量管理委員會 (National Assessment Governing Board, NAGB) 通過外語教學的教育提升國家評量 (National Assessment of Educational Progress, NAEP)計畫，由美國外語教學理事會 (ACTFL)、美國研究協會(American Institutes for Research, AIR)、應用語言中心(Center for Applied Linguistics, CAL)、教育測驗服務社(Educational Testing Service, ETS)共同合作，規畫出外語測驗的架構(Phillips 2005)，如圖 2-2：

(10)

圖 2-2 NAEP架構⁷

在這個架構中，我們在溝通的三大模式：人際(interpersonal)、理解 (interpretive)、呈現(presentational)之下評量聽、說、讀、寫四項技能。所謂「人際」是指雙向溝通，例如面對面談話、傳送電子訊息等；「解讀」

是指傳譯書面或口語不同主題的訊息，例如聽廣播、閱讀雜誌等，是單向的溝通；「呈現」是指以口語或書面表達個人的構思、見解與觀念，如演講、撰寫故事等，也屬於單向的溝通。

NAEP 外語測驗架構以實際溝通能力為訴求，反映溝通過程中相互關連的四個目標：文化、聯繫、對照、社群，而最終達成溝通的目的。它的測驗準則不僅涵蓋學習者語言上理解與被理解的程度，也涵蓋了學習者的語言知識、交際策略，以及為促進有效溝通所應用的社會文化知識。這個

7Retrieved from the Center for Applied Linguistics. Website:<http://www.cal.org/flnaep/review.html>

14

(11)

測驗架構正好呼應了 Bachman 的交際語言能力模式(CLA)，同時也清楚地呈現出語言、認知與社會文化的關係，對語言測驗具有指導性的作用。

2.3 測驗考察的認知層次

一九五零年前後，關於教育分類的構想引起學界的興趣與討論，既然教育學家與心理學家都關注學習的歷程、方法與效果，就應有「類別」來指導教育目標的擬定以及測驗的設計。於是在 Bloom 等人的努力之下，於一九五六年出版了《教育目標分類》一書，把學習按照「教育-邏輯-心理」

的系統加以分類，對往後的教學及測驗都極具意義，是教師教學與評量常引用的系統。

學習共分為三大領域：認知(the cognitive domain)、情意(the affective domain)和技能(the psychomotor domain)。所謂認知領域，包括任何與知識、

智力發展相關的目標與技能，是測驗、課程發展所關注的焦點。情意領域則包括與興趣、態度、價值觀等相關的目標，是最難以觀察與分類的領域。

而技能領域則指與能力相關，操作性強的目標，比方游泳技能的習得，或者熟練某個詞彙的正確發音等。每個領域之下又劃分為若干次類，依照簡單到複雜，容易到困難的順序劃分。由於本文的題目是測驗，因此僅就和測驗最相關的認知領域進行討論。

認知領域下的六個分類層次依由簡趨繁、由易到難的順序為知識、理解、應用、分析、綜合、評鑑，如圖 2-3 所示：

(12)

評鑑

綜合

分析

應用

理解

知識

圖 2-3 認知領域層次

在這個金字塔圖中，上一個層次必然涵蓋下方層次之能力，層次越高複雜性也就越高。六個層次依序說明如下⁸：

2.3.1 知識(knowledge)

強調對於學習材料之內容及特定要素的回憶與再認，為了避免與機械性地存取無意義資料的能力「記憶」有所區別，因此以「知識」名之，是一切較高認知層次的基礎。是以雖然其他認知層次或多或少都會運用「知識」，然而在此一層次的試題中，測驗主要的考察對象是記憶。

「知識」包含對特定事物的知識(knowledge of specifics)、對處理特定事物的方法和工具的知識(knowledge of ways and means of dealing with specifics)，以及對某一領域的普遍和抽象的知識(knowledge of the universals and abstractions in a field)。在試題的設計上，試題不但內容非常接近先前

8 本節翻譯並摘要自Bloom.ed.(1956)一書，中文譯名乃參考自歐滄和(2002)第二章。

16

(13)

學習的材料，且題目中不採用學習材料以外的新術語或新情境。例如漢語中名量詞的搭配測驗，儘管量詞對許多漢語學習者而言是難點，這種試題雖然反映了兩個語言之間形式上的差異，但所測驗的重點偏重語言知識，

考察的認知層次是比較低的，做為測驗題並不總是理想，除非考察的重點是漢字或名量詞搭配的記憶。

2.3.2 理解(comprehension)

指個人藉著思考歷程把得到的訊息轉換成更具有意義的形式，甚至超出原有的意義之外。理解和知識層次的不同之處在於理解強調對新資料的處理，而不能完全依賴記憶。記憶是被動地接收、儲存外界的訊息，理解則是將新訊息與既有的知識、經驗結合，產生有意義的連結。

理解含括翻譯 (translation) 、解釋 (interpretation) 以及外推 (extrapolation)。所謂翻譯是指把訊息從一種形式或符號轉換為另一種形式或符號；解釋是指把訊息做進一步的說明或摘要；而外推則除了要能正確地解釋訊息之外，還要能根據訊息進而預測或推估可能的結果。

2.3.3 應用(application)

指個人在新情境或者相似但不熟悉的情境中應用已知的原理、通則。

應用和理解的不同，理解某個原理或通則，並不代表能夠在適當的情境中運用該原理或通則。理解通常是個人瞭解某個原理後，依照指示解決問題，而應用則是在未有指示的情況下，根據既有的知識自行解決問題，意即「應用」就是舉一反三的能力。

由於「應用」的情境多是特定而具體的，要求受試者運用抽象的知識以解決問題，因此特別適用於實作評量。有些以「功能」為主的華語教材，

課後活動便是和該課相關的任務式活動，或者稱作語言實踐，這就是一種應用。

2.3.4 分析(analysis)

分析是指把一個整體的材料分解成部分，使得各個組成部分的相對關係更清楚。它和理解的不同之處在於理解主要處理材料的內容(content of a

(14)

material)而分析則除了處理內容之外，同時也關注形式(form)；能夠理解不一定會分析，而分析是協助深入理解事物的手段。

分析包括對要素、關係(因果、前後順序)、組織原理之分析。分析的材料必須盡量是新穎的，如此才能免去受過去學習與記憶的影響；分析的試題多半為最佳答案，以期受試者能夠自由表達個人的見解。值此之故，

申論為分析層次的比較常見的試題，然而為了節約時間，閱讀之後的問答題或題算是一種改良的形式，但是選項必須經過細心的設計才具有誘答力。

2.3.5 綜合(synthesis)

綜合是指把部分組織為有意義的整體，雖是受試者最能發揮創造力的層次，但在一般情況下，並非完全自由的創作。儘管綜合要求受試者必須具備知識、理解、應用、分析等能力，且最能激發個人的創造性思考，顯示作品的獨特性，然而卻也因此遭遇到幾點困難。

首先，評分不易，由於缺乏客觀的評判標準，易流於主觀，所以最好由多人從多個角度加以評分；第二，抽樣可能不公，因為往往只藉由一件作品對受試者的能力進行判斷；第三，綜合層次的試題多傾向於創造性任務(creative work)，實行起來費時費力。於是，基於上述種種考量，發展出間接的測驗方式，例如要求受試者在閱讀完多個句子後，將句子組成文意連貫的段落，或把分散的段落組成篇章。其他題型尚有以口語或寫作的方式完成故事、引導寫作等等。

2.3.6 評鑑(evaluation)

評鑑是指為了某個目的，使用一套標準對不同的觀念、作品、方法等的價值進行判斷。其和理解的不同在於評鑑必須憑藉一套外在的標準，而非僅僅依據個人主觀的判斷或情感好惡作判斷。

評鑑是認知層次中最高者，它包含了多項認知能力，因為在評鑑的過程中，個人必須選擇評判的標準、分析與比較多個事物，最後再以評論性的敘述把過程與結果表達出來。例如閱讀一篇文章後，選出合適的結論，

並闡述其理由。和綜合層次的試題一樣，評鑑層次的試題也多以申論的形

18

(15)

式出現，不過礙於篇幅、時間以及測驗的經濟性、可行性，也有以選擇題為形式的試題。

2.3.7 小結

本節介紹了知識、理解、應用、分析、綜合、評鑑，六個認知領域的不同層次。但是「語言測驗中的試題究竟屬於哪個層次，不能單憑題型來劃分，必須具體問題具體分析」(高蘭生、陳輝岳 1991)。不過可以確定的是隨著語言能力的提升，測驗題的考察層次也應越往認知層次的高層拔升，亦即越趨於全面而綜合的能力。關於六個認知層次的漢語測驗範例將於第 4 章第 2 節列舉，並據以進行比較。

除了測驗所考察的認知層次可作為評估測驗法的根據之外，試題本身的質量也是評鑑其效用(usefulness)的參考指標。

2.4 語言測驗的質量

Bachman & Palmer (1996) 認為語言測驗的首要質量即為效用 (usefulness)⁹。「效用」可幫助我們評鑑語言測驗本身以及使用上的優缺。

但哪些條件構成一個測驗的效用呢？他們提出了六項構成「效用」的特質：信度(reliability)、結構效度(construct validity)、真實性(authenticity)、

互動性(interactiveness)、影響力(impact)，以及實際性(practicality)。雖然有人曾經質疑這六大特質會有所抵觸，譬如兼顧真實性即會減低信度，

Hughes(1989)卻提出較中肯而合理的主張，認為儘管測驗編製者對這些不同的特質難免會顧此失彼，但這並不構成放棄任一項特質的理由。

「效用」的理念如下圖所示：

效用＝信度＋結構效度＋真實性＋互動性＋影響力＋實際性圖 2-4 語言測驗之效用

2.4.1 信度(reliability)

9本節翻譯並摘要自Bachman&Palmer(1996), 17-42 頁，文中專有名詞之譯名為筆者自撰。圖 2-4 至圖 2-7 也皆取自於原書。

(16)

信度指的是測驗的一致性(consistency)。它是反映測驗結果受到隨機誤差影響程度的指標，是評價測驗質量的最基本指標（謝小慶 2005:152）。

信度是效度的必要條件，一個測驗缺乏信度，就無效度可言。

2.4.2 結構效度(construct validity)

效度是指對測驗分數所做的推論在恰當、有意義以及有實際使用價值幾個方面的程度，意即測驗在多大程度上測量了它應該測量的東西。結構效度就是「某個測驗可以說是測量了某種理論結構或理論特質的程度」（陳宏 2005:102）。易言之，在解釋測驗分數時，我們必須提出充分的證據來說明測驗反映了根據理論假定欲測量的東西，因此證明測驗的有效性。

2.4.3 真實性(authenticity)

真實性是語言測驗中測驗題與目標語使用(TLU, Target Language Use) 任務之間的相應程度。換句話說，就是「測驗要盡可能地貼近非測驗環境下的語言交際活動」（陳宏 2005:110）。它們的關係如圖 2-5 所示：

TLU 任務的真實性測驗題的

特性特性

圖 2-5 真實性

真實性之所以為語言測驗的重要特質，理由有二：1.由於測驗題和目標語使用之間具有相應關係，我們可以藉由測驗結果可靠地推論受試者在真實語言使用情境中的表現。例如閱讀測驗中我們以租屋廣告作為試題，

就是基於受試者在真實生活中可能經常接觸這類題材的考量；又或者真實情況中需要受試者參與對話，那麼測驗的設計就會以對話的形式來呈現。

2.真實性對受試者具有潛在的影響，它能夠幫助受試者更容易理解題意，

進而提升他們的表現。

我們發現真實性除了應用在測驗方面外，也和語言教學上所提倡的溝通式教學(communicative)或任務式教學(task-based)相呼應。

2.4.4 互動性(interactiveness)

20

(17)

互動性是指受試者在進行測驗的過程中，個人投入的程度和類別。這裡所謂的「投入」和語言測驗最相關的就是受試者的語言能力，包括語言知識、策略知能或後設認知知能、世界知識，以及情感基模。任何語言測驗題無不或多或少地牽涉受試者這些能力，示意如下：

語言能力

(語言知識、策略知能)

情感基模世界知識

語言測驗題的特性

圖 2-6 互動性

任一測驗題都具有互動性，而在測驗的過程中，受試者隨時都在和測驗題進行互動，例如直接閱讀題目或短文、將圖表訊息轉換為文字或將文字訊息轉換為圖表、進行簡單的數學運算等等。值得注意的是，唯有當測驗題涉及語言知識時，我們才能藉由測驗推論受試者的語言能力。

2.4.5 影響力(impact)

測驗的影響力小至於個人，大至於教育制度，甚至於社會。當我們編製或使用測驗時，必須時時思索測驗所可能產生的影響。Hughes指出回沖效應(washback)即「測驗對教與學的影響」¹⁰(1989:1)，並且主張測驗之於教學的影響可以是助力也可以是阻力。教學和測驗息息相關，如何教學就應如何測驗，不過測驗的內容與方式也同樣地影響學生的學習方式，以及教師的教學。

2.4.6 實際性(practicality)

10 The effect of testing on teaching and learning.

(18)

實際性和上述五項特質較不同。前五項特質都和測驗題本身或測驗分數的解釋相關，而實際性則指在客觀條件下測驗的可行性。實際性可以由圖 2-7 來表示：

可用資源需要資源實際性＝

圖 2-7 實際性

資源包含測驗編製與實施的所有人力、物力資源，以及時間。愈能整合現有資源所發展、實行的測驗，它的實際性就愈高。

2.4.7 小結

「效用」是語言測驗的首要質量，它的六個構成特質為信度、結構效度、真實性、互動性、影響力，以及實際性，缺一不可。這六項特質中，

除了信度和效度是測驗所獨具之外，其餘四項也適用於語言教學。

一個語言測驗的「效用」不能僅賴一、兩個特質來論定，而必須綜合各項特質以評估。但信度和效度有賴科學公式對測驗整體進行檢驗，而實際性屬於測驗編製過程的問題，這三項和本文所探討的測驗法相關程度較低，因此不擬撰文討論。真實性、互動性則將在第 4 章用來進一步說明測驗法的效用。至於影響力，有句俗話說「考試是教學的指揮棒」，就是測驗影響教學的證明。當然我們不希望測驗指揮教學，但若能藉由活潑、注重交際功能的測驗來帶給仍關注結構、翻譯的語言教學一些省思和衝擊，

也未嘗不是一件好事。

2.5 語法測驗的必要性

研究語言的構成時，研究者通常將語言成分定義為語音、詞彙、語法和語用四部分。語法是語言能力的核心，語法測驗的存在一度是無庸置疑的；然而，隨著語言觀與教學法的轉變，語法測驗的地位受到動搖。

承本章第 1 節的討論，精熟語言的各組成部分（語法、詞彙、語音）

並不等同於具有運用語言的能力。而且，語法測驗將鼓勵教師強調語法/

句型結構的教學，以致於可能產生忽略語境以及相應語言功能等不良影響

22

(19)

（Hughes 1989）。崔頌人(1994)也說「學者如 Higgs & Clifford(1982)就曾經批評過那些『打著交際能力旗號的人』，指責他們忽視語言使用的準確性，

只滿足於表面化的流利和低層次的、簡單的交流」。

掌握了語言知識可以獲得局部的交際能力，但並不等於獲得了真正的語言交際能力，能夠準確、恰當地運用語言；相反的，能夠流利地運用語言，卻不掌握足夠的語言知識，也會影響更高層次的語言運用，不能夠完整地獲得語言交際能力。倘若語言測驗僅著眼於溝通交際能力而無視於語言的正確性(accuracy)，勢必鼓勵學習者為達溝通目的而不擇「語言」

(Hammerly 1982)。由此可見強調語言的功能(function)的同時，形式(form) 亦不容偏廢。

語言的功能與形式的確應該兼顧，但是語法有無測驗的必要？首先，

以教學的角度而言，語法教學無庸置疑地在第二語言教學中佔有相當重要的地位，李泉(2003)就指出常規的第二語言教學都將語法教學視為必須，

學習語法對學習一種語言作用是很大的，因為無論是學習還是習得一種語言，都是以掌握該語言的結構規律和表達規律為目的和標誌。陸儉明(1999) 也指出語法教學的重要性，認為語法教學可以使學生能準確地理解、表達並盡量減少無論是口頭抑或書面表達中的語法錯誤。因此，既然測驗的主要目的是評量教學的內容與成效，語法測驗就有了存在的理由。

可是語法應否獨立被測驗？ Heaton(1988) 認為儘管任務式測驗 (task-based tests)有助於我們推論受試者在實際生活中運用語言的能力，其結果卻無法用來推論該名受試者在其他方面的語言能力，例如我們不能用某人填寫申請表時所展現的語言能力推論其書寫商業信函的能力。不過，

如果測驗受試者對語言本身（詞彙、語法等）的精熟度，我們則較能依據測驗的結果推論他的一般性的語言能力。跟閱讀或寫作測驗相比，語法測驗能更直接且有系統地診察出學習的難點與錯誤¹¹。就教學而言，教師因

11 It is more difficult to use a skills test it is more difficult to use a skills test such as a reading test or test of free writing to determine problem areas in a systematic way…Certain tests of grammar are reasonably straightforward for use in diagnosing students' difficulties.

(20)

此能施行強化或補救教學，而就其他測驗目的而言，也才能依此區分程度，進而分級。

Hughes(1989)也指出語法測驗具有兩大優勢：經濟與效度。語法測驗可以在短時間內測得大量的語法知識，既易於施行又方便計分；此外，倘若我們欲藉寫作這種直接測驗的方式來推論受試者寫的能力，便不得不受於題目、文體、迴避(avoidance)、主觀評分等因素之限制。儘管語法測驗也會面臨取樣是否具有代表性的疑慮，但權衡之後，仍利多於弊。

筆者十分認同 Heaton(1988)與 Hughes(1989)的看法，因為即使能力測驗是否應包含獨立的語法/結構項目仍有爭議，但對成就測驗(achievement test)、安置測驗(placement test)以及診斷測驗(diagnostic test)而言，語法測驗卻不失其獨立存在的價值與優點。略觀現今世界上知名的語言測驗，如托福(Test of English as a Foreign Language, TOEFL)、多益（Test of English for International Communication, TOEIC)等等，我們也不難發現大多數大規模標準化語言測驗都保留了語法/結構的項目。

語法能否獨立地測驗，特別是語言測驗是否應該涵蓋語法結構，未有定論（Hughes 1989）。儘管學者們持有不同的意見，事實是幾乎所有的華語文能力測驗都包含語法/結構項目，只是有的將之列入閱讀理解之內（張莉萍 2002），而教學上經常實施的隨堂測驗或成就測驗更是免不了語法結構項目，語法測驗在語言測驗中的重要性可見一斑。

2.6 小結

本章首先闡釋語言觀與測驗形式之間的緊密關係，概述自近代語言測驗發展初期至晚近以溝通交際為導向的語言測驗形式，儘管測驗的形式有所改變，無論是分立式、整合式或溝通交際式測驗皆有其擅長之處，應依測驗的目的靈活安排運用。其次就外語教學課程設計的 5C’s 標準結合溝通的三大模式、語言的四項技能，提出 NAEP 外語測驗的理想架構，主張外語測驗的編製應以溝通為核心，結合 5C’s 標準，透過不同的語言技能為之。第三根據教育領域對於認知能力之研究，簡介測驗考察的認知層次，

以作為語法測驗法的評判依據之一；第四列舉語言測驗效用之六個特質，

24

(21)

藉以作為評鑑試題效用大小之參考指標；最後確立語法測驗的重要性，強調語法在教學與測驗中必要地位。

以往語法測驗不是按照試題形式，如選擇、挑錯、組詞成句等分類，

就是按照測驗的管道：聽、說、讀、寫分類；本文第 3 章將依據 Teng(2000) 有關語法測驗的論述，擴展並提出著眼於測驗方法的分類方法。