英語能力測驗難度的控管－以臺師大英語會考為例

(1)

∞II: 1O.6249/SE.2015.66. 1.07 收稿日期: 2014nll 修訂日期: 20l 4nl3l 接受日期:

2014/8/4

英語能力測驗難度的控管

以臺師大英語會考為例

陳秋梅*

講師

團立臺灣師範大學英語學系

摘要

本研究分為二大目的，目的一:呈現本人近年來對難度變數的研究發現;

目的二:與有志於撰寫能力測驗者分享本人多年實務經驗的心得，希望藉此協

助他們控管試題的品質。其實要控制試題難度並不是一件容易的事，因為難度並不是一個不變的定數，它會隨著考生的程度、考試的情境以及試題本身的種種因素而改變，命題者需要累積許多經驗才能正確地判斷變數運作的方向和力道。本研究的資料取自臺師大三年的英語會考試題，考生為非英語系的大一新

生，程度從高級到初級皆有，共超過 2700 人，試題共 285 題，經統計考驗，試

題信度都超過 O. 82 。研究步驟首先透過文獻探討，列出常見會影響閱讀測驗和聽力測驗通過率的變數。接著把所有試題按照通過率高低排列，逐一列舉並審視每一題牽涉到的變數的種類和數目，結果發現了以下的趨勢一一試題包含的難度變數愈多，難度就愈高。但其中有一些例外，本研究也進一步檢視並分析其原因。最後，根據分析的結果，提出一些命題原則和步驟，同時還設計出一份可以粗略計算難度的表格，供命題者參考。關鍵詞:能力測驗、試題難度/通過率、難易度變數、鑑另 IJ 度本篇論文通訊作者:陳秋梅，通訊方式:

t22040

IlU

ntnu.edu.tw

。

(2)

英語能力測驗難度的控管一一以薑師大英語會考為例

How

10Con 甘01

the Level of Difficulty of an English Proficiency Test

DOl : 1O

.6249/SE.2015.66.

1.

07 Manuscript received: lull

,

2014 Modified:

luI 訓， 2014 Accep關:

Aug4. 2014

How to Control the Level of Difficulty of an

English Proficiency Test

Chiou-Mei Chen Lecturer

Department of English

,

National Taiwan

ofmal University

Abstract

For many test writers

,

it is common sense that the level of difficulty must be

appropriate in order to discriminate test takers of different English levels. However

,

to know is one thing

,

and to do is anothe

r.

According to my past experience as a

test reviewer

,

quite a few test writers failed to put their testing knowledge into real

practice

,

so the items they wrote were not good enough in terms of either facility

or discriminability.

In

response to this gap

,

this study is intended to explore how to

well control the facility value of a tes

t.

In my opinion

,

the failure of the test writers

to control the level of difficulty can be largely attributed to a misconception

,

i.e.

th

.0'

regard it as something static rather than dynamic. In fact

,

the reverse is true.

Th

e facility value always varies with a lot of factors

,

such as the test taker's English

competence

,

the testing environment and condition

,

and a variety of variables that are

involved with the test itsel

f.

Therefore test writers need much experience so that they

can correctly judge which variables will be active enough to affect the test result

,

while others will no

t.

The data for this study comprise 3 English proficiency tests

administered to all the non-English-major freshmen of

NTNU

from

2003

to

2005.

The 3 tests are all statistically proved to be reliable. There are altogether

285 items

and over

2700

subjects with

di旺erent

levels of English abilities. To begin with

,

this

study lists all the relevant variables of facility/difficulty through literature survey.

(3)

,

all the items are arranged in order of their facility values

,

and each of them

is scrutinized to see what variables of facility or difficulty are involved

,

how these

variables interact with each other

,

and if there is any hierarchical relationship among

the variables. A general tendency for predicting the facility value is found. Finally

,

some specific guidelines are proposed based on the result of the analysis. Besides

,

a

table listing all the relevant variables of facility / difficulty is provided for test writers

to code or measure the level of difficulty.

keywords: proficiency test

,

facility value

,

level of

di且culty，

variables of difficulty

,

variables of facility

,

discrirninability

(4)

英語能力測驗難度的控管一一以薑師大英語會考為例 How to Control the Level of Difficulty of an English Proficiency Test

壹、導論

一般命題者皆知能力測驗的難度要適中，才能有效地鑑別不同程度的考

生;但知易行難，根據本人多年經驗發

現，不少命題者雖有滿腹專業知識，卻不盡能將這些知識落實，以致設計的試題在難度或鑑別度方面皆未臻理想。有鑑於此，本研究旨在與有志於編寫能力

測驗者分享本人多年實務經驗的心得，

希望能幫助他們控管試題的品質。其實，試題難度之所以難以管控主要是因為它會隨著考生的程度、考試的情境、以及試題本身的種種變數而上下浮動，它並不是一個不變的定數，因此命題者需要經驗才能正確判定在什麼情況下，那些變數會運作並顯著地影響考試結果，而那些變數作用不大可以略過。本研究首先選取臺師大三年的英語會考試題，觀察並分析其命題設計以及考試結果，然後把所有試題按照通過率高低排

序〉逐一條列並審視每一題牽涉到的變

數的種類和數目，試圖找出背後有沒有規則管控變數的運作。分析結果發現了一個大致的趨勢一一一試題中所含的難度變數愈多，通過率就愈低。但其中不乏一些非典型的案例，本研究也一併探究其原因。最後，根據分析的結果，提出一些命題原則和步驟，供命題者參考，以利控管試題的難度。

貳、文獻探討

根據 (Drum

et ai

,

1981; Pollitt et ai

,

1985; Davey.

1988) 以及Freedle

& Kostin

(1991 ; 1992 ;

1993) 一系列對托福閱

讀測驗的研究發現，以下的變數可以影響閱讀測驗的難易度，這些變數包括:

一、否定詞: (女Dno，

none

,

never 及否定前綴也possible ，旦旦sure ， irregular和

否定後綴 value垣星星)。否定詞素越

多，不管是出現在文章、題幹、或

選項中，試題的難度都會增加。

二、指稱詞:

(referentials)

Abrahamsen & Shelton

(1989) 的實

驗發現把文章裡所有的指稱詞以完

整的全稱取代後，理解的程度有明顯的改善。 Freedle

&

Kostin的研究

指出文章中指稱詞的數目越少，試題就越容易。

二、線索的多寡和出現的位置:根據

Abraham & Chapelle

(1992) 的

研究，線索的多寡 (the

amount

of

information) 以及前後文所提

供線索的位置 (location

of context

clues)

，都會影響題目的難易度。

Hare

et of.

(1989) 的研究也指出，重要訊息若出現在段落剛開始或要結束的位置時，較容易理解;若出現在中間的位置則讀者較不容易辨

(5)

認出來。 Bhasin (1990) 針對精通西班牙語和英語的雙語者所進行的研究發現，受試者在圈選閱讀測驗答案時，傾向在文章一開始的位置去尋找線索。四、詞彙重複與否 (lexical

overlap)

Freedle & Kostin

(1993) 發現許多

考生喜歡圈選和本文或題幹詞彙重複的選工頁。因此，如果正答與選文或題幹中詞彙有重複情形時，試題的難度就會降低。五、單字、句子、和段落的長度:單字越長或越不常見、句子越長、句型越複雜，則閱讀理解的難度就越高。六、文章的主題(

subject

matter) 、長度以及抽象的程度: Freedle和 Kostin

( 1993

)發現人文主題與社會科學方面的文章相比，前者的難度較低。此外，文章越長、內容越抽象，閱讀理解就越困難。至於影響聽力理解的變數較具代表性的研究有Freedle

& Kostin (1996 ;

1999

)以及Nissan

et al.

(1996)

0

Freedle

&

Kostin (1996 ;

1999) 把托福的試題分三類1.辨認主旨大意題。 2. 理解明確說出的訊息題。 3.推論題，並逐項探討影響試題難度的變數，其中已被證實其有影響力的變數包括: (一)詞彙重複 (lexical

overlap)

:正答中的詞彙若與題幹裡的詞彙有重複情形時，則難度較低。但若重複的詞彙出現在誘答中，則難度升高。 (二)修辭結構 (rhetorical

structure)

題幹的修辭結構若屬「問題一一解決之道」或「比較」類型者，難度較高。 (三)指稱詞:聽解問題中指稱詞的數目越多，試題就越難。 (四)主題:若是非學術性的就比較容易。在推論題中，若主題屬藝術或社會科學領域，試題較容易。 (五)主題轉換 (topic

shift)

:題幹中出現越多的主題轉換，試題就越容易。 (六)重要訊息重複:可降低試題難度。 (t) 線索的多寡和出現的位置:重要訊息若出現在剛開始或要結束的位置時，試題比較容易;若出現在中間的位置，則聽者較不容易辨認出來。 (八)否定 (negation) :否定詞素越多，試題就越難。 (九〉加強語氣詞:越多會使吉談內容越容易記得，試題難度就會降低。另外在Nissan

et al.

(1996) 中發現的變數有:

(6)

英語能力測驗難度的控管一一以薑師大英語會考為例

How to Control the Level ofDifficulty ofan English

Pro自ciency

Test

(一)試題中有越不常見的詞彙，難度就越高。 (二)試題中的訊息若是隱含的而不是明白說出時 (explicit) ，難度就越高。 (三)對話以直述句( statement) 結束會比以疑問句結束難。國內針對聽力測驗難易度的實證研究還有鄧慧君 (1998) 以及語言訓練測驗中心(

1999 ;

2000) 。鄧慧君 (1998) 的研究發現聽解內容的文類

(text

type) 和口語忱的程度(

orality)

對本國考生的聽力測驗表現有明顯的影響。而語盲訓練測驗中心(1999

;

2000) 的研究發現影響第一部份(問答)的變數有: (一)慣用語理解程度; (二)題幹之句型結構:考生對不同句型如 wh-Q ，

yes-no

Q 和直述句的掌握程度; (三)題幹與選項之詞彙重複比例; (四)關鍵詞和選項是否屬相同的語意類別 (semantic field，如 dentist) 。影響第二部分(簡短對話)和第三部份(簡短談話)的變數有: (一)主題與情境:考生最能掌握日常和學校生活會話，對於與工作場合相關的題材則稍感困難，至於學術性或較抽象的題材則最為困難。這可能與其用字遣詞較為正式以及對話中蘊含的訊息量較大有關; (二)正答的訊息在對話中呈現的方式:完全重複最為容易。若以相關單字重現，則僅對高分組答對率有正面幫助。這個發現與Chiang

& Dunkel ( 1992

)的研究以及Chen

(2005a) 發現一致; (三)談話的文

類和口語他程度:根據Shohamy

&

lnbar

( 1991)

，越口語忱的文類(如對話) 訊息重複比例越高、冗言和停頓越多，句子結構通常較簡單、也含有較多的俗語( colloquialism) 。較不口語化的文類 (如新聞報導)則相反。因此，越不口語忱的文類，就越難理解。

琴、研究方法

以上各式各樣的變數在實際的測驗中，是否每一個變數只要一出現，就會達到預期的效果?假如和其他的變數連袂出現，會發揮相加、相乘、或互相抵銷的哪一種結果呢?換吉之，我們想要探究的是這些難度變數是否都有同等份量的效果?當它們同時出現時，會有什麼樣的互動結果?彼此間有沒有上下階層或隸屬的關條?有沒有其他因素需要

納人考量?

為了探索這些答案，我們需要的研究資料必須是一個實際的能力測驗，具備信度和效度，而且越大型越好。本研究因此鎖定臺師大的英語會考為分析對象。臺師大的英語會考(包含聽力測驗

(7)

和閱讀測驗兩部分〉已進行多年，參與

本研究的受試者共超過 2700人，每一年

試題的信度皆高於 0.82 '也能很穩定地鑑別不同程度的考生(請參見表Lf日表 2

及 Chen (2006 ' 2009) ) ，不同年度的

考生在定錯題上的通過率( F!) 和鑑別度 (D!) 都很接近，而且在非定錯題和定錯題之間的表現，經統計考驗，並無顯著差異;總而言芝，本研究所分析的是一份大型且真有信度和效度的能力測驗。分析方法是把每一題所含的難易度變數全部條列出來，再將所有試題按照通過率高低排序，深人探討最難的試題為何最難，最容易的試題又為何最為容

易。

Table 1: Reliability of the 3 Tests and Average Facility Index (FI) and Discrimination Index

(DI) of

An

chor Items

LT 1

LT2

LT3

RT 1

RT2

RT3

Cronbach's

0.85

0.82

0.86 Alpha

FI

0.609

0.589

0.571

0.540

0.538

0.561 DI

0 .4

35

0 .4

64

0 .4

28

0 .4

06

0.397

0.377 *LT

I

means the first listening test; RT

I

means the fil·st reading tes

t.

*Facility index (FT) is calculated by counting how many of the test population responded correctly to the item and

divided by the total number of candidates. Thus if in a sample of 60 candidates

,

43 responded

correct旬"

then the

item has a facility index of

43/60

= 0.72.

*Discrimination index (DT) is calculated as follows: DT= (t-b)

1 N

,

where t = number of con·ect responses in the

top 27% group

,

b = number of

corr巴ct

responses in tbe bottom 27% group

,

N = number of candidates in one

of the groups. For example

,

if 60 candidates take a test

,

after arranging them in rank order we take tbe top and

bottom 27% which works out at 16 in each group. The number of correct responses in the top and bottom groups

is 9 and 4 respectively. Then DI = (9-4)

116 = 0

.3

1. The item is a moderate discriminator

Table 2: Descriptive Statistics of the Examinees' Performance in the 3 Tests

LT 1

LT2

LT3

RT 1

RT2

RT3

No. of

478

696 1523

478

696 1523

examwees

Range

26-100

28-100

0-96

8-96

6-96

_。-94

SD

13.78

14.81

17.17

15.31

15.19

16.89 *SD = standard deviation

(8)

肆、分析結果

在進人試題本身的分析之前，我們必須先排除試題以外可以左右試題難度的因素。首先是考生的程度。以下的字

彙題 A (根據大考中心的詞彙分級屬於

第二級的單字)對國中升高中的考生而吉，是個很有鑑別度的好試題，但若是拿來考英語系學生，恐怕就失之過易、毫無鑑別力可言。同樣地，字彙題B對於高中升大學的考生而言(根據大考中心的詞彙分級屬於第六級的單字) ，可能是個良好的試題，但若拿來考國中生，則失之過難。句型也是一樣的道理。以下的句型結構C和D對於國中生而吉，可能會因為過於複雜而失去鑑別力。

A. Blow off

the 豆豆且且垣呈 on

the birthday

cake.

(l

evel 2)

B. Nearly 60% of infection in Asia cannot

be treated with standard antibiotics

because 旦旦盟立金 use

of these drugs has

~esulted

in resistant bacteria.

(l

evel 6)

C. What was revealed in the study was that

且也且lei whose happiness depended on I

Isuch thingsl were looking in the wrong

凶盤盤 Ibecause happiness comes froml

區區(compoundcomplex 間的叫

D.

Jo恤l'S

protest against the decision by all

his classmates was unwise. As a result

,

英語能力測驗難度的控管一一以臺師大英語會考為例

How

toCon 甘01

the Level of Difficulty of an English Proficiency Test

his bein

l!

excluded from all classroom

activities was only to be expected.

(nominalization)

因此命題者首要之務即能精確地界定大多數考生的程度，什麼樣的詞頻和句法結構對他們而盲是困難的?什麼樣的情境和主題對他們是陌生而難以體會的?唯有如此，才能設計出難度適中的考題。但這種拿捏，其實需要經驗的累積，大考中心或Collins Cobuild的詞彙分級可提供命題者相當具體的幫助。一般的國中畢業生具備的詞彙才約兩三千字，就不宜考大考中心四級以上的單

字。

不只考生的程度會影響通過率，題型 (test tasks) 也會。一個會顯著影響閱讀測驗的變數並不一定會顯著影響聽力測驗。一個會顯著影響字彙測驗的變數也不一定會顯著影響閱讀理解。在

Chen

(2005b) 的研究中，特意將試題中某一題否定疑問改為肯定直述，選項不變，給相同的考生測試，結果通過率從

0.427降至0.354 '經 x

2

_{考驗，有顯著差異}

(p<O. 01

) 。但另一題將正答的否定疑問一樣改為肯定直述，給相同的考生測試，結果通過率從 0.636 上升至 0.806 '經

x

2

考驗，也有顯著差異 (p<O.O J) 。在

相同的聽力測驗中，否定詞的影響並未顯現一致的方向。

(9)

Table 3: Average FI and 01 ofNegations vs. Non-Negations

Listening Tests ( FI= 0.618)

Reading Tests ( FI=0.554)

Negations

Non-negations

Negations

Non-negations

No.ofitems

12

123

13

137 FI

0.626

•

0.617

0.531

•

0 .5

61 DI

0.352

0.385

0 .4

01

0.350 In

creased

di伍culty

No

Yes

Table 4: Average FI and 01 ofLong Text vs. Short Text in the Proficiency Tests

Listening Tests (FI= 0.618)

Reading Tests ( FI=0.554)

Part I (short)

Part III

(l

ong)

Part I (short)

Part III

(l

ong)

First Test

0.620

0.644

•

0.514

0.336

• Second Test

0.583

0.619

•

0.640

0.621

• Third Test

0 .4

77

0 .4

89

•

0.515

0.563

• Average FI

0.560

0.584

•

0.556

0.506

• Average DI

0.397

0.368

0.343

0.372 Increased difficulty

No

Yes

Table 5: Average FI and 01 ofthe Inference

It

ems vs. Non-Inference

It

ems

Listening Tests ( FI= 0.618)

Reading Tests ( FI= 0.554)

inference items

non-inference

In

ference items

non-inference

No.ofitems

49-

86

17

43 FI

0.635

•

0.600

0 .4

13*

•

0.593 DI

0 .4

02

•

0.367

0.350

•

0.365 Increased difficulty

No

Yes

\J.

另外 Chen (2009) 研究否定詞、題幹長度、以及推論對試題通過率 (FI)和鑑別度 (01)的影響，結果發現如上: 表 3 到表 5 顯示相同的考生在閱續測驗中，否定詞、題幹長度以及推論這三個變數的確都使得試題變難，但

(10)

在聽力測驗中則呈現相反的趨勢。當然，這並不直接表示否定詞或推論反而使得聽力測驗變得容易，而是表示聽力測驗和閱讀測驗在本質上有所不同，造就 7 某些變數會有不同的表現。聽力的推論(例如:猜會話發生的地點、說話者的身分)幾乎隨時隨地都在日常生活中進行，以致我們已經熟練到可以直接反應，不需要再經過反覆思考或推敲。當然，時間上的迫切性也不容我們思考過久，因此聽力中的推論常常比較直接且容易。閱讀的推論則往往建立在某些字詞或文章連貫的理解上，需要觀察人微、反覆推敲、以及良好的語吉邏輯能力，因此也就比較困難。另外，常用的

口語Why

don't

you雖含有否定，但一般考

生都直接把它當作是引導建議的一個詞且( lexicalized一一詞彙他) ，而不是個疑問句型加上否定。換言乏，它不像閱讀測驗中的否定那樣需要在認知上轉一轉才能理解。除此之外，聽力測驗並不像閱讀測驗可以隨時回溯前文，過了就過了，如果未能在第一時間辨認出字詞的意義，那就無解了。這時題幹短反而是造成困難的所在，因為幾乎無可用的線索，就像撲克牌翻牌一樣，一翻兩瞪眼，會就會，不會就不會。如果題幹長一點，反而可藉由所了解的隻字片語來進行推論或聯想。也因如此，聽力測驗. 英語能力測驗難度的控管一一以臺師大英語會考為例

How to Control the Level of Difficulty of an English

Pro自ciency

Test

中第一部分(問答，題幹最短)的平均通過率反而低於第三部分(簡短談話，題幹最長)。這種種原因，除了上述所盲，不同的題型(

test

tasks) 要求的能力不盡相同以外，也和試題本身其他的變數有關，譬如不常見字數的多寡、句型複雜程度、主題或情境是否是考生所熟悉的等等，這一點容後再敘。所以命題者在設計試題難易度時，一定要一併將題型考慮進去。除了考生的程度和題型之外，考試當時考生的身體和心理狀況是否處於最佳狀態抑或在不佳的狀態?考場的環境是否安靜或吵雜?有無意外事件平擾? 監試人員和善或刁難等各種因素也有可能影響考試結果，但這並非命題者所能掌控的，無關命題設計，因此略過，不再與予討論。最後是試題本身的變數，首先本研究根據文獻探討，設計了一份表格用來統計變數的種類和數目以及試題困難的程度。這表格將所有變數分為兩大類，分類標準視其需要運用到高層次整合的能力或者低層次的字彙文法或局部辨認的能力而定。變數的細目和縮寫如下: 一、 Topic: 主題;二、 LNl: 重要訊息出現的位置;三、 NlC: 重要訊息的數量;四、 lnf. :推論;五、 Ref: 指稱詞; 六、 LO: 字彙重疊;1:、 LFV: 低頻率

(11)

字詞;八、 css: 複雜句型;九、 Neg: 否定詞。變數(一至五)與考生的高層次能力運作較相關，變數(六至九)則與考生低層次能力的運作較相關。試題難度計分的原則如下:每含一個難度變數得一分，每含一個易度變數則扣一分。例如:主題若屬於日常生活、人文領域或非學術性的，就扣一分。若屬於其他科學領域或是學術性的，就加一分。重要訊息出現在題幹結束的位置就扣一分，若出現在題幹中間，就加一分。解題的重要訊息從頭到

尾只出現一次就加一分，如果出現兩次

就減一分，出現三次就減兩分。試題若要求受試者做推論或找出指稱詞的連結關條都加一分。字彙重疊如果出現在正答就減一分，出現在誘答就加一分。凡出現一個低頻率的字詞、複雜的句型、或否定詞時都加一分，兩個就加兩分。依此計算方式，每一個試題的難度總分越高，則舍的難度變數越多;總分越低，則舍的難度變數越少。這張表格命題者可依自己實際的需求增添或減少變數的項目。接著，為方便呈現分析結果，本研究抽取聽力測驗中所有推論題

Table 6: Variables That Affect

Di伍culty

of Listening

In

ference

It

ems

Vs involve higher-level

Vs involve lower-level ability

ability

Rank

No.

FI

Score

LNI

NIC

Topic

LO

LFV

CSS

Neg

338

0.160 +9

+1

+7

2

328

0.285 +4

+1

3

342

0.350 +5

+1

+4

4

315

0 .4

00 +2

+2

5

135

0 .4

11 +4

+1

6

108

0 .4

27 +3

+1

7

113

0 .4

31 +2

+2

'、

8

124

0 .4

34 +4

+1

9

330

0 .4

37 +2

+1

10

225

0 .4

60 +2

+1

11

333

0 .4

74 +4

+1

12

235

0 .4

84 +4

+1

(12)

(續)

How to Control the Level of

Di伍culty

of an English Proficiency Test

Vs involve higher-level

Vs involve lower-level ability

ability

Rank

No.

FI

Score

LNI

NIC

Topic

LO

LFV

CSS

Neg

13

334

0.508 +2

+1

14

329

0.555 +2

+1

15

236

0.558 +2

+1

16

122

0.570 +3

+1

+2

17

317

0.596 +2

+1

18

217

0.600 +2

+1

19

318

0.606 +2

+1

-2

+1

+2

20

219

0.620 +2

+1

21

335

0.624 +2

+1

-3

+1

+3

22

121

0.628

23

136

0.632 +2

+1

24

111

0.636 +2

+1

25

230

0.660 +1

+1

26

119

0.678 O

+1

27

224

0.700 +1

+1

-2

+1

+2

28

130

0.706 +1

+1

29

320

0.725 -2

30

319

0.727 +1

仟 l

123

0.729 O

+2

32

322

0.782 -2

+ 1

,

-1

33

212

0.840 +2

+1

34

226

0.840 -2

35

227

0.850 -3

-3

+1

36

221

0.870 -3

37

125

0.876 -2

38

118

0.888 -3

39

126

0.892 -4

-3

(13)

共的題，按照通過率由低至高排列，並標示其中所含的難易度變數，請見表6 。表 6 顯現一個大的趨勢:試題難度總分越高，通過率就越低。隨著試題的總分遞減，通過率就跟著提高。最難的試題338 含了 9個難度變數，總分是 +9 。而最容易的試題 126毫無難度變數，而且含了四個易度變數，總分是 -4 。然而值得注意的是難度排行中間的變化並非完美的遞減數列，這代表變數的個別效果不總是同等的。例如:最難的前三個試題 338 、 328 和 342 皆含了主題的難度變數，分別探討美國手語、外國人在臺學國語、以及加拿大的森林大火的新聞報導，考生對這些主題是陌生的，因此在聽解時無法敢動其背景知識或常識，再加上這些主題常常會誘發一些不常見的詞彙出現，譬如:

full-fledged language

,

Protestants，扎tlandari且，

evacuate

,

evacuation

等等，產生了連鎖效應，再加上它們都很不口語化，字彙密度高，贅詞少，自然使得考生的理解雪上加霜。因此在這種題幹較長的試題中， r 主題」這個高層次的變數對試題難度的影響比其他的變數更為巨大，因為它會帶動許多低層次的變數起作用。命題者必須審慎評估它可能會引發的連鎖效應。再例如:試題122 (排行第 16 '如下所示)最重要的解題線索preview恰巧是第五級的單字 (LFV) ，顯然它的影響遺遠超過其他三個難度變數 (2個Neg和 LNI在中間) ，因為只要不懂它的意義，就無法推出答案。所以命題者在設計試題時，必須特別注意關鍵的線索，因為它的影響力遠大於其他的變數;其次如果在關鍵線索中安置很難的詞彙，考試的標的有可能會因此被轉移到低層次的詞彙能力，而非原先設定的高層次的目標，命題者應該考慮刪除。

122 M: Well

,

that certainly

was且主 as

good

as

I

'd expected

消失 I

didn 't think so

,

either. The few

funny parts were already

sh血旦旦

in

the 缸也且也 Most

of it was just

tupid

,

and some of it bordered on

disgusting.

M: From now on

,

I

guess we should

read the critics'

reports before we

go.

Q: Jf有 at

are the speakers discussing?

A. ~movi司B.

A game

C. A book

D. Aconcert

。

另一個例子是試題212 (排行33

)

雖然鄰近它的試題總分都已經是負數了，它的總分卻是 +2 ，因為含了兩個難度變數 (LO和Neg) ，可是從通過率0.84

(14)

看來，這兩個變數顯然並未發揮應有的

影響力。換言之，並非所有的難度變數

都會起作用，命題者須要經過通盤的考量才能正確地預估那些變數會很活躍，

那些變數幾乎不會運作，可以忽略。

212 Why do

n...}

you have vour hair cut

迪金且，

son?

A. My shorts look all right

B

Have vour hair cut short !

C I

think it looks

:fi

ne to me.

D. You look awful with that cut!

最後一個例子是試題 315 、 108 和 113 (排行第 4 、 6 、 7) 。這三題都是聽力測驗中的第一部分問答題，在這種上下文非常短的題型中，主題、重要線索的數量和位置這些高層次變數顯然都無關緊要，反而是低層次能力的變數(例如

LFV

,

CSS ，和 Neg) 扮演極重要的角色，所以儘管它們的總分分別只有 +2;

+

30+2

' 不算太高，它們還是最難的試

題之三。這呼應前面提過的「變數的影響力會隨著不同的題型而改變J '在簡短的試題中(例如問答題) ，低層次的變數對通過率的影響較大，隨著試題長度增加，高層次的變數就越發扮演舉足輕重的角色。以上這些例子都證明7 變數的影英語能力測驗難度的控管一一以臺師大英語會考為例

How to ConlTOI the Level of Difficulty of an English Proficiency Test

E 力不可以等同其觀，它們各個既不相等，也非一成不變。在某些情況下，有些變數會發揮非常強大的效果，而其他的則無足輕重。而牽引著這一切變他的因素包括考生的語文程度、考試當時的環境和考生的狀況、考試的題型、試題的上下文、考生的世界知識、誘答的吸引力強否、變數間彼此的互動等等。換吉之，試題的難度應該被視為多種變

數的力量在底下較勁之後呈現出來的一

種表徵，它是一連串變數互動之後的結果，它會隨著種種變數而上下浮動，並不是一個恆久不變的定數。

恆、結論

如前所述，試題的難度應該被視為一種動態的過程，在這過程中，多種變數的力量彼此競爭著要發揮它們的影響力，有些找到了有利的條件支持，於是發揮 7 顯著的效果;有些則因處於不利的條件下，而受到抑制，影響的效果因此微乎其微。為了更能精確地預估試題的難度，本研究建議命題者遵循以下的步驟: 一、正確地界定大多數著牛的語堂程度:他們一般真有幾千個詞彙?什麼樣的詞彙會對他們構成困難? 什麼樣的句法結構(

compound

complex

,

nominalization

,

etc.) 是他

(15)

們難以掌握的?什麼樣的情境(譬如:考駕照、國外打工、在安寧病房)和主題(天文發現、科技新

知、移民、老年人的孤獨寂寞心

境)對他們而言是陌生而難以體會的?有些常識或經驗會不會有城鄉的差距(例如:使用智慧型手機、出國遊學) ?拿捏他們有多少的背景知識和世界知識。唯有如此，才能更準確地預測甚麼樣的難度變數真的會發揮明顯的效果。二、編寫試題時，需要清楚地知道題型是聽力測驗或閱讀測驗?是簡短的問答、字彙或文法題?或是長的對話、談話、克漏字、閱讀理解題? 試題的測驗目標是考學生的甚麼能力?出的題型如果是短的，要特別注意那些和低層次能力相關的變

數，例如:

LFV

,

CCS

,

LO

,

Neg等，

它們的影響會不會超乎預料之外? 會不會仟格原先設定的測試標的? 假如編寫的題型是畏的，則要特別注意那些和高層次能力相關的變

數，例如:

Topic

,

LNI

,

NIC

,

Ref

,

Inf

等，注意它們的效果會不會太強以致使得試題喪失鑑別力。三、此外，還要知道每一試題中包金工鴿個雖易時戀擻，試題中有幾個單

字或詞對大多數的考生是新的?主

題是他們所熟悉的嗎?有沒有任何複雜的句型可能會造成誤解?提供 7 多少個解題的線索?重要的線索擺放在甚麼位置?解題時考生需要運用到推論的能力嗎?有詞彙重疊的情形嗎?是和正答或誘答重疊呢?有連結用語(

cohesive devices

,

譬如指稱詞、代詞〉嗎?數量是否適當?最後審慎的評估這些變數當中，有沒有任何一個可能會引起過強的效果以致抵觸了試題設計的初衷?舉例來說，如果某一試題的目的是用來測試考生高層次的推論能力，那這試題最好就不要納入太多困難的字彙，因為考生答錯不一定是因為不會推論，而是因為不懂單字。如此一來，這個試題就變成在考低層次的字彙能力了。如果那個困難的單字又碰巧是解題的關鍵字，那這種偏差的情形會更嚴重。四、請命題者利用本人設計的難度計算衰格，這個表格可以幫助命題者

對涉人試題中的難易度變數一目

了然，也可粗略估算試題困難的程度。不失為命題時的一項利器。

參考文獻

陳秋梅 (2005a) 。影響閱讀測驗難易度變數之再探。第二十二屆中華民

(16)

How to Control the Level of Difficulty of an English Proficiency Test

國英語文教學研究國際研討會論文集，頁44-54 。臺北:文鶴。

陳秋梅 (2005b) 。影響聽力測驗難易度

變數之再探。第十四屆中華民國英語文教學國際研討會論文集，頁184-194 。臺北:文鶴。語言訓練測驗中心(

1999

)。全民英語能力分級檢定測驗研究:中級測驗預試報告。臺北:語盲訓練測驗中 I L，、。語吉訓練測驗中心 (2000 )。全民英語能力分級檢定測驗研究:中高級測驗研究報告。臺jt :語吉訓練測驗

中心。

鄧慧君 (1998) 。文類及題型對英語聽力測驗之影響。英語教學，第23