∞II: 1O.6249/SE.2015.66. 1.07 收稿日期: 2014nll 修訂日期: 20l 4nl3l 接受日期:
2014/8/4
英語能力測驗難度的控管
以臺師大英語會考為例
陳秋梅*
講師
團立臺灣師範大學英語學系摘要
本研究分為二大目的,目的一:呈現本人近年來對難度變數的研究發現;
目的二:與有志於撰寫能力測驗者分享本人多年實務經驗的心得,希望藉此協
助他們控管試題的品質。其實要控制試題難度並不是一件容易的事,因為難度 並不是一個不變的定數,它會隨著考生的程度、考試的情境以及試題本身的種 種因素而改變,命題者需要累積許多經驗才能正確地判斷變數運作的方向和力 道。本研究的資料取自臺師大三年的英語會考試題,考生為非英語系的大一新生,程度從高級到初級皆有,共超過 2700 人,試題共 285 題,經統計考驗,試
題信度都超過 O. 82 。研究步驟首先透過文獻探討,列出常見會影響閱讀測驗和 聽力測驗通過率的變數。接著把所有試題按照通過率高低排列,逐一列舉並審 視每一題牽涉到的變數的種類和數目,結果發現了以下的趨勢一一試題包含的 難度變數愈多,難度就愈高。但其中有一些例外,本研究也進一步檢視並分析 其原因。最後,根據分析的結果,提出一些命題原則和步驟,同時還設計出一 份可以粗略計算難度的表格,供命題者參考。 關鍵詞:能力測驗、試題難度/通過率、難易度變數、鑑另 IJ 度 本篇論文通訊作者:陳秋梅,通訊方式:t22040
IlU
ntnu.edu.tw
。英語能力測驗難度的控管一一以薑師大英語會考為例
How
10Con 甘01the Level of Difficulty of an English Proficiency Test
DOl : 1O
.6249/SE.2015.66.
1.07 Manuscript received: lull
,2014 Modified:
luI 訓, 2014 Accep關:Aug4. 2014
How to Control the Level of Difficulty of an
English Proficiency Test
Chiou-Mei Chen Lecturer
Department of English
,
National Taiwan
ofmal University
Abstract
For many test writers
,
it is common sense that the level of difficulty must be
appropriate in order to discriminate test takers of different English levels. However
,
to know is one thing
,
and to do is anothe
r.
According to my past experience as a
test reviewer
,
quite a few test writers failed to put their testing knowledge into real
practice
,
so the items they wrote were not good enough in terms of either facility
or discriminability.
In
response to this gap
,
this study is intended to explore how to
well control the facility value of a tes
t.
In my opinion
,
the failure of the test writers
to control the level of difficulty can be largely attributed to a misconception
,
i.e.
th
.0'
regard it as something static rather than dynamic. In fact
,
the reverse is true.
Th
e facility value always varies with a lot of factors
,
such as the test taker's English
competence
,
the testing environment and condition
,
and a variety of variables that are
involved with the test itsel
f.
Therefore test writers need much experience so that they
can correctly judge which variables will be active enough to affect the test result
,
while others will no
t.
The data for this study comprise 3 English proficiency tests
administered to all the non-English-major freshmen of
NTNU
from
2003
to
2005.
The 3 tests are all statistically proved to be reliable. There are altogether
285
items
and over
2700
subjects with
di旺erentlevels of English abilities. To begin with
,
this
study lists all the relevant variables of facility/difficulty through literature survey.
Next
,
all the items are arranged in order of their facility values
,
and each of them
is scrutinized to see what variables of facility or difficulty are involved
,
how these
variables interact with each other
,
and if there is any hierarchical relationship among
the variables. A general tendency for predicting the facility value is found. Finally
,
some specific guidelines are proposed based on the result of the analysis. Besides
,
a
table listing all the relevant variables of facility / difficulty is provided for test writers
to code or measure the level of difficulty.
keywords: proficiency test
,
facility value
,
level of
di且culty,
variables of difficulty
,
variables of facility
,
discrirninability
英語能力測驗難度的控管一一以薑師大英語會考為例 How to Control the Level of Difficulty of an English Proficiency Test
壹、導論
一般命題者皆知能力測驗的難度 要適中,才能有效地鑑別不同程度的考生;但知易行難,根據本人多年經驗發
現,不少命題者雖有滿腹專業知識,卻 不盡能將這些知識落實,以致設計的試 題在難度或鑑別度方面皆未臻理想。有 鑑於此,本研究旨在與有志於編寫能力測驗者分享本人多年實務經驗的心得,
希望能幫助他們控管試題的品質。其 實,試題難度之所以難以管控主要是因 為它會隨著考生的程度、考試的情境、 以及試題本身的種種變數而上下浮動, 它並不是一個不變的定數,因此命題者 需要經驗才能正確判定在什麼情況下, 那些變數會運作並顯著地影響考試結 果,而那些變數作用不大可以略過。本 研究首先選取臺師大三年的英語會考試 題,觀察並分析其命題設計以及考試結 果,然後把所有試題按照通過率高低排序〉逐一條列並審視每一題牽涉到的變
數的種類和數目,試圖找出背後有沒有 規則管控變數的運作。分析結果發現了 一個大致的趨勢一一一試題中所含的難度 變數愈多,通過率就愈低。但其中不乏 一些非典型的案例,本研究也一併探究 其原因。最後,根據分析的結果,提出 一些命題原則和步驟,供命題者參考, 以利控管試題的難度。貳、文獻探討
根據 (Drum
et ai
,
1981; Pollitt et ai
,
1985; Davey.
1988) 以及Freedle& Kostin
(1991 ; 1992 ;
1993) 一系列對托福閱讀測驗的研究發現,以下的變數可以影 響閱讀測驗的難易度,這些變數包括:
一、否定詞: (女Dno,
none
,
never 及否定 前綴也possible ,旦旦sure , irregular和否定後綴 value垣星星)。否定詞素越
多,不管是出現在文章、題幹、或
選項中,試題的難度都會增加。
二、指稱詞:
(referentials)
Abrahamsen & Shelton
(1989) 的實驗發現把文章裡所有的指稱詞以完
整的全稱取代後,理解的程度有明 顯的改善。 Freedle
&
Kostin的研究指出文章中指稱詞的數目越少,試 題就越容易。
二、線索的多寡和出現的位置:根據
Abraham & Chapelle
(1992) 的研究,線索的多寡 (the
amount
of
information) 以及前後文所提
供線索的位置 (locationof context
clues)
,都會影響題目的難易度。Hare
et of.
(1989) 的研究也指出, 重要訊息若出現在段落剛開始或要 結束的位置時,較容易理解;若出 現在中間的位置則讀者較不容易辨認出來。 Bhasin (1990) 針對精通 西班牙語和英語的雙語者所進行的 研究發現,受試者在圈選閱讀測驗 答案時,傾向在文章一開始的位置 去尋找線索。 四、詞彙重複與否 (lexical
overlap)
Freedle & Kostin
(1993) 發現許多考生喜歡圈選和本文或題幹詞彙重 複的選工頁。因此,如果正答與選文 或題幹中詞彙有重複情形時,試題 的難度就會降低。 五、單字、句子、和段落的長度:單字越 長或越不常見、句子越長、句型越 複雜,則閱讀理解的難度就越高。 六、文章的主題(
subject
matter) 、長度 以及抽象的程度: Freedle和 Kostin( 1993
)發現人文主題與社會科學 方面的文章相比,前者的難度較 低。此外,文章越長、內容越抽 象,閱讀理解就越困難。 至於影響聽力理解的變數較具代 表性的研究有Freedle& Kostin (1996 ;
1999
)以及Nissan
et al.
(1996)
0Freedle
&
Kostin (1996 ;
1999) 把托福的試題分 三類1.辨認主旨大意題。 2. 理解明確說出 的訊息題。 3.推論題,並逐項探討影響試 題難度的變數,其中已被證實其有影響 力的變數包括: (一)詞彙重複 (lexicaloverlap)
:正 答中的詞彙若與題幹裡的詞彙有 重複情形時,則難度較低。但若 重複的詞彙出現在誘答中,則難 度升高。 (二)修辭結構 (rhetoricalstructure)
題幹的修辭結構若屬「問題一一 解決之道」或「比較」類型者, 難度較高。 (三)指稱詞:聽解問題中指稱詞的數 目越多,試題就越難。 (四)主題:若是非學術性的就比較容 易。在推論題中,若主題屬藝術 或社會科學領域,試題較容易。 (五)主題轉換 (topicshift)
:題幹中 出現越多的主題轉換,試題就越 容易。 (六)重要訊息重複:可降低試題難度。 (t) 線索的多寡和出現的位置:重要 訊息若出現在剛開始或要結束的 位置時,試題比較容易;若出現 在中間的位置,則聽者較不容易 辨認出來。 (八)否定 (negation) :否定詞素越 多,試題就越難。 (九〉加強語氣詞:越多會使吉談內容越 容易記得,試題難度就會降低。 另外在Nissanet al.
(1996) 中發現 的變數有:英語能力測驗難度的控管一一以薑師大英語會考為例
How to Control the Level ofDifficulty ofan English
Pro自ciencyTest
(一)試題中有越不常見的詞彙,難度 就越高。 (二)試題中的訊息若是隱含的而不是 明白說出時 (explicit) ,難度就 越高。 (三)對話以直述句( statement) 結束會 比以疑問句結束難。 國內針對聽力測驗難易度的實證 研究還有鄧慧君 (1998) 以及語言訓 練測驗中心(
1999 ;
2000) 。鄧慧君 (1998) 的研究發現聽解內容的文類(text
type) 和口語忱的程度(orality)
對本國考生的聽力測驗表現有明顯的 影響。而語盲訓練測驗中心(1999
;
2000) 的研究發現影響第一部份(問 答)的變數有: (一)慣用語理解程 度; (二)題幹之句型結構:考生對 不同句型如 wh-Q ,yes-no
Q 和直述句的 掌握程度; (三)題幹與選項之詞彙 重複比例; (四)關鍵詞和選項是否 屬相同的語意類別 (semantic field,如 dentist) 。影響第二部分(簡短 對話)和第三部份(簡短談話)的變數 有: (一)主題與情境:考生最能掌握 日常和學校生活會話,對於與工作場合 相關的題材則稍感困難,至於學術性或 較抽象的題材則最為困難。這可能與其 用字遣詞較為正式以及對話中蘊含的訊 息量較大有關; (二)正答的訊息在 對話中呈現的方式:完全重複最為容 易。若以相關單字重現,則僅對高分組 答對率有正面幫助。這個發現與Chiang& Dunkel ( 1992
)的研究以及Chen(2005a) 發現一致; (三)談話的文
類和口語他程度:根據Shohamy
&
lnbar
( 1991)
,越口語忱的文類(如對話) 訊息重複比例越高、冗言和停頓越多, 句子結構通常較簡單、也含有較多的俗 語( colloquialism) 。較不口語化的文類 (如新聞報導)則相反。因此,越不口 語忱的文類,就越難理解。琴、研究方法
以上各式各樣的變數在實際的測驗 中,是否每一個變數只要一出現,就會 達到預期的效果?假如和其他的變數連 袂出現,會發揮相加、相乘、或互相抵 銷的哪一種結果呢?換吉之,我們想要 探究的是這些難度變數是否都有同等份 量的效果?當它們同時出現時,會有什 麼樣的互動結果?彼此間有沒有上下階 層或隸屬的關條?有沒有其他因素需要納人考量?
為了探索這些答案,我們需要的研 究資料必須是一個實際的能力測驗,具 備信度和效度,而且越大型越好。本研 究因此鎖定臺師大的英語會考為分析對 象。臺師大的英語會考(包含聽力測驗和閱讀測驗兩部分〉已進行多年,參與
本研究的受試者共超過 2700人,每一年
試題的信度皆高於 0.82 '也能很穩定地 鑑別不同程度的考生(請參見表Lf日表 2及 Chen (2006 ' 2009) ) ,不同年度的
考生在定錯題上的通過率( F!) 和鑑別 度 (D!) 都很接近,而且在非定錯題和 定錯題之間的表現,經統計考驗,並無 顯著差異;總而言芝,本研究所分析的 是一份大型且真有信度和效度的能力測 驗。分析方法是把每一題所含的難易度 變數全部條列出來,再將所有試題按照 通過率高低排序,深人探討最難的試題 為何最難,最容易的試題又為何最為容易。
Table 1: Reliability of the 3 Tests and Average Facility Index (FI) and Discrimination Index
(DI) of
An
chor Items
LT 1
LT2
LT3
RT 1
RT2
RT3
Cronbach's
0.85
0.85
0.85
0.82
0.82
0.86
Alpha
FI
0.609
0.589
0.571
0.540
0.538
0.561
DI
0
.4
35
0
.4
64
0
.4
28
0
.4
06
0.397
0.377
*LT
Imeans the first listening test; RT
Imeans the fil·st reading tes
t.*Facility index (FT) is calculated by counting how many of the test population responded correctly to the item and
divided by the total number of candidates. Thus if in a sample of 60 candidates
,
43 responded
correct旬"then the
item has a facility index of
43/60= 0.72.
*Discrimination index (DT) is calculated as follows: DT= (t-b)
1
N
,where t = number of con·ect responses in the
top 27% group
,
b = number of
corr巴ctresponses in tbe bottom 27% group
,
N = number of candidates in one
of the groups. For example
,
if 60 candidates take a test
,
after arranging them in rank order we take tbe top and
bottom 27% which works out at 16 in each group. The number of correct responses in the top and bottom groups
is 9 and 4 respectively. Then DI = (9-4)
116
= 0
.31. The item is a moderate discriminator
Table 2: Descriptive Statistics of the Examinees' Performance in the 3 Tests
LT 1
LT2
LT3
RT 1
RT2
RT3
No. of
478
696
1523
478
696
1523
examwees
Range
26-100
28-100
0-96
8-96
6-96
。-94SD
13.78
14.81
17.17
15.31
15.19
16.89
*SD = standard deviation
肆、分析結果
在進人試題本身的分析之前,我們 必須先排除試題以外可以左右試題難度 的因素。首先是考生的程度。以下的字彙題 A (根據大考中心的詞彙分級屬於
第二級的單字)對國中升高中的考生而 吉,是個很有鑑別度的好試題,但若是 拿來考英語系學生,恐怕就失之過易、 毫無鑑別力可言。同樣地,字彙題B對於 高中升大學的考生而言(根據大考中心 的詞彙分級屬於第六級的單字) ,可能 是個良好的試題,但若拿來考國中生, 則失之過難。句型也是一樣的道理。以 下的句型結構C和D對於國中生而吉,可 能會因為過於複雜而失去鑑別力。A. Blow off
the 豆豆且且垣呈 onthe birthday
cake.
(l
evel 2)
B. Nearly 60% of infection in Asia cannot
be treated with standard antibiotics
because 旦旦盟立金 use
of these drugs has
~esultedin resistant bacteria.
(l
evel 6)
C.
What was revealed in the study was that
且也且lei whose happiness depended on I
Isuch thingsl were looking in the wrong
凶盤盤 Ibecause happiness comes froml
區區(compoundcomplex 間的叫
D.
Jo恤l'Sprotest against the decision by all
his classmates was unwise. As a result
,
英語能力測驗難度的控管一一以臺師大英語會考為例
How
toCon 甘01the Level of Difficulty of an English Proficiency Test
his bein
l!excluded from all classroom
activities was only to be expected.
(nominalization)
因此命題者首要之務即能精確地界 定大多數考生的程度,什麼樣的詞頻和 句法結構對他們而盲是困難的?什麼樣 的情境和主題對他們是陌生而難以體會 的?唯有如此,才能設計出難度適中的 考題。但這種拿捏,其實需要經驗的累 積,大考中心或Collins Cobuild的詞彙 分級可提供命題者相當具體的幫助。一 般的國中畢業生具備的詞彙才約兩三千 字,就不宜考大考中心四級以上的單字。
不只考生的程度會影響通過率, 題型 (test tasks) 也會。一個會顯著影 響閱讀測驗的變數並不一定會顯著影響 聽力測驗。一個會顯著影響字彙測驗的 變數也不一定會顯著影響閱讀理解。在Chen
(2005b) 的研究中,特意將試題中 某一題否定疑問改為肯定直述,選項不 變,給相同的考生測試,結果通過率從0.427降至0.354 '經 x
2考驗,有顯著差異
(p<O. 01
) 。但另一題將正答的否定疑 問一樣改為肯定直述,給相同的考生測 試,結果通過率從 0.636 上升至 0.806 '經x
2考驗,也有顯著差異 (p<O.O J) 。在
相同的聽力測驗中,否定詞的影響並未 顯現一致的方向。Table 3: Average FI and 01 ofNegations vs. Non-Negations
Listening Tests ( FI= 0.618)
Reading Tests ( FI=0.554)
Negations
Non-negations
Negations
Non-negations
No.ofitems
12
123
13
137
FI
0.626
•
0.617
0.531
•
0
.5
61
DI
0.352
0.385
0
.4
01
0.350
In
creased
di伍cultyNo
Yes
Table 4: Average FI and 01 ofLong Text vs. Short Text in the Proficiency Tests
Listening Tests (FI= 0.618)
Reading Tests ( FI=0.554)
Part I (short)
Part III
(l
ong)
Part I (short)
Part III
(l
ong)
First Test
0.620
0.644
•
0.514
0.336
•
Second Test
0.583
0.619
•
0.640
0.621
•
Third Test
0
.4
77
0
.4
89
•
0.515
0.563
•
Average FI
0.560
0.584
•
0.556
0.506
•
Average DI
0.397
0.368
0.343
0.372
Increased difficulty
No
Yes
Table 5: Average FI and 01 ofthe Inference
It
ems vs. Non-Inference
It
ems
Listening Tests ( FI= 0.618)
Reading Tests ( FI= 0.554)
inference items
non-inference
In
ference items
non-inference
No.ofitems
49-
86
17
43
FI
0.635
•
0.600
0
.4
13*
•
0.593
DI
0
.4
02
•
0.367
0.350
•
0.365
Increased difficulty
No
Yes
\J.另外 Chen (2009) 研究否定詞、題 幹長度、以及推論對試題通過率 (FI)和 鑑別度 (01)的影響,結果發現如上: 表 3 到表 5 顯示相同的考生在閱續 測驗中,否定詞、題幹長度以及推論 這三個變數的確都使得試題變難,但
在聽力測驗中則呈現相反的趨勢。當 然,這並不直接表示否定詞或推論反而 使得聽力測驗變得容易,而是表示聽力 測驗和閱讀測驗在本質上有所不同,造 就 7 某些變數會有不同的表現。聽力的 推論(例如:猜會話發生的地點、說話 者的身分)幾乎隨時隨地都在日常生活 中進行,以致我們已經熟練到可以直接 反應,不需要再經過反覆思考或推敲。 當然,時間上的迫切性也不容我們思考 過久,因此聽力中的推論常常比較直接 且容易。閱讀的推論則往往建立在某些 字詞或文章連貫的理解上,需要觀察人 微、反覆推敲、以及良好的語吉邏輯能 力,因此也就比較困難。另外,常用的
口語Why
don't
you雖含有否定,但一般考生都直接把它當作是引導建議的一個詞 且( lexicalized一一詞彙他) ,而不是個 疑問句型加上否定。換言乏,它不像閱 讀測驗中的否定那樣需要在認知上轉一 轉才能理解。除此之外,聽力測驗並不 像閱讀測驗可以隨時回溯前文,過了就 過了,如果未能在第一時間辨認出字詞 的意義,那就無解了。這時題幹短反而 是造成困難的所在,因為幾乎無可用的 線索,就像撲克牌翻牌一樣,一翻兩瞪 眼,會就會,不會就不會。如果題幹長 一點,反而可藉由所了解的隻字片語來 進行推論或聯想。也因如此,聽力測驗. 英語能力測驗難度的控管一一以臺師大英語會考為例
How to Control the Level of Difficulty of an English
Pro自ciencyTest
中第一部分(問答,題幹最短)的平均 通過率反而低於第三部分(簡短談話, 題幹最長)。這種種原因,除了上述所 盲,不同的題型(
test
tasks) 要求的能力 不盡相同以外,也和試題本身其他的變 數有關,譬如不常見字數的多寡、句型 複雜程度、主題或情境是否是考生所熟 悉的等等,這一點容後再敘。所以命題 者在設計試題難易度時,一定要一併將 題型考慮進去。 除了考生的程度和題型之外,考試 當時考生的身體和心理狀況是否處於最 佳狀態抑或在不佳的狀態?考場的環境 是否安靜或吵雜?有無意外事件平擾? 監試人員和善或刁難等各種因素也有可 能影響考試結果,但這並非命題者所能 掌控的,無關命題設計,因此略過,不 再與予討論。 最後是試題本身的變數,首先本研 究根據文獻探討,設計了一份表格用來 統計變數的種類和數目以及試題困難的 程度。這表格將所有變數分為兩大類, 分類標準視其需要運用到高層次整合的 能力或者低層次的字彙文法或局部辨認 的能力而定。變數的細目和縮寫如下: 一、 Topic: 主題;二、 LNl: 重要訊息 出現的位置;三、 NlC: 重要訊息的數 量;四、 lnf. :推論;五、 Ref: 指稱詞; 六、 LO: 字彙重疊;1:、 LFV: 低頻率字詞;八、 css: 複雜句型;九、 Neg: 否定詞。變數(一至五)與考生的高層 次能力運作較相關,變數(六至九)則 與考生低層次能力的運作較相關。 試題難度計分的原則如下:每含 一個難度變數得一分,每含一個易度變 數則扣一分。例如:主題若屬於日常 生活、人文領域或非學術性的,就扣 一分。若屬於其他科學領域或是學術性 的,就加一分。重要訊息出現在題幹結 束的位置就扣一分,若出現在題幹中 間,就加一分。解題的重要訊息從頭到
尾只出現一次就加一分,如果出現兩次
就減一分,出現三次就減兩分。試題若 要求受試者做推論或找出指稱詞的連結 關條都加一分。字彙重疊如果出現在正 答就減一分,出現在誘答就加一分。凡 出現一個低頻率的字詞、複雜的句型、 或否定詞時都加一分,兩個就加兩分。 依此計算方式,每一個試題的難度總分 越高,則舍的難度變數越多;總分越 低,則舍的難度變數越少。這張表格命 題者可依自己實際的需求增添或減少變 數的項目。接著,為方便呈現分析結 果,本研究抽取聽力測驗中所有推論題Table 6: Variables That Affect
Di伍cultyof Listening
In
ference
It
ems
Vs involve higher-level
Vs involve lower-level ability
ability
Rank
No.
FI
Score
LNI
NIC
Topic
LO
LFV
CSS
Neg
338
0.160
+9
+1
+1
+7
2
328
0.285
+4
+1
+1
+1
+1
3
342
0.350
+5
+1
+1
+4
4
315
0
.4
00
+2
+2
5
135
0
.4
11
+4
+1
+1
+1
+1
6
108
0
.4
27
+3
+1
+1
+1
7
113
0
.4
31
+2
+2
'、8
124
0
.4
34
+4
+1
+1
+1
+1
9
330
0
.4
37
+2
+1
+1
10
225
0
.4
60
+2
+1
+1
+1
11
333
0
.4
74
+4
+1
+1
+1
+1
12
235
0
.4
84
+4
+1
+1
+1
+1
(續)
英語能力測驗難度的控管一一以臺師大英語會考為例
How to Control the Level of
Di伍cultyof an English Proficiency Test
Vs involve higher-level
Vs involve lower-level ability
ability
Rank
No.
FI
Score
LNI
NIC
Topic
LO
LFV
CSS
Neg
13
334
0.508
+2
+1
+1
14
329
0.555
+2
+1
+1
+1
15
236
0.558
+2
+1
+1
16
122
0.570
+3
+1
+1
+2
17
317
0.596
+2
+1
+1
18
217
0.600
+2
+1
+1
+1
19
318
0.606
+2
+1
-2
+1
+2
20
219
0.620
+2
+1
+1
21
335
0.624
+2
+1
-3
+1
+3
22
121
0.628
23
136
0.632
+2
+1
+1
24
111
0.636
+2
+1
+1
25
230
0.660
+1
+1
+1
26
119
0.678
O
+1
27
224
0.700
+1
+1
-2
+1
+2
28
130
0.706
+1
+1
+1
29
320
0.725
-2
30
319
0.727
+1
仟 l123
0.729
O
+2
32
322
0.782
-2
+ 1
,
-1
33
212
0.840
+2
+1
+1
34
226
0.840
-2
35
227
0.850
-3
-3
+1
36
221
0.870
-3
37
125
0.876
-2
38
118
0.888
-3
39
126
0.892
-4
-3
共的題,按照通過率由低至高排列,並 標示其中所含的難易度變數,請見表6 。 表 6 顯現一個大的趨勢:試題難度 總分越高,通過率就越低。隨著試題的 總分遞減,通過率就跟著提高。最難的 試題338 含了 9個難度變數,總分是 +9 。 而最容易的試題 126毫無難度變數,而且 含了四個易度變數,總分是 -4 。然而值 得注意的是難度排行中間的變化並非完 美的遞減數列,這代表變數的個別效果 不總是同等的。例如:最難的前三個試 題 338 、 328 和 342 皆含了主題的難度變 數,分別探討美國手語、外國人在臺學 國語、以及加拿大的森林大火的新聞報 導,考生對這些主題是陌生的,因此在 聽解時無法敢動其背景知識或常識,再 加上這些主題常常會誘發一些不常見的 詞彙出現,譬如:
full-fledged language
,
Protestants,扎tlandari且,evacuate
,
evacuation
等等,產生了連鎖效應,再加上它們都 很不口語化,字彙密度高,贅詞少,自 然使得考生的理解雪上加霜。因此在這 種題幹較長的試題中, r 主題」這個高 層次的變數對試題難度的影響比其他的 變數更為巨大,因為它會帶動許多低層 次的變數起作用。命題者必須審慎評估 它可能會引發的連鎖效應。 再例如:試題122 (排行第 16 '如下 所示)最重要的解題線索preview恰巧是 第五級的單字 (LFV) ,顯然它的影響 遺遠超過其他三個難度變數 (2個Neg和 LNI在中間) ,因為只要不懂它的意義, 就無法推出答案。所以命題者在設計試 題時,必須特別注意關鍵的線索,因為 它的影響力遠大於其他的變數;其次如 果在關鍵線索中安置很難的詞彙,考試 的標的有可能會因此被轉移到低層次的 詞彙能力,而非原先設定的高層次的目 標,命題者應該考慮刪除。
122
M: Well
,
that certainly
was且主 asgood
as
I
'd expected
消失 I
didn 't think so
,
either. The few
funny parts were already
sh血旦旦in
the 缸也且也 Mostof it was just
tupid
,
and some of it bordered on
disgusting.
M: From now on
,
I
guess we should
read the critics'
reports before we
go.
Q: Jf有 at
are the speakers discussing?
A.
~movi司B.
A game
C.
A book
D. Aconcert
。
另一個例子是試題212 (排行33)
雖然鄰近它的試題總分都已經是負數 了,它的總分卻是 +2 ,因為含了兩個難 度變數 (LO和Neg) ,可是從通過率0.84看來,這兩個變數顯然並未發揮應有的
影響力。換言之,並非所有的難度變數
都會起作用,命題者須要經過通盤的考 量才能正確地預估那些變數會很活躍,
那些變數幾乎不會運作,可以忽略。
212 Why do
n...}
you have vour hair cut
迪金且,son?
A.
My shorts look all right
B
Have vour hair cut short !
C I
think it looks
:fi
ne to me.
D.
You look awful with that cut!
最後一個例子是試題 315 、 108 和 113 (排行第 4 、 6 、 7) 。這三題都是聽力 測驗中的第一部分問答題,在這種上下 文非常短的題型中,主題、重要線索的 數量和位置這些高層次變數顯然都無關 緊要,反而是低層次能力的變數(例如
LFV
,
CSS ,和 Neg) 扮演極重要的角色, 所以儘管它們的總分分別只有 +2;+
30+2
' 不算太高,它們還是最難的試
題之三。這呼應前面提過的「變數的影 響力會隨著不同的題型而改變J '在簡 短的試題中(例如問答題) ,低層次的 變數對通過率的影響較大,隨著試題長 度增加,高層次的變數就越發扮演舉足 輕重的角色。 以上這些例子都證明7 變數的影 英語能力測驗難度的控管一一以臺師大英語會考為例How to ConlTOI the Level of Difficulty of an English Proficiency Test
E 力不可以等同其觀,它們各個既不相 等,也非一成不變。在某些情況下,有 些變數會發揮非常強大的效果,而其他 的則無足輕重。而牽引著這一切變他的 因素包括考生的語文程度、考試當時的 環境和考生的狀況、考試的題型、試題 的上下文、考生的世界知識、誘答的吸 引力強否、變數間彼此的互動等等。 換吉之,試題的難度應該被視為多種變
數的力量在底下較勁之後呈現出來的一
種表徵,它是一連串變數互動之後的結 果,它會隨著種種變數而上下浮動,並 不是一個恆久不變的定數。恆、結論
如前所述,試題的難度應該被視為 一種動態的過程,在這過程中,多種變 數的力量彼此競爭著要發揮它們的影響 力,有些找到了有利的條件支持,於是 發揮 7 顯著的效果;有些則因處於不利 的條件下,而受到抑制,影響的效果因 此微乎其微。為了更能精確地預估試題 的難度,本研究建議命題者遵循以下的 步驟: 一、正確地界定大多數著牛的語堂程 度:他們一般真有幾千個詞彙?什 麼樣的詞彙會對他們構成困難? 什麼樣的句法結構(compound
complex
,
nominalization
,
etc.) 是他們難以掌握的?什麼樣的情境(譬 如:考駕照、國外打工、在安寧病 房)和主題(天文發現、科技新
知、移民、老年人的孤獨寂寞心
境)對他們而言是陌生而難以體會 的?有些常識或經驗會不會有城鄉 的差距(例如:使用智慧型手機、 出國遊學) ?拿捏他們有多少的背 景知識和世界知識。唯有如此,才 能更準確地預測甚麼樣的難度變數 真的會發揮明顯的效果。 二、編寫試題時,需要清楚地知道題型 是聽力測驗或閱讀測驗?是簡短的 問答、字彙或文法題?或是長的對 話、談話、克漏字、閱讀理解題? 試題的測驗目標是考學生的甚麼能 力?出的題型如果是短的,要特別 注意那些和低層次能力相關的變數,例如:
LFV
,
CCS
,
LO
,
Neg等,
它們的影響會不會超乎預料之外? 會不會仟格原先設定的測試標的? 假如編寫的題型是畏的,則要特 別注意那些和高層次能力相關的變數,例如:
Topic
,
LNI
,
NIC
,
Ref
,
Inf
等,注意它們的效果會不會太強以 致使得試題喪失鑑別力。 三、此外,還要知道每一試題中包金工 鴿個雖易時戀擻,試題中有幾個單
字或詞對大多數的考生是新的?主
題是他們所熟悉的嗎?有沒有任何 複雜的句型可能會造成誤解?提供 7 多少個解題的線索?重要的線索 擺放在甚麼位置?解題時考生需要 運用到推論的能力嗎?有詞彙重疊 的情形嗎?是和正答或誘答重疊 呢?有連結用語(cohesive devices
,
譬如指稱詞、代詞〉嗎?數量是 否適當?最後審慎的評估這些變數 當中,有沒有任何一個可能會引起 過強的效果以致抵觸了試題設計的 初衷?舉例來說,如果某一試題的 目的是用來測試考生高層次的推論 能力,那這試題最好就不要納入太 多困難的字彙,因為考生答錯不一 定是因為不會推論,而是因為不懂 單字。如此一來,這個試題就變成 在考低層次的字彙能力了。如果那 個困難的單字又碰巧是解題的關鍵 字,那這種偏差的情形會更嚴重。 四、請命題者利用本人設計的難度計算 衰格,這個表格可以幫助命題者對涉人試題中的難易度變數一目
了然,也可粗略估算試題困難的程 度。不失為命題時的一項利器。參考文獻
陳秋梅 (2005a) 。影響閱讀測驗難易 度變數之再探。第二十二屆中華民英語能力測驗難度的控管一一以臺師大英語會考為例
How to Control the Level of Difficulty of an English Proficiency Test
國英語文教學研究國際研討會論文 集,頁44-54 。臺北:文鶴。
陳秋梅 (2005b) 。影響聽力測驗難易度
變數之再探。第十四屆中華民國英 語文教學國際研討會論文集,頁184-194 。臺北:文鶴。 語言訓練測驗中心(1999
)。全民英語 能力分級檢定測驗研究:中級測驗 預試報告。臺北:語盲訓練測驗中 I L,、。 語吉訓練測驗中心 (2000 )。全民英語 能力分級檢定測驗研究:中高級測 驗研究報告。臺jt :語吉訓練測驗中心。
鄧慧君 (1998) 。文類及題型對英語聽 力測驗之影響。英語教學,第23卷,第一期,頁5-18 。
鄭恆雄(2002
)。高中英文參考詞彙表。(收錄於大學入學考試中心
2002年研究報告)。臺北:大學人
學考試中心。
A
'b
raham
,
R. G.
&
Chapelle
,
C.
A.
(1
992).
The meaning of cloze test scores:
an item difficulty perspective.
The
Modern Language Journal
76(4):
468-79.
Abrahamsen
,
E
,
and Shelton
,
K.
(1
989).
Reading comprehension in adolescence
with learning disabilities: semantic and
syntactic effects.
Journal of Learning
Disabilities
22
,
569-72.
Chen
,
Chiou-mei. (2006). Are inference
items more difficult than non-inference
items in EFL listening comprehension
tests?
Selected Papers from the
Fifteenth International Symposium on
English Teaching 261-71
Chen
,
Chiou-mei. (2009). Examination
of the variables of difficulty in EFL
listening and reading tests.
The
Proceedings of 2009 International
Conference and Workshop on TEFL
and Applied Linguistics.
pp. 43-57.
Crane Publishing Co.
,
Lt
d.
Chiang
,
C. S. and Dunkel
,
P.
(1
992). The
effect of speech modification
,
prior
knowledge
,
and listening proficiency
on EFL lecture learning.
TESOL
Quarterly
26
,
345-74.
Collins Cobuild English Dictionar
y.
(1
995).
The Cobuild Series from the Bank of
English. The University ofBirmingham
and Collins Cobuild. London: Collins.
Davey
,
B.
(1
988). Factors affecting the
difficulty of reading comprehension
items for successful and
unsuccess臼 lreaders.
Journal of Experimental
Education
56
,
67-76.
Freedle
,
R. and Kostin
,
I.
(1999). Does
the text matter in a multiple-choice
test of comprehension? The case for
the construct validity of TOEFL' s
minitalks.
Language Testing 16
(1):
2-32.
Hare
, v.,
Rabinowitz
,
M.
and Schieble
,
K.
(1
989). Text effects on main idea
comprehension.
Reading Research
Quarterly 24
,
72-88.
Nissan
,
S
,
et a
l.
(1
996). An analysis of
factors affecting the difficulty of
dialogue items in TOEFL listening
comprehension.
TOEFL Research
Report RR-95-37. Princeton
,
NJ: ETS.
Polli 肘,
A.
,
Hutchinson
, c.,
Entwistle
,
N.
and Deluca
,
C.
(1
985).
What Makes
Exam Questions Difficult: an
Anal)泌的4 “。 "
Grade Questions and Answers.
Edinburgh: Scottish Academic Press.
Shohamy
,
E. & lobar
,
O.
(1
991). Validation
of listening comprehension tests:
the effect of text and question type
Language
1全sting8
(1):
23-40.
.,
Calfee
,
R. C. and Cook
,
L.
K. (1981). The effects of surface
structure variables on performance in
reading comprehension tests.
Reading
Research
Quαrterly16
,
486-514.
Freedle
,
R. and Kost
凹,1.(1991).
The prediction of SAT reading
comprehension item difficulty for
expository prose passages.
ETS
Research Report RR-91-29. Princeton
,
NJ: Educational Testing Service.
Freedle
,
R. and Kostin
, 1.
(1992).'
The prediction of GRE reading
comprehension item difficulty for
expository prose passages for each of
three item types: main ideas
,
inferences
,
and explicit statements.
ETS Research
Report RR-91-5 9. Princeton
,
N J:
Educational Testing Service.
Freedle
,
R. and Kostin
, 1.
(1
993). The
prediction of TOEFL reading item
difficulty: implications for construct
validity.
LαnguageTesting 10
,
133-70
Freed 峙,