國中基測量尺系統相關議題之探討

(1)

國申基瀏量民重負鐘相關鵲趨之揮討

不 1

一

國立臺灣師範大學教育心理輔導學系由章舜雯@副教授

要

摘

國民中學學生基本學力測驗(在此簡稱國中基測)的量尺分數是目前國內申請進入高中就學的依據，重要性及影響性自然不在話下。國中基測量尺分數是藉由公式將原始分數轉換而成，其中牽涉到許多量尺化的相關議題。這篇文章是筆者將自己執行完成的圓中基測量尺分數的一些實徵性研究做出整理報導，主要是以國中基測量尺系統的形成為主，包含有「國中基測原始至量尺分數轉換法」、「縮小量尺分數間距之可行性」以及「量尺總分形成之機制」三大主題。量尺依測驗的目的而建立，檢視國中基測不同學科的特殊性及其分數使用的目的，將國中基測的原始分數轉為量尺分數同時符合各方面優質特性的期待並非容蜀，要使大家能確實了解量尺分數的結果與意義也具有相當的挑戰性。希望本文所提出的相關訊息或建議，對於架構國中基測量尺系統時應考量的重要議題有些廠發與貢獻。 nuagu--3 曲『〈\》『 O 曲 -O 曲 OZ-2GZOmO 曲『 OZ 關鍵詢:基本學力測驗、原始至量尺分數轉換、量尺分數收件日期: 200817/23 修訂日期:2008/9/30 接受日期: 2008月/30 中等教育革 60 卷草 1 期海 106 還

(2)

叫心~ . " } . . . " 司唔 '，'九、、在 j J 咽R函õ!: A r 。

d 面值~噩叮竄到@

Shun-Wen Chang

<il岫ociate Prof.醋。r

Department of

Ed

ucational Psychology and

Co

unseling National Taiwan Normal University

Abstract

The Basic Competence Test (or BCTEST) is designed to serve the purpose

of high school entrance admission in Taiwan. The BCTEST composite is used for

the selection decisions; the importance of determining a proper BCTEST scale

can never be overemphasized. The BCTEST scaling proceeds by performing

the transformation for each test using examinees' raw scores

,

with many scaling

issues involved during the process. This article summarizes and reports the results

of some empirical studies conducted by the present author

,

including topics of

methods of the raw-to-scale score transformation for the BCTEST

,

approaches of

minimizing gaps in the conversions and the formation of the BCTEST composite.

Score scales are constructed with purposes. Considering the unique characteristics

of the individual tests and the intended use

,

scaling the BCTEST to meet all

desired attributes can be hard. Conveying the scale score results to its test users

and the general public has also been very challenging.

It

is hoped that this article

has revealed useful information and has offered valuable insights into important

issues while designing and improving the score scales.

Keywords: BCTEST

,

raw-to-scale score transformation

,

scale score

Manuscript received: July

23 ,

2008;

Modified: Sep

30 ,

2008;

Accepted: Sep

30 ,

2008

(3)

一骨子 F且..t..‘ i一一九室主、閑話

國民中學學生基本學力測驗(在此簡稱「國中基測 J ;

the Basic Competence

Test or the

BCTEST) 是台灣自民國90年開始正式施測使用的大規模標準化測驗，

其目的是作為國中生申請進入高中就學的依據。園中基測每年舉辦兩次，測驗的內容涵蓋國文、英語、數學、自然、以及社會五個學科。幾乎所有的國中應屆畢業生都會參加第一次的國中基測，歷年來的第一次測驗幾近皆超過三十萬的考生，考生也可以再參加第二次的國中基測，然後選擇兩次分數中較高的一次。圈中基測每年施行兩次的最主要用意是提供考生多一次的機會，但如此一來，兩次考試的原始分數就無法直接比較，所以必須先將第一次測驗考生的原始分數轉換成為量尺分數，然後藉由測驗等化的原理與技術'將第二次的原始分數轉換到與第一次測驗相同的量尺上，兩次測驗的量尺分數於是可以直接比較，國中基測每年都要進行這樣的「量尺化 J (scaling) 與「等化 J (

equating

)的工作。

國中基測採用正弦反函數公式 (the

arcsine transformation) (

Kol凹，

1988;

Kolen & Brennan

,

2004; Kolen & Hanson

,

1989; Kolen

,

Hanson

,

& Brennan

1992; Petersen

,

Kolen

,

& Hoover

,

1989) 將原始分數轉換為量尺分數，形成另一

種新的分數型態。在這個量尺系統中，每科測驗為 1-60分，量尺平均數設定為 30

分，雖然量尺平均數的大小每年就考生實際資料算來會有些許的差異，但還是都能

保持在 30分左右，使考生以及分數的使用者每年都有類似的參考遵循標準，益於量尺分數的解釋與說明。正弦反函數的轉換屬於非直線性的轉換，使用這個公式的最

大特色在於其所轉換出來的量尺、不管在哪一真分數水準下都能有大小非常相近的

測量標準誤 (standard

error of measurement; SEM)

，也就是說對於高低不同的

量尺分數而言，測量的精確性仍然可以維持穩定。因為測驗難免會有誤差產生，使用測量標準誤的一大用意是避免過度強調測驗分數的些微差異，如果不同得分考生的測驗分數都有大致相同的測量標準誤，對於每一位考生的測量精確性是相當的，這樣的優點應是國中基測量尺採用正弦反函數轉換法的最主要原因之一。但雖然如此，實際的情況是高中申請入學完全依照考生所得量尺分數的高低決定，具有穩定測量標準誤的特性也僅止利於分數的解釋，雖是測驗專業所樂見的優質結果，但對於考生能否進入理想高中並不會產生影響。反而是這些年下來，各界對於園中基測量尺分數存有許多疑惑與不解，繼而引發多方議題與討論。原因或許是過去考試多以原始分數為主，而新的量尺分數與長久以來使用的原始分數系統截然不同;亦或是由於國中基測所使用的這個正弦反函數非直線轉換法較不為國人所熟悉之故。國中基測自施行以來引起許多爭議的焦海 108 告中等教育革的卷第 1 期

(4)

國中基測量尺系統相關議題之探討

Issues of the BCTEST Sca怡

點之一莫過於量尺分數間距大小的問題，情形是，當考生測驗學科的原始分數被扣一分，所得的量尺分數卻有下降多分的可能，亦即原始分數雖然只有一分的差距，但所轉換成的量尺分數卻已有數分的差別，這通常分別發生在量尺高分與低分的兩端，但在高分一端、特別是在鄰近最高分附近的情況尤其嚴重，格外引起眾人注目;也就是說對於得分相當高的考生而言，答錯一題可能就會導致在量尺分數上頓時失去數分。除此之外，不同測驗學科量尺分數的間距大小也不一定相同。這雖然是將考生原始分數再做轉換才有的結果，但事實上這般現象並非只發生在我們園中基測的量尺分數中，也不是目前所使用的正弦反函數轉換法才會產生的特殊後果; 不等大小的量尺分數間距其實是一種普遍現象，是原始分數經由非直線轉換成為量尺分數後難以避免的結果，而且通常在高低兩端的量尺間距會比在中間部分的間距還要來得大。即使如此，對於影響考生入學權誼如此重大的國中基測量尺分數而言，任何過大的分數間距確實難以令人滿意，也非測驗工作者所樂見的事。不論如何，有關量尺分數的問題其實牽涉到許多重要的量尺化議題，這篇文章是筆者將自己執行完成的國中基測量尺分數的一些實徵性研究做出整理報導，主要是以國中基測量尺分數系統的形成為主，探討如何將國中基測原始分數作最佳的轉換形成量尺分數，分「國中基測原始至量尺分數轉換法」、「縮小量尺分數間距之可行性」以及「量尺總分形成之機制」三大主題進行。

貳、國中基測原始至量尺分數轉換法

首先筆者檢視使用幾個不同的原始至量尺分數轉換法應用在國中基測的效果，可說是相關量尺議題的主軸。這部分的研究目的在確保國中基測使用正弦反函數轉換法所得的量尺分數之適當性，另一方面也希望能提供有關其他不同量尺轉換法特性的有用訊息。研究之一是筆者使用國中基測實徵資料，比較採用直線

(linear

transformation) 、常態化 (normalizing transformation) 和正弦反函數

(arcsine

transformation) 的不同轉換法，將原始分數轉換為量尺分數之後的效果

(Chang

,

2006b) 。直線轉換法是純粹地將原始分數透過線性公式轉換而成量尺分數，不會改變原始分數的分配型態，這樣轉換的簡易性是直線轉換的一大特色。常態化與正弦反函數轉換法則是屬於非直線性轉換，考生分數透過非直線性轉換後的分數分配會與他們的原始分數分配不同。常態化轉換法是將原始分數轉換成為常態分配形狀的量尺分數，因為可以配合常態分配機率表的使用，在解釋考生分數時就容易許多、或許有促進分數解釋的功效 o 至於正弦反函數轉換法的介紹，本文稍 Dec帥肌 2008 Secor由yE帥枷賽 109 建

(5)

早已有提及，是將原始分數透過正弦反函數公式轉換為量尺分數，形成另一種新的分數型態，這樣轉換後量尺分數分配的一大特徵是不同考生所得量尺分數仍具有大致相同的測量標準誤，亦即不同考生所得量尺分數的測量精確性都維持相當穩定的程度。正如之前所說，這樣的優質結果是測驗專業所期待。這份研究的樣本是取自民國 90-92年的國中基測第一次測驗分數，每一年皆使用 5 ， 000筆的抽樣資料。為了避免研究範圍過度龐大，本研究僅採用國文、英語與數學三個測驗學科進行。評鑑標準包含原始至量尺分數轉換對照圓形、量尺分數

描述統計值、以及根據強真分數理論模式 (strong

true score model; Kolen et

此，

1992

)為基礎所算出的量尺分數之測量特性。研究亦比較量尺分數使用整數值、將量尺的兩端截斷至設定的分數範聞所產生的影響，也比較轉換後量尺分數間距的大小，以及評鑑轉換結果對於高中入學選擇決定的影響。研究結果指出，使用各種不同的分數轉換法皆各有其優缺點，但其中沒有任何特定的方法能具備所有期望的特性。就國中基測量尺制定之初，對於分數測量精確性的考量而言，正弦反函數轉換法是合乎期待的;不論是國文、英語或數學，使用正弦反函數轉換法所得結果在不同真分數水準下的測量標準誤大小都非常接近，亦即對於高低不同的量尺分數而言，測量的精確性仍可保持穩定;但是，正如前面所提及關於量尺分數間距的問題，這個非直線性的正弦反函數轉換在量尺高分一端產生間距過大的結果，一直是國中基測量尺分數引起爭議的焦點。若能單就量尺分數間距大小的評鑑準則而言，直線轉換法似乎是最好的選擇了，因為研究顯示直線轉換法所得量尺分數之各間距大小最為接近，沒有與原始分數的間距產生過大落差的後果;而且，透過直線轉換的量尺分數在解釋上原理也與原始分數相同。直線轉換簡潔的量尺分數型態與其解釋的容易性看似是相當理想的。然而，單純的直線轉換與原來的原始分數並沒有不同.

Angoff

(1971) 指出，直線轉換所得量尺可能只有一些或甚至沒有實質的意義。另外，再考量國中基測必須使用第一、二次測驗的結果進行等化，因為兩次測驗的試題難易度難免會有不同，使用直線轉換後的量尺進行等化可能引起更多的困惑與問題。至於常態化轉換法，研究結果是各測驗學科的量尺分數皆有類似的分配結果，尤其重要的是量尺分數之標準差或變異數變得非常接近。再者，承如Petersen

et

a

1.

(1 989) 所說，常態化後的量尺分數可以配合常態分配機率表解釋，這也是使用常態化轉換法的一大優勢;可是，事實上國中基測考生的分數分配並非常態，而且經由常態化的轉換，在量尺分數高分的一端還是存有間距過大的問題，甚至間距的大小將變得更無法預期;同時，在量尺低分的一端也將產生更大的分數間距。這樣看來，將常態化轉換法應用到國中基測似乎也不太合適。 ~110 毫中等教育事的科 1 期

(6)

Issues of the BCTEST Scale

筆者延續這個研究，繼續國中基測原始至量尺分數轉換法的比較。承接先前研究的發現與建議，這份後續研究的架構與範疇更為拓展與深化，除了之前所使用的

直線、常態化和正弦反函數三個轉換法外，研究中再加入log-odds的轉換法(

log-odds transformation) (Chang

,

2007)

0 log-odds轉換法與常態化和正弦反函數

轉換法一樣，都是屬於非直線性的轉換，但不同的是 log-odds 轉換使用的是能力

(ability) 量尺而非分數 (score) 量尺，研究上指出 log-odds轉換的能力量尺通

常用來作為試題反應理論(Iterrì'

Response Theory; IRT; Lord

,

1980) 所使用的

theta量尺的近似值，所以檢視 log-odds轉換法應用在國中基測的效果有其需要，能了解它的表現對於日後的更多研究應有實質的助益。

這份後續研究在資料方面的使用也更擴大，包含賈徵與模擬資料兩部分。實徵資料方面還是採用民國 90-92年國中基測第一次測驗的分數結果，但包合國文、英語、數學、自然、以及社會全部五個測驗學科，每一年皆使用 5 ， 000 筆的抽樣

資料。模擬資料方面則是根據三參數extended beta-binomial的模式 (Carlin

&

Rubin

,

1991)

.模擬產生一如實際園中基測各科的分數分配，根據 90-92年第一次測驗實際考生分數所估計出的參數值，分別產生 20.000 筆的資料，整個模擬的程序皆各進行200次的送代。本研究使用模擬資料最主要的用意是，研究中評鑑各轉換法優缺點的標準之一是比較它們在不同其分數下的測量標準誤大小，因為強其分數理論可以提供真分數與測量誤差分配上一個合適的模式計量基礎，評鑑量尺分數的特性(如各真分數的測量標準誤等)因此便奠基於強真分數理論之下進行。有鑒於在先前研究裡使用強真分數理論適配國中基測的實徵資料結果不是相當令人滿意，為了排除使用實徵資料可能會有資料與模式適配度不佳的問題，以致在評鑑測量標準誤時無法正確反映其真正大小而影響研究結果，所以本研究加入模擬資料的部分，在資料與模式完全適配的情況下，再次檢視各種轉換法的表現。研究模擬所

採用 Carlin

and Rubin ( 1991

)的三參數extended

beta-binomial

model是強真分

數理論中可用數種模式之一。雖然實際的國中基測分數分配相當特殊，各科亦有不同，但本研究由模擬產生的資料型態可算是相當接近實際的分配。這裡評鑑各轉換法表現的準則還是包含原始至量尺分數轉換對照圓形、量尺分數描述統計值，以及使用強真分數理論模式為基礎所計算出之量尺分數的測量特性;量尺分數使用整數值、將量尺的兩端截至設定的分數範圍所產生的影響、轉換後所得量尺分數問距的大小，還有評鑑轉換結果對於高中入學選擇決定的影響。研究結果亦與先前的研究類似，不同的分數轉換法各有其優缺點，並無特定的轉換法能一概具備所有期望的特質。從研究使用實徵與模擬資料的結果看來，各種轉換法在這兩種資料狀況下的表現大致相同。民國 90-92這三年中，所有五個測驗

(7)

學科因正弦反函數法的轉換，不同真分數下的測量標準誤大小變得非常接近;就高低不同的量尺分數而言，測量的精確性仍可維持穩定，但是，經由正弦反函數的轉換可能會導致量尺高分一端產生間距過大的後果。直線轉換法所得的量尺分數之各間距大小最為相同，然而，這個量尺系統實質上與原始分數沒有不同，可能會影響後續進行的測驗等化。而常態化轉換法能使各科量尺分數皆有類似的分配結果，但量尺的高低兩端皆有可能產生很大的分數間距。至於使用 log-odds轉換法的效果，雖然測量誤差量之總平均最小，但它所導致量尺高低兩端的分數間距卻比研究中所有其他轉換法產生的間距都要來得更大，尤其是在量尺高分一端的情況更為嚴重。另外，研究中有關英語科分數分配之特殊性在整個國中基測量尺系統形成中之影響，性也是件值得關注的事。研究結果顯示考生英語分數呈雙峰分配，這種分配的現象只是單純地反映考生在學校裡英語學習的實際成就?亦或是意味著國中基測英語科的測驗題本需要重新檢視與修改?有關於英語科測驗這部分的議題，需要更多研究的討論與指示，方能使大家對於其分數的特殊性有更進一步的了解，同時也會對國中基測整個測驗的編製及學校課程有更多的想法。最後，在本議題結束之前，筆者特別針對國人非常關心的量尺分數間距大小的問題，整理以上研究的結果，將原始分數透過各種不同的分數轉換法成為量尺分數後，在量尺高分一端最高的四個量尺分數之間距結果，以表格呈現如下，以供參考。表格中的每一細格都有三個數字，分別列出該得分最高四個量尺分數的間距大表 1 民國 90-92 年國中基測實徵與模擬資料之各測驗學科透過不同分數轉

換法所得最高四個量尺分數之分數間距

實徵資料模擬資料測驗學科直線常態化正弦反函數 log-odds 直線常態化正弦反函數 log-odds 90年基測國文 2

,

2

,

2 5 ，5 ，。 3

,

3

,

6 2

,

5

,

13 2

,

2

,

2 4

,

5

,

3 3

,

3

,

6 2人 14 英語 ₂

_,

₁

_,

₂ ₃

_,

₆

_,

₉ ₂

_,

₃

_,

₆ ₂

_,

₅

_,

₁₃ ₂

_,

₁

_,

₂ ₂.4.14 2

,

3

,

6 3人 14 數學 ₃

_,

₂

_,

₂ 4

,

5

,

2 3

,

3

,

6 3

,

4

,

13 3

,

2

,

2 3

,

5

,

3 3

,

3

,

6 3人 13 自然 1

,

2

,

1 4

,

3

,

0 2

,

2

,

5 2

,

4

,

12 1.2.1 ₃

_,

₄

_,

₂ ₂

_,

₂

_,

₅ 2.4.12 社會 ₁

_,

₂

_,

₁ ₅

_,

₁

_,

₀ ₂

_,

₂

_,

₅ ₂

_,

₄

_,

₁₂ 1.2.1 3

,

5

,

1 2

,

2

,

5 2人 12 91 年基測國艾 2

,

1

,

2 5

,

4

,

0 3

,

3

,

5 2

,

4

,

13 2

,

1

,

2 3

,

5

,

2 3

,

3

,

5 2人 13 英語 ₁

_,

₂

_,

₁ ₅

_,

₂

_,

₀ ₂

_,

₂

_,

₅ ₃

_,

₃

_,

₁₂ 1.2.1 ₃

_,

₄

_,

₃ 2

,

2

,

5 2.4.12 數學 2

,

2

,

2 5

,

2

,

0 2

,

3

,

6 3

,

4

,

12 2

,

2

,

2 4

,

5

,

0 2

,

3

,

6 3

,4,

12 自然 ₂

_,

₁

_,

₁ ₄

_,

₂

_,

₀ ₂

_,

₃

_,

₄ 3

,

3

,

12 2

,

1

,

1 2

,

4

,

1 2

,

3

,

4 3.3.12 社會 ₂

_,

₁

_,

₁ _{。，0 ，。} ₂

_,

₃

_,

₄ ₃

_,

₃

_,

₁₂ ₂

_,

₁

_,

₁ _{3， 1 ，。} ₂

_,

₃

_,

₄ _{2人 12} 92年基測國文 2

,

2

,

2 4 ，6 ，。 3

,

3

,

6 2

,

5

,

13 2

,

2

,

2 4

,

5

,

3 3

,

3

,

6 2

,4,

14 英語 ₂

_,

₁

_,

₂ ₄

_,

₅

_,

₁₀ ₂

_,

₃

_,

₆ ₂

_,

₄

_,

₁₄ ₂

_,

₁

_,

₂ ₂

_,4,

₁₅ ₂

_,

₃

_,

₆ _{3人 14} 數學 3

,

2

,

3 3

,

6

,

9 3

,

4

,

7 3

,

4

,

15 3

,

2

,

3 3.4.12 _3人7 _{3人 15} 自然 ₁

_,

₂

_,

₁ 3

,4,

0 2

,

2

,

5 2

,

4

,

12 1

,

2

,

1 3

,

4

,

2 2

,

2

,

5 2人 12 社會 ₁

_,

₂

_,

₁ ₅

_,

₂

_,

₀ ₂

_,

₂

_,

₅ ₂

_,

₄

_,

₁₂ ₁

_,

₂

_,

₁ ₃

_,

₄

_,

₂ ₂

_,

₂

_,

₅ ₃

_,

₃

_,

₁₃ 註:每個細格最右邊的數字為最高分與次高分的分數間距，以下兩個數字類推。資料來源:出自 Chang (2007) 。 ~112 告中等教育事 60 卷草 1 期

(8)

小之值，每個細格最右邊的數字是最高分與次高分的分數問距，以下兩個數字額推。舉例來說，民國 90年實徵資料裡國文科透過常態化轉換法後之最高分與次高分的間距為 o. 次高分與第二次高分的問距以及第二次高分與第三次高分的間距大小都同時為 5 分。

參、縮小量尺分數間距之可行性

繼國中基測量尺分數形成的研究，探討使用不同的原始至量尺分數轉換法應用在國中基測的效果之後，筆者接著以不同方法試探縮小國中基測原始分數經由正弦反函數轉換為量尺分數後所產生的分數間距之可行性 (Chang，

2005)

.目的是希望在能保留良好測量特性的前提下，尋求縮小量尺分數間距的最佳策略。這裡，筆

者設計了「無調整法 J

(the no adjustment

method) 、「同等平均數法 J

(the

fixed mean

method) 、「不同等平均數法 J (

the varying mean

method) 、以及

「不同等平均數及標準差法 J (

the varying mean/SD

method) 這四種量尺分數間

距縮小法，探討它們縮小國中基測各科測驗量尺最高分與次高分間距分別至于 4 、 5 分之後的效果。「無調整法」的做法是直接保留經正弦反函數轉換之一般程序後所得結果，對於分數間距不作任何調整，並將其結果作為研究比較的基準。「同等平均數法」則是使用比在「無調整法」中執行直線轉換步驟時還大的標準差進行，全面擴大量尺範間，進而達到使量尺最高分與次高分的間距能分別縮減到 3 、 4以及 5 分的效果，此時仍保留原來國中基測各科量尺平均數為 30分的特性，亦即量尺平均數仍然維持在 30分左右。「不同等平均數法」是自「無調整法」所得的轉換結果再加一正整數，使量尺全面向高分一端平移，促使最高分與次高分的問距能分別縮減到 3 、 4以及5 分的大小為止，此時量尺平均數會高於 30分，國中基測量尺就不再具有平均數為 30 的特性。至於「不同等平均數及標準差法」的做法是將「無調整法」所得的轉換結果再乘上一正整數，這樣使量尺全面向兩端擴大，進而使最高分與次高分的間距能分別縮減到3 、 4以及5 分，透過這樣的程序既改變了國中基測之量尺平均數的大小，也改變了其標準差之值。有關這四種量尺分數間距縮小法的詳細內容及程序介紹，請參閱 Chang (2005) 。這份縮小量尺分數間距的研究使用模擬資料，還是以強真分數理論為基礎，採

用 Carlin

and Rubin

(1991) 的三參數extended beta-binomial模式進行，根據民

國 92年第一次國中基測國文、英語、數學、自然、社會各科實際考生分數所估計出

(9)

誤差量) ，以及在不同真分數下之測量標準誤大小。這部分的研究結果指出，沒有任何一種方法能達到縮小量尺高分一端分數間距的目標，而卻不會對測量特性產生任何負面的效果。使用「同等平均數法」後國中基測各科量尺平均數仍維持在 30分左右，但它將會導致許多中等得分的考生量尺分數之測量標準誤被提高許多，也就是可能使許多考生所得量尺分數之測量標準誤變得較大，對這些考生而言，測量精確性因此降低。這樣因為不同得分範圓的量尺分數測量精確性不同，又因為所影響的量尺部分是很多考生得分所在，採用這個策略理當不好。至於「不同等平均數法」的效果是它會使得分低的考生所得量尺分數有較大的測量標準誤，但如果能將這部分測量誤差的結果置之不理的話 r 不同等平均數法」似乎是一個不錯的選擇，因為它對於其他部分大多數考生量尺分數所帶來的測量標準誤較小。然而，使用這個方法的顧慮是國中基測五個測驗學科的量尺平均數不僅會高於 30 分，而且其中某幾科之量尺分數平均值甚至將超出所預定的 30 分許多。綜合各方面的優缺點 r 不同等平均數及標準差法」所產生的折衷效果似乎是最好的。雖然應用這個方法會比「無調整法」的一般結果稍微提高一點量尺分數平均數與標準差之值，同時其測量精確性也會比單純使用「無調整法」時稍微降低一些;然而 r 不同等平均數及標準差法」可以縮小原來由「無調整法」所產生在最高分與次高分量尺間距之大小，國中基測或許可以考慮使用這樣折衷的做法，在降低一些對既定量尺分數特性之要求後，國中基測量尺分數間距的結果可能會較令人滿意與容易接受，進而能促進其測驗分數的解釋與使用。筆者在男一份類似的研究特別又將題本難易度這個因素列入考量，檢視題本難易是否，以及又如何影響量尺分數間距縮小法的表現，希望能對這四種量尺分數間距縮小法有更進一步的了解 (Chang ， 2008b) 。因為國中基測每年題本難易略有不同，這個研究模擬產生一如民國 90-92年期間國中基測五個學科的考生分數分配，比較各量尺分數間距縮小法在不同測驗年間的效果，研究結果發現題本難易會影響間距縮小法的表現，不同的量尺分數間距縮小法在題本難易程度不同時所產生的效果也會不同，但其中沒有任何一種方法能完全滿足縮小量尺高分一端分數間距的要求，而卻不會帶來任何負面的效果。調整量尺分數的間距對於較容易的題本所產生的影響大於較困難的題本;題本難度增加後，各間距縮小法之調整影響性也隨之降低。整體而言，在加入難易度的特別考量因素後 r 不同等平均數及標準差法」似乎還是最好的選擇。這個研究的結果除了加強對分數間距的了解外，也當同這~114告中等教育第 60 春草 1 期

(10)

Issues 01 the BCTEST Sca怡

時喚起了國中基測本身在編製題本、建立量尺時，對於難易度議題所扮演的角色之注意。

肆、量尺總分形成之機制

至於有關形成量尺總分的部分，筆者試圖從不同的研究設計著手，希望能為國中基測建構出較佳量尺總分之形成機制。國中基測量尺總分由各科測驗的量尺分數組合而成，目前的計算方式是每科測驗分數所佔的權重(或比重)一樣，亦即沒有對其中任何一科作較多的加權。如果每科測驗量尺分數分配大致相同、沒有太大差異的話，單純的將各科加總形成量尺總分是最通常的做法，應該是可以接受的。然而，國中基測各科測驗分數的分配特徵彼此不同，有的學科尤其具有獨特性而與其他學科有相當大的差異。目前的情況是考生在某學科答錯一題可能會比在其他學科答錯一題還要來得更有利或更不利;或是當答錯題數一樣，但錯誤發生在同一科與或者分散於各學科時所得量尺總分也可能有很大的不同。這樣的問題牽涉到測驗

量尺化中有關各學科之有效權重 (effective

weight; Wang

&

Stanley

,

1970) 的議

題。如果不同學科測驗分數的分配差異很大，例如分數的分散性各不相同，這樣根據測驗理論計算出來的有效權重就不相同，而造成各學科對量尺總分的有效貢獻量

(effective

contribution) 不一樣。研究文獻指出，如果這時還是將各學科的量尺分數直接加總，名義上看來是每科佔有同樣的份量，但可能不是最合適的量尺總分計算方法。筆者首先探索的方式是使用國中基測原始分數不同類型的分數型態，然後經由正弦反函數轉換的程序分別將其轉換成為量尺分數，藉由評鑑與比較使用以不同原始分數型態為基礎後再進行轉換的效果，試圖找出較好的量尺總分形成方式

(Chang

,

2006a) 。研究中所設計原始分數的不同型態分別為答對題數、 Z分數、與答對百分比。研究評鑑的標準為原始至量尺分數轉換對照圓形、量尺分數描述統計值，以及根據強真分數理論為基礎所得量尺分數的測量特性。另外再比較轉換後各測驗學科對於量尺總分變異的有效貢獻量、轉換後量尺分數間距大小，以及量尺分數使用整數值、將量尺的兩端截斷至設定的分數範圍所產生的影響。這部分的研究結果是，使用不同原始分數型態進行轉換各有其優缺點，但還是沒有特定的分數型態能使量尺具備全部所有期望的特性。就測驗學科對於量尺總分的有效貢獻量而言 'Z分數的效果似乎是最好的。透過原始分數以Z分數的型態出現後再作轉換，每個測驗學科的量尺分數分配便大致相同，其中因為各學科分數變

(11)

異數已經相同，所以有效權重相等，對於量尺輝、分的有效貢獻程度也隨之相同。然而，使用 Z分數的分數型態可能會有量尺分數間距過大的後果。如果評鑑的標準是根據不同真分數下的測量標準誤是否得以維持相等的特性而言，使用答對題數的分數型態結果最好，其次是答對百分比;使用原始分數的這兩種型態轉換，所得量尺不論在高分或低分部份之測量精確性還是保持相同，在測驗上將有促進量尺分數解釋與說明的功效。男一種方式是先將各科的原始分數分別轉換為量尺分數，然後再考慮如何對各科量尺分數做最合適的加權處置( Char屯， 2008a) 。筆者回顧測驗理論與文獻中使用或討論過的加權機制模式，將測驗學科不同的測量特性與分數分配的特徵列入計算各科權重的過程之中，檢視不同加權方法實際應用在國中基測的效果。

研究中比較 Gul1 iksen所介紹的「等比重加權 J

(the equally-weighted mode1)

「信度加權 J

(the reliability weighting

mode1) 、「標準差加權 J

(the SD

weighting

mode1) 與「測量誤差加權 J

(the error of measurement weighting

mode

l)

(Gulliksen

,

1950)

，另外還有「有效分數加權 J

(the effective score

point mode1 ) (Ma

,

Kim

,

&

Wa1ker

,

2006) 這五種不同的加權機制模式，嘗試探

索各測驗學科的最佳名義權重 (nomina1

weight; Wang

&

Stan1ey

,

1970) 而形成最合適的量尺總分。「等比重加權」機制模式賦予每個測驗學科相同的名義權重，這也是目前國中基測的做法，五個測驗學科都各佔相同的權重或比重。「信度加權」模式則賦予測驗信度較高的測驗學科較大的名義權重，亦即在加總的過程中，信度較高的測驗學科所佔的份量比較大。「標準差加權」模式中，加權比重是與每個測驗學科之量尺分數標準差成倒數關係;加總的過程中，量尺分數之標準差較小的學科會有較大的名義權重，也就是學科的量尺分數標準差較小者所佔的加權份量會較大。而「測量誤差加權」模式裡'加權比重則與測驗學科之量尺分數測量誤差成倒數關係，學科量尺分數之測量誤差較小者名義權重較大;這樣加總時，測量誤差較小的科目所佔比重比較大，也意謂著當測驗的信度較高時，該科也會有較高的加權比重。至於「有效分數加權」的機制模式，其原理牽涉到每個測驗學科中難易度相近題目的題數多寡，以及測驗信度的部分，相關的理論與公式細節稍為繁瑣，有興趣的讀者可參閱(

Chang

,

2008a) 的內容。這份研究的樣本是採自民國 94年國中基測第一次測驗五科分數之 5 ， 000筆隨機資料，評鑑的準則包括各測驗學科原始分數、量尺分數與加權後量尺總分的統計與測量方面的特性，各測驗學科對量尺總分的有效貢獻量，以及不同權重之於高中入學選擇決定的影響。這~116 運中等教育事的卷第 1 期

(12)

圈中基測量尺系統相關議題之探討

研究結果顯示，經由各加權機制模式所形成的量尺總分其信度係數都很高。然而，當一一檢視各測驗學科對總分的有效貢獻量時，不同加權機制模式的效果卻存有極大的差異。其中仍然沒有一種加權方法可使得每個測驗學科的有效貢獻量達到大致相當的終極目標，不過，整體而言 r 標準差加權」與「測量誤差加權」這兩種加權機制模式的表現仍比「信度加權」或「有效分數加權」的模式來得好。「標準差加權」及「測量誤差加權」所得各測驗學科的名義權重或有效權重(亦即對總分的有效貢獻量)都較為相當，比較不會有某幾科佔過多份量的情形;而「信度加權」或「有效分數加權」模式產生的差異性頗大，可能導致某些測驗學科有相對強勢的名義權重或有效權重的情況出現。這部分研究所提出的結果與建議，探討如何將各科測驗分數作最合適的組合以及有關暈尺總分的相關議題，對於測驗的研究或實務工作方面應有相當的助益。

伍、結語

發展國中基測作為三十萬考生申請進入高中入學的依據是前所未有的，編製國中基測實在不是一項簡單的工作，量尺分數主導入學選擇的決定，為國中基測建立適當的測驗量尺是關係其成敗的重要關鍵;因為量尺分數有別於原始分數，使大家能確實了解量尺分數的結果與意義也具有相當的挑戰性。檢視國中基測不同學科的特殊性及其分數使用的目的，將國中基測的原始分數轉為量尺分數而仍保留所有期待的特性並非易事。在筆者所整理的這幾份研究中，主題涵蓋了「園中基測原始至量尺分數轉換法」、「縮小量尺分數間距之可行性」以及「量尺總分形成之機制」等議題，結果都顯示了研究中所使用的方法、策略或模式，不論是原始至量尺分數轉換法、量尺分數間距縮小法、或是量尺總分形成的加權機制模式，都各自具有優點與缺點，但其中卻沒有任何一種方法或模式可以完全地適配國中基測，能使所制定出來的團中基測量尺符合各方面優質特性的期待，也就是說，量尺上某些既定的測量特性將無法保留。測驗量尺依其所適用的測驗而建立，測驗編製單位通常根據測驗使用的目的，考量如何為該測驗制定最佳的量尺，希冀這個量尺上的分數能有助於該份測驗的使用並順利達成測驗的目的。目前國中基測所涵蓋的五個測驗學科在內容、題數、信度等測量特性上都不一樣，各科測驗分數的分配特徵也不盡相同，有些科目之獨特性尤其更為顯著;建立國中基測量尺必須從這許多方面來考量，或許無法一一滿足

(13)

一一一貴的散發與貢獻，提供更有力、完整的理論基礎與更充分的文獻資料參考。特別就國中基測來說，考慮的重點或許可以著重在下列方面:將原始分數轉換成量尺分數後的間距大小，尤其是量尺高分與低分的這兩端;量尺低分一端截斷至量尺最低分的情形(亦即考生得量尺分數 1 分的情形)以及在不同量尺分數下的測量誤差之相近程度。筆者綜合以上研究的結果，關於原始至量尺分數轉換法的部分，正弦反函數轉換對國中基測而言似乎還是不錯的選擇，原因是它可以使不同得分考生的分數仍有大致相同的測量誤差，也就是對每位考生的測量精確性大約一樣。然而，如果國中基測繼續採用正弦反函數這種轉換方式，最好還要有更多的研究設法改善量尺高分一端間距的大小，尤其是最高分與次高分的問距，使用一些合理的策略調整量尺分數的間距是值得嘗試的，筆者所設計的「不同等平均數及標準差法」或許可以作為研究進行的起點。至於國中基測量尺總分形成的機制方面，除了可以將測驗學科不同的測量特性與分數分配特徵列入計算各科權重的程序，例如筆者研究中所建議、以傳統測驗理論為基礎的「標準差加權」與「測量誤差加權」這兩種模式之外，還可以考慮應用試題反應理論 IRT的架構與方法，將組成國中基測的各科測驗之特殊性列入考量，進一步探索更合適的加權計分模式。國中基測量尺適用的對象是為數龐大的考生，他們在學習成就上的極大差異自然是可以被預期的;要為這樣的測驗建構合適的量尺，以及對於其量尺分數作正確的解釋與使用，本非易事;然而，檢視量尺分數系統實際使用之後的表現也是相當重要的事。正如同 Dorans (2002) 所提醒的，審查量尺是否能真正符合測驗目的的要求，必要時修訂量尺分數系統的工作亦在所難免。希望筆者有限的研究成果，及所提出的相關訊息、建議或方向，對於架構園中基測量尺系統時應考慮的重要議題己有些散發與貢獻，也期盼對於學術研究以及實務工作上有了相當的助益。

參考文獻

Angoff

,

W.

H. (1971). Scales

,

norms

,

and equivalent scores. In R.

L.

Thomdike (Ed.)

,

Educational

measurement (2nd ed.

,

pp. 508-600). Washington

,

DC: American Council on Education.

Carlin

,

J.

B. ,

&

Rubin

,

D. B. (1991). Summarizing multiple-choice tests using three informative

statistics.

Psychological Bulletin, 110, 338-349.

Chang

,

S. W.

(20肘，

Apri

l).

Explorations of

aφlsting

procedures for minimizing gaps in the

(14)

Issues of the BCTEST

Sca恰

to-scale score conversions for the BCTES

T.

Paper presented at the annual meeting of the

National Council on Measurement in Education

,

Montrea

l.

Chang

,

S. W. (2006a). Effects of score formats on the formation ofthe BCTEST composite.

Chinese

JoumalofPsychology,

48

(\),

89-114. Taipei

,

Taiwan.

[中華心理學刊]

Chang

,

S. W. (2006b). Methods in scaling the Basic Competence Tes

t.

Educational and

Psychological Measurement,

66(6)

,

907-929.

Chang

,

S. W. (2007). Comparisons of score transformation methods for the BCTEST using real and

simulated data.

Chinese Joumal ofPsychology,

49 (2)

,

105-135. Taipei

,

Taiwan.

[中華心理學刊]

Chang

,

S. W.

(200 加，

March).

Choi白 of

weighting scheme in forming the composite. Paper

presented at the annual meeting of the National Council on Measurement in Education

,

New

York

Chang

,

S. W. (2008b). Effects of gaps-minimizing approaches on the raw-to-scale score conversions

when forms vary in difficulty.

Bulletin of Educational Psychology: Special Issue on Test and

Measurement,

3月 151-174.

Taipei

,

Taiwan.

[教育心理學報2008年 39卷:測驗與評量專刊]

Dorans

,

N. J. (2002).

The recentering of SAT scales and its effects on score distributions and score

interpretations (College Board Research Report No. 2002-11; ETS Research Report RR-02-04).

New York: The College Board. Retrieved April 5

,

2006

,

from http://www.ets.org/research/

dload/RR-02-04.pdf

Gulliksen

,

H. O. (\ 950).

Theory of

m凹的1

tests. New York: Wiley.

Kolen

,

M. J. (\ 988). Defining score scales in relation to measurement error.

Joumal of Educational

Measurement,

2.丸 97-110.

Kolen

,

M. J.

,

&

Brennan

,

R.

L.

(2004).

Test equating, scaling, and linking: Methods and practices

(2nd ed.). New York: Springer Science+Business

Med間，

Inc.

Kolen

,

M. J.

,

&

Hanson

,

B. A. (1989). Scaling the ACT Assessmen

t.

In R.

L.

Brennan (Ed.)

,

Methodology used in scaling the ACT Assessment and P-ACT+ (pp. 35-55). Iowa City

,

IA:

American College Testing Program.

Kolen

,

M. J.

,

Hanson

,

B. A.

,

&

Brennan

,

R.

L.

(1

992). Conditional standard errors of measurement

for scale scores.

Joumal of Educational Measurement

,

29 ,

285刁 07.

Lord

,

F. M.

(1

980).

Applications of item response theory to practical testing problems. Hillsdale

,

NJ: Lawrence Erlbaum.

Ma

,

X

,

Kim

,

S. ,

Walker

,

M. E. (2006

,

April).

Optimal weighting of section scores and forming a

composite score. Paper presented at the annual meeting of the National Council on

Measurement in Education

,

San Francisco