大型資料庫國小四年及自然科學習成就評量標準設定結果之效度評估

(1)

謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉教育科學研究期刊第五十六卷第一期 2011 年，

56 ( 1 )

,

1-32

學習成就評量標準設定﹒

1

• 大型資料庫國小四年級自然科學習成就評量

標準設定結果之效度評估

謝進昌謝名娟

_林世華

國家教育研究院國家教育研究院國立臺灣師範大學測驗及評量研究中心測驗及評量研究中心教育心理與輔導學系助理研究員助理研究員副教授林陳浦

_陳清溪

_謝佩蓉

國立全灣師範大學國家教育研究院國家教育研究院生命科學系院長室測驗及評量研究中心教授主任秘書博士後研究員

摘要

學習成就評量資料庫建置目的之一，在於描述學生於各學科的學習成就表現概況;而學習成就表現的描述，即牽涉到標準設定議題。隨著臺灣學生學習成就評量資料庫對於國小四年級自然科之評量架構調整，致使沿用的表現標準已多不符合實務運用，而興起重新修訂之舉 O 本研究主要目的在於評估 2009 年自然科學習成就評量國小四年級標準設定結果之效度，以 Kane (1994， 2001) 的效度評估證據為依據，藉由效度的過程證據、內部證據以及外部證據，作為標準設定結果之效度證據來源。結果發現，從各項效度證據來看，國小四年級自然科標準設定可由標準設定成員的組成及其回應、設定結果的一致性，以及外推論於數學成就的效度外部證據得到支持。本研究最後提出數項建議，供未來標準設定研究者參考。關鍵字:效度評估、書籤標定法、標準設定

通訊作者:謝佩蓉， E-mail: 即h@mail. naer.edu.tw

(2)

·2· 學習成就評量標準設定謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉

宜、 nu 百

隨著國際的趨勢與潮流，臺灣教育決策者漸漸意識到，建置長期學習成就評量資料庫的需求，以作為研訂課程與教學政策之重要參考依據;臺灣學生學習成就評量資料庫(

Taiwan

Assessment of Student Achievement

,

TASA) 便在此背景下應運而生。其建置目的，在於追蹤、

分析臺灣國小、國中，以及高中職學生之學習成就表現，藉以探討學生學習成就上之表現差異與學習上發展之趨勢，進而檢視當前國家教育體制與政策實施之成效;據此，其設置最重要的目的之一，乃在於描述臺灣學生於各學科的學習成就表現概況 Q 學習成就表現的描述即牽涉到標準設定議題，而世界各大型學習成就資料庫，對於標準設定之方式不盡相同。國際數學與科學教育成就趨勢調查 (Trends

in International Mathematics and Science Study

,

TIMSS) 、國際學生成就評比計畫(

Programme for International Student Assessment

,

PISA)

，對

於學生表現概況的描述，乃建立在相對標準上面。TIMSS 以固定間距(即百分位數)進行切截分數訂立(

Mullis

,

Erberber

, &

Preuschoff

,

2008 )

，例如:美國國小四年級學生在 TIMSS

2007

自然科，有 6%低於初級國際基準點 (low benchmark) 以下，而臺灣只有 3%的學生低於初級

國際基準點以下。而 PISA 對切截分數設立的想法與作法，某程度亦雷同於 TIMSS

( Organization for Economic Cooperation and Development [OECD]

,

2009)

，決策者對於學生表

現的詮釋方式，乃透過相對比較來呈現;接續，再以實徵數據篩選適當試題，進行各國際基準點的質性能力描述，而此詮釋模式的產生亦多為呼應其國際評比的評量目標O 另一方面，就本研究探討之TASA 自然科學習成就評量而言，其2009 年的評量架構係參酌國民中小學九年一貫課程綱要中，自然與生活科技學習領域的分段能力指標(教育部，

2003)

，以效標參照評量 (criterion-based assessment) 的精神進行測驗的設計:亦即對於測驗表現結果的詮釋建立在絕對標準上，探討各年段的學生經過學習後，對應課程所規劃的內容標準(

content

standards) 時，位於不同水平( level) 之學生，所具備之不同能力或知識。TASA 不採用國人較熟悉的常模參照來詮釋測驗結果，而是藉由標準設定(standard setting) 的方式來闡釋，期望盡可能降低學生同儕競爭之壓力。在此理念下，吳宜芳、鄒慧英及林娟如 (2010) 曾針對 TASA 數學科建立各水平的標準，而吳毓瑩等 (2009 )則就 TASA 之英語建立通過/不通過的標準，並同時輔以適切的標準設定效度證據，以支持其標準設定結果。時至今日， TASA 自然科標準設定之後繼研究較少，且隨著現行評量架構之調整，致使治用的表現標準已多不符合實務運用，而興起重新修訂之舉。據此，本研究目的為評估2009 年臺灣 TASA 國小四年級自然科標準設定結果，輔以過程、內部及外部等多元效度證據，最後提出數項建議，供未來標準設定研究者參考。

(3)

謝進昌、謝名娟、林世華、林陳浦、陳清 j英、謝佩蓉

貳、文獻探討

3 •

本節首先說明 2009 年 TASA 自然科所引用標準設定過程、技術之文獻基礎，以確立其理論依據，接續，再陳述評估標準設定結果可能的效度證據來源及本研究採行之準則，茲逐一陳述如下: 一、標準設定流程之理論基體在 2000 年以後，對於執行標準設定的流程或技術'各學者所提出的概念十分豐富及多元。本研究主要擷取 Cizek 與 Bunch (2007) 所著專書 Standard

setting: A guide to establishing and

evaluating

pe功rmance

standards on

tests 所提及之標準設定共同核心元素為架構，再輔以美國

國家教育進展評估 (N

ational Assessment of Educational Progress

,

NAEP

)執行標準設定時，所提供的實務經驗為標準設定藍圖。此舉乃因本研究標的之建置理念和目的，十分貼近NAEP 評量的取向，因而適合作為標竿o Cizek 與 Bunch

( 2007

)認為執行一項標準設定，其流程大致包含幾個重大面向，分別是: 澄清測驗目的、訂定表現標準個數並命名、建立表現標準描述、選擇及訓練標準設定成員、執行標準設定、形成切截分數、以及評估標準設定過程與結果。其概念的組成大致可形成如圖 l 所示，茲說明如下。澄清測驗目的訂定表現標準個數並命名選擇標準設建立表現標準描述定成員 _共識執行標準設定訓練標準設技術選擇定成員訊息回官員過程監控共識形成切截分數圖 1 標準設定流程

評估標準設定過程與結果

(4)

·4· 學習成就評量標準設定謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉可 (一)澄清測驗目的在整個標準設定的過程中，最重要的指引就是測驗目的，它反映的不僅是回答如:設定這些標準的目的為何?是否有需要設定通過標準?同時，不同測驗日的也會接續影響到表現標準個數的選擇及標籤命名。 (二)訂定表現標準個數並命名以 NAEP 為例，其日的為瞭解美國學生學習進展情況，使能廣泛描述各成就水平學生的

表現，因此，美國國家評量指導委員會 (National

Assessment Governing Board

,

NAGB

)於 1990 年規劃三個表現標準，其標籤分別命名為基礎(basic) 、精熟( proficient) 以及進階

( advanced)

，將學生區分出四個表現類別(performance

categories)

0 此舉除考量測驗本身目

的外， NA日本身亦擁有龐大施測題數，具有較高測量考驗力(

measurement

power) 足以區分

出四個表現類別學生之能力差異。而命名則是在通盤考量後，選擇最能反映NAEP 職責之名稱，作為最終版的表現標準標籤命名(

Bourque

,

2009

)。國內進行標準設定時，表現標準個數可能依學科特性，而有不同的考量o TASA 國小四年級、六年級數學科各約有 100 題，題數足夠劃分三個表現標準(吳宜芳等，

2010) ;

TASA 國小六年級英語雖有 70 題，然學習內容的深度與廣度可能較有限，故僅有一個切分點，表示通過與不通過(吳毓瑩等， 2009) 。未來設計標準設定研究時，題數和學科特性均須同時考量。

(三)建立表現標準描述

在為表現標準標籤命名後，決策者則必須進一步為各水平的實質內涵下定義，以界走出他們心目中所期望基礎、精熟或進階學生的能力各自為何。若反映在不同學科內容時，此概

念稱之為表現標準描述或如 Cizek 與 Bunch

(2007

)將之稱為表現水平描述(

performance level

description

,

PLD)

，它代表的是學科專家對於不同水平學生或受試者於某學科應具備的共同知識、技巧或能力的描述，而通常(但非必要)會包含一般性(general) 、具體性 (specific) 或臨界的文字陳述 (borderline

description)

，例如:具備基礎水平的自然科學生，應該擁有察覺與描述自然現象的能力，像是學生要能發現食鹽溶解於水的現象O (四)選擇及訓練標準設定成員選擇適切之標準設定成員，並透過合宜之訓練課程，使參與成員瞭解並熟悉標準設定之要旨、技術等，乃為提升標準設定效度不可或缺之一環O 而標準設定成員選擇的概念，就如同執行抽樣技術一般，不僅希望能具有母群之代表性，同時，組成成員數目亦希望人數足夠達到較高精確程度的統計估計。就NAEP 經驗而言，為因應美國幅員廣大，乃先以分層隨機抽樣的方式，抽出提名人(

nominator)

，再從提名人的提名名單中選出符合資格的設定成員，以服膺各州代表性(

American College Testing

[AC呵， 2005 )。

(5)

謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉學習成就評量標準設定·

5

•

但由於各標準設定方法複雜度的差異、經費充足與否等因素，在在會影響成員選擇的結果，而就 NAEP 標準設定成員的組成經驗視之，三分之二人員由教師與其他非教師之教育者所組成，而其餘的三分之一由公眾/非教育者所組成，同時，樣本的組成還考量到地區、社

群、種族與性別之平衡(

Bourque

,

2009

)。而在成員數日的決定方面，早先National

Assessment

Governi月 Board

(NAGB

,

1990) 認為 16-20 人，就能達到心理計量中相當程度的精確性，而

Hambleton (200 I

)也有類似的建議，認為 15-25 人就能讓設定結果更具強韌性，此外，

ACT

(1

994

)則認為在各年段、學科中，若有至少30 名標準設定成員，將更會提高運用的彈性與切截分數估計的準確性。過去，圍內標準設定研究之成員數為 13 至 16 人(吳宜芳等，

2010

;吳毓瑩等，

2009 ;

杜佳真、林世華，

200 7)

，身分包括:教師、教育學者、測驗學者，以及其他領域代表人士，並以教師和學者為主。邀集過程多以研究機構名義，亦有以研究者個人進行邀請。值得注意的是，國內過去相關研究雖然相當著重標準設定成員之身分代表性，卻較少留意區域代表性; 未來在執行標準設定時，可借重國外經驗，敦聘設定成員時留心臺灣各地區代表性O (五)執行標準設定 1.技術選擇過去標準設定技術的發展中，最早被提及的方法，主要以Angoff

( 1971

)、 Ebel (1972) 、

Nedelsky

(1 954) 為核心，後續的延伸亦多以此為架構進行修訂的程序，至1996 年時，就有近五十種方法被發表 (Be此， 1996) 。雖然方法如此多元，但根據Loomis 與 Bourque

(200 I

)、

Reckase

(2000) 整理的文獻，大致可發現NAEP 對於標準設定技術的採用，具有強調多元融

合與適切性之趨勢 O 例如: NAEP 所採用修訂 Angoff 法 (modified

Angoff)

，其執行的過程早

已為因應各種實務、方法層面的考量，融入許多決策者、研發者本身的理念、需求或元素，

因而 'NAEP 更特別將之稱為ACT別AGB 法(

Reckase

,

2000

)。

整體而言，相對於關注哪一個標準設定方法為最佳，目前研究者更強調哪一個標準設定方法對於該測驗或評量是適當的。根據此理念， Loomis 與 Bourque (20例，

p.

212) 在評閱各項 NAEP 標準設定方法後，提出 NAEP 在判斷標準設定方法適切性時所依循的六大準則，其概念大致為:能與 NAEP 計分、量尺與分析技術一一致;擁有建全與可驗證的統計過程以計算切截分數，同時能將標準設定成員( panelists) 之主觀判斷結果反映在 NAEP 量尺上;能充分發揮可獲得的資料;能將政策的決定權留給執政者;是可推行的，並具有清晰、簡要、易於解釋與可使用性等。參酌這樣的原則，國內標準設定領域學者亦依其研究需求，選擇「以測驗為中心」之 Angoff 法(杜佳真、林世華， 2007) 、修訂 Angoff 法(吳宜芳等， 2010) 、書籤標定法(吳毓瑩等，

2009)

，或者以「受試者為中心」之方法(林娟如、洪碧霞、陳煥文、徐柏原， 2008) 執行標準設定。整體而言，雖然決策者所援用的標準設定方法不斷地推陳出新，但其核心理念是不變的，

(6)

•

6

·學習成就評量標準設定謝進昌、謝名娟、林世華、林陳浦、陳清漢、謝佩蓉

所強調的都是方法的適切性，該方法是否符合測驗目的、評量架構與實務的考量等等。

2. 訊息回饋

在進行標準設定時，為有效協助成員凝聚共識或具體化某些概念，常會在各設定階段中，提供不同的參照資料以作為回饋，大致可歸納為三類(

Cizek

&

Bunch

,

2007)

，分別是:常模

參照訊息 (normative information) 、事實訊皂、 (reality

information)

，以及影響訊息(

impact

information)

0 I 事實訊息」通常為協助成員知覺自己判斷的準確性，例如:試題 p 值 I 影響

訊息」的提供，則為告知成員設定切截分數可能造成的影響，包含如:經分類後，各水平下通過之人數百分比，最後， I 常模參照訊息」則是用以協助成員知覺本身與其他成員判斷的差異，包含如:其他成員所訂下之切截分數等。而 NAEP 對於提供回饋訊息的目的，在於使標準設定成員判定結果的品質最佳化，致使大部分回饋訊息的作用都在增進成員內與成員間判定的一致性(

Loomis

,

2000

)。經 Reckase

(200 I

)綜整， NAEP 曾提供之回饋訊息大致包含: 成員判定位置回饋(

rater location

feedback) 、一致性訊息的回饋(

consistency

feedback) 、完整題本回饋(

whole booklet

feedback) 、試題難度分類回饋(

item difficulty categorization feedback)

及影響回饋(

consequence

feedback) 等 O 國內標準設定研究所提供的回饋訊息和 NAEP 十分相似，除了設定成員前一回合之設定結果、設定者間一致性訊息，也會因應標準設定方法之不同，提供不同形式的試題難度訊息。例如:吳宜芳與鄒慧英 (2010 )、杜佳真與林世華 (2007 )採用 Angoff 家族之技術進行設定，故分別提供試題 p 值和逐題評估結果作為回饋訊息;吳毓瑩等 (2009 )採用書籤標定法，則透過試題圖 (item map) 的方式，將試題品質訊，皂、與試題通過率融入試題圖中。本研究採取書籤標定法，一方面參考國內學者的方式，隱含試題難度訊息於試題本之中;另亦參採國外學者之作法，以各輪設定結果及各水平通過人數百分比、各成員設定分數，作為回饋訊息。 3. 過程監控 NAEP 對於整個標準設定的過程，除聘任幾位學者成立技術小組，進行諮詢外，也有著一套嚴格的監控機制，而其目的就是在嚴格評估設定過程的適切性，同時將評估的結果作為效度的過程證據。根據 Reckase (2000) 整理的文獻，大致包含:團體成員間評定差異、不同背景團體成員問評定差異、過程的評估問卷、標準的一致性、成員對於極端判定之評估性反應、各輪間判定結果的改變、提供影響訊息後成員的判定改變等指標。

(六)形成切截分數

透過已經訓練、具代表性並具專業學科背景之標準設定成員，將「對於不同水平之學生知識或能力的期望陳述」共識化後，轉化形成具體的切截分數(cut

score)

，以獲致標準設定結果。其轉化過程即是透過標準設定技術的執行，並搭配回饋訊息提供及流程監控，於產生成員問共識後所達成O

(7)

謝進昌、謝名娟、林世華、林陳浦、陳清;美、謝佩蓉

二、標準設定之效度評估

7

•

〈教育與心理測驗標準>

(Standards for educational and psychological

testing) 一書指出，

效度 (validity )乃為:透過證據和理論的累積，產生對於測驗分數的特定詮釋與使用之適切

程度 (American

Educational Research Association

,

Arne叮n叫n

Psychological

Assoc叫ion，

&

National Council on Measurement in Education

,

1999

,

p.

184) 。可見效度的核心概念並非全有或

全無，而在於適切程度之高低;應用於標準設定領域時，則可視為詮釋切截分數的支持程度。根據這樣的理念，

Kane (1994

,

2001

)提出了標準設定效度評估可能的證據來源，其精神不但

仍依循著美國的教育與心理測驗標準'且同為吳宜芳等 (2010) 、吳毓瑩等 (2009 )、 Cizek 、 Bunch 及 Koons

(2004

)、 Hambleton

(2001

)等國內外研究者所採納O 以下針對 Kane 所指稱，

可支持效度的證據來源進行說明(表1 )。

(一)效度的過程證據

Kane ( 1994

,

2001

)所提出效度的過程證據(

procedural evidence for validity)

，強調的是整個標準設定過程的適當性及過程執行的品質，其內容不僅限於標準設定技{ItT選擇的理論基礎及易於解釋結果的實用性質(practicability) ，更廣至於設定過程前端的表現標準描述的形成或後端標準設定成員的選擇、司|練、回饋及資料分析的嚴謹性等，甚至研究者對於設定後標準可能對於社會觀感、財政支出影響的考量等，都是可行的評估證據。國內學者(吳宜芳等，

2010

;吳毓瑩等， 2009 ;杜佳真、林世華， 2007) 透過描述標準設定過程、詳盡和設定者溝通、採用實用且清晰的程序、執行合理且人性化的過程，以及肯定並回饋設定者的表現，作為過程證據之來源;然大多並末詳盡交代標準設定過程之細節。為賦予過程證據更詳盡之意義性，本研究主要檢視之證據來源包含: 1.標準設定技術的選擇及執行有關 2009 年 TASA 自然科國小四年級標準設定技術，使用書籤標定法(

Bookmark

method) (Lewis

,

Mitzel

,

&

Green

,

1996)

;本研究除陳述運用此技術的理論性及符合實用、測驗日標的一致性程度外，更將會針對其執行的適切性進行評估O 2.標準設定成員的選擇在標準設定過程中，標準設定成員占有舉足輕重的角色，而對於成員的選擇、訓練、資料蒐集過程等，是否具系統性與嚴謹，性(Berk，

1986; Kane

,

1994

,

2001 )

，將為形成評估的重點，而本研究主要針對 TASA 自然科國小四年級標準設定成員的專業性、代表性及人數的充分性等三方面進行評估。 3. 標準設定成員的回績標準設定成員的回饋係指成員對於整個標準設定過程與決策結果的知覺、意見與滿意程

(8)

·8· 學習成就評量標準設定謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉

度等 (Ka間， 1994， 2001) ，而本研究以標準設定成員對於標準設定時間的安排、導引、任務的瞭解程度及對於設定結果的滿意程度等面向進行評估。

(二)效度的內部證據

效度的內部證據(

internal evidence for validity

)所強調的是標準設定成員在運用標準設定

技術時，其結果產生的穩定性及一致性，但根據研究者運用技術概念的差異，提供的內部證據亦會有所不同。吳宜芳等 (2010 )以試題變異隨設定回合消長的變化情形，並計算平均殘差平方根、類推性係數、組內相關係數，以及試題最低通過水準和受試實際表現之相關，來表徵其內部證據。杜佳真和林世華 (2007 )則是透過因素分析方式，進行專家意見共識一致性的考驗。本研究參採過去經驗，並考量國外學者的建議，主要檢視之證據來源為: 1.標準設定技術內的一致性此證據的概念強調的是方法在不斷重複的過程中，所得標準估計的準確性程度，它可以是運用兩種相似方法時所能產生一致性程度 (Ka間， 1998) 。本研究以設定成員執行書籤標定法最後一輪之切截分數標準誤，不超過該測驗之測量標準誤的四分之一為判斷準則(

Jaeger

,

1991; Sireci

,

Hauger

,

Wells

,

Shea

,

&

Zenis旬， 2009 )。

2. 標準設定成員內設定結果的一致性此證據強調的是標準設定成員於各輪內及各輪間，成員本身評定結果的穩定程度 (Be此，

1996;

Ka間，

1994)

，而研究中以標準設定成員於各輪間及各輪內，其設定結果是否在合理變動程度範圍內，作為檢視重點。 3. 標準設定成員問設定結果的一致性此證據是以評估不同標準設定成員間，其設定結果的一致性程度，而研究者多期望成員間判定的結果具有較小的變異，以利於結果的整合(Berk，

1996;

Ka間，

1994

,

2001)

，而本研究以檢視來自不同背景之標準設定成員，其設定結果是否具一致性，以作為評估面向。 (三)效度的外部證據

效度的外部證據(

external evidence for validity

)是不同方法間、或者受試者相關的外在效標資料，以作為設定結果之有效性的外在推論 (Ka肘， 1994， 2001) 。國內相關研究提供之外部證據並不多，而吳毓瑩等 (2009 )則是完全以專家設定之書籤標定法和常態混組模型，兩種不同方法間的一致性，作為持續蒐集之外部證據。本研究以 TASA 2009 年國小四年級學生的數學成就表現，作為外部資訊，理由有四。首先，就學科性質而言，數學是科學的基礎，應用自數學習得之邏輯能力，才能進一步觀察、檢視自然現象。第二，就學習內容而言，國民小學九年一貫課程綱要中，國小四年級數學科的能力指標和自然科能力指標息息相關。例如，數學科培養長度、角度、面積等概念，方能

(9)

謝進昌、謝名娟、林世華、林陳浦、陳清 j豆、謝佩蓉學習成就評量標準設定·

9

•

應用至自然科之繪圖。第三，依據TlMSS 與 PISA 之分析結果，發現學生的數學與科學表現具有相關性，且有傾向隨著學生未來數學表現愈好，其科學表現亦會愈好 (Ma，

L. &

Ma

,

X. ,

2005

)。最後，就 TASA2006 、 2007 年的資料進行分析，同樣發現，自然與數學的成就具有 .62 和 .63 的高相關，已達 Cohen (1988) 建議，，-相關達 .50 為大效果量」之標準。因此，本研究檢視圓小四年級自然科所設立之切截分數所區分的四個類群，是否亦能說明學生於數學成就表現所區分的結果，作為標準設定結果之外部效度證據。簡要描述書籤標定法的理論性、可信度及符合實用、測驗目標的一致性程度;書籤標定法執行的適切性標準設定成員的專業性、代表性及人數的充分性標準設定成員對於標準設定時間的安排、導引、任務的瞭解程度及對於設定結果的滿意程度標準設定後之切截分數是否具有合理的標準誤標準設定成員於各輪間設定結果是否在合理變動程度範圍內來自不同背景之標準設定成員，其設定結果是否具一致性自然科所設立之切截分數所區分的四個類群，是否亦能說明學生於數學成就表現所區分的結果標準設定技術內的一致性標準設定成員內設定結果的一致性標準設定成員間設定結果的一致性對照其他外部資訊效度的標準設定成員的選擇過程證據標準設定成員的回應效度的內部證據效度的外部證據表 1 本研究評估標準設定結果之效度證據來源評估誼據來源標準設定技術的選擇及執行

參、研究方法

茲就本研究所運用之資料分析方法、 TASA 自然科國小四年級標準設定流程，以及書籤標定法的執行，進行陳述。

一、資料分析方法

本研究目的為檢視 TASA 自然科國小四年級標準設定成果，其數據來源為標準設定成員在正式標準設定會議中，各輪所設定之切截分數及填答於評估問卷之結果。由於標準設定結果受成員主觀性影響甚主巨，若切截分數存在極端值，對於平均數影響較大，對中位數影響較小;故以中位數作為結果之評估，較符合效度證據的需求。然而，中位數抽樣分配之標準誤無法直接推估;因而，本研究除了透過描述性統計，計算平均數、個數、百分比，再以無母數之 bootstrapping 法 (Efron，

1979)

，以 SPSS 軟體，反覆抽樣估計1 ，000 次，計算切截分數中

(10)

.

10

﹒學習成就評量標準設定 _{謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉} 位數標準誤和不同背景標準設定成員切截分數之顯著差異檢定。關於 bootstrapping 概念簡介和相關操作，請參見本文附錄 O 二、標準設定流程 TASA 自然科國小四年級標準設定時程如表 2 所示。在舉行國小四年級自然科正式標準設定會議前， TASA 於工作推動委員會，確立基礎、精熟以及進階三個表現水平命名標籤及其政策定義 (policy

definition)

;接績，由自然科學科專家確立國小四年級的基礎、精熟及進階等水平之表現標準描述，以清楚界定國小四年級學生在基礎、精熟及進階水平，應具備的共同自然科知識或能力。本研究為精確掌握正式會議的流程及細節，聘請5 位自然科小學教師協助進行自然科標準設定的前導研究，會中主要針對下列各項進行意見交換及內容修訂: (一)檢視前導資料的可讀性。 (二)標準設定議程的修訂參考(例如:檢視標準設定執行時各輪所需時間)。 (三)標準設定方法及分析軟體的前導試驗(trial run) 。 (四)檢視及修訂評估問卷內容。最後，經修訂的前導資料(advanced material) 陸續寄送給每位正式標準設定成員，並於 7 月正式執行標準設定會議。表 2 標準設定時程時間( 2010年) 3 月 4 月 5 月 6 月 7月項目內容工作推動委員會確立基礎、精確、進階的政策定義自然科學科專家確立國小四年級基礎、精熟及進階等水平之表現標準描述聘請5位自然科教師進行自然科標準設定的前導研究寄送邀請函、前導資料給標準設定成員舉行國小四年級自然科正式標準設定會議三、書籤標定法 TASA 自然科以書籤標定法作為標準設定技術'並搭配三輪(rounds) 的反覆遞迴操作，以凝聚標準設定成員的設定共識。茲將本研究操作書籤標定法的流程和方法學上的相關評論，陳述如下 O (一)提供試題春

書籤標定法(

Lewis et a

I.,

1996) 的核心源自於 Angoff 法 (Angoff.可 1971

)

，其設計能適時避免原始 Angoff 法逐題檢視所造成成員疲勞及認知負荷的干擾 O 研究者事先提供每位標準設

(11)

謝進昌、謝名娟、林世華、林陳浦、陳清 j豆、謝佩蓉學習成就評量標準設定﹒

11 •

基礎書籤 3 基礎書籤 2 基礎書籤 l 依難度排序試題卷(OlB)

2

31 o

3

基礎以下團2 書籤標定法中，由易至難排序的自然科試題卷概念題內容包含:題目內容、選項、答案及評測項目等。其中，對於難度值的計算，本研究採用三參數試題反應模式並輝同時估計，置於同一量尺上。 (二)放置水平書籤標準設定成員在經逐一檢視 alB所有試題後，研究者會告知成員只要將基礎、精熟、進階三個書籤逐一放置於兩兩試題間，即完成三個水平切截分數的設定，例如:圓 2 某成員的基礎書籤放置在第 30 題與第 31 題間。如此，就可以將所有學生區分出基礎以下、基礎、精熟與進階等四個能力區塊。接績，研究者會將各水平書籤所放置對應的試題，搭配該題的已

知的試題難度、鑑別度及猜測度參數，於反應機率(

response probability) .67 (Huynh

,

2006 )

下，進行能力值的轉換，再加以轉換為 TASA 所用之平均數 250 、標準差別的量尺分數模式; 最後，再求出各成員之平均分數，即得該水平的切截分數。 (三)判斷知識間幅放置書籤的原則方面，研究者向成員表示必須仰賴標準設定成員經逐一檢視各試題內容後，並搭配各水平表現標準描述，就自身教學經驗想像各水平的邊緣學生(

borderline

studen的) 應該具備哪些自然科知識，進而，挑選出這些邊緣學生應該有 67%能正確作答的兩個試題間，再逐步將各水平書籤置放於該試題位置，如此，就能將所有受試者區分出基礎以下、基礎、精熟與進階等四個群體類別 O 此外，研究者更強調雖然標準設定成員單純地將書籤置放於二個試題間，但其概念應將其視為以書籤來區分兩組試題(或兩組知識、內容) ，因此，成員判

(12)

.

12

.學習成就評量標準設定謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉定的依據必須有某種程度合理的理由，例如:兩群試題間存在較大的知識間隔(

gap)

(Mitzel

,

Lewis

,

Patz

,

& Green

,

2001

)。

(四)標準設定流程成員訓練方面，本研究除了於會前寄送前導資料給每位正式標準設定成員，亦於第一輪標準設定開始之前，現場說明:會議目的、成員肩負之任務、標準設定技術'並給予適當訓練，才開始正式之設定程序(表 3) 。表 3 標準設定流程輪;欠開場第一輪(共同討論) 第二輪(共同討論) 第三輪(獨自設定) 檢視標準設定結果內容說明會議目的、任務、標準設定技術及成員訓練 1.執行第一輪標準設定(成員可針對試題內容、標準設定方法進行討論) 2. 成員填寫評估問卷一 1.發放回饋訊息及說明其意涵 2. 共同討論第一輪設定結果(成員說明書籤放置理由) 3.執行第二輪標準設定 4. 成員填寫評估問卷二 1.發放回饋訊息及說明其意涵 2成員獨自執行第三輪標準設定 1.成員檢視第三輪設定之切截分數 2.成員填寫評估問卷三第一輪透過成員共同討論的方式，進行書籤標定法的設定，成員可就自然科 OIB 的試題內容、方法的細節等進行討論;接績，研究會透過成員所填寫的評估問卷一及各成員所設立第一輪切截分數之背景分析，以監控設定流程。第二輪執行的任務大致重複第一輪的動作，但差別在於研究者會提供回饋訊息並就此訊息意涵進行解說，包含:第一輪其他成員(與自己)所放書籤的位置分布圖、第一輪的基礎、精熟及進階水平實際通過的人數百分比、國際大型評比計畫 (TIMSS 、 NAEP) 國小四年級學生於自然科學各水平的通過人數百分比等。接續，研究會請某些成員說明與分享第一輪書籤放置的理由，進而於第二輪結束前，填寫評估問卷二並進行第二輪成員切截分數設立之背景分析，以作為流程監控。第三輪的標準設定在提供回饋訊息，包含:第二輪其他成員(與自己)所放書籤的位置分布圖、第二輪的基礎、精熟及進階水平實際通過的人數百分比，並說明其意涵，最後由成員獨自進行書籤標定法。最後，全體成員會統一檢視最後第三輪所設定出通過分數，並填寫

(13)

謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉

第三份的評估問卷，以檢視成員對於整體結果的評估。

13 •

四、相關評論

書籤標定法目前在美國是最為通行的一種標準設定方法，許多州立的大型考試，都是採

用此法來進行切截分數的設定(

Council of Chief State School Officers

,

200 I )

;亦受到國內標準

設定研究學者青睞(吳毓瑩等， 2009) 。相較於其他逐題設定的方法(如 Angoff 法) ，書籤標定法能使設定成員聚焦在學生可能的表現，而非試題難度( Buckendal址，

Smith

,

Jmpara

,

&

Plake

,

2002)

0 Hambleton 與 Pitoniak (2006) 的研究指出，相較於其他種標準設定方法，書籤

標定法廣為標準設定成員所喜愛，且成員能夠容易地放置書籤與設定滿意的切截分數。 Karantonis 與 Sireci (2006) 回顧過去相關文獻發現，書籤標定法不但是一項較新的技術，能依照內容標準適切地定義出切截分數，只要妥善地執行，便能產生有效的、站得住腳的標準; 這可從吳毓瑩等 (2009 )的研究得到印證。該研究以書籤標定法進行國小六年級英語的標準設定，並以常態混組模型作為效度證據。結果發現，專家判定和常態混組模型的分類一致性結果非常好。缺點在於，採用書籤標定法需準備 alB '使得事前準備工作較多也較耗時;此外，標準設定的判斷倚賴整份測驗而非單題，所以測驗內容有顯著改變時，便可能需要設定新的標準

(Buckendahl et a

l.,

2002) 。此外，標準設定成員可能不認同 OIB 的排序，且產生的切截分數

可能較低(

Karantonis

&

Sireci

,

2006; Lewis et a

l.,

1996)

，均為此方法之限制。

儘管書籤標定法有上述缺點，考量國小四年級自然科之題數多達130 題，若採用逐題檢視的方法，執行設定過程必然曠時費力，不如將時間成本投注於事前準備OIBo _{除此之外，即} 使文獻指出書籤標定法產生的切截分數可能較低，然而，實徵研究卻發現切截分數較Angoff 法高 (Buckendahl

et a

l.,

2002)

，顯見切截分數高低可能尚未成定論。鑑於TASA 設置日的，乃為了檢視課程綱要之實施成效;為了適切地回應課程內容，並考量可行|笠，在「簡單、易懂以及易執行」的原則下，兼顧有限時間及經費成本，本研究遂採用書籤標定法作為標準設定技術 o

肆、結果與討論

本研究以 Kane

(1994

,

2001

)所提出之效度證據來源作為評定設定結果之依據。效度的過程證據方面，聚焦於整體標準設定流程之程序，包含組成成員之挑選、書籤標定法之執行過程等。效度的內部證據方面，檢視每一輪和不同輪間，標準設定所得結果的變動程度;以及不同性別、都市化程度，以及身分別之標準設定成員設定結果之一致性。效度的外部證據方面，利用自然科之標準設定結果，將研究樣本分為四群，檢視這四群分類結果，是否亦能說

(14)

.

14

.學習成就評量標準設定明學生於數學成就表現所區分的結果。謝進昌、謝名娟、林世華、林陳浦、陳清 j柔、謝佩蓉教師學者

一、效度的過程證據

(一)標準設定成員的選擇標準設定成員的選擇，以分層立意抽樣的方式進行樣本選擇，成員由為教師、學者及行政人員所組成。經由公開的標準設定成員徵求及研究助理電話詢問具代表性人員意願的方式並行，最後，篩選最能符合表 4 資格的人員，視為首要的成員候選人，其次則為僅少數資格條件不符之人員為候補候選人，以組成正式的自然科標準設定成員 O 表 4 標準設定成員身分類別及對應資格條件一覽身分類別資格條件 1.至少有 5年以上的教學經驗且避免行政兼課的教師

2

3. 在自然專業領域具有某程度傑出或可受公認的表現 1.現職不能是國小教師 2. 曾負責國民小學相關重要行政事務工作(例如:教育處科長以上職級) 行政人員 3.至少具備國民小學相關行政事務處理5年以上經驗 4.曾具備(該年段及自然)相關接觸經驗者(例如:教學經驗、過去大學曾就讀自然相關系所) 1.熟悉該年段、自然科之評量架構及內容 2.在其專業領域具有某程度傑出或可受公認的表現研究於 2010 年 4 月初發出標準設定成員徵求訊息後，經為期 2 個多月的成員甄選，最後，正式參與自然科國小四年級標準設定成員共計 28 名，符合 ACT (1994) 所建議之 30 名成員，亦相近於 Hambleton (2001) 的-25 名之建議 O 此外，成員的背景分布如表 5 所示，分別來自北部 (46 .4% )、中部 (35.7% )、南部(7.1%)、東部( 10.7%) 。其中，教師占有 23 名 (82.1

%)

,

其次為行政人員 4 名 (14.3% )、學者 l 名(3 .6%) ，組成理念符合 Bm叫ue (2009) 所指，設定成員異質性需足夠，且強調由教育人員和非教育人員共同組成;也和國內吳宜芳和鄒慧英

(2010

)、吳宜芳等 (2010) ，以及杜佳真和林世華 (2007 )以教師為主之設計相同。而性別的分布幾乎是男、女各半的比率。最後，成員總教學年資或行政年資，最低 5 年、最高 36 年，

平均年資 17.8 年。

整體而言，標準設定成員大致能包含北、中、南、東四個區域的人員、同時能兼顧不同身分別及性別的異質性代表組成，最後，全部成員都具有小學自然科專業背景，而教學或行政年資具高水平，平均皆超過 16 年。

(15)

謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉學習成就評量標準設定﹒

15 •

表 5 國小四年級自然科正式標準設定成員背景分布一賈 (N=28

)

地區身分類別性別

_總人數

男

女

教師 3

8

11 it

行政人員

O

學者

O

教師 3

6

9

中行政人員

O

教師

O

南

行政人員

O

教師

2 O

2

東行政人員

O

(二)標準設定回饋訊息本研究所提供之各類回饋訊息，包括常模參照訊息、事實訊，皂、以及影響訊息。分述如下: 1.常模參照訊息:於每一輪設定完成後，研究者提供每位設定成員和其他成員，各自所設定之水平書籤位置。 2.事實訊息:本研究採用書籤標定法，提供給設定成員之 0凹，已透過試題難度排序，因而隱含了難度訊息。 3.影響訊，皂、:於每一輪設定完成後，研究者提供各水平之通過人數百分比。 (三)標準設定成員的回應標準設定成員的回應，主要評估成員在正式會議過程中，對於活動時間分配的充足性、會議導引及說明的瞭解程度、標準設定目的、任務及回饋訊息的瞭解，以及對於最後設定結果的滿意及信心程度。茲說明如下: 1.標準設定成員對於各階段活動時間分配的知覺有關會議各階段活動時間的分配，成員對時間充足性程度如表 6 所示，成員中有 22 名

(78.6%

)對於會議一開始的解說及導引時間分配，覺得剛剛好，只有少數成員覺得略長或略短;接續，在會議第一輪正式執行標準設定時，對於提供置放書籤的時間，有 11 名(3 9.3%

)

成員認為稍短了，而 9 名(32.1 %)成員認為剛剛好，概略視之，成員認為本研究提供執行第一輪標準設定的 70 分鐘稍微偏短;此外，成員對於會議提供團體討論標準設定結果適切性的時間，大多數 (78.6% )成員覺得剛剛好，只有極少數(7 .1%) 成員認為過長了。整體而言，成員對於本次會議各階段任務的時間分配，大多數成員感到略長的(眾數為 4)' 顯示各活動

(16)

.

16

.學習成就評量標準設定謝進昌、謝名娟、林世華、林陳浦、陳清 j豆、謝佩蓉表 6 標準設定成員對於各階段活動時間分配知覺分析一覽題項內容太短了剛剛好太長了 _軍數口口口口口

O

3

22

3 O

本次會議的解說與導引時間分配

3 (0%)

( 10.7%)

(7

8.6%)

(10.7%)

(0%)

本次會議提供置放書籤的時間分

5

11

9

3 O

2

配(第一輪)

(17.9%)

(3

9.3%)

(3

2.1%)

(10.7%)

(0%)

本次會議提供團體討論標準設定

2

22

2

3

結果適切性的時間分配

(3.6% )

(7

.1%)

(78.6%)

(3.6%)

(7

.1%)

O

5

10

11

2

本次會議各階段任務的執行時間

4 (0%)

(1

7.9%)

(3

5.7%)

(3

9.3%)

(7

.1%)

執行時間大致足夠的O 2. 標準設定成員對於會議的導引及說明的瞭解程度有關於標準設定開始前的導引及執行中各技術面向的說明方面，成員們對其瞭解程度的分析，如表 7 所示。 89.2%成員認同前導資料能充分幫助暸解本次會議成員應扮演的角色，其次，對於標準設定會議執行中，有關表現標準描述、如何執行書籤標定法及各項回饋訊息，包含有第一輪其他成員(與自己)判定之切截分數位置、第一輪設定之基礎、精熟、進階等層級通過人數百分比與國際大型評比計畫(TIMSS 、 NAEP) 自然科於各層級通過人數百分比等資訊的說明，大部分成員都表示能清楚瞭解，其平均分數均在4 分以上 o 整體而言，成員對於會議的導引及相關資訊的說明，大多數成員均感到清楚O 3.標準設定成員對於標準設定的目的、任務及回饋的暸解程度有關成員對於標準設定目的、任務及回饋訊息的瞭解程度方面，其分析結果如表8 所示， 96.5%的成員瞭解本次會議的目的，而此項目的李克量表平均數為4.64 '具相當高的水平，而對於自然科國小四年級評量架構與後續會議流程的理解上，其平均數分別為4.鈞、 4.肘，顯示大多數成員對於標準設定的目的及後續任務程序，亦具有相當程度的瞭解。就回饋訊息的理解部分而言，不論是第一輪其他成員(與自己)判定切截分數的相對位置、第一輪設定之基礎、精熟、進階等層級通過人數百分比或者是國際大型評比計畫(TIMSS 、 NAEP) 自然科於各層級通過人數百分比等，多數成員均高程度的瞭解，平均數均在4 分以上。整體而言，成員們對於會議的導引及相關資訊的說明感到清楚，亦能充分瞭解其意涵。 4.標準設定成員對於設定結果的滿意及信心程度有關成員對於最後標準設定結果的滿意和信心程度而言，分析結果如表9 所示。大多數

(17)

謝進昌、謝名娟、林世華、林陳浦、陳清 j柔、謝佩蓉學習成就評量標準設定﹒

17 •

表 7 標準設定成員對於會議的導引及說明的瞭解程度分析一覽完全有點題項內容不同意同意口口口口完全口同意平均數我認為先前收到的前導資料能充分幫助我瞭解本次會議應扮演的角色本次會議對於表現標準描述 (PLD) 的說明及其功能陳述本次會議對於如何執行書籤標定法的說明陳述本次會議對於第一輪其他成員 (與自己)判定之切截分數位置的說明及功能陳述本次會議對於第一輪設定之基礎、精熟、進階等層級通過人數百分比的說明及其功能本次會議對於國際大型評比計畫( TIMSS 、 NAEP) 自然科於各層級通過人數百分比的說明及功能

O

(0%)

(3.6% )

2

9

16 (7

.1%)

(3

2.1%)

(57.1%)

4 ( 14

.3%)

3 (1

0.7%)

12 (42.9% )

9 (3

2 .1%)

11 (39.3% )

15 ( 53.6%)

5

13

10 (1

7.9%)

(46

.4%)

(3

5.7%)

3

15

10 (1

0.7%)

(53.6%)

(3

5.7%)

2

10

14 (7.1%)

(3

5.7%)

(50%)

4 .4

3

4.18

4.36

4.18

4.25

4.37

表 8 標準設定成員對於標準設定的目的、任務及回饋的暸解程度分析一覽完全有點不同意同意口口口

0 0 1

(0%)

(3

.6%)

我瞭解自然科國小四年級評量架構

0 1 3

(0%)

(3

.6%)

(1

0.7%)

0 1 2

(0%)

(3

.6%)

(7.1%)

0 0 2

( 0% )

(7.1

% )

0 0 1

(0%)

(3

.6%)

題項內容我瞭解本次標準設定會議的目的我瞭解會議接續的標準設定流程我瞭解第一輪其他成員(與自己)判定切截分數的相對位置我瞭解第一輪設定之基礎、精熟、進階等層級通過人數百分比的意涵我瞭解國際大型評比計畫(TIMSS 、 NAEP) 自然科於各層級通過人數百分比的意涵、、 j / \ 、，/ /少也。叫廿一 O 川V /t\ 一 /l\

(3

.6% )

(3

.6%)

2 (7

.1

%)

口

8 (28.6% )

12 ( 42.9%)

19 (67.9% )

12 ( 42.9%)

18 ( 64.3%)

完全同意口

19 (67.9% )

12 (42.9% )

6 (21

.4%)

14 ( 50%)

9 (3

2.1%)

16

9 (57.1%)

(3

2.1%)

平均數

4.64

4.25

4.07

4 .4

3

4.29

4.18 O

(0%)

O

(0%)

O

(0%)

O

(0%)

O

(0%)

(3

.6% )

o

1 (0%)

(3

.6%)

(18)

.

18

.學習成就評量標準設定謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉表 9 標準設定成員對於設定結果的滿意及信心程度分析覽完全有點 _完全題項內容不同意同意同意 _平昀數口口口口口我相信自己最後書籤置放的位置，是

O

_。

4

17

7

4.11

與表現標準描述 (PLD) 一致

(0%)

( 14.3%)

(60.7% )

(25%)

O

4

5

16

3

我對於最後的切截分數，感到滿意

3.64 (0%)

( 14.3%)

( 17.9%)

(57.1%)

( 10.7%)

的成員均表示自己最後置放書籤的位置，會與表現標準描述一致，平均同意程度為4.1 1 '顯示成員對於自己設定結果，具有相當程度的信心。此外，成員對於最後切截分數的滿意程度，其平均數為 3.64 '顯示大多數成員 (85.7% )對於最後結果仍偏向正面的觀感。 (四)書籤標定法的執行在正式執行切截分數的設立前，表現標準描述代表的是學科專家或決策者對於各水平學生應該具備的共同知識或能力的陳述，它具有著引領標準設定成員形成放置書籤共識的重要角色，而根據表 10 的分析結果，多數成員均能同意本會議所提供的基礎、精熟與進階的表現標準描述有助於他們放置各水平的書籤'平均數分別為3.74 、 3.64 、 3.61 '但亦有近 7%~10% 間的成員，對於表現標準描述的助益，呈現較負面的觀感，有再持續修訂的必要性。表 10 標準設定成員對於書籤標定法的執行之知覺分析一覽完全有點題項內容不同意同意口口口口完全同意平昀數口書籤基礎的表現標準描述 (PLD) 有助於

O

我置放介於臨界低於基礎/基礎的

(0%)

2

8

12

5 (7

.1%)

(28.6%) (42.9%)

(1

7.9%)

3.74

精熟的表現標準描述 (PLD) 有助於

O

3

9

11

5

3.64

我置放介於臨界基礎/精熟的書籤

(0%)

(1

0.7%)

(3

2.1%)

(3

9.3%)

(1

7.9%)

進階的表現標準描述 (PLD) 有助於

O

3

9

12

4

3.61

我置放介於臨界精熟/進階的書籤

(0%)

(10.7%) (32.1%) (42.9%)

(1

4.3%)

研究者所提供依難度排序試題本

5

12

8

2

2.36

(alB)符合我所知覺試題間相對難度 (17.9%)

(42.9%) (28.6%)

(7

.1%)

(3.6% )

我認為採用 67% 的正確作答標準，去

O

3

14

可10

3.32

界定書籤的位置，感到合適

_(0%)

_(10.7%)

_(50%)

₍₃

_5.7%)

₍₃

_.6%)

(19)

謝進昌、謝名娟、林世華、林陳浦、陳清 J柔、謝佩蓉學習成就評量標準設定﹒

19 •

另一方面，過去對於書籤標定法的執行，學者們認為具有減少專家認知負荷、結果解釋可融合能力表現及適用於多切截分數點等多項優勢 (Karantonis

& Sireci

,

2006)

，但亦存在一些爭議及限制，例如，試題難度排序的爭議、67%答對率的選訂及容易忽略試題難度以外的重要資訊等(Lin

,

2006)

，都是學者們曾提出討論的項目，而根據表10 分析結果，顯示許多成員對於試題卷的難度排序感到不太協調，有60.8%的成員認為國小四年級自然科的OlB 並不符合他們所知覺試題間相對難度，其平均數為2.36 '但 Lewis 等(1 996 )認為此為書籤標定法無法避免的難題。本研究為減低此影響，除當場安排數名學科助理協助解說有疑義的試題內容外，同時，正式成員中融入數名曾協助國小四年級自然科命題與審題的教師，以促進成員們對於試題內容的瞭解，此外，會議中並不斷向成員強調並非是將書籤置放於二個試題間，而是將書籤置放於存在較大的知識間隔的兩群試題間(Mitzel

et a

l.,

2001 )

0 此外，對於 67%答對率的選訂，其理論基礎除依據 Huynh (2006) 所建議，二元計分正確反映的最大訊息量處外，許多實務研究，像是 Sireci 等 (2009 )對於 2005 年 NAEP 12 年級數學的評估，亦以此作為準則;而本研究標準設定成員對於以 67%的正確作答標準界定書籤的位置，近九成 (89.3% )的成員感到適合的 O 最後，由於書籤標定法的執行容易忽略試題難度以外的重要資訊，故研究者不斷地於會議中強調試題內容及表現標準描述的重要性，作為提醒，使標準設定成員能正視其實質意涵;從表 10 中可看出，標準設定成員對於表現標準描述助益性的正面觀感 O 二、效度的內部證據 (一)標準設定技術內設定結果的一致性本研究對於標準設定技術使用後所產生切截分數一致性的檢視，研究者採用原始數據所得之平均數標準誤及利用無參數 bootstrapping 方法，經 1 ，000 次反覆計算中位數後，所得之標準誤來進行評估，此舉不僅能提供原始數據的分析面貌，亦能提供在避免極端值發生的可能下，檢視分數的變動情形，其分析結果如表 11 0 表 11 各輪基礎、精熟及進階水平之平均數及 bootstrapping 樣本所得中位數切截分數之標準誤 (N=28

)

第一輪第二輪第三輪平均數標準誤中位數標準誤平均數標準誤中位數標準誤平均數標準誤中位數標準誤

礎一熟一階

基一精一進

2.88

2.92

6.03

3.05

6.29

6.87

1.1

6

1.5

5

3.01

0.63

1.

29

1.

24

1.

06

1.

29

2 .4

8

0.85

0.54

2.02

(20)

•

20

·學習成就評量標準設定謝進昌、謝名娟、林世華、林陳泊、陳清溪、謝佩蓉國小四年級自然科量尺分數之信度為泣，量尺分數之標準差為 46.60 ;經計算測量標準誤為 19.77 (郭生玉，

1998

,

p.

82) 。對照 Jaeger( 1991) 準則判斷，測量標準誤四分之一為 4.94 。雖然在第一輪三個水平及第二輪的進階水平，出現較大的標準誤，但第三輪設定結果之平均數和中位數之標準誤，三個水平的標準誤均在 4.94 以下，顯示最後切截分數的變動程度仍在合理的範圍 o (二)標準設定成員內設定結果的致性有關於標準設定成員內設定結果的一致性評估方面，可發現隨著輪次的增加，標準設定成員所設立切截分數的標準誤，大致隨著往下降至合理水平(表 11

)

0 就基礎水平而言，第一輪平均數標準誤為 2.88 、第二輪平均數標準誤則降至1. 16 '以至第三輪的平均數標準誤1.俑，顯示成員內設定結果的變動程度，逐漸趨於平穩。此外，若就每個成員於各輪間的改變情形

視之，研究者在計算每位成員各輪間( Round1-Round2 、 Round2-

Round3

)切截分數之變化絕

對值後，不同水平之改變程度散布圖分別如圓 3 至圖 5 所示。其中，若就圖 3 而言，第 22 號成員在基礎水平之切截分數設定，其 Round

1-

Round2 分數改變的絕對值，是所有成員中最大的，超過的分，但至 Round2- Round3 時，則降至 10 分，整體而言，除了圖 5 中第 22 號成員於進階水平的各輪變化，出現較大幅的不減反增情況外，所有成員於基礎、精熟與進階水平的 Round2- Round3 時，其分數的改變均會趨於和緩，顯示成員內設定的結果，逐漸趨於內在的一致性。 AVAυnυnυnυnυnυnυnυnυnυ nυnυnυnυnυnυnυnυnυnυnυ Aυ' 、 dnυ' 、 dnυ' 、 dnυ' 、 dnυ' 、 dnυ '、 dA斗A斗司、 u 司、 U 勻/且勻/且， 1 ， I

各輪間設定芷江異的平均分數

一-Roundl

Round2

一-Round2

Round3

1 2 3 4 5 6 7 8 9 10 111213141516171819202122232425262728

標準設定成員標號圖3 所有標準設定成員於基礎水平各輪間之設定差異變化 (三)標準設定成員間設定結果的一致性有關標準設定成員間設定結果的一致性評估方面，研究者透過檢視不同性別、都市化程度及身分別的標準設定成員，所設立切截分數是否具有一致性，其中，鑑於研究若以原始成員所來自區域 cj 七、中、南、東)進行分析，其結果可能會因某些區域人數較少，造成估計

(21)

謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉學習成就評量標準設定﹒

21 .

AυnυnυnυnυnυnυAOAOAOAυ AVAυAυAυAυAυAυAυAυAHVAV AVR 、 dAV' 、 MAVR 、 dovn 、 dAVR 、 dAV

5443322ll

各輪間設定差異的平均分數

一-Round 卜

Round2

一…Round2

Round3

1 2 3 4

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

標準設定成員標號圖4 所有標準設定成員於精熟水平各輪間之設定差異變化

75.00

70.00

各 65.0。事命

60.00

間 55.00 設 50.00 定 45.00

差 40.00

異 35.00

的 30.00

平 25.00

均 20.00

分 15.00

數 10.00

5.00

0.00 A

1\

a

I \

I

\

A

1\

/

A

/

P\

\

1\

I \ \

f

_\

_I

_\

_I

_\

_{I \}

_I

_l...\

\

_八

\ I \

、

八

八 l

I \

\ I

\

/ \ j

、

正\

/ \ / \ I

I

\

\ I

X

Y\

/ \ \

\ /

V

\

I

\

I

/ ' f \ / \

、//

\

-Round1-Round2

……

Round2-Round3

12345678910111213141516171819202122232425262728

標準設定成員標號圖 5 所有標準設定成員於進階水平各輪間之設定差異變化不穩定外，其實質意涵亦不大，因此，本研究在參考侯佩君、杜素豪、廖培珊、洪永泰及章英華 (2008 )針對臺灣三百五十八個鄉鎮市區，進行都會核心、工商市區、新興市鎮、傳統產業市鎮、低度發展鄉鎮、高齡化鄉鎮及偏遠鄉鎮等七大層級的分類，進一步將所有成員依其任教學校分為都會新興市鎮(前三類)及傳統低度發展鄉鎮(後四類)，企圖檢視來自都市化程度發展不同的學校，標準設定成員設立結果是否會具差異性。本研究採用無參數bootstrapping法，經 1 ，000 次反覆估計，進行不同背景成員於平均切截分數設立之獨立樣本t 考驗後，整體分析結果如表12 。可發現:不同性別之標準設定成員於三輪各水平所設立之切截分數，其平均數差異分數之信賴區間均包含0 ，顯示不同性別成員間

(22)

•

22

.學習成就評量標準設定謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉表 12 不同背景標準設定成員於一輪各水平設立切截分數之顯著差異檢定分析背景基礎水平精熟水平進階水平輪;欠水準

人數平均差異分數及平均差異分數及平均差異分數及

變項 _信賴區間 _信賴區間 _信賴區間男(

1 )

14

4.96

2.70 -4.74

女 (0)

14 [-5

.4

6 ,

17.23]

[-7.64

,

14.09]

[-25

.4

7 ,

2

1. 50]

男(

1 )

14

2.85

2.11 -4

.85

性別女 (0)

14 [-1.

48 ,

7.38]

[-4.09

,

8.10]

[-16.12

,

6.39]

男(

1 )

14

0 .4

8

0 .4

9 -1.3

3

女 (0)

14 [-3.51

,

4.89]

[-4

.62

,

5.81]

[-10.27

,

7.78]

都會新興市鎮(

1 )

₁₈

_-9.25

-2.03

19.37

傳統低度發展鄉鎮 (0) 10υ

[-20.52

,

2.29]

[-13.20

,

8.65]

[-2.33

,

39.86]

都市都會新興市鎮(

1 )

18 -3.67

4.68

3 .1

0

化程傳統低度發展鄉鎮 (0)

[-7.31

,

-0.36]

[-1.

77 ,

10.80]

[-10.91

,

17.71]

度

10

都會新興市鎮(

1 )

18 -1.

96

3 .4

5

國3.84 傳統低度發展鄉鎮 (0)

10 [-5.61

,1.

60]

[-1.

81 ,

8 .4

8]

[-14.75

,

8.11]

非教師(

1 )

5 -9.06

6.19 -3.87

教師 (0)

23 [-19.70

,1.

99]

[-7.09

,

17.92]

[-27.97

,

26.30]

身分非教師(1)

5

0.89

6.99 -3

.4

0

別 _{教師 (0)}

₂₃

_[-2.92

_,

_4.63]

_[0.32

_,

₁₄

_.4

_0]

_[-12.25

,

6.89]

非教師(1)

5

1.7

5

4.74 -4.54

教師 (0)

23 [-2.86

,

5 .4

8]

[-1.3

2 ,

13.05]

[-12.19

,

4.87]

所設立之切截分數並不具顯著差異;此外，來自於不同都市化程度之成員，就其設立之平均切截分數顯著差異檢定結果，可發現在第二輪的基礎水平，來自於都會新興市鎮的成員(鍵棺為 1 )所設立之平均切截分數，顯著低於來自於傳統低度發展鄉鎮的成員(鍵檔為 0)' 其平均數差異為 -3. 肘，信賴區間[ -7.訓，戒指] ;另一方面，對於不同身分別成員所設立結果之顯著差異檢定，從表 12 中可發現在第二輪的精熟水平，非教師成員(行政人員、學者)所設立之切截分數明顯大於教師成員，平均數差異為 6.99 '信賴區間 [0.32 ， 14.40] 。整體而言，雖然在第二輪時，不同都市化程度及身分別的成員，在某些水平，出現顯著不同的設定結果， {El.均屬輕微差異，其信賴區間多非常接近 0; 此外，就第三輪的切截分數而言，不同性別、都市化程度及身分別的成員，所設立之平均切截分數，均不具顯著差異，顯示標準設定成員間最後的設定結果，具有相當的一致性。

(23)

謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉學習成就評量標準設定﹒ 23

• 三、效度的外部證據

鑑於 TASA 資料庫並非長期追蹤型的計章，因此，欲以學生未來外部表現資訊，作為效度的外部證據有其困難性。因此，研究者改採學生於同一資料庫 2009 年數學科的成就表現，為其外部資訊。首先，本研究篩選出同時接受 2009 年自然和數學兩個科目測驗的國小四年級學生，共計 4， 108 名;接薯，再分別透過本研究第三輪所設立之自然科切截分數，以及 2007 年數學科訂立之標準設定切截分數，分別針對這群學生自然及數學表現進行區分 O 由表 13 可

知，自然科和數學科兩種切截分數分類一致的命中率 (hit ratio) 為 53.75% ;再經 Kappa 分析為 32

(p

<

.01)' 依 Landis 與 Koch

(

1977) 之建議標準，此分類一致性已達中等程度。據此，經由國小四年級自然科所設立之切截分數所區分的四個類群，可說明學生於數學成就表現所區分的結果。表 13 學生於自然和數學成就表現分類人數一覽科目

_水平

數學總計基礎以下基礎 _精熟 _進階基礎以下

484

376

146

11

1 ,

017

基礎

169

628

575

17

1 ,

389

自然精熟

35

299

1 ,

041

150

1 ,

525

進階

O

7

115

55

177

全部

₆₈₈

₁

_,

₃₁₀

₁

_,

₈₇₇

₂₃₃

₄

_,

₁₀₈

伍、結論興建議

本研究目的為檢視 2009 年 TASA 自然科國小四年級標準設定結果，以 Kane

( 1994

,

2001 )

所提之效度證據來源為主軸，分別就效度的過程證據、內部證據，以及外部證據，作為評定設定結果之依據 O 以下茲針對研究所得結論進行說明，並提出建議，供未來研究者參考。一、結論效度的過程證據方面， TASA 自然科國小四年級標準設定，除詳列標準設定流程時間表，以凸顯各階段執行的紮實性外，另針對標準設定成員的選擇、回饋及書籤標定法執行等面向進行細部評估 O 首先，標準設定成員的選擇不僅能合括全國主要區域的人員，亦能兼顧身分別及性別的異質性組成，同時具有高年資及自然專業背景;而在整個標準設定的執行過程中，其時間的安排、引導人員對於會議目的、技術、回饋訊息的解說及成員們的瞭解程度，都具有相當的適切性，其中，對於第一輪書籤放置時間的分配，研究發現出現微幅不足現象，值得未來進一步改善。此外，對於表現標準描述、書籤標定法的執行，成員大多能感到適切，

(24)

'， asa--ι÷tZEaASjZ 克通謝進昌、謝名娟、林世華、林陳浦、陳清 i柔、謝佩蓉其中，成員們只有對於試題卷的難度排序 (OIB) 會感到不一致現象，而研究者盡量安排助理協助成員瞭解試題內容，以減輕此影響。最後，成員們對於最後的切截分數與自己放置書籤的信心，具有相當的滿意及信心，顯示最後的切截分數有其強韌性。整體而言，效度的過程證據得到支持。效度的內部證據方面，研究者以評估標準設定技術內設定結果的一致性及標準設定成員內與標準設定成員間設定結果的一致性為指標，經以原始平均數標準誤及無參數 bootstrapping 法估計之中位數標準誤檢視後，發現成員雖然一開始執行時會出現較大的標準誤，但隨著輪次增加，三個水平的最後切截分數變動程度，亦隨之降至合理的範圍內;此外，不同背景成員所設立之切截分數，其結果亦有類似的傾向，初始時，不同都市化程度及身分別的成員，在第二輪某些水平會出現顯著不同的設定結果，但屬輕微，而且成員間設立之結果，亦隨著於第三輪趨於一致，效度的內部證據得到支持。效度的外部證據方面，研究者採用數學科作為本研究的外部資訊，經以國小四年級自然科所設立之切截分數區分出四類群學生後，進行數學成就表現之差異分析，結果顯示:經由國小四年級自然科所設立之切截分數所區分的四個類群，亦可說明學生於數學成就表現所區分的結果，效度的外部證據得到支持。

•

24

·學習成就評量標準設定

二、建議

(一)標準設定成員的選擇本研究對於標準設定成員的選擇，其資格的篩選係參考NAEP 界定準則 (ACT，

1994

,

2005)

，強調成員的學科專業性及領域的聲望、表現等，因此，成員的組成大多來自現任或曾擔任縣市輔導團成員或其召集人，但這些成員所設立之標準，是否會產生高聲望一高期望的現象?同時伴隨著現階段國內國小自然科教學，多由來自非自然本科的教師任教，兩者交互影響下，是否有成員標準設定結果會與多數普遍基層自然教師產生落差的疑慮，值得進一步探討 O 就此點，建議未來研究者可嘗試在評估問卷中，納入評定成員在標準設定前、後，對於自身心目中期望各水平的通過人數百分比進行調查，此舉不僅可檢視個別成員期望與實際判定結果的落差，亦可進一步再嘗試尋找一群非自然本科但任教國小四年級自然科的教師，執行標準的設定時，作為對照的來源，以檢視兩者的差異。 (二)三輪書籤標定法時間的安排本研究對於三輪書籤標定法時間的安排，除依據現實的考量(經費及成員意願'需於1 天內執行完畢)外，另參考2010 年 5 月 28 日所聘請 5 位自然科教師進行前導研究的結果，安排 70 分鍾的設定時間為原則，但根據成員事後的評估結果，多數成員會覺得提供第一輪的置放書籤位置略短，但至第三輪時，成員們亦多已提早完成標準設定，顯示在時間範圍內，成員們初始時要充分檢視完 130 題試題內容，並放置書籤'略為匆促，因此，建議未來研究

(25)

謝進昌、謝名娟、林世華、林陳浦、陳清 j柔、謝佩蓉學習成就評量標準設定﹒

25 •

者可考慮將三輪的標準設定時間分配，更改為第一輪 90-100 分鐘、第二輪 70-80 分鐘及第三輪到-60 分鐘，此舉在於隨著輪次增加，成員們對於試題內容更為熟悉且自身設定結果亦趨為一致，所需時間會逐漸變少。 (三)書籤標定法的執行本研究在執行書籤標定法時，成員們除了曾提及試題難度排序認知落差的意見外，亦發生在第二輪後，成員在收到第一輪各水平通過學生百分比之回饋後，會不經意將焦點放在書籤往前或往後的調整，以降低或提高各水平的通過比率，而容易忽略表現標準描述的功用，同時伴隨著本研究以 8，000 多名學生的實徵數據，配合該資料庫三參數試題反應模式，進行試題與切截分數的轉換，此舉就會形成 Cizek 與 Bunch (2007) 曾提及書籤的調整不一定會與成員認知一致的情況;此外，成員在執行標準設定時，也曾表示會在二個以上的試題處，產生猶疑不決之感。據此，本研究認為在因應上述問題時，未來研究者可試著從幾個面向著手。首先，當研究的試題數較多時，研究者可考慮預先刪除某些連續試題內容間距較接近者，以避免試題間認知重疊過大，或當時間較充裕時，可採納 Lewis 等(1 996 )建議，預先討論各試題為何會比前一試題難度較高，以增加共識。其次，對於書籤調整與成員認知的一致性現象，研究者除了在標準設定過程中，不斷重申表現標準描述的功用及重要性外，另可考慮、改採用模擬數據的方式，以進行試題書籤與切截分數的轉換計算，可適時避免不必要的爭議。最後，建議研究者可採行提供成員多點放置書籤的可能性，例如:在基礎水平，研究者可提供二個放置書籤的選擇，並伴隨著信心程度的評比，具體而言，某成員可選擇在基礎水平放置書籤於試題 22 與試題 30 '而信心強度分別是 40% 、 60% '接續，研究者再利用各自信心強度比率進行切截分數計算的加權，而此舉為有效融入模糊的概念，並提供成員較多的設定空間。

(四)標準設定方法之反思

本研究採用之標準設定材料來自於 TASA' 其建置目的在於檢視課綱實施成效，乃屬於低風險測驗(

low-stakes

test) 。然為全面涵蓋課程內容，其測驗題數要充足，並透過多種題本組合及等化技術搭配，讓每位考生作答題數不至於過多;因此，在類似此種測驗題數較多的情況下，標準設定實務操作多較適合採用書籤標定法進行。此外，像是國民中學學生基本學力測驗或考選部辦理之認證考試等高風險測驗(

high-stakes test)

，通常題本只有一種，且題數相對較少;除了書籤標定法之外，尚可考慮採用其他逐題設定的方法，像是Angoff 法。最後，在設定結果效度評估方面，由於標準設定成員人數通常不多，為提供估計結果的可能變動性訊息，透過 bootstrapping法作為輔助分析是值得研究者納入考量的作法。 (五)效度證據持續蒐集本研究已盡可能從各種效度證據來源，提供現行可得的效度證據，以作為本次標準設定

(26)

•

26

.學習成就評量標準設定謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉

結果之佐證，但誠如 American

Educational Research

Association 等( 1999) 認為效度是一種證

據的累積，未來應持續蒐集效度證據，不斷累積具說服力的支持性材料，讓切截分數獲得更多認同。例如，為獲悉、表現標準描述和切截分數之間的吻合度，可透過田野現場實地測試，取得實徵性資料作為憑據。一方面讓學生實地測驗並依切截分數區分其表現水平;另方面請任課教師依表現標準描述，區分全班每 1 位學生之表現水平。最後，檢視切截分數和教師評斷兩種結果相符的程度，即可作為研究效度之佐證。

誌謝

本研究感謝教育部與國家教育研究院補助本研究案的全部經費(計畫編號:

NAER-99-ll-B-1-01-00-2-01

)。同時，作者亦要感謝 2 位匿名評審和特約主編針對本文初稿提供許多寶貴的建議與修改意見。