謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉 教育科學研究期刊 第五十六卷第一期 2011 年,
56 ( 1 )
,
1-32
學習成就評量標準設定﹒1
•
大型資料庫國小四年級自然科學習成就評量
標準設定結果之效度評估
謝進昌 謝名娟林世華
國家教育研究院 國家教育研究院 國立臺灣師範大學 測驗及評量研究中心 測驗及評量研究中心 教育心理與輔導學系 助理研究員 助理研究員 副教授 林陳浦陳清溪
謝佩蓉
國立全灣師範大學 國家教育研究院 國家教育研究院 生命科學系 院長室 測驗及評量研究中心 教授 主任秘書 博士後研究員摘要
學習成就評量資料庫建置目的之一,在於描述學生於各學科的學習成就表現概況;而學 習成就表現的描述,即牽涉到標準設定議題。隨著臺灣學生學習成就評量資料庫對於國小四 年級自然科之評量架構調整,致使沿用的表現標準已多不符合實務運用,而興起重新修訂之 舉 O 本研究主要目的在於評估 2009 年自然科學習成就評量國小四年級標準設定結果之效度, 以 Kane (1994, 2001) 的效度評估證據為依據,藉由效度的過程證據、內部證據以及外部證據, 作為標準設定結果之效度證據來源。結果發現,從各項效度證據來看,國小四年級自然科標 準設定可由標準設定成員的組成及其回應、設定結果的一致性,以及外推論於數學成就的效 度外部證據得到支持。本研究最後提出數項建議,供未來標準設定研究者參考。 關鍵字:效度評估、書籤標定法、標準設定通訊作者:謝佩蓉, E-mail: 即h@mail. naer.edu.tw
·2· 學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉
宜、 nu 百
隨著國際的趨勢與潮流,臺灣教育決策者漸漸意識到,建置長期學習成就評量資料庫的 需求,以作為研訂課程與教學政策之重要參考依據;臺灣學生學習成就評量資料庫(
Taiwan
Assessment of Student Achievement
,
TASA) 便在此背景下應運而生。其建置目的,在於追蹤、分析臺灣國小、國中,以及高中職學生之學習成就表現,藉以探討學生學習成就上之表現差 異與學習上發展之趨勢,進而檢視當前國家教育體制與政策實施之成效;據此,其設置最重 要的目的之一,乃在於描述臺灣學生於各學科的學習成就表現概況 Q 學習成就表現的描述即 牽涉到標準設定議題,而世界各大型學習成就資料庫,對於標準設定之方式不盡相同。國際 數學與科學教育成就趨勢調查 (Trends
in International Mathematics and Science Study
,
TIMSS) 、國際學生成就評比計畫(
Programme for International Student Assessment
,
PISA)
,對於學生表現概況的描述,乃建立在相對標準上面。TIMSS 以固定間距(即百分位數)進行切 截分數訂立(
Mullis
,
Erberber
, &
Preuschoff
,
2008 )
,例如:美國國小四年級學生在 TIMSS2007
自然科,有 6%低於初級國際基準點 (low benchmark) 以下,而臺灣只有 3%的學生低於初級
國際基準點以下。而 PISA 對切截分數設立的想法與作法,某程度亦雷同於 TIMSS
( Organization for Economic Cooperation and Development [OECD]
,
2009)
,決策者對於學生表現的詮釋方式,乃透過相對比較來呈現;接續,再以實徵數據篩選適當試題,進行各國際基 準點的質性能力描述,而此詮釋模式的產生亦多為呼應其國際評比的評量目標O 另一方面,就本研究探討之TASA 自然科學習成就評量而言,其2009 年的評量架構係參 酌國民中小學九年一貫課程綱要中,自然與生活科技學習領域的分段能力指標(教育部,
2003)
,以效標參照評量 (criterion-based assessment) 的精神進行測驗的設計:亦即對於測驗 表現結果的詮釋建立在絕對標準上,探討各年段的學生經過學習後,對應課程所規劃的內容 標準(content
standards) 時,位於不同水平( level) 之學生,所具備之不同能力或知識。TASA 不採用國人較熟悉的常模參照來詮釋測驗結果,而是藉由標準設定(standard setting) 的方式 來闡釋,期望盡可能降低學生同儕競爭之壓力。在此理念下,吳宜芳、鄒慧英及林娟如 (2010) 曾針對 TASA 數學科建立各水平的標準,而吳毓瑩等 (2009 )則就 TASA 之英語建 立通過/不通過的標準,並同時輔以適切的標準設定效度證據,以支持其標準設定結果。 時至今日, TASA 自然科標準設定之後繼研究較少,且隨著現行評量架構之調整,致使治 用的表現標準已多不符合實務運用,而興起重新修訂之舉。據此,本研究目的為評估2009 年 臺灣 TASA 國小四年級自然科標準設定結果,輔以過程、內部及外部等多元效度證據,最後 提出數項建議,供未來標準設定研究者參考。謝進昌、謝名娟、林世華、林陳浦、陳清 j英、謝佩蓉
貳、文獻探討
學習成就評量標準設定﹒3 •
本節首先說明 2009 年 TASA 自然科所引用標準設定過程、技術之文獻基礎,以確立其理 論依據,接續,再陳述評估標準設定結果可能的效度證據來源及本研究採行之準則,茲逐一 陳述如下: 一、標準設定流程之理論基體 在 2000 年以後,對於執行標準設定的流程或技術'各學者所提出的概念十分豐富及多元。 本研究主要擷取 Cizek 與 Bunch (2007) 所著專書 Standardsetting: A guide to establishing and
evaluating
pe功rmancestandards on
tests 所提及之標準設定共同核心元素為架構,再輔以美國國家教育進展評估 (N
ational Assessment of Educational Progress
,
NAEP
)執行標準設定時,所 提供的實務經驗為標準設定藍圖。此舉乃因本研究標的之建置理念和目的,十分貼近NAEP 評量的取向,因而適合作為標竿o Cizek 與 Bunch( 2007
)認為執行一項標準設定,其流程大致包含幾個重大面向,分別是: 澄清測驗目的、訂定表現標準個數並命名、建立表現標準描述、選擇及訓練標準設定成員、 執行標準設定、形成切截分數、以及評估標準設定過程與結果。其概念的組成大致可形成如 圖 l 所示,茲說明如下。 澄清測驗目的 訂定表現標準個數並命名 選擇標準設 建立表現標準描述 定成員 共識 執行標準設定 訓練標準設 技術選擇 定成員 訊息回官員 過程監控 共識 形成切截分數 圖 1 標準設定流程評估標準設定過程與結果
·4· 學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉 可 (一)澄清測驗目的 在整個標準設定的過程中,最重要的指引就是測驗目的,它反映的不僅是回答如:設定 這些標準的目的為何?是否有需要設定通過標準?同時,不同測驗日的也會接續影響到表現 標準個數的選擇及標籤命名。 (二)訂定表現標準個數並命名 以 NAEP 為例,其日的為瞭解美國學生學習進展情況,使能廣泛描述各成就水平學生的
表現,因此,美國國家評量指導委員會 (National
Assessment Governing Board
,
NAGB
)於 1990 年規劃三個表現標準,其標籤分別命名為基礎(basic) 、精熟( proficient) 以及進階( advanced)
,將學生區分出四個表現類別(performancecategories)
0 此舉除考量測驗本身目的外, NA日本身亦擁有龐大施測題數,具有較高測量考驗力(
measurement
power) 足以區分出四個表現類別學生之能力差異。而命名則是在通盤考量後,選擇最能反映NAEP 職責之名 稱,作為最終版的表現標準標籤命名(
Bourque
,
2009
)。 國內進行標準設定時,表現標準個數可能依學科特性,而有不同的考量o TASA 國小四年 級、六年級數學科各約有 100 題,題數足夠劃分三個表現標準(吳宜芳等,2010) ;
TASA 國 小六年級英語雖有 70 題,然學習內容的深度與廣度可能較有限,故僅有一個切分點,表示通 過與不通過(吳毓瑩等, 2009) 。未來設計標準設定研究時,題數和學科特性均須同時考量。(三)建立表現標準描述
在為表現標準標籤命名後,決策者則必須進一步為各水平的實質內涵下定義,以界走出 他們心目中所期望基礎、精熟或進階學生的能力各自為何。若反映在不同學科內容時,此概念稱之為表現標準描述或如 Cizek 與 Bunch
(2007
)將之稱為表現水平描述(performance level
description
,
PLD)
,它代表的是學科專家對於不同水平學生或受試者於某學科應具備的共同知 識、技巧或能力的描述,而通常(但非必要)會包含一般性(general) 、具體性 (specific) 或 臨界的文字陳述 (borderlinedescription)
,例如:具備基礎水平的自然科學生,應該擁有察覺 與描述自然現象的能力,像是學生要能發現食鹽溶解於水的現象O (四)選擇及訓練標準設定成員 選擇適切之標準設定成員,並透過合宜之訓練課程,使參與成員瞭解並熟悉標準設定之 要旨、技術等,乃為提升標準設定效度不可或缺之一環O 而標準設定成員選擇的概念,就如 同執行抽樣技術一般,不僅希望能具有母群之代表性,同時,組成成員數目亦希望人數足夠 達到較高精確程度的統計估計。就NAEP 經驗而言,為因應美國幅員廣大,乃先以分層隨機 抽樣的方式,抽出提名人(nominator)
,再從提名人的提名名單中選出符合資格的設定成員, 以服膺各州代表性(American College Testing
[AC呵, 2005 )。謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉 學習成就評量標準設定·
5
•
但由於各標準設定方法複雜度的差異、經費充足與否等因素,在在會影響成員選擇的結 果,而就 NAEP 標準設定成員的組成經驗視之,三分之二人員由教師與其他非教師之教育者 所組成,而其餘的三分之一由公眾/非教育者所組成,同時,樣本的組成還考量到地區、社
群、種族與性別之平衡(
Bourque
,
2009
)。而在成員數日的決定方面,早先NationalAssessment
Governi月 Board(NAGB
,
1990) 認為 16-20 人,就能達到心理計量中相當程度的精確性,而Hambleton (200 I
)也有類似的建議,認為 15-25 人就能讓設定結果更具強韌性,此外,ACT
(1
994
)則認為在各年段、學科中,若有至少30 名標準設定成員,將更會提高運用的彈性與 切截分數估計的準確性。 過去,圍內標準設定研究之成員數為 13 至 16 人(吳宜芳等,2010
;吳毓瑩等,2009 ;
杜佳真、林世華,200
7)
,身分包括:教師、教育學者、測驗學者,以及其他領域代表人士, 並以教師和學者為主。邀集過程多以研究機構名義,亦有以研究者個人進行邀請。值得注意 的是,國內過去相關研究雖然相當著重標準設定成員之身分代表性,卻較少留意區域代表性; 未來在執行標準設定時,可借重國外經驗,敦聘設定成員時留心臺灣各地區代表性O (五)執行標準設定 1.技術選擇 過去標準設定技術的發展中,最早被提及的方法,主要以Angoff( 1971
)、 Ebel (1972) 、Nedelsky
(1 954) 為核心,後續的延伸亦多以此為架構進行修訂的程序,至1996 年時,就有 近五十種方法被發表 (Be此, 1996) 。雖然方法如此多元,但根據Loomis 與 Bourque(200 I
)、Reckase
(2000) 整理的文獻,大致可發現NAEP 對於標準設定技術的採用,具有強調多元融合與適切性之趨勢 O 例如: NAEP 所採用修訂 Angoff 法 (modified
Angoff)
,其執行的過程早已為因應各種實務、方法層面的考量,融入許多決策者、研發者本身的理念、需求或元素,
因而 'NAEP 更特別將之稱為ACT別AGB 法(
Reckase
,
2000
)。整體而言,相對於關注哪一個標準設定方法為最佳,目前研究者更強調哪一個標準設定 方法對於該測驗或評量是適當的。根據此理念, Loomis 與 Bourque (20例,
p.
212) 在評閱各 項 NAEP 標準設定方法後,提出 NAEP 在判斷標準設定方法適切性時所依循的六大準則,其 概念大致為:能與 NAEP 計分、量尺與分析技術一一致;擁有建全與可驗證的統計過程以計算 切截分數,同時能將標準設定成員( panelists) 之主觀判斷結果反映在 NAEP 量尺上;能充分 發揮可獲得的資料;能將政策的決定權留給執政者;是可推行的,並具有清晰、簡要、易於 解釋與可使用性等。參酌這樣的原則,國內標準設定領域學者亦依其研究需求,選擇「以測 驗為中心」之 Angoff 法(杜佳真、林世華, 2007) 、修訂 Angoff 法(吳宜芳等, 2010) 、書籤 標定法(吳毓瑩等,2009)
,或者以「受試者為中心」之方法(林娟如、洪碧霞、陳煥文、徐 柏原, 2008) 執行標準設定。 整體而言,雖然決策者所援用的標準設定方法不斷地推陳出新,但其核心理念是不變的,•
6
·學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清漢、謝佩蓉所強調的都是方法的適切性,該方法是否符合測驗目的、評量架構與實務的考量等等。
2. 訊息回饋
在進行標準設定時,為有效協助成員凝聚共識或具體化某些概念,常會在各設定階段中, 提供不同的參照資料以作為回饋,大致可歸納為三類(
Cizek
&
Bunch
,
2007)
,分別是:常模參照訊息 (normative information) 、事實訊皂、 (reality
information)
,以及影響訊息(impact
information)
0 I 事實訊息」通常為協助成員知覺自己判斷的準確性,例如:試題 p 值 I 影響訊息」的提供,則為告知成員設定切截分數可能造成的影響,包含如:經分類後,各水平下 通過之人數百分比,最後, I 常模參照訊息」則是用以協助成員知覺本身與其他成員判斷的差 異,包含如:其他成員所訂下之切截分數等。而 NAEP 對於提供回饋訊息的目的,在於使標 準設定成員判定結果的品質最佳化,致使大部分回饋訊息的作用都在增進成員內與成員間判 定的一致性(
Loomis
,
2000
)。經 Reckase(200 I
)綜整, NAEP 曾提供之回饋訊息大致包含: 成員判定位置回饋(rater location
feedback) 、一致性訊息的回饋(consistency
feedback) 、完整 題本回饋(whole booklet
feedback) 、試題難度分類回饋(item difficulty categorization feedback)
及影響回饋(consequence
feedback) 等 O 國內標準設定研究所提供的回饋訊息和 NAEP 十分相似,除了設定成員前一回合之設定 結果、設定者間一致性訊息,也會因應標準設定方法之不同,提供不同形式的試題難度訊息。 例如:吳宜芳與鄒慧英 (2010 )、杜佳真與林世華 (2007 )採用 Angoff 家族之技術進行設定, 故分別提供試題 p 值和逐題評估結果作為回饋訊息;吳毓瑩等 (2009 )採用書籤標定法,則 透過試題圖 (item map) 的方式,將試題品質訊,皂、與試題通過率融入試題圖中。本研究採取書 籤標定法,一方面參考國內學者的方式,隱含試題難度訊息於試題本之中;另亦參採國外學 者之作法,以各輪設定結果及各水平通過人數百分比、各成員設定分數,作為回饋訊息。 3. 過程監控 NAEP 對於整個標準設定的過程,除聘任幾位學者成立技術小組,進行諮詢外,也有著一 套嚴格的監控機制,而其目的就是在嚴格評估設定過程的適切性,同時將評估的結果作為效 度的過程證據。根據 Reckase (2000) 整理的文獻,大致包含:團體成員間評定差異、不同背 景團體成員問評定差異、過程的評估問卷、標準的一致性、成員對於極端判定之評估性反應、 各輪間判定結果的改變、提供影響訊息後成員的判定改變等指標。(六)形成切截分數
透過已經訓練、具代表性並具專業學科背景之標準設定成員,將「對於不同水平之學生 知識或能力的期望陳述」共識化後,轉化形成具體的切截分數(cutscore)
,以獲致標準設定 結果。其轉化過程即是透過標準設定技術的執行,並搭配回饋訊息提供及流程監控,於產生 成員問共識後所達成O謝進昌、謝名娟、林世華、林陳浦、陳清;美、謝佩蓉
二、標準設定之效度評估
學習成就評量標準設定﹒
7
•
〈教育與心理測驗標準>
(Standards for educational and psychological
testing) 一書指出,效度 (validity )乃為:透過證據和理論的累積,產生對於測驗分數的特定詮釋與使用之適切
程度 (American
Educational Research Association
,
Arne叮n叫nPsychological
Assoc叫ion,&
National Council on Measurement in Education
,
1999
,
p.
184) 。可見效度的核心概念並非全有或全無,而在於適切程度之高低;應用於標準設定領域時,則可視為詮釋切截分數的支持程度。 根據這樣的理念,
Kane (1994
,
2001
)提出了標準設定效度評估可能的證據來源,其精神不但仍依循著美國的教育與心理測驗標準'且同為吳宜芳等 (2010) 、吳毓瑩等 (2009 )、 Cizek 、 Bunch 及 Koons
(2004
)、 Hambleton(2001
)等國內外研究者所採納O 以下針對 Kane 所指稱,可支持效度的證據來源進行說明(表1 )。
(一)效度的過程證據
Kane ( 1994
,
2001
)所提出效度的過程證據(procedural evidence for validity)
,強調的是整 個標準設定過程的適當性及過程執行的品質,其內容不僅限於標準設定技{ItT選擇的理論基礎 及易於解釋結果的實用性質(practicability) ,更廣至於設定過程前端的表現標準描述的形成或 後端標準設定成員的選擇、司|練、回饋及資料分析的嚴謹性等,甚至研究者對於設定後標準 可能對於社會觀感、財政支出影響的考量等,都是可行的評估證據。國內學者(吳宜芳等,2010
;吳毓瑩等, 2009 ;杜佳真、林世華, 2007) 透過描述標準設定過程、詳盡和設定者溝 通、採用實用且清晰的程序、執行合理且人性化的過程,以及肯定並回饋設定者的表現,作 為過程證據之來源;然大多並末詳盡交代標準設定過程之細節。為賦予過程證據更詳盡之意 義性,本研究主要檢視之證據來源包含: 1.標準設定技術的選擇及執行 有關 2009 年 TASA 自然科國小四年級標準設定技術,使用書籤標定法(Bookmark
method) (Lewis
,
Mitzel
,
&
Green
,
1996)
;本研究除陳述運用此技術的理論性及符合實用、測 驗日標的一致性程度外,更將會針對其執行的適切性進行評估O 2.標準設定成員的選擇 在標準設定過程中,標準設定成員占有舉足輕重的角色,而對於成員的選擇、訓練、資 料蒐集過程等,是否具系統性與嚴謹,性(Berk,1986; Kane
,
1994
,
2001 )
,將為形成評估的重點, 而本研究主要針對 TASA 自然科國小四年級標準設定成員的專業性、代表性及人數的充分性 等三方面進行評估。 3. 標準設定成員的回績 標準設定成員的回饋係指成員對於整個標準設定過程與決策結果的知覺、意見與滿意程·8· 學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉
度等 (Ka間, 1994, 2001) ,而本研究以標準設定成員對於標準設定時間的安排、導引、任務的 瞭解程度及對於設定結果的滿意程度等面向進行評估。
(二)效度的內部證據
效度的內部證據(
internal evidence for validity
)所強調的是標準設定成員在運用標準設定技術時,其結果產生的穩定性及一致性,但根據研究者運用技術概念的差異,提供的內部證 據亦會有所不同。吳宜芳等 (2010 )以試題變異隨設定回合消長的變化情形,並計算平均殘 差平方根、類推性係數、組內相關係數,以及試題最低通過水準和受試實際表現之相關,來 表徵其內部證據。杜佳真和林世華 (2007 )則是透過因素分析方式,進行專家意見共識一致 性的考驗。本研究參採過去經驗,並考量國外學者的建議,主要檢視之證據來源為: 1.標準設定技術內的一致性 此證據的概念強調的是方法在不斷重複的過程中,所得標準估計的準確性程度,它可以 是運用兩種相似方法時所能產生一致性程度 (Ka間, 1998) 。本研究以設定成員執行書籤標定 法最後一輪之切截分數標準誤,不超過該測驗之測量標準誤的四分之一為判斷準則(
Jaeger
,
1991; Sireci
,
Hauger
,
Wells
,
Shea
,
&
Zenis旬, 2009 )。2. 標準設定成員內設定結果的一致性 此證據強調的是標準設定成員於各輪內及各輪間,成員本身評定結果的穩定程度 (Be此,
1996;
Ka間,1994)
,而研究中以標準設定成員於各輪間及各輪內,其設定結果是否在合理變動 程度範圍內,作為檢視重點。 3. 標準設定成員問設定結果的一致性 此證據是以評估不同標準設定成員間,其設定結果的一致性程度,而研究者多期望成員 間判定的結果具有較小的變異,以利於結果的整合(Berk,1996;
Ka間,1994
,
2001)
,而本研究 以檢視來自不同背景之標準設定成員,其設定結果是否具一致性,以作為評估面向。 (三)效度的外部證據效度的外部證據(
external evidence for validity
)是不同方法間、或者受試者相關的外在效 標資料,以作為設定結果之有效性的外在推論 (Ka肘, 1994, 2001) 。國內相關研究提供之外部 證據並不多,而吳毓瑩等 (2009 )則是完全以專家設定之書籤標定法和常態混組模型,兩種 不同方法間的一致性,作為持續蒐集之外部證據。 本研究以 TASA 2009 年國小四年級學生的數學成就表現,作為外部資訊,理由有四。首 先,就學科性質而言,數學是科學的基礎,應用自數學習得之邏輯能力,才能進一步觀察、 檢視自然現象。第二,就學習內容而言,國民小學九年一貫課程綱要中,國小四年級數學科 的能力指標和自然科能力指標息息相關。例如,數學科培養長度、角度、面積等概念,方能謝進昌、謝名娟、林世華、林陳浦、陳清 j豆、謝佩蓉 學習成就評量標準設定·
9
•
應用至自然科之繪圖。第三,依據TlMSS 與 PISA 之分析結果,發現學生的數學與科學表現 具有相關性,且有傾向隨著學生未來數學表現愈好,其科學表現亦會愈好 (Ma,L.
&
Ma
,
X.
,
2005
)。最後,就 TASA2006 、 2007 年的資料進行分析,同樣發現,自然與數學的成就具有 .62 和 .63 的高相關,已達 Cohen (1988) 建議, ,-相關達 .50 為大效果量」之標準。因此,本研 究檢視圓小四年級自然科所設立之切截分數所區分的四個類群,是否亦能說明學生於數學成 就表現所區分的結果,作為標準設定結果之外部效度證據。 簡要描述 書籤標定法的理論性、可信度及符合實用、測驗目 標的一致性程度;書籤標定法執行的適切性 標準設定成員的專業性、代表性及人數的充分性 標準設定成員對於標準設定時間的安排、導引、任 務的瞭解程度及對於設定結果的滿意程度 標準設定後之切截分數是否具有合理的標準誤 標準設定成員於各輪間設定結果是否在合理變動 程度範圍內 來自不同背景之標準設定成員,其設定結果是否具 一致性 自然科所設立之切截分數所區分的四個類群,是否 亦能說明學生於數學成就表現所區分的結果 標準設定技術內的一致性 標準設定成員內設定結果的一致 性 標準設定成員間設定結果的一致 性 對照其他外部資訊 效度的 標準設定成員的選擇 過程證據 標準設定成員的回應 效度的 內部證據 效度的 外部證據 表 1 本研究評估標準設定結果之效度證據來源 評估誼據來源 標準設定技術的選擇及執行參、研究方法
茲就本研究所運用之資料分析方法、 TASA 自然科國小四年級標準設定流程,以及書籤標 定法的執行,進行陳述。一、資料分析方法
本研究目的為檢視 TASA 自然科國小四年級標準設定成果,其數據來源為標準設定成員 在正式標準設定會議中,各輪所設定之切截分數及填答於評估問卷之結果。由於標準設定結 果受成員主觀性影響甚主巨,若切截分數存在極端值,對於平均數影響較大,對中位數影響較 小;故以中位數作為結果之評估,較符合效度證據的需求。然而,中位數抽樣分配之標準誤 無法直接推估;因而,本研究除了透過描述性統計,計算平均數、個數、百分比,再以無母 數之 bootstrapping 法 (Efron,1979)
,以 SPSS 軟體,反覆抽樣估計1 ,000 次,計算切截分數中.
10
﹒學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉 位數標準誤和不同背景標準設定成員切截分數之顯著差異檢定。關於 bootstrapping 概念簡介 和相關操作,請參見本文附錄 O 二、標準設定流程 TASA 自然科國小四年級標準設定時程如表 2 所示。在舉行國小四年級自然科正式標準設 定會議前, TASA 於工作推動委員會,確立基礎、精熟以及進階三個表現水平命名標籤及其政 策定義 (policydefinition)
;接績,由自然科學科專家確立國小四年級的基礎、精熟及進階等 水平之表現標準描述,以清楚界定國小四年級學生在基礎、精熟及進階水平,應具備的共同 自然科知識或能力。本研究為精確掌握正式會議的流程及細節,聘請5 位自然科小學教師協 助進行自然科標準設定的前導研究,會中主要針對下列各項進行意見交換及內容修訂: (一)檢視前導資料的可讀性。 (二)標準設定議程的修訂參考(例如:檢視標準設定執行時各輪所需時間)。 (三)標準設定方法及分析軟體的前導試驗(trial run) 。 (四)檢視及修訂評估問卷內容。 最後,經修訂的前導資料(advanced material) 陸續寄送給每位正式標準設定成員,並於 7 月正式執行標準設定會議。 表 2 標準設定時程 時間( 2010年) 3 月 4 月 5 月 6 月 7月 項目內容 工作推動委員會確立基礎、精確、進階的政策定義 自然科學科專家確立國小四年級基礎、精熟及進階等水平之表現標準描述 聘請5位自然科教師進行自然科標準設定的前導研究 寄送邀請函、前導資料給標準設定成員 舉行國小四年級自然科正式標準設定會議 三、書籤標定法 TASA 自然科以書籤標定法作為標準設定技術'並搭配三輪(rounds) 的反覆遞迴操作, 以凝聚標準設定成員的設定共識。茲將本研究操作書籤標定法的流程和方法學上的相關評 論,陳述如下 O (一)提供試題春書籤標定法(
Lewis et a
I.,
1996) 的核心源自於 Angoff 法 (Angoff.可 1971)
,其設計能適時 避免原始 Angoff 法逐題檢視所造成成員疲勞及認知負荷的干擾 O 研究者事先提供每位標準設謝進昌、謝名娟、林世華、林陳浦、陳清 j豆、謝佩蓉 學習成就評量標準設定﹒
11 •
基礎書籤 3 基礎書籤 2 基礎書籤 l 依難度排序 試題卷(OlB)2
31
o
3
基礎以下 團2 書籤標定法中,由易至難排序的自然科試題卷概念 題內容包含:題目內容、選項、答案及評測項目等。其中,對於難度值的計算,本研究採用 三參數試題反應模式並輝同時估計,置於同一量尺上。 (二)放置水平書籤 標準設定成員在經逐一檢視 alB所有試題後,研究者會告知成員只要將基礎、精熟、進 階三個書籤逐一放置於兩兩試題間,即完成三個水平切截分數的設定,例如:圓 2 某成員的 基礎書籤放置在第 30 題與第 31 題間。如此,就可以將所有學生區分出基礎以下、基礎、精 熟與進階等四個能力區塊。接績,研究者會將各水平書籤所放置對應的試題,搭配該題的已知的試題難度、鑑別度及猜測度參數,於反應機率(
response probability) .67 (Huynh
,
2006 )
下,進行能力值的轉換,再加以轉換為 TASA 所用之平均數 250 、標準差別的量尺分數模式; 最後,再求出各成員之平均分數,即得該水平的切截分數。 (三)判斷知識間幅 放置書籤的原則方面,研究者向成員表示必須仰賴標準設定成員經逐一檢視各試題內容 後,並搭配各水平表現標準描述,就自身教學經驗想像各水平的邊緣學生(
borderline
studen的) 應該具備哪些自然科知識,進而,挑選出這些邊緣學生應該有 67%能正確作答的兩個試題間, 再逐步將各水平書籤置放於該試題位置,如此,就能將所有受試者區分出基礎以下、基礎、 精熟與進階等四個群體類別 O 此外,研究者更強調雖然標準設定成員單純地將書籤置放於二 個試題間,但其概念應將其視為以書籤來區分兩組試題(或兩組知識、內容) ,因此,成員判.
12
.學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉 定的依據必須有某種程度合理的理由,例如:兩群試題間存在較大的知識間隔(gap)
(Mitzel
,
Lewis
,
Patz
,
& Green
,
2001
)。(四)標準設定流程 成員訓練方面,本研究除了於會前寄送前導資料給每位正式標準設定成員,亦於第一輪 標準設定開始之前,現場說明:會議目的、成員肩負之任務、標準設定技術'並給予適當訓 練,才開始正式之設定程序(表 3) 。 表 3 標準設定流程 輪;欠 開場 第一輪(共同討論) 第二輪(共同討論) 第三輪(獨自設定) 檢視標準設定結果 內容 說明會議目的、任務、標準設定技術及成員訓練 1.執行第一輪標準設定(成員可針對試題內容、標準設定方法進行討論) 2. 成員填寫評估問卷一 1.發放回饋訊息及說明其意涵 2. 共同討論第一輪設定結果(成員說明書籤放置理由) 3.執行第二輪標準設定 4. 成員填寫評估問卷二 1.發放回饋訊息及說明其意涵 2成員獨自執行第三輪標準設定 1.成員檢視第三輪設定之切截分數 2.成員填寫評估問卷三 第一輪透過成員共同討論的方式,進行書籤標定法的設定,成員可就自然科 OIB 的試題 內容、方法的細節等進行討論;接績,研究會透過成員所填寫的評估問卷一及各成員所設立 第一輪切截分數之背景分析,以監控設定流程。 第二輪執行的任務大致重複第一輪的動作,但差別在於研究者會提供回饋訊息並就此訊 息意涵進行解說,包含:第一輪其他成員(與自己)所放書籤的位置分布圖、第一輪的基礎、 精熟及進階水平實際通過的人數百分比、國際大型評比計畫 (TIMSS 、 NAEP) 國小四年級學 生於自然科學各水平的通過人數百分比等。接續,研究會請某些成員說明與分享第一輪書籤 放置的理由,進而於第二輪結束前,填寫評估問卷二並進行第二輪成員切截分數設立之背景 分析,以作為流程監控。 第三輪的標準設定在提供回饋訊息,包含:第二輪其他成員(與自己)所放書籤的位置 分布圖、第二輪的基礎、精熟及進階水平實際通過的人數百分比,並說明其意涵,最後由成 員獨自進行書籤標定法。最後,全體成員會統一檢視最後第三輪所設定出通過分數,並填寫
謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉
第三份的評估問卷,以檢視成員對於整體結果的評估。
學習成就評量標準設定﹒
13 •
四、相關評論
書籤標定法目前在美國是最為通行的一種標準設定方法,許多州立的大型考試,都是採
用此法來進行切截分數的設定(
Council of Chief State School Officers
,
200 I )
;亦受到國內標準
設定研究學者青睞(吳毓瑩等, 2009) 。相較於其他逐題設定的方法(如 Angoff 法) ,書籤標 定法能使設定成員聚焦在學生可能的表現,而非試題難度( Buckendal址,Smith
,
Jmpara
,
&
Plake
,
2002)
0 Hambleton 與 Pitoniak (2006) 的研究指出,相較於其他種標準設定方法,書籤標定法廣為標準設定成員所喜愛,且成員能夠容易地放置書籤與設定滿意的切截分數。 Karantonis 與 Sireci (2006) 回顧過去相關文獻發現,書籤標定法不但是一項較新的技術,能 依照內容標準適切地定義出切截分數,只要妥善地執行,便能產生有效的、站得住腳的標準; 這可從吳毓瑩等 (2009 )的研究得到印證。該研究以書籤標定法進行國小六年級英語的標準 設定,並以常態混組模型作為效度證據。結果發現,專家判定和常態混組模型的分類一致性 結果非常好。 缺點在於,採用書籤標定法需準備 alB '使得事前準備工作較多也較耗時;此外,標準設 定的判斷倚賴整份測驗而非單題,所以測驗內容有顯著改變時,便可能需要設定新的標準
(Buckendahl et a
l.,
2002) 。此外,標準設定成員可能不認同 OIB 的排序,且產生的切截分數可能較低(
Karantonis
&
Sireci
,
2006; Lewis et a
l.,
1996)
,均為此方法之限制。儘管書籤標定法有上述缺點,考量國小四年級自然科之題數多達130 題,若採用逐題檢 視的方法,執行設定過程必然曠時費力,不如將時間成本投注於事前準備OIBo 除此之外,即 使文獻指出書籤標定法產生的切截分數可能較低,然而,實徵研究卻發現切截分數較Angoff 法高 (Buckendahl
et a
l.,
2002)
,顯見切截分數高低可能尚未成定論。鑑於TASA 設置日的, 乃為了檢視課程綱要之實施成效;為了適切地回應課程內容,並考量可行|笠,在「簡單、易 懂以及易執行」的原則下,兼顧有限時間及經費成本,本研究遂採用書籤標定法作為標準設 定技術 o肆、結果與討論
本研究以 Kane(1994
,
2001
)所提出之效度證據來源作為評定設定結果之依據。效度的過 程證據方面,聚焦於整體標準設定流程之程序,包含組成成員之挑選、書籤標定法之執行過 程等。效度的內部證據方面,檢視每一輪和不同輪間,標準設定所得結果的變動程度;以及 不同性別、都市化程度,以及身分別之標準設定成員設定結果之一致性。效度的外部證據方 面,利用自然科之標準設定結果,將研究樣本分為四群,檢視這四群分類結果,是否亦能說.
14
.學習成就評量標準設定 明學生於數學成就表現所區分的結果。 謝進昌、謝名娟、林世華、林陳浦、陳清 j柔、謝佩蓉 教師 學者一、效度的過程證據
(一)標準設定成員的選擇 標準設定成員的選擇,以分層立意抽樣的方式進行樣本選擇,成員由為教師、學者及行 政人員所組成。經由公開的標準設定成員徵求及研究助理電話詢問具代表性人員意願的方式 並行,最後,篩選最能符合表 4 資格的人員,視為首要的成員候選人,其次則為僅少數資格 條件不符之人員為候補候選人,以組成正式的自然科標準設定成員 O 表 4 標準設定成員身分類別及對應資格條件一覽 身分類別 資格條件 1.至少有 5年以上的教學經驗且避免行政兼課的教師2
3. 在自然專業領域具有某程度傑出或可受公認的表現 1.現職不能是國小教師 2. 曾負責國民小學相關重要行政事務工作(例如:教育處科長以上職級) 行政人員 3.至少具備國民小學相關行政事務處理5年以上經驗 4.曾具備(該年段及自然)相關接觸經驗者(例如:教學經驗、過去大學曾就讀自 然相關系所) 1.熟悉該年段、自然科之評量架構及內容 2.在其專業領域具有某程度傑出或可受公認的表現 研究於 2010 年 4 月初發出標準設定成員徵求訊息後,經為期 2 個多月的成員甄選,最後, 正式參與自然科國小四年級標準設定成員共計 28 名,符合 ACT (1994) 所建議之 30 名成員, 亦相近於 Hambleton (2001) 的-25 名之建議 O 此外,成員的背景分布如表 5 所示,分別來自 北部 (46 .4% )、中部 (35.7% )、南部(7.1%)、東部( 10.7%) 。其中,教師占有 23 名 (82.1%)
,
其次為行政人員 4 名 (14.3% )、學者 l 名(3 .6%) ,組成理念符合 Bm叫ue (2009) 所指,設 定成員異質性需足夠,且強調由教育人員和非教育人員共同組成;也和國內吳宜芳和鄒慧英(2010
)、吳宜芳等 (2010) ,以及杜佳真和林世華 (2007 )以教師為主之設計相同。而性別 的分布幾乎是男、女各半的比率。最後,成員總教學年資或行政年資,最低 5 年、最高 36 年,平均年資 17.8 年。
整體而言,標準設定成員大致能包含北、中、南、東四個區域的人員、同時能兼顧不同 身分別及性別的異質性代表組成,最後,全部成員都具有小學自然科專業背景,而教學或行 政年資具高水平,平均皆超過 16 年。謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉 學習成就評量標準設定﹒
15 •
表 5 國小四年級自然科正式標準設定成員背景分布一賈 (N=28)
地區 身分類別 性別總人數
男女
教師 38
11
it
行政人員O
學者O
教師 36
9
中 行政人員O
教師O
南行政人員
O
教師2
O
2
東 行政人員O
(二)標準設定回饋訊息 本研究所提供之各類回饋訊息,包括常模參照訊息、事實訊,皂、以及影響訊息。分述如下: 1.常模參照訊息:於每一輪設定完成後,研究者提供每位設定成員和其他成員,各自所設 定之水平書籤位置。 2.事實訊息:本研究採用書籤標定法,提供給設定成員之 0凹,已透過試題難度排序,因 而隱含了難度訊息。 3.影響訊,皂、:於每一輪設定完成後,研究者提供各水平之通過人數百分比。 (三)標準設定成員的回應 標準設定成員的回應,主要評估成員在正式會議過程中,對於活動時間分配的充足性、 會議導引及說明的瞭解程度、標準設定目的、任務及回饋訊息的瞭解,以及對於最後設定結 果的滿意及信心程度。茲說明如下: 1.標準設定成員對於各階段活動時間分配的知覺 有關會議各階段活動時間的分配,成員對時間充足性程度如表 6 所示,成員中有 22 名(78.6%
)對於會議一開始的解說及導引時間分配,覺得剛剛好,只有少數成員覺得略長或略 短;接續,在會議第一輪正式執行標準設定時,對於提供置放書籤的時間,有 11 名(3 9.3%)
成員認為稍短了,而 9 名(32.1 %)成員認為剛剛好,概略視之,成員認為本研究提供執行第 一輪標準設定的 70 分鐘稍微偏短;此外,成員對於會議提供團體討論標準設定結果適切性的 時間,大多數 (78.6% )成員覺得剛剛好,只有極少數(7 .1%) 成員認為過長了。整體而言, 成員對於本次會議各階段任務的時間分配,大多數成員感到略長的(眾數為 4)' 顯示各活動.
16
.學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清 j豆、謝佩蓉 表 6 標準設定成員對於各階段活動時間分配知覺分析一覽 題項內容 太短了 剛剛好 太長了 軍數 口 口 口 口 口O
3
22
3
O
本次會議的解說與導引時間分配3
(0%)
( 10.7%)
(7
8.6%)
(10.7%)
(0%)
本次會議提供置放書籤的時間分5
11
9
3
O
2
配(第一輪)(17.9%)
(3
9.3%)
(3
2.1%)
(10.7%)
(0%)
本次會議提供團體討論標準設定2
22
2
3
結果適切性的時間分配(3.6% )
(7
.1%)
(78.6%)
(3.6%)
(7
.1%)
O
5
10
11
2
本次會議各階段任務的執行時間4
(0%)
(1
7.9%)
(3
5.7%)
(3
9.3%)
(7
.1%)
執行時間大致足夠的O 2. 標準設定成員對於會議的導引及說明的瞭解程度 有關於標準設定開始前的導引及執行中各技術面向的說明方面,成員們對其瞭解程度的 分析,如表 7 所示。 89.2%成員認同前導資料能充分幫助暸解本次會議成員應扮演的角色,其 次,對於標準設定會議執行中,有關表現標準描述、如何執行書籤標定法及各項回饋訊息, 包含有第一輪其他成員(與自己)判定之切截分數位置、第一輪設定之基礎、精熟、進階等 層級通過人數百分比與國際大型評比計畫(TIMSS 、 NAEP) 自然科於各層級通過人數百分比 等資訊的說明,大部分成員都表示能清楚瞭解,其平均分數均在4 分以上 o 整體而言,成員 對於會議的導引及相關資訊的說明,大多數成員均感到清楚O 3.標準設定成員對於標準設定的目的、任務及回饋的暸解程度 有關成員對於標準設定目的、任務及回饋訊息的瞭解程度方面,其分析結果如表8 所示, 96.5%的成員瞭解本次會議的目的,而此項目的李克量表平均數為4.64 '具相當高的水平,而 對於自然科國小四年級評量架構與後續會議流程的理解上,其平均數分別為4.鈞、 4.肘,顯示 大多數成員對於標準設定的目的及後續任務程序,亦具有相當程度的瞭解。 就回饋訊息的理解部分而言,不論是第一輪其他成員(與自己)判定切截分數的相對位 置、第一輪設定之基礎、精熟、進階等層級通過人數百分比或者是國際大型評比計畫(TIMSS 、 NAEP) 自然科於各層級通過人數百分比等,多數成員均高程度的瞭解,平均數均在4 分以上。 整體而言,成員們對於會議的導引及相關資訊的說明感到清楚,亦能充分瞭解其意涵。 4.標準設定成員對於設定結果的滿意及信心程度 有關成員對於最後標準設定結果的滿意和信心程度而言,分析結果如表9 所示。大多數謝進昌、謝名娟、林世華、林陳浦、陳清 j柔、謝佩蓉 學習成就評量標準設定﹒
17 •
表 7 標準設定成員對於會議的導引及說明的瞭解程度分析一覽 完全 有點 題項內容 不同意 同意 口口口口 完全 口 同意 平均數 我認為先前收到的前導資料能 充分幫助我瞭解本次會議應扮 演的角色 本次會議對於表現標準描述 (PLD) 的說明及其功能陳述 本次會議對於如何執行書籤標 定法的說明陳述 本次會議對於第一輪其他成員 (與自己)判定之切截分數位置 的說明及功能陳述 本次會議對於第一輪設定之基 礎、精熟、進階等層級通過人數 百分比的說明及其功能 本次會議對於國際大型評比計 畫( TIMSS 、 NAEP) 自然科於 各層級通過人數百分比的說明 及功能O
(0%)
(3.6% )
2
9
16
(7
.1%)
(3
2.1%)
(57.1%)
4
( 14
.3%)
3
(1
0.7%)
12
(42.9% )
9
(3
2
.1%)
11
(39.3% )
15
( 53.6%)
5
13
10
(1
7.9%)
(46
.4%)
(3
5.7%)
3
15
10
(1
0.7%)
(53.6%)
(3
5.7%)
2
10
14
(7.1%)
(3
5.7%)
(50%)
4
.4
3
4.18
4.36
4.18
4.25
4.37
表 8 標準設定成員對於標準設定的目的、任務及回饋的暸解程度分析一覽 完全 有點 不同意 同意 口口口0 0 1
(0%)
(0%)
(3
.6%)
我瞭解自然科國小四年級評量架構
0 1 3
(0%)
(3
.6%)
(1
0.7%)
0 1 2
(0%)
(3
.6%)
(7.1%)
0 0 2
( 0% )
( 0% )
(7.1
% )
0 0 1
(0%)
(0%)
(3
.6%)
題項內容 我瞭解本次標準設定會議的目的 我瞭解會議接續的標準設定流程 我瞭解第一輪其他成員(與自己)判 定切截分數的相對位置 我瞭解第一輪設定之基礎、精熟、進 階等層級通過人數百分比的意涵 我瞭解國際大型評比計畫(TIMSS 、 NAEP) 自然科於各層級通過人數百 分比的意涵 、、 j / \ 、,/ /少也 。叫廿一 O 川V /t\ 一 /l\(3
.6% )
(3
.6%)
2
(7
.1
%)
口8
(28.6% )
12
( 42.9%)
19
(67.9% )
12
( 42.9%)
18
( 64.3%)
完全 同意 口19
(67.9% )
12
(42.9% )
6
(21
.4%)
14
( 50%)
9
(3
2.1%)
16
9
(57.1%)
(3
2.1%)
平均數
4.64
4.25
4.07
4
.4
3
4.29
4.18
O
(0%)
O
(0%)
O
(0%)
O
(0%)
O
(0%)
(3
.6% )
o
1
(0%)
(3
.6%)
.
18
.學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉 表 9 標準設定成員對於設定結果的滿意及信心程度分析 覽 完全 有點 完全 題項內容 不同意 同意 同意 平昀數 口 口 口 口 口 我相信自己最後書籤置放的位置,是O
。
4
17
7
4.11
與表現標準描述 (PLD) 一致(0%)
(0%)
( 14.3%)
(60.7% )
(25%)
O
4
5
16
3
我對於最後的切截分數,感到滿意3.64
(0%)
( 14.3%)
( 17.9%)
(57.1%)
( 10.7%)
的成員均表示自己最後置放書籤的位置,會與表現標準描述一致,平均同意程度為4.1 1 '顯示 成員對於自己設定結果,具有相當程度的信心。此外,成員對於最後切截分數的滿意程度, 其平均數為 3.64 '顯示大多數成員 (85.7% )對於最後結果仍偏向正面的觀感。 (四)書籤標定法的執行 在正式執行切截分數的設立前,表現標準描述代表的是學科專家或決策者對於各水平學 生應該具備的共同知識或能力的陳述,它具有著引領標準設定成員形成放置書籤共識的重要 角色,而根據表 10 的分析結果,多數成員均能同意本會議所提供的基礎、精熟與進階的表現 標準描述有助於他們放置各水平的書籤'平均數分別為3.74 、 3.64 、 3.61 '但亦有近 7%~10% 間的成員,對於表現標準描述的助益,呈現較負面的觀感,有再持續修訂的必要性。 表 10 標準設定成員對於書籤標定法的執行之知覺分析一覽 完全 有點 題項內容 不同意 同意 口 口 口 口 完全 同意 平昀數 口 書籤 基礎的表現標準描述 (PLD) 有助於O
我置放介於臨界低於基礎/基礎的(0%)
2
8
12
5
(7
.1%)
(28.6%) (42.9%)
(1
7.9%)
3.74
精熟的表現標準描述 (PLD) 有助於O
3
9
11
5
3.64
我置放介於臨界基礎/精熟的書籤(0%)
(1
0.7%)
(3
2.1%)
(3
9.3%)
(1
7.9%)
進階的表現標準描述 (PLD) 有助於O
3
9
12
4
3.61
我置放介於臨界精熟/進階的書籤(0%)
(10.7%) (32.1%) (42.9%)
(1
4.3%)
研究者所提供依難度排序試題本5
12
8
2
2.36
(alB)符合我所知覺試題間相對難度 (17.9%)(42.9%) (28.6%)
(7
.1%)
(3.6% )
我認為採用 67% 的正確作答標準,去O
3
14
可103.32
界定書籤的位置,感到合適(0%)
(10.7%)
(50%)
(3
5.7%)
(3
.6%)
謝進昌、謝名娟、林世華、林陳浦、陳清 J柔、謝佩蓉 學習成就評量標準設定﹒
19 •
另一方面,過去對於書籤標定法的執行,學者們認為具有減少專家認知負荷、結果解釋 可融合能力表現及適用於多切截分數點等多項優勢 (Karantonis
& Sireci
,
2006)
,但亦存在一 些爭議及限制,例如,試題難度排序的爭議、67%答對率的選訂及容易忽略試題難度以外的重 要資訊等(Lin,
2006)
,都是學者們曾提出討論的項目,而根據表10 分析結果,顯示許多成員 對於試題卷的難度排序感到不太協調,有60.8%的成員認為國小四年級自然科的OlB 並不符 合他們所知覺試題間相對難度,其平均數為2.36 '但 Lewis 等(1 996 )認為此為書籤標定法無 法避免的難題。本研究為減低此影響,除當場安排數名學科助理協助解說有疑義的試題內容 外,同時,正式成員中融入數名曾協助國小四年級自然科命題與審題的教師,以促進成員們 對於試題內容的瞭解,此外,會議中並不斷向成員強調並非是將書籤置放於二個試題間,而 是將書籤置放於存在較大的知識間隔的兩群試題間(Mitzelet a
l.,
2001 )
0 此外,對於 67%答對 率的選訂,其理論基礎除依據 Huynh (2006) 所建議,二元計分正確反映的最大訊息量處外, 許多實務研究,像是 Sireci 等 (2009 )對於 2005 年 NAEP 12 年級數學的評估,亦以此作為準 則;而本研究標準設定成員對於以 67%的正確作答標準界定書籤的位置,近九成 (89.3% )的 成員感到適合的 O 最後,由於書籤標定法的執行容易忽略試題難度以外的重要資訊,故研究 者不斷地於會議中強調試題內容及表現標準描述的重要性,作為提醒,使標準設定成員能正 視其實質意涵;從表 10 中可看出,標準設定成員對於表現標準描述助益性的正面觀感 O 二、效度的內部證據 (一)標準設定技術內設定結果的一致性 本研究對於標準設定技術使用後所產生切截分數一致性的檢視,研究者採用原始數據所 得之平均數標準誤及利用無參數 bootstrapping 方法,經 1 ,000 次反覆計算中位數後,所得之標 準誤來進行評估,此舉不僅能提供原始數據的分析面貌,亦能提供在避免極端值發生的可能 下,檢視分數的變動情形,其分析結果如表 11 0 表 11 各輪基礎、精熟及進階水平之平均數及 bootstrapping 樣本所得中位數切截分數之標準 誤 (N=28)
第一輪 第二輪 第三輪 平均數標準誤中位數標準誤平均數標準誤中位數標準誤平均數標準誤中位數標準誤礎一熟一階
基一精一進
2.88
2.92
6.03
3.05
6.29
6.87
1.1
6
1.55
3.01
0.63
1.
29
1.
24
1.
06
1.
29
2
.4
8
0.85
0.54
2.02
•
20
·學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳泊、陳清溪、謝佩蓉 國小四年級自然科量尺分數之信度為泣,量尺分數之標準差為 46.60 ;經計算測量標準 誤為 19.77 (郭生玉,1998
,
p.
82) 。對照 Jaeger( 1991) 準則判斷,測量標準誤四分之一為 4.94 。 雖然在第一輪三個水平及第二輪的進階水平,出現較大的標準誤,但第三輪設定結果之平均 數和中位數之標準誤,三個水平的標準誤均在 4.94 以下,顯示最後切截分數的變動程度仍在 合理的範圍 o (二)標準設定成員內設定結果的 致性 有關於標準設定成員內設定結果的一致性評估方面,可發現隨著輪次的增加,標準設定 成員所設立切截分數的標準誤,大致隨著往下降至合理水平(表 11)
0 就基礎水平而言,第一 輪平均數標準誤為 2.88 、第二輪平均數標準誤則降至1. 16 '以至第三輪的平均數標準誤1.俑, 顯示成員內設定結果的變動程度,逐漸趨於平穩。此外,若就每個成員於各輪間的改變情形視之,研究者在計算每位成員各輪間( Round1-Round2 、 Round2-
Round3
)切截分數之變化絕對值後,不同水平之改變程度散布圖分別如圓 3 至圖 5 所示。其中,若就圖 3 而言,第 22 號 成員在基礎水平之切截分數設定,其 Round
1-
Round2 分數改變的絕對值,是所有成員中最大 的,超過的分,但至 Round2- Round3 時,則降至 10 分,整體而言,除了圖 5 中第 22 號成員 於進階水平的各輪變化,出現較大幅的不減反增情況外,所有成員於基礎、精熟與進階水平 的 Round2- Round3 時,其分數的改變均會趨於和緩,顯示成員內設定的結果,逐漸趨於內在 的一致性。 AVAυnυnυnυnυnυnυnυnυnυ nυnυnυnυnυnυnυnυnυnυnυ Aυ' 、 dnυ' 、 dnυ' 、 dnυ' 、 dnυ' 、 dnυ '、 dA斗A斗司、 u 司、 U 勻/且勻/且, 1 , I各輪間設定芷江異的平均分數
一-RoundlRound2
一-Round2Round3
1 2 3 4 5 6 7 8 9 10 111213141516171819202122232425262728
標準設定成員標號 圖3 所有標準設定成員於基礎水平各輪間之設定差異變化 (三)標準設定成員間設定結果的一致性 有關標準設定成員間設定結果的一致性評估方面,研究者透過檢視不同性別、都市化程 度及身分別的標準設定成員,所設立切截分數是否具有一致性,其中,鑑於研究若以原始成 員所來自區域 cj 七、中、南、東)進行分析,其結果可能會因某些區域人數較少,造成估計謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉 學習成就評量標準設定﹒
21
.
AυnυnυnυnυnυnυAOAOAOAυ AVAυAυAυAυAυAυAυAυAHVAV AVR 、 dAV' 、 MAVR 、 dovn 、 dAVR 、 dAV5443322ll
各輪間設定差異的平均分數
一-Round 卜Round2
一…Round2Round3
1 2 3 4
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
標準設定成員標號 圖4 所有標準設定成員於精熟水平各輪間之設定差異變化75.00
70.00
各 65.0。 事命60.00
間 55.00 設 50.00 定 45.00差 40.00
異 35.00
的 30.00
平 25.00
均 20.00
分 15.00
數 10.005.00
0.00
A
1\
a
I \
I
\
A
1\
/
A
/
P\
\
1\
I \ \
f\
I
\
I
\
I \
I
l...\
\
八
\ I \
、
八
八 lI \
\ I
\
/ \ j
、
正\/ \ / \ I
I
\
\ I
X
Y\
/ \ \
\ /
V
V
\
I
\
I
/ ' f \ / \
、//\
-Round1-Round2
……Round2-Round3
12345678910111213141516171819202122232425262728
標準設定成員標號 圖 5 所有標準設定成員於進階水平各輪間之設定差異變化 不穩定外,其實質意涵亦不大,因此,本研究在參考侯佩君、杜素豪、廖培珊、洪永泰及章 英華 (2008 )針對臺灣三百五十八個鄉鎮市區,進行都會核心、工商市區、新興市鎮、傳統 產業市鎮、低度發展鄉鎮、高齡化鄉鎮及偏遠鄉鎮等七大層級的分類,進一步將所有成員依 其任教學校分為都會新興市鎮(前三類)及傳統低度發展鄉鎮(後四類),企圖檢視來自都市 化程度發展不同的學校,標準設定成員設立結果是否會具差異性。 本研究採用無參數bootstrapping法,經 1 ,000 次反覆估計,進行不同背景成員於平均切截 分數設立之獨立樣本t 考驗後,整體分析結果如表12 。可發現:不同性別之標準設定成員於 三輪各水平所設立之切截分數,其平均數差異分數之信賴區間均包含0 ,顯示不同性別成員間•
22
.學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清漠、謝佩蓉 表 12 不同背景標準設定成員於一輪各水平設立切截分數之顯著差異檢定分析 背景 基礎水平 精熟水平 進階水平 輪;欠 水準人數平均差異分數及平均差異分數及平均差異分數及
變項 信賴區間 信賴區間 信賴區間 男(1 )
14
4.96
2.70
-4.74
女 (0)14
[-5
.4
6
,
17.23]
[-7.64
,
14.09]
[-25
.4
7
,
2
1.
50]
男(1 )
14
2.85
2.11
-4
.85
性別 女 (0)14
[-1.
48
,
7.38]
[-4.09
,
8.10]
[-16.12
,
6.39]
男(1 )
14
0
.4
8
0
.4
9
-1.3
3
女 (0)14
[-3.51
,
4.89]
[-4
.62
,
5.81]
[-10.27
,
7.78]
都會新興市鎮(1 )
18
-9.25
-2.03
19.37
傳統低度發展鄉鎮 (0) 10υ[-20.52
,
2.29]
[-13.20
,
8.65]
[-2.33
,
39.86]
都市 都會新興市鎮(1 )
18
-3.67
4.68
3
.1
0
化程 傳統低度發展鄉鎮 (0)[-7.31
,
-0.36]
[-1.
77
,
10.80]
[-10.91
,
17.71]
度10
都會新興市鎮(1 )
18
-1.
96
3
.4
5
國3.84 傳統低度發展鄉鎮 (0)10
[-5.61
,1.
60]
[-1.
81
,
8
.4
8]
[-14.75
,
8.11]
非教師(1 )
5
-9.06
6.19
-3.87
教師 (0)23
[-19.70
,1.
99]
[-7.09
,
17.92]
[-27.97
,
26.30]
身分 非教師(1)5
0.89
6.99
-3
.4
0
別 教師 (0)23
[-2.92
,
4.63]
[0.32
,
14
.4
0]
[-12.25
,
6.89]
非教師(1)5
1.7
5
4.74
-4.54
教師 (0)23
[-2.86
,
5
.4
8]
[-1.3
2
,
13.05]
[-12.19
,
4.87]
所設立之切截分數並不具顯著差異;此外,來自於不同都市化程度之成員,就其設立之平均 切截分數顯著差異檢定結果,可發現在第二輪的基礎水平,來自於都會新興市鎮的成員(鍵 棺為 1 )所設立之平均切截分數,顯著低於來自於傳統低度發展鄉鎮的成員(鍵檔為 0)' 其 平均數差異為 -3. 肘,信賴區間[ -7.訓,戒指] ;另一方面,對於不同身分別成員所設立結果之顯 著差異檢定,從表 12 中可發現在第二輪的精熟水平,非教師成員(行政人員、學者)所設立 之切截分數明顯大於教師成員,平均數差異為 6.99 '信賴區間 [0.32 , 14.40] 。 整體而言,雖然在第二輪時,不同都市化程度及身分別的成員,在某些水平,出現顯著 不同的設定結果, {El.均屬輕微差異,其信賴區間多非常接近 0; 此外,就第三輪的切截分數而 言,不同性別、都市化程度及身分別的成員,所設立之平均切截分數,均不具顯著差異,顯 示標準設定成員間最後的設定結果,具有相當的一致性。謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉 學習成就評量標準設定﹒ 23
•
三、效度的外部證據
鑑於 TASA 資料庫並非長期追蹤型的計章,因此,欲以學生未來外部表現資訊,作為效 度的外部證據有其困難性。因此,研究者改採學生於同一資料庫 2009 年數學科的成就表現, 為其外部資訊。首先,本研究篩選出同時接受 2009 年自然和數學兩個科目測驗的國小四年級 學生,共計 4, 108 名;接薯,再分別透過本研究第三輪所設立之自然科切截分數,以及 2007 年數學科訂立之標準設定切截分數,分別針對這群學生自然及數學表現進行區分 O 由表 13 可知,自然科和數學科兩種切截分數分類一致的命中率 (hit ratio) 為 53.75% ;再經 Kappa 分析 為 32
(p
<
.01)' 依 Landis 與 Koch(
1977) 之建議標準,此分類一致性已達中等程度。據 此,經由國小四年級自然科所設立之切截分數所區分的四個類群,可說明學生於數學成就表 現所區分的結果。 表 13 學生於自然和數學成就表現分類人數一覽 科目水平
數學 總計 基礎以下 基礎 精熟 進階 基礎以下484
376
146
11
1
,
017
基礎169
628
575
17
1
,
389
自然 精熟35
299
1
,
041
150
1
,
525
進階O
7
115
55
177
全部688
1
,
310
1
,
877
233
4
,
108
伍、結論興建議
本研究目的為檢視 2009 年 TASA 自然科國小四年級標準設定結果,以 Kane( 1994
,
2001 )
所提之效度證據來源為主軸,分別就效度的過程證據、內部證據,以及外部證據,作為評定 設定結果之依據 O 以下茲針對研究所得結論進行說明,並提出建議,供未來研究者參考。 一、結論 效度的過程證據方面, TASA 自然科國小四年級標準設定,除詳列標準設定流程時間表, 以凸顯各階段執行的紮實性外,另針對標準設定成員的選擇、回饋及書籤標定法執行等面向 進行細部評估 O 首先,標準設定成員的選擇不僅能合括全國主要區域的人員,亦能兼顧身分 別及性別的異質性組成,同時具有高年資及自然專業背景;而在整個標準設定的執行過程中, 其時間的安排、引導人員對於會議目的、技術、回饋訊息的解說及成員們的瞭解程度,都具 有相當的適切性,其中,對於第一輪書籤放置時間的分配,研究發現出現微幅不足現象,值 得未來進一步改善。此外,對於表現標準描述、書籤標定法的執行,成員大多能感到適切,', asa--ι÷tZEaASjZ 克通 謝進昌、謝名娟、林世華、林陳浦、陳清 i柔、謝佩蓉 其中,成員們只有對於試題卷的難度排序 (OIB) 會感到不一致現象,而研究者盡量安排助理 協助成員瞭解試題內容,以減輕此影響。最後,成員們對於最後的切截分數與自己放置書籤 的信心,具有相當的滿意及信心,顯示最後的切截分數有其強韌性。整體而言,效度的過程 證據得到支持。 效度的內部證據方面,研究者以評估標準設定技術內設定結果的一致性及標準設定成員 內與標準設定成員間設定結果的一致性為指標,經以原始平均數標準誤及無參數 bootstrapping 法估計之中位數標準誤檢視後,發現成員雖然一開始執行時會出現較大的標準誤,但隨著輪 次增加,三個水平的最後切截分數變動程度,亦隨之降至合理的範圍內;此外,不同背景成 員所設立之切截分數,其結果亦有類似的傾向,初始時,不同都市化程度及身分別的成員, 在第二輪某些水平會出現顯著不同的設定結果,但屬輕微,而且成員間設立之結果,亦隨著 於第三輪趨於一致,效度的內部證據得到支持。 效度的外部證據方面,研究者採用數學科作為本研究的外部資訊,經以國小四年級自然 科所設立之切截分數區分出四類群學生後,進行數學成就表現之差異分析,結果顯示:經由 國小四年級自然科所設立之切截分數所區分的四個類群,亦可說明學生於數學成就表現所區 分的結果,效度的外部證據得到支持。
•
24
·學習成就評量標準設定二、建議
(一)標準設定成員的選擇 本研究對於標準設定成員的選擇,其資格的篩選係參考NAEP 界定準則 (ACT,1994
,
2005)
,強調成員的學科專業性及領域的聲望、表現等,因此,成員的組成大多來自現任或曾 擔任縣市輔導團成員或其召集人,但這些成員所設立之標準,是否會產生高聲望一高期望的 現象?同時伴隨著現階段國內國小自然科教學,多由來自非自然本科的教師任教,兩者交互 影響下,是否有成員標準設定結果會與多數普遍基層自然教師產生落差的疑慮,值得進一步 探討 O 就此點,建議未來研究者可嘗試在評估問卷中,納入評定成員在標準設定前、後,對 於自身心目中期望各水平的通過人數百分比進行調查,此舉不僅可檢視個別成員期望與實際 判定結果的落差,亦可進一步再嘗試尋找一群非自然本科但任教國小四年級自然科的教師, 執行標準的設定時,作為對照的來源,以檢視兩者的差異。 (二)三輪書籤標定法時間的安排 本研究對於三輪書籤標定法時間的安排,除依據現實的考量(經費及成員意願'需於1 天內執行完畢)外,另參考2010 年 5 月 28 日所聘請 5 位自然科教師進行前導研究的結果, 安排 70 分鍾的設定時間為原則,但根據成員事後的評估結果,多數成員會覺得提供第一輪的 置放書籤位置略短,但至第三輪時,成員們亦多已提早完成標準設定,顯示在時間範圍內, 成員們初始時要充分檢視完 130 題試題內容,並放置書籤'略為匆促,因此,建議未來研究謝進昌、謝名娟、林世華、林陳浦、陳清 j柔、謝佩蓉 學習成就評量標準設定﹒
25 •
者可考慮將三輪的標準設定時間分配,更改為第一輪 90-100 分鐘、第二輪 70-80 分鐘及第三 輪到-60 分鐘,此舉在於隨著輪次增加,成員們對於試題內容更為熟悉且自身設定結果亦趨為 一致,所需時間會逐漸變少。 (三)書籤標定法的執行 本研究在執行書籤標定法時,成員們除了曾提及試題難度排序認知落差的意見外,亦發 生在第二輪後,成員在收到第一輪各水平通過學生百分比之回饋後,會不經意將焦點放在書 籤往前或往後的調整,以降低或提高各水平的通過比率,而容易忽略表現標準描述的功用, 同時伴隨著本研究以 8,000 多名學生的實徵數據,配合該資料庫三參數試題反應模式,進行試 題與切截分數的轉換,此舉就會形成 Cizek 與 Bunch (2007) 曾提及書籤的調整不一定會與成 員認知一致的情況;此外,成員在執行標準設定時,也曾表示會在二個以上的試題處,產生 猶疑不決之感。 據此,本研究認為在因應上述問題時,未來研究者可試著從幾個面向著手。首先,當研 究的試題數較多時,研究者可考慮預先刪除某些連續試題內容間距較接近者,以避免試題間 認知重疊過大,或當時間較充裕時,可採納 Lewis 等(1 996 )建議,預先討論各試題為何會比 前一試題難度較高,以增加共識。其次,對於書籤調整與成員認知的一致性現象,研究者除 了在標準設定過程中,不斷重申表現標準描述的功用及重要性外,另可考慮、改採用模擬數據 的方式,以進行試題書籤與切截分數的轉換計算,可適時避免不必要的爭議。最後,建議研 究者可採行提供成員多點放置書籤的可能性,例如:在基礎水平,研究者可提供二個放置書 籤的選擇,並伴隨著信心程度的評比,具體而言,某成員可選擇在基礎水平放置書籤於試題 22 與試題 30 '而信心強度分別是 40% 、 60% '接續,研究者再利用各自信心強度比率進行切 截分數計算的加權,而此舉為有效融入模糊的概念,並提供成員較多的設定空間。(四)標準設定方法之反思
本研究採用之標準設定材料來自於 TASA' 其建置目的在於檢視課綱實施成效,乃屬於低 風險測驗(low-stakes
test) 。然為全面涵蓋課程內容,其測驗題數要充足,並透過多種題本組 合及等化技術搭配,讓每位考生作答題數不至於過多;因此,在類似此種測驗題數較多的情 況下,標準設定實務操作多較適合採用書籤標定法進行。此外,像是國民中學學生基本學力 測驗或考選部辦理之認證考試等高風險測驗(high-stakes test)
,通常題本只有一種,且題數相 對較少;除了書籤標定法之外,尚可考慮採用其他逐題設定的方法,像是Angoff 法。最後, 在設定結果效度評估方面,由於標準設定成員人數通常不多,為提供估計結果的可能變動性 訊息,透過 bootstrapping法作為輔助分析是值得研究者納入考量的作法。 (五)效度證據持續蒐集 本研究已盡可能從各種效度證據來源,提供現行可得的效度證據,以作為本次標準設定•
26
.學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉結果之佐證,但誠如 American
Educational Research
Association 等( 1999) 認為效度是一種證據的累積,未來應持續蒐集效度證據,不斷累積具說服力的支持性材料,讓切截分數獲得更 多認同。例如,為獲悉、表現標準描述和切截分數之間的吻合度,可透過田野現場實地測試, 取得實徵性資料作為憑據。一方面讓學生實地測驗並依切截分數區分其表現水平;另方面請 任課教師依表現標準描述,區分全班每 1 位學生之表現水平。最後,檢視切截分數和教師評 斷兩種結果相符的程度,即可作為研究效度之佐證。