• 沒有找到結果。

本研究目的為檢視 2009 年 TASA 自然科國小四年級標準設定結果,以 Kane ( 1994,2001 )

所提之效度證據來源為主軸,分別就效度的過程證據、內部證據,以及外部證據,作為評定 設定結果之依據 O 以下茲針對研究所得結論進行說明,並提出建議,供未來研究者參考。

一、結論

效度的過程證據方面, TASA 自然科國小四年級標準設定,除詳列標準設定流程時間表,

以凸顯各階段執行的紮實性外,另針對標準設定成員的選擇、回饋及書籤標定法執行等面向 進行細部評估 O 首先,標準設定成員的選擇不僅能合括全國主要區域的人員,亦能兼顧身分 別及性別的異質性組成,同時具有高年資及自然專業背景;而在整個標準設定的執行過程中,

其時間的安排、引導人員對於會議目的、技術、回饋訊息的解說及成員們的瞭解程度,都具 有相當的適切性,其中,對於第一輪書籤放置時間的分配,研究發現出現微幅不足現象,值 得未來進一步改善。此外,對於表現標準描述、書籤標定法的執行,成員大多能感到適切,

',asa--ι÷tZEaASjZ克通

謝進昌、謝名娟、林世華、林陳浦、陳清 i柔、謝佩蓉

其中,成員們只有對於試題卷的難度排序 (OIB) 會感到不一致現象,而研究者盡量安排助理 協助成員瞭解試題內容,以減輕此影響。最後,成員們對於最後的切截分數與自己放置書籤 的信心,具有相當的滿意及信心,顯示最後的切截分數有其強韌性。整體而言,效度的過程 證據得到支持。

效度的內部證據方面,研究者以評估標準設定技術內設定結果的一致性及標準設定成員 內與標準設定成員間設定結果的一致性為指標,經以原始平均數標準誤及無參數 bootstrapping 法估計之中位數標準誤檢視後,發現成員雖然一開始執行時會出現較大的標準誤,但隨著輪 次增加,三個水平的最後切截分數變動程度,亦隨之降至合理的範圍內;此外,不同背景成 員所設立之切截分數,其結果亦有類似的傾向,初始時,不同都市化程度及身分別的成員,

在第二輪某些水平會出現顯著不同的設定結果,但屬輕微,而且成員間設立之結果,亦隨著 於第三輪趨於一致,效度的內部證據得到支持。

效度的外部證據方面,研究者採用數學科作為本研究的外部資訊,經以國小四年級自然 科所設立之切截分數區分出四類群學生後,進行數學成就表現之差異分析,結果顯示:經由 國小四年級自然科所設立之切截分數所區分的四個類群,亦可說明學生於數學成就表現所區 分的結果,效度的外部證據得到支持。

• 24 ·學習成就評量標準設定

二、建議

(一)標準設定成員的選擇

本研究對於標準設定成員的選擇,其資格的篩選係參考NAEP 界定準則 (ACT, 1994,

2005) ,強調成員的學科專業性及領域的聲望、表現等,因此,成員的組成大多來自現任或曾

擔任縣市輔導團成員或其召集人,但這些成員所設立之標準,是否會產生高聲望一高期望的 現象?同時伴隨著現階段國內國小自然科教學,多由來自非自然本科的教師任教,兩者交互 影響下,是否有成員標準設定結果會與多數普遍基層自然教師產生落差的疑慮,值得進一步 探討 O 就此點,建議未來研究者可嘗試在評估問卷中,納入評定成員在標準設定前、後,對 於自身心目中期望各水平的通過人數百分比進行調查,此舉不僅可檢視個別成員期望與實際 判定結果的落差,亦可進一步再嘗試尋找一群非自然本科但任教國小四年級自然科的教師,

執行標準的設定時,作為對照的來源,以檢視兩者的差異。

(二)三輪書籤標定法時間的安排

本研究對於三輪書籤標定法時間的安排,除依據現實的考量(經費及成員意願'需於1 天內執行完畢)外,另參考2010 年 5 月 28 日所聘請 5 位自然科教師進行前導研究的結果,

安排 70 分鍾的設定時間為原則,但根據成員事後的評估結果,多數成員會覺得提供第一輪的 置放書籤位置略短,但至第三輪時,成員們亦多已提早完成標準設定,顯示在時間範圍內,

成員們初始時要充分檢視完 130 題試題內容,並放置書籤'略為匆促,因此,建議未來研究

謝進昌、謝名娟、林世華、林陳浦、陳清 j柔、謝佩蓉 學習成就評量標準設定﹒ 25 •

者可考慮將三輪的標準設定時間分配,更改為第一輪 90-100 分鐘、第二輪 70-80 分鐘及第三 輪到-60 分鐘,此舉在於隨著輪次增加,成員們對於試題內容更為熟悉且自身設定結果亦趨為 一致,所需時間會逐漸變少。

(三)書籤標定法的執行

本研究在執行書籤標定法時,成員們除了曾提及試題難度排序認知落差的意見外,亦發 生在第二輪後,成員在收到第一輪各水平通過學生百分比之回饋後,會不經意將焦點放在書 籤往前或往後的調整,以降低或提高各水平的通過比率,而容易忽略表現標準描述的功用,

同時伴隨著本研究以 8,000 多名學生的實徵數據,配合該資料庫三參數試題反應模式,進行試 題與切截分數的轉換,此舉就會形成 Cizek 與 Bunch (2007) 曾提及書籤的調整不一定會與成 員認知一致的情況;此外,成員在執行標準設定時,也曾表示會在二個以上的試題處,產生 猶疑不決之感。

據此,本研究認為在因應上述問題時,未來研究者可試著從幾個面向著手。首先,當研 究的試題數較多時,研究者可考慮預先刪除某些連續試題內容間距較接近者,以避免試題間 認知重疊過大,或當時間較充裕時,可採納 Lewis 等(1 996 )建議,預先討論各試題為何會比 前一試題難度較高,以增加共識。其次,對於書籤調整與成員認知的一致性現象,研究者除 了在標準設定過程中,不斷重申表現標準描述的功用及重要性外,另可考慮、改採用模擬數據 的方式,以進行試題書籤與切截分數的轉換計算,可適時避免不必要的爭議。最後,建議研 究者可採行提供成員多點放置書籤的可能性,例如:在基礎水平,研究者可提供二個放置書 籤的選擇,並伴隨著信心程度的評比,具體而言,某成員可選擇在基礎水平放置書籤於試題 22 與試題 30 '而信心強度分別是 40% 、 60% '接續,研究者再利用各自信心強度比率進行切 截分數計算的加權,而此舉為有效融入模糊的概念,並提供成員較多的設定空間。

(四)標準設定方法之反思

本研究採用之標準設定材料來自於 TASA' 其建置目的在於檢視課綱實施成效,乃屬於低 風險測驗(low-stakestest) 。然為全面涵蓋課程內容,其測驗題數要充足,並透過多種題本組 合及等化技術搭配,讓每位考生作答題數不至於過多;因此,在類似此種測驗題數較多的情 況下,標準設定實務操作多較適合採用書籤標定法進行。此外,像是國民中學學生基本學力 測驗或考選部辦理之認證考試等高風險測驗(high-stakes test) ,通常題本只有一種,且題數相 對較少;除了書籤標定法之外,尚可考慮採用其他逐題設定的方法,像是Angoff 法。最後,

在設定結果效度評估方面,由於標準設定成員人數通常不多,為提供估計結果的可能變動性 訊息,透過 bootstrapping法作為輔助分析是值得研究者納入考量的作法。

(五)效度證據持續蒐集

本研究已盡可能從各種效度證據來源,提供現行可得的效度證據,以作為本次標準設定

• 26 .學習成就評量標準設定 謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉

結果之佐證,但誠如 AmericanEducational Research Association 等( 1999) 認為效度是一種證 據的累積,未來應持續蒐集效度證據,不斷累積具說服力的支持性材料,讓切截分數獲得更 多認同。例如,為獲悉、表現標準描述和切截分數之間的吻合度,可透過田野現場實地測試,

取得實徵性資料作為憑據。一方面讓學生實地測驗並依切截分數區分其表現水平;另方面請 任課教師依表現標準描述,區分全班每 1 位學生之表現水平。最後,檢視切截分數和教師評 斷兩種結果相符的程度,即可作為研究效度之佐證。

誌謝

本研究感謝教育部與國家教育研究院補助本研究案的全部經費(計畫編號:

NAER-99-ll-B-1-01-00-2-01 )。同時,作者亦要感謝 2 位匿名評審和特約主編針對本文初稿提供許多寶

貴的建議與修改意見。

謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩蓉

相關文件