如前所述,為降低試題難度對設定者造成之影響,本研究於標準設定 過程引入不同回饋模式與試題呈現方式,期望能提升設定者一致性,有助 於最終標準之精確度。
一、結論
(一)IRT回饋模式對設定結果一致性具有提升效益
就時間點而言,利用Reckase表進行的IRT回饋模式發生在第三回合設 定時,故僅自第三回合結果觀察其效益。就類推性交叉設計來看各成就水 準的結果,此時IRT模式回饋組之試題變異百分比最大,而設定者變異則降 至最小;就RMSE來說,IRT模式回饋組所產生的各個RMSE相對於實徵P值 排序回饋組而言明顯較低,其所產生的類推性係數估計值則明顯較高;IRT 模式回饋組的組內相關係數值亦大於實徵P值排序回饋組。由此可見,利用 Reckase表的IRT回饋模式對於設定者間與設定者內一致性具有良好的提升 作用,能將設定者的不一致性調整至最小,該組所產出的最終標準能使試 題本身的效果發揮至極,並具有較完善的效度支持。
(二)試題呈現預先依難度分類對設定結果一致性具有提升效益 就類推性套入設計結果來看,試題呈現預先依難度分類的設定小組,
其難度層次內試題變異百分比均小於試題區塊排序的設定小組,可見透過 此一試題呈現方式,能使設定者對難度相近的試題有比較好的掌控,有助 於提升設定者內一致性,可降低試題難度對設定者在判斷過程產生的不良 影響。更重要的是,從套入設計結果和組內相關係數來看,IRT回饋模式 在試題預先分類組能發揮最大效果,同時接受IRT回饋與試題預先分類二種 實驗處理時,不僅能幫助設定者在概率判定的過程中維持良好的內部一致 性,其設定者間相關亦能達到最佳情形。總括而言,二者交互作用之下對 設定結果一致性有最佳的提升效益。
(三)多回合設定與回饋訊息對判斷性標準設定程序的必要性
最後,應用判斷性標準設定方法於選擇題時,建議以多回合方式進 行,並且,加入例行性的設定者間與設定者內一致性回饋,皆是必要的 作法,一如Brandon(2004)所言,試題估計值常因試題難度而有不一致 的分散情形,需藉由標準設定當中各個回合的回饋與調整來加以彌補;
Clauser、Swanson與Harik(2002)亦強調多回合的訓練能使設定者集中評 定(centering ratings)、有益於設定者內一致性;透過本研究亦獲致同等結 論。
綜上所述,經由本研究可知試題呈現依難度分類的作法明顯有助於一 致性的提升;而另一方面,IRT回饋模式對於設定者內一致性的提升效果,
顯然優於實徵P值排序回饋。因此,在必要的情況下,融合試題分類呈現與 IRT模式回饋二種作法來進行標準設定,更能對設定者一致性發揮最佳的提 升效益。
二、對未來建議
(一)探究不同IRT模式的回饋效果
依據前述結論,爾後的標準設定活動似可考慮納入IRT模式的Reckase 表做為回饋機制,以提昇標準設定結果的信度與效度。然本研究所採行之
Reckase表係根據三參數IRT模式而來,其中的答題概率估計值受到鑑別 度、難度與猜測率之影響,倘使利用不同IRT模式(如:Rasch單參數模 式)所產出Reckase表來進行回饋,其設定結果或許有所不同。因此,可進 一步探究何種IRT模式產出的Reckase表較為合適,或比較其設定結果之差 異等。
(二)探究其他標準設定程序結果的一致性
本研究在考量評量涉及的試題類型與方法的實用性上,乃以修正的 Angoff法進行標準設定活動,並根據其過程與所產出的決斷分數提出一致 性的相關證據,建議未來應當採以其他標準設定方法,如書籤法,針對本 研究所產出的決斷分數進行檢核,或者比較其設定結果之異同。
(三)操弄試題難度或探究設定者背景變項
為處理試題難度對設定者造成之影響,吾人或可設計一些難度相當 的試題直接進行設定,是比較直接操控試題難度的作法;為提升設定結果 之一致性,亦可引導設定者利用試題本身來進行成就水準的判斷,看哪些 試題分屬哪一個水準,以此作法來取得設定者間一致性、減少評定的不一 致;探究設定者背景變項與決斷分數之高低有何關聯……等,上述議題均 是後續標準設定研究可進一步著墨、探討之處。
最終,本研究提供清楚例證,標準設定活動的設計經常融入不同回 饋方式於各個階段/回合,然而,提供回饋的目的,必須清楚的呈現與說 明,如此方能有助於提昇設定結果的一致性與準確性。此外,關於提昇設 定結果的一致性是否能提昇標準設定的效度,從測驗信效度的觀點而言,
信度只是效度的必要條件,而非充分條件,故提昇設定結果的一致性(信 度提昇)不能保證效度的提昇;然依據學者Michael Kane(1994)對通過 分數表現標準的效度驗證探討,他從程序、內部與外部三方面的證據與效 標來說明表現標準的效度驗證。本文所探究的提昇設定結果的一致性正是 Kane所指稱內在標準的效度檢核,據此而言,提昇設定結果的一致性,
應能提昇設定標準之效度。由於本研究旨在探究設定結果一致性,故未論 及效度方面的議題,該議題之探究可參見作者於20 10年發表於測驗學刊
(57:1)「標準設定效度驗證之探究―以大型數學學習成就評量為例」一 文。