伍、結論與建議 - Feedback Approaches with the Modified Angoff Method

如前所述，為降低試題難度對設定者造成之影響，本研究於標準設定過程引入不同回饋模式與試題呈現方式，期望能提升設定者一致性，有助於最終標準之精確度。

一、結論

（一）IRT回饋模式對設定結果一致性具有提升效益

就時間點而言，利用Reckase表進行的IRT回饋模式發生在第三回合設定時，故僅自第三回合結果觀察其效益。就類推性交叉設計來看各成就水準的結果，此時IRT模式回饋組之試題變異百分比最大，而設定者變異則降至最小；就RMSE來說，IRT模式回饋組所產生的各個RMSE相對於實徵P值排序回饋組而言明顯較低，其所產生的類推性係數估計值則明顯較高；IRT 模式回饋組的組內相關係數值亦大於實徵P值排序回饋組。由此可見，利用 Reckase表的IRT回饋模式對於設定者間與設定者內一致性具有良好的提升作用，能將設定者的不一致性調整至最小，該組所產出的最終標準能使試題本身的效果發揮至極，並具有較完善的效度支持。

（二）試題呈現預先依難度分類對設定結果一致性具有提升效益就類推性套入設計結果來看，試題呈現預先依難度分類的設定小組，

其難度層次內試題變異百分比均小於試題區塊排序的設定小組，可見透過此一試題呈現方式，能使設定者對難度相近的試題有比較好的掌控，有助於提升設定者內一致性，可降低試題難度對設定者在判斷過程產生的不良影響。更重要的是，從套入設計結果和組內相關係數來看，IRT回饋模式在試題預先分類組能發揮最大效果，同時接受IRT回饋與試題預先分類二種實驗處理時，不僅能幫助設定者在概率判定的過程中維持良好的內部一致性，其設定者間相關亦能達到最佳情形。總括而言，二者交互作用之下對設定結果一致性有最佳的提升效益。

（三）多回合設定與回饋訊息對判斷性標準設定程序的必要性

最後，應用判斷性標準設定方法於選擇題時，建議以多回合方式進行，並且，加入例行性的設定者間與設定者內一致性回饋，皆是必要的作法，一如Brandon（2004）所言，試題估計值常因試題難度而有不一致的分散情形，需藉由標準設定當中各個回合的回饋與調整來加以彌補；

Clauser、Swanson與Harik（2002）亦強調多回合的訓練能使設定者集中評定（centering ratings）、有益於設定者內一致性；透過本研究亦獲致同等結論。

綜上所述，經由本研究可知試題呈現依難度分類的作法明顯有助於一致性的提升；而另一方面，IRT回饋模式對於設定者內一致性的提升效果，

顯然優於實徵P值排序回饋。因此，在必要的情況下，融合試題分類呈現與 IRT模式回饋二種作法來進行標準設定，更能對設定者一致性發揮最佳的提升效益。

二、對未來建議

（一）探究不同IRT模式的回饋效果

依據前述結論，爾後的標準設定活動似可考慮納入IRT模式的Reckase 表做為回饋機制，以提昇標準設定結果的信度與效度。然本研究所採行之

Reckase表係根據三參數IRT模式而來，其中的答題概率估計值受到鑑別度、難度與猜測率之影響，倘使利用不同IRT模式（如：Rasch單參數模式）所產出Reckase表來進行回饋，其設定結果或許有所不同。因此，可進一步探究何種IRT模式產出的Reckase表較為合適，或比較其設定結果之差異等。

（二）探究其他標準設定程序結果的一致性

本研究在考量評量涉及的試題類型與方法的實用性上，乃以修正的 Angoff法進行標準設定活動，並根據其過程與所產出的決斷分數提出一致性的相關證據，建議未來應當採以其他標準設定方法，如書籤法，針對本研究所產出的決斷分數進行檢核，或者比較其設定結果之異同。

（三）操弄試題難度或探究設定者背景變項

為處理試題難度對設定者造成之影響，吾人或可設計一些難度相當的試題直接進行設定，是比較直接操控試題難度的作法；為提升設定結果之一致性，亦可引導設定者利用試題本身來進行成就水準的判斷，看哪些試題分屬哪一個水準，以此作法來取得設定者間一致性、減少評定的不一致；探究設定者背景變項與決斷分數之高低有何關聯……等，上述議題均是後續標準設定研究可進一步著墨、探討之處。

最終，本研究提供清楚例證，標準設定活動的設計經常融入不同回饋方式於各個階段／回合，然而，提供回饋的目的，必須清楚的呈現與說明，如此方能有助於提昇設定結果的一致性與準確性。此外，關於提昇設定結果的一致性是否能提昇標準設定的效度，從測驗信效度的觀點而言，

信度只是效度的必要條件，而非充分條件，故提昇設定結果的一致性（信度提昇）不能保證效度的提昇；然依據學者Michael Kane（1994）對通過分數表現標準的效度驗證探討，他從程序、內部與外部三方面的證據與效標來說明表現標準的效度驗證。本文所探究的提昇設定結果的一致性正是 Kane所指稱內在標準的效度檢核，據此而言，提昇設定結果的一致性，

應能提昇設定標準之效度。由於本研究旨在探究設定結果一致性，故未論及效度方面的議題，該議題之探究可參見作者於20 10年發表於測驗學刊

（57:1）「標準設定效度驗證之探究―以大型數學學習成就評量為例」一文。

在文檔中 Feedback Approaches with the Modified Angoff Method (頁 28-31)