以多層面Rasch分析的角度來評估標準設定之變異性

(1)

國立臺灣師範大學教育心理與輔導學系教育心理學報· 20 日， 44 卷， 4 期， 793-811

11 以多層面 Rasch 分析的角度來評估標準

設定之變異性*

詩t名娟

國家教育研究院測驗及評量研究中心執行標司，1 ~li吐出jJ' 州究者?品，請!這檢視棟準設定成員之間的變其 1年。研究普希哨樑叫 I"吐;志成員在設 :.L切斷I分~I峙，彼此之Ill]對於 1犬斷分數的判斷能夠達到 A致性，也就結成 H 之間的變挺快越小越好心此外，在推行標准設定時，成員之間為了要能夠達到共識，必 ;.\'j經過 H 幾輸的討論 I科此，也 I l1nJ從m利用的訓息|叫饋，供標准設定成民參考，以節省 t&fl 的討論|叮 II日，也 1'3研究的立!

點 υ tt:木文 [11 ，將多)西伯 i Rasch 分析應用於標准設定卜，並使用 Yes肘。 Angoff 的 )j法來進1J 操

作，例咒，授現透過多!再 [iii Rasch 之分析，除 f 能檢而~t才;WH1~ij生:.L 1&:ti 之I1 IWJ 變i昕I: '也 i司提供利用~月]圳，已1、fll:榜!有{~;i吐定 I&H 參考。除此之外，對於標單結起成的|可身內的 ~j突決定亦能提供科一效率的檢 IP)t 。

關鍵詞:多層面 Rasch 、標準設定、 YeslN o

Angoff

凶中基測的概念、源自常模參照測驗，其宇要內幅為著重個人與團體內其他成員的比較，藉由與其他競爭者的分數，外交瞭解個人表現的優劣程度。而十一二作國教推出的國中會考，則是源門於標準參照測驗，其主要日的是將測驗分數與事先設定好的標準做比較，學生透過表現標準的描述來瞭解什身的學習成就，不需要與他人比較，國中會考將學魚分成一f惘等級-精熟、基礎、待加強。然而，要怎麼把考試的成績切成J段呢?這就要透過標準設定了。標準設定主要的門的為找出幾個切斷分數將學牛分成數個等級。依據測驗的H 的，透過標準設定所找出的決斷分數會對個人、學校或社會造成不同開度的影響O 例如國中會考，若將精熟的分數設的越高，則代表學生能達到精熱水平的比率會越小。而對於高風險考試而言，決斷分數的 iE確設定與否更會造成嚴重的後果。例如臀師執照考試，若是通過的切斷分數設定過高，會造成一些具有能力的醫學系學牛已無法通過考試。但~切斷分數過低，則會造成能力不佳的醫學系學牛拿到醫生執照，問控危害病人榷益，凶此iitft能夠在標準設定的過程中，找出合適的切斷分數){ 相當重要的。

(2)

標準設定主要是將表現的標準和測驗分數做連結，透過標準設定成員專業的判斷，找山符合

標準要求的切斷分數。雖然這個過程看似簡單，但相當費H守、費力，由於過程中牽涉訐多主觀性

的判斷，因此研究者常而臨外界對於所設定山之標準分數合開性之質疑。首先，就標準設定成員的決定上，須先找山具白代表性的一群人(

Cizek

&

Bunch

,

2007)

0 t，:j[設定的分數攸關學生成績，

則標準設定的成員可以:if:學生家長、學校老師、校長、領域相關的大學教授等，透過不同的成員表達出不一樣的聲音，使得所設計出的判斷分數能更加同延。

在賈務應叫上，要能得到標準設定成員間的共識相當困難(

Raymond & Reid

,

200 I)

，每個成

員都來白不同的背景，要能夠透過標準設定的議程來說服別人什i斗的看法，或是妥協們已}/~先的意見，須經過不斷的討論，輕個過程費時費力。而且有:嘻笑個過程中，須不斷的檢視標準設定成員不I了，設定決斷分數峙的歧異性，以了解是否透過討論、成員能逐漸達成共識。凶此，對於經費、H守問1-£似的機關團體，如何能提供標準設定成具有壯的問饋訊息、以提品在標準設定時討論的效率泣非常重要的。→般來說，提供給成員的問饋訊息可歸為f類 (Cizek

&

Bunch

,

2007)

，第一類舟常模(nonnative) 的同饋數據，包括每-位標準設定成員所設定的切斷分數、切斷分數的和~端假分布、平均數、中位數、標準差等。第千二類的開饋訊息、則泣影響(impact) 屑而的問饋數據，這類的阿饋訊息，可以提供成員設定判斷分數的可能造成的影響訊息。例如就過去的研究數據來找出，注~:J{設定這樣的切斷分數，在每一個層而受試者通過的比率;1丘多少，成員們可以就這方而的訓忠來討論這樣的切斷分數對於社會大垠的接受程度與觀感為何。第→f類訊息則為真實性 (reality) 的問饋訊息。例如測驗試題中，每一個題川的難易廈、鑑別度，或J{其他類似測驗的切斷分數等。這三種問饋訊息為最常在標準設定中使用的同饋訊息。在實務應用上，這些回饋訊息、Hz無法對於標準設定的過程有立即性的幫助，也就是說，即使知道某些成員所設定的切斷分數是梧端惘，但是在計算最終決定的判斷分數時，是否應該將相端個刪除?此外，對於某些標準設定方法，如YeslNo Angoff 方法，即使能檢視題l1 的難易度。，但;1正成員、Hz 不知道該如何修正原先的判決，而只能逐題討論，而出於題u 是多，成員意見要能連成共識需要時間，因此常常受限於時間，成員無法討論太多題11 0 因此對研究者而言，如何能夠提供成員一個比較直觀的、立即性的同饋訊息，是相當重要的。在本文中，將應叫多層面Rasch 分析 TASA2009國小六年級英語科標準設定上，並採肘YeslNo Angoff 方法。本研究主要研究刊的有斗，第一，使肘多層而的Rasch 分析，來評估標準設定過程中成員彼此之間與個體內判斷的歧異性O 在本研究中，將檢視成員名:來自不同的職業背景，所判斷山的決斷分數是否有歧異性與個體成員在進行標準設定時，是否有發生衝突判定的現象，例如，判定同一層級的受試者能答對困難的題日卻無法持對簡單的題IJ 。第二，如何使用多層面 Rasch 分析來提供標準設定成員可能告用的回饋訊息，進行判斷決定的修正，或藉此協助研究者，評估標準設定成員設定決斷分數時過程的品質? 根據研究目的，主要的研究問題如下: 1.標準設定成員來自不同的職業類別與性別，彼此之間背景的不同，是否會造成標準設定判斷時的歧異性，這種差異是否達到顯著? 2. 標準設定成員在做判斷時，是否發生內部衝突的現象?要如何使用多層面Rasch 分析將此現象偵測山來，形成回饋訊息、以供成員與研究者參考?研究者如何能藉此訊息，來評估標準設定成員在執行判斷時的品質?

以下先就本研究所使用YeslNo Angoff標準設定方法之文獻進行探討，並對多層面Rasch 模組

(3)

一、 YeslNo Angoff 方法

MFRM 於標准設定之應用丈獻探討

795

現今常用的標準設定的方法令I)，:十幾種 (Berk，

1996)

，在這些方法中，基本上的流程都是要求標準設定成員先參加設定方法的訓練，等到成員已對整個標準設定的過程熟聽，再進行正式的標準設定會議，在會議中，成員們除了需要自行判斷之外，也需要不斷的和其他成員討論，而在整個過程中，會議主席爾提供相關[ul饋訊息，供成員和討論中參考，當作修正判定的依據。當最後的成員間的彼此歧異性降到可接受的範圈，或已經達到最終討論的輪次時，則以成員的判斷分數之平均，或夫已-中位數，當作最終的決斷分數。國內對於標準設定的相關研究眾多，太多的研究著重於理論方面的研究(吳裕益，

1986

;林惠芬，

1993

;鄭明長、余討卒， 1994; 謝進昌，

2005)

，或是信效度的研究(具毓位等人，

2009 ;

陳彥名，

2006

;吳訂芳、自II慧英、林娟如，

2010

;謝進昌等人，

2011

)。過去研究的標準設定執

行方法中， Angoff 方法為最常使叫的標準設定法之一，此方法為 Angoff

( 1971

)所提山，

Angoff

方法使用上很簡單易懂， I而且能夠軒易為不同形式的題型設定決斷分數。這輯方法廣泛應片J 在各

類測驗上，真11 NAEP 、美關各州政府許量(Council of Chief State School Officers [CCSSO]

,

200 I

)、瑞典的數學考試 (Nasstrom

&

Nystrom

,

2008)

，醫學等證照考試。

在原先的方法中，標準設定委員必須對題本中的每~{問題II 進行判則 '，W決定邊緣受試者

( minimally competent examinee)

，有多高的機率，可以持對這f問題 II 0 也可以想成在一群人中，

有多少比率的人可以符對此題，而把這個比率，做為邊緣受試者平等對此堪的機率。ι:是使用原先

的 Angoff 力法，除了要對待 4題進行判斷之外，委員們還須思索每-題的特對機率，當題本內的題 I j 很多峙，這關方式就變得較不合適。

因此， Angoff 方法就產牛-出了許多修定的版本，其中一個廣泛使用的版本為Impara 與 Plake

(

1997)所設計的 Yes/No Angoff 方法。此方法和 Angoff)原先設計雷同，必需要對題本中所有的

題仆進行判斷，但不同的點是，不用寫出邊緣受試者答對題仆的機率，而是直接寫下邊緣受試者能夠或泣不能夠持對此題。如果邊緣受試者可以持對此題，則在這f問題門的表格上寫下“Yes" ，如果不能持對，則寫下“No" 0 這種較為直觀的判斷，減少了出先 Angoff 方法的執行困難度。

Yes

/N

o

Angoff 標準設定法的實際操作流程，大致如下，首先，研究者會事先提供每位標準設定成員→本試題卷，而每頁的試題內容包含扣題刊、選頃、干年案及許測項 H 等。而後則需逐題判斷足否在該程度的邊緣受試者，能否符對該題，逐題判斷後，研究者會將每一位委員的填符數據，輸人程式軟體中算也可考古II成員對於放水平的平均數。骨山的平均數，則可代表在此水平的邊緣學魚，應該可以持對輕份題本中的題 1 比例，、·It. 可以此做為此水平的決斷分數的依據。同樣的步驟會重複幾輪，而每一輪大致重覆第 4命的動作，但差別在於研究者會提供不同的同饋訊息，以作為成員參考，例如在第-輪的同饋訊息中提供常模訊息，如其它成員(與白已) 對各題的判斷之散布圖、決斷分數之分配圓哼，而在第:輪 rul 饋訊息中則提供影響訊息，且 IJ就過去的研究數據而言，石是設定這樣的切斷分數，在每寸岡屑而受試者通過的比率是多少。成員即依據阿饋訊息，分成小組來討論上﹒輪所設定通過分數的適切性與聆聽其它成員發表自己對題刊的判別依據，進行下一輪的設定，做再次對各題重新判定。最後，研究者根據標準設定成員於最後一輪所判定的成果，來決定正式通過分數。

二、多層面 Rasch 模式

多層面 Rasch 模式延伸 H 型參數的試題反應模式，由 Linacre 在 1989 :fy.提出，可以同時分析測驗中所存在的多個而|句，、w可分開~.現所佔計山的結果。多層而 Rasch 模式具有試題反應坤論

(4)

的優點，是古典測驗理論所無法具備的(余民箏，

2009)

，例如，試題反應理論所計算出的試題參數(如難度、鑑別度等) ，不受樣本的影響，即使用不同的受試樣本，所計算出的試題參數也

為會相當穩定。且對於受試者的能)J 估計，不受測驗的影響，只要是同質性試題組成的測驗也能

對不同受試者之間的分數進行有意義的比較。再者，試題反應開論所採用的適配度考驗值(

goodness

of fit index)

，可以提供考驗模式與資料間的適配程度、受試者的反應足百山現非尋常(aberrant)

等參考指標 o 多層而 Rasch 模式還有幾項特色可應用於標準設定上。第一，標準設定過程中最為研究者困擾的議題就是判斷分數易受到標準設定成員主觀性的影響。然而，即使成員事先受過訓練，但還是只能盡量在主觀中求客觀，但足-很難避免某些成具有:判定時，使用嚴苛的角度，而某些成員，則採寬鬆的角度，傳統的單|勾慶的試題反應用論無法將這軒.評分者的嚴苛程度進行考量o 然而，多屑而 Rasch 分析，將成員的嚴苛度放進模組中，、1(~透過參數估計，使得最終的決斷分數，能夠

考壘成員問彼此不同的嚴苛程度(

Stone

,

Beltyukova

,

& Fox

,

2008

)。第三， Rasch 適配度假可以用

來偵測非尋常的判斷反應 o 例如學牛標準設定成員判定精熟干裡呈度的學牛無法符對，但;拉lh泣i丘;谷卻IJ判定同一{惘間題|鬥i '基礎干程呈度的學學-牛A可以宇符宇對 o 或是判定基礎學生無法符對簡單的題叫，在IJ 可以持對封一題較為困難的題日。這種不合常理的判斷，可使用適配度指標偵測出來 o 第一三，多屑而 Rasch 分析將成員的嚴苛度、試題難度、成員個人的背景因素等，都可放入同一個模組中 o 而將這些而向的資料同時進行估計校準苓同一個的量民中，因此，各個面向得到的參數個可以耳.相比較 (Linacre， 1999) 。

Kozaki

(2010) 曾嘗試探究將多屑而 Rasch 分析，應叫在標準設定上。在其研究中，需要為日文與英文的翻譯執照員設定通過分數，由於這是屬於一輯低風險的考試，且受~N於時間、經費， Kozaki 無法召集所有的成員同時到某個場地執行標準設定，所以他透過郵寄的方式，將相關材料寄給成員，並請成員將設定好的決斷分數叫郵寄的分式寄問，而後則使用多層而 Rasch 分析，來分析出成員在做決定時的歧異性，~在計算自最後的決斷分數。然而，由於可能造成試題外j 曳，這樣的方式耘一般高風險考試的應用並不可行。 Engelhard (2009) 近年來亦推行多層面 Rasch 分析於標準設定上的應肘，世發展了客觀性標準設定法(

Objective Standard Setting)

，在其文章中可看見多屑而 Rasch 分析在標準設定上的可行性與優勢。然將多層面Rasch 分析應用在常用的標準設定法中，例如 Yes/No Angoff 方法，則在過去丈獻中較無著墨o

研究方法

一、標單設定成員本研究中，標準設定成員的選擇來源以大學英語系教授、中央輔導團、縣市輔導團、行政人員(如校長，但具備英語科的教學體驗)才fi.輔以學科團隊的推薦國小英語教師為主o 標準設定成員總人數為32 名，其中教師占有24 名(75%) ，行政人員 4 名( 12.5%) 、學者 4 名 (12.5%) ，而性別分佈為男性6 人( 18.8%) 、女性 26 人 (8 1.2% )。女性占大多數的原因是因為大多數在國中的英語老師，還是以女性居多。成員總教學年資或行政年資，最低是2 年、最高是 31 年，平昀年資是 10.2 年。整體而言，標準設定成員職業類別具有代表性，包含教師、行政人員及學科學者，此外性別比例與索要體教自rili分布類似。標準設定成員背景分布如表l 所不。

(5)

797

MFRM 於標準設定之應用標準設定成員背景資料分佈性別表 1

總人數

結『'、 d 句J 一勻，缸勻，缸一句 3 女 -w43-VA 男 -5lo-6 身分類別

員

-K

師人者

-d

教政學一酌

一丁和們

臺灣學牛-學習成就評量資料庫(

Th

e Taiwanese Assessment of Student

Achievement; 簡稱 TASA) 宇要用來評佔小四、小六、國二、高中職二的學牛-學業成就， TASA 包含 h個考科:國語文、英語文、數學、什然、科學與社會科學。本標準設定所採用的材料，為小λ英語文。測驗的內容制定乃依據教育部公布之九年一貫課程綱要，和英語學習領域的能力指標為依據 o TASA 英語文建置 H 的，旨在評佔學句:英文學習成就表現，除了可叫來檢視國內現階段英語課程實施效益外，也可以檢視學牛英文學習成就。而隨著 TASA 英話文試題研發團隊的更替與言I'量架構之調整，再加諸過去沿用的標準已多不符合賈務運用，引發修訂之需求 o fin 研究團隊在此背景下，藉由標準設定，重新檢視事灣學牛.學習成就言I'量資料庫之國~小學/，\{r級英語文千五每個表現屑級的切斷分數。 TASA 小六英聶丈測驗題型主要分為兩大類，第 A大類為聽力，其中包含一:選一的單選題型式，主要內容為測試學牛-聽辯單字、語音、令Iji士及牛J市日常叫祠的意義。第二大類為閱讀，亦為主選一的單選題型，主要用測驗學魚辨識單:y 、句于、簡易英文標示，以及瞭解短文、圖表的能力(晝灣學牛.學習成就許量資料庫綱站， 2012) 。標準設定所使用的題 II 共 103 題。正式施測時，無法讓受試者-有:短暫時間內施測令部試題，且對於小六學生而言，若足﹒接受所有試題之測驗，不僅耗時，且容易造成心開上的負擔，而產主漏半年或亂答的情形增加。因此TASA 測驗採平衡不完哥哥區塊的題本設計(

Balanced Incomplete

Bl

ock

desi伊，

BIB)

，並透過 IRT 的等化

技術(

Equating)

，將每個題本的分數連結起來。對於BIB 設計與其受試者能力參數計算有興趣的讀者，可參閱 Yates

( 1936)

;郭伯世與王暗博(2008) ;郭伯l~£ 、楊忠、偉、內曉珊與張鈺卿(2008

)

之專薯。每-份英文題本內含聽 )J題 20 題與閱讀題 12 題。 TASA 小六英語科的試題難度，為中間偏容易，依據曾建針I和陳清¥~是 (2009 )的研究發現，學生在聽)J 與閱讀兩方而的表現水準相似，特對率各為 76% b'i178%' 和每一項能力指標符對率介於 74%-93% 。二、標車設定材料三、標車設定會讀流程確認 32 名標準設定成員後，於會議進行前的→個禮拜，研究小組先寄送會議的前導資料，讓成員能事先瞭解本研究的進程與仆的，其內容包括標準表現描述、英文科R!F量架構、會議簡介、與會議流程說明等。會議開始時，研究者先進行簡要說明會議的仆的、流程之後，做請所利成員，就標準表現描

述(

Perfonnance Level Description

,

PLD

)內的細頃內容，逐一檢視 'II位加以討論，收請 TASA 英

文科召集委員協助釐清成員們的疑問。按績，成員們逐-檢視題本，放經過討論、練習後，嘗試進行第一輪的 Yes!N o Ango何的標準設定。

依據 PLO 的描述，請標準設定成員融入 H iJ的專業將驗，分別對基礎、精熟、進階水平的邊

(6)

設定法的實際操作概念歧流程，大致如下。肯先，研究者提供試題卷，而每頁的試題內容包含有題 u 內容、選碩、及許測項U 等。而後要求成員對祖本中每一個試題，做以下判斷: (一)程度列為基礎最低能力的學生，是否可以答對這一題，如果可以，則在「基礎最低能力者可以平等對此題」的欄位內打勾; (二)程度列為精熟最低能力的學生，是;白:可以持對這一題，如果可以，則在「精熟最低能力者可以平等對此題」的欄位內打勾; (~. )程度列為進階最低能力的學生，是否可以答對這一題，如果可以，則在「進階最低能力者可以持對此極」的欄位內打勾; (四)若進階最低能力的學生，無法容對此題，則不E I 進階較高能力者才可以持對此題」的欄位內打勾。例如，如果標準設定成員認為此題只有程度為精熟的最低能力學率才可以答對，則於下表2 之「精熟最低能力者可以答對此題」的欄位內打勾。其中，的述基礎、精熟及進階最低能力學生

且IJ為界於兩層級間臨界點之邊緣學牛~

(borderline student)

，成員對於這群學牛-的能力無法簡單歸

類。例如精熟的最低能力者，他們的能力則是介於精熟與基礎屑級的能力之間。表 2

Yes

lN

o

Angoff 記錢表範例題號 1.基礎最低能力者 2. 精熟最低能力者 3. 進階最低能力者 4. 進階較高能力者才可可以答對此題可以答對此題可以答對此題以答對此題

V

第一輪的標準設定糖、 '.!t 花費時間約為-﹒個小小時，結束後由研究者回收成員記錄表，並交出助理進行統計分析。依據成員記錄表，研究者繪製每一位成員給定分數的散佈圖、故提供各試題傳統難度 P 值，與每一題成員給定基礎、精熟、進階的比例。成員們就阿饋訊息的內容，逐題進行討論，原先設這十一小時的討論時間，因為題目眾多且成員反映討論時間不足，延長為 1 個半小時的討論。討論後，成員們修正原先的判定並進行第二輪的標準設定。執行情形如第一輪，只是花費的時間較少，成員約花一個小時完成第二輪的設定 o 助理完成第二輪的分析之後，研究者除提供和第一輪相同的阿饋訊息之外，亦左手現依據成員所給訂的切斷分數，在 2009 年 TASA 的實徵數據下，有多少百分比會落在基礎以下、基礎、精熟和進階四個等級，，](z再次進行成員之間的討論。討論之後則執行第玉輪的標準設定 O 第三輪的標準設定結束完畢後 o 研究者公布決斷分數的設定結果並進行成果問卷的填寫，問卷內容包括對於成員們對於鬥己所設定的分數信心強度、覺得最終結果赴台;合開等。本研究主要使J+j第一f輪的貫徵數據。

四、多層面 Rasch 模式

由於本研究共有 32 位標準設定成員，每位成員須依據每一個題 H 判別是否基礎、精熟、進階的邊緣學牛可以容對此題，總共有 103 題，所以使山的數據為 32xl03泊的矩陣，此數據使用軟體

FACETS (Linacre ' 2007)

，進行分析。 FACETS 程式主要應用在多層Rasch 模式中立t進行參數估

計，將觀測的數據轉換成對數型尺度(

logit

scale) 。

本研究考量的層而為試題難度、成員者的嚴厲度與評分者性別與職業 o 則第 n 位評分者，其性別為 m' 職業為 i' 不[表現屑級 I '試題難度為 b 時，針對這{問題 [1 '被此成員者評定為 YIN 分數之對數勝算比可表示為:

(7)

MFRM 於標准設定之應用

799

其中 Pum1JIY n第 n 位成員者，性別為 m' 職業為 i' 表現屑級為 I' 且試題難度為bR寺前f Y 的可能性。

R

_n

為成貝

n的嚴厲度: G

_m

為成員性別mWF分時的嚴厲度; ~ 為當成員背買來內職業i 評分峙的嚴厲度; 同為表現層級 l 的難度; ~為題II b 的難度; I

_h

指評定_Y_或是_{N 之間的難度界線，也稱為難度階(}

_{threshold difficulty)}

由此模型可見，標準設定成民本身、性別、職業、表現屑級、題"難度都士~要考量的層而，而各個屑面之間的關係緊緊相扣，評分者在試題的判斷為Y 或 N 和本身的嚴持度，試題的難度、本身的性別、職業都有關聯性。此模組將以本單純的評分方式，進而分離各神，可能影響副主分的因素，使標準設定的判斷模式能夠更為精準υ 在每一個層而 'FACET 都會計算參數平均惘，參數標準差、不同的適配度參數，例如infit 均

方伯、 outfit 均方俯哼。有模組中所估算的參數惘，轉換成對數型的哼~h 尺度(

logit scale)

，而其

學理上的範圓問iE無限大到負無限大之間n 此外，多屑而 Rasch 模型將所紅的變數關係惜現有變數分布圖上，變數間的大小關係，可以互相進行意義性的比較。什堂而吉，越l雨的參數，代表成員進行判斷時越嚴厲或題II 越難(

Linacre

,

2007 )

;在多屑而 Rasch 模型中， ~'iWF分有的給分不穩定，只 IJ數慷結構會偏僻，情型的假設，代表 Rasch 分析不適合分析此數據。為了安檢驗ii; 盃可以使叫多屑而 Rasch 分析來分析資料，可山兩個而向來觀察，第-祠，檢視J{-;i;資料本身之適配度合于要求，只:.H適配度合于要求，才能對後續的參數估計千J意義的解讀。一般來說，常以 Infit 的 )j{高興 outfit 均方俯常并bK檢視適配度，

de AyalaC 2009)

建議這兩輛均方f煦的理想範因為0.5 到1.5 之間，越拉=逗 l 代表適配度越好。才扣f7j均方f俯而低於 0.5 或

局

第二'須檢iii見單I白iJ J吏的假設赴台;成i羊， Tennant 與 Pallant (2006) 認為 Outfit 或 Infit 的均方

個仍令不足，應使!叫 Rasch 殘if~芋，成份分析來佐誰單|句度的誰據，只要解釋變異量大於60% '第

一殘差特徵個小於 3.0 或第﹒因素殘俯變量佔殘差總量5%1旬，符合任何一頃條件時，則可提供 Rasch 模式符合單I句度的假設的推搏(Linacre

,

2006 )

進行多層而 Rasch 分析時，亦崙考量 Rasch 參數佔計的分離度係數(The

separation

coefficients)

0 分離度係數為一種依據假設所算山統計指標，而此假設為所有的觀測個是從一個常態分布的母群所隨機抽取山來的，1m此舟群中的統計特徵和觀測俯完全相同，在這種特性之常態分布母群中，能夠辨識1:11幾和其1-J統計顯著差異性的群組。分離度越高，則代表越能將屑而的類別區隔山來，例如若評分者的分離|引言皮肉10 '則代表;在jit有→{~司與研究者所探究的評分者樣本分布相似的常態、母群，其言F分者之間的差異性苓少可以被分成10 個層級，在標準設定中，研究者會希望評分者的分離度越低越好，凶馬拉近o J'i倒泣代表評分者的評分具有不II當的﹒致性、共識很強。此外，透過卡方檢定，可以進一步檢視觀測柄的差異性:tI沒有達到顯著:。例如，研究者想要知道標准設定成員之間的許分足百一-致，則可查看卡方檢定的結果， jfi 卡 }j檢定不顯著，代表評分者之間的判斷是相當」致的，而顯著的卡方值則隱含計分者之間的判斷存于'E差具。

結果

多層而 Rasch 模式衍伸向試題反應用論，因此數據須符合單|旬皮之假設才能進行按績的分析，首先將使Hi Winsteps 軟體來進行主成分分析，來檢視數拷J{盃半現單|句度。依殘差:t成份分析報表顯示，解釋變異量的96% '第-歧第;殘差特徵俯(eigenvalue) 為 10.1 與 8.8 '第一歧第」因素分別解釋 10.5%及 9.2%的殘{I質變其量，由於解釋變其量大於60% '表示資料符合 Rasch 模式單向!在的測壘。

(8)

圖 1 為變數分布圖 (variable

map)

，由這個分布圓中可以看的本研究中所考慮、各個層面中變數分布的狀況。

IHE!8Sr I tgender I+sta巳 us I-judge I tIe",e1 t+items:

6 + t + 5 + t t 4 + t + 3t t + 2t + + I 31 1 t + + 14 15 2:8 30 I 13 16 2:5 I 11 12 18 19

o 會 female male 會 adminis巴 ers professor 巴 "acher It- 1 21 ZZ 3

t I"] 20 32 I 10 Z? e 1 + t t '9 z + + + -3 + + + -4 + + + -5 + + + -6 + + + "] + + + -8 + + + + +唔，會會會 ₊ l 會會會會會會 + +會會會會會 + l 舍，會 + ad'" + + I ••• I • + + •• + l 會會 l 會會 + +唔，會會會會會 ₊ l 會會會會 I ' + + ... + I... 會會， 23 24 26 29 4 I prot I 會會會.會﹒... I 6 ? 會會 I .會 I •••• + 會會會會， + 1 會 + + !會 +會 ₊ I • l 會 + .會﹒ ₊ I basic I 會 I •• + .會.， ₊ 1 ..,...1t-l . +唔， ₊ I •••• + + 1 會 I • + +

IHeasr I +gender I+s 包 a包 us I-judge

圍 l 變數分布圖 Jtlevel I 會: 1 圓 l 最左邊的欄位是刻度，為對數單位，對數值越高，代表評分者越嚴厲、或是題 11 越難，對數的單位已轉成為等~h尺度，為一具{j-連續性、單位可進行大小比較的數值、且數前之間具有相哼的距離。第二個欄位是評分者的性別差異，由這個欄位的變數分布來看，男性和女性的評分者進行試題判斷時，拉沒有差異性存在。而第三個欄位則為評分者的所在地區性差異，由此欄位的變數分布，可看山來白東部地區的成員，進行判別較為嚴格，而來什南部地區的成員，判別較為寬鬆 o 第四個欄位為言1;分者的職業類則，不管成員的職業為教授、學校教師或是行政人員，評分都很類似 O 第 jJ:{間欄位則是現所有. 32 位標準設定成員的嚴厲度分布，由此可看出第 31 位成員 :l{進行試題判別時，標準最為嚴苛，而第 9 位成員最為寬鬆。第六個欄位為表現層級的分布，基礎、精熟、進階 f個層級之間的難易差異相當顯著，代表成員進行判別時，認為這才個層級之間 :l{ {f很大的差別的 o 最後一個欄位為試題，由此欄位可看山試題難度分布的相當廣泛，有些題日很簡單、有些題川則很難。表 3 為各層而分析參數整理，總共探討六個屑而，就適配度 infit 與 outfit 來看，每個層面的適配度都在 0.5~ 1.5的範圍內，代表使用的 Rasch 模式來進行估計應該足適合的。就分離度來評估變數本身的異質性，可看出不同的性別和職業之分離度的卡方檢定未達顯著，代表這兩種背景因素，心不會造成成具有:判斷上的差異性。

(9)

801

表 3 各層面估計概況整理成員性別職業表現!傅申技試題 Rasch 參數

平均

O

0.27 標准羔

0.23

0.07

0.09

0.07

0.50 N

32

2

3

103 Infi

戶4冒已

平均

0.98

0.92

0.99

0.98

標準羔

0.2

0.1

1.

2

0 .3

0.1 Outfit

豈料均

_1.

₂₅

_1.3

₃

_0.79

_1.

₂₅

_0.86

標堆羔

0.7

0.2

0 .4

分離度

2.22 O

0.26

55.07

7.3

卡方檢定

0.00*

0.89

0.89 0.00*

0.00*

*代表 p

<

0.05

分離度為一種依據假設所算 11\統計指標， liIi此假設為所有的觀測但是從一個常態分布的母群所隨機抽取出來的，而此母群中的統計特徵和觀測俯完哥哥相同 o 分離度指不F.這種特性之常態分布母群中，可以分辨出幾和具血統計顯著差異性的類群(

Strata)

,

Linacre

(2012) 指出，當分離度人，於 2' 自 IJ代表屑而中的類別干ci顯著性的不同，此外，分離度( Separation) 越高，則代表越能將層面的類別區隔出來，如表 3 所示，成員之間的分離度為 2.22 '代表若是有一個與本研究的組成成員相似的常態分布母群，其 WF判的嚴厲度九三與平-少可以被分成 2 1同層級，這也隱含受過訓練與討論的標準設定成員，即使盡量訓練其判斷的客觀性，于'f標準設定時，還是很難脫離原本自身特質的芋，觀性。不r進行決斷分數的評判時， 1-f 1l:1;o成員較嚴格、 {f il:些成員較寬鬆。而表現層級的分離度的 55.07 '代表這個標準設定中所設定的基礎、精熟、進階~{同等級{{明顯的不同。而題 11 的分離煌的 7.3 '貝 IJ 意涵題竹難易範國分布很廣，試題之間的難易!聖 if顯寓'I生的不同。

(10)

基礎 10

-

.

..

, _.

.

Ordwy輔之，..、汽JWJ4》神叫抖丸，、JAVM棚-

. .

。一、o

40 • 60 80 100 5

單制做起掛雖

-5 10 試題蝠號

精熟

•

• ••

.啥叫咱戶....1IJIIl瞬唔...吶 p肉~-..

..

哺闡明建， 20 4 0 . . 60 80 10σ

• •

•

E 10 O 詞..

• o

5

單圳憫做起掛臨時

•

-5 試圖蝠號 -10 進階 10 100 5 O

O

堪圳憫麒羊掛雖

80 A 60'" A 40 20 5 品一 10 試闢驢鞭成員 17 之標準化殘差值分布圖(

infit

=

3.55 )

圍 2

(11)

MFRM 於標準設定之應用

803

每一位標準設定成員，都能製作山標準化殘差分布圖，這個分布圖可做為許佔標準設定成員在執行試題判斷時的內部一致性參考。如圓2' 的第 17 位標準設定成員之殘差分布圖，出這位成員的 infit 指標高達 3.55 '代表這位成員的判斷與 Rasch 模組的估計有很大的山入。在圓 2 中，共 ;有一~.{間寸土圖，分別咕現基礎、精熟和進階刊閑階段的標準化殘是分布。一般的判斷山則址，標準化殘差須介於II負 2 個單位 'Z二是大於 2' 則代表成H 的判斷高於模組預期，例如，題仆很難，依據 Rasch 模型預估，學生應該不容易持對，然i(u卒，成見不I:進行起 tJ 判斷時，谷IJ覺得學牛-可以持對。相對的， ~:j{標準化殘差值低於-2 '則:lJl代表姐仆簡單，依據 Rasch 模型預估學牛-應該可以半年對，然而成員和進行判斷時，各[J覺得學荒無法特對。模制的朋俯i已經由其他成員的判斷綜合f1H占而成，因此， JI:1il標準化殘差{前越大，也代表這位成員和其他成民的判斷越不同。第 4個于圖顯示在基礎屑級中，這位成員的判斷多符合模組預期，因為大多數的殘差{防部落在士2 中，第干」徊于圖則為精熟階級的判斷，成員 17 布:精熟階級中，有好幾{間試題的標準化殘l'f:俯超出士2

'

1-d區甚平低於-5 以上，代表這樣的判斷，非常不符合模組預期，例如，在精熟階段的第 3 題，這題應該1'-:一個非常聞單的題 l 于，然而，成員 17 卻認為這 A題很難，難道精熟程度的邊緣學生也無法特對這一題 υ 這樣大的反差，造成標準化殘走怕自達-5.68 。第一:個于圖為進階階層的殘差分布圖，在這個圖中，顯示除了第 45 題之外，大多數的判決符合預期，因舟殘差非常接近 o 0 與先前一樣，這」題 iμi已: 絕對可以宇特宇對的題仆'然而，這位成員谷IJ覺得這一題很難，認為進階邊緣學生無法特對。這樣的反差造成標準化情左前為 -9 。這樣的訊息、，能提供研究者-與標准設定成員當作回饋訊息的參考。:u 成員進行討論的，能先就個人的標準化殘差圖進行檢視械進行判斷修止，可節省不少討論時間。月整體而苔，此成員進行基礎與精熟階段的判定時，較多干~干;至立的現象產午，即成員的判定與模組的預佔不同。|而這位 ITZH' 進行進階階段的評估， Jt判斷則與模組的預期相對而言較為一致，所以殘差分布較接泣於 o 0

圖 3 則主呈現標準設定成員適配度分布圖。若是 infit 與 outfit 的 {I頁越大，代表標準設定成員的

判斷，和 Rasch 開論模組估計 F的預期表現，差距越大，一般的期望足能維持在 0.5 到1.5 之間。而其中 outfit 的統計制容易受到制端怕的影響，因此研究者較為著重 infit 穩定性。由此可看出第 30 位成員在基礎屑級、 1月第 14 、 17 號成員和精熟階段的評判不符合模組預期，而在進階階段成員的評判均相當符合預期。而圖 4 平.現的為試題的適配度分布圖，由此圓可看山進階屑級的第 80 、 97 題，與基礎階段的第 41 題較不符合模組預期，也代表這些題仆浩成員在做決斷時衝突性比較大的題門，可就這些題叫進行優先討論。研究者可藉出圖 3 和 4 檢視標準設定成員ii三百達成共識，或是更進一步找LU是哪些成員還沒心達成共識，或是哪些是阻礙 JCJ哉達成的試題，打會議時間不足，司優先進行那些題 tl 的討論。

(12)

。

何可。、 N 自2 N

r--N lO N 自3 叫可 N

萬蝴~ ~ 盟

r--~體J

萬蝴E

SgEE

盟

現J

N 軍

:

lON

•

重

:

-

山、 E N N

:

N 〈了 N 何可 N

。

N 個 N _N

~

c、 F吋呼之 F吋 N 個驛

.

_∞ o

區

...

N 西岸 t

kH 輯

!I

c、個 F吋

且“心的何

間1

。 nlll(

自2 F吋叫世 #'

口、p 蓮

n

lll(

，~ υ、

0 11I(

...

_世 ~[[ -字 V

hλ

〈了 H 世 {吋倆

...

υ、

_SE

、航恥 F吋報何可

辦

...

可 F吋雖 N

...

付1 F吋 _f門 F吋 _N _固

...

F吋 o F吋 F吋 F吋 c、 '時 1 日。3 c、 ∞

r--lO lO 叫可山、可〈了何可何可 N N F吋 F吋 00

r--

丸。叫可

<:t

阿1 ('心 ... 0 回) r--丸。 υ、<:t阿1 N ... 0

l!nno

l!jUI

寸。 00

(13)

805

5

4

、 3 、 L ZhH30

礎熟階

基精進

一"心

1 O

1

4

7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100103

試題福號

一基礎!

精熟!

...進階 1

5

4

、‘ J 、， ι 詞一』 Z- 'JJUU 一

1 O

1

4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100103

試題編號圍 4 試題 Rasch 適配度分布度

(14)

結論興建讀不E標準設定的執行下，研究者最著重會議進行的效率與標準設定成員共識的達成與杏，標準設定的過程是成員的判斷、心理-計量的統計與實務的結合。在車要個過程中，很難避免成員的主觀判斷，然而，成員判斷的品質 I ，谷IJ直接影響了決斷分數設定的適切性與西。研究者在進行標準設定H寺，除了提供成員充分的訊息與相關的訓練，也應車量提供相閥、且有山的問饋訊息，讓成員更了解自己所做的判斷。本研究使用了多層面 Rasch 分析，展現有三標準設定上應用的可行性。其中有許多統計指標與圖表，除了能夠提供研究者與成員做為回饋訊息的參考之外，也能提供內部的效度讀據， ftIJ標準設定成員評估結果是西具穩定性及一致性。表 4 則專程理了在標準設定中，可用來評估與檢視成員與試題層面的相關訊息與可以檢視的問題。對於標準設定成員來說，變數分布圖可用來檢視成員嚴厲度的相對分布圖，除了可以檢視每一位成員的相對嚴厲度分布之外，亦可用此分布圖來檢視不同組群，如職業類別、性別與來自不同區域的成員的意見是否一致。名:挂在變數圖中，不同類別在變數圖中呈現在同一個水平，則可以推論他們之間的差異性泣不顯著的，例如性別與職業類別，出於在本研究中的變數分布圖中都分布在同一個水平，因此研究者可以清楚的看出成員的性別或職業，在標準設定的判斷上並不會有歧異性。然而，來白不同地區的成員，則會有不同的意見。本研究的變數圖中，可看山東部地區的成員，判斷的標準最為嚴厲，而南部地區的則最為寬鬆。這樣的論點也可以從分離度和卡方檢定中看出來。分離度越大，則代表成員彼此判斷的歧異性越大，而卡方檢定則進一步提供這樣的歧異性 1三百達統計顯著水準。

在多層面 Rasch 分析中的標準化殘差分布圖和 Infit 、 outfit 均力值可提供研究者與成員值得參考的回饋訊息。對於標準設定成員而言，可透過個人的標準化殘差分布圖，找出自己判斷時，是哪一個試題、或哪一個層級，和別人的判斷差異最大，或是哪一項判斷，有可能是不小心山錯而造成的，成員可以透過這樣的回饋圖形，在討論前就先白我檢視與修正。此外， Infit 、 outfit 的均力值也可協助研究者找出哪些成員的判斷不符合預期，或哪些試題是有很大的歧異性，崙要成員優先討論。表 4 多層面 Rasch 分析在標準設定上的對於成員和試題橫視統計指標或圖表成員試題變數分布圖成員問彼此的嚴厲度分布為試題難度的相對分布為何? 何?

分離度

成員間的判斷歧異性有多大? 試題難度分布的歧異性有多

大?

卡方檢定值成員間的判斷歧異性是否連到試題之間的難度是異是否達顯著水平? 顯著水準? Outfit/lnfit 均方值(分布圖) 成員對於試題的判斷是否與模試題難度是否與模組預期一組預期一致? 致? 標准化殘美分布圖成員本身哪 l峙的判斷不符合哪峙試題的難度不符合 Rasch Rasch 模粗的預期?比預期的模組的預期，比模組預期高還判斷高還是低? 是低?

(15)

807

透過多層面 Rasch 分析所提供的訊息，可以進一一步檢視那些適配度較差的成員'II位針對這些成員對於標準設定的執行方式、PLD 的問解等，探究其評判不一致的山因。而適配度較差的試題，可針對題f1設計、題幹選項、與PLD 的連結性等方而進行深入討論，因此，本文所提供的統計指標，可作為標準設定流程中輔助的同饋資訊，、1丘可藉出這其資訊找山問題的癥結點，讓標準設定的執行達到更好的效果。最後，研究者對未來的研究方|句歧應用提山幾點建議: (一)本研究呈現多層面 Rasch 分析在分析標準設定的優勢，然而，本文僅使用現成的數據，並進行事後分析，未來研究者值得深入探討故利肘本文所採叫的問饋訊息，在標準設定會議的實務運作上1l盃可行，或;且對於標準設定成員進行相關訪談、問卷調查，檢視j革開新式的開饋訊息，是百比傳統的阿績訊息，更能提供標準設定成員布效的訊息。

(---)本研究著重多層出 Rasch 分析不E

Yes

lN

o

Angoff 方法的應肘，然而，這樣的分析是西能應叫在其他常叫的標準設定方法，則需要更深入的探究。例如，吉籤標定法也;沿研究者廣為使叫的一種標準設定方法，然而此方法卻不足逐題檢視，而是先把所府的題川由簡單到難依序排列起來，要求每 -ill標準設定成員檢視完試題之後，在這些排序的題 H 中放置各水平的書籤。這樣的概念和 YeslNo Angoff 截然不同，然而，同樣 1;];，垃到成員的主觀嚴厲度判斷，如何使叫多層而 Rasch 分析，來檢視在這關情境下成員個體內與彼此間的判斷一致，性， 'W提供成員與研究者相關的開饋資訊，也:l{{iA:得未來深入研究的議題。

參考文獻

吳裕益(

1986)

:棚單書照割驗通過分數設定方法之研究。國立政治大學教育研究博士論文。[Wu，

Y. Y. (1986).

Th

e study of standard setting methods in the criterion-referenced tests (Doctoral

dissertation). National Chengchi University.]

吳立芳、自II慧英、林娟女II (2010): 標準設定效度驗論之探究:以大型數學學習成就言I'量為例。劉歐學刊.

57 ( 1 )

,

1-27

0

[Wu

,

Y.

F叮 Tzou ，

H. Y.,

& Lin

,

C.

1. (2010). Validating the performance

standards for cut scores in a large-scale mathematics assessmen

t.

Psychological Testing

,

57 (1),

1-27. ]

!足訢LFE 、陳彥羊毛、張有II雯、陳淑惡、何東憲、林俊占 (2009) :以常態混組模型討論占一籤標準設定

法對英語聽讀基本能力標單設定有效性之中的合誰據。教育心理學報·

41 ( I )

,

69-90υ[Wu，

Y.

Y叫 Ch凹，Y.帆， Chang ， Y. 靴， Ch凹， S. 旺，

He

,

T.此，

& Lin

,

J. J.(2009). Normal mixture model

as convergent validity evidence to bookmark standard setting of english reading and listening

ability.

Bulletin o/Educational Psychology

,

41(1)

,

69-90.]

余N寧 (2009) :試圖反應理論及其應用。台北﹒心理。 [Yu，

M. N. (2009).

Item

的:ponse

theory. Taipei:

psychological publishing. ]

林惠芬(

1993)

:通過分數設定方法和誰開人民檢嚴筆試測驗之研究。甜酸年刊.

40 ' 253-262

0

[Lin

,

H.

F. (1

993).

Standard setting approaches in the nursing personals paper-pencil tests.

(16)

陳彥名 (2006):

• •學生學習成就資料庫(TASA) 英語聽讀能力標車設定之效度探究o 國立台

北教育大學教育，心理與諮商學系碩士論丈。[Chen，

Y. M. (2006).

Investigating the standard

setting validity of english assessment in TASA (Master

s

thesis). national taipei university of

education.]

享II伯臣、王喧博 (2008) :大型測驗中同時進行垂直與水平等化效果之探討。教育研究與發展期刊，

4(4)' 87-120

0

[Kuo

, B. c.,

& Wang

,

H. P. (2008). A simultaneous vertical and horizontal equating

oflarge-scale assessments.

Journal ofEducational Research and Development

,

4(4)

,

87-120. ]

郭伯恆、楊思偉、白曉珊、張鈺卿 (2008)

:

BIB 與 NEAT 設計拒不同作度測驗連結效果之比較。

測艙統計年刊車 16 輯下期， 125-154

0台中:國立台中教育大學。

_{[Kuo， B.仁， Yang， S. 靴，}

Pai

,

H.-鼠，

& Chang

,

Y. C.

(2008). Compared with the linking performance of examination by BIB and

NEAT in different years.

Journal of Educational Measurement and

Stat帥的，

16 ,

125-154.

,

Taichung

,

Taiwan: National Taichung University ofEducation]

曾建銘、陳清溪(2009 ) :2007 年臺灣學牛學習成就評量結果之分析。教育研究與曹展期刊，

5(4)

,

1-38

0

[Cheng

, C.

M. ,

& Chen

, C.

H. (2009).

Th

ey analysis of taiwan assessment of student

achievement 2007.

Journal ofEducational Research and Development

,

5(4)

,

1-38.]

臺灣學生學習成就評量資料庫綱站 (2012): 查.~學生學習成就醉量資料庫建置計量 o 取自 TASA 網站:

http://tasa.naer.edu.tw

/l

about-

I. asp?id=2. '

2012 句三 5 月 22 日 o

[Taiwan Assessment of

Student

Achievement

(2012).

About

TASA.

Retrieved

May

22

, 2012 ，台om

http://tasa.naer.edu.tw

/l

about-l.asp?id=2]

鄭明長、余民寧 (1994): 各輯:通過分數設定方法之比較。瀏驗年刊，41 ，

19-40

0 [Zhe嗯， M. C.，&

Yu

,

M. N.

(1

994).

Th

e comparison of different standard setting methods.

Psychological Testing

,

41 ,

19-40.]

謝進月 (2005) :以最大測驗訊息量決定通過分數之研究。國立政治大學教育學系教育與心開輔導組碩士論文 o

[Shieh

,

J.

C. (2005).

Study of the Standard Setting by the

Meαximum

Test

Information (Master's thesis). National Chengchi University.]

謝進昌、謝名娟、林世華、林陳浦、陳清溪、謝佩幸巷i主i (ω2011 )戶:大型資料庫國小四牛

成就評量標準設定結果之效度評估。教育科學研究期刊，

56

(仆I) ，心l卜-3η2 [仰Hs制s討ieh】， J. C. ， H恥s\岫eh， M. 仁， Lin，

S. H.

,

Lin

, C. Y.,

Chen

, C.

H. ,

&

Hsieh

,

P. J. (2011). Validation ofthe standard setting

procedure for a large scale 4th grade science assessmen

t.

Journal of Research in Education

Sc

ience

,

56 (1),

1-32.]

Ango缸;

W.

H. (1

971). Scales

,

norms

,

and equivalent scores. In

R. L.

Th

orndike (Ed.)

,

Educational

Measurement

(p

p. 508-600). Washington

,

DC: American Council on Education.

(17)

809 Berk

,

R. A.

(1

996). Standard setting:

Th

e next generation (where few psychometricians have gone

before!). Applied Measurement in Education

, 9(

3)

,

215-235.

Cizek

,

G.

J. ,

& Bunch

,

M.

B. (2007). Standard setting: A guide to establishing and evaluating

pe份rmance

standards on

tests. 而ousand

Oaks

,

California

,

CA: Sage Publication

Lt

d.

Council of Chief State School

Offi凹的 (2001).

State student assessment programs annual

surv砂﹒

Washington

,

D

C:

Autho

r.

de Ayala

,

R.

1. (2009). The theory and practice of item response theory. New York

,

NY: Guilford.

Engelhard

,

G. J. (2009). Evaluating the judgments of standard setting panelists using Rasch measurement

theory. In Smith

,

Jr. E.V.

,

& Stone

, G

E. (Eds.)

,

Criterion referenced testing: Practice

ana秒'sis

to

score reporting using Rasch measurement models

(p

p. 3 I2-346). Maple Grove

,

MN: JAM Press.

Impara

,

J. 仁，

& Plake

,

B. S. (1997). Standard setting: An alternative approach. Journal of Educational

Measurement

,

34(4)

,

353-366.

Kozaki

,

Y. (2010). An alternative decision making procedure for performance assessments: Using the

multifaceted Rasch model to generate cut estimates. Language Assessment

Quarter秒~

7 ,

75-95.

doi: 10.1080/15434300903464400

Linacre

,

J. M. (1989). Many-facet Rasch measurement. Chicago

,

IL: MESA Press.

Linacre

,

J. M.

(1

999). Investigating rating scale category utility. Journal of Outcome Measurement

,

3 ,

103-122.

Linacre

,

J. M. (2006). Winsteps: Rasch model statistical

s~仰'are.

Chicago

,

IL: MESA.

Linacre

,

J. M. (2007). Facets Rasch measurement computer program [Computer

so命ware].

Chicago

,

IL:

Winsteps.

Linacre

,

J. M. (2012). A User's Guide to FACETS. Retrieved July

,

1 ,

2012

,

from

h前p://www.winsteps.com Nasstrδm， G刊& Nystrδm，

P. (2008). A comparison of two

di仟erent

methods for setting performance

standards for a test with constructed-response items. Practical Assessment Research and

Evaluation

,

13(9). Retrieved July

,

1 ,

2009 from: http://pareonline.net/getvn.asp?v=13&n=9

Raymond

,

M. R.

,

& Reid

,

J.

B. (2001).

Wh

o made thee a judge? Selecting and training participants for

standard-setting. In

G. J. Cizek (Ed.)

,

Standard-setting: Concepts

,

methods

,

and perspectives (pp.

119-157). Mahwah

,

NJ: Lawrence Erlbaum Associates.

Stone

,

G.

E. ,

Beltyukova，鼠，

& Fox

,

C. M. (2008). Objective standard setting for judge-mediated

examinations. International Journal ofTesting

,

8 ,

180-196. doi: 10.108011 5305050802007083

(18)

Yates

,

F. (1936). A new method of arranging variety trials involving a large number of varieties.

Journal

ofAgricultural Science

,

26 ,

424-455.

日期: 2012 年的月 29 日收稿 JodAfJl 叫 fdru 可KMFht 可句， m 紹，當啊， Mm 嗯血泊 a 姐姐燭圖一稿修訂日期:

2012

if-

09 月 11 日接受刊登日期: 2012 年 09 月 12 日

(19)

Bulletin of Educational Psychology, 2013, 44(4),793-811 National Taiwan Normal Universi 妙， Taip 剖， Taiwan, R.O.C.

811 Evaluating the Variability in Standard Setting Using Many

Faceted

Ra

sch Model

Ming-αluan Hsieh

National Academy for Educational Research

Research Center for Testing and Assessment

When conducting the standard setting,the variability of judgments between standard setting panelists is always an issue needed to be addressed.The researcher has to examine whether the variability between panelists is under the accepted range. In addition,standard setting is a time-consuming process. Itusually takes several rounds to discuss the judgments. How to provide the useful feedback for panelists to review their judgments is crucial.In this study,the many facet Rasch model was applied on the YesfNoAngo叮 standardsetting procedure. The result shows that the many facet Rasch model has advantages on examining the variability between panelists.Italso provides useful feedback to review the internal conflict decisions within each panelist