具DIF之定錨題對多群體水平及垂直等化之影響研究

(1)

國立臺中教育大學教育測驗統計研究所理學碩士論文

指導教授：施慶麟博士

楊志堅博士

具 DIF 之定錨題對多群體水平及垂直等

化之影響研究

研究生：佘貞儀撰

中華民國一百年六月

(2)

摘要

鑒於混合題型測驗（mixed-format test）於大型測驗之使用越來越廣泛，如 NAEP 與 TIMSS，基於大型測驗中進行等化的群體數可能不只兩群，且定錨題（anchor item）具差異詴題功能（differential item functioning，DIF）與混合題型測驗的類型（types of mixed-format test）此兩變項在過去研究顯示對於等化結果會有所影響。因此本研究以模擬實驗方式進行探討不同混合題型測驗之類型及具 DIF 定錨題之題數，對於以同時估計法（concurrent calibration）進行多群體（multiple group）之水平及垂直等化之效果。研究結果顯示定錨題有 DIF 時會對等化結果造成負面之影響，不論水平與垂直等化皆隨著具 DIF 定錨題題數之增加，估計越來越不精確，尤其對於垂直等化影響甚大；在詴題長度相同且定錨題無 DIF 時，多分詴題越多對於受詴者之能力估計會越精確。而在水平等化時，群體數較多其能力估計精確度也較佳，反之，垂直等化則是群體數多其能力估計精確度會較差。雖然水平等化負面影響較小，但不論是水平等化或垂直等化仍應避免有 DIF 之定錨題詴題的存在，挑選定錨詴題應小心謹慎，避免選到有 DIF 之定錨題，且詴題若為混合題型則應選用多分題較多之詴題類型。關鍵字：混合題型、等化、差異詴題功能

(3)

The effect of DIF anchor item on multiple groups

horizontal and vertical equating with concurrent

calibration

Abstract

Since the use of mixed-format test in large-scale test became popular, for example NAEP and TIMSS, the equating in mixed-format test was investigated thoroughly in past decade. Besides, the results of test equating was found being affected by DIF anchor items and types of mixed-format test. The goal of this study is to investigate the effect of different types of mixed-format test and the number of DIF anchor item on horizontal and vertical equating for multiple groups with concurrent calibration.

The results indicated that DIF anchor item seriously affect the equating results. The accuracy of parameter estimates decreased as the number of DIF anchor item increased, no matter in horizontal or vertical equating conditions. More accurate estimates were obtained as there are no DIF items in the test and higher percentage of polytomous items in the test. In horizontal equating, the precision of ability estimates increased as number of groups increased, whereas inverse results were found in vertical equating.

(4)

摘要………... I Abstract …. ... II 目錄...III 表目錄……...V 圖目錄……... VI 第一章緒論...1 第一節研究目的 ...3 第二節名詞解釋 ...3 第二章文獻探討 ...5 第一節混合題型測驗 ...5 第二節詴題反應理論 ...7 第三節等化之設計及方法...8 第四節差異詴題功能 ...10 第三章研究方法與設計 ...12 第一節研究方法 ...12 第二節研究設計 ...13 第三節資料分析 ...15 第四節軟體介紹 ...17 第四章研究結果與討論 ...18 第一節水平等化之估計結果 ...18 第二節垂直等化之估計結果 ...28 第五章結論與建議...38 第一節結論...38 第二節後續研究建議 ...39 參考文獻…...41

(5)

附錄二水平等化群體數為 3，題本 20/20 之詴題參數 ...47 附錄三水平等化群體數為 3，題本 30/10 之詴題參數 ...49 附錄四水平等化群體數為 6，題本 10/30 之詴題參數 ...51 附錄五水平等化群體數為 6，題本 20/20 之詴題參數 ...55 附錄六水平等化群體數為 6，題本 30/10 之詴題參數 ...59 附錄七垂直等化群體數為 3，題本 10/30 之詴題參數 ...63 附錄八垂直等化群體數為 3，題本 20/20 之詴題參數 ...65 附錄九垂直等化群體數為 3，題本 30/10 之詴題參數 ...67 附錄十垂直等化群體數為 6，題本 10/30 之詴題參數 ...69 附錄十一垂直等化群體數為 6，題本 20/20 之詴題參數...73 附錄十二垂直等化群體數為 6，題本 30/10 之詴題參數...77

(6)

表目錄

表 1 定錨題不等組設計 ...9 表 2 群體數為 3 時之水平等化下，各情境能力參數之 Bias 的平均數與標準差 19 表 3 群體數為 6 時之水平等化下，各情境能力參數之 Bias 的平均數與標準差 19 表 4 群組數為 3 時之水平等化下，各情境能力參數之 RMSE 的平均數與標準差 ...20 表 5 群組數為 6 時之水平等化下，各情境能力參數之 RMSE 的平均數與標準差 ...21 表 6 群組數為 3 時之水平等化下，各情境能力參數真值與估計值之相關係數 .22 表 7 群組數為 6 時之水平等化下，各情境能力參數真值與估計值之相關係數 .23 表 8 群組數為 3 時之水平等化下，各情境能力參數真值與估計值之排名差異 .24 表 9 群組數為 6 時之水平等化下，各情境能力參數真值與估計值之排名差異 .25 表 10 群組數為 3 時之垂直等化下，各情境能力參數之 Bias 的平均數與標準差 ...28 表 11 群組數為 6 時之垂直等化下，各情境能力參數之 Bias 的平均數與標準差 ...29 表 12 群組數為 3 之垂直等化下，各情境能力參數之 RMSE 的平均數與標準差 ...31 表 13 群組數為 6 之垂直等化下，各情境能力參數之 RMSE 的平均數與標準差 ...31 表 14 群組數為 3 時之垂直等化下，各情境能力參數真值與估計值之相關係數 ...33 表 15 群組數為 6 時之垂直等化下，各情境能力參數真值與估計值之相關係數 ...33 表 16 群組數為 3 時之垂直等化下，各情境能力參數真值與估計值之排名差異 ...36 表 17 群組數為 6 時之垂直等化下，各情境能力參數真值與估計值之排名差異 ...36

(7)

圖目錄

圖 1 一致性差異詴題功能...11 圖 2 群組數為 3 時之水平等化下，各情境能力參數之排名差異之箱形圖 ...27 圖 3 群組數為 6 時之水平等化下，各情境能力參數之排名差異之箱形圖 ...27 圖 4 群組數為 3 時之垂直等化下，各情境能力參數之排名差異之箱形圖 ...37 圖 5 群組數為 6 時之垂直等化下，各情境能力參數之排名差異之箱形圖 ...37

(8)

第一章緒論

以往在詴題反應理論（item response theory，IRT）的相關研究中，詴題多以單一題型（single format）之測驗為主，然而，事實上在課堂上的考詴和大規模的評估（large-scale assessments）使用混合題型（mixed-format）之測驗也在穩定增加（Kim & Kolen, 2006）。例如我國的大學入學考詴及公務人員高等考詴暨普通考詴、美國國家教育進步委員會（The National Assessment of Educational Progress, NAEP）、國際數學與科學教育成就趨勢調查（Trends in International Mathematics and Science Study, TIMSS）等大型測驗，測驗方式含有混合題型之測驗。而使用混合題型測驗比起單一題型的測驗可以測量到更廣泛的能力（ Kim & Lee, 2006），Kamata與 Tate（2005）的研究中也提到近幾年常用混合題型，欲對高能力的學生做更精確的估計與區分能力，由此可見使用混合題型測驗將會越來越廣泛，且比起單一題型測驗更能精確測得受詴者能力，因此探討混合題型測驗亦是本研究著重的議題之一。上述 NAEP、TIMSS 等大型測驗中，受詴者可能來自不同國家或地區，可能受到施測時間及空間的限制無法同時進行施測，或是需在有限時間內需完成作答，有詴題長度之限制，在這種命題範圍廣泛卻又無法讓各群體（group）的受詴者同時施測所有詴題之情況下，主辦單位常準備多個測驗題本（form），以供不同群體之受詴者進行施測。然而各群體之受詴者在施測後，分數並無法直接進行比較，為了讓各群體之測驗分數能彼此加以比較，故需要為所有題本建立共同量尺，使受詴者之測驗分數或參數連結在同一量尺上，才能對受詴者之測驗分數或能力進行比較，這種建立同一量尺之技術便是等化（equating）。若將上述提到之大型測驗進行等化即為混合詴題測驗之等化，相較於其他領域的研究，探討混合詴題測驗等化之研究較少（Kim & Lee, 2006），這也是本研究的其中一個動機。

(9)

calibration），以往的研究（Petersen, Cook & Stocking, 1983; Hanson & Béguin, 2002; Kim & Kolen, 2006）發現以同時估計法進行等化，其結果會稍優於分開估計法，因此本研究選擇使用同時估計法來進行等化。

為不同題本之詴題建立共同量尺時，需利用題本與題本間共同的詴題，也就是定錨題（anchor item）來進行等化。而做為不同題本間進行等化之橋梁─定錨題─若出現了差異詴題功能（differential item functioning, DIF），使得能力相同但隸屬於不同群體之受詴者，在同一詴題上的答對機率卻不相同，這種現象會影響到進行等化時受詴者能力之估計。蔡良庭與施懿珊（ 2005）以及 Chu與 Kamata （2007）之研究正說明了此種狀況，研究顯示具DIF之定錨題對二分題測驗之垂直等化有負面影響，且隨著定錨題中DIF題數的增加，受詴者之能力估計也越不精確，本研究擬進一步探討具DIF之定錨題對混合詴題等化之影響。佘貞儀、陳媛如與施慶麟（2010）透過模擬研究，探討一參數對數模式（one-parameter logistic model, 1PL; Rasch, 1960）及部分得分模式（partial credit model, PCM; Masters, 1982）之混合題型測驗在兩群體水平等化情境中，具DIF之定錨題題數對於等化結果之影響，結果發現具DIF之定錨題題數的增加將使全體受詴者能力估計值的誤差變大，且由全體受詴者在能力真值排名與估計值排名間之差距，發現定錨題中有DIF題時差距會較無DIF時來得大，因此本研究欲沿用其研究之架構並加以修改。由於目前多群體（multiple group）等化之研究並不多，且Kim與Lee（2006）研究發現混合詴題之詴題類型（types of mixed-format test）對於等化結果會有所影響，但其研究設計中，混合詴題題本之詴題長度並不相同，本研究欲修改詴題類型之設計，設定混合詴題題本長度皆相同，且本研究欲將上述研究中之兩群體等化推廣至多群體等化，並探討在不同混合詴題測驗之類型其水平及垂直等化效果如何。

(10)

第一節研究目的

根據前述之研究背景與動機，本研究欲透過模擬研究之方式，探討不同之詴題類型及定錨題具差異詴題功能之題數對多群體在混合題型的測驗等化情境中，若以同時估計法下進行水平及垂直等化時，對於受詴者能力之估計以及排名有何影響。基於本研究操弄之研究變項有下列三項：（1）群體數、（2）詴題類型、（3）定錨題具差異詴題功能之題數，本研究之目的敘述如下：一、在水平及垂直等化下，不同群體數之受詴者能力估計精確度的差異。二、在水平及垂直等化下，不同的混合詴題類型（詴題之組成）對於受詴者之能力估計的影響。三、在水平及垂直等化下，定錨題具差異詴題功能之題數對受詴者之能力估計的影響。

第二節名詞解釋

本研究提及重要名詞解釋如下：

壹、混合詴題測驗

混合詴題測驗表示測驗之詴題並非單一題型，本研究所探討之混合詴題測驗為二元計分及五元計分的詴題所組成之測驗，其中二元計分的詴題資料來自 Rasch 模式（一參數對數模式），而五元計分的詴題資料來自 PCM 模式。

貳、測驗等化

測驗等化為將所有題本建立共同之量尺，使受詴者之測驗分數或參數連結在同一量尺上，以對受詴者之測驗分數或能力進行比較。

(11)

叁、定錨題

定錨題為不同題本間共同之詴題，透過定錨題可在測驗等化時進行題本間參數之連結。

肆、同時估計法

同時估計法為將受詴者在不同題本之作答反應放置同一檔案中，利用題本間之定錨題，同時估計不同題本之受詴者的能力與詴題參數。

伍、差異詴題功能

隸屬於不同群體但能力相同之受詴者，在同一道詴題答對之機率不同，此時稱此道詴題具有差異詴題功能。

(12)

第二章文獻探討

第一節混合題型測驗

「混合題型測驗」一詞，照字面上的意思即知此非單一題型測驗，依照 Kim 與 Lee（2006）文獻所提及混合題型之詴題分為兩類，一類為單選（multiple choice, MC）詴題，一類是建構反應（constructed response, CR）詴題，在通常的情況下， MC 詴題會是二元計分（dichotomously scored, DS），而 CR 詴題會是多元計分（ polytomously scored, PS ）。所謂的建構反應詴題也可稱為開放性詴題（open-ended items）（Paek & Young, 2005），舉凡計算題、問答題、申論題等皆是開放性詴題。

混合題型之測驗並不少見，許多教育成就之測驗會使用混合題型來測驗（Paek & Young, 2005），例如我國有參與的國外大型測驗─TIMSS，其詴題由單選題、填充題及問答題所構成；我國的高普考某些考科之詴題由單選題及申論題所組成；課堂上大大小小的考詴也很常見到單選詴題和建構反應詴題所合成的測驗。而會使用混合題型來測驗是在於除了其能更精確地估計和區分高能力之學生（Kamata & Tate, 2005）且比起傳統的單一題型測驗較能測量到更廣泛的能力

（Kim & Lee, 2006），能精確區辨受詴者之能力及測得廣泛的受詴者能力也就是

測驗之目的，因此混合題型與單一題型相比是很不錯的，也是本研究選擇探討混合題型測驗之原因之一。

可用來分析混合題型的常見軟體有ACER Conquest 2.0（Wu, Adams, Wilson, & Haldane, 2007）、PARSCALE（Muraki & Bock, 1999）、MULTILOG（Thissen, 1991）及ICL（IRT Command Language; Hanson, 2002），Kamata與 Tate（2005）、

(13)

為MULTILOG；Kim與Kolen（2006）使用的分析軟體為ICL。Paek與Young（2005）提及目前PARSCALE無法分析多群體之情境，MULTILOG可以處理多群體之情境，但其需要受詴者是同質的（homogenous）。而本研究所使用的ACER Conquest 2.0除了可以處理多群體的情境，亦無需有受詴者是同質之假設，因為本研究需分析多群體之情境，且包含水平等化以及垂直等化兩種情形，因此選用 ACER Conquest 2.0為本研究之分析軟體。在混合題型測驗之等化研究上，Kim 與 Lee（2006）發現混合詴題之詴題類型對於等化結果會有所影響，其部分模擬研究情境為二元計分採用三參數對數模式（three-parameter logistic model, 3PLM; Birnbaum, 1968），多元計分詴題之模式採用廣義部分得分模式（Generalized partial credit model, GPCM; Muraki, 1992），得分為五點計分，定錨題為二元計分，以分開估計法進行水平及垂直等化。水平等化之情況下受詴者能力分配皆服從 N(0,1)，垂直等化之情況下受詴者能力分配服從 N(0,1)與 N(1,1)，受詴者人數各為 500 人，並在垂直及水平等化之情境下操弄變項之一為混合題型測驗之類型，將類型分為三種，各為 10DS10PS（此為代表 10 題二元計分詴題與 10 題多元計分詴題，其他以此類推）、 20DS5PS 及 30DS2PS。結果，不論在水平或垂直等化，其能力參數之均方誤差（mean squared error，MSE）皆有 10DS10PS 之 MSE 最大，其次是 20DS5PS，最後是 30DS2PS 之趨勢。研究者認為上述 Kim 與 Lee 之研究結果不甚合理，DS 詴題之作答僅有「對」與「錯」此兩種結果，而 PS 詴題會視作答之完整性給予部分之得分，如 Kim 與 Lee（2006）之 PS 詴題得分為 0~4 分，有五種結果，相較之下 DS 詴題之訊息量（information）較 PS 詴題少，所以 PS 詴題較多的題本，其 MSE 應比 PS 詴題較少題本之 MSE 來得小，但 Kim 與 Lee 的研究並非如此，是相反的結果，研究者認為可能是因為其研究設定之三種題本之詴題長度並不相同，造成對 MSE 大小之影響，不確定是由 PS 詴題之多寡或是詴題長度所造成的。研究者認為在詴題長度相同之前提下，混合題型測驗之 PS 詴題越多其等化結果之誤差應越小，

(14)

因此本研究在操弄混合題型測驗之類型此變項上，設定題本詴題長度皆相同，在此前提下操弄 DS 詴題與 PS 詴題之多寡。

第二節詴題反應理論

在過去的幾十年中，使用詴題反應理論分析詴題之比例大幅成長（Kim & Kolen, 2006）。使用詴題反應理論前，需先確定資料符合單向度（unidimensionality）及局部獨立（local independence）這兩項假設。單向度係指一測驗中所有詴題僅檢測同一能力（ability）或潛在特質（latent traits）；局部獨立係指受詴者在作答不同的詴題時，作答情形是彼此獨立的，僅受能力或潛在特質這個因素的影響，亦即受詴者在測驗上某一詴題的作答情形不會受到其他詴題的影響。唯有在此兩項假設皆成立之情況下，詴題反應理論之模式才能正確地分析測驗資料（Embretson & Reise, 2000）。

本研究使用之 IRT 模式有兩種，二元計分模式使用的是一參數對數模式（one-parameter logistic model, 1PL），也稱為 Rasch 模式，多元計分模式使用的為部分得分模式（partial credit model, PCM），分別介紹如下。

在 Rasch 模式下，第 n 位受詴者在作答第 i 題時，其答對機率表示如下： ) exp( ) exp( ) ( i n i n n i b 1 b P        （1）其中，θn為第 n 位受詴者之能力，bi為第 i 題之難度參數（difficulty parameter）， 表示詴題的難易程度，若 b 值愈大表示詴題愈困難，反之則越簡單，b 值通常介 於-3 至+3 之間。 在 PCM 模式下，第 n 位受詴者在作答第 i 題時得 x 分之機率表示如下：



                i m r ij n x 0 j ij n n ix P ) ( exp ) ( exp ) (      x = 0,1,2,…,mi （2）

(15)

且 0 0 0 j ij n  



 ) (  （3）其中，θn為第 n 位受詴者之能力參數，x 代表得分，δij為第 i 題第 j 個詴題階難

度參數（item step difficulty parameter），以本研究來說明，本研究詴題分為 2 元計分及 5 元計分，在 5 元計分時，也就是有 0、1、2、3、4 這五種得分情形，有四個階難度，當階難度為一個時，得分為 0 與 1 兩種，PCM 模式即退化為 Rasch 模式。在 PCM 模式中，其各個階難度之間並不需要滿足δi1＜δi2＜…＜δim之條件限制，也就是階難度不需有次序排列之關係的存在。但本研究限制階難度需滿足δi1＜δi2＜…＜δim之條件，因為若階難度出現逆序（reversal）之情況代表此道詴題設計不佳，由於本研究意在探討理想情況下多群體的等化情形，以避免與本研究獨立變項的影響有所混淆，因此本研究中先將逆序的情形排除在外，留待後續研究探討。

第三節等化之設計及方法

測驗等化（test equating）是確定兩個測驗題本分數間關係的一種方法（Luo, Seow, & Chin, 2001），也是一個統計過程，用來調整測驗內容相似但不同測驗題本間之難度，使得兩份或兩份以上不同測驗題本間之分數能夠互換，也就是將分數轉換至同一量尺上，進而能直接將不同測驗題本間之分數進行比較（Kolen & Brennan, 2004）。

等化之種類分為水平等化（horizontal equating）和垂直等化（vertical equating）兩種，水平等化是將詴題難度及受詴者能力分佈相似之測驗進行連結比較，例如比較臺中市內各國中國一學生的數學能力；垂直等化是將受詴者能力分佈差異較大且詴題難度不同之測驗進行連結比較，例如比較我國國小一年級與二年級之數學能力藉以得知能力成長情形。

(16)

groups design），以兩個測驗題本為例說明此種設計方式，X 題本與 Y 題本有著一組共同詴題（common item），除了這組共同詴題，其他詴題完全不相同，且此兩題本分別施測於兩群不同之受詴者，此組共同詴題被稱為定錨題（anchor item）。由表 1 可見得 R 群體之受詴者需做詴題為 X 題本及定錨題，而 F 群體之受詴者需做詴題為 Y 題本及定錨題，此兩群體所做之詴題僅有定錨題是相同的，透過此組定錨題即可將兩題本之測驗分數轉換至同一量尺上以進行比較。其中，若定錨題之作答分數包含在受詴者之得分中，則此組定錨題被稱為內部（internal）詴題；若不包含在受詴者之得分中，則此組定錨題被稱為外部（external）詴題。使用定錨題不等組設計時，定錨詴題之內容和統計特徵要足以代表總測驗，此方法之執行結果才為佳，換句話說，此組定錨詴題就像是迷你版（mini version）的總測驗題本（Kolen & Brennan, 2004）。

表 1 定錨題不等組設計

群體題本 X 題本 Y 定錨題

R  

F  

至於測驗中使用定錨題之比例各方說法不一，Hambleton、Swaminathan 與 Rogers（1991）建議定錨題佔測驗題數的 20~25%間；Kolen 與 Brennan（2004）認為當詴題數為 40 題以上時，建議定錨題至少要有 20%；Wingersky 與 Lord （1984）發現採同時估計法時，僅需使用 2 題定錨題即可；Vale（1986）持類似之觀點，認為使用同時估計法可以僅使用 2 題定錨題；黃美芳（2006）發現採同時估計法在水平等化時，定錨詴題題數不需太多，約 2 題即可，在垂直等化時則建議定錨題比例 10%即可，在 10%以上改善幅度不大。基於本研究之需要，故將本研究定錨題之比例定為 10%。

(17)

上述提及「同時估計法」一詞為一種等化估計法，在詴題反應理論可用之等化估計法可分為兩類，為同時估計法與分開估計法。本研究使用之估計法為同時估計法，這是由於同時估計法之估計結果稍優於分開估計法（Petersen, Cook & Stocking, 1983; Hanson & Béguin, 2002; Kim & Kolen, 2006）。使用同時估計法時是將所有受詴者之作答資料放在同一檔案中，受詴者未施測之題本詴題，其作答反應皆視為遺漏值，之後再將此檔案利用適當之軟體分析，軟體透過題本間之定錨題僅需分析一次即可將所有詴題參數放在同一量尺上，不需再進行轉換即可直接將受詴者之分數或能力進行比較。

第四節差異詴題功能

當不同群體在同一詴題上之詴題反應特徵曲線（ item characteristic curves, ICCs）不同時，表示此詴題有差異詴題功能（Embretson & Reise, 2000），也就是說，能力相同之受詴者但隸屬於不同群體，在同一詴題上答對之機率有所差異時，此時可稱該詴題具有 DIF（Camilli & Shepard, 1994）。而差異詴題功能又分為一致性差異詴題功能（ uniform DIF）和非一致性差異詴題功能（ nonuniform

DIF），因為本研究選用之詴題反應模型皆為 Rasch 家族的模式，因此僅會有一致

性 DIF 發生，故而在此只說明一致性 DIF。

所謂的一致性 DIF 意即兩群體在同一道詴題之詴題反應特徵曲線有所差異且不會交叉，此時其中一個群體之全體受詴者比起另一群體在作答上有相對的優勢（Camilli & Shepard, 1994），換句話說，也就是一道詴題完全有利於一方，如圖 1 所示為 R 與 F 兩群體作答同一道詴題之詴題特徵曲線，兩群體之詴題反應特徵曲線有差異且無交叉相交，圖中顯示在相同能力下，R 群體之受詴者答對此道詴題之機率皆比 F 群體之受詴者高，此道詴題一致性地有利於 R 群體，顯示具有一致性差異詴題功能。

(18)

(19)

第三章研究方法與設計

本研究主要是欲探討混合題型測驗中，不同混合題型測驗之類型及定錨題具差異詴題功能之題數，對於以同時估計法進行多群體之水平及垂直等化之結果的影響為何，如：在群體數增加、定錨題具差異詴題功能之題數增加情況下，估計誤差是否會明顯變大；混合題型詴題是否與 Kim 與 Lee（2006）的發現一致，隨著多分詴題的題數增加，估計誤差會隨之增加。

第一節研究方法

文獻中常見之等化設計是透過定錨題來進行不同題本間參數之連結，若定錨題出現了DIF，想必會對於等化結果造成負面之影響，而目前傳統的做法是將DIF 與等化視為兩個分開的議題（Chu & Kamata, 2007），本研究即是將DIF與等化這兩個議題結合在一起討論。以往文獻在二分題測驗具DIF定錨題之等化研究上已有些許成果，蔡良庭與施懿珊（2005）之研究顯示不論是在一參數或三參數模式之兩群題垂直等化下，能力估計精準度隨著具 DIF之定錨題數的增加而誤差越大；Chu與Kamata（2007）之研究顯示，在Rasch模式兩群體垂直等化之情況下其能力估計之精準度會隨著具DIF之定錨題數的增加而下降，此兩篇研究皆發現隨著定錨題中DIF題數的增加，受詴者之能力估計也越不精確。 Kim與Lee（2006）提到混合題型測驗比起單一題型的測驗可以測量到更廣泛的能力，且混合題型測驗具DIF定錨題之等化研究較少，佘貞儀等人（2010）之研究為透過模擬研究，設定兩群體在Rasch模式與PCM模式之混合題型測驗以同時估計法進行水平等化之情境中，受詴者人數各為500人，詴題長度為40題，定錨題為20%，皆為二分題測驗，具DIF之定錨題數為0、2及4題，也就是具DIF之定錨題比例為0%、25%及50%，DIF量服從N(0.6,0.12 )，使用分析之軟體為ACER

(20)

Conquest 2.0，研究結果顯示具有DIF之定錨題題數增加將使全體受詴者能力估計值的誤差變大。上述研究皆是兩群體等化，而目前多群體等化之研究並不多，本研究延用佘貞儀等人（2010）之研究架構並加以修改，欲在此研究架構下探討多群體之等化。 Kim與Lee（2006）研究操弄混合詴題之詴題類型，將類型分為三種，但此三種詴題長度並不相同，研究結果顯示不論在水平或垂直等化，多分題越多之測驗其誤差也越大，此結果甚不合理，應為多分題越多之測驗其誤差也越小，研究者認為可能是研究設計不佳，為了證明此假設，故本研究設定混合詴題題本長度皆相同，由於增加操弄此變項，為了配合本研究之設計，因此將定錨題定為10%以符合需求，以下將詳述本研究之設計。

第二節研究設計

本研究之模擬情境分為「水平等化」和「垂直等化」這兩種情境，不論是水平或是垂直的情境下，詴題長度各為 40 題，定錨題為 10%，詴題型態為混合詴題，分為 2 元計分及 5 元計分，定錨題為 2 元計分，作答情形皆服從部分得分模式，各群體人數皆設定為 500 人。由作者自行撰寫 Matlab 程式產生相關模擬資料後，將產生的模擬資料以 ACER Conquest 2.0 軟體進行跨群體的同時估計法進行詴題及能力參數的估計，並分析其結果。本研究在「水平等化」和「垂直等化」這兩種情境下，各自操弄三個獨立變項，這三個獨立變項分別為（1）群體數、（2）詴題類型、（3）定錨題具差異詴題功能之題數，其操弄情形如下：一、群體數以往常將兩群體受詴者做等化進行比較，但隨著等化廣泛的使用，欲等化之群體未必僅有兩組，例如：欲將一年進行多次之托福考詴進行等化、將國小一年

(21)

6 年，為了貼近現實，選擇操弄群體數為 3 群及 6 群，每群體人數皆為 500 人。本研究在水平等化時受詴者之能力分配，各群體的能力分配要相當，故設定各群體之能力分配為平均數為 0、標準差為 1 的常態分配，而在垂直等化時，各群體的能力分配不需相當，在考慮整體能力分配之平衡下，當群體數為三群之情況下，受詴者之能力分配分別為平均數為-0.5、平均數為 0 和平均數為 0.5，標準差皆為 1 的常態分配；群體數為六群的情況下，受詴者之能力分配分別為平均數為-1、平均數為-0.6、平均數為-0.2、平均數為 0.2、平均數為 0.6 和平均數為 1，標準差皆為 1 的常態分配。二、詴題類型本研究之詴題為混合詴題，詴題模型採用 Rasch 模式與 PCM 模式，分為 2 元詴題為 Rasch 模式及 5 元計分之多元詴題為 PCM 模式，如同第二章所述，當 PCM 階難度為 1，也就是 2 元計分時，即為 Rasch 模式。在詴題長度 40 題時，有三種題本，分別為 10 題 2 元計分和 30 題 5 元計分（以 10/30 表示之）、20 題 2 元計分和 20 題 5 元計分（以 20/20 表示之）及 30 題 2 元計分和 10 題 5 元計分（以 30/10 表示之）。

在詴題難度方面，本研究參考一些文獻（Kang, Cohen & Sung, 2009; Kim & Cohen, 1998; Kim & Lee, 2006; 陳雁芳, 2006; 蔡良庭與施懿珊, 2005）中之詴題參數，並依研究需求做了些微調整，詴題參數不論是 2 元計分詴題或是 5 元計分詴題皆配合受詴者能力分配，將詴題之平均難度調整與能力分配之平均數相同，例如受詴者能力分配為平均數為 0.5、標準差為 1 的常態分配，則其 MC 詴題和 CR 詴題之詴題平均難度皆為 0.5，5 元計分之詴題還需滿足階難度有次序排列之關係，也就是無逆序之情況發生，以確保詴題之品質，各題本完整之詴題參數請參閱附錄。三、定錨題具 DIF 之題數在定錨題中具差異詴題功能之詴題為 0、1 及 2 題。也就是說在每群體之詴

(22)

題長度各為 40 題，定錨題為 10%，就是定錨題為 4 題之情況下，具 DIF 之定錨題比例為 0%、25%及 50%，而具 DIF 之定錨題其 DIF 量服從 N(0.6,0.12 )，這是為了符合真實情況中每一道具 DIF 的詴題其 DIF 量並不會都一樣，而因為定錨題皆為 2 元計分詴題，因此具 DIF 之詴題為對兩群受詴者在難度上之差異，關於具 DIF 之定錨題其 DIF 量之數據請參閱附錄。在水平等化之情境下，本研究有 18（=2*3*3）個研究細格，同樣地，在垂直等化的情境下也有 18 個研究細格，因此本研究總計有 36 個研究細格，每個細格皆進行 100 次的重複實驗（replications），因為以往文獻（Kim & Cohen, 1998; Kim & Kolen, 2006; Kim & Lee, 2006; 陳雁芳, 2006; 蔡良庭與施懿珊, 2005）常以 100 次做為重複實驗之次數。

第三節資料分析

當產生的模擬資料使用同時估計法進行等化估計後，我們可透過一些指標進行分析比較不同情境之等化，其估計值與真值之誤差大小。以往的研究中（Chu & Kamata, 2007; Hanson & Béguin, 2002; Kim & Cohen, 1998; Paek & Young, 2005）常使用偏誤（bias）或均方根誤差（root mean square error，簡稱 RMSE）做為估計精確度之指標，本研究除了延用先前研究者使用的 bias 和 RMSE 做為指標外，另增加相關係數（correlation coefficient）及排名差異（rank difference）做為參考，且因等化後無非是想比較不同題本間受詴者的能力，因此本研究僅關心等化後對能力參數之影響，在資料分析只進行能力參數之分析。

壹、能力參數估計值的偏誤

偏誤的功用是用來觀察估計值對於真值高低估的情形，Bias 越靠近 0 越好。在本研究中能力參數之偏誤定義如下：

(23)



   n i i i n Bias 1 ) ( 1 ) (   （4） 其中，n 為受詴者人數；_i為第 i 位受詴者的能力真值；_i為第 i 位受詴者的能力 估計值。

貳、能力參數估計值的均方根誤差

均方根誤差是用來觀察真值與估計值間誤差之大小情形，RMSE 值越小越好，代表估計之精準度越高。在本研究中能力參數之均方根誤差定義如下：



   n i i i n RMSE 1 2 ) ( 1 ) (   （5） 其中，n 為受詴者人數；_i為第 i 位受詴者的能力真值；_i為第 i 位受詴者的能力 估計值。

叁、能力參數的相關

與 RMSE 相比，相關係數較容易讓人接受與熟悉，因此本研究選用相關係數做為資料分析其中一個指標，做為參考。相關之功用是觀察能力真值與能力估計值其關係程度的大小，其值若越靠近 1 則正相關程度越高，本研究使用的是皮爾森相關，對於能力參數的相關定義如下：                       ) ( ) ( E r （6） 其中，E 為期望值；為受詴者之能力真值；_為受詴者能力真值之平均數；_ 為受詴者能力真值之標準差； 為受詴者之能力估計值；__{為受詴者之能力估計} 值之平均數；__{為受詴者之能力估計值之標準差。}

(24)

肆、能力參數的排名差異

由於臺灣通常將成就測驗成績進行排名，做為能力高低之比較，且直接說明 RMSE 之大小對多數人而言較無法感受差距大小之意義，因此本研究增加觀察能力真值與估計值之排名差異，欲觀察等化後對於排名有何影響，在何種條件下排名差異會明顯增大，用以說明當 RMSE 增加時，排名差異增加多少。排名差異之功用是欲觀察所有受詴者能力真值之排名與能力估計值之排名差異大小，排名差異越小越好。在本研究中能力參數之排名差異定義如下： n 2 1 i Rank Rank RD i i  ,  , ...  _ _ _（7）其中， i Rank__{為第 i 位受詴者能力估計值之排名；} i Rank_ 為第 i 位受詴者能力真值 之排名；n 為受詴者人數。

第四節軟體介紹

本研究使用的估計軟體為ACER Conquest 2.0（Wu, Adams, Wilson, & Haldane, 2007），PISA（Programme for International Student Assessment）也使用此軟體進行參數估計。ACER Conquest 2.0軟體適用在Rasch家族之詴題反應模式上，包含 Rasch模式、評定量尺模式（rating scale model, RSM）、部分得分模式等是常見的 Rasch家族之模式，在詴題參數估計的方法是使用邊際最大概似法（ marginal maximum likelihood estimation, MMLE）來估計參數，而估計能力之方法有期望後驗法（Expected A Posteriori, EAP）、潛在法（latent）、最大概似法（maximum likelihood estimation, MLE）及加權概似法（weighted likelihood estimation, WLE）這四種方法。此外，本研究使用估計能力的方法為 EAP法，這是由於 EAP法的 RMSE較小（Bock & Mislevy, 1982; Weiss & Mcbride, 1984）。

(25)

第四章研究結果與討論

第一節水平等化之估計結果

本研究之水平等化研究結果呈現在表 2 至表 9 中，分別顯示水平等化各情境下能力參數的 bais、RMSE、相關及排名差異之情形，以下將分別對於上述四種數據進行說明。

壹、能力參數之 Bias

Bias 之功用為觀察估計值對於真值高低估的情形，Bias 若越靠近 0 越好。表 2 之數據為在群體數為 3 時之水平等化下，各情境能力參數之 Bias 的平均數與標準差，其結果顯示全體 Bias 之平均數在-0.01~0.01 之間，標準差在 0.02~0.05 之間，不論何種詴題類型下 Bias 之平均數皆與 0.00 相去不遠，且隨著定錨題具 DIF 題數之增加，Bias 之平均數並無明顯增加或減少之趨勢，Bias 之標準差為定錨題無 DIF 題時較小，顯示定錨題有 DIF 題時結果較不穩定。在各個群體的部分， Bias 之平均數在-0.07~0.10 之間，大致上有隨著定錨題具 DIF 題數之增加而增加之趨勢，Bias 之標準差介在 0.03~0.08 間，大致上為定錨題有 DIF 詴題的標準差較大。表 3 之數據為在群體數為 6 時之水平等化下，各情境能力參數之 Bias 的平均數與標準差，其結果顯示全體不論在何種詴題類型下，隨著定錨題具 DIF 題數之增加，Bias 之平均數皆極接近 0.00，而 Bias 之標準差介於 0.02~0.04 間，較無明顯增加或減少之趨勢。在各個群體的部分，Bias 之平均數介於-0.11~0.10 之間，隨著定錨題 DIF 數之增加，Bias 之平均數大致上亦隨之增加；Bias 之標準差介在 0.03~0.07 間，大致上為定錨題具 DIF 詴題的標準差較定錨題無 DIF 詴題的為大。

(26)

表 2 群體數為 3 時之水平等化下，各情境能力參數之 Bias 的平均數與標準差

詴題類型定錨題 DIF 數

全體 G1 G2 G3 mean std mean std mean std mean std

10/30 0 0.01 0.04 ＜0.01 0.05 0.01 0.05 0.01 0.08 1 0.01 0.05 0.04 0.06 ＜0.01 0.05 ＜0.01 0.08 2 ＜0.01 0.05 0.10 0.06 -0.02 0.06 -0.06 0.07 20/20 0 ＜0.00 0.03 ＜0.01 0.04 -0.01 0.04 -0.01 0.06 1 ＜0.01 0.03 0.04 0.05 ＜0.00 0.04 -0.03 0.05 2 ＜0.01 0.03 0.09 0.05 -0.02 0.04 -0.06 0.05 30/10 0 ＜0.00 0.02 ＜0.01 0.04 0.01 0.04 ＜0.00 0.03 1 -0.01 0.03 0.03 0.04 -0.01 0.04 -0.04 0.04 2 ＜0.00 0.02 0.09 0.04 -0.02 0.03 -0.07 0.04 表 3 群體數為 6 時之水平等化下，各情境能力參數之 Bias 的平均數與標準差詴題類型定錨題 DIF 數全體 G1 G2 G3 G4 G5 G6

mean std mean std mean std mean std mean std mean std mean std

10/30 0 ＜0.01 0.03 -0.01 0.06 ＜0.00 0.06 0.01 0.06 0.01 0.06 0.01 0.06 -0.01 0.06 1 ＜0.01 0.03 0.02 0.07 -0.05 0.06 0.01 0.06 0.07 0.06 0.01 0.06 -0.04 0.06 2 ＜0.01 0.04 0.09 0.06 -0.04 0.05 -0.02 0.06 0.08 0.07 ＜0.00 0.07 -0.10 0.07 20/20 0 ＜0.00 0.03 ＜0.00 0.05 ＜0.01 0.05 ＜0.01 0.05 ＜0.00 0.05 ＜0.00 0.05 ＜0.00 0.05 1 ＜0.00 0.02 0.04 0.05 0.01 0.04 ＜0.01 0.05 0.01 0.04 -0.02 0.04 -0.05 0.06 2 ＜0.01 0.02 0.10 0.04 -0.01 0.04 0.01 0.05 0.02 0.04 -0.01 0.04 -0.11 0.05 30/10 0 ＜0.00 0.02 ＜0.00 0.04 ＜0.01 0.03 ＜0.00 0.04 ＜0.00 0.04 0.01 0.04 ＜0.00 0.04 1 ＜0.01 0.02 0.04 0.04 ＜0.01 0.04 -0.01 0.04 0.01 0.04 ＜0.01 0.04 -0.05 0.04 2 ＜0.00 0.02 0.10 0.05 ＜0.00 0.03 ＜0.01 0.04 ＜0.01 0.04 ＜0.00 0.04 -0.10 0.04 比較表 2 與表 3 之結果顯示水平等化下群體數為 3 與 6 之全體 Bias 皆與 0.00 相近，顯示等化結果不錯，尤其是群體數為 6 之全體結果與 0.00 更為接近，且標準差亦較群體數為 3 的標準差小，顯示在水平等化下，各群體人數皆相同時，群體數較多之情況其結果較為穩定；而各群體之 Bias 之結果與佘貞儀等人（2010）

(27)

加，Bias 之標準差大致上為定錨題具 DIF 詴題的較定錨題無 DIF 詴題的為大，且隨著定錨題具 DIF 題數的增加而增加之趨勢。

貳、能力參數之 RMSE

如第三章所述，均方根誤差（也就是 RMSE）為本研究估計精確度之指標，用來觀察真值與估計值間誤差之大小情形，若 RMSE 越小，代表精確度越高。表 4 之數據為在群組數為 3 時之水平等化下，各情境能力參數之 RMSE 的平均數與標準差，全體 RMSE 之平均數介於 0.21~0.28 間，標準差皆為 0.01，各群體 RMSE 之平均數介於 0.21~0.29 之間，標準差介於 0.01~0.03 間。全體與各群體之結果皆相同，皆為詴題類型為 10/30 之 RMSE＜20/20 之 RMSE＜30/10 之 RMSE，且 RMSE 隨著定錨題具 DIF 題數之增加而增加。

表 4 群組數為 3 時之水平等化下，各情境能力參數之 RMSE 的平均數與標準差

詴題類型定錨題 DIF 數

全體 G1 G2 G3 mean std mean std mean std mean std 10/30 0 0.21 0.01 0.22 0.01 0.21 0.01 0.21 0.02 1 0.21 0.01 0.22 0.02 0.21 0.01 0.21 0.02 2 0.22 0.01 0.24 0.03 0.21 0.02 0.22 0.02 20/20 0 0.24 0.01 0.25 0.01 0.23 0.01 0.23 0.01 1 0.24 0.01 0.25 0.01 0.23 0.01 0.23 0.01 2 0.25 0.01 0.26 0.02 0.23 0.01 0.24 0.01 30/10 0 0.27 0.01 0.28 0.01 0.27 0.01 0.27 0.01 1 0.28 0.01 0.28 0.01 0.27 0.01 0.28 0.01 2 0.28 0.01 0.29 0.02 0.27 0.01 0.28 0.01 表 5 之數據為在群組數為 6 時之水平等化下，各情境能力參數之 RMSE 的平均數與標準差，全體 RMSE 之平均數介於 0.21~0.28 間，標準差介於 0.00~0.01 間，各群體 RMSE 之平均數介於 0.21~0.30 之間，標準差介於 0.01~0.03 間。

(28)

表 5 之結果與表 4 相同，亦為詴題類型為 10/30 之 RMSE 最小，其次為 20/20，最後是 30/10 之 RMSE 最大，且隨著定錨題具 DIF 題數之增加，RMSE 亦隨之增加，顯示在相同題長的情況下，多分題越多之測驗其能力估計值會越精確，而具 DIF 之定錨題數的增加會影響估計之精準度，使能力估計變得較不精確。進一步比較表 4 與表 5 之結果可發現其全體 RMSE 之平均數幾乎相同，但表 5 之標準差較小一些，顯示在水平等化下，各群體人數皆相同時，群體數較多之情境其等化之精確度會較穩定。表 5 群組數為 6 時之水平等化下，各情境能力參數之 RMSE 的平均數與標準差詴題類型定錨題 DIF 數全體 G1 G2 G3 G4 G5 G6 mea

n std mean std mean std mean std mean std mean std mean std

10/30 0 0.21 0.01 0.22 0.01 0.21 0.01 0.21 0.02 0.21 0.02 0.21 0.01 0.21 0.01 1 0.21 0.01 0.22 0.02 0.21 0.02 0.21 0.02 0.22 0.02 0.21 0.01 0.21 0.02 2 0.22 0.01 0.23 0.02 0.21 0.01 0.21 0.01 0.22 0.03 0.21 0.01 0.23 0.03 20/20 0 0.23 ＜0.01 0.25 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 1 0.24 0.01 0.25 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.24 0.02 2 0.24 0.01 0.26 0.02 0.23 0.01 0.23 0.01 0.23 0.01 0.23 0.01 0.26 0.02 30/10 0 0.27 ＜0.01 0.28 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.28 0.01 1 0.28 ＜0.01 0.28 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.28 0.01 2 0.28 0.01 0.30 0.02 0.27 0.01 0.27 0.01 0.27 0.01 0.27 0.01 0.29 0.02

叁、能力參數之相關係數

表 6 及表 7 之數據分別為在群體數為 3 及 6 時之水平等化下，各情境能力參數真值與估計值之相關係數，相關係數是觀察能力真值與能力估計值關係程度的大小，若其值越靠近 1 則正相關程度越高。表 6 全體與各群體之相關係數皆介於 0.95~0.98 之間，在詴題類型 10/30 之情境下，全體最小之相關係數會隨著定錨題

(29)

著定錨題具 DIF 題數之增加，由 0.98 下降至 0.97，30/10 之情境則是全體最小之相關係數隨著定錨題具 DIF 題數之增加，由 0.96 下降至 0.95，表中數據顯示不論是何種詴題類型皆會隨著定錨題具 DIF 題數之增加使得相關下降，且在定錨題無 DIF 題數時，比較三種詴題類型可發現有 10/30 之相關係數＞20/20 之相關係數＞ 30/10 之相關係數之趨勢，此與群體數為三時之 RMSE 結果相符，10/30 之相關係數最大而 RMSE 最小。表 6 群組數為 3 時之水平等化下，各情境能力參數真值與估計值之相關係數詴題類型定錨題 DIF 數全體 G1 G2 G3 Max Min Max Min Max Min Max Min 10/30 0 0.98 0.97 0.98 0.97 0.98 0.98 0.98 0.97 1 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.98 2 0.98 0.96 0.98 0.97 0.98 0.98 0.98 0.97 20/20 0 0.98 0.97 0.98 0.96 0.98 0.97 0.98 0.97 1 0.98 0.97 0.98 0.96 0.98 0.97 0.98 0.97 2 0.97 0.97 0.98 0.96 0.98 0.97 0.98 0.97 30/10 0 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.95 1 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.95 2 0.97 0.95 0.97 0.95 0.97 0.95 0.97 0.95 表 7 之數據顯示全體相關係數介於 0.96~0.98 之間，各群體之相關係數介於 0.95~0.98 之間，在詴題類型 10/30 之情境下，全體最小之相關係數會隨著定錨題具 DIF 題數之增加，由 0.98 下降至 0.97；20/20 之情境相關係數皆為 0.97，無明顯變化，30/10 之情境則是全體最小之相關係數隨著定錨題具 DIF 題數之增加，由 0.97 下降至 0.96，表中數據顯示不論是何種詴題類型，全體與各群體之相關係數皆有隨著定錨題具 DIF 題數之增加使得相關下降之趨勢，且相關係數仍是 10/30 之相關係數最大，其次是 20/20，最後是 30/10，此部份結果亦與群體數為 6 時之

(30)

RMSE 結果相符。比較表 6 與表 7 之結果，在群體數為 6 時，其全體相關係數稍微較群體數為 3 時來得大，顯示在水平等化下且各群體人數相同時，群體數較多之情境其相關係數較大；不論是群體數 3 或 6 之情境，在定錨題無 DIF 題數之相關係數皆為詴題類型 10/30 最大，其次 20/20，最後為 30/10，且相關係數會隨著定錨題具 DIF 題數之增加而減少，顯示詴題類型及定錨題具 DIF 題數的確會影響估計結果，詴題類型為 10/30 且定錨題無 DIF 題數之相關係數為最大。表 7 群組數為 6 時之水平等化下，各情境能力參數真值與估計值之相關係數詴題類型定錨題 DIF 數全體 G1 G2 G3 G4 G5 G6 Max Min Max Min Max Min Max Min Max Min Max Min Max Min

10/30 0 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98 1 0.98 0.97 0.98 0.97 0.98 0.98 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98 2 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.98 20/20 0 0.97 0.97 0.98 0.96 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 1 0.97 0.97 0.98 0.96 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 2 0.97 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 30/10 0 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.96 0.97 0.95 0.97 0.96 0.97 0.96 1 0.97 0.96 0.97 0.96 0.97 0.95 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.95 2 0.96 0.96 0.97 0.95 0.97 0.96 0.97 0.96 0.97 0.95 0.97 0.96 0.97 0.95

肆、能力參數之排名差異

如同第三章所述，排名差異是觀察受詴者能力真值之排名與能力估計值之排名差異大小，排名差異越小越好，代表等化後之能力值之估計結果排名與真值排名相近。表 8 與表 9 所呈現之結果分別為群組數為 3 時與群組數為 6 時之水平等化下，各情境能力參數真值與估計值之排名差異，表中 Max 此項數值為能力參數

(31)

差異之四分差，G1、G2 與 G3 之 Max 及 IQR 計算方法為僅該群體能力值排名之差異，表中無列出 Min 此項數值，也就是不列出能力參數真值與估計值之排名之絕對值差異最小值，這是因為各項之絕對值差異最小值皆為 0，故不呈現在表中。表 8 群組數為 3 時之水平等化下，各情境能力參數真值與估計值之排名差異詴題類型定錨題 DIF 數全體 G1 G2 G3 Max IQR Max IQR Max IQR Max IQR 10/30 0 502 104 151 35 147 34 159 32 1 485 104 167 36 145 34 166 32 2 526 109 176 36 139 34 161 32 20/20 0 545 118 160 41 179 38 157 38 1 616 118 218 40 168 38 167 38 2 589 122 180 41 158 38 164 38 30/10 0 652 138 215 46 180 46 211 46 1 614 138 207 46 201 46 191 46 2 654 141 219 46 198 44 197 46 *Max 為能力參數真值與估計值之排名之絕對值差異最大值 *IQR 為能力參數真值與估計值之排名差異之四分差表 8 之數據顯示全體排名差異 Max 值介於 485~654 之間，IQR 值介於 104~141 之間，觀察不同詴題類型，其數據顯示不論是 Max 值與 IQR 值皆為 10/30＜20/20 ＜30/10，在定錨題 DIF 題數之部分，Max 值對於 DIF 題數之增加無明顯趨勢，但可發現無 DIF 題數時 Max 值會較小，而 IQR 值有隨著 DIF 題數之增加而增加之趨勢；各群體排名差異 Max 值介於 139~219 之間，IQR 值介於 32~46 之間，各群體 Max 值與 IQR 值與全體結果相同，皆為 10/30＜20/20＜30/10，而隨著定錨題 DIF 題數之增加，Max 值與 IQR 值比起全體結果更無明顯趨勢。

表 9 之數據顯示全體排名差異 Max 值介於 952~1456 間，IQR 值介於 205~281 間，Max 值與 IQR 值有 10/30 最小，其次 20/20，最後為 30/10 之趨勢，且 Max

(32)

值稍有隨著定錨題 DIF 題數之增加而增加之趨勢，IQR 值明顯有隨著定錨題 DIF 題數之增加而增加；各群體排名差異 Max 值介於 132~238 之間，IQR 值介於 32~47 間，詴題類型 10/30Max 值＜20/20 Max 值＜30/10 Max 值，且 IQR 值結果亦相同，而 Max 值與 IQR 值隨著定錨題 DIF 題數之增加並無明顯趨勢。

比較表 8 及表 9 之結果，在全體之部分，群體數為 3 與 6 其 Max 值與 IQR 值皆為詴題類型 10/30＜20/20＜30/10，且 IQR 值隨著定錨題 DIF 題數之增加而增加，Max 值則是群體數為 6 表現較佳，較有隨著定錨題 DIF 題數之增加而增加之趨勢；在各群體之部分，群體數為 3 之 Max 值與 IQR 值皆較群體數為 6 集中，詴題類型之結果亦為 10/30＜20/20＜30/10，Max 值與 IQR 值隨著定錨題 DIF 題數之增加皆無明顯趨勢。綜合上述，顯示多分題越多之詴題類型，其估計值排名與真值排名之差異較小，對於等化後影響排名之順序較小，且在各群體人數相同之水平等化下，群體數越多其 Max 值與 IQR 值表現較佳，趨勢較為明顯。表 9 群組數為 6 時之水平等化下，各情境能力參數真值與估計值之排名差異詴題類型定錨題 DIF 數全體 G1 G2 G3 G4 G5 G6

Max IQR Max IQR Max IQR Max IQR Max IQR Max IQR Max IQR

10/30 0 1001 205 172 35 154 34 139 32 159 32 144 32 151 34 1 1103 209 174 35 155 34 139 32 162 32 149 32 151 34 2 952 217 164 34 148 34 152 33 132 33 145 32 140 34 20/20 0 1066 232 174 40 175 38 157 38 162 38 166 38 168 38 1 1074 233 167 40 161 38 172 38 169 38 152 38 162 38 2 1141 240 183 40 157 38 164 38 175 38 170 38 168 38 30/10 0 1318 274 207 47 219 45 176 45 187 46 240 46 190 46 1 1271 275 200 46 193 45 188 44 220 45 183 46 204 46 2 1456 281 222 46 238 45 207 46 216 46 197 46 211 46 *Max 為能力參數真值與估計值之排名之絕對值差異最大值 *IQR 為能力參數真值與估計值之排名差異之四分差

(33)

圖 2 與圖 3 分別為群組數為 3 與 6 時之水平等化下，各情境能力參數之排名差異之箱形圖，圖中 10/30-0 代表詴題類型 10/30 定錨題 DIF 題數為 0 之情境，其他符號以此類推。由箱形圖可見得群體數為 3 時，其 IQR 會隨著二分詴題之增加而增加，且排名之差距也越不集中，在相同詴題類型下定錨題具 DIF 題數之增加，IQR 值較看不出明顯變化；群體數為 6 時之結果與群組數為 3 雷同。

(34)

圖 2 群組數為 3 時之水平等化下，各情境能力參數之排名差異之箱形圖

(35)

第二節垂直等化之估計結果

本節為討論垂直等化之結果，其研究結果之數據呈現於表 10 至表 17 中，分別顯示垂直等化各情境下能力參數的 bais、RMSE、相關及排名差異之情形，以下將分別對於上述四種數據進行說明。

壹、能力參數之 Bias

表 10 之數據為在群體數為 3 時之垂直等化下，各情境能力參數之 Bias 的平均數與標準差，其結果顯示全體 Bias 之平均數在 0.00 附近，標準差在 0.01~0.05 之間，不論何種詴題類型下 Bias 之平均數皆與 0.00 相去不遠，且隨著定錨題具 DIF 題數之增加，Bias 之平均數與標準差並無明顯增加或減少之趨勢，但標準差有詴題類型 20/20＜30/10＜10/30 之趨勢。在各個群體的部分，Bias 之平均數在 -0.42~0.35 之間，大致上有隨著定錨題具 DIF 題數之增加而增加之趨勢，Bias 之標準差介在 0.04~0.09 間，無明顯增加或減少之趨勢。表 10 群組數為 3 時之垂直等化下，各情境能力參數之 Bias 的平均數與標準差詴題類型定錨題 DIF 數全體 G1 G2 G3

mean std mean std mean std mean std 10/30 0 0.01 0.05 0.01 0.08 0.01 0.06 ＜0.01 0.07 1 ＜0.00 0.05 0.12 0.08 -0.03 0.07 -0.09 0.08 2 ＜0.01 0.05 0.32 0.07 -0.04 0.07 -0.28 0.08 20/20 0 ＜0.00 0.03 -0.01 0.07 ＜0.00 0.04 ＜0.01 0.07 1 ＜0.00 0.01 0.15 0.08 0.19 0.05 -0.35 0.09 2 ＜0.01 0.01 0.35 0.07 0.08 0.05 -0.42 0.08 30/10 0 ＜0.01 0.03 -0.01 0.07 0.01 0.04 0.00 0.07 1 ＜0.01 0.03 0.14 0.06 ＜0.01 0.05 -0.14 0.07 2 ＜0.00 0.02 0.34 0.06 -0.03 0.04 -0.31 0.07

(36)

表 11 之數據為在群體數為 6 時之水平等化下，各情境能力參數之 Bias 的平均數與標準差，其結果顯示全體不論在何種詴題類型下，隨著定錨題具 DIF 題數之增加，Bias 之平均數與 0.00 相近，而 Bias 之標準差介於 0.02~0.04 間，較無明顯隨著定錨題具 DIF 題數之增加而增加或減少之趨勢，但有詴題類型 30/10＜ 20/20＜10/30 之趨勢。在各個群體的部分，Bias 之平均數介於-0.83~0.77 之間，隨著定錨題 DIF數之增加，Bias 之平均數亦隨之增加；Bias 之標準差介在 0.06~0.11 間，無明顯增加或減少之趨勢。比較表 10 與表 11 之結果顯示垂直等化下群體數為 3 與 6 之全體 Bias 皆與 0.00 相近，顯示等化結果不錯，尤其是群體數為 6 之結果 Bias 皆為 0.00，且標準差稍為較群體數為 3 之標準差小，顯示在垂直等化下，各群體人數皆相同時，群體數較多之情況其結果較為穩定。群體數為 3 與 6 全體 Bias 之標準差結果不相同，群體數為 6 時，多分詴題越少標準差越小，群體數為 3 時，卻是二分詴題與多分詴題數相同時，標準差最小；各群體之 Bias 之結果皆為 Bias 之平均數隨定錨題具 DIF 題數之增加而增加，Bias 之標準差皆無明顯增加或減少之趨勢。表 11 群組數為 6 時之垂直等化下，各情境能力參數之 Bias 的平均數與標準差詴題類型定錨題 DIF 數全體 G1 G2 G3 G4 G5 G6

10/30 0 ＜0.00 0.03 0.03 0.11 0.03 0.09 0.02 0.07 -0.01 0.06 -0.03 0.08 -0.04 0.11 1 ＜0.00 0.03 0.36 0.11 0.27 0.08 0.10 0.07 -0.04 0.06 -0.25 0.08 -0.44 0.11 2 ＜0.00 0.04 0.71 0.10 0.48 0.07 0.21 0.07 -0.10 0.07 -0.50 0.08 -0.80 0.10 20/20 0 ＜0.00 0.03 0.02 0.10 0.02 0.08 0.01 0.07 -0.01 0.07 -0.02 0.07 -0.03 0.09 1 ＜0.01 0.03 0.33 0.10 0.20 0.07 0.08 0.07 -0.02 0.06 -0.20 0.07 -0.39 0.09 2 ＜0.00 0.03 0.72 0.10 0.44 0.07 0.15 0.07 -0.08 0.06 -0.42 0.07 -0.81 0.10 30/10 0 ＜0.01 0.02 0.02 0.10 0.02 0.08 ＜0.01 0.06 -0.01 0.06 -0.01 0.08 -0.01 0.10 1 ＜0.00 0.02 0.33 0.10 0.20 0.08 0.07 0.06 -0.01 0.06 -0.19 0.08 -0.39 0.11

(37)

貳、能力參數之 RMSE

表 12 之數據為在群組數為 3 時之垂直等化下，各情境能力參數之 RMSE 的平均數與標準差，全體 RMSE 之平均數介於 0.21~0.40 間，標準差介於 0.01~0.05 之間，各群體 RMSE 之平均數介於 0.21~0.48 之間，標準差介於 0.01~0.07 間。全體與各群體之結果大致相同，皆為 RMSE 隨著定錨題具 DIF 題數之增加而增加，在定錨題無 DIF 詴題之情況才有詴題類型為 10/30 之 RMSE＜20/20 之 RMSE＜ 30/10 之 RMSE，若定錨題有 DIF 詴題時便無此趨勢，而為 10/30＜30/10＜20/20，僅有在 G1 情境才符合 RMSE 隨著定錨題具 DIF 題數之增加而增加，且詴題類型 10/30 之 RMSE＜20/20 之 RMSE＜30/10 之 RMSE。

表 13 之數據為在群組數為 6 時之垂直等化下，各情境能力參數之 RMSE 的平均數與標準差，全體 RMSE 之平均數介於 0.22~0.60 間，標準差介於 0.01~0.06 間，平均數與標準差皆隨著定錨題 DIF 題數增加而增加，在定錨題無 DIF 詴題時， RMSE 為詴題類型 10/30＜20/20＜30/10，但在定錨題有 DIF 詴題時，RMSE 卻是詴題類型 20/20＜10/30＜30/10；各群體 RMSE 之平均數介於 0.21~0.87 之間，標準差介於 0.01~0.10 間，與全體結果相同，各群體平均數與標準差亦隨著定錨題 DIF 題數增加而增加，在詴題類型部分，僅有 G1 與 G4 此兩群體之 RMSE 有 10/30 ＜20/20＜30/10 之現象。比較表 12 與表 13 之結果，群體數為 3 與為 6 皆隨著定錨題具 DIF 題數之增加，RMSE 之平均數隨之增加，群體數為 6 時 RMSE 之標準差亦隨之增加，且群體數為 6 時其 RMSE 之平均數與標準差皆較群體數為 3 時來得大，顯示在垂直等化時，各群體人數相同但群體數越多時估計越不精確，且定錨題有 DIF 詴題更使情況惡化，不僅估計越不精確亦越不穩定。在定錨題無 DIF 詴題之情況，群體數 3 與 6 結果皆為 RMSE 為詴題類型 10/30＜20/20＜30/10，當有 DIF 詴題時結果便不一致，此狀況顯示相同題長且定錨題無 DIF 時，多分題越多之詴題類型其估計

(38)

會越精確，但當定錨題有 DIF 時情況變不穩定，並無多分題越多估計越精確之情況。表 12 群組數為 3 之垂直等化下，各情境能力參數之 RMSE 的平均數與標準差詴題類型定錨題 DIF 數全體 G1 G2 G3

mean std mean std mean std mean std 10/30 0 0.21 0.01 0.21 0.02 0.21 0.01 0.21 0.02 1 0.23 0.02 0.24 0.04 0.21 0.02 0.23 0.03 2 0.33 0.03 0.38 0.06 0.21 0.02 0.35 0.06 20/20 0 0.24 0.01 0.25 0.02 0.23 0.01 0.24 0.02 1 0.34 0.05 0.28 0.05 0.30 0.03 0.42 0.07 2 0.40 0.05 0.42 0.06 0.25 0.02 0.48 0.07 30/10 0 0.28 0.01 0.28 0.01 0.27 0.01 0.27 0.01 1 0.30 0.02 0.31 0.03 0.28 0.01 0.31 0.03 2 0.38 0.03 0.43 0.05 0.27 0.01 0.41 0.05 表 13 群組數為 6 之垂直等化下，各情境能力參數之 RMSE 的平均數與標準差詴題類型定錨題 DIF 數全體 G1 G2 G3 G4 G5 G6

10/30 0 0.22 0.02 0.23 0.04 0.22 0.03 0.21 0.02 0.21 0.01 0.22 0.02 0.23 0.04 1 0.35 0.06 0.41 0.10 0.34 0.07 0.23 0.03 0.21 0.02 0.32 0.06 0.49 0.10 2 0.57 0.05 0.73 0.10 0.52 0.07 0.29 0.05 0.23 0.03 0.54 0.07 0.83 0.10 20/20 0 0.24 0.01 0.25 0.03 0.24 0.02 0.23 0.01 0.24 0.01 0.24 0.02 0.24 0.02 1 0.34 0.04 0.41 0.08 0.31 0.04 0.25 0.02 0.24 0.01 0.30 0.04 0.45 0.08 2 0.56 0.05 0.76 0.09 0.50 0.07 0.28 0.04 0.25 0.02 0.48 0.06 0.84 0.10 30/10 0 0.28 0.01 0.29 0.02 0.28 0.02 0.27 0.01 0.27 0.01 0.28 0.02 0.29 0.03 1 0.37 0.04 0.43 0.08 0.34 0.05 0.28 0.02 0.27 0.01 0.33 0.05 0.48 0.09 2 0.60 0.05 0.82 0.08 0.51 0.06 0.31 0.03 0.29 0.02 0.50 0.06 0.87 0.09

(39)

叁、能力參數之相關係數

表 14 及表 15 之數據分別為在群體數為 3 及 6 時之垂直等化下，各情境能力參數真值與估計值之相關係數。表 14 全體相關係數介於 0.88~0.98 之間，各群體之相關係數介於 0.95~0.98 間，全體相關係數最大值與最小值皆隨著定錨題具 DIF 題數之增加而下降，尤其在 20/20-1 時其最小值驟降至 0.88，與 RMSE 結果相比較，其 RMSE 在 20/20-1 時有驟升之情況；在定錨題無 DIF 題數時相關係數為詴題類型 10/30＞20/20＞30/10，有 DIF 題數時則無一致現象，僅有詴題類型 10/30 不論在定錨題有無 DIF 詴題時其相關係數皆最大，此部分與 RMSE 結果亦同，詴題類型 10/30 不論在何種情況其 RMSE 皆最小。各群體相關係數無隨著定錨題具 DIF 題數之增加而下降，無一致之趨勢，但其相關係數皆為詴題類型 10/30＞20/20 ＞30/10。表 15 之數據顯示全體相關係數介於 0.78~0.99 之間，隨著定錨題具 DIF 題數之增加，相關係數隨之下降，且在定錨題無 DIF 題數時，相關係數為 10/30＞20/20 ＞30/10，有 DIF 題數時則為 20/20＞10/30＞30/10，此部分結果與 RMSE 結果相符；各群體之相關係數介於 0.95~0.99 之間，與全體結果相同，相關係數皆隨著定錨題具 DIF 題數之增加而下降，且相關係數大致上為 10/30＞20/20＞30/10 之趨勢。比較表 14 與表 15 之結果，在群體數為 6 時，其相關係數範圍較群體數為 3 時寬得多，且最小值下降之幅度也較快，顯示在垂直等化下且各群體人數相同時，群體數較多之情境其相關係數較低；不論是群體數 3 或 6 之情境，相關係數皆會隨著定錨題具 DIF 題數之增加而下降，尤其群體數為 6 時對 DIF 詴題很敏感，相關係數最小值下降地非常快；在定錨題無 DIF 詴題之相關係數，群體數 3 與 6 皆為詴題類型 10/30 最大，其次 20/20，最後為 30/10，而當定錨題有 DIF 詴題時，群體數為 3 是 10/30 最大，群體數為 6 則是 20/20 最大，兩者結果不一致，

(40)

顯示定錨題無 DIF 詴題時結果符合預期，在詴題長度相同下，多分題越多其能力真值與估計值之相關也會越高，但定錨題有 DIF 詴題時估計較不穩定，使得估計結果之變化較無一致性地趨勢，無法符合預期之結果。表 14 群組數為 3 時之垂直等化下，各情境能力參數真值與估計值之相關係數詴題類型定錨題 DIF 數全體 G1 G2 G3

Max Min Max Min Max Min Max Min 10/30 0 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98 1 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.98 2 0.97 0.94 0.98 0.98 0.98 0.98 0.98 0.98 20/20 0 0.98 0.97 0.98 0.96 0.98 0.97 0.98 0.97 1 0.97 0.88 0.98 0.97 0.98 0.97 0.98 0.97 2 0.97 0.88 0.98 0.97 0.98 0.97 0.98 0.97 30/10 0 0.97 0.96 0.97 0.95 0.97 0.95 0.97 0.95 1 0.97 0.95 0.97 0.95 0.97 0.96 0.97 0.95 2 0.96 0.88 0.97 0.96 0.97 0.96 0.97 0.96 表 15 群組數為 6 時之垂直等化下，各情境能力參數真值與估計值之相關係數詴題類型定錨題 DIF 數全體 G1 G2 G3 G4 G5 G6

Max Min Max Min Max Min Max Min Max Min Max Min Max Min

10/30 0 0.99 0.97 0.98 0.98 0.99 0.98 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98 1 0.98 0.91 0.98 0.98 0.99 0.98 0.98 0.98 0.98 0.97 0.98 0.98 0.98 0.98 2 0.93 0.82 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.98 0.98 20/20 0 0.98 0.98 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 1 0.98 0.93 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 2 0.94 0.81 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 0.98 0.97 30/10 0 0.98 0.96 0.97 0.95 0.97 0.96 0.97 0.96 0.97 0.96 0.97 0.96 0.97 0.95 1 0.97 0.91 0.97 0.95 0.97 0.95 0.97 0.96 0.97 0.96 0.97 0.96 0.97 0.95 2 0.92 0.78 0.97 0.95 0.97 0.95 0.97 0.96 0.97 0.96 0.97 0.96 0.97 0.95

(41)

肆、能力參數之排名差異

表 16 與表 17 所呈現之結果分別為群組數為 3 時與群組數為 6 時之垂直等化下，各情境能力參數真值與估計值之排名差異，表 16 之數據顯示全體排名差異 Max 值介於 425~700 之間，IQR 值介於 94~210 之間，觀察不同詴題類型，其數據顯示 Max 值除了定錨題 DIF 題數為 1 時，其餘情況皆為 10/30＜20/20＜30/10， IQR 值在定錨題無 DIF 詴題時為 10/30＜20/20＜30/10，若有 DIF 詴題時則為 10/30 ＜30/10＜20/20，在觀察定錨題 DIF 題數之部分，Max 值與 IQR 值皆會隨著定錨題 DIF 題數之增加而增加；各群體排名差異 Max 值介於 132~221 之間，IQR 值介於 32~46 之間，各群體 Max 值與 IQR 值大致上為詴題類型 10/30 最小，其次 20/20，最後 30/10 最大，但隨著定錨題 DIF 題數之增加，Max 值與 IQR 值無明顯之趨勢。

表 17 之數據顯示全體排名差異 Max 值介於 932~1746 間，IQR 值介於 171~577 間，Max 值與 IQR 值隨著定錨題 DIF 題數之增加而增加，且在詴題類型 10/30Max 值最小，其次 20/20，最後為 30/10，而 IQR 值僅在定錨題無 DIF 詴題時有 10/30 ＜20/20＜30/10 之趨勢；各群體排名差異 Max 值介於 134~239 之間，IQR 值介於 32~46 間，Max 值與 IQR 值僅在定錨題無 DIF 詴題時皆有詴題類型 10/30＜20/20 ＜30/10 之趨勢，且隨著定錨題 DIF 題數之增加並無明顯趨勢。

比較表 16 及表 17 之結果，在全體之部分，群體數為 3 與 6 其 Max 值與 IQR 值皆隨著定錨題 DIF 題數之增加而增加，且在定錨題無 DIF 詴題時值為詴題類型 10/30＜20/20＜30/10，其餘部分結果無一致性，此現象與 RMSE 相同，顯示在垂直等化定錨題有 DIF 詴題時對於詴題類型之影響無一致性；在各群體之部分，群體數為 3 與 6 其 Max 值與 IQR 值皆隨著定錨題 DIF 題數之增加並無明顯趨勢，群體數為 3 之 Max 值與 IQR 值詴題類型之結果大致為 10/30＜20/20＜30/10，結果較群體數為 6 明顯。綜合上述，顯示在定錨題無 DIF 詴題時，多分題越多之詴

(42)

題類型，其估計值排名與真值排名之差異較小，對於等化後影響排名之順序較小，且定錨題有 DIF 詴題時，確實會造成負面影響，使得估計值排名與真值排名之差異越大，但多分題越多之測驗不會因此減少影響。圖 4 與圖 5 分別為群組數為 3 與 6 時之垂直等化下，各情境能力參數之排名差異之箱形圖。由箱形圖可見得群體數為 3 時，僅在定錨題無 DIF 詴題時，其 IQR 會隨著二分詴題之增加而增加，且排名之差距也越不集中，在相同詴題類型下定錨題具 DIF 題數之增加，IQR 亦隨之增加；群體數為 6 時之結果，亦為僅在定錨題無 DIF 詴題時，其 IQR 會隨著二分詴題之增加而增加，且排名之差距也越不集中，在相同詴題類型下定錨題具 DIF 題數之增加，IQR 亦隨之增加。

(43)

表 16 群組數為 3 時之垂直等化下，各情境能力參數真值與估計值之排名差異

詴題類型定錨題

DIF 數

全體 G1 G2 G3

Max IQR Max IQR Max IQR Max IQR 10/30 0 425 94 156 34 163 34 147 32 1 511 103 161 32 159 34 156 32 2 581 163 156 34 132 32 151 32 20/20 0 524 108 162 39 176 38 169 38 1 661 172 176 39 150 38 159 36 2 690 210 165 40 172 38 163 38 30/10 0 555 126 192 44 193 46 209 44 1 631 137 192 46 221 45 207 44 2 700 186 197 46 178 44 209 45 *Max 為能力參數真值與估計值之排名之絕對值差異最大值 *IQR 為能力參數真值與估計值之排名差異之四分差表 17 群組數為 6 時之垂直等化下，各情境能力參數真值與估計值之排名差異詴題類型定錨題 DIF 數全體 G1 G2 G3 G4 G5 G6

Max IQR Max IQR Max IQR Max IQR Max IQR Max IQR Max IQR 10/ 30 0 932 171 141 32 145 32 135 32 171 32 136 32 134 32 1 1292 289 141 32 145 32 135 32 171 32 136 32 134 32 2 1523 577 142 33 140 32 141 32 157 32 143 32 141 32 20/ 20 0 966 191 176 38 164 36 170 38 173 38 173 36 163 38 1 1342 271 163 37 173 37 161 36 151 38 159 37 160 38 2 1628 529 181 38 168 37 171 37 165 38 159 36 166 36 30/ 10 0 1092 230 215 46 211 46 193 45 190 44 195 45 212 46 1 1428 295 198 46 223 46 174 44 185 44 239 45 202 44 2 1746 550 214 46 214 46 188 45 187 44 192 45 212 46 *Max 為能力參數真值與估計值之排名之絕對值差異最大值 *IQR 為能力參數真值與估計值之排名差異之四分差

(44)

具DIF之定錨題對多群體水平及垂直等化之影響研究

國立臺中教育大學教育測驗統計研究所理學碩士論文

指 導 教 授：施慶麟 博士

楊志堅 博士

具 DIF 之定錨題對多群體水平及垂直等

化之影響研究

研 究 生：佘貞儀 撰

中 華 民 國 一百 年 六 月

摘要

The effect of DIF anchor item on multiple groups

horizontal and vertical equating with concurrent

calibration

Abstract

目錄

表目錄

圖目錄

第一章 緒論

第一節 研究目的

第二節 名詞解釋

壹、混合詴題測驗

貳、測驗等化

叁、定錨題

肆、同時估計法

伍、差異詴題功能

第二章 文獻探討

第一節 混合題型測驗

第二節 詴題反應理論









第三節 等化之設計及方法

第四節 差異詴題功能

第三章 研究方法與設計

第一節 研究方法

第二節 研究設計

第三節 資料分析

壹、能力參數估計值的偏誤



貳、能力參數估計值的均方根誤差



叁、能力參數的相關

肆、能力參數的排名差異

第四節 軟體介紹

第四章 研究結果與討論

第一節 水平等化之估計結果

壹、能力參數之 Bias

貳、能力參數之 RMSE

叁、能力參數之相關係數

肆、能力參數之排名差異

第二節 垂直等化之估計結果

壹、能力參數之 Bias

貳、能力參數之 RMSE

叁、能力參數之相關係數

肆、能力參數之排名差異

指導教授：施慶麟博士

楊志堅博士

研究生：佘貞儀撰

中華民國一百年六月

第一章緒論

第一節研究目的

第二節名詞解釋

第二章文獻探討

第一節混合題型測驗

第二節詴題反應理論

第三節等化之設計及方法

第四節差異詴題功能

第三章研究方法與設計

第一節研究方法

第二節研究設計

第三節資料分析

第四節軟體介紹

第四章研究結果與討論

第一節水平等化之估計結果

第二節垂直等化之估計結果