研究方法與設計

本研究主要是欲探討混合題型測驗中，不同混合題型測驗之類型及定錨題具差異詴題功能之題數，對於以同時估計法進行多群體之水平及垂直等化之結果的影響為何，如：在群體數增加、定錨題具差異詴題功能之題數增加情況下，估計誤差是否會明顯變大；混合題型詴題是否與 Kim 與 Lee（2006）的發現一致，隨著多分詴題的題數增加，估計誤差會隨之增加。

第一節研究方法

文獻中常見之等化設計是透過定錨題來進行不同題本間參數之連結，若定錨題出現了DIF，想必會對於等化結果造成負面之影響，而目前傳統的做法是將DIF 與等化視為兩個分開的議題（Chu & Kamata, 2007），本研究即是將DIF與等化這兩個議題結合在一起討論。以往文獻在二分題測驗具DIF定錨題之等化研究上已有些許成果，蔡良庭與施懿珊（2005）之研究顯示不論是在一參數或三參數模式之兩群題垂直等化下，能力估計精準度隨著具 DIF之定錨題數的增加而誤差越大；Chu與Kamata（2007）之研究顯示，在Rasch模式兩群體垂直等化之情況下其能力估計之精準度會隨著具DIF之定錨題數的增加而下降，此兩篇研究皆發現隨著定錨題中DIF題數的增加，受詴者之能力估計也越不精確。

Kim與Lee（2006）提到混合題型測驗比起單一題型的測驗可以測量到更廣泛的能力，且混合題型測驗具DIF定錨題之等化研究較少，佘貞儀等人（2010）之研究為透過模擬研究，設定兩群體在Rasch模式與PCM模式之混合題型測驗以同時估計法進行水平等化之情境中，受詴者人數各為500人，詴題長度為40題，定錨題為20%，皆為二分題測驗，具DIF之定錨題數為0、2及4題，也就是具DIF之定錨題比例為0%、25%及50%，DIF量服從N(0.6,0.1²)，使用分析之軟體為ACER

Conquest 2.0，研究結果顯示具有DIF之定錨題題數增加將使全體受詴者能力估計值的誤差變大。

上述研究皆是兩群體等化，而目前多群體等化之研究並不多，本研究延用佘貞儀等人（2010）之研究架構並加以修改，欲在此研究架構下探討多群體之等化。

Kim與Lee（2006）研究操弄混合詴題之詴題類型，將類型分為三種，但此三種詴題長度並不相同，研究結果顯示不論在水平或垂直等化，多分題越多之測驗其誤差也越大，此結果甚不合理，應為多分題越多之測驗其誤差也越小，研究者認為可能是研究設計不佳，為了證明此假設，故本研究設定混合詴題題本長度皆相同，

由於增加操弄此變項，為了配合本研究之設計，因此將定錨題定為10%以符合需求，以下將詳述本研究之設計。

第二節研究設計

本研究之模擬情境分為「水平等化」和「垂直等化」這兩種情境，不論是水平或是垂直的情境下，詴題長度各為 40 題，定錨題為 10%，詴題型態為混合詴題，分為 2 元計分及 5 元計分，定錨題為 2 元計分，作答情形皆服從部分得分模式，各群體人數皆設定為 500 人。由作者自行撰寫 Matlab 程式產生相關模擬資料後，將產生的模擬資料以 ACER Conquest 2.0 軟體進行跨群體的同時估計法進行詴題及能力參數的估計，並分析其結果。

本研究在「水平等化」和「垂直等化」這兩種情境下，各自操弄三個獨立變項，這三個獨立變項分別為（1）群體數、（2）詴題類型、（3）定錨題具差異詴題功能之題數，其操弄情形如下：

一、群體數

以往常將兩群體受詴者做等化進行比較，但隨著等化廣泛的使用，欲等化之群體未必僅有兩組，例如：欲將一年進行多次之托福考詴進行等化、將國小一年

6 年，為了貼近現實，選擇操弄群體數為 3 群及 6 群，每群體人數皆為 500 人。

本研究在水平等化時受詴者之能力分配，各群體的能力分配要相當，故設定各群體之能力分配為平均數為 0、標準差為 1 的常態分配，而在垂直等化時，各群體的能力分配不需相當，在考慮整體能力分配之平衡下，當群體數為三群之情況下，受詴者之能力分配分別為平均數為-0.5、平均數為 0 和平均數為 0.5，標準差皆為 1 的常態分配；群體數為六群的情況下，受詴者之能力分配分別為平均數為-1、平均數為-0.6、平均數為-0.2、平均數為 0.2、平均數為 0.6 和平均數為 1，

標準差皆為 1 的常態分配。

二、詴題類型

本研究之詴題為混合詴題，詴題模型採用 Rasch 模式與 PCM 模式，分為 2 元詴題為 Rasch 模式及 5 元計分之多元詴題為 PCM 模式，如同第二章所述，當 PCM 階難度為 1，也就是 2 元計分時，即為 Rasch 模式。在詴題長度 40 題時，

有三種題本，分別為 10 題 2 元計分和 30 題 5 元計分（以 10/30 表示之）、20 題 2 元計分和 20 題 5 元計分（以 20/20 表示之）及 30 題 2 元計分和 10 題 5 元計分（以 30/10 表示之）。

在詴題難度方面，本研究參考一些文獻（Kang, Cohen & Sung, 2009; Kim &

Cohen, 1998; Kim & Lee, 2006; 陳雁芳, 2006; 蔡良庭與施懿珊, 2005）中之詴題參數，並依研究需求做了些微調整，詴題參數不論是 2 元計分詴題或是 5 元計分詴題皆配合受詴者能力分配，將詴題之平均難度調整與能力分配之平均數相同，例如受詴者能力分配為平均數為 0.5、標準差為 1 的常態分配，則其 MC 詴題和 CR 詴題之詴題平均難度皆為 0.5，5 元計分之詴題還需滿足階難度有次序排列之關係，也就是無逆序之情況發生，以確保詴題之品質，各題本完整之詴題參數請參閱附錄。

三、定錨題具 DIF 之題數

在定錨題中具差異詴題功能之詴題為 0、1 及 2 題。也就是說在每群體之詴

題長度各為 40 題，定錨題為 10%，就是定錨題為 4 題之情況下，具 DIF 之定錨題比例為 0%、25%及 50%，而具 DIF 之定錨題其 DIF 量服從 N(0.6,0.1²)，這是為了符合真實情況中每一道具 DIF 的詴題其 DIF 量並不會都一樣，而因為定錨題皆為 2 元計分詴題，因此具 DIF 之詴題為對兩群受詴者在難度上之差異，關於具 DIF 之定錨題其 DIF 量之數據請參閱附錄。

在水平等化之情境下，本研究有 18（=2*3*3）個研究細格，同樣地，在垂直等化的情境下也有 18 個研究細格，因此本研究總計有 36 個研究細格，每個細格皆進行 100 次的重複實驗（replications），因為以往文獻（Kim & Cohen, 1998; Kim

& Kolen, 2006; Kim & Lee, 2006; 陳雁芳, 2006; 蔡良庭與施懿珊, 2005）常以 100 次做為重複實驗之次數。

第三節資料分析

當產生的模擬資料使用同時估計法進行等化估計後，我們可透過一些指標進行分析比較不同情境之等化，其估計值與真值之誤差大小。以往的研究中（Chu &

Kamata, 2007; Hanson & Béguin, 2002; Kim & Cohen, 1998; Paek & Young, 2005）

常使用偏誤（bias）或均方根誤差（root mean square error，簡稱 RMSE）做為估計精確度之指標，本研究除了延用先前研究者使用的 bias 和 RMSE 做為指標外，

另增加相關係數（correlation coefficient）及排名差異（rank difference）做為參考，

且因等化後無非是想比較不同題本間受詴者的能力，因此本研究僅關心等化後對能力參數之影響，在資料分析只進行能力參數之分析。

壹、能力參數估計值的偏誤

偏誤的功用是用來觀察估計值對於真值高低估的情形，Bias 越靠近 0 越好。

在本研究中能力參數之偏誤定義如下：





肆、能力參數的排名差異

由於臺灣通常將成就測驗成績進行排名，做為能力高低之比較，且直接說明 RMSE 之大小對多數人而言較無法感受差距大小之意義，因此本研究增加觀察能力真值與估計值之排名差異，欲觀察等化後對於排名有何影響，在何種條件下排名差異會明顯增大，用以說明當 RMSE 增加時，排名差異增加多少。排名差異之功用是欲觀察所有受詴者能力真值之排名與能力估計值之排名差異大小，排名差異越小越好。在本研究中能力參數之排名差異定義如下：

n 2 1 i Rank Rank

RD _^i  _i,  , ... （7）

其中，Rank_^i為第 i 位受詴者能力估計值之排名；

Rank_i為第 i 位受詴者能力真值 之排名；n 為受詴者人數。

第四節軟體介紹

本研究使用的估計軟體為ACER Conquest 2.0（Wu, Adams, Wilson, & Haldane, 2007），PISA（Programme for International Student Assessment）也使用此軟體進行參數估計。ACER Conquest 2.0軟體適用在Rasch家族之詴題反應模式上，包含 Rasch模式、評定量尺模式（rating scale model, RSM）、部分得分模式等是常見的 Rasch家族之模式，在詴題參數估計的方法是使用邊際最大概似法（ marginal maximum likelihood estimation, MMLE）來估計參數，而估計能力之方法有期望後驗法（Expected A Posteriori, EAP）、潛在法（latent）、最大概似法（maximum likelihood estimation, MLE）及加權概似法（weighted likelihood estimation, WLE）

這四種方法。此外，本研究使用估計能力的方法為 EAP法，這是由於 EAP法的 RMSE較小（Bock & Mislevy, 1982; Weiss & Mcbride, 1984）。

在文檔中具DIF之定錨題對多群體水平及垂直等化之影響研究 (頁 19-25)

第一節 研究方法

第二節 研究設計

第三節 資料分析