• 沒有找到結果。

本研究主要是欲探討混合題型測驗中,不同混合題型測驗之類型及定錨題具 差異詴題功能之題數,對於以同時估計法進行多群體之水平及垂直等化之結果的 影響為何,如:在群體數增加、定錨題具差異詴題功能之題數增加情況下,估計 誤差是否會明顯變大;混合題型詴題是否與 Kim 與 Lee(2006)的發現一致,隨 著多分詴題的題數增加,估計誤差會隨之增加。

第一節 研究方法

文獻中常見之等化設計是透過定錨題來進行不同題本間參數之連結,若定錨 題出現了DIF,想必會對於等化結果造成負面之影響,而目前傳統的做法是將DIF 與等化視為兩個分開的議題(Chu & Kamata, 2007),本研究即是將DIF與等化這 兩個議題結合在一起討論。以往文獻在二分題測驗具DIF定錨題之等化研究上已 有些許成果,蔡良庭與施懿珊(2005)之研究顯示不論是在一參數或三參數模式 之兩群題垂直等化下,能力估計 精準度隨著具 DIF之定錨題數 的增加而誤差越 大;Chu與Kamata(2007)之研究顯示,在Rasch模式兩群體垂直等化之情況下其 能力估計之精準度會隨著具DIF之定錨題數的增加而下降,此兩篇研究皆發現隨 著定錨題中DIF題數的增加,受詴者之能力估計也越不精確。

Kim與Lee(2006)提到混合題型測驗比起單一題型的測驗可以測量到更廣泛 的能力,且混合題型測驗具DIF定錨題之等化研究較少,佘貞儀等人(2010)之 研究為透過模擬研究,設定兩群體在Rasch模式與PCM模式之混合題型測驗以同 時估計法進行水平等化之情境中,受詴者人數各為500人,詴題長度為40題,定 錨題為20%,皆為二分題測驗,具DIF之定錨題數為0、2及4題,也就是具DIF之 定錨題比例為0%、25%及50%,DIF量服從N(0.6,0.12),使用分析之軟體為ACER

Conquest 2.0,研究結果顯示具有DIF之定錨題題數增加將使全體受詴者能力估計 值的誤差變大。

上述研究皆是兩群體等化,而目前多群體等化之研究並不多,本研究延用佘 貞儀等人(2010)之研究架構並加以修改,欲在此研究架構下探討多群體之等化。

Kim與Lee(2006)研究操弄混合詴題之詴題類型,將類型分為三種,但此三種詴 題長度並不相同,研究結果顯示不論在水平或垂直等化,多分題越多之測驗其誤 差也越大,此結果甚不合理,應為多分題越多之測驗其誤差也越小,研究者認為 可能是研究設計不佳,為了證明此假設,故本研究設定混合詴題題本長度皆相同,

由於增加操弄此變項,為了配合本研究之設計,因此將定錨題定為10%以符合需 求,以下將詳述本研究之設計。

第二節 研究設計

本研究之模擬情境分為「水平等化」和「垂直等化」這兩種情境,不論是水 平或是垂直的情境下,詴題長度各為 40 題,定錨題為 10%,詴題型態為混合詴 題,分為 2 元計分及 5 元計分,定錨題為 2 元計分,作答情形皆服從部分得分模 式,各群體人數皆設定為 500 人。由作者自行撰寫 Matlab 程式產生相關模擬資料 後,將產生的模擬資料以 ACER Conquest 2.0 軟體進行跨群體的同時估計法進行 詴題及能力參數的估計,並分析其結果。

本研究在「水平等化」和「垂直等化」這兩種情境下,各自操弄三個獨立變 項,這三個獨立變項分別為(1)群體數、(2)詴題類型、(3)定錨題具差異詴 題功能之題數,其操弄情形如下:

一、群體數

以往常將兩群體受詴者做等化進行比較,但隨著等化廣泛的使用,欲等化之 群體未必僅有兩組,例如:欲將一年進行多次之托福考詴進行等化、將國小一年

6 年,為了貼近現實,選擇操弄群體數為 3 群及 6 群,每群體人數皆為 500 人。

本研究在水平等化時受詴者之能力分配,各群體的能力分配要相當,故設定 各群體之能力分配為平均數為 0、標準差為 1 的常態分配,而在垂直等化時,各 群體的能力分配不需相當,在考慮整體能力分配之平衡下,當群體數為三群之情 況下,受詴者之能力分配分別為平均數為-0.5、平均數為 0 和平均數為 0.5,標準 差皆為 1 的常態分配;群體數為六群的情況下,受詴者之能力分配分別為平均數 為-1、平均數為-0.6、平均數為-0.2、平均數為 0.2、平均數為 0.6 和平均數為 1,

標準差皆為 1 的常態分配。

二、詴題類型

本研究之詴題為混合詴題,詴題模型採用 Rasch 模式與 PCM 模式,分為 2 元詴題為 Rasch 模式及 5 元計分之多元詴題為 PCM 模式,如同第二章所述,當 PCM 階難度為 1,也就是 2 元計分時,即為 Rasch 模式。在詴題長度 40 題時,

有三種題本,分別為 10 題 2 元計分和 30 題 5 元計分(以 10/30 表示之)、20 題 2 元計分和 20 題 5 元計分(以 20/20 表示之)及 30 題 2 元計分和 10 題 5 元計分(以 30/10 表示之)。

在詴題難度方面,本研究參考一些文獻(Kang, Cohen & Sung, 2009; Kim &

Cohen, 1998; Kim & Lee, 2006; 陳雁芳, 2006; 蔡良庭與施懿珊, 2005)中之詴題參 數,並依研究需求做了些微調整,詴題參數不論是 2 元計分詴題或是 5 元計分詴 題皆配合受詴者能力分配,將詴題之平均難度調整與能力分配之平均數相同,例 如受詴者能力分配為平均數為 0.5、標準差為 1 的常態分配,則其 MC 詴題和 CR 詴題之詴題平均難度皆為 0.5,5 元計分之詴題還需滿足階難度有次序排列之關 係,也就是無逆序之情況發生,以確保詴題之品質,各題本完整之詴題參數請參 閱附錄。

三、定錨題具 DIF 之題數

在定錨題中具差異詴題功能之詴題為 0、1 及 2 題。也就是說在每群體之詴

題長度各為 40 題,定錨題為 10%,就是定錨題為 4 題之情況下,具 DIF 之定錨 題比例為 0%、25%及 50%,而具 DIF 之定錨題其 DIF 量服從 N(0.6,0.12),這是 為了符合真實情況中每一道具 DIF 的詴題其 DIF 量並不會都一樣,而因為定錨題 皆為 2 元計分詴題,因此具 DIF 之詴題為對兩群受詴者在難度上之差異,關於具 DIF 之定錨題其 DIF 量之數據請參閱附錄。

在水平等化之情境下,本研究有 18(=2*3*3)個研究細格,同樣地,在垂直 等化的情境下也有 18 個研究細格,因此本研究總計有 36 個研究細格,每個細格 皆進行 100 次的重複實驗(replications),因為以往文獻(Kim & Cohen, 1998; Kim

& Kolen, 2006; Kim & Lee, 2006; 陳雁芳, 2006; 蔡良庭與施懿珊, 2005)常以 100 次做為重複實驗之次數。

第三節 資料分析

當產生的模擬資料使用同時估計法進行等化估計後,我們可透過一些指標進 行分析比較不同情境之等化,其估計值與真值之誤差大小。以往的研究中(Chu &

Kamata, 2007; Hanson & Béguin, 2002; Kim & Cohen, 1998; Paek & Young, 2005)

常使用偏誤(bias)或均方根誤差(root mean square error,簡稱 RMSE)做為估 計精確度之指標,本研究除了延用先前研究者使用的 bias 和 RMSE 做為指標外,

另增加相關係數(correlation coefficient)及排名差異(rank difference)做為參考,

且因等化後無非是想比較不同題本間受詴者的能力,因此本研究僅關心等化後對 能力參數之影響,在資料分析只進行能力參數之分析。

壹、能力參數估計值的偏誤

偏誤的功用是用來觀察估計值對於真值高低估的情形,Bias 越靠近 0 越好。

在本研究中能力參數之偏誤定義如下:

肆、能力參數的排名差異

由於臺灣通常將成就測驗成績進行排名,做為能力高低之比較,且直接說明 RMSE 之大小對多數人而言較無法感受差距大小之意義,因此本研究增加觀察能 力真值與估計值之排名差異,欲觀察等化後對於排名有何影響,在何種條件下排 名差異會明顯增大,用以說明當 RMSE 增加時,排名差異增加多少。排名差異之 功用是欲觀察所有受詴者能力真值之排名與能力估計值之排名差異大小,排名差 異越小越好。在本研究中能力參數之排名差異定義如下:

n 2 1 i Rank Rank

RDii,  , ... (7)

其中,Ranki為第 i 位受詴者能力估計值之排名;

Ranki為第 i 位受詴者能力真值 之排名;n 為受詴者人數。

第四節 軟體介紹

本研究使用的估計軟體為ACER Conquest 2.0(Wu, Adams, Wilson, & Haldane, 2007),PISA(Programme for International Student Assessment)也使用此軟體進 行參數估計。ACER Conquest 2.0軟體適用在Rasch家族之詴題反應模式上,包含 Rasch模式、評定量尺模式(rating scale model, RSM)、部分得分模式等是常見的 Rasch家 族 之 模式 ,在 詴題 參數 估計 的方 法是 使用 邊際 最大 概似 法( marginal maximum likelihood estimation, MMLE)來估計參數,而估計能力之方法有期望後 驗法(Expected A Posteriori, EAP)、潛在法(latent)、最大概似法(maximum likelihood estimation, MLE)及加權概似法(weighted likelihood estimation, WLE)

這四種方法。此外,本研究使用估計能力的方法為 EAP法,這是由於 EAP法的 RMSE較小(Bock & Mislevy, 1982; Weiss & Mcbride, 1984)。

相關文件