垂直等化之估計結果

第四章研究結果與討論

第二節垂直等化之估計結果

本節為討論垂直等化之結果，其研究結果之數據呈現於表 10 至表 17 中，分別顯示垂直等化各情境下能力參數的 bais、RMSE、相關及排名差異之情形，以下將分別對於上述四種數據進行說明。

壹、能力參數之 Bias

表 10 之數據為在群體數為 3 時之垂直等化下，各情境能力參數之 Bias 的平均數與標準差，其結果顯示全體 Bias 之平均數在 0.00 附近，標準差在 0.01~0.05 之間，不論何種詴題類型下 Bias 之平均數皆與 0.00 相去不遠，且隨著定錨題具 DIF 題數之增加，Bias 之平均數與標準差並無明顯增加或減少之趨勢，但標準差有詴題類型 20/20＜30/10＜10/30 之趨勢。在各個群體的部分，Bias 之平均數在 -0.42~0.35 之間，大致上有隨著定錨題具 DIF 題數之增加而增加之趨勢，Bias 之標準差介在 0.04~0.09 間，無明顯增加或減少之趨勢。

表 10 群組數為 3 時之垂直等化下，各情境能力參數之 Bias 的平均數與標準差

詴題類型定錨題

DIF 數

全體 G1 G2 G3

mean std mean std mean std mean std 10/30 0 0.01 0.05 0.01 0.08 0.01 0.06 ＜0.01 0.07

1 ＜0.00 0.05 0.12 0.08 -0.03 0.07 -0.09 0.08 2 ＜0.01 0.05 0.32 0.07 -0.04 0.07 -0.28 0.08 20/20 0 ＜0.00 0.03 -0.01 0.07 ＜0.00 0.04 ＜0.01 0.07 1 ＜0.00 0.01 0.15 0.08 0.19 0.05 -0.35 0.09 2 ＜0.01 0.01 0.35 0.07 0.08 0.05 -0.42 0.08 30/10 0 ＜0.01 0.03 -0.01 0.07 0.01 0.04 0.00 0.07 1 ＜0.01 0.03 0.14 0.06 ＜0.01 0.05 -0.14 0.07 2 ＜0.00 0.02 0.34 0.06 -0.03 0.04 -0.31 0.07

表 11 之數據為在群體數為 6 時之水平等化下，各情境能力參數之 Bias 的平

貳、能力參數之 RMSE

表 12 之數據為在群組數為 3 時之垂直等化下，各情境能力參數之 RMSE 的平均數與標準差，全體 RMSE 之平均數介於 0.21~0.40 間，標準差介於 0.01~0.05 之間，各群體 RMSE 之平均數介於 0.21~0.48 之間，標準差介於 0.01~0.07 間。全體與各群體之結果大致相同，皆為 RMSE 隨著定錨題具 DIF 題數之增加而增加，

在定錨題無 DIF 詴題之情況才有詴題類型為 10/30 之 RMSE＜20/20 之 RMSE＜

30/10 之 RMSE，若定錨題有 DIF 詴題時便無此趨勢，而為 10/30＜30/10＜20/20，

僅有在 G1 情境才符合 RMSE 隨著定錨題具 DIF 題數之增加而增加，且詴題類型 10/30 之 RMSE＜20/20 之 RMSE＜30/10 之 RMSE。

表 13 之數據為在群組數為 6 時之垂直等化下，各情境能力參數之 RMSE 的平均數與標準差，全體 RMSE 之平均數介於 0.22~0.60 間，標準差介於 0.01~0.06 間，平均數與標準差皆隨著定錨題 DIF 題數增加而增加，在定錨題無 DIF 詴題時，

RMSE 為詴題類型 10/30＜20/20＜30/10，但在定錨題有 DIF 詴題時，RMSE 卻是詴題類型 20/20＜10/30＜30/10；各群體 RMSE 之平均數介於 0.21~0.87 之間，標準差介於 0.01~0.10 間，與全體結果相同，各群體平均數與標準差亦隨著定錨題 DIF 題數增加而增加，在詴題類型部分，僅有 G1 與 G4 此兩群體之 RMSE 有 10/30

＜20/20＜30/10 之現象。

比較表 12 與表 13 之結果，群體數為 3 與為 6 皆隨著定錨題具 DIF 題數之增加，RMSE 之平均數隨之增加，群體數為 6 時 RMSE 之標準差亦隨之增加，且群體數為 6 時其 RMSE 之平均數與標準差皆較群體數為 3 時來得大，顯示在垂直等化時，各群體人數相同但群體數越多時估計越不精確，且定錨題有 DIF 詴題更使情況惡化，不僅估計越不精確亦越不穩定。在定錨題無 DIF 詴題之情況，群體數 3 與 6 結果皆為 RMSE 為詴題類型 10/30＜20/20＜30/10，當有 DIF 詴題時結果便不一致，此狀況顯示相同題長且定錨題無 DIF 時，多分題越多之詴題類型其估計

會越精確，但當定錨題有 DIF 時情況變不穩定，並無多分題越多估計越精確之情

叁、能力參數之相關係數

表 14 及表 15 之數據分別為在群體數為 3 及 6 時之垂直等化下，各情境能力參數真值與估計值之相關係數。表 14 全體相關係數介於 0.88~0.98 之間，各群體之相關係數介於 0.95~0.98 間，全體相關係數最大值與最小值皆隨著定錨題具 DIF 題數之增加而下降，尤其在 20/20-1 時其最小值驟降至 0.88，與 RMSE 結果相比較，其 RMSE 在 20/20-1 時有驟升之情況；在定錨題無 DIF 題數時相關係數為詴題類型 10/30＞20/20＞30/10，有 DIF 題數時則無一致現象，僅有詴題類型 10/30 不論在定錨題有無 DIF 詴題時其相關係數皆最大，此部分與 RMSE 結果亦同，詴題類型 10/30 不論在何種情況其 RMSE 皆最小。各群體相關係數無隨著定錨題具 DIF 題數之增加而下降，無一致之趨勢，但其相關係數皆為詴題類型 10/30＞20/20

＞30/10。

表 15 之數據顯示全體相關係數介於 0.78~0.99 之間，隨著定錨題具 DIF 題數之增加，相關係數隨之下降，且在定錨題無 DIF 題數時，相關係數為 10/30＞20/20

＞30/10，有 DIF 題數時則為 20/20＞10/30＞30/10，此部分結果與 RMSE 結果相符；各群體之相關係數介於 0.95~0.99 之間，與全體結果相同，相關係數皆隨著定錨題具 DIF 題數之增加而下降，且相關係數大致上為 10/30＞20/20＞30/10 之趨勢。

比較表 14 與表 15 之結果，在群體數為 6 時，其相關係數範圍較群體數為 3 時寬得多，且最小值下降之幅度也較快，顯示在垂直等化下且各群體人數相同時，群體數較多之情境其相關係數較低；不論是群體數 3 或 6 之情境，相關係數皆會隨著定錨題具 DIF 題數之增加而下降，尤其群體數為 6 時對 DIF 詴題很敏感，相關係數最小值下降地非常快；在定錨題無 DIF 詴題之相關係數，群體數 3 與 6 皆為詴題類型 10/30 最大，其次 20/20，最後為 30/10，而當定錨題有 DIF 詴題時，群體數為 3 是 10/30 最大，群體數為 6 則是 20/20 最大，兩者結果不一致，

顯示定錨題無 DIF 詴題時結果符合預期，在詴題長度相同下，多分題越多其能力

肆、能力參數之排名差異

表 16 與表 17 所呈現之結果分別為群組數為 3 時與群組數為 6 時之垂直等化下，各情境能力參數真值與估計值之排名差異，表 16 之數據顯示全體排名差異 Max 值介於 425~700 之間，IQR 值介於 94~210 之間，觀察不同詴題類型，其數據顯示 Max 值除了定錨題 DIF 題數為 1 時，其餘情況皆為 10/30＜20/20＜30/10，

IQR 值在定錨題無 DIF 詴題時為 10/30＜20/20＜30/10，若有 DIF 詴題時則為 10/30

＜30/10＜20/20，在觀察定錨題 DIF 題數之部分，Max 值與 IQR 值皆會隨著定錨題 DIF 題數之增加而增加；各群體排名差異 Max 值介於 132~221 之間，IQR 值介於 32~46 之間，各群體 Max 值與 IQR 值大致上為詴題類型 10/30 最小，其次 20/20，最後 30/10 最大，但隨著定錨題 DIF 題數之增加，Max 值與 IQR 值無明顯之趨勢。

表 17 之數據顯示全體排名差異 Max 值介於 932~1746 間，IQR 值介於 171~577 間，Max 值與 IQR 值隨著定錨題 DIF 題數之增加而增加，且在詴題類型 10/30Max 值最小，其次 20/20，最後為 30/10，而 IQR 值僅在定錨題無 DIF 詴題時有 10/30

＜20/20＜30/10 之趨勢；各群體排名差異 Max 值介於 134~239 之間，IQR 值介於 32~46 間，Max 值與 IQR 值僅在定錨題無 DIF 詴題時皆有詴題類型 10/30＜20/20

＜30/10 之趨勢，且隨著定錨題 DIF 題數之增加並無明顯趨勢。

比較表 16 及表 17 之結果，在全體之部分，群體數為 3 與 6 其 Max 值與 IQR 值皆隨著定錨題 DIF 題數之增加而增加，且在定錨題無 DIF 詴題時值為詴題類型 10/30＜20/20＜30/10，其餘部分結果無一致性，此現象與 RMSE 相同，顯示在垂直等化定錨題有 DIF 詴題時對於詴題類型之影響無一致性；在各群體之部分，群體數為 3 與 6 其 Max 值與 IQR 值皆隨著定錨題 DIF 題數之增加並無明顯趨勢，

群體數為 3 之 Max 值與 IQR 值詴題類型之結果大致為 10/30＜20/20＜30/10，結果較群體數為 6 明顯。綜合上述，顯示在定錨題無 DIF 詴題時，多分題越多之詴

題類型，其估計值排名與真值排名之差異較小，對於等化後影響排名之順序較小，且定錨題有 DIF 詴題時，確實會造成負面影響，使得估計值排名與真值排名之差異越大，但多分題越多之測驗不會因此減少影響。

圖 4 與圖 5 分別為群組數為 3 與 6 時之垂直等化下，各情境能力參數之排名差異之箱形圖。由箱形圖可見得群體數為 3 時，僅在定錨題無 DIF 詴題時，其 IQR 會隨著二分詴題之增加而增加，且排名之差距也越不集中，在相同詴題類型下定錨題具 DIF 題數之增加，IQR 亦隨之增加；群體數為 6 時之結果，亦為僅在定錨題無 DIF 詴題時，其 IQR 會隨著二分詴題之增加而增加，且排名之差距也越不集中，在相同詴題類型下定錨題具 DIF 題數之增加，IQR 亦隨之增加。

表 16 群組數為 3 時之垂直等化下，各情境能力參數真值與估計值之排名差異

圖 4 群組數為 3 時之垂直等化下，各情境能力參數之排名差異之箱形圖

在文檔中具DIF之定錨題對多群體水平及垂直等化之影響研究 (頁 35-45)

第四章 研究結果與討論

第二節 垂直等化之估計結果