第四章 研究結果與討論
第二節 垂直等化之估計結果
本節為討論垂直等化之結果,其研究結果之數據呈現於表 10 至表 17 中,分 別顯示垂直等化各情境下能力參數的 bais、RMSE、相關及排名差異之情形,以 下將分別對於上述四種數據進行說明。
壹、能力參數之 Bias
表 10 之數據為在群體數為 3 時之垂直等化下,各情境能力參數之 Bias 的平 均數與標準差,其結果顯示全體 Bias 之平均數在 0.00 附近,標準差在 0.01~0.05 之間,不論何種詴題類型下 Bias 之平均數皆與 0.00 相去不遠,且隨著定錨題具 DIF 題數之增加,Bias 之平均數與標準差並無明顯增加或減少之趨勢,但標準差 有詴題類型 20/20<30/10<10/30 之趨勢。在各個群體的部分,Bias 之平均數在 -0.42~0.35 之間,大致上有隨著定錨題具 DIF 題數之增加而增加之趨勢,Bias 之 標準差介在 0.04~0.09 間,無明顯增加或減少之趨勢。
表 10 群組數為 3 時之垂直等化下,各情境能力參數之 Bias 的平均數與標準差
詴題類型 定錨題
DIF 數
全體 G1 G2 G3
mean std mean std mean std mean std 10/30 0 0.01 0.05 0.01 0.08 0.01 0.06 <0.01 0.07
1 <0.00 0.05 0.12 0.08 -0.03 0.07 -0.09 0.08 2 <0.01 0.05 0.32 0.07 -0.04 0.07 -0.28 0.08 20/20 0 <0.00 0.03 -0.01 0.07 <0.00 0.04 <0.01 0.07 1 <0.00 0.01 0.15 0.08 0.19 0.05 -0.35 0.09 2 <0.01 0.01 0.35 0.07 0.08 0.05 -0.42 0.08 30/10 0 <0.01 0.03 -0.01 0.07 0.01 0.04 0.00 0.07 1 <0.01 0.03 0.14 0.06 <0.01 0.05 -0.14 0.07 2 <0.00 0.02 0.34 0.06 -0.03 0.04 -0.31 0.07
表 11 之數據為在群體數為 6 時之水平等化下,各情境能力參數之 Bias 的平
貳、能力參數之 RMSE
表 12 之數據為在群組數為 3 時之垂直等化下,各情境能力參數之 RMSE 的 平均數與標準差,全體 RMSE 之平均數介於 0.21~0.40 間,標準差介於 0.01~0.05 之間,各群體 RMSE 之平均數介於 0.21~0.48 之間,標準差介於 0.01~0.07 間。全 體與各群體之結果大致相同,皆為 RMSE 隨著定錨題具 DIF 題數之增加而增加,
在定錨題無 DIF 詴題之情況才有詴題類型為 10/30 之 RMSE<20/20 之 RMSE<
30/10 之 RMSE,若定錨題有 DIF 詴題時便無此趨勢,而為 10/30<30/10<20/20,
僅有在 G1 情境才符合 RMSE 隨著定錨題具 DIF 題數之增加而增加,且詴題類型 10/30 之 RMSE<20/20 之 RMSE<30/10 之 RMSE。
表 13 之數據為在群組數為 6 時之垂直等化下,各情境能力參數之 RMSE 的 平均數與標準差,全體 RMSE 之平均數介於 0.22~0.60 間,標準差介於 0.01~0.06 間,平均數與標準差皆隨著定錨題 DIF 題數增加而增加,在定錨題無 DIF 詴題時,
RMSE 為詴題類型 10/30<20/20<30/10,但在定錨題有 DIF 詴題時,RMSE 卻是 詴題類型 20/20<10/30<30/10;各群體 RMSE 之平均數介於 0.21~0.87 之間,標 準差介於 0.01~0.10 間,與全體結果相同,各群體平均數與標準差亦隨著定錨題 DIF 題數增加而增加,在詴題類型部分,僅有 G1 與 G4 此兩群體之 RMSE 有 10/30
<20/20<30/10 之現象。
比較表 12 與表 13 之結果,群體數為 3 與為 6 皆隨著定錨題具 DIF 題數之增 加,RMSE 之平均數隨之增加,群體數為 6 時 RMSE 之標準差亦隨之增加,且群 體數為 6 時其 RMSE 之平均數與標準差皆較群體數為 3 時來得大,顯示在垂直等 化時,各群體人數相同但群體數越多時估計越不精確,且定錨題有 DIF 詴題更使 情況惡化,不僅估計越不精確亦越不穩定。在定錨題無 DIF 詴題之情況,群體數 3 與 6 結果皆為 RMSE 為詴題類型 10/30<20/20<30/10,當有 DIF 詴題時結果便 不一致,此狀況顯示相同題長且定錨題無 DIF 時,多分題越多之詴題類型其估計
會越精確,但當定錨題有 DIF 時情況變不穩定,並無多分題越多估計越精確之情
叁、能力參數之相關係數
表 14 及表 15 之數據分別為在群體數為 3 及 6 時之垂直等化下,各情境能力 參數真值與估計值之相關係數。表 14 全體相關係數介於 0.88~0.98 之間,各群體 之相關係數介於 0.95~0.98 間,全體相關係數最大值與最小值皆隨著定錨題具 DIF 題數之增加而下降,尤其在 20/20-1 時其最小值驟降至 0.88,與 RMSE 結果相比 較,其 RMSE 在 20/20-1 時有驟升之情況;在定錨題無 DIF 題數時相關係數為詴 題類型 10/30>20/20>30/10,有 DIF 題數時則無一致現象,僅有詴題類型 10/30 不論在定錨題有無 DIF 詴題時其相關係數皆最大,此部分與 RMSE 結果亦同,詴 題類型 10/30 不論在何種情況其 RMSE 皆最小。各群體相關係數無隨著定錨題具 DIF 題數之增加而下降,無一致之趨勢,但其相關係數皆為詴題類型 10/30>20/20
>30/10。
表 15 之數據顯示全體相關係數介於 0.78~0.99 之間,隨著定錨題具 DIF 題數 之增加,相關係數隨之下降,且在定錨題無 DIF 題數時,相關係數為 10/30>20/20
>30/10,有 DIF 題數時則為 20/20>10/30>30/10,此部分結果與 RMSE 結果相 符;各群體之相關係數介於 0.95~0.99 之間,與全體結果相同,相關係數皆隨著 定錨題具 DIF 題數之增加而下降,且相關係數大致上為 10/30>20/20>30/10 之 趨勢。
比較表 14 與表 15 之結果,在群體數為 6 時,其相關係數範圍較群體數為 3 時寬得多,且最小值下降之幅度也較快,顯示在垂直等化下且各群體人數相同 時,群體數較多之情境其相關係數較低;不論是群體數 3 或 6 之情境,相關係數 皆會隨著定錨題具 DIF 題數之增加而下降,尤其群體數為 6 時對 DIF 詴題很敏 感,相關係數最小值下降地非常快;在定錨題無 DIF 詴題之相關係數,群體數 3 與 6 皆為詴題類型 10/30 最大,其次 20/20,最後為 30/10,而當定錨題有 DIF 詴 題時,群體數為 3 是 10/30 最大,群體數為 6 則是 20/20 最大,兩者結果不一致,
顯示定錨題無 DIF 詴題時結果符合預期,在詴題長度相同下,多分題越多其能力
肆、能力參數之排名差異
表 16 與表 17 所呈現之結果分別為群組數為 3 時與群組數為 6 時之垂直等化 下,各情境能力參數真值與估計值之排名差異,表 16 之數據顯示全體排名差異 Max 值介於 425~700 之間,IQR 值介於 94~210 之間,觀察不同詴題類型,其數 據顯示 Max 值除了定錨題 DIF 題數為 1 時,其餘情況皆為 10/30<20/20<30/10,
IQR 值在定錨題無 DIF 詴題時為 10/30<20/20<30/10,若有 DIF 詴題時則為 10/30
<30/10<20/20,在觀察定錨題 DIF 題數之部分,Max 值與 IQR 值皆會隨著定錨 題 DIF 題數之增加而增加;各群體排名差異 Max 值介於 132~221 之間,IQR 值 介於 32~46 之間,各群體 Max 值與 IQR 值大致上為詴題類型 10/30 最小,其次 20/20,最後 30/10 最大,但隨著定錨題 DIF 題數之增加,Max 值與 IQR 值無明 顯之趨勢。
表 17 之數據顯示全體排名差異 Max 值介於 932~1746 間,IQR 值介於 171~577 間,Max 值與 IQR 值隨著定錨題 DIF 題數之增加而增加,且在詴題類型 10/30Max 值最小,其次 20/20,最後為 30/10,而 IQR 值僅在定錨題無 DIF 詴題時有 10/30
<20/20<30/10 之趨勢;各群體排名差異 Max 值介於 134~239 之間,IQR 值介於 32~46 間,Max 值與 IQR 值僅在定錨題無 DIF 詴題時皆有詴題類型 10/30<20/20
<30/10 之趨勢,且隨著定錨題 DIF 題數之增加並無明顯趨勢。
比較表 16 及表 17 之結果,在全體之部分,群體數為 3 與 6 其 Max 值與 IQR 值皆隨著定錨題 DIF 題數之增加而增加,且在定錨題無 DIF 詴題時值為詴題類型 10/30<20/20<30/10,其餘部分結果無一致性,此現象與 RMSE 相同,顯示在垂 直等化定錨題有 DIF 詴題時對於詴題類型之影響無一致性;在各群體之部分,群 體數為 3 與 6 其 Max 值與 IQR 值皆隨著定錨題 DIF 題數之增加並無明顯趨勢,
群體數為 3 之 Max 值與 IQR 值詴題類型之結果大致為 10/30<20/20<30/10,結 果較群體數為 6 明顯。綜合上述,顯示在定錨題無 DIF 詴題時,多分題越多之詴
題類型,其估計值排名與真值排名之差異較小,對於等化後影響排名之順序較 小,且定錨題有 DIF 詴題時,確實會造成負面影響,使得估計值排名與真值排名 之差異越大,但多分題越多之測驗不會因此減少影響。
圖 4 與圖 5 分別為群組數為 3 與 6 時之垂直等化下,各情境能力參數之排名 差異之箱形圖。由箱形圖可見得群體數為 3 時,僅在定錨題無 DIF 詴題時,其 IQR 會隨著二分詴題之增加而增加,且排名之差距也越不集中,在相同詴題類型下定 錨題具 DIF 題數之增加,IQR 亦隨之增加;群體數為 6 時之結果,亦為僅在定錨 題無 DIF 詴題時,其 IQR 會隨著二分詴題之增加而增加,且排名之差距也越不集 中,在相同詴題類型下定錨題具 DIF 題數之增加,IQR 亦隨之增加。
表 16 群組數為 3 時之垂直等化下,各情境能力參數真值與估計值之排名差異
圖 4 群組數為 3 時之垂直等化下,各情境能力參數之排名差異之箱形圖