• 沒有找到結果。

本章共分為兩節,第一節說明各個研究問題之結論,並提出建議。第二節則 則說明本研究的研究限制,以及未來研究方向的可能性。

第一節 研究結論與建議

本研究包含三個研究問題,最主要的目的是想瞭解不同資料遺失樣態對於DIF 偵測效果的影響,其中遺失樣態包括遺失機制與遺失比率兩個變項,而DIF偵測效 果則是DIF試題的正確偵測率(power值)與型一錯誤率(α值)。其中也將遺失值 的處理方法(有無使用單一插補法),以及DIF偵測方法(是否為IRT取向方法、是 否使用純化程序)兩個議題加入本研究,以探討上述變項與DIF偵測效果的關係。

. 遺失樣態對於 DIF 偵測效果的影響

結論、討論與建議分述如下:

(一) 結論

1. 若以 MH 法作為 DIF 偵測方法,在不同遺失機制下,DIF 偵測效果會有差異。

特別是 MAR I,其是針對焦點組的作答反應隨機抽取遺失值,因此焦點組與 參照組有不同的題數基準,導致不準確的能力配對與估計。所以在MAR I 情 境下使用MH 法分析,其 α 值與 power 值都會異常地高。

2. 若以 MH 法作為 DIF 偵測方法時,遺失機制與遺失比率之間有交互作用存在。

在MCAR、MAR II 與 MAR III 時,隨著遺失比率增高,其 α 值與 power 值皆 會降低;但MAR I 卻是相反,隨著遺失比率增高,α 值與 power 值皆會升高。

3. 若以 Lord 法作為 DIF 偵測方法,無論是 α 值或 power 值,都不受到遺失樣態 的影響,表示此法具有能力估計的不變性。

4. 除了 MAR I 遺失機制外,其他三種遺失機制的 α 值沒有太大的差異。另一方 面,是以MAR II 的 power 值最佳,MAR III 次之,再次者則為 MCAR。

(二) 討論

在MAR I 的遺失情境下,若以 MH 法偵測 DIF 試題,α 值與 power 值都有異 常高的現象,其異常是來自於MH 法幾乎將所有試題都判斷為有 DIF。MAR I 遺

失機制是針對焦點組作答反應隨機抽取遺失值,因而焦點組與參照組織間的題數 基準不同,加上 MH 法是以測驗總分作為配對變項,因此在能力配對與估計上都 失去準確度。相較於其他遺失機制,MCAR 是自所有作答反應產生遺失資料,自 然不會有此問題。而其他兩種MAR 遺失機制,分別是以低能力者、高難度試題產 生遺失值,也不會導致兩組的題數不同等。另一方面,因為 IRT 取向的 DIF 偵測 方法具有能力估計不變性,所以若使用Lord 法來分析便可以避免上述的問題。

MAR II 與 MAR III 分別是針對低能力者與高難度試題隨機抽取遺失值,二者 的α 值幾乎沒有差異,但 MAR II 的 power 值較 MAR III 來得高,尤其隨著遺失比 率增加,二者間的差異更為突顯。因此,可以自此結果推斷這兩種MAR 遺失機制,

對於DIF 偵測效果是有不同的影響性。另一方面,MCAR 在 α 值上也無異於 MAR II 與 MAR III,其 power 值卻是三者中最差的。這個結果是值得討論的,因為 MCAR 的遺失形態是最均等的,是屬於MAR 中的特例,統計分析的結果應當最佳才合乎 推論。由於本研究的MCAR 是針對所有作答反應隨機抽取遺失值,其遺失的資料 量實是 MAR II 與 MAR III 的兩倍,因此會得到如此結果。換句話說,本研究的 MCAR 與 MAR 之間應是不得直接比較的。

(三) 建議

若遺失機制為MAR I 時,應避免使用 MH 法作為 DIF 偵測方法,以防止得到 異常的DIF 偵測結果。若無法避免在 MAR I 遺失情境下使用 MH 法,也應當妥善 處理遺失值的問題,例如本研究採用單一插補法來處理遺失資料。Lord 法為 IRT 取向的DIF 偵測方法,具有參數估計的不變性,是較穩定的方法。相較之下,MH 法較易受到遺失比率與樣本數的影響。在MAR I 以外的遺失情境,MH 法與 Lord 法的DIF 偵測效果相當。

. 單一插補對於 DIF 偵測效果的影響

(一) 結論

1. 經單一插補處理遺失值後,power 值會隨著樣本數增多而升高,但 α 值也難避 免膨脹。當遺失比率為30%時,α 值甚至都超出 0.05。

2. 若以 MH 法為 DIF 偵測方法時,單一插補法能解除 MAR I 的困境,藉由插補 遺失值,可以使兩組回復相同的題數基準,不會再將所有試題都判斷為 DIF

試題,亦即α 值與 power 值不再高得異常。

(二) 討論

單一插補有助於正確判斷 DIF 試題,各個情境的 power 值皆有所提升。使用 單一插補法來處理遺失值,一方面能有效提升 power 值,另一方面卻也造成 α 值 的膨脹,這是因為 power 值跟 α rate 之間存在著抵換關係(trade-off)。然而,在 MAR I 情境下以 MH 法進行 DIF 偵測時,會導致異常的 α 值與 power 值,此現象 進行插補後可得到明顯的改善。由於MAR I 是針對焦點組的作答反應隨機抽取遺 失值,因此會使兩組的題數基準不同等。相對於具有能力估計不變性的 Lord 法,

MH 法是以測驗總分作為配對變項的 DIF 偵測方法,因此其能力配對與估算都比 較容易受到資料遺失的影響,才導致異常的 DIF 偵測結果。但是透過單一插補,

兩組的題數基準可以回復成同等,MH 的偵測結果也變得合理且可接受。雖然插補 後的α 值較高,但仍勝過於未插補前將所有試題都判斷為有 DIF 的情況。

(三) 建議

單一插補法不適用於高遺失比率的情境,因為插補過程會增加樣本數,α 值的 膨脹難以避免,很難控制在0.05 以內。多數遺失情境下,若考量 power 值與 α 值 之間的抵換關係,即便經插補後 power 值會升高,但也能避免 α 值的膨脹,使用 單一插補法未必能有效改善DIF 偵測效果。然而,在 MAR I 遺失情境下使用 MH 法時,一定要使用單一插補法來處理遺失值,才適合進行後續的DIF 分析。

. 純化程序對於 DIF 偵測效果的影響

(一) 結論

1. 純化程序能改善多數遺失情境的 DIF 偵測效果,特別在大樣本、高 DIF 試題 比率與重度DIF 試題的條件下。

2. 若以 MH 法為 DIF 偵測方法時,在 MAR I 情境下,光是透過純化程序並無法 改善 DIF 偵測效果。必須先透過單一插補法處理遺失值,再加入純化程序,

才能得到較佳的結果。

3. 純化效果不會受到遺失比率的影響。

(二) 討論

對於多數遺失情境而言,加入純化程序能有效改善 DIF 偵測的結果。然而,

在MAR I 遺失情境下使用 MH 法偵測 DIF 試題時,因為此遺失機制是以焦點組為 遺失資料,因而參照組與焦點組是不同的題數基準,加上 MH 法是以測驗總分作 為配對變項,而導致不準確的能力配對與估計。純化程序的作用在於排除 DIF 試 題對於測驗分數的汙染,其確實能有效改善DIF 偵測效果,但無法解決 MAR I 遺 失情境的根本問題。若只是在進行 DIF 分析時加入純化程序,兩組的題數無法回 復為同等,因此能力配對與估計仍是不正確,終究無法改善 α 值異常高的現象。

也表示若無法避免在 MAR I 遺失情境下使用 MH 法,單一插補的處理有其必要 性。

(三) 建議

1. 若以MH法為DIF偵測方法,且遺失機制為MAR I時,要先以單一插補法處理 遺失值,才能以MH-P法分析DIF試題。

2. 就其餘遺失情境而言,無論使用MH法或Lord法,直接使用純化程序皆能得到 最佳的DIF偵測效果,毋需先使用單一插補法來處理遺失值。

第二節 研究限制與未來研究方向

. 研究限制

1. 四種遺失機制中,MCAR 是針對所有作答反應隨機抽取遺失值,其他三種 MAR 則是針對特定條件隨機抽取遺失值,分別為焦點組、低能力者與高難度 試題。MAR 類資料量,其實是所有作答反應的一半,但遺失比率的設定同樣 是 10%與 30%,因此二者實質遺失的資料量是不同的。所以,本研究中的 MCAR 遺失情境與其他三者的 DIF 偵測效果,不能直接作比較。

2. 本研究僅探討單向 DIF,亦即所有 DIF 試題都是不利於焦點組。

3. 本研究沒有操弄焦點組與參照組之間的能力差異,兩組成員的能力參數都是 來自標準常態分配。

. 未來研究方向

1. MAR II 與 MAR III 兩種遺失機制對於 DIF 偵測效果的影響,應進一步討論二 者之間的差異。此外,也可嘗試去探討同時考量受測者能力值與試題難度值 的遺失機制,以改善只針對低能力者或高難度試題的局限性。像是在MAR II

的遺失情境下,低能力者作答低難度試題便不會在高遺失可能性的範圍內,

而若在 MAR III 的遺失情境下,高難度試題若被高能力者作答時,也不會在 高遺失可能性的範圍內。未來應針對低能力者且高難度試題的條件來隨機抽 取遺失值,或是針對能力值與試題難度值的差值來隨機抽取遺失值,以進一 步探討更符合測驗實務的遺失情境。

2. 本研究使用 R 統計軟體內的 MICE 來插補遺失值,該套件可以用來進行多重 插補,其過程是自一個併有隨機變異的適切模式來插補遺失值,且重複五次 插補動作以產生插補資料集。本研究僅針對第一組插補資料進行 DIF 分析,

未來的延伸研究會對其餘四組插補資料集也進行 DIF 分析,在比較多重插補 與單一插補對於DIF 偵測效果的影響。

3. 本研究僅以模擬研究的方式討論,未來若能配合實徵資料,重新檢視不同遺 失樣態、單一插補法、DIF 偵測方法對於 DIF 偵測效果的影響,將使整個研 究議題更為完滿。

參考文獻

中文部分

鄒慧英、江培銘(2012)。插補法在檢測試題差異功能的效果。測驗學刊, 59(1), 1-32.

英文部分

Afifi, A. A., & Elashoff, R. M. (1966). Missing observations in multivariate statistics I.

Review of the literature. Journal of the American Statistical Association, 61(315), 595-604.

Allison, P. D. (2000). Multiple imputation for missing data: A cautionary tale.

Sociological Methods and Research, 28, 301–309.

Camilli, G., (1993). The case against item bias techniques based on internal criteria: Do item bias procedures obscure test fairness issues? The use of differential item functioning statistics: A discussion of current practice and future implications. In P.

W. Holland, & H. Wainer (Eds.), Differential item functioning (pp. 397-413). New Jersey: Lawrence Erlbaum Associates, Inc.

Candell, G. L., & Drasgow, F. (1988). An iterative procedure for linking metrics and

Candell, G. L., & Drasgow, F. (1988). An iterative procedure for linking metrics and