結論與建議 - 不同資料遺失樣態對於差異試題功能偵測效果之影響

本章共分為兩節，第一節說明各個研究問題之結論，並提出建議。第二節則則說明本研究的研究限制，以及未來研究方向的可能性。

第一節 研究結論與建議

本研究包含三個研究問題，最主要的目的是想瞭解不同資料遺失樣態對於DIF 偵測效果的影響，其中遺失樣態包括遺失機制與遺失比率兩個變項，而DIF偵測效果則是DIF試題的正確偵測率（power值）與型一錯誤率（α值）。其中也將遺失值的處理方法（有無使用單一插補法），以及DIF偵測方法（是否為IRT取向方法、是否使用純化程序）兩個議題加入本研究，以探討上述變項與DIF偵測效果的關係。

一. 遺失樣態對於 DIF 偵測效果的影響

結論、討論與建議分述如下：

（一）結論

1. 若以 MH 法作為 DIF 偵測方法，在不同遺失機制下，DIF 偵測效果會有差異。

特別是 MAR I，其是針對焦點組的作答反應隨機抽取遺失值，因此焦點組與參照組有不同的題數基準，導致不準確的能力配對與估計。所以在MAR I 情境下使用MH 法分析，其 α 值與 power 值都會異常地高。

2. 若以 MH 法作為 DIF 偵測方法時，遺失機制與遺失比率之間有交互作用存在。

在MCAR、MAR II 與 MAR III 時，隨著遺失比率增高，其 α 值與 power 值皆會降低；但MAR I 卻是相反，隨著遺失比率增高，α 值與 power 值皆會升高。

3. 若以 Lord 法作為 DIF 偵測方法，無論是 α 值或 power 值，都不受到遺失樣態的影響，表示此法具有能力估計的不變性。

4. 除了 MAR I 遺失機制外，其他三種遺失機制的 α 值沒有太大的差異。另一方面，是以MAR II 的 power 值最佳，MAR III 次之，再次者則為 MCAR。

（二）討論

在MAR I 的遺失情境下，若以 MH 法偵測 DIF 試題，α 值與 power 值都有異常高的現象，其異常是來自於MH 法幾乎將所有試題都判斷為有 DIF。MAR I 遺

失機制是針對焦點組作答反應隨機抽取遺失值，因而焦點組與參照組織間的題數基準不同，加上 MH 法是以測驗總分作為配對變項，因此在能力配對與估計上都失去準確度。相較於其他遺失機制，MCAR 是自所有作答反應產生遺失資料，自然不會有此問題。而其他兩種MAR 遺失機制，分別是以低能力者、高難度試題產生遺失值，也不會導致兩組的題數不同等。另一方面，因為 IRT 取向的 DIF 偵測方法具有能力估計不變性，所以若使用Lord 法來分析便可以避免上述的問題。

MAR II 與 MAR III 分別是針對低能力者與高難度試題隨機抽取遺失值，二者的α 值幾乎沒有差異，但 MAR II 的 power 值較 MAR III 來得高，尤其隨著遺失比率增加，二者間的差異更為突顯。因此，可以自此結果推斷這兩種MAR 遺失機制，

對於DIF 偵測效果是有不同的影響性。另一方面，MCAR 在 α 值上也無異於 MAR II 與 MAR III，其 power 值卻是三者中最差的。這個結果是值得討論的，因為 MCAR 的遺失形態是最均等的，是屬於MAR 中的特例，統計分析的結果應當最佳才合乎推論。由於本研究的MCAR 是針對所有作答反應隨機抽取遺失值，其遺失的資料量實是 MAR II 與 MAR III 的兩倍，因此會得到如此結果。換句話說，本研究的 MCAR 與 MAR 之間應是不得直接比較的。

（三）建議

若遺失機制為MAR I 時，應避免使用 MH 法作為 DIF 偵測方法，以防止得到異常的DIF 偵測結果。若無法避免在 MAR I 遺失情境下使用 MH 法，也應當妥善處理遺失值的問題，例如本研究採用單一插補法來處理遺失資料。Lord 法為 IRT 取向的DIF 偵測方法，具有參數估計的不變性，是較穩定的方法。相較之下，MH 法較易受到遺失比率與樣本數的影響。在MAR I 以外的遺失情境，MH 法與 Lord 法的DIF 偵測效果相當。

二. 單一插補對於 DIF 偵測效果的影響

（一）結論

1. 經單一插補處理遺失值後，power 值會隨著樣本數增多而升高，但 α 值也難避免膨脹。當遺失比率為30%時，α 值甚至都超出 0.05。

2. 若以 MH 法為 DIF 偵測方法時，單一插補法能解除 MAR I 的困境，藉由插補遺失值，可以使兩組回復相同的題數基準，不會再將所有試題都判斷為 DIF

試題，亦即α 值與 power 值不再高得異常。

（二）討論

單一插補有助於正確判斷 DIF 試題，各個情境的 power 值皆有所提升。使用單一插補法來處理遺失值，一方面能有效提升 power 值，另一方面卻也造成 α 值的膨脹，這是因為 power 值跟 α rate 之間存在著抵換關係（trade-off）。然而，在 MAR I 情境下以 MH 法進行 DIF 偵測時，會導致異常的 α 值與 power 值，此現象進行插補後可得到明顯的改善。由於MAR I 是針對焦點組的作答反應隨機抽取遺失值，因此會使兩組的題數基準不同等。相對於具有能力估計不變性的 Lord 法，

MH 法是以測驗總分作為配對變項的 DIF 偵測方法，因此其能力配對與估算都比較容易受到資料遺失的影響，才導致異常的 DIF 偵測結果。但是透過單一插補，

兩組的題數基準可以回復成同等，MH 的偵測結果也變得合理且可接受。雖然插補後的α 值較高，但仍勝過於未插補前將所有試題都判斷為有 DIF 的情況。

（三）建議

單一插補法不適用於高遺失比率的情境，因為插補過程會增加樣本數，α 值的膨脹難以避免，很難控制在0.05 以內。多數遺失情境下，若考量 power 值與 α 值之間的抵換關係，即便經插補後 power 值會升高，但也能避免 α 值的膨脹，使用單一插補法未必能有效改善DIF 偵測效果。然而，在 MAR I 遺失情境下使用 MH 法時，一定要使用單一插補法來處理遺失值，才適合進行後續的DIF 分析。

三. 純化程序對於 DIF 偵測效果的影響

（一）結論

1. 純化程序能改善多數遺失情境的 DIF 偵測效果，特別在大樣本、高 DIF 試題比率與重度DIF 試題的條件下。

2. 若以 MH 法為 DIF 偵測方法時，在 MAR I 情境下，光是透過純化程序並無法改善 DIF 偵測效果。必須先透過單一插補法處理遺失值，再加入純化程序，

才能得到較佳的結果。

3. 純化效果不會受到遺失比率的影響。

（二）討論

對於多數遺失情境而言，加入純化程序能有效改善 DIF 偵測的結果。然而，

在MAR I 遺失情境下使用 MH 法偵測 DIF 試題時，因為此遺失機制是以焦點組為遺失資料，因而參照組與焦點組是不同的題數基準，加上 MH 法是以測驗總分作為配對變項，而導致不準確的能力配對與估計。純化程序的作用在於排除 DIF 試題對於測驗分數的汙染，其確實能有效改善DIF 偵測效果，但無法解決 MAR I 遺失情境的根本問題。若只是在進行 DIF 分析時加入純化程序，兩組的題數無法回復為同等，因此能力配對與估計仍是不正確，終究無法改善 α 值異常高的現象。

也表示若無法避免在 MAR I 遺失情境下使用 MH 法，單一插補的處理有其必要性。

（三）建議

1. 若以MH法為DIF偵測方法，且遺失機制為MAR I時，要先以單一插補法處理遺失值，才能以MH-P法分析DIF試題。

2. 就其餘遺失情境而言，無論使用MH法或Lord法，直接使用純化程序皆能得到最佳的DIF偵測效果，毋需先使用單一插補法來處理遺失值。

第二節 研究限制與未來研究方向

一. 研究限制

1. 四種遺失機制中，MCAR 是針對所有作答反應隨機抽取遺失值，其他三種 MAR 則是針對特定條件隨機抽取遺失值，分別為焦點組、低能力者與高難度試題。MAR 類資料量，其實是所有作答反應的一半，但遺失比率的設定同樣是 10%與 30%，因此二者實質遺失的資料量是不同的。所以，本研究中的 MCAR 遺失情境與其他三者的 DIF 偵測效果，不能直接作比較。

2. 本研究僅探討單向 DIF，亦即所有 DIF 試題都是不利於焦點組。

3. 本研究沒有操弄焦點組與參照組之間的能力差異，兩組成員的能力參數都是來自標準常態分配。

二. 未來研究方向

1. MAR II 與 MAR III 兩種遺失機制對於 DIF 偵測效果的影響，應進一步討論二者之間的差異。此外，也可嘗試去探討同時考量受測者能力值與試題難度值的遺失機制，以改善只針對低能力者或高難度試題的局限性。像是在MAR II

的遺失情境下，低能力者作答低難度試題便不會在高遺失可能性的範圍內，

而若在 MAR III 的遺失情境下，高難度試題若被高能力者作答時，也不會在高遺失可能性的範圍內。未來應針對低能力者且高難度試題的條件來隨機抽取遺失值，或是針對能力值與試題難度值的差值來隨機抽取遺失值，以進一步探討更符合測驗實務的遺失情境。

2. 本研究使用 R 統計軟體內的 MICE 來插補遺失值，該套件可以用來進行多重插補，其過程是自一個併有隨機變異的適切模式來插補遺失值，且重複五次插補動作以產生插補資料集。本研究僅針對第一組插補資料進行 DIF 分析，

未來的延伸研究會對其餘四組插補資料集也進行 DIF 分析，在比較多重插補與單一插補對於DIF 偵測效果的影響。

3. 本研究僅以模擬研究的方式討論，未來若能配合實徵資料，重新檢視不同遺失樣態、單一插補法、DIF 偵測方法對於 DIF 偵測效果的影響，將使整個研究議題更為完滿。

參考文獻

中文部分

鄒慧英、江培銘（2012）。插補法在檢測試題差異功能的效果。測驗學刊, 59(1), 1-32.

英文部分

Afifi, A. A., & Elashoff, R. M. (1966). Missing observations in multivariate statistics I.

Review of the literature. Journal of the American Statistical Association, 61(315), 595-604.

Allison, P. D. (2000). Multiple imputation for missing data: A cautionary tale.

Sociological Methods and Research, 28, 301–309.

Camilli, G., (1993). The case against item bias techniques based on internal criteria: Do item bias procedures obscure test fairness issues? The use of differential item functioning statistics: A discussion of current practice and future implications. In P.

W. Holland, & H. Wainer (Eds.), Differential item functioning (pp. 397-413). New Jersey: Lawrence Erlbaum Associates, Inc.

Candell, G. L., & Drasgow, F. (1988). An iterative procedure for linking metrics and

在文檔中不同資料遺失樣態對於差異試題功能偵測效果之影響 (頁 67-76)