• 沒有找到結果。

第二章 文獻探討

第二節 遺失值的處理方法

(3) MAR III:相較於能力高低,試題難易對於作答反應的遺失也有其影響與關 聯性。當試題難度較高時,受測者會因為無法回答或跳答(skip)而產生遺 失值,故將高難度試題設定為遺失母群。因此本研究嘗試針對高難度試題 的作答反應隨機抽取遺失值。綜合上述闡釋,本研究將操弄四種遺失機制,

分別為:MCAR、MAR I、MAR II與MAR III。

除了針對不同遺失機制下的資料分配形態作討論外,遺失機制與遺失比率之 間的交互作用也是一個值得探討的議題。根據Robitzsch與Rupp(2009)的研究結 果,其針對遺失機制、遺失比率與遺失值處理方式三個變項作三因子變異數分析,

顯示遺失機制對於DIF偵測的偏誤量有最大的解釋力,它的主要效果佔偏誤變異 40%的解釋量。此外,遺失機制與遺失比率的交互作用佔12%,相較於遺失機制與 遺失值處理方法的交互作用佔7%,以及遺失比率與處理方法的交互作用佔5%,可 顯示遺失機制與遺失比率在DIF偵測效果上扮演重要的角色。

第二節 遺失值的處理方法

有些研究者以傳統方法與現代方法來劃分遺失值的處理方法 (Peugh &

Enders, 2004),有些則以基礎方法與概似方法作劃分(Little & Rubin, 2002)。無論 是何種分類方式,前者大抵是指刪除法(deletion)與各種單一插補法(single imputation),後者則是指概似估計法(likelihood-based approaches)與多重插補法

(multiple imputation, MI)。

當資料有遺失值,最簡單的處理方式就是整筆刪除(listwise deletion),無論 一個變項或多個變項中有遺失值,此法都會將該樣本完全地刪除。下圖2-2-1是配 合本研究情境來具體化整筆刪除的歷程,以黑點表示遺失值,當受測者於任何試 題的作答反應有遺失值,便刪除該受測者所有的作答反應。顯然,刪除法會使得 資料量驟減,而統計分析的power值也會受到嚴重影響。Sinharay, Stern, & Russell

(2001)也指出只有在遺失機制為MCAR時,此法才能得到不偏的參數估計值。

圖2-2-1 刪除法的處理歷程

零插補法(zero imputation)是單一插補法中最簡單的,當資料點有遺失值時,

便以0值來取代。圖2-2-2中,線段的左端點為有遺失值的資料點,表示受測者的某 些作答反應有遺失,任何遺失值都插補成0值。然而,當一位受測者於某試題沒有 反應時,0值未必就是該受測者應得的分數。零插補的好處是仍保有多數的資料點,

然而此法背後並無統計模型,因此不被研究者視作一個真正的插補法。

圖2-2-2 零插補法的處理歷程

然而,這些傳統方法並未能確實反映遺失資料,也因此開始有使用概似估計 方法與多重插補法來處理遺失值的趨勢。概似估計方法實為IRT取向的DIF偵測方 法之一,由於本研究已擬定以Lord的𝜒!考驗方法來偵測DIF試題,便省略概似估計 法的討論。Rubin(1987, 1996)曾指出多重插補法是現今處理遺失值最好的方法 之一,故本研究僅以多重插補法作為遺失值的處理方法。

多重插補的想法最早是由Rubin(1977)提出,此法是利用兩個以上的數值來 取代遺失值,並假定這些插補值足以反映遺失資料原本的機率分配。十年後,Rubin 在其專書中闡明此概念:

(1) 使用一個併有隨機變異的適切模式來插補遺失值。

(2) 重複此插補動作M次(通常是三到五次),以產生M個補完資料集。

(3) 對各個資料集使用標準流程來進行分析。

(4) 將M個參數估計值取平均數,以產生單一的點估計值。

(5) 可藉由不同方法來計算插補值的標準誤。

下圖2-2-3是修改自Rubin(2009),其呈現遺失資料點與插補值的關係,並配 合本研究情境加以修改,以便於具象化將多重插補的歷程。圖的左半部為既有的 資料,線段的左端點為有遺失值的資料點,右端則指向經多重插補而產生的插補 值列向量。每一個遺失的資料點會對應到一個插補列向量,該向量表示M次的插補 動作,而本研究將其設定為五次。

圖2-2-3 多重插補法的處理歷程

相較於單一插補法,多重插補法有三個非常重要的優勢。首先,由於插補程 序企圖透過隨機抽取的方式來反映該資料的分配情形,因而多重插補可以增加參 數估計的效能。其次,多重插補是在一個假設的遺失值模型下重複隨機抽取插補 值,再將各組補完資料集加以整合,我們因此可以更容易得到有效的推論。最後

一點,由於所有的插補值是自多個模型重複隨機抽取而來,並重複使用完整資料 的統計方法,因而可以對不同遺失值模型的推論敏感性作研究(Rubin, 2009)。顯 然,多重插補法在理論架構上便比單一插補法來得強韌。況且,若我們直觀地看 待此二方法,其實也不難推斷多重插補法在參數估計與結果推論上有較好的效 能。

此外,Allison(2000)也曾指出多重插補法有數個可取的特點:第一,於插 補歷程引入適當的隨機誤差,使其有可能得到近乎無偏誤的參數估計值,這是一 般的插補法未能達到的。第二,重複插補得以對標準誤有良好的估計,相對地,

單一插補時並不允許引入多餘的誤差,因此估計的效能有限。第三,任何資料類 型與分析方法都可以使用多重插補,且不需要專門的軟體。這裡的優點顯示,儘 管多重插補法較單一插補法豐富但不是複雜,且仍維持使用的便易性,這對於研 究人員或分析資料者都是非常重要的事情。

現今已有不少統計軟體包含多重插補的功能,像是AMOS、SAS等,因此各種 統計分析在面臨遺失值時能更有效地處理。以NORM(Schafer, 1999)與MICE(van Buuren & Oudshoorn, 1999)為例,前者是使用多變項常態分配作為資料的分配假 設,後者則沒有一個既定的分配假設。MICE的多重插補歷程中,在透過回歸模式 來插補遺失值之前,會先自回歸參數的後驗分配取樣以決定其分配假設。換句話 說,MICE乃是依據現有資料的分配情形,選定其分配假設再進行多重插補的程序,

因此更為彈性且應用性更廣泛。本研究是使用MICE來進行資料插補,且產生五組 插補資料集,但僅取第一次的插補資料來進行DIF分析,所以實際上仍屬於單一插 補的範疇。