研究目的與問題

第一章緒論

第二節研究目的與問題

SEM 中的多重指標與多重因果（multiple indicators, multiple causes; MIMIC）模式作為 IRT 之 DIF 分析的方法（MacIntosh & Hashim, 2003; Muthén & Lehman, 1985）。最近幾年，研究 DIF 的學者逐漸重視驗證性因素分析，而平均數與共變數結構法（mean and covariance structure; MACS; Sörbom, 1974）是 CFA 中的一種特殊形式。從以往的文獻中可看出，透過模擬研究，MACS 已成功地運用在 DIF 檢核方法上（如：Finch, 2005; González-Romá, Hernández, & Gómez-Benito, 2006;

Hernández & González-Romá, 2003; Meade & Lautenschlager, 2004; Navas-Arai &

Gómez-Benito, 2002; Oort, 1998; Stark, Chernyshenko, & Drasgow, 2006;

Wanichtanom, 2001）

第二節研究目的與問題

對許多心理學家而言，因素分析是眾所周知的技術，然而在 IRT 的領域中，

它所使用的方法較為複雜。在最近幾年相關的議題研究中，已經有許多學者將結構方程模式中的測量恆等性與 IRT 中的 DIF 相結合，而 SEM 便是運用因素分析來分析二元計分變項的一種統計技術，且 Takane 與 de Leeuw(1987)也驗證了在二元變項的因素分析是與 IRT 中的二參數常態肩形模式是等價的。而 MACS 法是 SEM 中的一種模式，相較於其它模式，其優勢在於能同時檢定 uniform DIF 與 nonuniform DIF (Hernández & González-Romá, 2003; González-Romá, Hernández,

& Gómez-Benito, 2006; Stark, Chernyshenko, & Drasgow, 2006)。

以往 MACS 文獻中，二分題資料的產出來自於符合常態肩型（normal ogive）

二參數的 IRT 模型；而多分題資料產出來自於等級反應模式（graded response model, GRM, Samejima, 1969）。Hernández 和 González-Romá（2003）使用 MACS 方法模擬 GRM 的資料來檢核 uniform 和 non-uniform DIF 試題，其結果發現在檢測 non-uniform DIF 時，型一誤差控制在合理的範圍內；然而卻無法檢測出 uniform DIF。在檢測 uniform DIF 時，DIF 量在中等以上，檢核力表現得還不錯；但在

non-uniform DIF 時，檢核力表現得不理想。Hernández 和 González-Romá 的實驗設檢測計只操弄 DIF 型態和 DIF 量，只設定一題為 DIF 試題。在真實的測驗情境通常不只包含一道 DIF 試題，而且每道試題應該都被檢測到。 González-Romá 及 Hernández 與 Gómez-Benito（2006）也使用 MACS 方法模擬 GRM 的資料做 DIF 檢測，在他們的實驗設計操弄了 DIF 型態、DIF 量、受試者能力分配和樣本數，

其結果顯示當兩群體樣本數相同以及兩群體受試者能力相等的狀況下，型一誤差控制良好。在檢核力的部分，當兩群體的樣本數為 R200/F200 和 R400/F200，在檢測中等 DIF 量的 uniform 和 non-uniform DIF，其檢核力都在.70 以上。

González-Romá 及 Hernández 與 Gómez-Benito 的實驗設計並沒有操弄題長，也只設定一題為 DIF 試題，其模擬資料為了配合 ML 估算法（Bollen, 1989）而在試題在分析類別資料方面，電腦軟體 Mplus（Muthén & Muthén, 2007）將適用潛在變量模型做類別資料的分析。

過去檢定多分題之差異試題功能的研究中，其測驗由大部分的二分試題，再加上少數幾題的多分試題而組成，且測驗中多只操弄一題多分試題含有 DIF，這樣作法與真實情境顯然有一段距離，其結果也難類推至真實情境。從以往的文獻中發現若兩群體的受試者能力分配有所差異的情況下，使用 Mantel-Haenszel 和 SIBTEST 方法檢核 DIF，型一誤差較容易產生失控的現象（Roussos & Stout, 1996;

Uttaro & Millsap, 1994）。在 Kaplan 和 George（1995）的研究中也提出兩群體樣本數不等的狀況下，檢核力會降低。因此本研究為延伸之前文獻之方法，探究 MACS 在多分題上檢核 DIF 之效能，將實驗設計擴充到不只有一道 DIF 試題，並

操弄兩群體受試者的能力分配以及兩群體的樣本數，以電腦軟體 Mplus 做 GRM 資料的分析。

綜合上述，本研究欲探討的問題如下：

一、平均數及共變數結構法在多分題上 DIF 檢核中，型一誤差及檢核力是否會受到受試者能力分配的影響？

二、平均數及共變數結構法在多分題上 DIF 檢核中，型一誤差及檢核力是否會受到樣本數大小的影響？

三、平均數及共變數結構法在多分題上 DIF 檢核中，型一誤差及檢核力是否會受到測驗長度的影響？

四、平均數及共變數結構法在多分題上 DIF 檢核中，型一誤差及檢核力是否會受到測驗中 DIF 試題百分比的影響？

在文檔中平均數及共變數結構法在多分題上的DIF檢核效果 (頁 9-13)

第一章 緒論

第二節 研究目的與問題

第二節 研究目的與問題

第一章緒論

第二節研究目的與問題

第二節研究目的與問題