先定錨後檢核策略的應用

第二章文獻探討

第三節先定錨後檢核策略的應用

在前一節已簡述建立共同量尺是在進行 DIF 檢核前所需要的步驟，由此可知如果在 DIF 檢核方法上的共同量尺的出現 DIF 試題，也就是定錨題中有 DIF 試題，對於試題參數的估計會造成影響，將干擾 DIF 檢核的結果（Clauser, Mazor, & Hambleton , 1993; Kim & Cohen, 1992；Shepard, Camilli, & Williams, 1984）。在有關 DIF 檢核的研究中便可發現測驗中的 DIF 試題過高而導致型一誤差膨脹、檢核力下降的情況發生（Shih & Wang, 2009；Wang & Yeh, 2003）。

「先定錨後檢核」策略可以有效解決此問題，並且在 MIMIC 法（Shih &

Wang, 2009）、羅吉斯迴歸法（陳信豪，2009）、概似比檢定法（孫國瑋，

2010）等方法中獲得驗證。在 Shih 與 Wang（2009）的研究中指出在兼顧檢核力及型一誤差的情況下，選擇 4 題 DIF-free 試題為定錨題就能得到不錯的檢核效果;而孫國瑋（2010）的研究中也發現結合「先定錨後檢核」策略的概似比檢定法，使用 4 題 DIF-free 試題為定錨題時，DIF 檢測時型一誤差也能得到有效的控制。所以本研究也將使用 4 題 DIF-free 試題當做定錨題，進行後續的研究。

「先定錨後檢核」策略的程序是先透過一般的 DIF 檢測統計程序，在測驗中先篩選出一組 DIF-free 的試題當做定題法中的定錨題，再利用這組定錨題對測驗裡其他的試題進行 DIF 檢核。從此程序中，可以暸解篩選出一組 DIF-free 的試題當做定題法中的定錨題是影響 DIF 檢核力及型一誤差的主要因素之一。

如何篩選出一組正確的 DIF-free 的試題當做定錨題是很重要的事。在以往有關概似比檢定法的研究中常用來選擇定錨題的方法主要有標準概似比檢定法選題法（孫國瑋，2010；陳惠靖，2011）及加入量尺淨化的概似比檢定法選題法

（孫國瑋，2010；陳惠靖，2011），以下就此二種選題法程序進行介紹。

壹、標準概似比檢定法選題法

所謂的標準概似比檢定法（standard LRT method, 以下簡稱 ST 法）選題法的程序，是先利用餘題法對測驗中的每道試題進行 DIF 檢核，從結果得出每一試題相同自由度的 LR 統計值後，再依此 LR 統計值的大小將其排序，從其中找出 LR 統計值最小 4 題的試題當作定錨題，再進行後續的 DIF 檢核。

貳、量尺淨化的概似比檢定法選題法

在以往有關量尺淨化程序的研究可粗分為兩種方式：二階段淨化及迭代淨化（French & Maller, 2007; Holland & Thayer, 1988; Shih & Wang, 2009）。兩種方式均是先以 DIF 檢定法對測驗中所有的試題進行 DIF 檢核，待所有試題檢核完畢後，將檢核出 DIF 的試題自測驗中移除，僅以無 DIF 的試題組成新的配對變項，此即為所謂的淨化程序，並重新對每道試題再進行檢核，惟檢核前一階

段被視為 DIF 的試題時，需將該試題納入配對變項中。如果淨化程序只進行一次，則稱為二階段淨化，若淨化程序重複進行，直到相同的 DIF 檢核結果出現才停止，則稱為迭代淨化。

本研究採用的是量尺迭代淨化的概比檢定法（ LRT method with scale purification, 以下簡稱 SP 法）方式進行探究，在完成量尺淨化的程序後，可得到每道試題的 LR 統計值，再依此 LR 統計值的大小將其排序，從其中找出 LR 統計值最小 4 題的試題當作定錨題，再進行後續的 DIF 檢核。

第四節試題參數與 DIF 檢核力

在過往有關 DIF 檢核研究時，發現 DIF 試題的鑑別度參數、難度參數會對 DIF 檢核時的檢核力及型一誤差造成影響（楊雅惠 & 鄒慧英, 2010; 黃瓅瑩, 2008; Ankenmann, Witt & Dunbar, 1999;Hidalgo & Lopez-Piza, 2004; Lopez-Rivas、

Stark & Chernyshenko, 2009; Monahan & Ankenmann, 2005; Narayanan &

Swaminathan, 1994; Roussos & Stout, 1996; Uttaro & Millsap, 1994; Rogers &

Swaminathan, 1993），從上述的模擬研究可發現 DIF 試題參數對 DIF 檢核效果存在某種程度的影響。除此之外，在國外有關試題參數與 DIF 檢核研究的實徵資料中發現試題參數對 DIF 檢核是會造成影響的（Scherbaum & Goldstein, 2008；

Santelices & Wilson, 2011）。

結合先定錨後檢核策略之概似比檢定法的檢核效果是否會受到 DIF 試題參數的影響，目前尚未被探究，因此具有何種參數特徵的 DIF 試題在結合先定錨後檢核策略之概似比檢定法下是容易被檢核出來的；或是會對型一誤差造成影響？這是本研究想探討的議題之一。

第三章研究方法與設計

本研究主要目的為探究結合先定錨後檢核策略之概似比檢定法在 DIF 檢核效果在二元計分下，對 DIF 試題檢核力高低及型一誤差是否受到試題參數的影響。研究者利用模擬研究探討「標準概似比檢定法選題法」及「量尺淨化概似比檢定法選題法」二種方法篩選 DIF-free 試題之正確率及其後續檢核效果，因此在第一節將先介紹第一階段的模擬研究方法「二種選題法在不同情境下篩選試題的正確率」；在第二節中則介紹第二階段的模擬研究方法「二種選題法在不同情境下用於先定錨後檢核策略之型一誤差及檢核力效果」；第三節介紹本研究所使用的免費軟體 IRTLRDIF。

第一節二種選題法在不同情境下篩選 DIF-free 試題之正確率

第二章的文獻探討中，已探究過若能在測驗中找到確實為 DIF-free 的定錨題，進行先定錨後檢核策略時，便可有效控制型一誤差膨脹的問題。本研究雖聚焦於試題參數對結合先定錨後檢核策略之概似比檢定法檢核效果的影響，但篩選確實為 DIF-free 的試題當做定題法中的定錨題，對於後續檢核效果的影響是不可忽略的重要因素之一。由於篩選出的定錨題是否確實為 DIF-free 試題將影響本研究第二階段模擬研究的檢核效果，所以在本階段的研究擬探討二種選題法在不同情境下篩選出的定錨題確實是 DIF-free 試題之正確率。

壹、研究方法

在以概似比檢定法進行 DIF 檢核的相關研究中，常使用 IRT 模式下的二元計分，即作答反應為 0（答錯）及 1（答對）的測驗資料進行檢核。IRT 模式下

主要意涵是不同能力的受試者，在同一道試題上的答對機率會有所不同，而本階段的研究是利用 IRT 模式的二參數對數模式下的作答資料來探討二種選題法在不同情境下篩選定錨題確實為 DIF-free 試題之選題正確率。如何在二參數對數模式下計算出能力值為 受試者在第 i 道試題的答對機率，可利用下列的公式。

其中為受試者的能力值、為第 i 道試題的鑑別度參數值、為第 i 道試題難度參數值。

貳、研究設計

為了避免測驗中的試題難度分配不均而造成偏易或偏難的情況產生，本研究參考 Hanson 與 Beguin（2002）研究中的 100 題試題參數，從中按照試題難度分配由低排列至高分成三群，再從低、中、高難度三群試題中各選 7、7、6 題組成題長 20 的測驗；而題長 40 的測驗則分別從低、中、高難度三群試題挑選 14、13、13 題組合而成的，所使用參數分別列於表 1 及表 2，再由研究者撰寫 Matlab 程式，產生 20 題及 40 題在二元分模式下二參數對數模式下的模擬作答反應資料後，再以 IRTLRDIF 進行二種選題法篩選試題，計算選出的試題確實為 DIF-free 試題的比率，即是二種選題法篩選 DIF-free 試題為定錨題的正確率。

在以往的研究中發現，選擇 4 題 DIF-free 試題為定錨題就能得到不錯的檢測效果，所以本研究欲篩選出 4 道 DIF-free 試題當做定錨題，其正確率的計算方式為當二種選題法分別篩選出 4 道定錨題中，4 道皆為 DIF-free 試題，則正確率為 100%、3 題為 75%、2 題為 50%、1 題 25%，若 4 題皆為 DIF 試題，則選題正確率為 0%。

在本模擬實驗研究中共操弄的 5 個獨立變項，分別為受試者的能力分配

（ability difference）、受試者人數（sample size）、測驗長度（test length）、測驗中不同百分比 DIF 試題（DIF percentage）、相同百分比 DIF 試題的難度等級

（difficulty level）發生情境，並觀察這些變項與選題正確率的關聯及影響。

一、受試者的能力分配

根據以往相關的研究，可將兩群體分別定義為參照群體（reference group，

簡稱 R）代表優勢團體或多數族群及焦點團體（focal group，簡稱 F）代表弱勢團體或少數族群。本研究於此階段操弄兩群體之能力為相等與不相等兩種情形，

參照群體的受試者能力均設定為平均數為 0 且標準差為 1 的標準常態分配，而焦點群體的受試者能力則分為兩種：第一是與參照群體相同的標準常態分配，

代表兩群體平均能力相等，表示在現實情況中兩群體的能力相近；第二則為平均數為-1 且標準差為 1 的常態分配，代表兩群體之平均能力相差 1 個標準差，

也就是兩群體受試者在能力上有所差異，藉以反應現實情境中，兩群體平均能力有差異之情形，研究者藉由操弄此變項來探討能力差異是否會對不同選題法篩選 4 題 DIF-free 試題正確率造成影響。

二、受試者人數

由於在樣本數 1000 人以上時使用概似比檢定法進行 DIF 檢核的檢核力會較好（Stark, Chernyshenko, & Drasgow, 2006），於是本研究中操弄人數的情形有二種，分別為兩群人數相同 R1000/F1000 及兩群體人數不同 R1000/F500。

三、測驗長度

測驗的長度是否也會影響到篩選 DIF-free 試題正確率亦是研究者想瞭解的面向之一，所以在研究設計中以題長為 20 題及 40 題分別表短測驗及一般長度的測驗。

四、測驗中不同百分比 DIF 試題

在 IRT 模式下有關 DIF 的檢核方法的研究中，發現在參數估計上的正確率會受到測驗中 DIF 試題增加影響，此情況對篩選 DIF-free 試題之正確率可能會造成影響，概似比檢定法亦無法避免此情況的產生，本研究的重點雖在試題參數對 DIF 檢核效果的影響，但在過往的研究發現測驗中不同比例的 DIF 試題對

於篩選 DIF-free 試題之正確率會造成影響（孫國瑋，2010），在本研究也想瞭解，但受限本研究主要在探討不同 DIF 試題難度參數對選題正確率的影響，若測驗中 DIF 試題超過 25%以上，DIF 試題就會涵蓋到另一個難度等級，因此在本研究中操弄 DIF 試題的百分比為 10%、20%。

五、測驗中相同百分比 DIF 試題的不同難度等級發生情境

在文檔中結合先定錨後檢核策略之概似比檢定法的DIF檢核效果與試題參數之關係 (頁 16-0)

第二章 文獻探討

第三節 先定錨後檢核策略的應用