研究方法與設計

本研究主要目的為探究三種定錨題選題法於 IRT 取向中的概似比檢定法在多分題等級反應模式下使用先定錨後檢核策略的效果為何，研究中將利用兩階段的模擬研究探討三種篩選 DIF-free 試題的方法及其檢核效能。本章節中，將以「三種選題法篩選 DIF-free 試題之正確率」及「三種選題法用於先定錨後檢核策略之型一誤差及檢核力」兩節介紹兩階段的模擬研究設計，並在第三節

「軟體介紹」中介紹本研究使用的免費軟體 IRTLRDIF。

模擬研究一三種選題法篩選 DIF-free 試題之正確率

在文獻探討中，已探究過先定錨後檢核策略在以往研究中的表現效能，倘若能在測驗中找到確實為 DIF-free 的定錨題，便可達到控制型一誤差的效果。

因此，本階段研究中擬探討三種選題法篩選確實為 DIF-free 試題之選題正確率。

壹、研究方法

由於以往研究中探討概似比檢定法進行 DIF 檢測時，常使用等級反應模式，因此本階段研究是利用 GRM 模式的資料來探討三種篩選 DIF-free 試題方法之選題正確率。GRM 模式適合用來分析順序變數的資料，如李克特式量表，且其為二參數模式的延伸，亦即容許測驗中各試題的鑑別度參數有所不同，復因估計受試者在各選項的得分機率需要兩步驟的過程，因此是一種「間接的」

（indirect）IRT 模式（Embretson & Reise, 2000）。

GRM 模式的試題題型中，試題不需要有相同的反應類別，每一個量尺試題即有一個鑑別度（ slope parameter ）和反應選項減 1 的階難度（ category

“threshold” parameter），如：有五個反應選項，就會有四個階難度。以下介紹

如何在 GRM 模式下計算每個選項的得分機率。 R）以及焦點群體（focal group，簡稱為 F）常常用來分別代表優勢以及弱勢團體。本研究設定兩群體人數分別為參照群體 1000 人，焦點群體 500 人。試題參數部份則參考 Wang 與 Yeh（2003）之研究中的部份參數，使用參數列於表 1。

模擬資料由作者自行撰寫 Matlab 程式產生，將產生 GRM 模式的模擬資料分別以 IRTLRDIF 進行三種選題法篩選試題過後，計算所選取到的試題為 DIF-free 試題的比例，即為三種選題法所篩選出確實為 DIF-free 定錨題之選題正確率。

所篩選出的 4 道試題皆為 DIF 試題時，則選題正確率為 0%。

以下將介紹本模擬實驗所操弄的四個獨立變項，觀察這些變項與選題正確率個別的關聯與其影響。本研究中共操弄四個獨立變項，分別為受試者的能力分配（ability difference）、DIF 型態（DIF pattern）、測驗中 DIF 試題的百分比

（DIF percentage）及定錨題數（anchor items）。

一、受試者的能力分配

本研究於此階段操弄兩群體之能力為相等與不相等兩種情形，參照群體的受試者能力均設定為平均數為 0 且標準差為 1 的標準常態分配，而焦點群體的受試者能力則分為兩種，第一是與參照群體相同的標準常態分配，代表兩群體平均能力相等，第二則為平均數為-1 且標準差為 1 的常態分配，代表兩群體之平均能力相差一個標準差。兩群體受試者平均能力相等，在現實情況中即為能力相近，而兩群體受試者具有能力上的差異，在現實情況中有可能是因為種族或是其他因素影響而導致有差異，研究者藉由操弄此變項來探討能力差異對不同選題法篩選 DIF-free 試題正確率之影響。

二、DIF 型態

在真實的情況下，DIF 試題不一定只對某一群體有利或是完全不利，故而本階段研究中，將操弄兩種 DIF 型態：完全傾向（constant）以及平衡傾向

（balanced）。constant 型態表示測驗中所有的 DIF 試題均對同一群體有利，通常是針對參照群體，以本模擬研究設計為例，一份測驗 20 道試題中，設定 20%

的試題為 DIF 試題，意即在此份測驗中有 4 道試題被設定為是對參照群體有利，而 balanced 型態則為測驗中具有 DIF 試題時，其中一半的 DIF 試題是有利於參照群體，而另一半的 DIF 試題則是有利於焦點群體，同樣以 20 道試題為例，設定 20%的試題為 DIF 試題，則測驗中將有 2 道試題是有利於參照群體、

另 2 道試題則是對焦點群體為有利的現象。以這兩個型態而言，若整份測驗的 DIF 型態為 balanced，此時對於兩個群體來說是相對公平的情況，亦即 balanced

型態為兩群體間 DIF 現象最不顯著的情況，而 constant 型態則是 DIF 現象最嚴重的情況，而通常在真實的情境中，兩群體間的 DIF 現象介於這兩種情況之間，因此，本研究中欲觀察在此兩種型態下三種選題法在篩選 DIF-free 試題的結果，是否會影響選擇 DIF-free 試題之正確率。

三、測驗中 DIF 試題的百分比

當測驗中 DIF 試題增加，IRT 模式的檢核法在參數估計上將受到影響，概似比檢定法也不例外，然而這類的情況很有可能影響篩選 DIF-free 試題之正確率，於是本階段研究將操弄在測驗中不同比例的 DIF 試題，分別為 10%、

20%、30%以及 40%，以了解測驗中佔不同比例的 DIF 試題對於篩選 DIF-free 試題之正確率有何影響。

四、定錨題數

當從測驗中找出的定錨題確實為 DIF-free 試題時，即便只有一題定錨題，

型一誤差皆能獲得良好的控制（Stark et al., 2006; Wang, 2004; Wang & Yeh, 2003）。若定錨題的題數增加，則檢核力也將隨之提高（Wang, 2004; Wang &

Yeh, 2003），故考量 DIF 檢核的效能以及實務上要同時找到許多確實為 DIF-free 的定錨題並不容易，因此 4 道定錨題可能為較理想的選擇（Shih & Wang, 2009）。然因本研究為多分題，測驗長度為 20 道試題，為短測驗，且測驗中含有高 DIF 百分比時，篩選 4 道定錨題是否合適值得探究。故本研究階段將觀察選擇 2 道定錨題（測驗長度的 10%）及 4 道定錨題對於篩選 DIF-free 試題之正確率有何影響。

在其他實驗設計部份，本研究模擬資料設定為 GRM 模式的資料且由於同一試題的選項可能對於不同的受試者會產生不同的 DIF 現象，且不一定只有單一選項具有 DIF，可能同一試題的多個選項都具有 DIF 現象，故本研究模擬資料產生為 GRM 模式混合型 DIF 選項試題，也就是說在預設的 DIF 試題中，每一道試題可能有不同個選項存在 DIF 現象。以本研究題長 20 題為例，DIF 百分

比若佔題長的 20%，即為 4 道試題存在 DIF 現象，這四道試題的試題選項分別 average signed area（ASA）的概念，ASA 與 Raju 的面積測量法（Raju, 1988）

中之 signed area 有關，是計算參照群體與焦點群體兩群體的試題特徵曲線間的平均面積。以下先介紹 signed area（SA）的公式如下：

SA_i 



1c_i



b_iF b_iR



（3）

均難度的差異。當 ASA 為正值時，表示 DIF 試題對參照群體有利；當 ASA 為負值時，表示 DIF 試題對焦點群體有利，則當 ASA 的數值恰巧為 0 時，表示 DIF 試題對兩群體皆無產生有利的現象，在 Wang（2001）比較餘題法及定題法的研究中指出，使用餘題法進行 DIF 檢核，設定測驗中 DIF 試題均為 20%的情境、ASA 為 0.09 時，型一誤差仍控制得不錯，但將之提升至 0.18 時，則會導致型一誤差膨脹而失控；若設定 ASA 為 0 時，即使測驗中 DIF 試題百分比從 20%

提高至 50%，型一誤差仍舊有良好的控制且也有高檢核力，DIF 檢核會受到 ASA 的影響。故本階段研究也將計算不同情境下之 ASA，將於研究結果中探討 ASA 對於三種選題法篩選 DIF-free 試題正確率的影響。

模擬研究二三種選題法用於先定錨後檢核策略之型一誤差及檢核力

為研究 DIF-free 試題在 DIF 檢核方法中的效能，在本階段模擬研究將使用模擬研究一中三種選題法所篩選出的 DIF-free 試題做為定錨題，利用這些定錨題來進行後續定題法的 DIF 檢核，比較此三種選題法所篩選出的定錨題應用於定題法 DIF 檢核，也就是運用 DFTD 策略後所得之型一誤差及檢核力。

壹、研究方法

本階段研究方法為利用上一階段所使用的排序選題法、量尺淨化法及迭代定題法三種篩選 DIF-free 試題的選題法所篩選出的 2 道及 4 道 DIF-free 試題做為本模擬研究的定錨題，對測驗中其他試題進行後續的定題法 DIF 檢核，觀察及比較進行先定錨後檢核策略後所獲得之型一誤差及檢核力。

貳、研究設計

本階段研究之模擬資料延續使用上述階段的實驗設計，同樣是由作者使用 Wang 與 Yeh（2003）之研究中的部份參數撰寫 Matlab 程式，產生題長 20 題

GRM 模式資料及受試者為參照群體 1000 人、焦點群體 500 人的模擬資料並利用三種選題法所選取出的定錨題以 IRTLRDIF 進行定題法的 DIF 檢核。本研究參考以往的文獻找出四個獨立變項，藉由模擬研究二來觀察這四個變項在進行先定錨後檢核策略時，會如何影響所得之型一誤差及檢核力。而所謂型一誤差即為「DIF 檢核方法將沒有存在 DIF 現象的試題誤判為具有 DIF 的試題」之機率，而檢核力則是「檢核方法能正確的檢測出具有 DIF 現象的試題」的機率，

而本研究實驗預設每次模擬實驗可接受的型一誤差之機率為 0.05，顯著水準即為 0.05，經由二項分配計算後，在 100 次的重複模擬中可容許 0.0073 至 0.0927 的機率被誤判具有 DIF 現象，此為型一誤差可接受之範圍，而型一誤差與檢核力為一體兩面，若型一誤差膨脹且失控於此範圍之外，所得的檢核力不論是高或低已沒有意義。

本模擬研究共操弄四個獨立變項，分別為受試者的能力分配（ ability difference ）、 DIF 型態（ DIF pattern ）、測驗中 DIF 試題的百分比（ DIF percentage）以及定錨題數（anchor items）。

一、受試者的能力分配

根據以往的研究，即便測驗中含有 DIF 試題的百分比為 0，兩群體平均能力差異為一個標準差時，依舊無法良好的控制型一誤差（孫國瑋，2010; Wang ＆ Su, 2004），在本階段研究中同樣也操弄兩群體平均能力為相等與不相等的情況。參照群體的受試者能力為平均數為 0，標準差為 1 的標準常態分配，而焦點

在文檔中三種定錨題選題法於先定錨後檢核策略之效果比較─以概似比檢定法檢核多分題差異試題功能為例─ (頁 19-28)

模擬研究一 三種選題法篩選 DIF-free 試題之正確率

壹、研究方法







模擬研究二 三種選題法用於先定錨後檢核策略之 型一誤差及檢核力

壹、研究方法

貳、研究設計

模擬研究一三種選題法篩選 DIF-free 試題之正確率

模擬研究二三種選題法用於先定錨後檢核策略之型一誤差及檢核力