本研究主要目的為探究三種定錨題選題法於 IRT 取向中的概似比檢定法在 多分題等級反應模式下使用先定錨後檢核策略的效果為何,研究中將利用兩階 段的模擬研究探討三種篩選 DIF-free 試題的方法及其檢核效能。本章節中,將 以「三種選題法篩選 DIF-free 試題之正確率」及「三種選題法用於先定錨後檢 核策略之型一誤差及檢核力」兩節介紹兩階段的模擬研究設計,並在第三節
「軟體介紹」中介紹本研究使用的免費軟體 IRTLRDIF。
模擬研究一 三種選題法篩選 DIF-free 試題之正確率
在文獻探討中,已探究過先定錨後檢核策略在以往研究中的表現效能,倘 若能在測驗中找到確實為 DIF-free 的定錨題,便可達到控制型一誤差的效果。
因此,本階段研究中擬探討三種選題法篩選確實為 DIF-free 試題之選題正確 率。
壹、研究方法
由於以往研究中探討概似比檢定法進行 DIF 檢測時,常使用等級反應模 式,因此本階段研究是利用 GRM 模式的資料來探討三種篩選 DIF-free 試題方法 之選題正確率。GRM 模式適合用來分析順序變數的資料,如李克特式量表,且 其為二參數模式的延伸,亦即容許測驗中各試題的鑑別度參數有所不同,復因 估計受試者在各選項的得分機率需要兩步驟的過程,因此是一種「間接的」
(indirect)IRT 模式(Embretson & Reise, 2000)。
GRM 模式的試題題型中,試題不需要有相同的反應類別,每一個量尺試題 即 有 一 個 鑑 別 度 ( slope parameter ) 和 反 應 選 項 減 1 的 階 難 度 ( category
“threshold” parameter),如:有五個反應選項,就會有四個階難度。以下介紹
如何在 GRM 模式下計算每個選項的得分機率。 R)以及焦點群體(focal group,簡稱為 F)常常用來分別代表優勢以及弱勢團 體。本研究設定兩群體人數分別為參照群體 1000 人,焦點群體 500 人。試題參 數部份則參考 Wang 與 Yeh(2003)之研究中的部份參數,使用參數列於表 1。
模擬資料由作者自行撰寫 Matlab 程式產生,將產生 GRM 模式的模擬資料分別 以 IRTLRDIF 進行三種選題法篩選試題過後,計算所選取到的試題為 DIF-free 試題的比例,即為三種選題法所篩選出確實為 DIF-free 定錨題之選題正確率。
所篩選出的 4 道試題皆為 DIF 試題時,則選題正確率為 0%。
以下將介紹本模擬實驗所操弄的四個獨立變項,觀察這些變項與選題正確 率個別的關聯與其影響。本研究中共操弄四個獨立變項,分別為受試者的能力 分配(ability difference)、DIF 型態(DIF pattern)、測驗中 DIF 試題的百分比
(DIF percentage)及定錨題數(anchor items)。
一、受試者的能力分配
本研究於此階段操弄兩群體之能力為相等與不相等兩種情形,參照群體的 受試者能力均設定為平均數為 0 且標準差為 1 的標準常態分配,而焦點群體的 受試者能力則分為兩種,第一是與參照群體相同的標準常態分配,代表兩群體 平均能力相等,第二則為平均數為-1 且標準差為 1 的常態分配,代表兩群體之 平均能力相差一個標準差。兩群體受試者平均能力相等,在現實情況中即為能 力相近,而兩群體受試者具有能力上的差異,在現實情況中有可能是因為種族 或是其他因素影響而導致有差異,研究者藉由操弄此變項來探討能力差異對不 同選題法篩選 DIF-free 試題正確率之影響。
二、DIF 型態
在真實的情況下,DIF 試題不一定只對某一群體有利或是完全不利,故而 本階段研究中,將操弄兩種 DIF 型態:完全傾向(constant)以及平衡傾向
(balanced)。constant 型態表示測驗中所有的 DIF 試題均對同一群體有利,通 常是針對參照群體,以本模擬研究設計為例,一份測驗 20 道試題中,設定 20%
的試題為 DIF 試題,意即在此份測驗中有 4 道試題被設定為是對參照群體有 利,而 balanced 型態則為測驗中具有 DIF 試題時,其中一半的 DIF 試題是有利 於參照群體,而另一半的 DIF 試題則是有利於焦點群體,同樣以 20 道試題為 例,設定 20%的試題為 DIF 試題,則測驗中將有 2 道試題是有利於參照群體、
另 2 道試題則是對焦點群體為有利的現象。以這兩個型態而言,若整份測驗的 DIF 型態為 balanced,此時對於兩個群體來說是相對公平的情況,亦即 balanced
型態為兩群體間 DIF 現象最不顯著的情況,而 constant 型態則是 DIF 現象最嚴 重的情況,而通常在真實的情境中,兩群體間的 DIF 現象介於這兩種情況之 間,因此,本研究中欲觀察在此兩種型態下三種選題法在篩選 DIF-free 試題的 結果,是否會影響選擇 DIF-free 試題之正確率。
三、測驗中 DIF 試題的百分比
當測驗中 DIF 試題增加,IRT 模式的檢核法在參數估計上將受到影響,概 似比檢定法也不例外,然而這類的情況很有可能影響篩選 DIF-free 試題之正確 率,於是本階段研究將操弄在測驗中不同比例的 DIF 試題,分別為 10%、
20%、30%以及 40%,以了解測驗中佔不同比例的 DIF 試題對於篩選 DIF-free 試 題之正確率有何影響。
四、定錨題數
當從測驗中找出的定錨題確實為 DIF-free 試題時,即便只有一題定錨題,
型一誤差皆能獲得良好的控制(Stark et al., 2006; Wang, 2004; Wang & Yeh, 2003)。若定錨題的題數增加,則檢核力也將隨之提高(Wang, 2004; Wang &
Yeh, 2003),故考量 DIF 檢核的效能以及實務上要同時找到許多確實為 DIF-free 的定錨題並不容易,因此 4 道定錨題可能為較理想的選擇(Shih & Wang, 2009)。然因本研究為多分題,測驗長度為 20 道試題,為短測驗,且測驗中含 有高 DIF 百分比時,篩選 4 道定錨題是否合適值得探究。故本研究階段將觀察 選擇 2 道定錨題(測驗長度的 10%)及 4 道定錨題對於篩選 DIF-free 試題之正 確率有何影響。
在其他實驗設計部份,本研究模擬資料設定為 GRM 模式的資料且由於同 一試題的選項可能對於不同的受試者會產生不同的 DIF 現象,且不一定只有單 一選項具有 DIF,可能同一試題的多個選項都具有 DIF 現象,故本研究模擬資 料產生為 GRM 模式混合型 DIF 選項試題,也就是說在預設的 DIF 試題中,每 一道試題可能有不同個選項存在 DIF 現象。以本研究題長 20 題為例,DIF 百分
比若佔題長的 20%,即為 4 道試題存在 DIF 現象,這四道試題的試題選項分別 average signed area(ASA)的概念,ASA 與 Raju 的面積測量法(Raju, 1988)
中之 signed area 有關,是計算參照群體與焦點群體兩群體的試題特徵曲線間的 平均面積。以下先介紹 signed area(SA)的公式如下:
SAi
1ci
biF biR
(3)均難度的差異。當 ASA 為正值時,表示 DIF 試題對參照群體有利;當 ASA 為 負值時,表示 DIF 試題對焦點群體有利,則當 ASA 的數值恰巧為 0 時,表示 DIF 試題對兩群體皆無產生有利的現象,在 Wang(2001)比較餘題法及定題法 的研究中指出,使用餘題法進行 DIF 檢核,設定測驗中 DIF 試題均為 20%的情 境、ASA 為 0.09 時,型一誤差仍控制得不錯,但將之提升至 0.18 時,則會導致 型一誤差膨脹而失控;若設定 ASA 為 0 時,即使測驗中 DIF 試題百分比從 20%
提高至 50%,型一誤差仍舊有良好的控制且也有高檢核力,DIF 檢核會受到 ASA 的影響。故本階段研究也將計算不同情境下之 ASA,將於研究結果中探討 ASA 對於三種選題法篩選 DIF-free 試題正確率的影響。
模擬研究二 三種選題法用於先定錨後檢核策略之 型一誤差及檢核力
為研究 DIF-free 試題在 DIF 檢核方法中的效能,在本階段模擬研究將使用 模擬研究一中三種選題法所篩選出的 DIF-free 試題做為定錨題,利用這些定錨 題來進行後續定題法的 DIF 檢核,比較此三種選題法所篩選出的定錨題應用於 定題法 DIF 檢核,也就是運用 DFTD 策略後所得之型一誤差及檢核力。
壹、研究方法
本階段研究方法為利用上一階段所使用的排序選題法、量尺淨化法及迭代 定題法三種篩選 DIF-free 試題的選題法所篩選出的 2 道及 4 道 DIF-free 試題做 為本模擬研究的定錨題,對測驗中其他試題進行後續的定題法 DIF 檢核,觀察 及比較進行先定錨後檢核策略後所獲得之型一誤差及檢核力。
貳、研究設計
本階段研究之模擬資料延續使用上述階段的實驗設計,同樣是由作者使用 Wang 與 Yeh(2003)之研究中的部份參數撰寫 Matlab 程式,產生題長 20 題
GRM 模式資料及受試者為參照群體 1000 人、焦點群體 500 人的模擬資料並利 用三種選題法所選取出的定錨題以 IRTLRDIF 進行定題法的 DIF 檢核。本研究 參考以往的文獻找出四個獨立變項,藉由模擬研究二來觀察這四個變項在進行 先定錨後檢核策略時,會如何影響所得之型一誤差及檢核力。而所謂型一誤差 即為「DIF 檢核方法將沒有存在 DIF 現象的試題誤判為具有 DIF 的試題」之機 率,而檢核力則是「檢核方法能正確的檢測出具有 DIF 現象的試題」的機率,
而本研究實驗預設每次模擬實驗可接受的型一誤差之機率為 0.05,顯著水準即 為 0.05,經由二項分配計算後,在 100 次的重複模擬中可容許 0.0073 至 0.0927 的機率被誤判具有 DIF 現象,此為型一誤差可接受之範圍,而型一誤差與檢核 力為一體兩面,若型一誤差膨脹且失控於此範圍之外,所得的檢核力不論是高 或低已沒有意義。
本 模 擬 研 究 共 操 弄 四 個 獨 立 變 項 , 分 別 為 受 試 者 的 能 力 分 配 ( ability difference ) 、 DIF 型 態 ( DIF pattern ) 、 測 驗 中 DIF 試 題 的 百 分 比 ( DIF percentage)以及定錨題數(anchor items)。
一、受試者的能力分配
根據以往的研究,即便測驗中含有 DIF 試題的百分比為 0,兩群體平均能力 差異為一個標準差時,依舊無法良好的控制型一誤差(孫國瑋,2010; Wang & Su, 2004),在本階段研究中同樣也操弄兩群體平均能力為相等與不相等的情 況。參照群體的受試者能力為平均數為 0,標準差為 1 的標準常態分配,而焦點
根據以往的研究,即便測驗中含有 DIF 試題的百分比為 0,兩群體平均能力 差異為一個標準差時,依舊無法良好的控制型一誤差(孫國瑋,2010; Wang & Su, 2004),在本階段研究中同樣也操弄兩群體平均能力為相等與不相等的情 況。參照群體的受試者能力為平均數為 0,標準差為 1 的標準常態分配,而焦點