• 沒有找到結果。

二種選題法在不同情境下用於 DFTD 策略之型一誤差及檢核效果 - 16

第三章 研究方法與設計

第二節 二種選題法在不同情境下用於 DFTD 策略之型一誤差及檢核效果 - 16

為研究 DIF 試題的試題參數對於先定錨後檢核策略 DIF 檢核效能的影響,

在此階段的模擬研究將使用第一階段中二種選題法,所篩選出的 DIF-free 試題 當做定錨題,進行後續 DIF 的檢核,比較三種不同 DIF 試題難度等級發生的情 境對於先定錨後檢核策略之檢核效果與型一誤差。

壹、研究方法

在此階段研究方法是利用第一階段模擬研究中所使用的二種選題法所篩選

出的 4 道 DIF-free 試題做為此階段模擬研究的定錨題,在 DIF 試題參數難度等 級發生的三種情境下,利用定題法對測驗中其他試題進行 DIF 檢核,觀察及比 較在三種情境進行先定錨後檢核策略後所獲得之型一誤差及檢核力有無差異,

進而瞭解 DIF 試題參數是否會對先定錨後檢核策略的檢核成效造成影響?

貳、研究設計

本階段研究之模擬資料延續使用上述階段的實驗設計,同樣是由作者使用 Hanson 與 Beguin(2002)之研究中的試題參數,從中按照難度的分配選出 20 及 40 道試題後撰寫 Matlab 程式,產生題長 20 及 40 及受試者為參照群體 1000 人、焦點群體 1000 人;參照群體 1000 人、焦點群體 500 人的二元計分模式資 料,再利用上一階段模擬研究中二種選題法所選出的定錨題,以 IRTLRDIF 軟 體進行定題法的 DIF 檢核。在本研究中所指的型一誤差是表示「在 DIF 檢核時 將不具 DIF 的試題誤判為具有 DIF 的試題」之機率,而檢核力表示「DIF 檢核 時能正確無誤的檢核出具有 DIF 現象的試題」的機率,型一誤差與檢核力為一 體兩面,也就是型一誤差控制在理想的範圍內,所得到的檢核力才有其判讀的 意義。在本研究實驗設計中預設合理的型一誤差之機率為 0.05,經由二項分配 計算後,得到 0.0073 至 0.0927 之區間(孫國瑋,2010),此表示在 100 次的模 擬實驗中非 DIF 的試題被誤判為 DIF 的試題的機率,可容許其介於 0.0073 至 0.0927 的機率,倘若型一誤差的值膨脹且超過此一區間,此時所獲得的檢核力,

無論高低,已失去判讀的意義。

在此一階段的模擬研究如同上一階段的研究,所操弄的獨立變項有五個,

分別為受試者的能力分配、受試者人數、測驗長度、測驗中不同百分比 DIF 試 題、相同百分比 DIF 試題的不同難度等級發生情境。

一、受試者的能力分配

在此階段的模擬研究中與上階段同樣操弄兩群體能力為相等與不相等兩種

情況。在兩群體能力相等時,參照群體及焦點團體的受試者能力均設定來自平 均數為 0 且標準差為 1 的標準常態分配;而兩群體能力不相等時,參照群體的 受試者能力與上述相同,焦點群體的受試者能力則產生來自平均數為-1 且標準 差為 1 的標準常態分配。

二、受試者人數

此 階 段 所 操 弄 的 樣 本 數 之 研 究 設 計 與 上 階 段 同 樣 , 共 有 二 種 , 分 為 R1000/F1000 以及 R1000/F500,觀察不同樣本數下 DIF 的檢核效果及型一誤差。

三、測驗長度

在本階段的研究設計中操弄題長為 20 題及 40 題分別表短測驗及一般長度 測驗的情境。

四、測驗中不同百分比 DIF 試題

以往的研究發現 DIF 檢核方法的型一誤差會因測驗中 DIF 試題增加而發生 膨脹且失控的現象,檢核力也會受到影響(Finch, 2005; Wang & Yeh, 2003)。

因本研究的重點是在於 DIF 試題參數對 DIF 檢核效果的影響,若測驗中 DIF 試 題超過 25%以上,DIF 試題就會涵蓋到另一個難度等級,無法釐清 DIF 試題參 數對 DIF 檢核效果的影響性,因此本研究操弄測驗中有不同比例的 DIF 試題分 別為 0%、10%、20%,以觀察測驗不同百分比 DIF 試題對於進行 DFTD 策略後 所得之型一誤差及檢核力有何影響。

五、測驗中相同百分比 DIF 試題的不同難度等級發生情境

在本研究中想瞭解在測驗中相同比例的 DIF 試題、但 DIF 試題難度等級統 計特性不同對於進行 DFTD 策略後所得之型一誤差及檢核力是否會造成影響,

所以,在研究中操弄同一份測驗中相同比例的 DIF 試題,但分別具有低、中、

高難度等級的三種情況。

在其他有關實驗設計方面,如同第一節的模擬研究,研究中的 DIF 試題均 假定為一致性 DIF,DIF 試題在難度上的差異均服從平均數為 0.4 及標準差為

0.1 的常態分配且 DIF 的型態為完全傾向。為了避免抽樣時的偏差,所有情境下 的研究資料均重複模擬 100 次,共實驗了 11200 次。

表 1 模擬研究所使用 20 試題參數值

第三節 軟體介紹

在本研究中的 DIF 檢測均使用美國北卡羅來納大學(University of North Carolina at Chapel Hill)的 David Thissen 教授在 2001 年以概似比檢定法為理論基 礎所撰寫的 IRTLRDIF 軟體,此一軟體為 DOS 版本且為免費的,可以同時檢核 一致性 DIF 及非一致性 DIF,雖然軟體中預設的檢核方法為餘題法,但使用者 可按照自己的研究需求在該軟體中使用定題法做為 DIF 的檢核方法。

相關文件