國立臺中教育大學教育測驗統計研究所
國民小學教師在職進修教學碩士學位班碩士論文
指 導 教 授:施慶麟 博士
指 導 教 授:
楊志堅 博士
結合先定錨後檢核策略之概似比檢定法
的 DIF 檢核效果與試題參數之關係
研 究 生:方惠宜 撰
中 華 民 國 一0一年 八 月
摘要
本研究的目的在探討結合先定錨後檢核策略之概似比檢定法與 DIF 試題參 數的關係,並比較標準概似比檢定法及量尺淨化之概似比檢定法之差異,因此 採用模擬研究的方式,在研究設計中操弄五個獨立變項:受試者的能力分配、 受試者人數、測驗長度、DIF 試題百分比、DIF 試題難度等級發生情境。由研究 者撰寫 Matlab 程式產生模擬作答反應資料後,再以 IRTLRDIF 軟體進行 DIF 分 析。 研究結果顯示:選題正確率受到受試者人數、DIF 試題難度等級、DIF 試 題百分比、受試者能力分配等獨立變項的影響,量尺淨化之概比檢定法的選題 正確率高於標準概似比檢定法選題法;型一誤差則受受試者能力分配、受試者 人數、DIF 試題百分比、DIF 試題難度等級等變項的影響;在檢核效果部分則受 受試者能力分配、受試者人數、DIF 試題百分比、DIF 試題難度等級等變項與檢 核方法的影響;在檢核方法部分則發現量尺淨化之概比檢定法的檢核力高於標 準概比定法。 關鍵字:先定錨後檢核策略、試題參數、標準概似比檢定法、量尺淨化之概似 比檢定法
The Relationship between Item Parameters and
DIF Assessment Results under the Framework of
Likelihood Ratio Test with DIF-free-then-DIF
Strategy
Abstract
The purpose of this study is to investigate the relationship between item parameters and DIF assessment results under the framework of likelihood ratio test (LRT)method with DIF-free-then-DIF Strategy. The standard LRT method and LRT method with scale purification procedure were taken as the baseline for comparison. Five independent variables were manipulated in the simulation study: ability difference, sample size, test length, percentage of DIF items in a test, and the
difficulty level of DIF items..
The results showed the accuracy of identifying DIF-free anchor item was influenced by sample size, difficulty level of DIF items, percentage of DIF items in a test, ability difference. The Type I error rates of DIF assessment of LRT method was influenced by ability difference, sample size, percentage of DIF items in a test,
difficulty level of DIF item.;The power rates of DIF assessment was influenced by ability difference, sample size, percentage of DIF items in a test, Difficulty level of DIF item and methods of DIF detection. The LRT method with scale purification yielded slightly higher power than the standard LRT method.
Keywords: DIF-free-then-DIF Strategy, Item parameters, Standard likelihood ratio
目錄
摘要 --- I ABSTRACT --- II 目錄 --- III 表目錄 --- IV 圖目錄 --- V 第一章 緒論--- 1 第一節 研究背景與動機 --- 2 第二節 研究目的與問題 --- 3 第二章 文獻探討 --- 5 第一節 差異試題功能 --- 5 第二節 差異試題功能檢核方法 --- 7 第三節 先定錨後檢核策略的應用 --- 10 第四節 試題參數與 DIF 檢核效果 --- 12 第三章 研究方法與設計 --- 13 第一節 二種選題法不同情境下篩選 DIF-free 試題之正確率 --- 13 第二節 二種選題法在不同情境下用於 DFTD 策略之型一誤差及檢核效果 - 16 第三節 軟體介紹 --- 21 第四章 研究結果與討論 --- 23 第一節 二種選題法不同情境下篩選 DIF-free 試題之正確率 --- 23 第二節 二種選題法在不同情境下用於 DFTD 策略之型一誤差及檢核效果 - 31 第五章 結論與建議 --- 45 第一節 結論 --- 45 第二節 後續研究建議 --- 46 參考文獻 --- 48表目錄
表 1 模擬研究所使用 20 道試題參數值 --- 20 表 2 模擬研究所使用 40 道試題參數值 --- 20 表 3 二種選題法在題長為 20 篩選 4 道定錨題之正確率 --- 24 表 4 二種選題法在題長為 40 篩選 4 道定錨題之正確率 --- 26 表 5 選題正確率之變異數分析表 --- 27 表 6 受試者人數與受試者能力分配之單純主要效果變異數分析表 --- 28 表 7 受試者能力分配與 DIF 試題難度等級之單純主要效果變異數分析表 --- 29 表 8 DIF 試題百分比與受試者能力分配之單純主要效果變異數分析摘要表 --- 29 表 9 選題方法組在選題正確率之變異數分析摘要表 --- 30 表 10 題長 20 兩群受試者能力相同進行 DFTD 策略之型一誤差及檢核力 --- 32 表 11 題長 20 兩群受試者能力不相同進行 DFTD 策略之型一誤差及檢核力 ---- 33 表 12 題長 40 兩群受試者能力相同進行 DFTD 策略之型一誤差及檢核力 --- 34 表 13 題長 40 受試者能力不相同進行 DFTD 策略之型一誤差及檢核力 --- 35 表 14 型一誤差變異數分析摘要表 --- 40 表 15 能力分配與 DIF 試題難度等級之單純主要效果變異數分析摘要表 --- 41 表 16DIF 試題難度等級因子之 Scheffe 法事後比較 --- 41 表 17 檢核方法組在型一誤差之變異數分析 --- 42 表 18 檢核力變異數分析摘要表 --- 43 表 19DIF 試題難度等級組之 Scheffe 法事後比較 --- 44 表 20 檢核方法組在檢核力之變異數分析 --- 44圖目錄
圖 1 一致性差異試題功能 --- 6 圖 2 非一致性差異試題功能 --- 7 圖 3 題長 20 能力值相等、人數相同 DIF10% --- 37 圖 4 題長 20 能力值相等、人數不同 DIF10% --- 37 圖 5 題長 20 能力值相等、人數相同 DIF20% --- 37 圖 6 題長 20 能力值相等、人數不同 DIF20% --- 37 圖 7 題長 20 能力值不相等、人數相同 DIF10% --- 37 圖 8 題長 20 能力值不相等、人數不同 DIF10% --- 37 圖 9 題長 20 能力值不相等、人數相同 DIF20% --- 38 圖 10 題長 20 能力值不相等、人數不同 DIF20% --- 38 圖 11 題長 40 能力值相等、人數相同 DIF10% --- 38 圖 12 題長 40 能力值相等、人數不同 DIF10% --- 38 圖 13 題長 40 能力值相等、人數相同 DIF10% --- 38 圖 14 題長 40 能力值相等、人數不同 DIF10% --- 38 圖 15 題長 40 能力值不相等、人數相同 DIF20% --- 39 圖 16 題長 40 能力值不相等、人數不同 DIF20% --- 39 圖 17 題長 40 能力值不相等、人數相同 DIF20% --- 39 圖 18 題長 40 能力值不相等、人數鎮同 DIF20% --- 39第一章 緒論
隨著時代的進步,經濟不斷的發展,公民的意識日益高漲,對於自身的權 益日趨重視,面對多元化的地球公民,如何透過測驗篩選出適當的人才,不僅 是參與測驗的受試者所關注的議題,更是測驗機構及政府單位所關注的焦點。 在測驗與評量發展的過程中,測驗的信度、效度一直是測驗學家用來檢視測驗 品質的重要依據,但關於測驗公平性的議題自 1960 年後才日漸受到心理測驗學 家及測驗發展機構的重視(Cole & Zieky, 2001)。對於測驗公平性的議題,除了測驗過程的公平性(例如:有無作弊的情況、 試卷字體的大小、桌椅、測驗地點及環境有無干擾……等等)受到關切外,大 家更重視的是測驗內容的公平性,也就是在測驗中同一道試題會不會因受試者 的文化背景、社經地位、族群差異等因素而造成評量不公平的狀況產生。這種 無 關 受 試 者 本 身 能 力 , 卻 造 成 不 同 評 量 結 果 的 試 題 就 是 差 異 試 題 功 能 (differential item functioning, DIF)。許多測驗相關機構(如美國教育教育研究 學會(American Educational Research Association, AERA)、全國教育測量會議 ( National Council on Measurement in Education, NCME ) 、 美 國 心 理 學 會 ( American Psychological Association, APA ) 及 美 國 的 教 育 測 驗 服 務 社 (Educational Testing Service, ETS)等)為了確保測驗的公平性,讓受試者不會 受無關變項的影響,常會對測驗中的試題進行 DIF 檢核(Penfield & Algina, 2006; Zieky, 2003)。 關於對測驗中的試題進行 DIF 檢核,國內外有關的研究已累積相當多的成 果,也發展出各種不同的檢核方法,但除了如何改進 DIF 檢核方法外,哪些因 素會影響 DIF 檢核的結果也是測驗學家及教育實務工作者關注的議題,而本研 究的目的即為探討試題本身參數特性是否會影響 DIF 檢核的結果。以下本章將 分為「研究背景與動機」以及「研究目的與問題」二節,分別進行介紹及說明 如下。
第一節 研究背景與動機
國內外學者對於 DIF 的研究最主要的目地是為了確保試題的公平性,避免 測驗的公信力遭受到社會質疑,因此對 DIF 的檢核已發展出相當多樣的方法。 在這些方法可粗分為 IRT 取向和非 IRT 取向二種。
在過往的研發現測驗中含有過多 DIF 試題時,將嚴重影響 DIF 的檢核力 (power)及造成型一誤差(Type I error)膨脹(inflated)的問題(Kim & Cohen, 1992; Lord, 1980; Stark, Chernyshenko, & Drasgow, 2006)。為了有效控制 型一誤差膨脹的問題,Lord(1980)提出量尺淨化(scale purification)的概念, 有學者將此概念使用在 DIF 檢測方法上,發現對型一誤差膨脹的問題能有所改 善(French & Maller, 2007; Holland & Thayer, 1988; Shih & Wang, 2009)。但如 果測驗中的 DIF 試題的比率若超過 20%,即便是加入量尺淨化的程序也無法改 善型一誤差膨脹的問題(Shih & Wang, 2009)。為了改善此種情況,Thissen、 Steinberg 和 Wainer(1988)提出定題法(constant item method, CI)的概念,發 現在使用定題法時,若能選擇一組定錨題確實為無 DIF 試題進行檢測時,型一 誤差膨脹及檢測力下降的問題能獲得有效的控制。在定題法概念的架構下, Wang(2008)提出了「先定錨後檢核」策略(DIF-free-then-DIF, DFTD)對於提 高 DIF 檢核力及降低型一誤差膨脹的問題有不錯的成效,並且已在 MIMIC 方法 (Shih & Wang, 2009)、羅吉斯迴歸法(陳信豪,2009)、概似比檢定法(孫
國瑋,2010)等方法中獲致不錯的成效效。
有關應用「先定錨後檢核」策略的研究重點在於觀察結合此策略之檢核方 法對於提升 DIF 檢核效果在如何,但在這些研究中並未探討 DIF 試題參數對於 結合此策略的檢核方法的檢核效果是否造成影響,而試題參數的估算是建立在 試題反應理論(item response theory, IRT)架構下,因此本研究欲探討在 IRT 取 向下的概似比檢定法與先定錨後檢核策略結合的 DIF 檢核效果與 DIF 試題參數 間的相關性。
第二節 研究目的與問題
根據上述研究動機,本研究的主要目雖在探討試題參數對結合先定錨後檢 核策略之概似比檢定法的影響,但在過往的研究中發現試題數、樣本、受試者 能力等變項亦會對 DIF 檢核的結果造成影響,因此在本研究中也將這些變項納 入觀察的重點。壹、研究目的
根據上述研究動機,本研究將進行模擬資料研究,主要的研究目的如下: 一、探究不同難度參數試題對結合先定錨後檢核策略與標準概似比檢定法 的檢核方法的 DIF 檢核成效及產生型一誤差的情況。 二、探究不同難度參數試題對結合先定錨後檢核策略與量尺淨化之概似比 檢定法的檢核方法的 DIF 檢核成效及產生型一誤差的情況。 三、探究前述二種不同之概似比檢定法在不同難度參數 DIF 試題檢核效果 的差異。貳、研究問題
根據上述研究目的,本研究的研究問題如下: 一、在模擬研究資料中,不同難度參數 DIF 試題對結合先定錨後檢核策略 與標準概似比檢定法的檢驗方法的檢核成效及產生型一誤差是否有差異? 二、在模擬研究資料中,不同難度參數 DIF 試題對結合先定錨後檢核策略 與量尺淨化之概似比檢定法的檢驗方法的檢核成效及產生型一誤差是否有差異? 三、「結合先定錨後檢核策略與標準概似比檢定法」與「結合先定錨後檢 核策略與量尺淨化之概似比檢定法」二種不同檢驗方式之概似比檢定法在不同 難度參數 DIF 試題檢測效果的何者成效較理想? 四、在此二種概似比檢定法下在不同試題長度、受試者樣本大小、受試者 能力差異以及測驗中不同百分比 DIF 試題的試題難度等級發生情境的狀況下,第二章 文獻探討
本研究的目的是想要暸解結合先定錨後檢核策略之概似比檢定法之檢核效 果與試題參數之間的關聯性,透過模擬研究資料探究 DIF 試題參數的特性對 DIF 檢核成效的影響,因此有必要對差異試題功能的內容、檢核方法、試題參數 等相關內容做個闡述,基於上述原因,本章將分成四節來分別加以說明。第一節 差異試題功能
長久以來,由於測驗的結果與受試者的權益息息相關,因此受試者對於測 驗最關注的議題便是測驗的公平性。心理測驗、教育測驗或者國家考試……等 等對所有的受試者而言都公平嗎?答案不一定是公平的,余民寧(2009)指出 由於編製測驗的學科專家,受到本身的專業素養、國學程度、文化認知,甚至 主觀偏見等限制和影響,會編製出只對某些族群考生有利,而對另一群考生不 利的試題,也是常見的事。這種現象和問題,即是試題偏差(item bias)的問題。 因偏差兩個字會帶給人們負面的感受,因此有學者用較中性涵義的名稱「差異 試題功能」來取代試題偏差的用詞。 當測驗中出現有爭議性試題時,該試題是真的確實為偏差試題嗎?答案卻 未必是肯定的,但具有什麼特徴的試題才是所謂的偏差試題呢?這是常被探討 的問題。在試題反應理論(item response theory, IRT)的架構下,目前較為心理 測驗學家所接受差異試題功能之定義是「具有相同能力,但來自不同族群的個 人,如果在某個試題上的答對機率有所不同」,此時便宣稱該試題出現 DIF 的 現象(Embretson & Reise, 2000)。在試題反應理論中,試題反應特徵曲線 (item charactertistic curves, ICCs)是代表受試者潛在能力與答對該道試題機率 之間的關係。當試題出現差異試題功能時,即表示相同能力的不同受試者在該 道試題的 ICC 曲線出現了不一致的現象。在 IRT 的架構下,Mellenberg(1982)將差異試題功能的類型分成兩種:一 致性(uniform)DIF 與非一致性(nonuniform)DIF。一致性 DIF 是指兩個團體 在某道試題的作答反應上,某個團體(通常是指參照團體)的作答反應答對的 機率比另一個團體(指焦點團體)高,且兩者答對機率的相差值是呈現一致性 的狀況。圖 1 為兩群體作答同一道試題的試題特徵曲線,從圖中可看出參照團 體在答對機率上一致性的高於焦點團體,顯示此道試題只對參照團體有利,稱 此試題為一致性 DIF。 圖 1 一致性差異試題功能(陳惠靖,2011) 非一致性 DIF 則是指兩個團體在某道試題的作答反應上,在某個能力分佈 區間某個團體的作答反應答對的機率比另一個團體高,而對另一個能力分佈區 間時兩個團體答對機率呈現相反的現象。圖 2 為兩群體作答同一道試題的試題 特徵曲線,從圖中可看出在某個能力分佈區間焦點團體在答對機率上一致性的 高於參照團體,而在另一個能力分佈區間焦點團體在答對機率上一致性的低於 參照團體,顯示此道試題對不同群體在不同能力區間有利的狀況有不一致的現
象,稱此試題為非一致性 DIF。
圖 2 非一致性差異試題功能(陳惠靖,2011)
第二節 差異試題功能檢核方法
國內外有關差異試題功能的研究成果十分豐碩,也發展出許多檢核方法。 在使用 DIF 檢核方法之前一定要先進行建立共同量尺(common metric)的程序, 否則無法進行後續的 DIF 檢核。共同量尺就是在不同群體中建立一個相同的配 對變項(matching variable),當相同配對變項產生時才能對不同群體但能力相 同的受試者進行待檢核試題反應的比較。
有關差異試題功能的檢測方法相當多元,「非 IRT 統計分析」和「IRT 統 計分析」的檢測方法是目前較廣泛使用的二種類型(Holland & Wainer, 1993), 非 IRT 統計分析的檢核方式主要是以測驗原始總分數做為配對變項的檢定程序, 常見非 IRT 取向的 DIF 檢定法有:Mantel-Haenszel 法(Mantel & Haenszel, 1959; Holland & Thayer, 1988)、SIBTEST 法(simultaneous item bias test;
Shealy & Stout, 1993)、Logistic Regression 法(Swaminathan & Regression, 1990)、標準化法(standardization method;Dorans & Kulick, 1986)。
IRT 統計分析的檢測方式是建構在 IRT 理論基礎下,以受試者能力估計值 做為配對變項的檢定程序。雖然 IRT 取向檢定法下的 DIF 檢測分析程序較非 IRT 程序來得複雜,所需的樣本數也來得大,但在 IRT 理論嚴謹的架構下,以 受試者能力估計值做為配對變項的方式比用測驗原始總分數為配對變項來得準 確,仍有許多研究者使用。在 IRT 取向下常用來檢定試題是否有 DIF 現象的方 法有:Lord 的卡方考驗法(Lord’s chi-square; Lord, 1980)、試題特徵曲線之間 面積測量法(area measure; Raju, 1988, 1990)、試題與差異試題功能檢定法 (differential functioning of items and tests, DFIT; Raju, 1995)以及概似比檢定法 (likelihood ratio test; Thissen, Steinberg, & Wainer, 1988)。
概似比檢定法是直接比較兩群受試者在試題反應概似比(likelihood ratio, LR)的差異,同時估計兩群體的試題參數,因此不須要進行參數估計的轉換及 量尺連結,可避免在參數估計的轉換及連結的過程中產生某些功能上的殘差且 顯示試題參數估計或是試題反應函數的不一致的情況發生(Cohen & Kim, 1998) 除此之外,概似比檢定法還具有下列幾個優點:1、測量誤差是用模式的方式 來表示;2、對每個群體試題參數是分開估計的;3、不管試題是二元、次序、 名義量尺都能被檢核;4、能同時檢測一致性和非一致性 DIF 試題;5、以試題 參數為單位來表示影響的規模是易於理解的(Woods, 2011);此外,概似比檢 定 法 在 二 參 數 對 數 模 式 下 對 於 型 一 誤 差 的 控 制 比 三 參 數 對 數 模 式 來 得 好 (Cohen, Kim, & Wollack, 1996)。基於上述的理由,本研究採用概似比檢定法 來進行二參數對數模式下(two-parameter logistic model, 2PLM; Birnbaum, 1968) 的 DIF 檢核。
概似比檢定法對 DIF 檢測的方式主要是對虛無假設的考驗,先假設試題參 數在兩個團體並沒有不同,再使用以下三個步驟對虛無假設進行考驗(Wang & Yeh, 2003):
1. 選擇資料所適配的 IRT 模式,將兩個群體中定錨題(anchor item)的試 題參數與待檢核的試題參數均限制為對兩群體相同,也就是所有的試題均沒有 DIF,此時稱為縮減模式(compact model),估計出 likelihood deviance
值(=-2×log-likelihood)以 2
C
G 表示
2. 將兩個群體中定錨題的試題參數限制為對兩群體相同,但不限制待檢核 試題的試題參數為相同,使軟體可以對兩群體分別估計這些參數,此模式稱為
擴充模式(augmented model),可估算出另一個 likelihood deviance 值,以 2
A G 表 示之。 3. 算出這二個 likelihood deviance 值的相差,以 2 2 2 A C G G G 表示,所得到 2 G 值會服從卡方分配,其自由度會等於縮減模式與擴充模式所估算之參數個數 的差,若 2 G 達統計量超過卡方分配的決斷值,則拒絕該題無 DIF 的虛無假設, 亦即宣稱待檢測試題具有 DIF。 以一份含有 20 題試題、並且與二參數對數模式適配的測驗為例,研究者要 檢查第 1 題試題在難度上是否有 DIF 的現象,則需依上述三個步驟進行檢測: 一、先設定縮減模式,即假定測驗中的 20 題試題皆為無 DIF 的試題,將 20 題 試題的難度及鑑別度參數對兩群體受試者假定為相等,計算出 2 C G 。二、設定擴 充模式,假定兩群受試者測驗的第 1 題試題難度參數不同,但鑑別度參數仍相 同,剩下的 19 題試題難度、鑑別度參數均假定對兩群體受試者為相同,計算出 2 A G 。三、縮減與擴充模式只相差一個難度差數,也就是除了第 1 題的難度參數 不同外,其餘的均為相等,此時將兩個模式相減所得 2 G 值將服從自由度為 1 的 卡方分配,其決斷值為(21) 3.84,若 2 G 值小於 3.84,則表示第 1 題無 DIF 現象, 反之則有 DIF 現象。
概似比檢定法可進行以下兩種 DIF 檢核策略,第一種為餘題法(all-other-item method, AOI; Wang & Yeh, 2003),其方法為假定除了待檢核之試題外,測 驗中其餘試題均未具有 DIF 現象,即以其餘試題當作定錨題來對待檢核試題進 行 DIF 檢核,如一份測驗 20 道試題,將以第 1 題作為待檢核試題進行 DIF 檢核 時,假設測驗中的剩餘題目為 DIF-free 定錨題來進行檢核,若以第 2 題做為待 檢核試題時,則假設第 1 題、第 3 題至最後一題均為 DIF-free 的定錨題來進行 後續檢核,此即概似比檢定法的標準檢核程序,前段說明的範例即為餘題法。
第二種則為定題法(constant item method, Thissen et al., 1988; Wang & Yeh, 2003),此方法的程序必須設定一組固定不變試題當作定錨題,用來作為後續 DIF 檢核時,檢測其餘試題是否具有 DIF 時的基準,如一份測驗 20 道試題,從 中選取出某 4 道試題設定為定錨題,以檢核測驗中其餘試題。在縮減模式中, 需假設這 4 道試題以及待檢核試題並未具有 DIF,在擴充模式中則僅設定此 4 道試題沒有 DIF,如果只針對待檢核試題的難度進行檢核,則兩模式相減的 2 G 值將服從自由度為 1 的卡方分配。
第三節 先定錨後檢核策略的應用
在前一節已簡述建立共同量尺是在進行 DIF 檢核前所需要的步驟,由此可 知如果在 DIF 檢核方法上的共同量尺的出現 DIF 試題,也就是定錨題中有 DIF 試題,對於試題參數的估計會造成影響,將干擾 DIF 檢核的結果(Clauser, Mazor, & Hambleton , 1993; Kim & Cohen, 1992;Shepard, Camilli, & Williams, 1984)。在有關 DIF 檢核的研究中便可發現測驗中的 DIF 試題過高而導致型一 誤差膨脹、檢核力下降的情況發生(Shih & Wang, 2009;Wang & Yeh, 2003)。Wang, 2009)、羅吉斯迴歸法(陳信豪,2009)、概似比檢定法(孫國瑋, 2010)等方法中獲得驗證。在 Shih 與 Wang(2009)的研究中指出在兼顧檢核 力及型一誤差的情況下,選擇 4 題 DIF-free 試題為定錨題就能得到不錯的檢核 效果;而孫國瑋(2010)的研究中也發現結合「先定錨後檢核」策略的概似比檢 定法,使用 4 題 DIF-free 試題為定錨題時,DIF 檢測時型一誤差也能得到有效 的控制。所以本研究也將使用 4 題 DIF-free 試題當做定錨題,進行後續的研究。 「先定錨後檢核」策略的程序是先透過一般的 DIF 檢測統計程序,在測驗 中先篩選出一組 DIF-free 的試題當做定題法中的定錨題,再利用這組定錨題對 測驗裡其他的試題進行 DIF 檢核。從此程序中,可以暸解篩選出一組 DIF-free 的試題當做定題法中的定錨題是影響 DIF 檢核力及型一誤差的主要因素之一。 如何篩選出一組正確的 DIF-free 的試題當做定錨題是很重要的事。在以往有關 概似比檢定法的研究中常用來選擇定錨題的方法主要有標準概似比檢定法選題 法(孫國瑋,2010;陳惠靖,2011)及加入量尺淨化的概似比檢定法選題法 (孫國瑋,2010;陳惠靖,2011),以下就此二種選題法程序進行介紹。
壹、標準概似比檢定法選題法
所謂的標準概似比檢定法(standard LRT method, 以下簡稱 ST 法)選題法 的程序,是先利用餘題法對測驗中的每道試題進行 DIF 檢核,從結果得出每一 試題相同自由度的 LR 統計值後,再依此 LR 統計值的大小將其排序,從其中找 出 LR 統計值最小 4 題的試題當作定錨題,再進行後續的 DIF 檢核。貳、量尺淨化的概似比檢定法選題法
在以往有關量尺淨化程序的研究可粗分為兩種方式:二階段淨化及迭代淨 化(French & Maller, 2007; Holland & Thayer, 1988; Shih & Wang, 2009)。兩種 方式均是先以 DIF 檢定法對測驗中所有的試題進行 DIF 檢核,待所有試題檢核 完畢後,將檢核出 DIF 的試題自測驗中移除,僅以無 DIF 的試題組成新的配對 變項,此即為所謂的淨化程序,並重新對每道試題再進行檢核,惟檢核前一階段被視為 DIF 的試題時,需將該試題納入配對變項中。如果淨化程序只進行一 次,則稱為二階段淨化,若淨化程序重複進行,直到相同的 DIF 檢核結果出現 才停止,則稱為迭代淨化。
本 研 究 採 用 的 是 量 尺 迭 代 淨 化 的 概 比 檢 定 法 ( LRT method with scale purification, 以下簡稱 SP 法)方式進行探究,在完成量尺淨化的程序後,可得 到每道試題的 LR 統計值,再依此 LR 統計值的大小將其排序,從其中找出 LR 統計值最小 4 題的試題當作定錨題,再進行後續的 DIF 檢核。
第四節 試題參數與 DIF 檢核力
在過往有關 DIF 檢核研究時,發現 DIF 試題的鑑別度參數、難度參數會對 DIF 檢核時的檢核力及型一誤差造成影響(楊雅惠 & 鄒慧英, 2010; 黃瓅瑩,2008; Ankenmann, Witt & Dunbar, 1999;Hidalgo & Lopez-Piza, 2004; Lopez-Rivas、
Stark & Chernyshenko, 2009; Monahan & Ankenmann, 2005; Narayanan & Swaminathan, 1994; Roussos & Stout, 1996; Uttaro & Millsap, 1994; Rogers & Swaminathan, 1993),從上述的模擬研究可發現 DIF 試題參數對 DIF 檢核效果 存在某種程度的影響。除此之外,在國外有關試題參數與 DIF 檢核研究的實徵 資料中發現試題參數對 DIF 檢核是會造成影響的(Scherbaum & Goldstein, 2008; Santelices & Wilson, 2011)。
結合先定錨後檢核策略之概似比檢定法的檢核效果是否會受到 DIF 試題參 數的影響,目前尚未被探究,因此具有何種參數特徵的 DIF 試題在結合先定錨 後檢核策略之概似比檢定法下是容易被檢核出來的;或是會對型一誤差造成影 響?這是本研究想探討的議題之一。
第三章 研究方法與設計
本研究主要目的為探究結合先定錨後檢核策略之概似比檢定法在 DIF 檢核 效果在二元計分下,對 DIF 試題檢核力高低及型一誤差是否受到試題參數的影 響。研究者利用模擬研究探討「標準概似比檢定法選題法」及「量尺淨化概似 比檢定法選題法」二種方法篩選 DIF-free 試題之正確率及其後續檢核效果,因 此在第一節將先介紹第一階段的模擬研究方法「二種選題法在不同情境下篩選 試題的正確率」;在第二節中則介紹第二階段的模擬研究方法「二種選題法在 不同情境下用於先定錨後檢核策略之型一誤差及檢核力效果」;第三節介紹本 研究所使用的免費軟體 IRTLRDIF。第一節 二種選題法在不同情境下篩選 DIF-free 試
題之正確率
第二章的文獻探討中,已探究過若能在測驗中找到確實為 DIF-free 的定錨 題,進行先定錨後檢核策略時,便可有效控制型一誤差膨脹的問題。本研究雖 聚焦於試題參數對結合先定錨後檢核策略之概似比檢定法檢核效果的影響,但 篩選確實為 DIF-free 的試題當做定題法中的定錨題,對於後續檢核效果的影響 是不可忽略的重要因素之一。由於篩選出的定錨題是否確實為 DIF-free 試題將 影響本研究第二階段模擬研究的檢核效果,所以在本階段的研究擬探討二種選 題法在不同情境下篩選出的定錨題確實是 DIF-free 試題之正確率。壹、研究方法
在以概似比檢定法進行 DIF 檢核的相關研究中,常使用 IRT 模式下的二元 計分,即作答反應為 0(答錯)及 1(答對)的測驗資料進行檢核。IRT 模式下主要意涵是不同能力的受試者,在同一道試題上的答對機率會有所不同,而本 階段的研究是利用 IRT 模式的二參數對數模式下的作答資料來探討二種選題法 在不同情境下篩選定錨題確實為 DIF-free 試題之選題正確率。如何在二參數對 數模式下計算出能力值為 受試者在第 i 道試題的答對機率,可利用下列的公式。 其中 為受試者的能力值、 為第 i 道試題的鑑別度參數值、 為第 i 道試題難 度參數值。
貳、研究設計
為了避免測驗中的試題難度分配不均而造成偏易或偏難的情況產生,本研 究參考 Hanson 與 Beguin(2002)研究中的 100 題試題參數,從中按照試題難度 分配由低排列至高分成三群,再從低、中、高難度三群試題中各選 7、7、6 題 組成題長 20 的測驗;而題長 40 的測驗則分別從低、中、高難度三群試題挑選 14、13、13 題組合而成的,所使用參數分別列於表 1 及表 2,再由研究者撰寫 Matlab 程式,產生 20 題及 40 題在二元分模式下二參數對數模式下的模擬作答 反應資料後,再以 IRTLRDIF 進行二種選題法篩選試題,計算選出的試題確實 為 DIF-free 試題的比率,即是二種選題法篩選 DIF-free 試題為定錨題的正確率。 在以往的研究中發現,選擇 4 題 DIF-free 試題為定錨題就能得到不錯的檢測效 果,所以本研究欲篩選出 4 道 DIF-free 試題當做定錨題,其正確率的計算方式 為當二種選題法分別篩選出 4 道定錨題中,4 道皆為 DIF-free 試題,則正確率為 100%、3 題為 75%、2 題為 50%、1 題 25%,若 4 題皆為 DIF 試題,則選題正 確率為 0%。 在本模擬實驗研究中共操弄的 5 個獨立變項,分別為受試者的能力分配 (ability difference)、受試者人數(sample size)、測驗長度(test length)、測 驗中不同百分比 DIF 試題(DIF percentage)、相同百分比 DIF 試題的難度等級(difficulty level)發生情境,並觀察這些變項與選題正確率的關聯及影響。 一、受試者的能力分配 根據以往相關的研究,可將兩群體分別定義為參照群體(reference group, 簡稱 R)代表優勢團體或多數族群及焦點團體(focal group,簡稱 F)代表弱勢 團體或少數族群。本研究於此階段操弄兩群體之能力為相等與不相等兩種情形, 參照群體的受試者能力均設定為平均數為 0 且標準差為 1 的標準常態分配,而 焦點群體的受試者能力則分為兩種:第一是與參照群體相同的標準常態分配, 代表兩群體平均能力相等,表示在現實情況中兩群體的能力相近;第二則為平 均數為-1 且標準差為 1 的常態分配,代表兩群體之平均能力相差 1 個標準差, 也就是兩群體受試者在能力上有所差異,藉以反應現實情境中,兩群體平均能 力有差異之情形,研究者藉由操弄此變項來探討能力差異是否會對不同選題法 篩選 4 題 DIF-free 試題正確率造成影響。 二、受試者人數 由於在樣本數 1000 人以上時使用概似比檢定法進行 DIF 檢核的檢核力會較 好(Stark, Chernyshenko, & Drasgow, 2006),於是本研究中操弄人數的情形有 二種,分別為兩群人數相同 R1000/F1000 及兩群體人數不同 R1000/F500。 三、測驗長度 測驗的長度是否也會影響到篩選 DIF-free 試題正確率亦是研究者想瞭解的 面向之一,所以在研究設計中以題長為 20 題及 40 題分別表短測驗及一般長度 的測驗。 四、測驗中不同百分比 DIF 試題 在 IRT 模式下有關 DIF 的檢核方法的研究中,發現在參數估計上的正確率 會受到測驗中 DIF 試題增加影響,此情況對篩選 DIF-free 試題之正確率可能會 造成影響,概似比檢定法亦無法避免此情況的產生,本研究的重點雖在試題參 數對 DIF 檢核效果的影響,但在過往的研究發現測驗中不同比例的 DIF 試題對
於篩選 DIF-free 試題之正確率會造成影響(孫國瑋,2010),在本研究也想瞭 解,但受限本研究主要在探討不同 DIF 試題難度參數對選題正確率的影響,若 測驗中 DIF 試題超過 25%以上,DIF 試題就會涵蓋到另一個難度等級,因此在 本研究中操弄 DIF 試題的百分比為 10%、20%。 五、測驗中相同百分比 DIF 試題的不同難度等級發生情境 在本研究中想瞭解在測驗中相同比例的 DIF 試題、但 DIF 試題難度等級統 計特性不同是否會影響篩選 DIF-free 試題正確率,所以在研究中操弄同一份測 驗中相同比例的 DIF 試題,但分別具有低、中、高難度等級的三種情況。 在其他有關實驗設計方面,本研究的 DIF 試題均假定為一致性 DIF,也就 是 DIF 現象均發生在試題難度上,此外為了符合真實情境中,各試題的 DIF 程 度不一,因此參考 Wang、Shih 及 Sun(2012)的作法,假定兩群體在 DIF 試題 難度上的差異均服從平均數為 0.4 及標準差為 0.1 的常態分配代表試題有中等程 度的 DIF 現象,另外 DIF 的型態為完全傾向(constant),也就是測驗中所有的 DIF 試題均設定對同一群體(本研究中為參照團體)有益。為了避免抽樣時的偏 差,所有情境下的研究資料均重複模擬 100 次,共實驗了 9600 次。
第二節 二種選題法在不同情境下用於 DFTD 策略
之型一誤差及檢核效果
為研究 DIF 試題的試題參數對於先定錨後檢核策略 DIF 檢核效能的影響, 在此階段的模擬研究將使用第一階段中二種選題法,所篩選出的 DIF-free 試題 當做定錨題,進行後續 DIF 的檢核,比較三種不同 DIF 試題難度等級發生的情 境對於先定錨後檢核策略之檢核效果與型一誤差。壹、研究方法
在此階段研究方法是利用第一階段模擬研究中所使用的二種選題法所篩選出的 4 道 DIF-free 試題做為此階段模擬研究的定錨題,在 DIF 試題參數難度等 級發生的三種情境下,利用定題法對測驗中其他試題進行 DIF 檢核,觀察及比 較在三種情境進行先定錨後檢核策略後所獲得之型一誤差及檢核力有無差異, 進而瞭解 DIF 試題參數是否會對先定錨後檢核策略的檢核成效造成影響?
貳、研究設計
本階段研究之模擬資料延續使用上述階段的實驗設計,同樣是由作者使用 Hanson 與 Beguin(2002)之研究中的試題參數,從中按照難度的分配選出 20 及 40 道試題後撰寫 Matlab 程式,產生題長 20 及 40 及受試者為參照群體 1000 人、焦點群體 1000 人;參照群體 1000 人、焦點群體 500 人的二元計分模式資 料,再利用上一階段模擬研究中二種選題法所選出的定錨題,以 IRTLRDIF 軟 體進行定題法的 DIF 檢核。在本研究中所指的型一誤差是表示「在 DIF 檢核時 將不具 DIF 的試題誤判為具有 DIF 的試題」之機率,而檢核力表示「DIF 檢核 時能正確無誤的檢核出具有 DIF 現象的試題」的機率,型一誤差與檢核力為一 體兩面,也就是型一誤差控制在理想的範圍內,所得到的檢核力才有其判讀的 意義。在本研究實驗設計中預設合理的型一誤差之機率為 0.05,經由二項分配 計算後,得到 0.0073 至 0.0927 之區間(孫國瑋,2010),此表示在 100 次的模 擬實驗中非 DIF 的試題被誤判為 DIF 的試題的機率,可容許其介於 0.0073 至 0.0927 的機率,倘若型一誤差的值膨脹且超過此一區間,此時所獲得的檢核力, 無論高低,已失去判讀的意義。 在此一階段的模擬研究如同上一階段的研究,所操弄的獨立變項有五個, 分別為受試者的能力分配、受試者人數、測驗長度、測驗中不同百分比 DIF 試 題、相同百分比 DIF 試題的不同難度等級發生情境。 一、受試者的能力分配 在此階段的模擬研究中與上階段同樣操弄兩群體能力為相等與不相等兩種情況。在兩群體能力相等時,參照群體及焦點團體的受試者能力均設定來自平 均數為 0 且標準差為 1 的標準常態分配;而兩群體能力不相等時,參照群體的 受試者能力與上述相同,焦點群體的受試者能力則產生來自平均數為-1 且標準 差為 1 的標準常態分配。 二、受試者人數 此 階 段 所 操 弄 的 樣 本 數 之 研 究 設 計 與 上 階 段 同 樣 , 共 有 二 種 , 分 為 R1000/F1000 以及 R1000/F500,觀察不同樣本數下 DIF 的檢核效果及型一誤差。 三、測驗長度 在本階段的研究設計中操弄題長為 20 題及 40 題分別表短測驗及一般長度 測驗的情境。 四、測驗中不同百分比 DIF 試題 以往的研究發現 DIF 檢核方法的型一誤差會因測驗中 DIF 試題增加而發生 膨脹且失控的現象,檢核力也會受到影響(Finch, 2005; Wang & Yeh, 2003)。 因本研究的重點是在於 DIF 試題參數對 DIF 檢核效果的影響,若測驗中 DIF 試 題超過 25%以上,DIF 試題就會涵蓋到另一個難度等級,無法釐清 DIF 試題參 數對 DIF 檢核效果的影響性,因此本研究操弄測驗中有不同比例的 DIF 試題分 別為 0%、10%、20%,以觀察測驗不同百分比 DIF 試題對於進行 DFTD 策略後 所得之型一誤差及檢核力有何影響。 五、測驗中相同百分比 DIF 試題的不同難度等級發生情境 在本研究中想瞭解在測驗中相同比例的 DIF 試題、但 DIF 試題難度等級統 計特性不同對於進行 DFTD 策略後所得之型一誤差及檢核力是否會造成影響, 所以,在研究中操弄同一份測驗中相同比例的 DIF 試題,但分別具有低、中、 高難度等級的三種情況。 在其他有關實驗設計方面,如同第一節的模擬研究,研究中的 DIF 試題均 假定為一致性 DIF,DIF 試題在難度上的差異均服從平均數為 0.4 及標準差為
0.1 的常態分配且 DIF 的型態為完全傾向。為了避免抽樣時的偏差,所有情境下 的研究資料均重複模擬 100 次,共實驗了 11200 次。
表 1 模擬研究所使用 20 試題參數值 題號 鑑別度參數 難度參數 題號 鑑別度參數 難度參數 1 0.420 -2.713 11 0.883 0.137 2 0.769 -1.944 12 0.944 0.189 3 0.799 -1.621 13 0.796 0.268 4 0.860 -1.179 14 1.141 0.344 5 0.972 -1.126 15 1.605 1.377 6 1.523 -0.995 16 1.217 1.487 7 1.248 -0.610 17 0.839 1.514 8 1.217 -0.290 18 1.473 1.668 9 1.665 -0.036 19 0.998 1.744 10 1.401 0.117 20 0.727 1.951 表 2 模擬研究所使用 40 題試題參數值 題號 鑑別度參數 難度參數 題號 鑑別度參數 難度參數 1 0.420 -2.713 21 1.354 0.112 2 0.769 -1.944 22 1.401 0.117 3 0.965 -1.862 23 0.883 0.137 4 0.799 -1.621 24 0.944 0.189 5 0.710 -1.589 25 1.259 0.259 6 0.374 -1.475 26 0.796 0.268 7 0.956 -1.351 27 1.141 0.344 8 0.860 -1.179 28 0.839 0.496 9 0.972 -1.126 29 0.996 0.706 10 1.523 -0.995 30 1.068 0.893 11 1.022 -0.761 31 0.722 0.961 12 1.248 -0.610 32 1.175 0.962 13 1.171 -0.571 33 1.199 1.097 14 1.206 -0.463 34 1.310 1.168 15 1.217 -0.290 35 1.605 1.377 16 1.022 -0.116 36 1.217 1.487 17 1.310 -0.067 37 0.839 1.514 18 1.665 -0.036 38 1.473 1.668 19 0.614 0.037 39 0.998 1.744 20 0.679 0.067 40 0.727 1.951
第三節 軟體介紹
在本研究中的 DIF 檢測均使用美國北卡羅來納大學(University of North Carolina at Chapel Hill)的 David Thissen 教授在 2001 年以概似比檢定法為理論基 礎所撰寫的 IRTLRDIF 軟體,此一軟體為 DOS 版本且為免費的,可以同時檢核 一致性 DIF 及非一致性 DIF,雖然軟體中預設的檢核方法為餘題法,但使用者 可按照自己的研究需求在該軟體中使用定題法做為 DIF 的檢核方法。
第四章 研究結果與討論
本研究主要目的為探究結合先定錨後檢核策略之概似比檢定法在 DIF 檢核 效果與試題參數之間的關係,因此在此章節將針對本研究的目的與問題進行模 擬研究所得到的實驗結果,加以分析討論。第一節係依據第一階段模擬研究 「二種選題法在不同情境下篩選試題的正確率」所得之結果進行討論;第二節 則是以第二階段的模擬研究「二種選題法在不同情境下用於先定錨後檢核策略 之型一誤差及檢核力效果」的實驗結果做為分析的依據並進行討論第一節 二種選題法在不同情境下篩選 DIF-free 試
題之正確率
本研究的第一階段模擬實驗結果之數據分別列於表 3 與表 4,顯示在測驗長 度 20 題及 40 題時,使用二種選題方法篩選 4 道定錨題確實為 DIF-free 試題之 平均正確率,以下針對研究結果進行說明。本節主要分三個部分呈現:測驗長 度為 20 題之篩選 DIF-free 試題之平均正確率;測驗長度為 40 題之篩選 DIF-free 試題之平均正確率;以及總結。壹、測驗長度為 20 題之篩選 DIF-free 試題之平均正確率
由表 3 的實驗數據可知,在兩群體能力相等的條件下,不管受試者兩組人 數是否相等,在 DIF 試題百分比為 10%及 20%的測驗中各種 DIF 試題的難度發 生情境,使用 ST 法及 SP 法篩選 4 道定錨題時的選題正確率均達 100%。 在兩群體能力不相等且受試者兩組人數相等的條件下,SP 法選題正確率除 了在 DIF 試題百分比為 20%的高難度 DIF 試題的情境下,其選題正確率為 99%, 其餘情境皆為 100%;ST 法選題正確率在 DIF 試題百分比為 10%時均為 100%, 但當 DIF 試題百分比為 20%時,選題正確率則下降至 98%,而在兩群體能力不相等且受試者兩組人數不相等的條件下,除了 DIF 試題百分比為 10%的中難度 DIF 試題之情境中 SP 法選題正確率為 100%外,其餘的情境中,不管是 ST 法及 SP 法的選題正確率均呈現下降的情況。在 DIF 試題百分比為 20%的高難度 DIF 試題情境中,ST 法及 SP 法的選題正確率則下降至 96%。整體而言,在測驗長 度為 20 題下,本研究的實驗設計中的任何情境,兩種方法篩選 4 道定錨題時的 選題正確率均在 96%以上。 由上段敘述可知,在測驗題長為 20 題時,不管 DIF 試題的難度等級發生情 境為何,在兩群體能力為相等的情況下,不管兩群受試者人數相等或不相等, 二種選題法正確率均為 100%。而在兩群體能力不相等、兩群受試者人數相等及 DIF 試題百分比為 10%的情境中,二種選題法的正確率為 100%外,其餘的情況 下,ST 法及 SP 法的選題正確率則出現下降的情形。 表 3 二種選題法在題長為 20 篩選 4 道定錨題之正確率 Ability
difference DIF% Difficulty level
R1000/F1000 R1000/F500 ST SP ST SP 0 10% Easy 100 100 100 100 Medium 100 100 100 100 Difficult 100 100 100 100 20% Easy 100 100 100 100 Medium 100 100 100 100 Difficult 100 100 100 100 1 10% Easy 100 100 99 99 Medium 100 100 99 100 Difficult 100 100 98 98 20% Easy 98 100 97 99 Medium 99 100 98 99 Difficult 98 99 96 96
貳、測驗長度為 40 題之篩選 DIF-free 試題之平均正確率
由表 4 的實驗數據可知,兩群體能力相等且受試者兩組人數相等的情況下, 在 DIF 試題百分比為 10%及 20%以內測驗中各種 DIF 試題的難度發生情境,使 用 ST 法及 SP 法篩選 4 道定錨題時的選題正確率均達 100%,但在受試者兩組人 數不相等的情況下,ST 法在 DIF 試題百分比為 20%中的低難度 DIF 試題及高難 度 DIF 試題的情境下的選題正確率則些微下降至 99%。 在兩群體能力不相等且受試者兩組人數相等的情況下,SP 法選題正確率除 了在 DIF 試題百分比為 20%的高難度的情境下,其選題正確率有些微下降至 99%,其餘情境皆為 100%;ST 法選題正確率在 DIF 試題百分比為 10%時不同 DIF 試題難度發生的情境下均為 100%,但當 DIF 試題百分比為 20%時的低難度 DIF 試題及高難度 DIF 試題的情境下的選題正確率則些微下降至 98%、中難度 度 DIF 試題選題正確率則下降至 99%。 在兩群體能力不相等且受試者兩組人數不相等的情況下,在 DIF 試題百分 比為 10%測驗中各種 DIF 試題的難度發生情境,使用 ST 法及 SP 法篩選 4 道定 錨題時的選題正確率均下降至 99%,而 ST 法在 DIF 試題百分比為 20%的低難 度 DIF 試題情境中則下降至 95%、中難度為 98%、高難度為 96%;SP 法在 DIF 試題百分比為 20%的低、中難度 DIF 試題情境中則下降至 99%、高難度為 98%。 整體而言,在測驗長度為 40 題下,本實驗中的任何情境兩種方法篩選 4 道定錨 題時的選題正確率均達 95%以上。 由上段敘述可知,在測驗題長為 40 題時,不管 DIF 試題的難度發生情境為 何,在兩群體能力為相等且兩群受試者人數相等的情況下或不相等,二種選題 法正確率均為 100%。而在兩群體能力不相等、兩群受試者人數相等及 DIF 試題 百分比為 10%的情境中,二種選題法的正確率為 100%外,其餘的情況下,ST 法及 SP 法的選題正確率則出現下降的情形。表 4 二種選題法在題長為 40 篩選 4 道定錨題之正確率
Ability
difference DIF% Difficulty level
R1000/F1000 R1000/F500 ST SP ST SP 0 10% Easy 100 100 100 100 Medium 100 100 100 100 Difficult 100 100 100 100 20% Easy 100 100 99 100 Medium 100 100 100 100 Difficult 100 100 99 100 1 10% Easy 100 100 99 99 Medium 100 100 99 99 Difficult 100 100 99 99 20% Easy 98 100 95 99 Medium 99 100 98 99 Difficult 98 99 96 98
參、總結
在測驗題長為 20 題、40 題的情形下,不管兩群體的能力是否相等、只要 兩群受試者人數為 1000 人,SP 法的選題正確率除了在兩群體能力值不相等,且 DIF 試題百分比為 20%的高難度些為下降為 99%外,其餘的情境中,SP 法的選 題正確率均為 100%,反觀相同條件下,ST 法的選題正確率則不如 SP 法來得高。 而在相同條件下,在兩群受試者人數不相等這個變項,SP 法及 ST 法篩選 DIF-free 試題之正確率幾乎都較變項兩群受試者人數相等較低一些,但 SP 法的選題 正確率又比 ST 法高一點。 從 DIF 試題難度等級這個變項來看,中難度的 DIF 試題的情境下,SP 法及 ST 法的選題正確率相較低、高難度的 DIF 試題情境來得高,且 SP 法的選題正 確率又比 ST 法高一點。為了進一步暸解本實驗中所操弄的各獨立變項對於選題 正確率的影響性以及兩種選題法何者表現較穩定,因此將對各獨立變項及選題 法進行變異數分析。由表5選題正確率之變異數分析摘要表可知,影響選題正確率的變項有受試 者人數(F(1,48)=26.562,p<.001)、DIF試題難度等級(F(2,48)=4.683,p<.05)、 DIF試題百分比(F(1,48)=23.439,p<.001)、受試者能力分配(F(1,48)=68.512,p <.001)等變項,雖然此四個變項的主要效果的考驗均達到顯著,但受試者人數 與受試者能力分配(F(1,48)=20.512,p<.001)、DIF試題難度等級與受試者能力 分配(F(2,48)=3610,p<.05)、DIF試題百分比與受試者能力分配(F(1,48)=17.780, p<.001)間的交互作用亦達到顯著,由於交互效果達到顯著的水準,因此有對 此部分進行單純主要效果的考驗。 表5 選題正確率變異數分析摘要表 來源 自由度 平均平方和 F 檢定 顯著性 受試者人數 1 .001 26.562*** <.001 DIF試題難度等級 2 <.001 4.683** .014 DIF試題百分比 1 .001 23.439*** <.001 測驗長度 1 <.001 .024 .877 受試者能力分配 1 .003 68.512*** <.001 受試者人數* DIF試題難度等級 2 <.001 1.171 .319 受試者人數* DIF試題百分比 1 <.001 1.195 .280 DIF試題難度等級* DIF試題百分比 2 <.001 1.854 .168 受試者人數*測驗長度 1 <.001 .024 .877 DIF試題難度等級*測驗長度 2 <.001 .683 .510 DIF試題百分比 *測驗長度 1 <.001 .220 .642 受試者人數* 受試者能力分配 1 .001 20.512*** <.001 DIF試題難度等級* 受試者能力分配 2 <.001 3.610* .035 DIF試題百分比 * 受試者能力分配 1 .001 17.780*** <.001 測驗長度* 受試者能力分配 1 <.001 .220 .642 誤差 48 <.001 總和 96 註: R 平方 = .801 (調過後的 R 平方 = .607)
由表6可知受試者人數與受試者能力分配對於選題正確率的交互影響,在不 同的限定條件下有所不同。受試者人數因子在受試者能力分配不相等的情況下 (F(1,46)=17.725,p<.001),對於選題正確率的影響達顯著,而在受試者能力分 配相等的情況下(F(1,46)=2.091,p>.05)對於選題正確率造成的影響未達顯著。 然而在受試者能力分配因子部分,可發現在受試者人數相等(F(1,46)=9.857,p <.01)及不相等(F(1,46)=40.485,p<.001)的條件下對於選題正確率的影響均 達到顯著。 表6 受試者人數與受試者能力分配之單純主要效果變異數分析摘要表 單純主要效果內容 自由度 平均平方和 F 顯著性 受試者人數因子 受試者能力分配相等 1 <.001 2.091 .155 受試者能力分配不相等 1 .002 17.725*** <.001 受試者能力分配因子 受試者人數相等 1 <.001 9.857** .003 受試者人數不相等 1 .004 40.485*** <.001 由表7可知受試者能力分配與DIF試題難度等級對於選題正確率的交互影響, 在不同的限定條件下有所不同,受試者能力分配因子在DIF試題難度等級為低難 度(F(1,30)=9.444,p<.01)、中難度(F(1,30)=15.252,p<.001)、高難度 (F(1,30)=19.094,p<.001)的情況下,對於選題正確率的影響均達顯著,而在 DIF試題難度等級因子在受試者能力分配為相等(F(2,45)=.500,p>.05)或不相等 (F(2,45)=2.440,p>.05)的的情況下對於選題正確率造成的影響未達顯著,因此 不用進行事後比較。
表7 受試者能力分配與DIF試題難度等級之單純主要效果變異數分析摘要表 單純主要效果內容 自由度 平均平方和 F 顯著性 受試者能力分配因子 低難度DIF試題 1 .001 9.444** .004 中難度DIF試題 1 <.001 15.252*** <.001 高難度DIF試題 1 .002 19.094*** <.001 DIF試題難度等級因子 受試者能力分配相等 2 <.001 .500 .610 受試者能力分配不相等 2 <.001 2.440 .099 由表8可知DIF試題百分比與受試者能力分配對於選題正確率的交互影響, 在不同的限定條件下會有所不同。DIF試題百分比因子在受試者能力分配相等 (F(1,46)=2.091,p>.05)的情況下,對於選題正確率的影響未達顯著,而在受試 者能力分配不相等(F(1,46)=14.800,p<.001)的情況下,對於選題正確率的影響 達顯著。在受試者能力分配因子在DIF試題百分比為10%(F(1,46)=16.264,p <.001)及20%(F(1,46)=33.094,p<.001)的的情況下對於選題正確率造成的影 響均達顯著。 表8 DIF試題百分比與受試者能力分配之單純主要效果變異數分析摘要表 單純主要效果內容 自由度 平均平方和 F 顯著性 DIF試題百分比因子 受試者能力分配相等 1 <.001 2.091 .155 受試者能力分配不相等 1 .002 14.800*** <.001 受試者能力分配因子 DIF試題百分比10% 1 <.001 16.264*** <.001 DIF試題百分比20% 1 .003 33.094*** <.001
表 9 為選題方法組在選題正確率之變異數分析摘要表,統計報表顯示選題 正確率會因選題方法(F(1,93)=4.140,p<.01)的不同而產生差異,表示選題方法 的不同會對選題正確率造成影響。 表9 選題方法組在選題正確率之變異數分析摘要表 來源 自由度 平均平方和 F 檢定 顯著性 選題方法組 1 <.001 4.140* .045 組內 93 <.001 總和 94 綜合上述表格結果如下: 測驗長度對於選題正確率的影響沒顯著差異,在受試者人數、DIF 試題難度 等級、DIF 試題百分比、受試者能力分配等四個變項部分,雖然此四個變項的主 要效果的考驗均達到顯著,但交互作用的考驗亦達顯著,因此進行單純主要效 果變異數分析,發現在受試者分力分配此變項對選題正確率的影響相較其他的 變項來得明顯,另外 SP 法及 ST 法對選題正確率的影響有顯著差異的,由此可 推論 SP 法選題正確率較 ST 法來得穩定。
第二節 二種選題法在不同情境下用於 DFTD 策略
之型一誤差及檢核效果
在第一節的有關兩種選題法篩選 DIF-free 試題之正確率的模擬研究結果中, 可以發現 ST 法及 SP 法在各種情境下篩選 DIF-free 試題之正確率均高達 95%以 上,在此章節中將使用第一節模擬研究所篩選出 4 道 DIF-free 試題當做定題法 中的定錨題,進行後續的 DIF 檢核,以測試 ST 法及 SP 法所篩選出的 DIF-free 試題的檢核效果,是否受 DIF 試題難度值高低的影響,並比較 ST 法及 SP 法何 者的檢核效能較佳,在此階段的研究結果分別列於表 10 至表 13。本節主要分三 個部分呈現分別為測驗長度為 20 題之 DIF 檢核效果及型一誤差、測驗長度為 40 題之 DIF 檢核效果及型一誤差;以及總結。壹、測驗長度為 20 題之 DIF 檢核效果及型一誤差
表 10 數據結果表示兩群體平均能力相等且受試者人數相等或不相等時,在 相同 DIF 試題百分比、DIF 試題難度發生的低、中、高三種情境,以二種選題 法所篩選出 4 道定錨題進行 DFTD 策略時,所得之型一誤差約在 0.01~0.02 之間, 此數值是能接受的合理範圍之內。 在檢核力的部分,從表 10 數據的結果,發現兩群受試者人數相等的檢核力 較兩群受試者人數不相等的檢核力要來得高一些。在有關測驗中 DIF 百分比部 分可發現為 DIF 百分比 10%時的檢核力表現比測驗中 DIF 百分比 20%佳。另外, 從表 5 亦可觀察到在使用 ST 法及 SP 法進行檢核時,中難度 DIF 試題的檢核力 比低、高難度 DIF 試題的檢核力來得高,而低難度 DIF 試題的檢核力又比高難 度 DIF 試題的檢核力表現得較好,也就是中難度的檢核力>低難度的檢核力> 高難度的檢核力。若比較 ST 法及 SP 法的檢核效果,從表 10 可以發現在 SP 法 的在各種情境下的檢核力均較 ST 法高。表 10 題長 20 兩群受試者能力相同進行 DFTD 策略之型一誤差及檢核力
Sample size DIF% Difficulty level Type I error Power
ST SP ST SP 0 0.01 0.01 Easy 0.01 0.01 0.81 0.91 10 Medium 0.01 0.01 0.91 0.96 R1000/F1000 Difficult 0.01 0.01 0.74 0.80 Easy 0.02 0.01 0.65 0.89 20 Medium 0.01 0.01 0.75 0.95 Difficult 0.01 0.01 0.59 0.79 0 0.01 0.02 Easy 0.01 0.02 0.65 0.71 10 Medium 0.02 0.01 0.75 0.81 R1000/F500 Difficult 0.01 0.01 0.52 0.61 Easy 0.02 0.02 0.56 0.66 20 Medium 0.02 0.02 0.62 0.76 Difficult 0.02 0.02 0.47 0.56 表 11 數據結果表示兩群體平均能力不相等且受試者人數相等或不相等時, 在相同 DIF 試題百分比、DIF 試題難度發生的低、中、高三種情境,以二種選 題法所篩選出 4 道定錨題進行 DFTD 策略時,所得之型一誤差約在 0.01~0.03 之 間,並未膨脹,相反的呈現略微保守的情形,但仍在合理範圍內。 在檢核力的部分,兩群受試者人數相等時的檢核效果較兩群受試者人數不 相等時要來得受到控制;在 DIF 試題百分比部分 10%時的檢核力表現比 20%來 得高。另外,在表 11 數據結果顯示使用 ST 法及 SP 法進行檢核時,中難度 DIF 試題的檢核力比低、高難度 DIF 試題的檢核力來得高,低難度 DIF 試題的檢核 力又比高難度 DIF 試題的檢核力較高,但在 DIF 試題百分比部分 20%且受試者 人數相等的情況下,ST 法在低、高難度 DIF 試題的檢核力差異不大。若比較 ST 法及 SP 法的檢核效果,則發現 SP 法的檢核效果較 ST 法來得高。
表 11 題長 20 兩群受試者能力不相同進行 DFTD 策略之型一誤差及檢核力
Sample size DIF% Difficulty level Type I error Power
ST SP ST SP 0 0.02 0.01 Easy 0.02 0.01 0.44 0.64 10 Medium 0.02 0.01 0.62 0.73 R1000/F1000 Difficult 0.02 0.01 0.38 0.47 Easy 0.03 0.02 0.35 0.57 20 Medium 0.03 0.02 0.49 0.61 Difficult 0.02 0.01 0.34 0.42 0 0.02 0.02 Easy 0.02 0.02 0.40 0.53 10 Medium 0.01 0.02 0.51 0.57 R1000/F500 Difficult 0.02 0.02 0.28 0.30 Easy 0.03 0.02 0.29 0.39 20 Medium 0.02 0.02 0.37 0.43 Difficult 0.01 0.02 0.25 0.28
貳、測驗長度為 40 題之 DIF 檢核效果及型一誤差
表 12 數據結果表示兩群體平均能力相等且受試者人數相等或不相等時,在 相同 DIF 試題百分比、DIF 試題難度等級發生的低、中、高三種情境,以二種 選題法所篩選出 4 道定錨題進行 DFTD 策略時,所得數值約在 0.01~0.02 之間, 此型一誤差是能接受的合理範圍之內。 在檢核力的部分,可發現兩群受試者人數相等的檢核力較兩群受試者人數 不相等時高;在有關測驗中 DIF 百分比部分可發現為 DIF 百分比 10%時的檢核 力表現比測驗中 DIF 百分比 20%佳;在表 12 亦可觀察到在使用 ST 法及 SP 法 進行檢核時,DIF 試題難度等級為中難度的檢核力比 DIF 試題難度等級為低、 高難度 DIF 試題的檢核力來得高,DIF 試題難度等級為低難度 DIF 試題的檢核 力又比 DIF 試題難度等級為高難度的檢核力來得高,但在兩群受試人數不等且DIF 試題百分比為 20%的條件下 DIF 試題難度等級為低難度的檢核力與 DIF 試 題難度等級為高難度的檢核力是相似的。若只比較 ST 法及 SP 法的檢核效果, 從表 12 可以發現在 SP 法的在各種情境下的檢核力均較 ST 法高。
表 12 題長 40 兩群受試者能力相同進行 DFTD 策略之型一誤差及檢核力
Sample size DIF% Difficulty level Type I error Power
ST SP ST SP 0 0.01 0.01 Easy 0.01 0.01 0.86 0.94 10 Medium 0.01 0.01 0.94 0.97 R1000/F1000 Difficult 0.01 0.01 0.77 0.86 Easy 0.01 0.01 0.77 0.91 20 Medium 0.01 0.01 0.88 0.96 Difficult 0.01 0.01 0.74 0.84 0 0.01 0.02 Easy 0.02 0.01 0.66 0.72 10 Medium 0.02 0.02 0.77 0.82 R1000/F500 Difficult 0.02 0.02 0.53 0.65 Easy 0.01 0.02 0.51 0.68 20 Medium 0.02 0.02 0.65 0.81 Difficult 0.02 0.02 0.51 0.61 表 13 數據結果表示兩群受試者能力不相同且受試者人數相等或不相等時, 在相同 DIF 試題百分比、DIF 試題難度等級發生的低、中、高三種情境,以二 種 選 題 法 所 篩 選 出 4 道 定 錨 題 進 行 DFTD 策 略 時 , 所 得 之 型 一 誤 差 約 在 0.01~0.06 之間,此數值是能接受的合理範圍之內。但從表 13 可觀察到在 ST 法 部份的 DIF 試題難度等級為中難度的型一誤差較 DIF 試題難度等級為低、高難 度的高。
在檢核力的部分,可發現兩群受試者人數相等時,所得檢核力較兩群受試 者人數不相等時要來得高一些;有關測驗中 DIF 試題百分比部分可發現為 DIF 試題百分比 10%時的檢核力比測驗中 DIF 試題百分比 20%高。另外,表 13 亦顯 示使用 ST 法及 SP 法進行檢核時,DIF 試題難度等級為中難度的檢核力比 DIF 試題難度等級為低、高難度的檢核力來得高,DIF 試題難度等級為低難度的檢核 力又比 DIF 試題難度等級為高難度的檢核力表現得較好,但 ST 法在 DIF 試題 百分比為 20%時,DIF 試題難度等級為低難度與 DIF 試題難度等級為高難度的 檢核力差異不大。若比較 ST 法及 SP 法的檢核效果,從表 13 可以發現在 SP 法 的檢核力較 ST 法高,但在 DIF 試題難度等級為高難度的部分差異不明顯。 表 13 題長 40 受試者能力不相同進行 DFTD 策略之型一誤差及檢核力
Sample size DIF% Difficulty level Type I error Power
ST SP ST SP 0 0.01 0.01 Easy 0.02 0.02 0.59 0.62 10 Medium 0.02 0.02 0.62 0.74 R1000/F1000 Difficult 0.01 0.01 0.46 0.48 Easy 0.02 0.02 0.42 0.63 20 Medium 0.04 0.01 0.44 0.69 Difficult 0.01 0.01 0.40 0.46 0 0.01 0.01 Easy 0.01 0.02 0.45 0.47 10 Medium 0.02 0.02 0.46 0.51 R1000/F500 Difficult 0.01 0.01 0.28 0.31 Easy 0.03 0.02 0.31 0.41 20 Medium 0.06 0.02 0.34 0.46 Difficult 0.01 0.02 0.28 0.29
參、總結
以所有本研究所設定的模擬情境而言,二種選題法所篩選出的定錨題進行 定題法檢核後,在不同 DIF 試題難度等級發生的情境下所得之型一誤差皆在合 理的誤差範圍之內,只有在測驗題長 40 且兩群體能力值不相的情境下 ST 法在 DIF 試題難度為中難度的型一誤差值為 0.06,相較其它的情境有些微的偏高,但 並未膨脹且失控。在本研究實驗的情境下,可以發現對型一誤差有影響的變項 有兩群受試者能力分配及 DIF 試題難度等級的高低;在檢核力方面,可以發現 所影響的變項有兩群受試者能力分配、DIF 試題難度等級及 DIF 試題百分比與 受試者人數。 以本研究資料 DIF 試題難度等級而言,發現 ST 法及 SP 法在 DIF 試題難度 等級為中難度的情境中所得之檢核力比 DIF 試題難度等級為低難度或高難度時 的情境來得高。 根據上述的結果也可發現在本研究的實驗情境中,DIF 試題難度等級對於 型一誤差似乎有些的影響,但對於檢核力有較明顯的影響,當 DIF 試題難度等 級為中難度時,所得之檢核力最高;難度等級為低時次之,最後為難度等級為 高難度 DIF 試題。就檢核方法來看,在本模擬研究的所有情境下,SP 法的檢核 力較 ST 法高。 從圖 3 至圖 18 可以觀察到 ST 法與 SP 法在所有的情境中,DIF 試題難度等 級為中難度檢核力高於 DIF 試題難度等級為低、高難度的檢核力;也可以發現 SP 法在 DIF 試題難度等級發生在低、中、高難度的三種情境下的檢核效果一致 性的要比 ST 法來得高,但在圖 8 及圖 18 時可發現 SP 法與 ST 法對於 DIF 試題 難度等級為高難度的檢核效果差異不大,在圖 15 及圖 16 時可發現 SP 法與 ST 法對於 DIF 試題難度等級為低難度的檢核效果差異不大。圖 3 題長 20 能力值相等、人數相同 圖 4 題長 20 能力值相等、人數不同 圖 5 題長 20 能力值相等、人數相同 圖 6 題長 20 能力值相等、人數不同 圖 7 題長 20 能力值不相等、人數相同 圖 8 題長 20 能力值不相等、人數不同 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WER 10%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WER 10%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WE R 20%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WE R 20%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WE R 10%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WE R 10%測驗中DIF試題難度等級 ST SP
圖 9 題長 20 能力值不相等、人數相同 圖 10 題長 20 能力值不相等、人數不同 圖 11 題長 40 能力值相等、人數相同 圖 12 題長 40 能力值相等、人數不同 圖 13 題長 40 能力值相等、人數相同 圖 14 題長 40 能力值相等、人數不同 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WER 20%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WER 20%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WE R 10%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WE R 10%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WE R 20%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WE R 20%測驗中DIF試題難度等級 ST SP
圖 15 題長 40 能力值不相等、人數相同 圖 16 題長 40 能力值不相等、人數不同 圖 17 題長 40 能力值不相等、人數相同 圖 18 題長 40 能力值不相等、人數不同 從研究的結果可以觀察到本實驗中各模擬資料進行先定錨後核策略後,所 獲得的型一誤差與檢核力的數據,數據會隨著研究設計中的獨立變項而產生不 同的樣貌。為了更瞭解本實驗中所操弄各獨立變項對於型一誤差與檢核力的影 響性,本研究將針對 ST 法及 SP 法二種方法所得到實驗數據進行型一誤差以及 檢核力的變異數分析,以便更進一步了解各獨立變項對型一誤差以及檢核力的 影響。以下將針對變異數分析結果分為「型一誤差」及「檢核力」兩個部份進 行說明。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WER 10%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WER 10%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WE R 20%測驗中DIF試題難度等級 ST SP 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 低難度 中難度 高難度 P O WE R 20%測驗中DIF試題難度等級 ST SP
一、型一誤差 由表14型一誤差之變異數分析摘要表可知,影響型一誤差的變項有受試者 人數(F(1,48)=11.524,p<.01)、DIF試題難度等級(F(2,48)=4.310,p<.01)、 DIF試題百分比(F(1,48)=7.714,p<.01)、受試者能力分配(F(1,48)=13.714,p <.01)等四個變項,此四個變項的主要效果的考驗均達到顯著,但在DIF試題難 度等級與受試者能力分配(F(2,48)=3.500,p<.05)之間的交互作用發現達到顯著 水準,因此有對此部分進行單純主要效果的考驗。 表14 型一誤差變異數分析摘要表 來源 自由度 平均平方和 F 檢定 顯著性 受試者人數 1 .001 11.524*** .001 DIF試題難度等級 2 . <.001 4.310** .019 DIF試題百分比 1 <.001 7.714*** .008 測驗長度 1 <.001 .095 .759 受試者能力分配 1 .001 13.714** .001 受試者人數* DIF試題難度等級 2 <.001 .310 .735 受試者人數* DIF試題百分比 1 <.001 .857 .359 DIF試題難度等級* DIF試題百分比 2 <.001 .929 .402 受試者人數*測驗長度 1 <.001 .857 .359 DIF試題難度等級*測驗長度 2 <.001 2.167 .126 DIF試題百分比*測驗長度 1 <.001 .095 .759 受試者人數*受試者能力分配 1 <.001 3.429 .070 難度值 * 能力值 2 <.001 3.500* .038 DIF試題百分比*受試者能力分配 1 <.001 1.524 .223 測驗長度*受試者能力分配 1 . <.001 <.001 1.000 誤差 48 <.001 總和 96 註:R 平方 = .625 (調過後的 R 平方 = .257)