• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3

(二)試題參數被視為固定變數

IRT取向的DIF檢測方法,多將試題參數視為固定變數,但此舉會造成 試題無法推論至整個題庫的試題。現今大型評量考試,例如:托福、多益 等等,往往建立一龐大的題庫,試題均是從題庫擷取出來,若研究者將試 題難度視為隨機變數,會較符合現實情境。

(三)配對變項的選取

在考生能力相同的基礎下,檢測DIF試題才有意義,故用來配對考生 能力的配對變項(matching variable)即顯得格外重要,一般而言,會以測 驗總分或某些試題的得分當作配對變項,但此會延伸出一問題,也就是某 些當作能力配對的試題,可能有DIF情形,在這種情況下,會導致學生的 能力估計值產生偏誤。因此,Holland 和 Thayer(1988)建議採淨化

(purification)程序,先將有DIF的試題從配對變項中排除,進行兩階段的 DIF試題檢定。然而,若能估計試題的DIF情形,又能同時將非DIF試題自 動當作配對變項,這種一階段的DIF檢測方法,將提昇估計準確性。

第二節 研究特色與待答問題

前一節說明過去 DIF 方法的限制,本研究希冀能改善過去 DIF 偵測方

式的缺點,提出「混合試題及受試者模型(mixture items and examinees model, MIE)」,此模型將試題參數視為隨機變數,並可偵測潛在類別(latent class)

造成的 DIF 情形。以下茲就本研究焦點、估計方法及待答問題,逐一說明 如下:

一、本研究焦點

本研究提出之混合受試者及試題模型,除具有一般DIF檢測方法功能外,

其優點將聚焦於兩大重點,分別說明如下:

(一)偵測潛在變項可能造成的DIF

過去研究指出,若使用外顯變項作為DIF偵測的依據,可能有幾項缺 點(Cohen & Bolt, 2005; Samuelsen, 2005, 2008):

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4

1. 以外顯變項分類出來的學生,其作答反應的同質性往往不如預期的高。

例如:即使是住在美國的西班牙人,他們所擁有的血統、種族地位也 相當不同,歧異度相當高,因此,若將他們視為同一群體以進行DIF 現象分析,往往無法得到適宜的結果。

2. 研究者對於使用外顯變項作為DIF的依據,往往只是為了分析方便,

但此舉反而會使得分析結果無法直接連結到教育實質關注的議題,例 如:對於教學回饋,提供性別的檢測結果往往不如提供不同作答策略 的檢測結果。

3. 當外顯變項組別與潛在類別不同時,研究者若以外顯變項變項作為 DIF偵測,往往會降低統計檢定力並使得型一誤差(type I error)膨脹,

得到低估DIF程度的結果。同時,隨著外顯變項組別與潛在類別相差 越大或相關愈低時,則越難正確偵測出DIF試題。

過去研究指出,以潛在變項將學生分類後,發現題目類型、學生的課 程經驗,才是造成試題具有 DIF 的原因,反而和學生的背景變項相關不大。

同時,當學生的潛在類別和背景變項相關越低時,以背景變項當作探討 DIF 的依據,將會造成 DIF 試題的誤判(Cohen, Gregg, & Deng, 2005; Kang

& Cohen, 2003)。

現行DIF研究趨勢已不再只是找出DIF可能存在於哪些外顯背景變項,

而是試圖找出不同潛在類別學生間,是否對於某些試題產生DIF,另一方 面,有些研究者企圖將外顯變項視同潛在類別的預測變項,兩者相結合,

以期找出發生DIF的可能原因,提供教育現場更多實質的意義與回饋(Cho

& Cohen, 2010; De Boeck, Cho, & Wilson, 2011; Penfield, 2010; Zumbo &

Gelin, 2005)。舉例來說,研究者會執行潛在類別分析(或稱混合受試者 模式),預先將學生分類,將相同作答反應的學生歸為一類,同時,再配 合教師或教學問卷的結果,可能會發現某群學生是接受相似教法且擁有同 樣的解題思維,而此舉是相較於單以外顯背景變項進行群體分類,更能符 合同質性及找出造成DIF的原因。此外,在心理計量領域的技術發展趨勢,

此舉也能突破以往只關注外顯變項的影響,試圖找出學生的潛在類別,針 對各潛在類別間的學生特性並加以應用。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5

(二)非DIF定錨題的尋找

現行常用的DIF偵測方法,例如:Mantel-Haenszel法、LR法,研究者 多會把總分相同的學生視為相同能力,亦即將所有題目皆視為配對變項

(或稱為定錨題),但當配對變項含有DIF題目時,會導致型一誤差增加、

檢定力變小(Finch, 2005),能力估計值也會出現偏誤(Navas-Ara &

Gomez-Benito, 2002 )。 為 改 善 此 缺 點 , 有 研 究 提 出 淨 化 程 序

(DIF-free-then-DIF),利用輪流反覆的測試,找出非DIF的試題當定錨題,

並建議傳統DIF方法搭配淨化程序來增進估計精準度(Shin, & Wang, 2009)。

淨化程序的立意良好,但找出非DIF題目往往相當耗時。另外,界定出非 DIF試題後,才得以用這些定錨題作為能力相同的配對變項,進而重新檢 測哪些題目為DIF題,這種兩步驟的DIF檢測方法雖比傳統方法準確,但相 當耗費時間。Frederickx、Tuerlinckx、De Boeck與Magis(2010)則提出另 一個選擇定錨題的方法,其將試題難度視為隨機變數,並搭配貝氏估計法,

利用隨機試題混合模型(random item mixture model, RIM),以自動化、一 步驟的方式,將題目分成DIF與非DIF兩群,且當題目被分到非DIF那一組 時,即會自動被分派做為定錨題使用,此方法較不耗時,且能同時估計試 題參數和能力參數。

整體而言,本研究結合Frederickx、Tuerlinckx、De Boeck與Magis(2010)

所提出的隨機試題混合模型(random item mixture model, RIM)及混合受 試者模型(mixture Rasch)(Cohen, & Bolt, 2005; Rost, 1990; Samuelsen, 2005),以進行DIF的檢測。

二、估計方法

對於混合模式估計方法的使用或選擇,過去研究者大致提出兩個趨向,

一是最大概似估計法(maximum likelihood method, ML),另一則是貝氏估 計法(Bayesian approach)。比較這兩種估計方法,以 ML 法得到的估計量 雖具有不偏性的優點,但使用 ML 估計法的前提是,資料服從常態分配較 好,且 ML 估計結果可能找到多個局部最大值(multiple local maximum),

也可能產生沒有界限的概似函數(unbounded likelihood function),導致找 不到適合的解。另外,使用 ML 法估計多層次資料時,若階層二的資料(例:

學生巢套於學校,學校是第二層)樣本不夠大、各群內的觀察樣本數不均

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6

等時,也會降低估計精準度。反觀貝氏估計法,其不但沒有上述問題,且 貝氏估計法利用先驗分配訊息(prior information) 不斷更新參數估計,面 對複雜的模型往往也能順利求解,故越來越多研究將貝氏估計法應用在混 合模式上(Cohen, & Bolt, 2005; Dai, 2009),本研究也將採用貝氏估計法進 行參數估計。

三、待答問題

綜合以上論述,本研究有三個特色:

(1)結合 IRT、潛在類別模式(latent class model)並採用 Frederickx、

Tuerlinckx、De Boeck 與 Magis(2010)之 RIM 定錨尋找機制,將受 試者能力和試題參數同時視為潛在隨機變數,提出一步驟找出 DIF 試 題的估計模式,本研究稱為「混合試題與受試者模型」。

(2)使用貝氏估計法搭配蒙地卡羅馬可夫鏈(Markov Chain Monte Carlo, MCMC)與 Gibbs 抽樣(Gibbs sampling),以期獲得更接近實際情況 的參數估計值與標準誤。

本研究將運用模擬研究和實徵資料的分析,以確定模式的適用性。本 研究的待答問題包含 2 個:

(1)「混合試題與受試者模型」在不同操弄因子情境下,各參數的估計表 現如何?

(2)「混合試題與受試者模型」是否能運用在實徵資料的分析上?

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

7

相關文件