第二章 文獻探討
第四節 試題反應理論模式
試題反應理論又稱為現代測驗理論。當代的 IRT 模式已經有數十種之 多,分別應用在許多不同的測驗情境裡。若依測量受試者能力的向度來區 分可分為單向度(unidimensional)和多向度(multidimensional)兩類。以下分 別介紹單向度試題反應理論(UIRT)模式、多向度試題反應理論(MIRT)模式 和高階層試題反應理論(HO-IRT)模式三種模式。
壹、 單向度試題反應理論
IRT 主要是用來描述測驗的試題特性(難度、鑑別度、猜測度)與受試
35
者能力或潛在特質對於試題的答題反應的一種數學模式。UIRT 模式已經 被廣泛地運用在教育、心理、醫療等相關領域中。在國外比較著名的大型 標準測驗如 NAEP 和 TIMSS 就是採用 UIRT 的模式(Lee et al., 2007; Mullis et al., 2007)。又例如 TOEFL、GRE、GMAT 考試以及一些人格量表與醫學 相關量表的編製,以及國內的國中基本學力測驗也都是採用 UIRT 模式。
若以模式的參數來區分,常見的 UIRT 模式有三:單參數 UIRT 模式、二 參數 UIRT 模式和三參數 UIRT 模式。分別介紹如下:
一、 單參數 UIRT 模式
IRT 單參數模式(one-parameter logistic model, U1PLM)如下列公式(1)所 示(Rasch, 1960):
Pi(θj) = exp(θj−bi)
1+exp(θj−bi) (1)
其中𝜃𝑗為受試者 j 的能力,𝑏𝑖是試題 i 的難度,而𝑃𝑖(𝜃𝑗)是受試者答對 第 i 題的機率。在單參數 UIRT 的模式中,受試者在第 i 題上的答對 機率是同時受到受試者能力與該試題的難易度所影響。
二、 二參數 UIRT 模式
在 U1PLM 中,所有試題都被要求要具有相同的高鑑別度(1.0),而猜對 率為 0。不同於單參數 UIRT 模式,二參數 UIRT 模式最早由 Lord (1952) 提出,當時所提出來的是常態肩型模式,之後再經(Birnbaum, 1968)修改成 較簡單的對數模式(two-parameter logistic model, U2PLM),如公式(2)所示。
𝑃𝑖(𝜃𝑗) = 𝑒𝑥𝑝[𝑎𝑖(𝜃𝑗−𝑏𝑖)]
1+𝑒𝑥𝑝[𝑎𝑖(𝜃𝑗−𝑏𝑖)] (2)
其中𝑎𝑖是試題𝑖的鑑別度,其他的符號意義與公式(1)相同。在 U2PLM 中,與 Rasch 最大的不同點是題目可以被允許有不同的鑑別度。
36
U2PLM 將會與實際資料較為接近,因為每一道試題很難都具有相同 的鑑別度。
三、 三參數 UIRT 模式
上述 U1PLM 和 U2PLM 中,受試者猜對題目的機率已經被納入受試者 能力中,而不是試題特性。而這種現象顯然和真實的測驗情境不吻合。因 為就選擇性的試題而言,受試者對於不知道答案的試題,都會採取猜題的 策略來作答,因此,將猜測的參數納入試題的特性中才能比較準確的測量 出受試者的能力值。三參數 UIRT 模式(three-parameter logistic model, U3PLM)的概念源自於 Lord (1952) 與 Birnbaum (1968)。主要是針對那些可 以經由猜測來答對試題的測驗情況,例如選擇題、是非題……等。如公式 (3)所示。
Pi(θj) = ci + (1 − ci) exp[ai(θj−bi)]
1+exp[ai(θj−bi)] (3) 其中𝑐𝑖是試題𝑖的猜對率,其他的符號意義與公式(2)相同。
U3PLM 在估計受試者能力時也已經考慮了不同題目的猜對率對受試者 答對機率的影響,因此所得到的能力值應該會比較符合其實際能力水準。
受試者在測驗上的整體表現就是所有試題答對機率的聯合機率。藉由 這個數學模式與聯合機率的概念,就能根據受試者在各個題目上的答題反 應來估計他的能力以及題目的難易度。而這樣的數學模式將受試者的能力 和試題的難度放在相同的量尺下,因此可用高於或低於試題難度來衡量受 試 者 的 能 力 , 並 且 讓 接 受 不 同 題 目 的 受 試 者 其 能 力 可 以 互 相 比 較 (Embretson & Reise, 2000; Hambleton & Swaminathan, 1985)。
UIRT 有一個重要的基本假設,就是單向度(unidimensionality)的假設。
受試者資料必須符合這些假設才能具備上節所述的各項特性,否則就不適
37
合用 UIRT 模式來進行分析。單向度是指同一份測驗中的所有題目都是測 量同一種特質或能力。也就是說受試者在測驗的試題上的作答主要受到一 種特質或能力所影響。當受試者答對試題的機率受到不只一種能力所影響 時,就會違反 IRT 單向度的理論假設。Ackerman (1989) 研究顯示,當試 題測量不只一種能力時,如果以 UIRT 模式來進行參數估計,會使鑑別度 較大的能力向度被擴大、鑑別度較小的向度被縮小或忽略掉,產生偏差的 試題參數估計值,而且所估計出來的能力其意義已經模糊了,不適合放在 同一個向度上互相比較 (Ackerman et al., 2003) 。
貳、 多向度試題反應理論
在實際生活情境中,有些許問題並非靠單一能力或潛在特質就能解決 的,測驗的作答也是如此 (Kelderman, 1996)。因此學者提出多向度試題反 應理論正可以運用來處裡這種測驗問題(Adams et al., 1997; Hattie, 1981;
Mckinley & Reckase, 1983; Reckase, 1985; van der Linden & Hambleton, 1996)。MIRT 的特點是將受試者的能力視為多種與試題作答結果之間的關 係,會將各能力向度間的相關性納入估計程序中,以一種數學模式來表示
,提升各向度能力估計的精確性,同時每個向度只要用少數幾題就能使各 向度具有高信度了。根據 Wang、 Chen 與 Cheng (2004) 的研究顯示,當 向度之間為高相關時,MIRT 分析可以大幅提高各向度的信度,由原本的 0.6(UIRT 分析)提昇至 0.8。
針對各國 7 年級以上的 15 歲學生所做的「學生能力國際評量計畫」
PISA,評量學生的閱讀素養在連續文本上包含五個領域能力:(1)敘事文(2) 說明文(3)記敘文(4)論述文與說明文(5)指南忠告;另一方面在非連續文本 上包含六個領域能力:(1)曲線圖 (2)表格(3)圖解(4)地圖(5)表單(6)廣告,
受試者在各領域能力的能力值的估計就是採用 MIRT 模式(國立台南大學 PISA 國家研究中心, 2009)。
38
常見的 MIRT 模式大多是 UIRT 模式的衍生的模式。以下分別介紹多 向度二參數模式和多向度三參數模式:
一、 二參數 MIRT 模式
二 參 數 多 向 度 對 數 模 式 (multidimensional two-parameters logistic model, M2PLM)(Reckase, 1997)中,第𝑖道試題的正確作答機率表示如下:
𝑃𝑖(𝑥𝑖𝑗 = 1|𝐚𝑖, 𝑏𝑖, 𝛉𝑗) =1+𝑒𝑥𝑝[a𝑒𝑥𝑝[a𝒊′(𝛉𝑗−𝑏𝑖𝟏)]
𝒊′(𝛉𝑗−𝑏𝑖𝟏)] (4)
其中,𝑥𝑖𝑗是能力為𝛉𝑗的第𝑗個受試者在第𝑖題的作答結果,答對該題時 𝑥𝑖𝑗為 l,答錯時𝑥𝑖𝑗為 0;𝛉𝑗 = (𝜃1, 𝜃2, ⋯ , 𝜃𝐷)表示為第𝑗個受試者能力參 數的向量,D為能力向度總個數;𝐚𝑖′ = (𝑎𝑖1, 𝑎𝑖2, ⋯ , 𝑎𝑖𝐷)為試題𝑖的鑑 別度參數的向量,𝑎𝑖𝑘為第𝑖題在第k個能力向度的鑑別度參數;𝑏𝑖為與 試題𝑖的難度有相關的參數;𝟏代表𝐷 × 1的單位向量。
二、 三參數 MIRT 模式
將原本 M2PLM 再加入猜測度參數𝑐𝑖所產生的三參數 MIRT 模式 (multidimensional three-parameters logistic model, M3PLM)(Hattie, 1981;
Reckase, 1985)。模式如式子(5)所示:
𝑃𝑖(𝑥𝑖𝑗 = 1|𝐚𝑖, 𝑐𝑖, 𝑏𝑖, 𝛉𝑗) = 𝑐𝑖+ (1 − 𝑐𝑖) 𝑒𝑥𝑝[a𝒊′(𝛉𝑗−𝑏𝑖𝟏)]
1+𝑒𝑥𝑝[a𝒊′(𝛉𝑗−𝑏𝑖𝟏)] (5) 其中,𝑐𝑖為試題i的猜測參數,其他的符號意義與公式(4)相同;公式(5) 中 a𝐢′(𝛉𝐣− bi𝟏) = ∑Dk=1aik(θk− bi)。
參、 題間與題內多向度的試題模式
MIRT 模 式 可 以 分 為 兩 種 : 一 種 是 題 間 多 向 度 (between-item multidimensionality) 模 式 , 另 一 種 為 題 內 多 向 度 (within-item multidimensionality) 模式 (Adams et al., 1997; W.-C. Wang, Wilson, &
Adams, 1997)。
一、 題間多向度試題模式
39
題間多向度試題模式是指測驗裡的每一道試題只測量單一種向度的 能力,即單向度試題,而整份測驗包含多個單向度的試題。這類型的測驗 如圖 2-1 所示。𝑥𝑖𝑗(𝐷)代表第𝑖個受試者在第 D 個向度能力𝜃𝑖(𝐷)、第𝑗題的作答 反應,答對該題時𝑥𝑖𝑗(𝐷)為 1,答錯時𝑥𝑖𝑗(𝐷)為 0。
圖 2- 1 題間多向度測驗模式
二、 題內多向度試題模式
相對於題間多向度的試題,題內多向度試題則試題同時對應並測量兩 個或兩個以上的能力向度。也就是說,題內多向度試題模式代表測驗中部 份的題目都可能測量不只一種能力,故單一試題裡就包含多向度。這類型 的測驗如圖 2-2 所示。𝑥𝑖1(𝐷)代表第𝑖個受試者在第 D 個向度能力、第 1 題的 作答反應,這道試題同時對應測量兩個向度的能力,也就是第 2 個和第 D 個向度能力,𝜃𝑖(2), 𝜃𝑖(𝐷);同樣的這個作答反應經 IRT 模式的試題參數同時 連結到到第𝑖個受試者在第 2 個和第 D 個領域能力的表現,屬於題內多向
… … …
∙∙∙∙∙∙∙∙∙∙40
度的試題。
對於華語溝通能力的補償性問題而言,MIRT 模式有兩種:補償性 MIRT 模 式 (compensatory MIRT model) 和 非 補 償 性 MIRT 模 式 (non-compensatory MIRT model)(Reckase, 2009)。補償性 MIRT 模式和非補 償性 MIRT 模式的差異在於受試者各向度能力值對應於答對試題的機率不 同。如上述,補償性 MIRT 模式是指第𝑖個受試者具備第 2 個向度能力 𝜃𝑖(2)時
,就可以正確回答𝑥𝑖1(𝐷)試題時;同理,若第𝑖個受試者具備第𝐷個向度能力 𝜃𝑖(𝐷)時,也可以正確回答𝑥𝑖1(𝐷)試題時。非補償性 MIRT 模式是指第𝑖個受試 者需同時具備第 2 個和第𝐷個向度能力才能正確回答試題𝑥𝑖1(𝐷)。
圖 2- 2 題內多向度測驗模式
肆、 高階層試題反應理論
國際上許多大型測驗皆為高階層的評量架構,也就是說所欲測量的能 力值包含兩階層的能力:第一層為總體能力,第二層為領域能力。領域能
… … …
∙∙∙∙∙∙∙∙∙∙41
力代表受試者在不同的學習領域或分測驗的能力。總體能力是統整所有領 域能力的高階層能力。例如美國用來評量學生成就的「國家教育發展評量
」NAEP (張鈿富、吳慧子, 2006)每兩年全美的 4 年級、8 年級和 12 年級 的學生須接受閱讀能力和數學能力評量;每四年須接受科學能力和寫作能 力評量;如 2011 年 NAEP 在全美舉行數學、閱讀和寫作的評量。以 NAEP 2011 年閱讀評量為例,閱讀的總體能力包含二個:(1)閱讀目的(2)閱讀理 解層次。閱讀的領域能力在閱讀目的上包含三個:(1)為文藝學識而閱讀(2) 為獲取資訊而閱讀(3)為執行任務而閱讀;另一方面閱讀的領域能力在閱讀 理解層次上包含四個層級:(1)形成一般性的理解,要求學生將整篇閱讀文 章做整體一般性的理解(2)發展解釋,要求學生理解文章內容的前後關係(3) 讀者與文章間的連結,要求學生將文章內容與其先備知識做一個連結(4) 檢視文章內容與架構,要求學生對文章做出批判、評量與統整。其他非閱 讀能力測驗的大型測驗如針對各國 4 年級和 8 年級的學生,每四年舉行一 次的「國際數學與科學教育成就趨勢調查」TIMSS 測驗,以 TIMSS 2011 數學評量為例,它也包含二個數學總體能力:(1)內容(2)認知;每個總體能 力又各對應三個領域能力,在內容總體能力中所對應的領域能力為(1)數量 (2)空間與形體(3)改變與關係;在認知總體能力中所對應的領域能力為(1) 知 道(2) 應 用(3) 推 理(Mullis, Martin, Ruddock, O'Sullivan, & Preuschoff, 2009)。
上述這些國際的大型評量架構可見都是屬於高階層的評量架構;若採 用 UIRT 模式估計總體能力,則可能因為各領域能力間存在有相關性,使 得高階層能力估計不準確,或當領域能力所對應的試題數較少時,導致估 計效果不可靠。因此,大型測驗可透過 HO-IRT 模式,同時估計得到受試 者的各個領域能力和總體能力,評量受試者的總體能力可以了解受試者整 體的表現;而評量受試者各個領域能力則可直接測量受試者各個向度的能
42
力。
由 de la Torre 與 Song 所提出的 HO-IRT 模式可以同時適用於 1PL、
2PL 和 3PL 三種參數模式;一般而言,一因子 HO-IRT 模式分為一因子題
2PL 和 3PL 三種參數模式;一般而言,一因子 HO-IRT 模式分為一因子題