試題反應理論模式

第二章文獻探討

第四節試題反應理論模式

試題反應理論又稱為現代測驗理論。當代的 IRT 模式已經有數十種之多，分別應用在許多不同的測驗情境裡。若依測量受試者能力的向度來區分可分為單向度(unidimensional)和多向度(multidimensional)兩類。以下分別介紹單向度試題反應理論(UIRT)模式、多向度試題反應理論(MIRT)模式和高階層試題反應理論(HO-IRT)模式三種模式。

壹、單向度試題反應理論

IRT 主要是用來描述測驗的試題特性（難度、鑑別度、猜測度）與受試

者能力或潛在特質對於試題的答題反應的一種數學模式。UIRT 模式已經被廣泛地運用在教育、心理、醫療等相關領域中。在國外比較著名的大型標準測驗如 NAEP 和 TIMSS 就是採用 UIRT 的模式(Lee et al., 2007; Mullis et al., 2007)。又例如 TOEFL、GRE、GMAT 考試以及一些人格量表與醫學相關量表的編製，以及國內的國中基本學力測驗也都是採用 UIRT 模式。

若以模式的參數來區分，常見的 UIRT 模式有三：單參數 UIRT 模式、二參數 UIRT 模式和三參數 UIRT 模式。分別介紹如下：

一、單參數 UIRT 模式

IRT 單參數模式(one-parameter logistic model, U1PLM)如下列公式(1)所示(Rasch, 1960)：

P_i(θ_j) = ^exp(θ^j^−bⁱ⁾

1+exp(θj−bi) (1)

其中𝜃_𝑗為受試者 j 的能力，𝑏_𝑖是試題 i 的難度，而𝑃_𝑖(𝜃_𝑗)是受試者答對 第 i 題的機率。在單參數 UIRT 的模式中，受試者在第 i 題上的答對 機率是同時受到受試者能力與該試題的難易度所影響。

二、二參數 UIRT 模式

在 U1PLM 中，所有試題都被要求要具有相同的高鑑別度(1.0)，而猜對率為 0。不同於單參數 UIRT 模式，二參數 UIRT 模式最早由 Lord (1952) 提出，當時所提出來的是常態肩型模式，之後再經(Birnbaum, 1968)修改成較簡單的對數模式(two-parameter logistic model, U2PLM)，如公式(2)所示。

𝑃_𝑖(𝜃_𝑗) = ^{𝑒𝑥𝑝[𝑎}^𝑖^(𝜃^𝑗^−𝑏^𝑖^)]

1+𝑒𝑥𝑝[𝑎𝑖(𝜃𝑗−𝑏𝑖)] (2)

其中𝑎_𝑖是試題𝑖的鑑別度，其他的符號意義與公式(1)相同。在 U2PLM 中，與 Rasch 最大的不同點是題目可以被允許有不同的鑑別度。

U2PLM 將會與實際資料較為接近，因為每一道試題很難都具有相同的鑑別度。

三、三參數 UIRT 模式

上述 U1PLM 和 U2PLM 中，受試者猜對題目的機率已經被納入受試者能力中，而不是試題特性。而這種現象顯然和真實的測驗情境不吻合。因為就選擇性的試題而言，受試者對於不知道答案的試題，都會採取猜題的策略來作答，因此，將猜測的參數納入試題的特性中才能比較準確的測量出受試者的能力值。三參數 UIRT 模式(three-parameter logistic model, U3PLM)的概念源自於 Lord (1952) 與 Birnbaum (1968)。主要是針對那些可以經由猜測來答對試題的測驗情況，例如選擇題、是非題……等。如公式 (3)所示。

P_i(θ_j) = c_i + (1 − c_i) ^exp[aⁱ^(θ^j^−bⁱ^)]

1+exp[a_i(θ_j−b_i)] (3) 其中𝑐_𝑖是試題𝑖的猜對率，其他的符號意義與公式(2)相同。

U3PLM 在估計受試者能力時也已經考慮了不同題目的猜對率對受試者答對機率的影響，因此所得到的能力值應該會比較符合其實際能力水準。

受試者在測驗上的整體表現就是所有試題答對機率的聯合機率。藉由這個數學模式與聯合機率的概念，就能根據受試者在各個題目上的答題反應來估計他的能力以及題目的難易度。而這樣的數學模式將受試者的能力和試題的難度放在相同的量尺下，因此可用高於或低於試題難度來衡量受試者的能力，並且讓接受不同題目的受試者其能力可以互相比較 (Embretson & Reise, 2000; Hambleton & Swaminathan, 1985)。

UIRT 有一個重要的基本假設，就是單向度(unidimensionality)的假設。

受試者資料必須符合這些假設才能具備上節所述的各項特性，否則就不適

合用 UIRT 模式來進行分析。單向度是指同一份測驗中的所有題目都是測量同一種特質或能力。也就是說受試者在測驗的試題上的作答主要受到一種特質或能力所影響。當受試者答對試題的機率受到不只一種能力所影響時，就會違反 IRT 單向度的理論假設。Ackerman (1989) 研究顯示，當試題測量不只一種能力時，如果以 UIRT 模式來進行參數估計，會使鑑別度較大的能力向度被擴大、鑑別度較小的向度被縮小或忽略掉，產生偏差的試題參數估計值，而且所估計出來的能力其意義已經模糊了，不適合放在同一個向度上互相比較 (Ackerman et al., 2003) 。

貳、多向度試題反應理論

在實際生活情境中，有些許問題並非靠單一能力或潛在特質就能解決的，測驗的作答也是如此 (Kelderman, 1996)。因此學者提出多向度試題反應理論正可以運用來處裡這種測驗問題(Adams et al., 1997; Hattie, 1981;

Mckinley & Reckase, 1983; Reckase, 1985; van der Linden & Hambleton, 1996)。MIRT 的特點是將受試者的能力視為多種與試題作答結果之間的關係，會將各能力向度間的相關性納入估計程序中，以一種數學模式來表示

，提升各向度能力估計的精確性，同時每個向度只要用少數幾題就能使各向度具有高信度了。根據 Wang、 Chen 與 Cheng (2004) 的研究顯示，當向度之間為高相關時，MIRT 分析可以大幅提高各向度的信度，由原本的 0.6（UIRT 分析）提昇至 0.8。

針對各國 7 年級以上的 15 歲學生所做的「學生能力國際評量計畫」

PISA，評量學生的閱讀素養在連續文本上包含五個領域能力：(1)敘事文(2) 說明文(3)記敘文(4)論述文與說明文(5)指南忠告；另一方面在非連續文本上包含六個領域能力：(1)曲線圖 (2)表格(3)圖解(4)地圖(5)表單(6)廣告，

受試者在各領域能力的能力值的估計就是採用 MIRT 模式(國立台南大學 PISA 國家研究中心, 2009)。

常見的 MIRT 模式大多是 UIRT 模式的衍生的模式。以下分別介紹多向度二參數模式和多向度三參數模式：

一、二參數 MIRT 模式

二參數多向度對數模式 (multidimensional two-parameters logistic model, M2PLM)(Reckase, 1997)中，第𝑖道試題的正確作答機率表示如下：

𝑃_𝑖(𝑥_𝑖𝑗 = 1|𝐚_𝑖, 𝑏_𝑖, 𝛉_𝑗) =_{1+𝑒𝑥𝑝[a}^{𝑒𝑥𝑝[a}^𝒊^′^(𝛉^𝑗^−𝑏^𝑖^𝟏)]

𝒊′(𝛉_𝑗−𝑏_𝑖𝟏)] (4)

其中，𝑥_𝑖𝑗是能力為𝛉_𝑗的第𝑗個受試者在第𝑖題的作答結果，答對該題時 𝑥_𝑖𝑗為 l，答錯時𝑥_𝑖𝑗為 0；𝛉_𝑗 = (𝜃₁, 𝜃₂, ⋯ , 𝜃_𝐷)表示為第𝑗個受試者能力參數的向量，D為能力向度總個數；𝐚_𝑖^′ = (𝑎_𝑖1, 𝑎_𝑖2, ⋯ , 𝑎_𝑖𝐷)為試題𝑖的鑑別度參數的向量，𝑎_𝑖𝑘為第𝑖題在第k個能力向度的鑑別度參數；𝑏_𝑖為與試題𝑖的難度有相關的參數；𝟏代表𝐷 × 1的單位向量。

二、三參數 MIRT 模式

將原本 M2PLM 再加入猜測度參數𝑐_𝑖所產生的三參數 MIRT 模式 (multidimensional three-parameters logistic model, M3PLM)(Hattie, 1981;

Reckase, 1985)。模式如式子(5)所示：

𝑃_𝑖(𝑥_𝑖𝑗 = 1|𝐚_𝑖, 𝑐_𝑖, 𝑏_𝑖, 𝛉_𝑗) = 𝑐_𝑖+ (1 − 𝑐_𝑖) ^{𝑒𝑥𝑝[a}^𝒊^′^(𝛉^𝑗^−𝑏^𝑖^𝟏)]

1+𝑒𝑥𝑝[a_𝒊^′(𝛉_𝑗−𝑏_𝑖𝟏)] (5) 其中，𝑐_𝑖為試題i的猜測參數，其他的符號意義與公式(4)相同；公式(5) 中 a_𝐢^′(𝛉_𝐣− b_i𝟏) = ∑^D_k=1a_ik(θ_k− b_i)。

參、題間與題內多向度的試題模式

MIRT 模式可以分為兩種：一種是題間多向度 (between-item multidimensionality) 模式，另一種為題內多向度 (within-item multidimensionality) 模式 (Adams et al., 1997; W.-C. Wang, Wilson, &

Adams, 1997)。

一、題間多向度試題模式

題間多向度試題模式是指測驗裡的每一道試題只測量單一種向度的能力，即單向度試題，而整份測驗包含多個單向度的試題。這類型的測驗如圖 2-1 所示。𝑥_𝑖𝑗^(𝐷)代表第𝑖個受試者在第 D 個向度能力𝜃_𝑖^(𝐷)、第𝑗題的作答反應，答對該題時𝑥_𝑖𝑗^(𝐷)為 1，答錯時𝑥_𝑖𝑗^(𝐷)為 0。

圖 2- 1 題間多向度測驗模式

二、題內多向度試題模式

相對於題間多向度的試題，題內多向度試題則試題同時對應並測量兩個或兩個以上的能力向度。也就是說，題內多向度試題模式代表測驗中部份的題目都可能測量不只一種能力，故單一試題裡就包含多向度。這類型的測驗如圖 2-2 所示。𝑥_𝑖1^(𝐷)代表第𝑖個受試者在第 D 個向度能力、第 1 題的作答反應，這道試題同時對應測量兩個向度的能力，也就是第 2 個和第 D 個向度能力，𝜃_𝑖⁽²⁾, 𝜃_𝑖^(𝐷)；同樣的這個作答反應經 IRT 模式的試題參數同時連結到到第𝑖個受試者在第 2 個和第 D 個領域能力的表現，屬於題內多向

… … …

∙∙∙∙∙∙∙∙∙∙

度的試題。

對於華語溝通能力的補償性問題而言，MIRT 模式有兩種：補償性 MIRT 模式 (compensatory MIRT model) 和非補償性 MIRT 模式 (non-compensatory MIRT model)(Reckase, 2009)。補償性 MIRT 模式和非補償性 MIRT 模式的差異在於受試者各向度能力值對應於答對試題的機率不同。如上述，補償性 MIRT 模式是指第𝑖個受試者具備第 2 個向度能力 𝜃_𝑖⁽²⁾時

，就可以正確回答𝑥_𝑖1^(𝐷)試題時；同理，若第𝑖個受試者具備第𝐷個向度能力 𝜃_𝑖^(𝐷)時，也可以正確回答𝑥_𝑖1^(𝐷)試題時。非補償性 MIRT 模式是指第𝑖個受試者需同時具備第 2 個和第𝐷個向度能力才能正確回答試題𝑥_𝑖1^(𝐷)。

圖 2- 2 題內多向度測驗模式

肆、高階層試題反應理論

國際上許多大型測驗皆為高階層的評量架構，也就是說所欲測量的能力值包含兩階層的能力：第一層為總體能力，第二層為領域能力。領域能

… … …

∙∙∙∙∙∙∙∙∙∙

力代表受試者在不同的學習領域或分測驗的能力。總體能力是統整所有領域能力的高階層能力。例如美國用來評量學生成就的「國家教育發展評量

」NAEP (張鈿富、吳慧子, 2006)每兩年全美的 4 年級、8 年級和 12 年級的學生須接受閱讀能力和數學能力評量；每四年須接受科學能力和寫作能力評量；如 2011 年 NAEP 在全美舉行數學、閱讀和寫作的評量。以 NAEP 2011 年閱讀評量為例，閱讀的總體能力包含二個：(1)閱讀目的(2)閱讀理解層次。閱讀的領域能力在閱讀目的上包含三個：(1)為文藝學識而閱讀(2) 為獲取資訊而閱讀(3)為執行任務而閱讀；另一方面閱讀的領域能力在閱讀理解層次上包含四個層級：(1)形成一般性的理解，要求學生將整篇閱讀文章做整體一般性的理解(2)發展解釋，要求學生理解文章內容的前後關係(3) 讀者與文章間的連結，要求學生將文章內容與其先備知識做一個連結(4) 檢視文章內容與架構，要求學生對文章做出批判、評量與統整。其他非閱讀能力測驗的大型測驗如針對各國 4 年級和 8 年級的學生，每四年舉行一次的「國際數學與科學教育成就趨勢調查」TIMSS 測驗，以 TIMSS 2011 數學評量為例，它也包含二個數學總體能力：(1)內容(2)認知；每個總體能力又各對應三個領域能力，在內容總體能力中所對應的領域能力為(1)數量 (2)空間與形體(3)改變與關係；在認知總體能力中所對應的領域能力為(1) 知道(2) 應用(3) 推理(Mullis, Martin, Ruddock, O'Sullivan, & Preuschoff, 2009)。

上述這些國際的大型評量架構可見都是屬於高階層的評量架構；若採用 UIRT 模式估計總體能力，則可能因為各領域能力間存在有相關性，使得高階層能力估計不準確，或當領域能力所對應的試題數較少時，導致估計效果不可靠。因此，大型測驗可透過 HO-IRT 模式，同時估計得到受試者的各個領域能力和總體能力，評量受試者的總體能力可以了解受試者整體的表現；而評量受試者各個領域能力則可直接測量受試者各個向度的能

力。

由 de la Torre 與 Song 所提出的 HO-IRT 模式可以同時適用於 1PL、

2PL 和 3PL 三種參數模式；一般而言，一因子 HO-IRT 模式分為一因子題

在文檔中華語溝通能力適性測驗建置-以語言知識模式為基礎 (頁 42-52)

第二章 文獻探討

第四節 試題反應理論模式

壹、 單向度試題反應理論

貳、 多向度試題反應理論

參、 題間與題內多向度的試題模式

… … …

肆、 高階層試題反應理論

… … …

第二章文獻探討

第四節試題反應理論模式

壹、單向度試題反應理論

貳、多向度試題反應理論

參、題間與題內多向度的試題模式

肆、高階層試題反應理論