試題反應理論之探討

第二章文獻探討

第四節試題反應理論之探討

由於 CTT 有其缺點與限制，使得傳統的測量模式較不適用於華語文能力測驗。且評量受試者的華語文能力常需使用較多元之測驗題型，例如：選擇式反應試題（selected-response items）與建構式反應試題（constructed-response items）等，

使得測驗計分模式包含二元計分試題與多點計分試題等類型，而針對不同測驗題型必須搭配適合的測量模式，才能準確的估計受試者的華語文能力。此外，若評量架構包含許多不同的能力或特質，則使用單向度 IRT（unidimensional IRT, UIRT）模式與多向度 IRT（multidimensional IRT, MIRT）模式進行參數估計是必須考慮的。Ackermean（1991）指出若測驗屬於 MIRT 模式卻使用 UIRT 模式進依據，並透過概似率考驗法（likelihood ratio test, LR test）(Andersen, 1973; Baker &

Kim, 2004; Bock & Aitkin, 1981)、Akaike（1974）提出的 Akaike’s information coefficient （AIC）、Schwarz（1978）提出的 Bayesian information coefficient（BIC）

等指標進行測量模式之驗證，期望透過適合之測量模式，準確估計出受試者的華

Hambleton & Swaminathan, 1985；Mislevy & Bock, 1990）：

在 3PL 模式中，假設能力值為_k的受試者k，作答試題 j答對的機率如下：線參數（lower-asymptote parameter），亦稱為試題猜測度參數（item guessing parameter），且0 c_j 1；D為一個量尺因素（scaling factor），通常D1.702。

3PL 模式假定測驗會產生猜題的現象（Birnbaum, 1968；Lord, 1980），因此，

若假設公式（1）的試題無猜題現象（c_j 0），則公式（1）轉變成下式：

的原始雙參數肩型模式（normal ogive model）而來。由於它比常態肩形模式易於計算和解釋，目前已取代常態肩形模式，而成為主要的試題反應模式。數模式。此外，1PL 模式是由 Rasch（1960）所提出，所以也常被稱為 Rasch 模式。

貳、模式適合度指標

選擇一個適合的 IRT 模式在某種程度上是以模式與資料間的適配度為基礎，

假若資料沒有適合這個 IRT 模式，則此模式符合的一些性質也許就不能成立，例

如：母群體的參數不變性（Hambleton, Swaminathan, & Rogers, 1991）；相反地，

Baker & Kim, 2004; Bock & Aitkin, 1981）。另一個提供選擇模式適合度的指標是使用基於訊息的統計（information-based statistics），例如：Akaike（1974）提出的 AIC 與 Schwarz（1978）提出的 BIC。Leonard 與 Hsu（1999）指出 AIC 與 BIC 為一般訊息準則的特例，雖然 AIC 與 BIC 不能進行顯著性考驗，卻仍能透過訊息量來比較不同模式的優劣，且適合使用於當模式是使用最大概似估計

（maximum likelihood estimate）獲得參數的情形（Li, Cohen, Kim, & Cho, 2009）。

此外，NAEP 與 TIMSS 則以圖解分析（graphical analysis）為基礎進行模式適合度之評估（Martin, Mullis, & Chrostowski, 2004; Allen, Donoghue, & Schoeps, 2001）。此評估方法是將理論上的試題反應函數（theoretical item response functions, theoretical IRF）與經驗上的 IRF（empirical IRF）置於同一圖中，以期望答對率與預期答對率之差異作為模式適合度評估（Mislevy & Sheehan, 1987）。本研究藉由 LR 考驗法、AIC、BIC 等指標，驗證華語文能力測驗適合哪種 IRT 模式。指

(N)) 方法，而測驗連結（test linking）則是指連結兩個不同測驗分數的一般化過程（von Davier & Liu, 2008）。Yi、Harris 與 Gao（2008）也指出等化是使用統計方法轉換測驗分數的過程，目的是為了調整不同測驗的試題難度，使得不同測驗分數是可交換的。許多研究皆提到有關評估等化估計效果，包括利用不同等化設計

（equating design）與方法進行比較，以及評估等化函數不變性（invariance of equating functions）與一致性的研究（Yang & Gao, 2008; Yi, Harris, & Gao, 2008;

von Davier & Liu, 2008; Dorans & Liu, 2008; Nancy, 2008; Brennan, 2008; Puhan, 2007; Kao, Kim, & Hatrak, 2005; Petersen, Cook, & Stocking, 1983; Brennan &

Kolen,1987; Cook & Petersen, 1987; Lord & Wingersky, 1984; Marco, Petersen, &

Stewart, 1979）。這些研究能提供使用哪種等化設計與方法可以導致較佳的等化結果，以及使用哪種方法對於等化不變性與一致性較容易受影響。因此，以下將介

在文檔中 CEFR基礎級之華語文聽力與閱讀理解能力測驗研發與電腦化適性評量系統建置 (頁 43-46)

第二章 文獻探討

第四節 試題反應理論之探討

貳、 模式適合度指標

第二章文獻探討

第四節試題反應理論之探討

貳、模式適合度指標