• 沒有找到結果。

第二章 文獻探討

第四節 試題反應理論之探討

由於 CTT 有其缺點與限制,使得傳統的測量模式較不適用於華語文能力測 驗。且評量受試者的華語文能力常需使用較多元之測驗題型,例如:選擇式反應 試題(selected-response items)與建構式反應試題(constructed-response items)等,

使得測驗計分模式包含二元計分試題與多點計分試題等類型,而針對不同測驗題 型必須搭配適合的測量模式,才能準確的估計受試者的華語文能力。此外,若 評 量 架 構 包 含 許多不同的能力或特質,則使 用 單向度 IRT(unidimensional IRT, UIRT)模式與多向度 IRT(multidimensional IRT, MIRT)模式進行參數估計是必 須 考 慮的 。Ackermean(1991)指出若測驗屬於 MIRT 模式卻使用 UIRT 模式進 依據,並透過概似率考驗法(likelihood ratio test, LR test)(Andersen, 1973; Baker &

Kim, 2004; Bock & Aitkin, 1981)、Akaike(1974)提出的 Akaike’s information coefficient (AIC)、Schwarz(1978)提出的 Bayesian information coefficient(BIC)

等指標進行測量模式之驗證,期望透過適合之測量模式,準確估計出受試者的華

Hambleton & Swaminathan, 1985;Mislevy & Bock, 1990):

在 3PL 模式中,假設能力值為k的受試者k,作答試題 j答對的機率如下: 線參數(lower-asymptote parameter),亦稱為試題猜測度參數(item guessing parameter),且0 cj 1D為一個量尺因素(scaling factor),通常D1.702。

3PL 模式假定測驗會產生猜題的現象(Birnbaum, 1968;Lord, 1980),因此,

若假設公式(1)的試題無猜題現象(cj 0),則公式(1)轉變成下式:

的原始雙參數肩型模式(normal ogive model)而來。由於它比常態肩形模式易於 計算和解釋,目前已取代常態肩形模式,而成為主要的試題反應模式。 數模式。此外,1PL 模式是由 Rasch(1960)所提出,所以也常被稱為 Rasch 模 式。

貳、 模式適合度指標

選擇一個適合的 IRT 模式在某種程度上是以模式與資料間的適配度為基礎,

假若資料沒有適合這個 IRT 模式,則此模式符合的一些性質也許就不能成立,例

如:母群體的參數不變性(Hambleton, Swaminathan, & Rogers, 1991);相反地,

Baker & Kim, 2004; Bock & Aitkin, 1981)。另一個提供選擇模式適合度的指標是使 用基於訊息的統計(information-based statistics),例如:Akaike(1974)提出的 AIC 與 Schwarz(1978)提出的 BIC。Leonard 與 Hsu(1999)指出 AIC 與 BIC 為一般訊息準則的特例,雖然 AIC 與 BIC 不能進行顯著性考驗,卻仍能透過訊 息 量 來 比 較 不 同 模 式 的 優 劣 , 且 適 合 使 用 於 當 模 式 是 使 用 最 大 概 似 估 計

(maximum likelihood estimate)獲得參數的情形(Li, Cohen, Kim, & Cho, 2009)。

此外,NAEP 與 TIMSS 則以圖解分析(graphical analysis)為基礎進行模式 適合度之評估(Martin, Mullis, & Chrostowski, 2004; Allen, Donoghue, & Schoeps, 2001)。此評估方法是將理論上的試題反應函數(theoretical item response functions, theoretical IRF)與經驗上的 IRF(empirical IRF)置於同一圖中,以期望答對率 與預期答對率之差異作為模式適合度評估(Mislevy & Sheehan, 1987)。本研究藉 由 LR 考驗法、AIC、BIC 等指標,驗證華語文能力測驗適合哪種 IRT 模式。指

(N)) 方法,而測驗連結(test linking)則是指連結兩個不同測驗分數的一般化過程(von Davier & Liu, 2008)。Yi、Harris 與 Gao(2008)也指出等化是使用統計方法轉 換測驗分數的過程,目的是為了調整不同測驗的試題難度,使得不同測驗分數是 可交換的。許多研究皆提到有關評估等化估計效果,包括利用不同等化設計

(equating design)與方法進行比較,以及評估等化函數不變性(invariance of equating functions)與一致性的研究(Yang & Gao, 2008; Yi, Harris, & Gao, 2008;

von Davier & Liu, 2008; Dorans & Liu, 2008; Nancy, 2008; Brennan, 2008; Puhan, 2007; Kao, Kim, & Hatrak, 2005; Petersen, Cook, & Stocking, 1983; Brennan &

Kolen,1987; Cook & Petersen, 1987; Lord & Wingersky, 1984; Marco, Petersen, &

Stewart, 1979)。這些研究能提供使用哪種等化設計與方法可以導致較佳的等化結 果,以及使用哪種方法對於等化不變性與一致性較容易受影響。因此,以下將介

相關文件