試題反應理論之效度檢測

第三章研究架構與設計

3.4 試題反應理論

3.4.2 試題反應理論之效度檢測

試題反應理論之效度是指量測結果達成預期測量目標之程度，也就是問卷之試題與研究目標相符合之程度。試題反應理論利用適配度(Fit)指標及差異試題功能(Differential Item Functioning, DIF)檢定來評估模式是否符合向度假設，下列將分別介紹配適度指標與差異試題功能。

3.4.2.1 配適度指標

試題反應理論之適配度指標包括有 Z standardized fit statistics(Zstd)指標及均方誤差(Mean Square Error, MNSQ)指標，Wang(2004)指出當樣本大於 500 時，

建議適配度指標採用均方誤差指標。均方誤差指標包括未加權均方誤差指標 (outlier-sensitive fit mean square; 簡稱 outfit MnSQ) 及加權均方誤差指標 (information-weighted fit mean square; 簡稱 infit MnSQ)，未加權均方誤差指標即將所有受測者在該題之標準化殘差之平方和除以受測者人數；加權均方誤差指標題之均方誤差指標未介於0.5~1.5 之間，視為差的適合度指標，應將之刪除。Chien 研究發現當測驗同分時，建議取用(1)Infit 及 Outfit 的 MNSQ 以其值較低者為較優；(2)當 Infit 及 Outfit 的 MNSQ 互有高低時，以 Infit 的 MNSQ 為認定標準。

而outfit Z 與 infit Z 統計量則均方差標準化的 t 統計量值（Zstd）。Rasch 模式之配適度可透過 outfit 及 intfit 統計量來檢測資料是否符合單一向度之假設期望值。Outfit MnSQ 強調遠離受測者能力值或試題難度估計值之非預期反應，而 Infit MnSQ 則強調接近受測者能力值或試題難度估計值之非預期反應(Linacre, 1994；Wright, 2000)。當樣本數大時(大於 500)，可利用 infit MnSQ 及 outfit MnSQ 是否落於 0.60 及 1.4 間之範圍作為資料是否偏離假設之判別標準(Wang,2005)。

根據 Linacre（2006）對 MNSQ 合理範圍的建議，MNSQ>2 表示該題將扭曲或破壞測量系統；MNSQ 在 1.5 至 2 之間表示該題對測量的建構雖不具生產性，

但也不具破壞性。MNSQ 在 0.5 至 1.5 之間表示該題對測量具生產性；

MNSQ<0.5 表示該題對測量有較少生產性。

Rasch 模式假設模式需符合單向度假設，也就是受測者之答題情況只受其能力影響，因此能力高之受測者答對之題數較多或在試題中能夠獲得相對應較高分數；而試題困難度較高之試題，答對該題之受測者較少，亦即樣本需符合Guttman Scale 特性。適配度統計量可用來檢測受測者資料是否符合 Guttman Scale 之假設，

表3.2 為配適度分析之重要指標，因此在受測者方面，當 Infit Zstd (或 Outfit Zstd) 之值落於±2 區間內，則表示整體資料作答情況良好。Infit Zstd(或 Outfit Zstd) 高於+2 則表示受測者對於平均得分高之試題給予低分，或對平均得分低之試題給予高分之異常現象，也就是所謂之過度分散(over dispersion)；Infit Zstd (或 Outfit Zstd)低於-2 則表示受測者無論試題簡單或困難，其答題狀況都沒有差異，也就是所謂之低度分散(under dispersion) (王文中等，2006) 。

表3.2 配適度分析之重要指標 infit

變異（Variation） 解釋 不適合（Misfit）

類型 MNSQ ZSTD

＞1.4 ＞2.0 過多作答型態過於隨機 Overfit

＜0.6 ＜-2.0 過少作答型態過於一致 Underfit

3.4.2.2 差異試題功能

王文中等(2006)之研究指出，在測驗中少數試題可能對部份族群之受測者會有程度上的答題差異，此乃所謂之試題偏差(item bias)問題。而後來之學者則使用「不同的試題運作功能」（differential item functioning, DIF）一詞來取代「偏差 (bias)」概念。一般對測驗公平性的看法認為：「在某個試題上，如果多數族群和少數族群的平均表現有所不同的話，該試題便顯示出具有 DIF 的現象。」更被廣為接受之DIF 定義為：「來自不同的族群，但能力相同的兩個人，如果在回答某個試題上的成功(或選項)機率有所不同的話，則該試題就表示具有 DIF 現象。」

差異試題功能是試題對不同的族群(如男性、女性)有著不同的功能。如果差異試

題功能存在，意味著該試題對不同團體有著不同的意義或試題可能測到與測驗所欲測量之構念無關的因素，因此將無法進行團體比較。

Wang(2006)建議可以不同群體之題目困難度差異是否大於 0.5 logits 作為替代性差異試題指標(Substantial DIF)，如差異大於 0.5 logits，則應將該試題刪除後，

再重新分析試題。

在文檔中計程車搭乘恐懼量測與影響因素之探討 (頁 42-46)

第三章 研究架構與設計

3.4 試題反應理論

3.4.2 試題反應理論之效度檢測

第三章研究架構與設計