Rasch 模式分析

第二章文獻查證

第六節 Rasch 模式分析

（1）單一向度假設檢定^{8, 30, 40}

單一向度是在評估一組題目所測量的概念是否相同。Rasch model 是利用嚴謹的數學方程式將所有題目難度與人能力之間的關係經由一連續均值均方（mean square fit statistic）或標準化的適合度指標（standard fit staitsic）表示。另外，這兩種適合度指標可進ㄧ步被分為(a)較強調於非期望的反應與受測者及題目測量間的差異（outfit statistic），(b)較強調在非期望的反應在受測者或題目測量附近（infit statistic）。

1.未加權的均方適合統計量---Outfit MNSQ

Outfit statistic 是考慮受測者的能力與題目難度關係後，標準化殘差的平方取平均值。這個平均值是沒有加權的，不會被其他的訊息所影響。這個指標可以提供非期望的反應對受測者及題目測量的相對的影響。

期望值為1，Outfit MNSQ 範圍介於 0 至無限大。Outfit MNSQ 值若等於1，則表示題目具有局部獨立的特性，題目與資料適合。

Outfit 是建立在標準化殘差平方和（sum of squared standardized residuals）的基礎所發展的指標，假設標準化殘差為常態分佈（a unit normal distribution），故均方和逼近於卡方分佈（χ² distribution）。

Outfit MNSQ 有高的敏感度用來測量受測者在填達此題時，題目是否會太簡單或太困難。若Outfit MNSQ 逼近 0，則表示此題目在測量上有過度預期的效果。若大於1.3，則表示此題目與資料不合適

40-42，亦有許多文章建議以大於1.4 作為判別標準 ^{43, 44}。

2.加權的均方適合統計量---Infit MNSQ

Infit 是 Outfit 經訊息加權後之形式（information-wieghted form），

此加權過程將減低較偏離主要研究對象能力所在範圍部份所造成的

疇不合適^40-42，亦有許多文章中建議以1.4 作為判別依據 ^{43, 44}。一般而言，使用 Rasch 分析可以得到四種適合度指標，常用的為平均值均方（mean square infit statistic），因 infit statistic 較 outfit statistic 敏感，且不易受極端值的影響。較少是用 misfit t statistic 可能是因 t 分佈是除以標準誤，當樣本數愈大時，標準誤就愈小，t statistic 很有可能會大於 2 ⁴⁵。

（2）題目鑑別力(item discrimination)

Rasch 模式中題目的鑑別力在每一個題目間都是固定的。這樣的特性支持相加性及概念的穩定性。在Rasch 模式的斜率是所有題目的平均鑑別力。因為區辨參數是非線性的，所以並不是個別斜率的平均值。當Rasch 模式是以邏輯斯（logits）為公式，在數學上將平均的斜率設為 1。在實際估計題目的應用上，首先計算及固定（anchoring）Rasch 估計值之後再計算鑑別力。這是一個事後分析，針對每一個題目估計鑑別參數(a_i)。此估計模式如下：

n i k

i nik

nik a B -D-F

-P P ⎟⎟⎠

⎜⎜ ⎞

⎝

⎛ log 1

ai可能的數值範圍為-∞到+∞，數值愈趨近+∞表示鑑別力愈佳。Rasch 估計值會強迫平均的題目鑑別力接近 1。結果鑑別力的估計值為 1 與 Rasch 模式的期望一致。數值若大於 1 表示鑑別力佳(over-discrimination)，

並且數值小於 1 表示鑑別力差(under-discrimination)。鑑別力佳被認為在原始分數及IRT 分析的分數是有益的。高的鑑別力經常與低的 MNSQ 數值相一致，低的鑑別力則與高的MNSQ 一致⁴⁶。

（3）受測者區別性分析

Rasch 測量模式提供指標來幫助研究者了解在一個連續的尺度上題

目是否夠分散並且人的能力是否區分得開。Rasch 能提供用以評估信度的指標person reliability index。

Person reliability index 是估計測量相同概念的其他題目間，人能力相對位置的重覆性。Person reliability 會受能力的估計值誤差的影響及 targeted item 的個數所影響，即當題目估計值的誤差愈小並且題目愈多時，person reliability 就愈高，此概念與傳統方法中用以評估信度的 Cronbach’s alpha 相似。這是觀察的反應變異重複的百分比。

2 變異數（adjusted person variability，SA²_p），這個SA_p²可以用總變異減去誤差變異數(SD²_p-SE²_p SA_p²)而得。這個重複的部份除以人的總變異可以獲得

不同於人分散的信度(person separation reliability)，人分散的指標

（person separation index）並不會固定在 0 跟 1 之間，因此對於比較幾個不同的能力分層中可能是比較有用的。例如，為了要在統計上將人區分成不同的能力分層，使用3 個標準差來定義每一個分層，利用這個公式可以指出在樣本中可區分出不同的能力分層。

（4）試題差別功能分析（differential item functioning, DIF）

比較感興趣的不同族群（例如：男/女，有工作/沒有工作，已婚/離婚/未婚）間題目的估計值，來檢查在不同的族群間題目是否有顯著不同的重要性，這稱為試題差別功能（differential item functioning, DIF）。藉由比較兩個或以上樣本的題目特質，評估DIF 所要呈現的是題目難度是否具有不變性。這個評估過程中，需要分開估計每一個樣本的題目難度，

並且以不同樣本題目的測量值來畫散佈圖³⁰。在本分析中我們要比較性別及年齡是否有DIF 存在。在年齡方面，以 75 歲作為切點，大於等於 75 歲的老人分為老老人組，小於75 歲為年輕老人組。

以性別為例，要評估WHOQOL-BREF 的題目在新社鄉社區老人中，

題目的難度會不會因為性別的不同而不同。所以需要以性別分群分別估計男性與女性題目的難度。以男性及女性題目難度畫散佈圖，若是題目的難度具有的不變性，此兩組人相對的難度估計值將會落在散佈圖中的 45 度角附近。本研究中用 0.5-logit 作為評估的標準⁴⁵以45 度角的對角線往上下平移0.5-logit，若是兩組人相對的難度估計值落在此範圍外，就表示此題目有DIF。

在文檔中以Rasch模式分析世界衛生組織生活品質問卷簡明版在社區老人的心理計量特質 (頁 31-35)

第二章 文獻查證

第六節 Rasch 模式分析

第二章文獻查證