第二章 文獻查證
第六節 Rasch 模式分析
(1)單一向度假設檢定8, 30, 40
單一向度是在評估一組題目所測量的概念是否相同。Rasch model 是 利用嚴謹的數學方程式將所有題目難度與人能力之間的關係經由一連續 均值均方(mean square fit statistic)或標準化的適合度指標(standard fit staitsic)表示。另外,這兩種適合度指標可進ㄧ步被分為(a)較強調於非 期望的反應與受測者及題目測量間的差異(outfit statistic),(b)較強調在 非期望的反應在受測者或題目測量附近(infit statistic)。
1.未加權的均方適合統計量---Outfit MNSQ
Outfit statistic 是考慮受測者的能力與題目難度關係後,標準化殘 差的平方取平均值。這個平均值是沒有加權的,不會被其他的訊息 所影響。這個指標可以提供非期望的反應對受測者及題目測量的相 對的影響。
期望值為1,Outfit MNSQ 範圍介於 0 至無限大。Outfit MNSQ 值若等於1,則表示題目具有局部獨立的特性,題目與資料適合。
Outfit 是建立在標準化殘差平方和(sum of squared standardized residuals)的基礎所發展的指標,假設標準化殘差為常態分佈(a unit normal distribution),故均方和逼近於卡方分佈(χ² distribution)。
Outfit MNSQ 有高的敏感度用來測量受測者在填達此題時,題目 是否會太簡單或太困難。若Outfit MNSQ 逼近 0,則表示此題目在測 量上有過度預期的效果。若大於1.3,則表示此題目與資料不合適
40-42,亦有許多文章建議以大於1.4 作為判別標準 43, 44。
2.加權的均方適合統計量---Infit MNSQ
Infit 是 Outfit 經訊息加權後之形式(information-wieghted form),
此加權過程將減低較偏離主要研究對象能力所在範圍部份所造成的
疇不合適40-42,亦有許多文章中建議以1.4 作為判別依據 43, 44。 一般而言,使用 Rasch 分析可以得到四種適合度指標,常用的 為平均值均方(mean square infit statistic),因 infit statistic 較 outfit statistic 敏感,且不易受極端值的影響。較少是用 misfit t statistic 可 能是因 t 分佈是除以標準誤,當樣本數愈大時,標準誤就愈小,t statistic 很有可能會大於 2 45。
(2)題目鑑別力(item discrimination)
Rasch 模式中題目的鑑別力在每一個題目間都是固定的。這樣的特性 支持相加性及概念的穩定性。在Rasch 模式的斜率是所有題目的平均鑑 別力。因為區辨參數是非線性的,所以並不是個別斜率的平均值。當Rasch 模式是以邏輯斯(logits)為公式,在數學上將平均的斜率設為 1。在實 際估計題目的應用上,首先計算及固定(anchoring)Rasch 估計值之後再 計算鑑別力。這是一個事後分析,針對每一個題目估計鑑別參數(ai)。此 估計模式如下:
n i ki nik
nik a B -D-F
-P P ⎟⎟⎠
⎜⎜ ⎞
⎝
⎛ log 1
ai可能的數值範圍為-∞到+∞,數值愈趨近+∞表示鑑別力愈佳。Rasch 估計值會強迫平均的題目鑑別力接近 1。結果鑑別力的估計值為 1 與 Rasch 模式的期望一致。數值若大於 1 表示鑑別力佳(over-discrimination),
並且數值小於 1 表示鑑別力差(under-discrimination)。鑑別力佳被認為在 原始分數及IRT 分析的分數是有益的。高的鑑別力經常與低的 MNSQ 數 值相一致,低的鑑別力則與高的MNSQ 一致46。
(3)受測者區別性分析
Rasch 測量模式提供指標來幫助研究者了解在一個連續的尺度上題
目是否夠分散並且人的能力是否區分得開。Rasch 能提供用以評估信度的 指標person reliability index。
Person reliability index 是估計測量相同概念的其他題目間,人能力相 對位置的重覆性。Person reliability 會受能力的估計值誤差的影響及 targeted item 的個數所影響,即當題目估計值的誤差愈小並且題目愈多 時,person reliability 就愈高,此概念與傳統方法中用以評估信度的 Cronbach’s alpha 相似。這是觀察的反應變異重複的百分比。
2 變異數(adjusted person variability,SA2p),這個SAp2可以用總變異減去誤 差變異數(SD2p-SE2p SAp2)而得。這個重複的部份除以人的總變異可以獲得
不同於人分散的信度(person separation reliability),人分散的指標
(person separation index)並不會固定在 0 跟 1 之間,因此對於比較幾個 不同的能力分層中可能是比較有用的。例如,為了要在統計上將人區分 成不同的能力分層,使用3 個標準差來定義每一個分層,利用這個公式 可以指出在樣本中可區分出不同的能力分層。
(4)試題差別功能分析(differential item functioning, DIF)
比較感興趣的不同族群(例如:男/女,有工作/沒有工作,已婚/離 婚/未婚)間題目的估計值,來檢查在不同的族群間題目是否有顯著不同 的重要性,這稱為試題差別功能(differential item functioning, DIF)。藉 由比較兩個或以上樣本的題目特質,評估DIF 所要呈現的是題目難度是 否具有不變性。這個評估過程中,需要分開估計每一個樣本的題目難度,
並且以不同樣本題目的測量值來畫散佈圖30。在本分析中我們要比較性 別及年齡是否有DIF 存在。在年齡方面,以 75 歲作為切點,大於等於 75 歲的老人分為老老人組,小於75 歲為年輕老人組。
以性別為例,要評估WHOQOL-BREF 的題目在新社鄉社區老人中,
題目的難度會不會因為性別的不同而不同。所以需要以性別分群分別估 計男性與女性題目的難度。以男性及女性題目難度畫散佈圖,若是題目 的難度具有的不變性,此兩組人相對的難度估計值將會落在散佈圖中的 45 度角附近。本研究中用 0.5-logit 作為評估的標準45以45 度角的對角線 往上下平移0.5-logit,若是兩組人相對的難度估計值落在此範圍外,就表 示此題目有DIF。