第四節、 資料分析
3. 建構效度
2. 內在一致性(Internal consistency)與項目總相關(Item-total correlation)
使用SPSS 18 版本進行 Cronbach’s α 對 NEUROQOL-SD-C 檢驗內在一致性。若 Cronbach’s α 大於 0.8 表示內在一致性非常良好,0.6-0.79 為良好,本研究設定 Cronbach’s α 需達 0.7 以上(Lai et al., 2007)。也使用 SPSS 18 版本進行各試題的項目總相關(Item total correlation)檢驗,項目總相關值 0.80 以上表示非常良好,0.60-0.79 為良好,0.40-0.59 為可接受,0.20-0.39 為略差,0-0.19 為極差之信度(Bushnell, Johnston, & Goldstein, 2001)。本研究設定項目總相關需達 0.3 以上(Clemson, 2009; Ko, 2009; Lai et al., 2007)。
3. 建構效度
a. 評分類別項目作答頻率(Category Response Frequencies)
本研究為了解受試個案於各評分類別項目作答頻率與評分選擇之分佈,使用Excel 2010 版本統計每個評分類別的作答頻率,設定每題的每個評分類別項目至少有 5 個觀察 值為較理想量表的評分情況(Gershon et al., 2011)。
b. 評分類別項目配置情形(Category Function)
本研究參考Linacre的評定標準(John M. Linacre, 2002):i.每個評分類別的項目至少 有10個觀察值。ii.各個評分類別項目的平均能力值逐漸遞增。iii.評分類別項目的遠合適 度均方值(Outfit MnSq)小於2。iv.各個評分類別項目的各階層估計值(Step Calibration)
逐漸遞增。使用Winsteps 3.63版本進行此分析,用以了解NEUROQOL-SD-C各試題之評 分類別項目的配置是否有錯置之情形。若無錯置情形,則符合羅序測驗分析模式之假 設,若出現錯置情形則考慮將量表評分類別項目的配置最佳效益化(John M. Linacre, 2002),以利後續分析。
39
c. 驗證性因素分析(Confirmatory Factor Analysis, CFA)
為了驗證量表是否具有單一建構(Unidimensionality),使用資料統計分析軟體Amos 7.0 版本進行驗證性因素分析(Confirmatory Factor Analysis, CFA),若所得之驗證性合 適度指標(Confirmatory Fit Index , CFI)、Tucker-Lewis 指標(Tucker-Lewis index, TLI)、
適配度指標(Goodness-of-Fit Index, GFI)與調整後配適度指標(Adjusted goodness of fit index, AGFI)大於 0.9 表示具有良好之模式契合度,近似誤差均方根(Root mean squared error of approximation, RMSEA)介於 0.05~0.08 表示具有可接受至良好之模式契合度,
RMSEA 小於 0.05 則表示具有良好之模式契合度(Lai et al., 2007)。
d. 試題合適度(Item fit statistics)
使用Winsteps 3.63 版本進行試題合適度(Item fit statistics)之驗證。試題合適度用 以檢驗量表試題的反應是否符合羅序測驗分析模式的單一建構理論
(Unidimensionality)。評判合適度的數據為均方值(Mean of the Squared Residuals, MnSq)與 Z 標準差(Standardized Z values, Zstd),合適度均方值分為近合適度均方值(Infit MnSq statistics)及遠合適度均方值(Outfit MnSq statistics),其中近合適度均方值對於 接近個案能力程度之測驗試題反應較為敏感,而遠合適度均方值對於離個案能力程度較 遠測驗試題反應較為靈敏。近遠合適度均方值應介於0.6 至 1.4 的範圍及 Z 標準差的絕 對值應小於等於2,屬單一建構。若近遠合適度均方值超出 0.6 到 1.4 的範圍,同時 Z 標準差的絕對值大於等於2,則判別此試題不符合(Misfit)羅序測驗分析模式(Chien &
Bond, 2009; Clemson, 2009; Ko, 2009; Lai et al., 2007)。以最不符合的試題開始逐一刪 除,直到所有剩餘的量表試題符合羅序測驗分析模式(Chien & Bond, 2009; Wuang, Wang,
& Su, 2010)。
40
e. 殘差主成分分析(Principal Components Analysis of residuals, PCA)
殘差主成分分析(PCA)用以檢視不符合羅序測驗分析模式的試題是否有其他解釋 因子。不符合羅序測驗分析模式的試題,應預期試題與人相互作用的殘差值呈現隨機分 佈且不相關,不應該還有進一步經羅序測驗分析模式確立的主成分偏離(Chien & Bond, 2009)。若模式解釋變異量(Modeled variance)等於實際解釋變異量(Empirical variance)
以及無法被第一個因素解釋的變異特徵值(Eigen-values)小於 3,亦等同小於 5%其他 因素的變異量可解釋,表示具有單一建構的特性(Chien & Bond, 2009; Clemson, 2009; Ko, 2009; Wuang et al., 2010)。
f. 受試個案分離指標(The Person Separation Index)與受試個案分離信度(Separation Reliability)
受試個案分離指標(The Person Separation Index)是一個與錯誤作比較(compared with error)的系統變異測量值(Clemson, 2009),將受試個案分離指標帶入公式
( )
[
4×個案分離值+1 ÷3]
所得之數值,表示該量表能將受試個案分成幾層能力階層。受 試個案分離信度(Separation Reliability)相當於Cronbach’ α測量受試個案測驗順序排序 的重複性(Clemson, 2009; Ko, 2009),代表試題項目的一致性,以辨別可信程度。為達受 試個案分離信度0.7以上,受試個案分離指標至少需大於1.52 (Farin & Fleitz, 2009),受試 個案分離指標大於2或3較佳(Clemson, 2009; Wuang et al., 2010)。如果受試個案分離指標 介於1到2之間,則表示能將受試個案分成2層能力階層,類推地如果受試個案分離指標 介於2到3之間,則表示能將受試個案分成3層能力階層(Lai et al., 2007)。g. 訊息函數(Information Function, IF)以及試題項目難度與受試個案能力之配對
(Item-Person Map)
41
不同於傳統測驗理論只提供量表所有得分點的單一信度估計值(如: Cronbach’s α 值),羅序測驗分析模式除了提供信度估計值,也呈現量表和試題各等級的訊息函數。
為了檢視量表是否能精確量測不同睡眠品質等級的受試個案,本研究檢視訊息函數
(Information Function, IF)。訊息函數為羅序測驗分析模式估計標準差平方之倒數,公
式為:SE 1IF
= (Lai et al., 2007),可分為測驗訊息函數(Test Information Function, TIF)
及試題訊息函數(Item Information Function, IIF)。訊息函數可用來了解測驗與試題在哪 個難度或能力估計值可提供較高的訊息量,檢驗是否每一級別的睡眠困擾程度都能精確 的被測量。本研究也檢視觀察測驗項目難度與受試個案能力之配對(Item-Person Map),
以瞭解NEUROQOL-SD-C 試題難易度是否能涵蓋所有個案的能力範圍(Chien & Bond, 2009; Wuang et al., 2010)。
h. 試題差異功能(Differential Item Functioning, DIF)
不存有偏差比較不同群體的特質是一項測量工具穩定性的前提條件。試題差異功能
(DIF)的方法檢查不同群體是否在試題層級的統計特性上呈現系統性差異(Lai et al., 2007)。試題差異功能(DIF)的定義為:來自不同族群但能力相同的個人,如果在答對 某個試題上的機率有所不同的話,則該試題便顯現試題差異功能的現象。某個試題特徵 函數如果對不同的族群而言都不相同的話,則該試題顯現出試題差異功能現象;反之,
如果跨越不同族群的試題特徵函數都相同的話,則該試題便不具有試題差異功能現象 (余民寧, 2009)。為了解不同性別、診斷及教育程度在相同試題之難度是否會不同,本研 究比較不同族群人口學資料的試題校準值(Item calibration),如:性別(男與女)、教 育程度(國小(含)以下、中學、大學(含)以上) 、診斷身分(健康人與精神疾病 患者),以Winsteps資料統計分析軟體進行羅序分析,對以上不同群組之難度函數進行t 檢定(DIF criterion: t>2.58, p<0.01)(Lai et al., 2007),所得之DIF值等同使用