Chapter 2 文獻回顧
2.4 問卷信度的評估
2.4.1 量表之內項目及問題的一致性
Re
2 ss e
Subject Variabilty liability
Subject Variability Measurement Error σ
(homogeneity and internal consistency)時,如果想要評估的量表其每個項目的選項大於兩個(比 如DVSS的每個症狀項目有 4 個選項,0 到 3),或為連續性分佈時,可以使用Cronbach’s α
Cronbach s K K
如果假設每個問題i 分數的變異數相等,由 Cronbach’s α test 衍生出 Spearman-Brown prophecy
2
由Spearman-Brown prophecy 公式可知,那麼如果問題項目個數(K)越大時,則 α 值會變大,
而越接近1。因此我們如果將信度只有 0.5 的量表項目或問題個數增加一倍,那麼信度會增加
α
.4.2 組內相關係數(intraclass correlation, ICC)
er)之間的信度計算的計算方式,比如 到0.67。
判斷
α 的標準
由 於 值 受 量 表 項 目 或 問 題 的 數 目 影 響 , 一 般 認 為 如 果 可 以 接 受 的α 值 為 大 於 0.7 。 Nunnally(1978)[14] 認為若此量表用來作為研究工具,α值應達 0.8,如果此量表用來作為臨床 用途並且測量同一個面向時,則需達0.9。Ponterotto 和 Ruckdeschel等人[15] 則認為如果受試 者約100 人,而問題小於 7 項,那麼α值 0.7 即可,而如果受試者超過 300 人,而問題大於 11 項,那麼α值需要達到 0.9 即可。但如果α值超過 0.9,也表示這些問題或項目太過一致,不需 要這麼多的問題及項目。因此對於α值標準之要求仍須視量表問題數目及樣本數大小調整。
2
被量表評估的個體(informant)和評估個體的評估者(observ
有三個評估者評估十個兒童的成績,所有的學生都要三個評估者評估,成績的分數由1 至 10。
成績如下表。利用重複測量(repeated measurement)ANOVA 的方法來計算
表為三個評估者給予十個兒童的分數
e-Expected score)2=10.0 兒童之均方和(Mean square
10/(9x2)=0.56 兒童之變異):
(評估者之均方和–均方誤)/3=(114/9-0.56)/3=4.04
(評估者之變異)
(兒童之均方和–均方誤)/10=0.94 信度(Reliability, inter-rater reli
2
isher (1925) 稱此種信度的計算方式為組內相關係數(intraclass correlation, ICC)的一種,與
性(Consistency)和絕對一致性(Absolute agreement)。之前
的定義如下 F
組間相關係數(interclass correlation,即 Pearson correlation coefficient)不同。組內相關係數指 的是同組之內,有重複測量的值產生,這些重複測量值之間的相關性,組間相關係數指的是不 同組別之間的相關性。Shrout and Fleiss 等人進一步的將 ICC 分類為三種:第一種:評估每個 受試者的觀察者或評估者為隨機選取,第二種: 同一個觀察者或評估者評估所有受試者,而這 個觀察者或評估者是從一個母群體中選取。第三種: 同一個觀察者或評估者評估所有受試者,
而只有一個觀察者或評估者。
另外一個重要的觀念為分辨一致
計算信度時,變異數只有考慮受試者的變異數,這便是一致性(Consistency),設定為固定評 估者,亦即固定效應(fixed effect)。但如果把評估者的變異數也考慮進去(比如母群體有十個 評估者,隨機選取來評估受試者),那麼便是絕對的一致性(Absolute agreement),亦即隨機效 應(random effect)。
一致性(Consistency)
(2-5) 絕對一致性(Absolute agreement)的定義如下
(2-6) 多次觀察的一致性定義
2
2 2
2( ,k)
children children errorchildren error children
k MS M
children children error
children observers error children observers error
k MS MS
有觀察者或者評估者,只又受試者自己填量表(self -administered),那便是重測信度(Test-retest reliability),重測的時間與第一次測驗的信度約為 2 至 14 天,如果重測信度低有三種可能性 1.這個量表信度較差,2. 這個量表量測的建構可能會隨時間變動,如心情或疼痛,一週後便差 異很大。3.這個量表為有反應性的(reactive),受試者經過第一次量測後,回去會思考並修改 反應,因此有較差的重測信度。
信度的準則
Nunnally(1978)[14]認為信度的標準,如果是使用在臨床研究這個量表的信度 0.7 即可,但 如 果 是 用 在 臨 床 需 要 達 到 0.9 。 另 外 需 要 探 討 的 是 由 量 表 的 信 度 影 響 到 的 錯 誤 分 組
(misclassification),比如當使用一個量表將個案分類為個案及非個案時,信度為 0 時,有一 半的機會重複測量結果會不相同,但如果信度是0.5 時,有 37%重複測量結果會不相同,而信 度為0.8 時仍有 20%重複測量結果會不相同。若信度是 0.95 時,才會只有 2.2%重複測量結果 不相同。因此,0.75 的信度對一個測量工具為基本要求。
由信度的定義,我們可以減少隨機誤差的變異數,一般可以對評估者做訓練,減少評估者之間 的差異,也可以增加實際變異數(true variance),比如當所有的個案都集中在極端值時,可以 增加極端值的選項,來增加實際變異數。如果受試者的組成較異質化,那麼信度(reliability)會 增加,因此另外一個不合法的作法是將一個量表使用在較異質化受試者族群,量表的信度便會 增加,但這樣作會減少量表區辨個案及非個案的能力。
2.5 量表的效度評估
除了量表的信度(reliability)之外,即我們可以反覆使用此量表測量某個我們有興趣的事物
(attribute),測量結果可以重複相同的表現出來,我們尚且需要知道這個可以被反覆測量出的
Observed CI SE RE
liability σ σ σ
σ
CI=有興趣的事物(construct of interest)的變異數2
σ
SE=系統性誤差(systemic error)的變異數2
Observed CI SE RE
Validity σ σ
σ σ σ
= =
+ + σ
2 (2-10) 因此,信度一定大於等於效度(0≦validity≦reliability≦1),信度為效度的上限。效度主要分為三類:1. 內容效度(content validity), 2. 效標關聯效度(criterion validity), 3.
建構效度 (construct validity)。至於效度驗證(Validation)則為一個驗證假說測試的過程(a process of hypothesis testing),驗證一個量表測量出來的結果是不是我們真正想要測量的事物或 面向,並藉由這個量表量測出的分數可以推論(inference)這個人有多少這個面向的特質。在闡 述量表效度時,我們不能說這個量表已經被證實具有效度了,只能說這個量表已經被證實當使 用在測量某個族群的某個特質或構想具有效度。
表面上的效度(Face validity):其定義為是否這些問題或項目是否在看起來就是要量測我們想 要有興趣的事物。
內容效度(Content validity,亦可稱為 content coverage 或 content relevance):我們的問卷內容
是否能夠充分的包含研究題目的所有面向(domain),尤其當我們遺漏了某個重要的組成,那我 們對於此量表量測出的結果做出的推論便會有錯誤。
效標關聯效度(Criterion validity):一般來說即是這個量表可以多正確的預測他所要量測的事 物。主要可以分成1. 一致性效度(concurrent validation) 2. 預測效度(predictive validation)。
一致性效度:我們研究一個新量表和一個已被接受的舊量表相關性,便是一致性效度。
預測性效度:受試者經過黃金診斷標準或者確切的診斷標準分類為個案及非個案,我們評估利 用此量表是否可以事先預測受試者為個案或非個案,即為此量表的預測性效度。
至於為什麼已經有一個很好的舊量表或診斷標準的情況下,還需要一個新的量表或診斷標準 呢?最主要的原因為舊量表或診斷標準可能因為題目過多太花費時間,或者是昂貴,具有侵入 性,對受試者有危險性或者是結果需要很長的時間才會知道,我們希望可以早一點預測結果,
因此需要一個較簡易的量表或診斷標準。
利用receiver operating characteristic curves (ROC curves,如 Figure 2.5-1)來找出較適切的切點來 分辨受試者是不是具有這項疾病或者特質。當我們提高切點的分數時,可以減少偵測到非個案 病人,但也有較多個案被遺漏,降低切點的分數時,可以偵測到較多個案病人,但也有較多非 個案被偵測到。ROC 的縱軸為敏感性(sensitivity)而橫軸為 1-特異性(1-specificity)或者偽 陽性率(false positive rate)。而一個診斷方法的好壞則是視 ROC curves(Figure 2.5-1)的 Area Under Curve (AUC)的大小來決定診斷方法的好壞。
Figure 2.5-1 Receiver Operating Characteristic curve(ROC curve)
0 20 40 60 80 100
0 20 40 60 80 100
100-Specificity
S e n s it iv it y
建構效度(Construct validity)
比如當我們要測量焦慮、智商、疼痛的程度時,我們無法直接測量這些潛在變項(latent variable),但根據我們對於焦慮的假設,焦慮會有冒汗,心悸,來回踱步(躁動),失眠等等 的表現,而我們可以觀察到這些表現,為可觀察變項(observed variables)。由於這些可觀察變 項為焦慮造成的結果,因此又稱為effect indicator。這些潛在變項即為假設性的建構(hypothetical construct),需要有他的理論(theory)去連結可觀察變項與建構之間的相關性。
以極端族群(Extreme groups)檢驗量表的效度
最簡單可以檢驗量表效度的方法為將量表量測兩組受試者,一組為個案(具有我們有興趣以此 量表量測的特質或行為)一組為非個案,因此,個案應該在此量表會有較高的分數。這種方法 又稱為以極端族群驗證建構效度(construct validation by extreme groups)又稱為區辨效度
(Discriminative validation)。
2.6 探索性因素分析 (exploratory factor analysis)
由於兒童排尿障礙患者的相關症狀呈相關性多變量分佈,因此因素分析(factor analysis) 除 了可以用來探討這些症狀(觀察變項,observable variable)的相關性,更可以依潛在變項(latent
variables)將這些症狀進行分類。通常因素分析可以使用下列兩種方式施行A. 以一種探索性,
且不帶有偏見的方式去檢驗觀察變項與潛在變項之間的相關性。B. 當作一個檢驗一個因素結 構(factor structure),檢驗特定觀察變項與特定潛在變項間的相關性。[16]
因素分析(Factor analysis)的表示:
2
Λ
:迴歸係數,又稱為因素負荷量(factor loadings)u
p:不可被潛在變項解釋的變異,u
1,..., u
p之間獨立不相關。2
Λ
:迴歸係數,又稱為因素負荷量(factor loadings)Ψ
:為對角線以 組成的對角矩陣(diagonal matrix).ψ
i的解為特定解(unique solution),需要給予限定條件(constraints),即為限定 為一 個對角線矩陣(diagonal matrix),而且其對角線的元素排列為由大到小,類似主成分分析中的特 徵值(eigenvalue),第一個因素(factor)對於原有變數所貢獻的變異數最多,依序次之,而 且這些因素有互相獨立的性質(orthogonal properties)。
) Λ M
'
1G = Λ Ψ Λ
−主因素分析(Principal factor analysis)
主因素分析與主成分分析(principal component analysis)的技巧類似,只是主因素分析所採用 的共變異數矩陣的對角線減去了特異變異數:
*
ˆ
S = − Ψ S
(2-16)S
為原觀察變數 的共變異數矩陣(covariance matrix)x
iΨ ˆ
為包含ψ
i的對角矩陣(diagonal matrix)S
*為reduced covariance,因此 其對角線的值則為估計的共同性,S
*我們最常用來運算共同性(communalities)的方法為
a.
X
i與其他觀察變數的multiple correlation coefficients 的平方 b.X
i與其他觀察變數相關係數(correlation coefficients)的極大值如果 與其他變數的相關性較大,則會有較大的共同性值。而主因素分析可能遇到的困難在 有時候於計算出來的共同性值(communalities)可能會超出 的變異數,使得specific variance( ) 的估計值可能為負值,而我們無法接受specific variance 為負值,因此需要其他方法去調整。
如果 與其他變數的相關性較大,則會有較大的共同性值。而主因素分析可能遇到的困難在 有時候於計算出來的共同性值(communalities)可能會超出 的變異數,使得specific variance( ) 的估計值可能為負值,而我們無法接受specific variance 為負值,因此需要其他方法去調整。