建立量表信效度的方法

第二章文獻查證

第六節建立量表信效度的方法

在社會及行為科學中，研究者常使用測量工具，以搜集研究對象的量化資料，包括人、事、物的特質，此時量化資料的可靠度(信度，reliability) 與正確性(效度，validity)則成為優良施測工具的必備條件(姚，1988；黃，

2000；簡，2001；Polit & Beck, 2004)。然而無論是選用現有的工具或是研究者自行設計編製測量工具，欲獲得確實可靠的資料，就必須講求其信度與效度，並能以科學的方法驗證之。尤其當運用於不同樣本時，信度與效度更應該持續不斷的評估，以維持測量的品質(黃，2000；簡，2001；Woods, 1988)。以下針對與本研究相關信效度測試的概念以及能增加量表信效度的項目分析(item analysis)加以討論。

一、信度

信度是評估一個測量工具的品質及適切性的主要標準。測量工具的信度則是指其測量到應測量的特質之一致性(consistency)、精確性(accuracy)、穩定性(stability)或可靠性(trustworthiness) (Nunnally & Bernstein, 1994; Polit &

Beck, 2004)。

信度測量的基本原理係以測量分數的變異理論為基礎。測驗分數的變異區分為系統性的變異(systematic variation)所造成的常誤(constant error)或偏誤(error of bias)，以及非系統性的變異(unsystematic variation)，因暫時性的外界因素對測驗分數造成的誤差，此誤差稱為隨機誤差(random error)或

測量誤差(error of measurement)。因此信度可視為在實得分數總變異量中非由於測量誤差之變異所占的比率(黃，2000；簡，2001；Woods, 1988)。

測驗的信度通常以相關係數(correlation coefficient, r)解釋之。然而測量分數的誤差變異可能有不同的來源，故各種信度係數說明信度的不同層面而具有不同的意義(簡，2001；Polit & Beck, 2004)。以下針對與本研究相關的信度係數類型進行討論。

（一）再測信度(test-retest reliability)

再測信度是評估測量工具穩定性的方法，即研究者在不同的時期，以相同的測量工具對相同的樣本進行施測，之後客觀的執行相關係數分析 (correlation analysis)，以比較兩次的測試數值。最常使用的是皮爾森相關 (Pearson correlation)，若兩次的測試數值有高度相關，則代表此工具具有良好的信度，一般的研究中相關係數達 0.7 以上即可被接受(盧，2003；Nunnally

& Bernstein, 1994; Polit & Beck, 2004)。

再測信度事實上是一種較為容易估計信度的方法，且能運用於自我報告的問卷量表、觀察及生理性測量等不同的施測方式。但是再測信度仍然存在一些缺點，如許多個人的知識、態度、行為與身體狀況可能隨著時間確實有所改變，因而導致低的信度；也可能由於第一次測驗的經驗，受試者進行修正與改變，而無法測得真實情形(黃，2000；Polit & Beck, 2004)。

另外，因為兩次的測量時間太短，受試者可能因為記得第一次測試的反應，

因而影響第二次測試的客觀性；或是在第二次的測試時，受試者更小心的使用工具，導致了信度係數的假性高估(Burns & Grove, 2001; Nunnally &

Bernstein, 1994; Polit & Beck, 2004)。一般而言，再測的相隔時間愈長，穩定係數愈低，最適宜的測量間隔則依據研究的目的和測量的概念特質而異。對於問卷式的測量，學者通常建議兩次測試的相隔時間約為兩週至一個月(黃，2000；簡，2001；Burns & Grove, 2001)。

（二）內在一致性(internal consistency)

內在一致性乃指量表各題項測量同一特質的程度。理想的情形下，測量某特質的量表應由一些測量該屬性的題目(item)組成，而沒有其他不相關的題目，因此內在一致性有時也稱為同質性(homogeneity)，且題數愈多的量表，其信度通常會愈高。由於此方法能作為問卷題目的選取依據，因此在護理研究領域中，內在一致性係數是最被廣泛運用的信度評估方法。內在一致性信度係數可分為折半信度係數(split-half reliability coefficient)、

Cronbach’s alpha (Cronbach’s α)與 Kuder-Richardson-20 係數(KR-20) (李，

2004；盧，2003；Polit & Beck, 2004; Woods, 1988)。

1.折半信度係數

折半技術的原則是將量表的題目分成兩部分，通常採取奇數題組、偶數題組或隨機分派，之後獨立計算其相關係數，因此使用此方法所得到的係數將會是一個被低估的相關係數。一般使用的統計方式為斯皮爾曼-布朗

相關公式(Spearman-Brown correlation formula)用來估計整組題目的信度 (李，2004；黃，2000；盧，2003；Polit & Beck, 2004; Woods, 1988)。雖然此技術容易使用，但是折半信度會因不同的折半方式導致不同的估計值，

因此目前較常使用 Cronbach’s α 係數指標取代之(黃，2000；Polit & Beck, 2004)。

2. Cronbach’s α

這是最常用來測量內在一致性的指標，以量表內所有題目的內在相關性或共變異量的同時檢測做為基礎。理論上，信度係數的範圍是從 0 至 1，

0 代表沒有內在一致性，1 代表完美的內在一致性，故較高的數值意味著較高的內在一致性，也就是表示題目與題目間具有某種程度的相關性

(association)。學者提出量表工具只要 α 值介於 0.7~0.9 之間，一般都認為是可以接受的。若 α 值小於 0.7，表示量表中部分題目的同質性會受到質疑，

問卷可能需要再進行修改；另一方面，若 α 值大於 0.9，則可能各題目間有過多的重複性，或是題目數量過於冗長，因此部分題目為不必要的，或許可以再刪減(盧，2003；Polit & Beck, 2004; Woods, 1988)。

3. KR-20

由於 Cronbach’s α 係數僅適用於連數型數據，因此當所使用的量表題目提供的是二分選項，即每一個題目都只有兩個可能的答案，如「是與否」

或「對與錯」等，所需使用的內在一致性的信度係數便是所謂的KR-20。

其運算過程與解釋皆與 Cronbach’s α 非常相似，信度係數的範圍從 0 至 1，

較高的數值代表較高的內在一致性，一般亦是以0.7~0.9 即認為可接受(盧，

2003；Woods, 1988)。

二、效度

效度係指測量工具能測出其所欲度量的特質或功能的程度。一般而言，測量的效度愈高表示測量的結果愈能顯現出所欲測量的概念之真正特質，因此不論選用現有的標準測驗或是自行發展的測量工具，都必須經過效度的檢定(簡，2001；Nunnally & Bernstein, 1994; Polit & Beck, 2004)。然而效度因不同的施測對象會有所差異，故效度不單指某研究工具本身的正確性，亦反映出其在特定群體的有效程度。且一個研究工具在某個情境有良好的效度，但在另一個情境則可能不一定，因此研究工具運用在不同情境時仍需重新評估其效度(黃，2000)。

效度是多層面的概念，通常只是程度上的差異，而非全或無的特性。

一個信度低的測量工具，其效度必定也低；但是信度高卻不一定代表一樣有高的效度。可見，效度是科學測量工具最重要的條件，一個測驗若無效，

則無論具有其他任何條件，仍無法發揮其真正功能。換句話說，信度是效度的必要條件而非充分條件(黃，2000；簡，2001；Nunnally & Bernstein, 1994)。然而一個測量的效度，必須針對其特定的目的、功能及適用範圍，

從不同的角度搜集多方面的資料加以驗證之。因此依據評估方法的不同，

效度的指標可區分為內容效度(content validity)、效標關聯效度

(criterion-related validity)與建構效度(construct validity)，以下分別敘述之。

（一）內容效度

內容效度通常是指測量工具內容的取樣適切性與代表性，因此也稱為抽樣效度(sampling validity)。凡是測量性的工具都必須檢定其內容效度，且適當的檢定時機應在實際工具發展完成之前。當一個範疇具有明確的定義與清楚的目的陳述，並能以隨機取樣的方式自題庫中選取適宜題目且毫無遺漏時，則測量工具的內容效度可因而提昇(李，2004；Nunnally & Bernstein, 1994; Polit & Beck, 2004)。因此 Lynn (1986)建議評估測量工具的內容效度應分為發展與量性檢定兩個階段，在初步發展時，研究者必須謹慎地界定工具的內容與題項的代表性。在量性檢定階段時，則延請5 至 10 位該領域的專家針對各題項是否適當反應特定的範圍，提出應修訂之處，並提出具體建議。有時研究者會進一步請專家就其題意的適切性、清楚性與周延性等，

逐題進行內容效度指標(content validity index, CVI)的評定。採 4 點 Likert 式計分法，即 1 分代表「完全不適用」至 4 分代表「非常適用」。若該題目的得分為 3 或 4 分，表示具有良好的內容效度；若該題目的得分為 1 或 2 分，

則表示內容效度較不理想。對整體量表而言，若 CVI 值大於 0.8 則判斷此工具是具有良好的效度。雖然內容效度的檢定並非良好測量工具的絕對步驟，但經由此步驟可更加確定測量工具所涵蓋的項目是否能真正反映出所期望測量的範疇，並能提昇大眾對此工具的接受度(Nunnally & Bernstein,

1994; Polit & Beck, 2004)。

此外，一般研究者常把表面效度(face validity)與內容效度混淆，事實上兩者的意義並不相同。表面效度是指受試者或使用工具者主觀上認為測量工具能獲得正確測量值的有效程度，並不能替代客觀決定的真正效度。但是，一般在研究上為了取得研究對象的合作與信任，不能忽視表面效度的評估，因此工具內容的編製與擬定時，必須考慮受試者的背景與生活經驗等，使其具有一定水準的表面效度(簡，2001)。然而不論是內容效度或是表面效度都只能算是主觀的檢定方式，且兩者具有高度重複性，是故，若採取這類方法審查工具的效度時，應配合一些較為客觀的檢定方式，儘量避免單獨使用，以確保測量工具的有效性(盧，2003)。

（二）效標關聯效度

效標關聯效度又稱為實證效度(empirical validity)或統計效度(statistical validity)，乃是探討研究工具與外在效度標準(external validity criterion)之間的關係。若研究工具所測得的結果與效標所測得的結果呈現高度相關，則代表此工具具有良好效度。依據效標測量取得的時間，效標關聯效度區分為同時效度(concurrent validity)與預測效度(predictive validity)兩種。當已知一測量工具能有效的測出研究對象的某一特質，而現有另一工具亦能測量相關特質，則此兩個工具所測量的特質其間的關係，即稱為同時效度。若測量的分數是與未來的表現或行為有關，例如測量健康行為以預測一個人

未來的健康狀況，則稱為預測效度(姚，1988；黃，2000；簡，2001；Polit &

Beck, 2004)。然而由於測量間隔的時間過長，預測效度的相關係數會有某種程度的降低(Woods, 1988)。至於在選擇效標時，必需謹慎考量效標本身是否具有良好的信效度基礎，並且依據測量的實用目的來做決定(簡，2001；

Polit & Beck, 2004)。

（三）建構效度

在文檔中慢性病老人自我照顧行為量表的發展與測試; Development and Psychometric Testing of a Self-Care Behavior Scale for Chronically Ill Elders (頁 56-68)

第二章 文獻查證

第六節 建立量表信效度的方法

第二章文獻查證

第六節建立量表信效度的方法