第三章 文獻探討
第四節 心理測量學特質
心理測量學是一門研究心理測驗(psychological testing)與評斷(assessment)的科學 (Cohen, Montague, Nathanson, & Swerdlik, 1988),是一門包括量化心理學(quantitative psychology)、個別差異(individual differences)、和心理測驗理論(mental test theories)等研 究範圍的學問。而其中「測量」是依照一定的步驟(法則)、對個體(人、事、物)使 用數值(分派數字)來表示個體的特性。測量的實際用途主要包括了選擇(selection)、
分類(classification)、評鑑(evaluation)及諮商(counseling)(姚開文,1996)。在臨 床的使用上,測量也常被用來做為評定(assessment)、診斷 (diagnosis)及預測 (prediction)
的工具,因而測量必需具有相當的水準-良好的信度與效度才能測量所期望得知的結果。
倘若使用的測量工具不良,則無法就測量結果對受測對象的情形做了解、下定論,甚至 預估受測對象未來發展情形(姚開屏,1996)。
一、 信度
「信度」的同義字是可靠性(trustworthiness)、一致性 (consistency)、穩定性(stability)、
可信度(reliability)或精確性(precision)。所謂「信度」是指用同一測驗重覆測量某項 持久性特質時,得到相同結果的程度;或指測驗前後兩次分數一致的情形;或指測驗內
部題目間是否相互符合的程度。由於測量誤差越小,信度就越高,因此信度可視為測驗 結果受隨機機率影響的程度(姚開屏,1996;王榮德,1990)。通常我們用相關係數
(correlation coefficient)或 kappa 值來表示信度的大小,另 Bland(1986)等人提出以 兩次測量數值的差異分布來檢驗臨床測量值的再測信度,從心理測量的觀點來看,信度 即是指兩平行測驗間觀察值的相關。通常「信度」可分為下列四種類型:
1. 施測者間信度(inter-rater reliability):兩位觀察者針對同一個被測量事物測量 兩次(姚開屏,1988)。
2. 再測信度(test-retest reliability):用同一種測驗對同一群受試者前後施測結果 的一致性(姚開屏,1988;Stevens,1946;Newell,1962;Fleiss,1975)。
此種信度易受練習、記憶或身心成熟的影響,因此前後施測時間間隔必須適 當。時間的間隔沒有一致的規定,端視測驗的性質及施測對象的特質而定。
例如:對尚在變化過程中的中風病人施測時間宜短,以減少病人因隨時間而 成熟變化,然而時間又不至於短到讓病人有記憶練習施測內容的機會,而對 長期慢性精神病人,則施測時間間隔可較長些。
3. 折半信度(split-half reliability):再測信度或施測者內信度都使用相同測驗兩 次或兩次以上。然而在一種測驗沒有複本(alternative form)且只能施測一次 的情況下,可採用折半信度法,以了解測驗本身內容是否相互符合,因此此 法又稱為內部一致性(internal consistency)。通常的作法是將測驗題分前後半 或單雙號半,而後求兩半間之相關性,這種方法只需施測一次即可得相關係 數,而測驗題數越多所得折半信度越可靠(姚開屏,1988;Stevens,1946)。
4. 複本信度(alternative form reliability):指兩個平行測驗間觀察值的相關。若 一套測驗有兩種以上的複本,則複本間可交互使用以避免再測信度的缺點。
不過複本的產生並非容易,必須在題數、型式、難度、鑑別度等方面皆與原 本一致(姚開屏,1988;Stevens,1946)。
二、 效度
「效度」是指正確性,即能測出所欲測量特質的程度。每一個測量工具有其一定的 適用範圍,例如若使用病患的肺功能來表示一個人的生活品質,或使用治療的結果以表 示一個病患生活品質的感受認知,則此種測量就「無效」。效度越高,表示越能測出受 測者的特質,因此自行設計施測工具或使用標準化的工具,「效度」是最重要的條件。
若一個測量工具不能測出所要測的特質,即便有再好的信度、再優良的施測步驟也都沒 有用,因此可說「效度」是科學測量工具最重要的特質。通常「效度」可分為下列三種
類型(姚開屏,1988;Streiner,1989;危止芬,1999;李中一,2004):
1. 內容效度(content validity):乃是指測驗內容適當的程度,包括想研究特質其 測驗內容是否足以涵蓋所有重要的特質元素,又測驗內容對各重要特質元素
2. 效標關聯效度(criterion-related validity):乃是指測驗的結果與效標(criterion)
相關連的程度。而「效標」是指想用測驗來預測(predict)某種特質或行為。
3. 建構效度(construct validity):乃是指測驗能測量理論的概念、結構或特質之 程度。「建構」(construct)是指心理學理論所指的抽象而屬假設性的概念,例 如:智力、焦慮、動機等,這些概念的建構效度並不容易且非單一之研究而 能建立的完全,而是必須累積許多研究結果才得以更臻健全。建構效度的建 立通常由理論的架構而來,導出相關的假設,發展出適當的測驗,而後就施
測的結果來看是否符合理論,若否,則需修改測驗再施測,又有時也需考慮 理論及假設的適當性是否需修正,經過如此這般來來回回重覆的過程後,而 得到有建構效度的測驗。求建構效度所使用的方法沒有絕對的依據,可用相 關法、實驗法、因素分析、因徑分析等各種可能方法達到目的(李中一,2004;
姚開屏,1988;Streiner,1989)。
三、 反應性
隨著醫療科技的進步,在提高疾病治療的治癒率與存活率後,臨床開始著重成效評 估,因此所使用的測量工具便要能夠評估出病人治療前後的改變,即測量工具必須具有 反應性。一個具高度反應性的測量工具,才有能力偵測個案在一段時間後某項功能的改 變(Kirshner 等,1985;Rosenbaum 等,1990;Van der Putten 等,1999)。
Kirshner 等人(1985)及 Guyatt 等人(1987)認為反應性是檢驗一個測量工具可否 量測受試者經一段時間後最小臨床有意義的改變(minimal clinical important change)。
Liang 等(1985)及 Stratford(1996)則認為反應性就是一個測量工具敏感量測臨床有 意義改變(clinical important change)的能力。而 Husted 等人於 2000 年又將反應性分為
「內部反應性」(internal responsiveness)與「外部反應性」(external responsiveness),
認為內部反應性是指在一段預先訂定好的時間內讓受試者接受有確切療效的治療,最後 看此測量工具是否可顯示受試者的改變。而檢驗外部反應性則需有一外部標準測量
(external criteria),分析在一段時間內此測驗與外部標準測量所量測到受試者的改變程 度間的相關。2001 年 Beaton 等人認為反應性是當欲量測的目標特質(例如:疼痛、關 節角度等)已經改變時,此測量工具可否確切偵測到改變的發生。所以反應性的定義相 當廣泛,但皆指評估一個工具對測量個案功能改變之敏感度。
反應性簡而言之即為就是把每項「測量工具」都看成一把尺,然後來探討個案真的 有改變時,這把尺的刻度是否細到可以顯現此個案在一段時間前後的改變。因此當這把 尺刻度太粗,即使個案發生改變,它也無法量到個案前後的變化,也就是反應性太差。
然而這把尺刻度如果太細,雖然可得到不錯的反應性,但對於評估者卻又太繁瑣累贅。
所以一個好的測量應該在這兩者間取得一平衡點(王湘慧、廖華芳,2004)。
四、 分數之解釋性
分數的解釋性,就是說明測量工具數值所代表的意義,解釋生活品質分數應界定怎 樣的影響是微小的、中度或是嚴重的程度,所採用的方法之一是使用統計準則,如改變 大小和變異。而另一個方法是採用固定基本值,將測量生活品質的改變與基本值或是其
他有意義的結果相比較(Lydick 等,1993)。
在效度的研究中,比較生活品質問卷基準點與後續測量間改變的差異值。舉例來說,
當病患被詢問最後一次臨床測試中的感受是否有所差異時,在 15 分範圍的量表中(-7 代 表相當糟的情形、0 代表沒有改變以及 7 則是有相當大的改變)。病患通常將小於-2 分 或大於+2 分代表對他們有重要的改變。因此,當病患分數介於-3 分、-2 分、+2 分、+3 分時是有最少的改變(Juniper,1994)。而這樣的改變在健康相關的生活品質的問卷中 被當作有最小重要改變,而介於-7 分、-6 分、+6 分和+7 分則有重大的改變。分數改變 的強度對於整體量表或是測量工具各個構面提供了必要的相關程度資訊。相對而言,若 當使用 7 分時,分數對於生活品質或是各層面平均分數的改變,當每題改變 0.5 分時,
代表有最小臨床上重要改變,1.0 分則代表中度的改變以及 1.5 分代表有重大的大量改 變,當使用統計方法時,以 effect size、standardized response mean 等統計值來表示(Juniper 等,1994、1995;Guyatt,1987、1989)。