臺灣簡短36（SF-36）健康量表工具信效度及常模之建立; Scale Validating and Norm Establishing of the SF-36 Taiwan Version

全文

(1)第一章. 緒論. 本研究主要以臺灣地區一般民眾為研究對象，進行 SF-36 健康量表之調查，以瞭解其適用情形及信效度表現，並建立臺灣民眾之常模。第一章將導入本研究之源起及動機，並闡述本研究之主要貢獻，內容共分四小節，第一節概述本研究之背景；第二節介紹簡短 36 健康量表之發展與應用；第三節說明本研究之目的及其主要貢獻；第四節摘要論文架構及主要內容。. 第一節. 研究背景. Lohr（1988）曾將醫療照護結果之測量分成五個等級，即所謂的 5D：死亡（death）、疾病（disease）、殘障（disability）、不適（discomfort）、不滿（dissatisfaction），其中死亡以死亡率（mortality）的計量為代表，疾病、殘障、不適則可合為以罹病率（morbidity）的計量為代表。以病人主觀認知的生活品質為依據，所發展的健康測量，則基於以下幾點背景因素。第一，由於衛生的改善及醫藥科技的進步，使得人類壽命延長，疾病型態由傳染病演變至今以慢性病為主，因而傳統死亡率或罹病率的多寡不再成為能代表生活品質好壞的指標；第二，醫療成本日漸增加，醫療資源付出者期望所投入的資源會產生最具醫療價值及效果；第三，目前的治療方式越來越重視病人的主觀感受（subjective perception），促使過去醫生僅以測量病人生理狀況之變化為主，卻未能真正反應病人的感受及實際功能之方式，演變至目前能從病人主觀的感受及多向度的（multidimensional）角度來測量生活品質（姚開屏, 2002）。在健康量表的研發上，傳統的量表無法廣泛涵蓋各種概念，雖有研究. 1.

(2) 人員投入發展針對特殊疾病的量表，且試圖涵蓋疾病影響的所有構面，但對於一般性問卷卻較少嘗試，因為一般性量表需具備容易操作、易被病人接受、簡短以及有效等特點（Jenkinson, Coulter, & Wright, 1993）。近年來因為對治療結果及健康相關生活品質的熱衷，促使測量工具和健康相關生活品質的理論基礎如雨後春筍般發展起來，其中 SF-36 健康量表（The MOS 36-item Short Form Health Survey，以下簡稱 SF-36）就是較被健康相關領域及各國研究人員所青睞的測量工具之一，同時也是目前世界上公認具有較高信度和效度的一般性量表。 SF-36 健康量表由於型式簡單，概括生理及心理健康狀態的評估，所以已廣泛地應用在各種健康層面的研究上，目前已有四十多國的翻譯版本且免費供研究人員使用。若以 SF-36 為關鍵字，透過 MEDLINE 搜尋 1996 年至 2003 年期間的資料，可以發現超過二千多筆文獻資料，內容包括一般民眾、老年族群的健康監控、瞭解不同疾病的負擔情形、療效的臨床試驗評估等，亦可應用於衛生政策、健康行為、醫療介入的成果評價上（McHorney , Ware, Lu, Sherbourne, 1994；McHorney, Ware, Raczek, 1993；李佳霙, 1997；李易蓁, 1997）。. 第二節. SF-36 健康量表的發展與應用. 目前 SF-36 健康量表已普遍用在不同國家和不同健康狀態族群的研究上，隨著國際研究交流頻繁以及各國內在環境的差異（如社經地位、種族、文化等），若想進行跨文化的比較，就需要一個可以應用到不同國家、語言及文化的標準化量表。國際生活品質評估（International Quality of Life Assessment, IQOLA）. 2.

(3) 計畫起源於 1991 年，其目標是翻譯健康狀態問卷，使之適用於多國的臨床試驗和其他跨國性的健康研究（Aaronson et al., 1992）。IQOLA選擇 SF-36 為健康狀態的測量工具，並依三階段研究步驟進行，包括：(1)依標準流程進行問卷翻譯；(2)在題目分數和多題目構面（multi-item scales）下以心理計量學（psychometrics）的方法考驗測量假設（scaling assumption）；(3)效度評估和常模（norm）研究以提供跨國解釋的一致性。（Ware, Keller, Gandek, Brazier, & Sullivan, 1995）。由於中文翻譯牽涉到語言與文字系統（簡、繁體）的差異，目前 SF-36 中文版共有五種版本，包含臺灣版、中國大陸版、香港版、新加坡版及美國中文版（Lu, Tseng, & Tsai, 2003）。臺灣版的 SF-36 健康量表由多位健康相關領域學者進行嚴謹的翻譯工作，歷經六個月的開會討論始擬定完成。而健康狀態測量之心理計量學考驗也是問卷發展的一部份， Ware 等人（1995）建議當問卷被翻譯成另一種語言時應重新考驗量表的測量假設及信效度表現，因為原本問卷或量表的信度、效度是針對特殊地區和民眾而進行的，如果要將問卷應用到一個新的地區或一群先前未曾考驗過的群體中，最好是再做一次心理計量學的檢查（ Bjorner, Damsgaard, Watt, & Groenvold, 1998），以瞭解是否適用於該國人民的健康調查研究中。. 第三節. 研究目的及其重要性. 目前臺灣關於 SF-36 健康量表多半是應用於臨床研究，以瞭解民眾或病患之自覺健康情形，鮮少有進行嚴謹的心理計量學考驗，若有也是較不嚴謹，或是針對特殊科別或部分地區民眾，未有針對臺灣地區一般民眾進行分析探討。本研究的第一個重要性及主要貢獻就在於，研究對象係以臺灣一般民眾為樣本，並採嚴謹的心理計量學方法進行相關考驗，以瞭解 3.

(4) SF-36 健康量表在本土化的過程中，這項工具能否保持應有的穩定性，或者有效的測出臺灣民眾的自覺健康狀況。另外一般民眾之常模建立，提供了問卷結果的一個比較基準，但如同 SF-36 的設計者所述，構面分數的複雜讓 SF-36 變得較不容易解釋，設計者建議若有常模資料就可達成與其他族群和樣本比較的目的，但臺灣過去並未以 SF-36 做過全國性調查，故無從建立民眾之健康分數常模，將不利國內及國際之比較。因此，本研究的第二個重要性即在於透過全國性的調查，建立屬於臺灣一般民眾之 SF-36 健康量表常模，以供後續研究進行國內或國際比較之用。綜合以上的陳述，本研究將針對臺灣地區一般民眾進行 SF-36 健康量表之調查，以瞭解臺灣民眾的適用情形，研究目的主要在探討下列問題： 1. 以心理計量學的方法考驗臺灣版 SF-36 健康量表。 2. 評估臺灣版 SF-36 健康量表使用之信度及效度。 3. 建立臺灣版 SF-36 健康量表之常模。. 第四節. 論文架構與主要內容. 本論文共分為六章，第一章簡單說明研究之背景及目的；第二章進行 SF-36 健康量表之相關文獻回顧；第三章闡述研究資料之收集與主要考驗內容；第四章描述研究樣本之基本人口學變項、測量假設考驗之結果、及效度表現；第五章則就研究結果逐一討論，並和國內外相關文獻比較；最後第六章整合前述資料分析之結果與討論，作綜合性的歸納及結論。整體研究之架構係藉由具代表性的抽樣方法進行全國性 SF-36 健康量表之調查，量表施測方式為受訪者親自填寫問卷後交還給訪員回收，回收 4.

(5) 資料經標準計分法計算後，一一考驗 SF-36 健康量表之測量假設，評估其信度及效度表現，並比較採用美國因素權重之計分法與採用臺灣因素權重之計分法的適用性，最後建立臺灣一般民眾常模。整體來說，臺灣版 SF-36 健康量表能滿足測量假設與心理計量學考驗，而原始健康構面及身心健康面向之因素效度分析、常模基礎之效度表現，這些結果都顯示出 SF-36 健康量表具有不錯的穩定性及足夠的區辨能力，不過，鑑別效度或因素分析的結果發現，有幾個構面與歐美國家的健康結構有些出入，因此在解釋時應考慮到這些差異，也因為這些結構上的差異，雖然採用美國因素權重之計分法有跨國比較的優點，但對於其適用性仍應持保留態度，建議若僅為瞭解國內民眾的健康結構，採用臺灣因素權重之計分法可能是較好的選擇。. 5.

(6) 第二章. 文獻探討. 此章就文獻回顧，區分為五小節，第一節闡述健康的測量；第二節介紹 SF-36 健康量表；第三節描述 IQOLA 之翻譯及考驗步驟；第四節及第五節說明 SF-36 健康量表在國際和臺灣的使用情形。. 第一節. 健康的測量. 近年來臨床及研究人員對治療結果、照護測量的興趣逐漸增加，但應如何測量健康一直是個爭論的話題，其中一個理由就是因為健康本身既複雜又抽象難懂，是一種主觀且難以衡量的狀態，人們通常依據個人的價值體系來定義健康，而個人的價值體系又會受文化、社會經濟地位、年齡以及知識等的影響。所以在介紹健康的測量之前，應該先思考「健康」的意義是什麼。. 一、健康的定義健康結果的測量需要依據健康的概念，然而對於「健康」一詞，卻有很多不同的解釋。醫學上的定義是最直接了當且為一般人所熟悉，所謂的健康即是指身體沒有任何疾病的病徵（signs）與症狀（symptoms），病徵與症狀是醫師用以判斷身體生病與否的標準，病徵與症狀的出現也代表了某些正常生理機能的降低，需要適當的治療來恢復其原來的健康狀態（李卓倫, 1985）。不過醫學上的定義只根據是否存在生理的功能不良來判斷健康與否，忽略了其他健康相關因素的影響，因此有學者提出其他觀點， Roy （1976）認為健康是個體從高層次的安適狀況（high level wellness）、健康狀況不錯（good health）、健康狀況普通（normal health）、健康狀況不佳（poor 6.

(7) health）、健康狀況極差（extreme poor health）、最後是死亡（death）的線性持續狀態，個體是位在此線上任一種健康或疾病的不同組合，在健康與疾病的連續線上，人的健康狀態呈現動態式的移動，可以說此人較偏向健康、安適，或是走向罹病、死亡。健康的概念從絕對健康或罹病的二分法，走向健康與疾病連續線上動態式的改變。後續也有學者提出不同的健康定義，慢慢的從多面向的角度去定義健康，Hanslukwa（1985）綜合提供了 20 種健康定義的觀點及其涵蓋範圍，其中最為大家所熟悉莫過於世界衛生組織（WHO）對健康所下的定義：「健康是身體的、心理的和社會的完全安適狀態，而不僅是沒有疾病或殘障發生而已。」然而這定義也顯示出「何謂健康？」這答案的複雜性，醫療診斷的焦點不應只放在身體症狀的呈現與去除，心理和社會的安適狀況都與人的健康和罹病有關。近年來健康狀態和健康相關生活品質測量的發展，無疑解釋了健康全貌的部份爭論，經濟學上也許可以藉由明確的效用（utility）結構來解釋，因此任何「健康」、「不健康」、「殘障」或「功能」的變化可以視為為個人效用的改變，以及社會整體效用的改變（Brooks, 1995）。然而如 Morris 所謂的洋蔥原則，在人們試圖解答健康的問題之後，又出現一個新層次的問題，即個人效用的定義與測量，甚至社會效用或社會福利的爭論。那麼在缺乏健康概念的適合定義時，健康結果應如何定義？目前西方社會使用的傳統健康狀態指標著重在疾病、不適和負向概念，包括了死亡率和生化資料（像是血紅蛋白濃度）、常規收集的醫療服務利用資料、主觀的指標、自我或他人報告的罹病率、傷殘情況和行為資料（如，抽煙、喝酒等）。大部分臨床試驗主要的結果測量是死亡率和罹病率，死亡率在已開發. 7.

(8) 國家是常規收集的衛生統計資料之一，但這樣的資料往往忽略了許多現正進行的健康照護計畫對死亡率的影響是很小，甚至沒有影響，而另一個醫師常用以評估結果的罹病率測量，一般則著重在生化檢驗、可察覺的症狀比率或角色表現（如，無法工作的天數、臥床天數）；其他容易獲得的資料來源還有服務利用的資訊，再回診率、住院天數和其他服務利用率的的指標常用來作結果和罹病率的測量，這些指標可以反映醫療服務提供的策略，但卻沒有提供任何關於治療對病患生活影響的訊息；若要瞭解更詳細的健康和疾病資料就必須透過調查的方式來收集，美國自 1956 年起，政府每年進行問卷調查，收集相關資料，而英國自 1971 年也是，慢慢的一些研究機構、大學與健康部門逐漸增加特殊專門的研究調查。早期的方法學強調罹病方面的資料收集，反應的是疾病的模型，近年來的研究趨勢也反應這個模型，但增加了行為方面的調查（Bowling, 1997）。因為影響病患治療結果的因素很多，所以需要一個更廣泛的健康模型來解釋，這些影響復原與療效的非生化因素包括，病患的心理狀況、對疾病的預期、對醫囑順從的動機與堅持、社經地位、醫療照護的可近性、社會支持網絡、宗教信仰及健康行為表現，因此，治療結果需要更貼近病患的價值體系，近來發展的「主觀健康指標（subjective health indicators）」就是反應這些非生化指標的結果。. 二、測量工具的種類所謂測量（measurement），根據 Stevens（1946）的說法乃是「依據法則而分派數字於物體或事件上」，不管是在自然、社會或醫療科學上，測量的動作是科學研究的一個基本元素，但是健康無法如同長度或重量可以直接測量，相反的測量的過程是間接且需要數個步驟。社會科學的測量工具大多依賴面訪或自填的方式收集受訪者的感 8.

(9) 覺、態度和行為，其他的測量方法還包括回憶法和行為觀察法，每種方法都有其優點與限制。對於評估研究對象經驗的研究來說，採用自填的方式讓受訪者自己報告（self-reports）是很常見的，而且施行快速、研究人員不需解釋太多。受訪者自我報告的測量可能會採用幾種方式（Bowling, 1997）： 1. 單一題目測量（ single-item measures）使用單一問題測量的自我報告方式。 2. 系列題目測量（ battery）一個系列題目測量中會包含數個受訪者自填的問題，每個問題全都用以測量同一個概念。 3. 量表（ scale）一個量表中包含數個系列題目測量，含括了不同的概念，題目的回答選項都是相同的形式，可以加總或加權。一般來說，如果問卷的長度允許，量表是較好的選擇，因為他們包含了較多的題目，且較適合用加總或加權計分的計算方式，單一題目測量應是最後的選擇，因為用一個問題可以有效測量欲測之現象是令人懷疑的，而且也很難去評估單一題目工具的適當性。. 三、健康測量的分類健康測量的分類方式不一，功能性的分類著重於方法的目的或應用；描述性的分類著重其範圍；方法性的分類考慮到工具方面，像是記錄資訊的方法（McDowell & Newell, 1996）。一個簡單的功能性分類：監視健康的狀態或健康狀態上的改變，可對個人或對族群進行。測量個人健康狀態屬於臨床訪談的範圍，測量個人的 9.

(10) 改變是臨床評估的目的；測量族群的健康狀態是研究調查的目的，而測量族群的改變則屬於總體健康指標的範圍。健康測量也可能依據主題涵蓋的範圍區分。測量範圍從特殊器官系統（視覺、聽覺）、診斷方法（焦慮、沮喪等級）、測量各種症狀（情緒的安適），到所有健康的測量，以及生活品質的測量；另一種常見的區分有一般健康測量（generic measures）和特定工具測量（specific instruments），後者常常是針對疾病（像是癌症的生活品質等級），但也可以對特定的人（女人的健康測量，病人滿意等級），或是針對一個年齡群組（孩童健康指標）。健康測量有許多的方法性分類，其中較常見的為以經濟學為基礎的總計指標法（ aggregate index）及心理計量學為基礎的健康剖面法（ health profile）所發展出的評量工具。前者通常將量表得分轉換成一個數值的指標分數來代表整體的健康相關生活品質情形，是具有效用（utility）或偏好基礎的（preference-based）測量方式；後者則通常對量表各面向有各個不同的數值產生，因此是從多向度的角度來描述整體健康相關生活品質情形（姚開屏, 2000）。根據經濟學原理的總計指標法所發展出來的量表，在醫療資源有限的今天，勢必要成為醫療決策者的重要參考依據，而根據心理計量學為基礎的健康剖面法所發展出來的量表，其所提供多向度的訊息，是瞭解個體生活品質全面性的重要參考工具。. 四、常用量表之介紹下面要介紹 19 個健康剖面法及三個總計指標法的健康量表，這些量表是國外文獻中常用來評量健康相關生活品質的量表，也是國內研究人員最常考慮使用的量表。表 2-1（McDowell & Newell, 1996；姚開屏, 2000）列出各量表的發展者及年份、量表編製法、構面數目、題數、施測法、填答所花時間、量尺形式、信效度和參考文獻數目。 10.

(11) 從三個臨床量表開始，Arthritis Impact Measurement Scales 代表特殊疾病別的測量工具；Physical and Mental Impairment-of-Function Evaluation 適合機構式的住民且涵蓋較嚴重的失能層級；而 Functional Assessment Inventory 著重在病患職能治療的潛能。接下來三個生活品質問卷是為癌症病患發展出來的：Functional Living Index— Cancer、European Quality of Life Questionnaire 和 Spitzer’s Quality of Life Index，後者亦可應用到有各種不同情況的病人。設計用於基層醫療之測量：Dartmouth COOP Charts 適用於在職成人，測量其身體活動功能、心理健康、日常工作情形、社交活動；Functional Status Questionnaire 測量門診病患身體、心理、社會和角色功能；而 Duke Health Profile 針對基層醫療之病患測量其症狀、身體、情感及社會功能。 Nottingham Health Profile 也是設計用在基層醫療診所上，但已更廣泛的被當作測量疾病、社會或環境導致痛苦的工具。其他六個評估工具：Sickness Impact Profile 測量個人因疾病導致日常活動的失能狀況；McMaster Health Index Questionnaire 是全面性的身體、情感、社會功能的測量；Multilevel Assessment Instrument 包含相當多題目的健康量表；SF-36 和 SF-20 是 RAND 公司發展出來測量多面向健康概念的一般性量表；而 WHO Quality of Life Questionnaire 包含一個人在生理健康、心理狀態、獨立程度、社會關係、個人信念以及環境六大方面，且允許各國加入特有的本土題目。接著三個社區老人心理健康的評價量表： Self-Evaluation of Life Function Scales、OARS 小組發展的 Multidimensional Functional Activities Questionnaire 以及 CARE，在完整的版本中這些需要較長的面訪時間，但是都能供不錯的信效度。最後介紹三個總計指標量表，隨著財物壓力的上漲，這種型態的測量在健康照護系統的應用與日遽增， Disability and Distress Scale、EuroQol Quality of Life Scale 和 Quality of Well-Being Scale。 11.

(12) 表 2-1. 一般性健康測量和生活品質量表之比較量表. 編製法. Arthritis Impact Measurement Scale 健康剖面法 (Meenan, 1980) Physical and Mental Impairment of 健康剖面法 Function Evaluation (PAMIE)(Gurel, 1972) Functional Assessment Inventory 健康剖面法 (Crewe, 1981). 量表構面(題數) 施測法. 填答時間. 量尺形式. 信效度. 文獻引用. 自填. Guttman. 信效度中上許多. (45 題) (77 題). Staff 10-15 分鐘. 序位尺度. 信效度普通不多. (40 題). Staff. 序位尺度. 信效度中上不多. Functional Living Index— Cancer (Schipper, 1984) EORTC Quality of Life Questionnaire (EORTC, 1993) Quality of Life Index (Spitzer, 1980). 健康剖面法. (22 題). 自填小於 10 分鐘序位尺度. 健康剖面法. (30 題). 自填 12 分鐘. 序位尺度. 健康剖面法. 5 構面 (5 題). 自填 2 分鐘. 序位尺度. 信度普通一些效度中上信度普通一些效度中上信效度中上許多. COOP Charts for Primary Care Practice (Nelson, 1987) Functional Status Questionnaire (Jette, 1986) DUKE Health Profile (Parkerson, 1990) McMaster Health Index Questionnaire (Chambers, 1976) Sickness Impact Profile (Bergner et al, 1976) Nottingham Health Profile (Hunt, 1981). 健康剖面法. 9 構面 (9 題). 自填小於 5 分鐘. 序位尺度. 信效度中上許多. 健康剖面法. (34 題). 自填 15 分鐘. 序位尺度. 信效度中上一些. 健康剖面法. 4 構面 (17 題). 自填. 序位尺度. 信效度中上不多. 健康剖面法. 3 構面 (59 題). 自填 20 分鐘. 序位尺度. 健康剖面法. 等距尺度. 健康剖面法. 12 構面 (136 題) 自填或 20-30 分鐘訪談 13 構面 (45 題) 自填 10-15 分鐘. 信度中上一些效度普通信效度皆佳過去多. 等距尺度. 信效度中上過去多. Short Form-36 Health Survey (Ware, 1990) Short Form-20 Health Survey (Stewart, 1988) WHO Quality of Life Questionnaire. 健康剖面法. 8 構面 (36 題). 自填 5-10 分鐘. 序位尺度. 信效度皆佳相當多. 健康剖面法. 8 構面 (20 題). 自填 3-4 分鐘. 序位尺度. 信效度中上一些. 健康剖面法. 6 範疇長篇(100) 簡明(26). 自填長篇 15-30 分等距尺度簡明 5-10 分. 信效度皆佳日漸增多. 健康剖面法. 54 題. 自填. 序位尺度. 健康剖面法. 147 題. 訪談 50 分鐘. 序位尺度. 信度中上不多效度普通信效度中上不多. 健康剖面法. 7 構面 (144 題). 訪談 45 分鐘. 序位尺度. 信效度中上許多. 健康剖面法. 329 題. 訪談. 序位尺度. 信效度中上許多. (WHOQOL Group, 長篇 1995,簡明 1996). Self-Evaluation of Life Function Scale (Linn, 1984) Multilevel Assessment Instrument (Lawton, 1982) ORAS Multidimensional Functional Assessment Questionnaire (ORAS, 1975) Comprehensive Assessment and Referral Evaluation (Gurland, 1977). Disability and Distress Scale 總計指標法 2 題專家小於 1 分鐘等比尺度信效度中上一些 (Rosser, 1978) EuroQol Quality of Life Scale 總計指標法 5 構面 (5 題) 自填等比尺度信效度皆佳日漸增多 (EuroQol Group, 1990) Quality of Well-Being Scale 總計指標法 4 特性 (18 題) 訪談 7-18 分鐘等比尺度信效度皆佳許多 (Bush & Kaplan, 1973.) 資料來源：1. McDowell I. & Newell C. (1996). Measuring Health: A guide to rating scales and questionnaires (2nd ed). (p.384-385).New York, Oxford university press. 2. 姚開屏(2002). 「簡介與評論常用的一般性健康相關生活品質量表兼談對未來研究的建議」，測驗年刊， 47(2)，111-138。 12 3. Brooks RG. (1995). Health Status Measurement: A perspective on change.(p.34)by London, Macmillan press..

(13) 第二節. 簡短 36（SF-36）健康量表之介紹. 截至目前仍有許多關於特殊族群之生、心理健康情形、相對疾病負擔、和替代療法效益等問題尚待發現，其中一個原因就是缺乏可廣泛用於不同族群的測量工具。許多文獻已證實，標準化的健康調查可以比較族群中不同疾病、不同嚴重度的相對負擔，區別疾病的治療成效，以及在不同時間點的健康情形，甚至對一般民眾的生心理健康測量、或是評估不同照護系統的療效都非常有用（McHorney et al., 1994）。SF-36 健康量表是個包含 36 個題目的標準化調查，其下有八個構面以及生理和心理面向測量，可用以健康政策評估、一般民眾的健康調查、臨床研究及不同群體間健康狀態的比較。. 一、 SF-36 主要概念的歷史背景此量表起源於 1970 年代，Rand 公司為研究不同健康保險系統對健康狀態等方面所造成的衝擊，所發展出來評量健康及醫療結果的測量工具。健康保險實驗（Health Insurance Experiment, HIE）期間有些受訪者拒絕完成冗長的健康調查，為了不使他們失去追蹤，於是發展出用電話在 5 分鐘左右可以完成調查的量表，結果這個策略深得民眾合作支持。後來其他 HIE 資料的分析也證明一個好的多題目量表（multi-item scale），即使一個構面只有 5 到 10 個題目，也比單一題目在預測後來醫療消費有較高的效度（Ware et al., 1993）。 Rand 公司首先嘗試發展有 18 題的廣泛性簡短格式調查，量表內容測量生理功能、因不健康所導致角色扮演受限、一般性心理健康和目前對健康的感覺。1986 年增加了兩個題目，分別測量社會功能和身體疼痛，創造了 20 題的簡短量表，SF-20。因為已有 18 題和 20 題簡短量表的使用經驗，累積相當多關於代表概念的幅度和各概念測量深度的經驗，之後針對 13.

(14) SF-20 健康量表的問題作修正後發展出 36 題的健康量表（SF-36）（Ware et al., 1993）。. 二、題目的選擇與源由 SF-36 健康量表的題目內容與過去文獻那些健康評估量表非常相似，許多選擇的題目在工具使用上已經有超過 20 年的歷史。事實上，發展 SF-36 最困難的任務就是從醫療結果研究（Medical Outcome Study, MOS）眾多概念及構面的研究中選出八個健康概念。這些經嚴肅考慮卻沒入選的有煩惱憂愁（ health distress）、性功能（sexual functioning）、家庭功能（ family functioning）和睡眠適當度（sleep adequacy）（Ware et al., 1993）。. 三、概念與測量簡介 SF-36是一個測量八個健康概念的多題目量表，內容包括： (1)生理功能（Physical Functioning, PF） (2)因身體健康所導致的角色限制（Role Physical, RP） (3)身體疼痛（Bodily Pain, BP） (4)一般健康狀況General Health, GH） (5)活力狀況（Vitality, VT） (6)社會功能（Social Functioning, SF） (7)因情緒問題所導致的角色限制（Role Emotional, RE） (8)心理健康（Mental Health, MH）共計35題，這八個構面各有其構面分數，並且可結合成整體生理及心理兩大面向分數，即 Physical Component Summary (PCS) 與 Mental Component Summary (MCS)。除了這35題外，還有一題問受訪者目前的健康情形較一年前好或壞的程度，這題測量受訪者過去一年來健康的變化情 14.

(15) 形，並不計算在上述八個構面分數內，但可作為跨時間施測比較之參考。 SF-36健康量表依最佳的生理健康測量（生理功能）到最佳的心理健康測量（心理健康）排序。有五個構面（PF、RP、BP、SF和RE）將健康狀態定義為沒有限制或失能，在這些構面中，當沒有限制或失能出現時其最高分數是100分，其他三個構面（GH、VT和MH）在本質上是「兩極的」，同時測量負向及正向的健康狀態，對這些構面來說，當受訪者回答沒有限制或失能時分數會位於中間範圍，這些兩極構面的100分只會出現在受訪者回答正向的狀態時（Ware et al., 1993）。. 表2-2. SF-36健康量表之構面資訊. 構面生理功能. 分數的平均. 題數 PF. 低在執行所有生理活動時有許多 10 限制，包括洗澡或穿衣. 高執行所有種類的生理活動，包括最費力的也沒有限制. 角色— 生理 RP. 4. 在工作或其他日常活動中有因為生理健康所導致的問題. 在工作或其他日常活動中沒有因為生理健康所導致的問題. 身體疼痛. BP. 2. 非常嚴重和無限制的疼痛. 沒有疼痛或因疼痛導致的問題. 一般健康. GH. 5. 評估個人健康為不好而且相信會更糟. 評估個人健康為非常好. 活力狀況. VT. 4. 時常感覺疲憊與精疲力竭. 時常感覺有活力和精力. 社會功能. SF. 2. 角色— 情緒 RE. 3. 因為生理或情緒問題極端且頻繁的妨礙正常社交活動在工作或其他日常活動中有因為情緒所導致的問題. 執行正常社交活動而沒有因生理或情緒問題的妨礙在工作或其他日常活動中沒有因為情緒所導致的問題. 心理健康. MH. 5. 時常覺得神經質且憂鬱. 時常覺得平和、快樂和寧靜. 健康改變. HT. 1. 相信一般健康比一年前好很多. 相信一般健康比一年前差很多. 資料來源：Ware JE., Snow KK., Kosinski M. (1993) SF-36 Health Survey: Manual and Interpretation Guide(p.3:5), Boston, The Health Institute, New England Medical Hospital. 15.

(16) 四、 SF-36 的測量模型圖 2-1 說明 SF-36 健康量表題目和概念的分類法。這個分類有三個層次：(1)題目；(2)八個構面，各有 2-10 個題目；(3)兩個加總構面分數的面向測量。除了一題（健康改變）之外，皆用以計算 SF-36 健康量表的分數，且每題只納入一個構面分數的計算。與生理面向最有關的三個構面（生理功能、因身體健康所導致的角色限制、身體疼痛）貢獻最多的生理面向得分（PCS），而與心理面向最有關的心理健康、因情緒問題所導致的角色限制、和社會功能構面，也貢獻最多的心理面向得分（MCS），另外三個構面（活力狀況、一般健康和社會功能）則同時與生理和心理面向有相關（Ware, Kosinski & Keller, 1994）。面向測量能減少 SF-36 分析的比較數目（從八個變成兩個），但又不喪失區分生理和心理健康結果的潛力（Ware & Gandek, 1998）。最後，SF-36 健康改變項目（有五個選項，從「比一年前好很多」到「比一年前差很多」），通常不用在分數計算及面向測量上，但對估計一年前的健康狀況來說是很有用的。. 16.

(17) 題目 3a. 3b. 3c. 3d. 3e. 3f. 3g. 3h. 3i. 3j.. 構面. 費力活動中等程度活動提起、攜帶食品雜貨爬數層樓樓梯爬一層樓樓梯彎腰、跪下或蹲下走路超過 1 公里走過數個街口走過一個街口洗澡或穿衣. 4a. 工作或其他活動時間減少 4b. 完成的工作量較少 4c. 種類受限制 4d. 有困難. 生理功能. 因身體健康所導致的角色限制. 7. 8.. 疼痛的程度疼痛的妨礙. 身體疼痛. 1. 11a. 11b. 11c. 11d.. 目前健康狀況容易生病一樣健康健康會越來越壞健康狀況好得很. 一般健康狀況. 9a. 9e. 9g. 9i.. 充滿活力精力充沛筋疲力竭覺得疲倦. 活力狀況. 6. 10.. 社交妨礙程度社交妨礙頻率. 面向. 生理健康（PCS）. 社會功能心理健康. 5a. 工作活其他活動時間減少 5b. 完成的工作量較少 5c. 不如以往小心. 因情緒問題所導致的角色限制. 9b. 緊張 9c. 沮喪 9d. 平靜 9f. 悶悶不樂和憂鬱 9h. 快樂. 心理健康. 圖 2-1. （MCS）. SF-36 和 SF12 的測量模型. 註：方框為 SF-12 之題目 17 SF-36 Physical and Mental Health Summary Scales: A 資料來源：Ware JE., Kosinski M., Keller SD. (1994) User’s Manual(p.6), Boston, MA: The Health Institute..

(18) 五、計分法說明常見的一般性資料輸入和計分步驟：資料輸入. 題目數值超出範圍的譯碼為遺失. 10 個題目需反轉分數和/或校正刻度. 以平均值代替題目的遺漏值. 計算原始構面分數. 將原始構面分數轉換成 0-100 分. 執行計分檢查圖 2-2. SF-36 計分流程. 資料來源： Ware JE., Snow KK., Kosinski M. (1993) SF-36 Health Survey: Manual and Interpretation Guide(p.6:2), Boston, The Health Institute, New England Medical Hospital.. 和所有考驗一樣，內容和計分需標準化才能解釋 SF-36 健康量表。調查內容或計分系統的變動可能會影響分數的信度和效度，也可能使分數偏向不可靠的基準而無法做跨研究間的比較。. 18.

(19) 1. 一般計分資訊 SF-36 健康量表的題目和構面計分系統需轉換成百分制的分數，而分數越高表示健康狀態越好，舉例來說，功能構面的計分中分數高表示功能好，而疼痛構面的分數高意味著疼痛愈少。資料輸入後，題目和構面以三個步驟來計分： (1)題目譯碼，有 10 個題目需要轉換分數； (2)加總構面中各題分數以計算原始構面分數； (3)將原始構面分數轉換成 0-100 分（轉換構面分數）。. 2. 題目譯碼資料輸入後的下一個步驟就是選項的譯碼，題目譯碼是取得題目數值的過程，將用以計算構面分數。這過程中包括幾個步驟：(1)將超出範圍值（Out-of-Range Values）轉成遺漏值；(2)對題目譯碼（Recode Value）；和 (3)以個人特殊的估計（person-specific estimate）取代未回答題目（Ware et al., 1993）。所有 36 個題目在分派最後題目分數之前都應檢查超出範圍值，超出範圍值是指低於題目先前編碼的最小值或高於最大值，通常是因為資料輸入的錯誤，如果可能的話，應確認原本的問卷將錯誤更成正確的選項，如果無法拿到問卷，則所有的超出範圍值都應譯碼成遺失資料。 SF-36 健康量表中有十個題目需轉換分數，其中七個題目直接將分數反轉即可，例如在六個選項的題目中，將 1 轉換成 6、2 轉換成 5、3 轉換成 4、4 轉換成 3、5 轉換成 2、6 轉換成 1；有二題則除了分數反轉外還需要進行刻度的校正，另外一題（題目 8）需依另一題（題目 7）的選項而定。題目分數反轉的目的是為了確定 SF-36 健康量表的所有題目與構面分數中，愈高的代表健康較佳。 19.

(20) 3. 題目刻度校正 Item Recalibration SF-36 健康量表有 34 題其題目分數和所屬構面間是線性關係，然而，根據過去的研究經驗顯示，有二個題目需要校正刻度以滿足重要的構面假設（Ware et al., 1993），這二個題目分別屬於 SF-36 健康量表的兩個構面：一般健康構面（GH）和身體疼痛構面（BP）。題目 1（目前的健康狀況）中「很好」和「好」兩個選項，需要校正刻度以形成較符合一般健康（GH）構面的線性模式。身體疼痛（BP）構面的計分規則是基於下面三點因素：(1)兩個題目選項的數值（題目 7 有六個選項，題目 8 有五個選項）及概念都不同；(2)題目 8 的分數譯碼依題目 7 的選項而定；(3)過去的經驗顯示題目 7 需進行刻度校正，轉換成較符合構面分數的線性模式。表 2-3 提供需重新譯碼的題目及分數轉換的資訊。. 表 2-3 構面. BP. BP. SF-36 需重新譯碼之題目分數轉換表題號. 選項標示號碼. 轉換後之分數. 7. 1 2 3 4 5 6. 6.0 5.4 4.2 3.1 2.2 1.0 6 5 4 3 2 1 6.0 4.75 3.5 2.25 1.0. 8. 若 (7)=1 若 (7)=2-6 若 (7)=1-6 若 (7)=1-6 若 (7)=1-6 若 (7)=1-6. 且 (8)=1 且 (8)=1 且 (8)=2 且 (8)=3 且 (8)=4 且 (8)=5. 若 (7)= 無回答若 (7)= 無回答若 (7)= 無回答若 (7)= 無回答若 (7)= 無回答. 且 (8)=1 且 (8)=2 且 (8)=3 且 (8)=4 且 (8)=5. 20.

(21) 表 2-3 構面. SF-36 需重新譯碼之題目分數轉換表（續）題號. GH. 1. GH. 11b &11d. VT. 9a & 9e. SF. 6. MH. 9d &9h. 選項標示號碼. 轉換後之分數. 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 6 1 2 3 4 5 1 2 3 4 5 6. 5.0 4.4 3.4 2.0 1.0 5 4 3 2 1 6 5 4 3 2 1 5 4 3 2 1 6 5 4 3 2 1. 資料來源：整理自 Ware JE., Snow KK., Kosinski M., (1993) SF-36 Health Survey: Manual and Interpretation Guide(p.6:5-12), Boston, The Health Institute, New England Medical Hospital.. 21.

(22) 4. 遺漏資料的處理有時候受訪者會遺留一個甚至更多的題目空白未填，雖然在大部分的調查中這是很少見的（1 到 2％或更少），但此時多題目構面的優點就顯現出來，即使某些題目沒有回答其構面分數仍是可以估計的。如果受訪者在多題目構面中回答至少一半的題目，其構面分數應納入計算，且建議計分系統用個人特殊估計替代任何遺漏項目，心理計量學上的合理估計是採用平均分數，即受訪者在相同構面中其他已完成題目的平均分數（Ware et al., 1993），舉例來說，如果受訪者在有 5 題的心理健康（MH）構面中遺留一題未填，就用受訪者已回答四題的平均分數取代該題的分數。. 5. 計算原始構面分數在題目譯碼後，就可以計算各構面的原始分數，此分數是構面所有題目選項的簡單加總，詳見表 2-4。例如，在因身體健康所導致的角色限制（RP）構面中，原始分數是題目 4a、4b、4c 和 4d 的分數總和，一般來說，如果回答者在多題目構面中回答至少 50％的題目，其分數應列入計算，如果回答者沒有回答至少 50％的題目，其構面的分數應列為遺失。對於只有兩個題目的構面，有些人喜歡較保守的方法，除非兩個題目同時回答否則將這構面分數設為遺失（Ware et al., 1993）。. 6. 構面分數的轉換接下來的步驟使用下面的公式將各原始構面分數轉換為 0 到 100 分，表 2-4 提供應用這公式各構面所需之資訊。. 轉換分數＝. [. （實際原始分數? 最低可能原始分數）可能的原始分數範圍 22. ]. × 100.

(23) 這個轉換式將最低和最高可能分數轉換為 0 至 100 分。這些數值間的分數代表所有可能分數的百分比。這最後步驟並非必須的，但仍強烈的建議使用，因為轉換後的構面分數可與常模、其他發表文章做比較。表 2-4. SF-36 構面分數轉換值對照表. 構面生理功能. 最後題目值的加總. PF. 3a+3b+3c+3d+3e+3f+3g. 最低和最高可能可能原始原始分數. 分數範圍. 10,30. 20. 4,8. 4. +3h+3i+3j 角色— 生理 RP. 4a+4b+4c+4d. 身體疼痛. BP. 7+8. 2,12. 10. 一般健康. GH. 1+11a+11b+11c+11d. 5,25. 20. 活力狀況. VT. 9a+9e+9g+9i. 4,24. 20. 社會功能. SF. 6+10. 2,10. 8. 3,6. 3. 5,30. 25. 角色— 情緒 RE. 5a+5b+5c. 心理健康. 9b+9c+9d+9f+9h. MH. 資料來源：Ware JE., Snow KK., Kosinski M. (1993) SF-36 Health Survey: Manual and Interpretation Guide(p.6:18), Boston, The Health Institute, New England Medical Hospital.. 7. 常模基礎之計分方式一旦各個構面的分數轉換成 0-100 分後，下一個步驟就牽涉到利用下面公式計算構面的常模基礎分數（norm-based scoring），表 2-5 提供使用這個公式所需的資訊，其中用以計算常模基礎分數的平均數與標準差源自於美國 1998 年一般民眾資料，利用線性 Z 分數轉換使得八個構面的平均數變為 50，標準差變為 10。八個構面常模基礎計分和標準化的好處是其結果可以有意義的與其他構面作比較，且其分數與 1998 年美國一般民眾的分數間也可以直接解 23.

(24) 釋，當分數高於 50 就表示高於美國一般民眾的分數，反之亦然，又因為標準差為 10，所以分數的差異也可以直接說明，即差一分就是差十分之一個標準差。 (1) SF-36 構面之 Z 分數標準化構面 Z 分數標準化＝（構面分數－構面平均值）÷構面標準差 (2) SF-36 Z 分數之常模基礎轉換常模基礎之構面分數 = 50 +（構面 Z 分數標準化 ×10）表 2-5. 各構面之平均值、標準差及因素得分係數. 因素得分係數構面. 平均值. 標準差. PF RP BP GH VT SF RE MH. 82.96845 77.93107 70.22865 70.10060 56.99917 83.56494 83.10276 75.21913. 23.83795 35.34865 23.35310 21.35900 21.12677 23.02758 31.64149 17.60698. PCS 0.42402 0.35119 0.31754 0.24954 0.02877 -0.00753 -0.19206 -0.22069. MCS -0.22999 -0.12329 -0.09731 -0.01571 0.23534 0.26876 0.43407 0.48581. 資料來源：Ware JE., Kosinski M., Keller SD. (1994) SF-36 Physical and Mental Health Summary Scale: A user’s manual(p.29), Boston, The Health Institute.. 8. 生理與心理面向測量之計分方式 SF-36 健康量表的 PCS 和 MCS 利用常模基礎的方法計算，分數計算涉及三個步驟：首先將 SF-36 的八個構面利用 1998 年美國一般民眾的平均數與標準差進行分數標準化；接著將標準化的構面分數乘以來自 1990 年美國一般民眾的構面因素得分係數（factor score coefficients），之後加總起來；加總後的 PCS 和 MCS 分數透過線性 T 分數轉換進行標準化，使平均數變為 50、標準差為 10。 24.

(25) PCS 和 MCS 標準化與常模基礎計分的好處同樣是可以有意義的與其他比較，其分數與美國一般民眾的分數間可以直接解釋，解釋如同常模基礎之計分說明。 (1) SF-36 構面之 Z 分數標準化構面 Z 分數標準化＝（構面分數－構面平均值）÷構面標準差 (2) 加總構面分數估計生理和心理面向分數 AGG_PHYS = Σ（標準化構面得分 ×PCS 因素得分係數） AGG_MENT = Σ（標準化構面得分 ×MCS 因素得分係數） (3) 面向分數之 T 分數轉換轉換後之 PCS = 50 +（AGG_PHYS ×10）轉換後之 MCS = 50 +（AGG_PHYS ×10）. 六、施測方法說明 SF-36 健康量表適合 14 歲以上的人，可使用自填式和電話及面對面訪談的方式（Ware & Gandek, 1998）。通常，SF-36 健康量表是由病人在有醫師或臨床訪員的情況下完成，也可以在家以其他方式執行，包括電訪、郵寄問卷、和面對面訪談。目前 SF-36 已成功的在美國和其他國家的一般民眾上施行（Gandek & Ware, 1998），也適合施行於有特殊疾病的年輕人或老年人（Ware et al., 1993; McHorney et al., 1994）。它可以在 5-10 分鐘內完成，有較高的接受度和資料品質，其中資料品質指標包括極高的題目完成率以及回答一致性。而 Weinberger 等人（1996）評估 SF-36 健康量表以自填、電訪及面訪等方式測量平均年齡 62 歲且幾乎為男性（佔 96.5%）的健康狀況，結果發現面訪比其他兩種方法在完成的時間上顯著減少，且不論使用何種方法所得的內在一致性都很高（面訪時八個構面的 Cronbach’s α 值最小為 0.75、自填為 0.77、電訪為 0.67）。 25.

(26) 然而，因為 SF-36 健康量表簡短所以可含括在一份較長面談、問卷或其他資料收集的方式之內，也可以和其他更精確的一般性和特殊性測量置於同一問卷中（Ware & Gandek, 1998），當問卷包含了其他的量表時，SF-36 最好是第一個執行以維持常模基礎解釋的標準化需求。. 第三節. IQOLA 之 SF-36 翻譯及考驗步驟. 隨著國際間臨床研究合作的增加，對於國際化結果評估工具的需求與日漸增，雖然以病人為基礎的健康狀態或健康相關生活品質測量在各國皆有所發展，但因欠缺完整的相關概念，無法假設這些測量在不同文化間仍是不變的。所以在這些測量工具能通行於各國之前必須有所修改以適應當地文化，而如何從一個國家轉換到國際領域測量，一直是社會和人類學研究中存在已久的焦點，Hui 和 Triandis（1985）認為，一個測量工具跨文化比較的過程牽涉到操作、數量、功能性和公制單位的一致，欲達成這些目標必須的步驟有：(1)翻譯測量工具並評估翻譯品質；(2)測量工具的效度，包括心理計量學的標準（即，測量假設考驗、信度、效度和回答情形）；(3) 使用具代表性樣本作為測量工具的基準。國際生活品質評估（IQOLA）計畫群認為僅單一量性或質性步驟無法確保有效翻譯，因此發展出三個步驟流程作為 SF-36 量表翻譯的跨文化比較(Bullinger et al., 1998)，包括：(1)嚴謹的翻譯和過程評估以確定概念的一致性和回答者的接受度，(2)題目計分和多題目構面測量假設下的心理計量學考驗，(3)構面效度的調查、常模資料和其他說明指引的累積。. 26.

(27) 一、 SF-36 健康量表之翻譯翻譯的第一個步驟是前譯（forward translations），由至少兩個說該國語言的翻譯人員將原本的英語問卷翻成該國語言，翻譯人員應有問卷翻譯的經驗，但不熟悉 SF-36 健康量表。接著將翻譯後的問卷交給另外兩個雙語翻譯人員（說他國語言或英語但瞭解該國語言）評估前譯的品質，透過三項標準給分：(1)翻譯的清晰度（是否使用簡單易懂的文字）；(2)是否使用一般語法（避免技術或人造用詞）；(3)概念的一致性（是否原始工具的概念）。若是翻譯的題目或選項無法被接受，則評分人員應提出替代的字句。彙整過後的前譯問卷再交由以英語為母語的翻譯人員翻成英文（backward translations），然後交由 Health Assessment Lab 評估是否符合原始版本的概念，若有題目或選項不符，則由翻譯人員逐題逐項討論修正。最後將該國翻譯的問卷對 50 個不同健康狀態的受訪者做前測，受訪者回答完問卷後詢問是否對那個題目不瞭解或有誤解，依據受訪者的問題對問卷做最後的修訂即可定稿（Bullinger et al., 1998）。臺灣版的 SF-36 健康量表遵循使用手冊說明（Ware et al, 1993），耗時約六個月才完成，參與的雙語研究人員包括了李卓倫副教授（中國醫藥學院）、藍忠孚教授（陽明大學）、吳淑瓊教授（台灣大學）、盧瑞芬副教授（長庚大學）、紀駿輝副教授（Oregon State University）以及劉文良副教授（輔仁大學），每個翻譯人員先各自完成自己的部分，將英文問卷翻譯成中文，之後定期面對面討論整合不同的翻譯內容，接著由美裔華人再將中文問卷翻成英文，如果中翻英的版本與原始 SF-36 的概念不一致就再重複翻譯的過程直到一致為止(Lee, 2002；SF-36 臺灣版網頁)。因為文化上的差異，與美國原本的 SF-36 在用字遣詞上稍有不同，台灣版的 SF-36 健康量表依據中華文化作了若干的修飾，如以打太極拳取代打高爾夫球，以一公里取代一英哩。 27.

(28) 二、 SF-36 之測量假設考驗 IQOLA 計畫的第二個階段目標在考驗題目和構面計分法是否滿足測量假設，以驗證量表可否作跨國性比較。當測量假設不符時，則試圖尋找原因是否為翻譯問題、為各國的定義不同或是健康結構差異所致。 SF-36 健康量表使用八個多題目的構面測量八種健康態度，每個構面有 2 至 10 題目，這些構面採 Likert（1932）的總和評等法（summated ratings）計分，每題的分數來自標準的選項，對某些題目而言可能要再譯碼以使所有題目的方向能一致，接著多題目構面的計分就可以簡單的將分配到各選項的數值加總起來，再將分數轉換成 0-100。總和評等法的優點是簡單、信度高、使用的計分法不需要加權或額外的判斷步驟。但是，這是基於幾個假設而成立的（Likert, 1932），第一，各所屬群組的題目對於欲測概念應包含幾近相同比例的資訊；第二，題目間的變異應大約一致，才能對總分有相同的貢獻；第三，構面下的總分與各題應呈線性關係。除了考驗這些傳統的 Likert 構面標準之外，題目與其他構面間的關係也應依多特質多方法（multitrait-multimethod）的邏輯來檢查。這些假設決定了在特定構面中題目的適當性及是否適用題目分數加總來估計構面分數，一旦構面下總和評等法的假設成立，構面分數就可以加總，且相信分數將達預期的屬性。. 1. 題目層級的描述性統計首先考驗題目層級的特徵（資料的遺漏情形、分佈的情形、平均值、標準差）。資料的品質反應出受訪者對問卷的瞭解與接受程度，整體而言，如果遺漏值太高，就較沒有信心用總和評等法來計算分數，若某一題有太多遺漏值，暗示著該題翻譯的問題，而某些題目有較高比例的遺漏值，可能與題目選項的措辭有關，也有可能是回答者不知道如何完成問卷的這部 28.

(29) 分，例如，在某些 IQOLA 國家的研究中發現，在回答混合式選項格式時（有些答案是從左至右，有些又是從上到下），老人與低教育程度的人有較高比例的遺漏資料（Bjorner et al., 1998；Sullivan, Karlsson, & Ware, 1995）。分數的分佈情形會隨族群的不同而有所差異，可反應出量表在特殊群組應用上的適合度。檢查個別題目的分佈情形，是否所有的選項都有使用到，是否每個構面都差不多，如果受訪者沒有使用所有的選項，可能是選項或相關題目的翻譯有問題。除了檢查是否用到所有的選項之外，還要檢查這些選項的分佈情形，好的題目要有變化性，而且選項要粗略成對稱分佈（Ware & Gandek, 1998）。題目的平均值也要考驗，在傳統 Likert 構面標準下，同一構面內的題目平均值應大約相等，然而因為測量的關係，題目的平均值可能不會一樣，如果測量的範圍包含較廣的健康狀況時，題目平均值的不一致性就會比較明顯。. 2. 多特質 /多題目相關矩陣（ multitrait/multi-item correlation matrix）多特質 /多題目相關矩陣是用以考驗各個題目與其所屬構面間的關係，以及題目與其他構面的關係。重疊（overlap）意謂著題目分數亦在構面分數的計算之中，為避免誇大題目與構面間的相關情形，題目和其所屬構面間的相關估計對於欲考驗的題目並不列入構面總分的計算中（也就是重疊校正後的正確相關）（Ware et al., 1993; Ware & Gandek, 1998）。多特質 /多題目相關矩陣允許同時考驗數個假設，包括： (1) 題目與構面之相關強度（ item internal consistency）題目與構面總分間是線性關係的假設（考驗題目的輻合效度），藉由檢查每個題目和其所屬構面的相關來評估。當構面中的題目相對較少時，這 29.

(30) 個考驗就非常重要，因此採用較高的標準（相關需高於 0.40）（Ware et al., 1998）。然而有些情況下題目與構面間的相關可能會小於 0.4，包含範圍極端的題目就容易有偏態（例如，洗澡或穿衣的限制）就是這個考驗有時會失敗的例子；另外測量與其他題目有關卻又不同概念的題目，或是不同於所屬構面中其他題目的方向也有可能會失敗，例如一般健康（GH）構面中有兩題是負向措辭，相較於其他題目可能會有較低的相關情形（Ware & Gandek, 1998）。 (2) 題目與構面間相關強度的一致性（equality of item-scale correlations）在同一構面中的題目對於構面總分應有相同比例的貢獻，檢驗的方法就是看題目與所屬構面的相關強度是否一致，題目如果沒有貢獻足夠的訊息就應被排除，而這些提供足夠訊息的題目則將會有相同的權重，當所有的題目明顯對總分有所貢獻時，即使題目與構面間的相關並不相同（例如，同一構面下各題目的相關分別從 0.40 至 0.70），仍能滿足這項標準。 (3) 題目的鑑別效度（ item discriminant validity）鑑別效度考驗假設題目群組的完整性，採用多題目多特質的相關矩陣來比較題目與其所屬構面間的相關程度，以及同一題目與矩陣內其他構面間的相關情形。當題目與其所屬構面間的相關明顯大於題目與其他構面間的相關時，題目的鑑別效度就成立，而相關比較的判斷標準是兩個標準誤（McHorney et al., 1994），其中相關係數的標準誤近似於樣本數平方根的倒數。如果一個題目在這項考驗中因為內在一致性較低而失敗的話，表示若構面包含了這個題目將會較沒有效率；如果考驗是因為同時與兩個以上的構面有相關而失敗，表示若構面包含這個題目將會混淆量表、造成解釋上的複雜而使問卷沒有效率；若題目與其所屬構面的相關高於其他構面但未達統計上的差異，則應在考慮樣本數及構面題數後重新考驗題目與構面間 30.

(31) 的關係（Ware & Gandek, 1998）。. 3. 構面層級的描述性統計在題目層級的分析建立後，接著開始 SF-36 的計分及構面屬性的考驗，這項工作著重在構面平均值、標準差、最高分（天花板效應 ceiling effect）和最低分（地板效應 floor effect）的比例。 SF-36 健康量表的構面平均值預期在一般民眾樣本中會有相同的形式，五個測量健康失能的構面（生理功能、因身體健康所導致的角色限制、身體疼痛、社會功能、因情緒問題所導致的角色限制），會有較高的構面平均分數，而較低的構面平均分數則出現在其他三個構面（一般健康、活力狀態、心理健康）；平均構面分數在各國間若發現有明顯差異，應進一步評估差異是否由於翻譯或者是國家特殊的健康問題所引起。另外最高和最低可能分數也應注意，因為回答者在最高分或最低分的比例會限制工具發現因時間而變化的能力（Ware & Gandek, 1998）。. 4. 信度測量的信度是指測驗結果之一致性（ consistency ）、可靠性（trustworthiness）或穩定性（stability）（姚開屏, 1988），因為測量的誤差可能削弱變數間的關係而使精確度降低，甚至當信度較低時，型二誤差（Type II error）的比例、樣本數的需求及資料收集的成本都會變大。信度藉由不同的測量設計去評估相同的變數來檢查結果的一致性，包括再測法、複本信度和內在一致性信度，雖然三種方法的估計都有發表過，但在 IQOLA 計畫中構面分數的信度估計是使用內在一致性（Cronbach’s alpha coefficient）及再測法（Ware & Gandek, 1998）。比較個體之間需要較高的信度（其值大於 0.90）；若是群組的比較就不需要那麼高的信度（其值為. 31.

(32) 0.50 或 0.70 或更高可以接受）（Helmstadter, 1964；Nunnally, 1987）。在 SF-36 使用手冊摘要整理的 15 個研究中（表 2-6），使用內在一致性之信度估計值大部分都滿足 0.70 的建議標準（Ware et al., 1993），而 PCS 和 MCS 分數的信度估計通常都在 0.90 上下（Ware et al., 1994）。. 5. 構面間的相關為瞭解構面與其他構面的差異情形，故計算所有構面間的相關並與信度估計值作比較，信度係數可視為構面與自己的相關情形，檢查與其他構面的相關是否小於信度係數，可以證明各個構面是否測到了唯一的可靠變異；如果兩個構面間的相關等於信度係數，則構面就需做對同一概念作複本測量，且無法證明有唯一的變異，因此，構面內的相關評估幫助決定是否各個構面測量了清楚明確的概念（Ware & Gandek, 1998）。. 32.

(33) 表 2-6. SF-36 健康量表 15 個研究之信度估計. 作者. 年代. 方法. Stewart et al.. 1989. 內在一致性. 0.88. 9,385. Gelberg & Linn. 1989. 內在一致性. 0.81. 529. Cleary et al.. 1991. 內在一致性. Wu et al.. 1991. 內在一致性. Kantz et al.. 1992. 內在一致性. 0.88. 0.90. 0.80. 0.83. 0.88. 0.77. Kurtin et al.. 1992. 內在一致性. 0.90. 0.76. 0.79. 0.82. 0.62. Nerenz et al.. 1992. 再測信度. 0.90. 0.60. 0.43. 0.83. 0.68. Wachtel et al.. 1992. 內在一致性. Brazier et al.. 1992. 內在一致性. 0.93. 0.96. 0.85. 0.95. 0.96. 0.73. 0.96. 0.95. 0.73-0.96. 1,582. Brazier et al.. 1992. 再測信度. 0.81. 0.69. 0.78. 0.80. 0.80. 0.60. 0.63. 0.75. 0.60-0.81. 187. Jenkinson et al.. 1993. 內在一致性. 0.90. 0.88. 0.82. 0.80. 0.85. 0.76. 0.80. 0.83. 0.76-0.90. 9,332. Garratt et al.. 1993. 內在一致性. 0.92. 0.89. 0.86. 0.83. 0.86. 0.80. 0.86. 0.86. 0.80-0.92. 542. McHorney et al.. in press. 內在一致性. 0.93. 0.84. 0.82. 0.78. 0.87. 0.85. 0.83. 0.90. 0.78-0.93. 3,445. McHorney et al.. in review 內在一致性. 0.94. 0.89. 0.88. 0.83. 0.87. 0.63. 0.81. 0.82. 0.63-0.94. 1,692. McHorney & Ware. 1995. 信度估計值 PF. RP. BP. GH. VT. SF. RE. 0.90. MH. 範圍. 0.84. 0.84-0.90. 496. 0.86. 0.78-0.86. 117. 0.80. 0.82. 0.77-0.90. 66. 0.76. 0.90. 0.67. 0.62-0.90. 39. 0.60. 0.60. 0.80. 0.43-0.90. 235. 0.78. 0.82. 複本信度. 520. 0.92. 資料來源：Ware JE., Snow KK., Kosinski M. (1993) SF-36 Health Survey: Manual and Interpretation Guide(p.7:5), Boston, The Health Institute, New England Medical Hospital.. 33. 樣本數. 1,437.

(34) 三、 SF-36 效度評估和常模此部分包含兩個主題，一是效度的評估，主要探討 SF-36 健康量表在內容、建構、效標效度上的表現；另一是常模的建立，提供分數解釋及比較的基礎。 1. 效度評估效度的定義是測驗工具能測出其所欲測量特質的程度（姚開屏 , 1988）。在健康領域的問卷效度最常用內容、建構、效標效度來評估，內容效度是考驗一個測量或問卷內容的適當程度，但因健康變數繁多所以在健康領域中是項挑戰，需要界定明確的標準才可以對測量內容作比較，而標準可以基於廣為接受的理論定義、公開的標準、或與健康問題有經驗的專家訪談；SF-36 內容效度可以依據 Ware（1987）發表的文獻來的評估， Ware 等人在比較 SF-36 健康量表、MOS 和其他七種廣泛使用的健康量表後，歸納出 SF-36 健康量表的八個構面也是其他量表的主要內容，再進一步分別評估 SF-36 的題目回答狀況與生理功能（PF）或心理健康（MH）構面分數的相關情形，其結果都有不錯的相關。建構效度是指變數相關情形的測量符合理論概念或結構之程度，而輻合（convergent）和鑑別（discriminant）效度在建構效度的基礎下，輻合效度是指以不同方法測量相同概念可得到相似的結果，鑑別效度檢查一個概念的測量是否可以從另一個概念中區分出來。當超過一個以上的資料或構面用以測量相同概念就可以作輻合效度的比較；當不同方法且不同概念同時被測量，輻合效度和鑑別效度就可以用多特質多方法的方式（multitrait-multimethod procedure）來考驗（Ware et al., 1993）。從目前各國對 SF-36 健康量表的信效度評估看來，幾乎所有題目都滿足輻合效度的標準（與其所屬構面之相關需高於 0.40），而在鑑別效度方面也都有不錯的結果（Gandek et al., 1998；Gandek & Ware, 1998）。 34.

(35) 因素分析提供了 SF-36 健康量表與假設結構關係間的一種建構效度考驗，其中 IQOLA 計畫採用因素分析（factory analysis）中的主成分分析（ principle compo nents analysis）萃取因素，以直角最大變異數轉軸法（orthogonal varimax rotation）旋轉因素矩陣，去評估假設的生理和心理健康結構，以及 SF-36 健康量表測量這些結構的一致性，這兩個面向結構在不同國家的表現支持 SF-36 健康量表的建構效度，同時也暗示 SF-36 健康量表的各構面可以解釋生理或心理健康的測量（Gandek & Ware, 1998）。 McHorney 等人對 SF-36 健康量表進行因素效度評估，結果顯示生理功能、因身體健康所導致的角色限制、身體疼痛這三個構面評估生理健康的效度最佳；心理健康、因情緒問題所導致的角色限制、社會功能這三個構面評估心理健康的效度最佳；一般健康狀況和活力狀況這兩個構面則同時能評估生理和心理健康，惟效度居中，而能評估心理健康之社會功能效度亦居中（Ware et al., 1993；McHorney et al., 1993）。效標效度證明分數會與一個以上的結果標準有相關，這項技術需有外部證據作為可以比較試驗結果的標準時，為了判斷外部（已知且獨立）證據，評估者必須知道預期結果是怎樣，與外部證據相關的例子有：(1)健康狀態和資源使用是負相關，(2)年齡和健康狀態是負相關，或(3)生理和心理健康彼此是正相關（Ware et al., 1993）。也可以廣泛使用且測量相同概念之量表來評估其效標效度，當 MOS 的題目和 SF-36 健康量表測量概念相同時，其相關性非常良好，例如因身體健康所導致的角色限制（r＝0.96），社會功能（r＝0.90），身體疼痛 (r＝0.93)，和心理健康 (r＝0.96)。而在 SF-36 健康量表和 Nottingham Health Profile（簡稱 NHP）分數相關探討，生理功能（PF）和 NHP 的生理活動性（physical mobility）分數有中度相關（r＝ -0.52），心理健康（MH）和情緒反應（emotional reactions）分數有中度相關（r＝-0.67），活力狀況（VT）和精力（energy）分數有中度相關（r＝-0.68）. 35.

(36) 等，可以發現 SF-36 健康量表與此量表有不錯的的相關性（Ware et al., 1993）。心理健康構面在精神疾病的篩檢上很有用，例如使用 42 分作為偵測病患壓抑症狀的判斷分數，MCS 有 74%的敏感度（sensitivity）以及 81% 的特異度（specificity）(Ware et al., 1994)。比較治療前後結果的臨床研究也大大支持 SF-36 健康量表的因素分析結果，例如，臨床研究包含最多生理因素成分的三個構面（生理功能、因身體健康所導致的角色限制、和身體疼痛），最能反映出膝關節、髖關節置換、心瓣膜手術的效益；相反的，有最多心理因素的三個構面（心理健康、因情緒問題所導致的角色限制、和社會功能），在因素分析研究中最能反映憂鬱恢復前後的比較、憂鬱程度的變化、和憂鬱的藥物及內在治療。直至目前的效度研究中，SF-36 已逐漸證明是考驗疾病負擔的有效健康測量，而一般性調查最常見的研究疾病則有關節炎、背痛、沮喪、糖尿病、和高血壓等（Ware & Gandek, 1998）。. 2. 常模分析關於有效的健康測量方面，因為缺乏一致的標準或「黃金標準（gold standards）」，所以在解釋分數時常模就顯得非常有用，常模資料可以藉著與其他個體分數比較的方式，解釋個別回答者的構面分數或群組的平均分數，而常模基礎的比較需在定義明確且具代表性之一般民眾樣本的常模下進行（Gandek & Ware, 1998；Ware et al., 1993），一般民眾的常模資料提供了各種考驗的分數解釋基礎，亦可對特殊疾病患者的分數與一般健康民眾的分數作比較，以瞭解健康上的差異。 1993 年 IQOLA 制訂常模資料收集的標準流程，此流程所建立的是一般性的指引，但允許某些常模調查的特性因各國情形而有所不同。建議一般民眾的樣本數為 2500 至 3000 人，可以依性別、每十歲一組作 SF-36 分 36.

(37) 數的比較，樣本數最少也要達 800 至 1000 人（Ware et al., 1993），且樣本的年齡與性別結構應能代表一個國家不同的地區。在常模研究的資料收集上 IQOLA 偏好郵寄自填式問卷的方式，但是其他資料收集方法（如面訪或電訪）也可以接受，盡可能使用該國常用的方法，將會有較高的反應率；另外對於未回答者應積極追蹤，回收率最好在三分之二以上，最後如果可能的話，應檢查未回答者的基本描述性資料是否和有回答者不同(Gandek & Ware, 1998)。除 SF-36 健康量表之外，還需收集一些基本的人口學變項資料，包括年齡、性別、居住地、工作情形、教育程度、婚姻狀態、和慢性疾病等。為了各國特殊的興趣可以合併其他調查研究，但最好將 SF-36 健康量表放在調查的最前面，以免回答受到其他問題的影響。. 37.

(38) 第四節. 簡短 36（SF-36）在各國的發展情形. SF-36 健康量表由於簡短且信效度皆佳，已翻譯成多種語言，成為最廣泛使用的一般性健康量表之一，目前各國翻譯版本的心理計量學考驗皆有不錯的結果，且藉由具代表性之民眾資料建立了該國之常模。. 一、各國資料表 2-7 為 12 個國家以一般民眾進行 SF-36 健康量表測量之方式與結果，分別為丹麥（ n=4084）、西班牙（ n=9151 ）、法國（ n=3308）、挪威（n=2323）、荷蘭（n=1771, 4059）、瑞典（8930）、義大利（n=1483）、德國（n=2914）、英國（n=2056, 1582）、美國（n=2227）、日本（n=3395）和新加坡（n=5503）。除了西班牙（100%面訪）、義大利（50%面訪）、英國（100%面訪）和美國（32%電訪）之外，皆採受訪者自填的方式，各國回收率約在 50-92.8%，而資料的完成率則在 86-99%，樣本中有一半以上是女性（荷蘭、新加坡除外），平均年齡在 41.3 至 47.7 歲之間。其中新加坡還依據其多種族之優勢進行中英文版本的比較，分別是英國英文版與香港中文版。. 二、題目平均數之分佈題目平均數在各國也出現類似的結果（表 2-8）。一般來說，PF 構面的 3a（費力活動）分數最低，而 3j（洗澡和穿衣）最高；因為身體健康及情緒問題導致完成的工作量較少（4b、5b）分別是 RP、RE 構面中分數最低的；GH 構面中容易生病（11a）的分數最高；而 VT 構面中，「精力充沛」（9e）之分數比「充滿活力」（9a）來的低，「覺得疲倦」（9i）比「筋疲力竭」（9g）低；心理健康構面中，測量正向效果的題目（9d、9h）其分數. 38.

(39) 較測量負向效果（9b、9c、9f）的題目低，而 9c 是 MH 中分數最高的一題；健康改變（2）的分數約在 3.0 左右，表示大部分的受訪者覺得健康狀況和一年前差不多。. 三、題目與構面之相關強度除了義大利一般健康狀況（GH）構面的 11b 之外，所有題目與其構面間的相關都超過 0.40（表 2-9），滿足輻合效度的考驗。一般而言，相同構面下之題目與其所屬構面間的相關程度會差不多，但仍有些例外，例如生理功能中最困難（3a）與最不困難（3j）活動會比其他生理功能題目低，這樣的結果是預料中的事，因為這兩個題目分別測量了生理功能範圍中較極端的活動；同樣在一般健康狀況構面中，「比別人容易生病」（11a）和「對健康的展望」（11c）兩個負向措辭的題目，相較於其他 GH 的題目有較低的相關情形。. 四、題目之鑑別效度表 2-10 為各國鑑別效度考驗之成功率。因身體健康所導致的角色限制（RP）和身體疼痛（BP）構面在各國其測驗之成功率皆達 100%，而因情緒問題所導致的角色限制（RE）構面除日本之外，各國也都達 100%，生理功能（PF）和一般健康狀況（GH）構面的鑑別效度成功率也很高，雖然有些國家未達 100%，但考驗仍算成功。幾個國家在活力狀況（VT）構面的考驗就沒有成功，義大利活力狀況的 9a，與心理健康構面的相關大於與活力狀況構面，荷蘭、新加坡英文版亦是，日本在「精力充沛」（9e）與心理健康構面的相關大於與活力狀況構面，而義大利、日本和新加坡中英文版在「筋疲力竭」（9g）與心理健康構面有較高的相關。同樣的現象也發生在心理健康（MH）構面上，「心 39.

(40) 情平靜」（9d）在日本及新加坡英文版中，與活力狀況構面的相關大於與心理健康構面，而「覺得快樂」（9h）在西班牙、義大利、德國、日本和新加坡英文版則與活力狀況有較高的相關。另外新加坡英文版的社交活動妨礙程度（6）則同時與 RP、BP 和 RE 構面有較高的相關，而非與其所屬之 SF 構面。. 五、構面信度由表 2-11 可以發現，除了社會功能（SF）和活力狀況（VT）構面之外，內在一致性信度估計皆超過群體比較 0.70 的標準，這兩個例外的構面分別出現在美國、日本與新加坡。同樣除了日本與新加坡中文版外，生理功能（PF）構面的信度估計值也都超過個體比較 0.90 的標準。. 六、構面之描述性統計各國在六個構面（PF、BP、GH、VT、 SF、MH）最低分數的比例都小於 1.5%，而在 RP 和 RE 構面中則較高（分別為 6.1-13.2%和 5.2-12.0%），這兩個構面在最高分數比例上也有同樣的情形（分別為 63.3-82.9%和 68.7-87.2%），SF 構面天花板效應很明顯，在 PF 和 BP 構面也頗高，其中挪威與瑞典 GH 構面的天花板效應比他國稍高，一般而言天花板和地板效應在兩極化的構面（GH、VT、MH）會較小（表 2-12）。. 七、量表之因素結構在 11 個國家中，SF-36 各構面與以最大變異數轉軸法旋轉後兩個主成分之因素負荷值（factor loadings）強烈支持生理和心理健康面向的解釋（表 2-13）。PF 構面與生理面向的相關最強，與心理面向相關最弱，但新加坡. 40.

(41) 不管中英文版，其 RP 構面與生理面向之相關最強，而非 PF 構面；RP 和 BP 兩個構面與生理面向之相關也大於與心理面向之相關，不過新加坡英文版卻出現 BP 構面與心理面向相關較強的例外。 MH 構面與心理面向有最強的相關（=0.81），與生理面向的相關最弱（=0.10）；幾乎各國的 RE 和 SF 兩構面與心理面向之相關均大於與生理面向之相關，唯獨新加坡不論中文或英文版，RE 構面與生理面向的相關都較強。 GH 和 VT 構面會同時與生理和心理面向有關，其中 GH 構面與生理面向的關係大於與心理面向（新加坡恰好相反）；VT 構面與心理面向的相關（=0.61）較與生理面向的相關（=0.54）大。. 八、生理面向與心理面向得分（ PCS 與 MCS）生理面向得分的平均值範圍從 49.7（荷蘭）至 52.7（義大利），而心理面向得分則從 47.6（義大利）至 54.0（丹麥）。PCS 與 MCS 之分數可採美國的因素權重計算（如表 2-14），也可採各國之因素權重計算，但據 Ware 等人（1998）的研究發現，兩種計分法的相關性達 0.980 至 0.998，呈現極高的相關，因此建議若只是作國內之比較兩種計分法皆可，不過採用美國因素權重的計分法還有跨國比較的優點。. 41.

(42) 表 2-7. 各國調查方式、資料完成率及受訪者資料研究方法. 國家. 抽樣架構. 受訪者. 操作方法. 年代. 丹麥. 取自中央個人登記之全國在結構式個人訪談之後自性樣本行填寫並寄回問卷. 西班牙. 取自 Instituto Nacional de Estadistica 之全國性樣本. 法國. 取自 Sofres METASCOPE 資料庫之全國性樣本. 挪威荷蘭 (全國) 荷蘭. 義大利德國. 樣本大小男性% 平均年齡 (標準差). 1994. 68. 88. 4,084. 48. 43.9 (17.8). 面訪. 1996. 80. 98. 9,151. 48. 45.2 (18.6). 郵寄調查. 1995. 81. 93. 3,656. 48. 44.6 (18.1). 取自全國戶政單位之全國郵寄調查性樣本取自全國電話登記之全國郵寄調查性樣本. 1996. 67. 86. 2,323. 49. 44.9 (16.5). 1996. 63. 96. 1,771. 56. 47.6 (18.0). 1994. 50. 95. 4,059. 46. 43.1 (18.1). 68. 89. 8,930. 48. 42.6 (16.6). NA. 99. 2,031. 49. 47.7 (17.1). 61. 95. 2,914. 48. 45.2 (18.4). 取自阿姆斯特丹市政人口在結構式個人訪談之後自行填寫並交回給訪員 (阿姆斯特丹) 登記之樣本瑞典. 回收率(%) 資料完成率 a (%). 來自瑞典不同地區的七個郵寄調查 1991-1992 社區樣本自電子名冊之全國性樣本自行填寫並寄回問卷 (50%) 1995 或面訪(50%) 取自 Intratest資料庫之全國在結構式個人訪談之後自 1994 性樣本行填寫並交回給訪員. 42.

(43) 表 2-7. 各國調查方式、資料完成率及受訪者資料（續）研究方法. 受訪者年代. 回收率（％）. 資料完成率（％）. 1992. 78. 99. 2,056. 48. 45.8 (18.6). 1991. 83. 93. 1,582. 45. 41.3 (15.4). 1989 和 1990 年一般社會調郵寄(68%)或電訪(32%) 查之全國性樣本. 1990. 77. 96. 2,474. 48. 43.6 (17.4). 日本. 取自政府戶政名單之全國自行填寫並由受過訓練的性樣本資料收集員彙整. 1995. 75. 99. 3,395. 49. 43.4 (17.1). 新加坡. 以 21-65 歲能閱讀英文或自行填寫並由訪員回收 1998-1999 92.8 (英文) 中文報紙之華人、馬來人和 (雙語之研究對象可選擇填 85.5 (中文) 印尼人為樣本寫中文或英文問卷). 抽樣架構. 國家英國. 操作方法. 取自官方人口普查之全國面訪性樣本，並調查多項研究. (全國) 英國. 抽取自 Sheffield 地區一般開業醫名冊樣本. (Sheffield) 美國. 郵寄調查. 樣本大小男性％平均年齡（標準差）. 4,122 (英文) 51.5 1,381 (中文) 50.0. a 至少完成 50%題目的百分比 b 題目與所屬構面的相關程度明顯高於其他構面的百分比 c Cronbach’s alpha NA＝不適合資料來源： Gandek B., Ware JE. & IQOLA project group. (1998)” Methods for validating and norming translations of health status questionnaires: The IQOLA project approach.” J Clin Epidemiol, 51(11), 957. Thumboo J., Fong K.Y., Machin D., Chan S.P., Leong K.H., Feng P.H., et al. (2001).” A community-based study of scaling assumptions and construct validity of the English (UK) and Chinese (HK) SF-36 in Singapore.” Quality of Life Research,10, 175-188.. 43.

(44) 表 2-8. 各國題目之平均數平均數. 構面 PF. RP. GH. 新加坡 a 新加坡 b. 題目. 丹麥. 西班牙. 法國. 挪威. 荷蘭. 瑞典. 義大利. 德國. 英國. 美國. 日本. 3a. 2.36. 2.43. 2.29. 2.16. 2.17. 2.34. 2.38. 2.26. 2.25. 2.18. 2.10. 2.26. 2.25. 3b 3c. 2.79 2.81. 2.77 2.82. 2.76 2.73. 2.75 2.84. 2.67 2.66. 2.76 2.76. 2.78 2.80. 2.66 2.67. 2.71 2.65. 2.66 2.73. 2.80 2.80. 2.57 2.57. 2.73 2.83. 3d. 2.73. 2.74. 2.59. 2.75. 2.63. 2.75. 2.75. 2.62. 2.58. 2.55. 2.67. 2.46. 2.66. 3e. 2.88. 2.86. 2.84. 2.92. 2.81. 2.89. 2.89. 2.81. 2.80. 2.78. 2.89. 2.67. 2.92. 3f. 2.76. 2.78. 2.64. 2.72. 2.58. 2.74. 2.72. 2.60. 2.61. 2.60. 2.79. 2.55. 2.76. 3g. 2.81. 2.81. 2.78. 2.75. 2.63. 2.77. 2.78. 2.72. 2.63. 2.56. 2.75. 2.54. 2.69. 3h. 2.89. 2.86. 2.88. 2.90. 2.80. 2.90. 2.90. 2.75. 2.76. 2.7. 2.89. 2.59. 2.81. 3i. 2.91. 2.9. 2.91. 2.94. 2.86. 2.92. 2.93. 2.84. 2.88. 2.83. 2.94. 2.65. 2.90. 3j. 2.91. 2.93. 2.92. 2.95. 2.93. 2.91. 2.95. 2.87. 2.92. 2.89. 2.97. 2.70. 2.94. 4a. 1.89. 1.87. 1.90. 1.84. 1.81. 1.88. 1.86. 1.83. 1.85. 1.84. 1.89. 1.80. 1.88. 4b. 1.79. 1.85. 1.78. 1.72. 1.73. 1.79. 1.80. 1.79. 1.78. 1.74. 1.85. 1.78. 1.84. 4c. 1.84. 1.87. 1.84. 1.81. 1.77. 1.86. 1.83. 1.82. 1.80. 1.79. 1.79. 1.77. 1.84. 4d. 1.85. 1.87. 1.82. 1.80. 1.75. 1.83. 1.82. 1.81. 1.80. 1.77. 1.88. 1.81. 1.85. 1 11a. 3.53 4.43. 3.08 4.35. 3.36 4.27. 3.57 4.49. 3.28 4.36. 3.56 4.48. 3.06 4.28. 3.03 4.17. 3.50 4.35. 3.53 4.21. 2.99 3.72. 3.51 3.93. 3.31 3.97. 11b. 4.13. 4.03. 3.82. 4.32. 3.74. 4.06. 3.52. 3.56. 3.91. 3.81. 3.90. 3.80. 3.77. 11c. 4.00. 3.90. 3.65. 3.86. 3.71. 4.02. 3.78. 3.77. 3.61. 3.67. 3.53. 3.94. 3.45. 11d. 3.90. 3.75. 3.66. 4.01. 3.85. 3.89. 3.91. 3.45. 3.69. 3.74. 3.61. 3.69. 3.73. 44 45.