以Rasch模式分析世界衛生組織生活品質問卷簡明版在社區老人的心理計量特質

全文

(1)中國醫藥大學碩士論文編號：IEH-1611 以 Rasch 模式分析世界衛生組織生活品質問卷簡明版在社區老人的心理計量特質. Rasch model analysis for studying psychometric characteristics of the WHOQOL-BREF in community-dwelling older people. 所別：環境醫學研究所指導教授：梁文敏、林茂榮學生：葉懿諄 Yeh Yi-Chun 學號：9365011. 中. 華. 民. 國. 九. 十. 五. 年. 六. 月.

(2) 誌謝時間一下子就過去了，感覺真的過得很快。感覺好像才剛考試研究所而已，沒想到已經要畢業了。在這段過程中，有各位同學們，曜慶、媛婷、懷芝、舒婷、玟陵、佳蓉、鈞萍、錦蓉、心縵及秀貞等等，還有許多沒有提名的同學們，在課業上一同的學習使我獲益良多。記得剛到梁老師辦公室時，就去香港參加 ISOQOL 研討會，感覺實在是相當的陌生一點也不知道到底生活品質、項目反應理論是甚麼東西。感謝梁老師在這段過程中，一直耐心的教導，使我在對於問卷的分析及評估上有更多、更深的了解。以及林茂榮老師針對邏輯能力所給我的幫助上使我受益良多。另外還有宏偉學長總是非常孜孜不倦地學習並且還要教我，常覺得他好像是忙碌的小蜜蜂，嗡嗡嗡，飛到西又飛到東，每天總有許多事要忙，好像都忙不完一樣。還有總是很親切的金燕學姊及很熱鬧的弼哥，謝謝你們在這段時間的照顧。還有泰進、雅琳及玉君，你們要加油喔！雖然項目反應理論剛開始接觸會覺得很難懂，但是以你們的努力及天份一定可以有一個很好的成績。另外，還有中台姊妹之家的姊妹們，桂蘭、詩芳、思妍及曉語，謝謝你們在這段時間中總是擔待我的軟弱，體恤我。以及我最親愛的家人，謝謝你們總是尊重我的決定。箴言九章 10 節「信靠耶和華是智慧的開端」，一直都覺得自己不是一個聰明的人，但是我總是會跟主禱告說：「是你帶我來的，我所需的智慧，你就一定不會讓我缺乏」。能夠完成論文實在不是我能，乃是神作我一切的智慧。.

(3) 摘要目的：面對傳統心理計量理論不敷所需，愈來愈多人應用項目反應理論（item response theory, IRT）來分析問卷。本研究使用 IRT 中的 Rasch 系列模式分析世界衛生組織生活品質問卷簡明版（WHOQOL-BREF）測量台灣社區老人的心理計量特質。. 材料與方法：研究對象為 2001 年在台灣台中縣新社鄉的 1200 個社區老人。平均年齡為 73.4 歲，介於 65 歲至 103 歲，男性佔 59%。由訪員至受訪者家中以面談的方式取得基本資料及 WHOQOL-BREF 生活品質等資料。以 IRT 的 Rasch 系列模式中的 Partial credit model 來分析範疇及題目的心理計量特質。分析項目包括：以適合度指標（infit statistic）來檢驗各範疇單一向度的假設。以題目難度的測定值來檢驗題目難度的範圍，重疊性及順序。並且，以試題差別功能 (differential item functioning, DIF)分析來檢驗性別及年齡間題目難度的順序是否相同。. 結果： WHOQOL-BREF 各範疇的題目均符合單一向度的假設。老人能力在生理、心理、社會及環境範疇分別為-6.7~7.76、-5.78~8.79、-9.34~10.98 及-5.25~5.41，而題目難度的分佈分別為-1.1~0.48、-1.19~1.29、-0.77~1.17 及-1.08~0.96，然而，在環境範疇的題目難度有較多重覆性的題目。在題目順序方面，與國健局的結果做題目順序的比較，發現在生理範疇及心理範疇有少數題目的順序不同，然而，在社會及環境範疇的題目順序則是相同的。在 DIF 的檢驗上，除了心理範疇的”接受自己的外表”在年齡有明顯的 DIF，以及社會範疇的”性生活”及”朋友支持”在性別及年齡皆有 I.

(4) 顯著 DIF 存在外，其他的範疇都沒有顯著的 DIF 存在。WHOQOL-BREF 在生理、心理、社會及環境範疇中的信度指標分別為 0.76、0.77、0.68 及 0.78。除了社會範疇外，其他的範疇都有良好的信度。. 結論：傳統測量方法從加總的分數來看人的能力，該結果會受題目難度的影響，在題目難度估計上也沒有考慮到誤差因人而異的特質。然而，項目反應理論建構在一完整的理論架構下，同時考慮題目的特質及人的能力，能補足許多傳統測量方法之不足，並有系統的發掘問題。從本分析中更近一步地證實 WHOQOL-BREF 在老人的適用性及未來可以改進的部分。. 關鍵字：項目反應理論、Rasch 模式、世界衛生組織生活品質問卷簡明版、社區老人、台灣. II.

(5) Abstract Objectives: Item response theory (IRT) offers one of the best alternatives for optimizing scales and performing item analysis. The Rasch family of model which was one of item response theory was used to analyze the psychometric characteristics of brief version of World Health Organization Quality of life (WHOQOL-BREF) in community-dwelling older people in Taiwan. Methods: One thousand and two hundreds community-dwelling older people living in Shin-Sher Township of Taichung County in 2001, completed the WHOQOL-BREF at their residences either by themselves or with the assistance of an interviewer. The age of these 1200 subjects ranged from 65 to 103 years with an average of 73.4 year, and 59% of the subjects were males. Partial credit model, one of the Rasch family of model, was used to analyze the psychometric characteristics of domains and items of the WHOQOL-BREF. Infit statistics were applied to examine the unidimensionality of each domain; Item calibration of logit unit was to examine the range of item difficulty, redundancy, and hierarchy; and differential item functioning analysis was to examine whether item properties were the same between males and females older people. Results: All of the items within each domain satisfied the assumption of unidimensionality. The range of mean of item difficulty (range) in physical, psychological, social, environmental domain were -1.1~0.48 (1.58), -1.19~1.29 (2.48), -0.77~1.17 (1.94), and -1.08~0.96 (2.04), respectively; the corresponding range (range) of threshold difficulty were -3.86~5.3 (9.16), -6.74~6.78 (13.52), -8.39~9.66 (18.05), and -3.72~4.75 (8.47), respectively; the corresponding range of ability were -6.7~7.76 (14.46), -5.78~8.79 (14.57), -9.34~10.98 (20.32), -5.25~5.41 (10.66), respectively. More item redundancies occurred in environmental domain than those in other domains. Comparison of item hierarchy with the results from the NHRI health survey, found that the two studies had different hierarchy in physical and psychological domains, and a similar hierarchies in social and environmental domains. While “body image” of psychological domain had a significant DIF in age group, “sexual activity” and “friends’ support” of social domain had a III.

(6) significant DIF among gender and age group, there was no apparent DIF in other domains. The reliability indices in physical, psychological, social and environmental domains were 0.76, 0.77, 0.68, and 0.78, respectively. Conclusion: The summated score method is used to measuring personal ability in classical test theory (CTT) analysis and it does not account for the variability of item properties. However, IRT is based on a comprehensive structure of psychometrical theory and provides a foundation for scaling personal ability and item difficulty by using the responses of assessment items. IRT can overcome a lot of limitations of CTT. While our study confirms the suitability of WHOQOL-BREF in older people, it also highlights that there is still a room of improvement for the WHOQOL-BREF in the older people. Key Words: Item response theory, Rasch model; WHOQOL-BREF, community-dwelling older people, Taiwan.. IV.

(7) 目. 錄. 中文摘要………………………………………………………………. I. 英文摘要………………………………………………………………. III. 目. V. 錄……………………………………………………………….. 表目錄 (Table content)……………………………………………... VII. 圖目錄 (Figure content) ……………………………………………. VIII. 錄………………………………………………………………. 74. 第一章緒論…………………………………………………………. 1. 第一節研究背景與研究動機………………………………. 1. 第二節研究的重要性…………………………………….... 4. 第三節研究目的…………………………………………... 4. 第四節研究問題與研究假設…………………………….... 5. 第五節名詞界定……………………………………………. 6. 第二章文獻查證………………………………………………….... 7. 第一節老人的特性…………………………………………. 7. 第二節老人生活品質研究…………………………………. 7. 第三節心理計量特質的測量 — 由古典到項目反應理論. 9. 第四節項目反應理論………………………………………. 11. 第五節. Rasch 模式的家族………………………………….. 14. 第六節. Rasch 模式分析…………………………………….. 20. 第七節心理計量特質………………………………………. 24. 第八節現代測量理論在生活品質的應用…………………. 25. 第三章研究方法………………………………………………….... 28. 第一節研究設計……………………………………………... 28. 附. V.

(8) 第二節研究對象……………………………………………. 29. 第三節研究工具的擬定……………………………………. 29. 第四節資料收集過程………………………………………. 30. 第五節資料統計與分析………………………………….... 31. 第四章研究結果………………………………………………….... 35. 第一節基本人口學變項之敘述統計………………………. 35. 第二節問卷心理計量特質分析……………………………. 37. 第五章討論………………………………………………………... 63. 第六章結論與建議………………………………………………. 68. 第一節結論………………………………………………... 68. 第二節研究限制…………………………………………... 69. 第三節應用與建議………………………………………... 70. 參考文獻…………………………………………………………….... VI. 71.

(9) Table contents Table 1. Demographic characteristic of community-dwelling older people…………………………………………………………. 36. Table 2. Item calibrations, misfit statistics and slope estimates of the WHOQOL-BREF domains in community elderly and control group.…. …………………………………………………....... 39. Table 3. The range of item threshold and ability across four domains of WHOQOL-BREF in community older people……………. 40. Table 4. Items with redundancy in each domain of WHOQOL-BREF.... 42. Table 5. Comparison of item hierarchy between two studies…………... 42. Table 6. Targeting and Separation indices of WHOQOL-BREF in community older people……………………………………..... 43. Table 7. Item calibrations of the WHOQOL-BREF domains in male and female…………………………………………………….. 45. Table 8. Item calibrations of the WHOQOL-BREF domains in young and old older people…………………………………………... 49. Table 9. Item information for ranges of the latent trait…………………. 55. Table 10. Item thresholds for the WHOQOL-BREF domains…………. 60. Table 11. Discriminant validity analysis: means of domain or facet score by characteristic in classical test theory and item response theory………………………………………………... VII. 65.

(10) Figure contents Figure 1. The response curve………………………………………….. 15. Figure 2. Jumper stronger than fence clears. Jumper weaker than fence tumbles. …………………………………………………….. 15. Figure 3. Category probability curve for a rating scale item with three thresholds …………………………………………………. 19. Figure 4. A mean of item difficulty for the four domains of WHOQOL-BREF separated in community elderly………... 41 Figure 5. DIF comparison on male and female in physical domain of WHOQOL-BREF…………………………………………... 46 Figure 6. DIF comparison on male and female in psychological domain of WHOQOL-BREF……………………………….. 46. Figure 7. DIF comparison on male and female in social domain of WHOQOL-BREF…………………………………………... 47. Figure 8. DIF comparison on male and female in environmental domain of WHOQOL-BREF……………………………….. 47. Figure 9. DIF comparison on young and old older people in physical domain of WHOQOL-BREF……………………………….. 50. Figure 10. DIF comparison on young and old older people in psychological domain of WHOQOL-BREF………………... 50. Figure 11. DIF comparison on young and old older people in social domain of WHOQOL-BREF……………………………….. 51 Figure 12. DIF comparison on young and old older people in environmental domain of WHOQOL-BREF……………….. 51. Figure 13. DIF comparison on male and female in social domains of WHOQOL-BREF between young and old older people…... 53 Figure 14. DIF comparison on young and old older people in social domains of WHOQOL-BREF between male and female….. 53. VIII.

(11) Figure 15. Person-threshold map for physical domain of WHOQOL-BREF…………………………………………... 61 Figure 16. Person-threshold map for psychological domain of WHOQOL-BREF…………………………………………... 61. Figure 17. Person-threshold map for social domain of WHOQOL-BREF…………………………………………... 62. Figure 18. Person-threshold map map for environmental domain of WHOQOL-BREF…………………………………………... 62. IX.

(12) 第一章緒論第一節研究背景與研究動機生活品質的議題在近年來被廣泛地利用在健康結果測量上，各類型的生活品質問卷也不斷的被發展、修正及驗證，以期能提高測量的品質 1, 2. 。隨著問卷的發展及需求，在測量的理論與分析的技術上也一直在尋. 求突破，傳統的測量理論中許多的限制，隨著現代測量理論的發展，一直在改進與突破，而現代測量理論中最具代表性的應推項目反應理論 (item response theory, IRT)的發展 3, 4，此理論最早在教育及心理測量領域中造成了很大的衝擊並蓬勃的發展，目前已居領導地位，許多著名的測驗如托福測驗、加拿大的護理執照考試、IQ 測驗等其測驗方式均根據 IRT 來發展，近年來，此理論又跨足到醫學結果測量的領域 5, 6，IRT 不但能幫助研究者發展更好的工具來測量所感興趣之特質 7、並可以幫助問卷使用者了解所欲使用之問卷特質，增加使用者對已有資料之了解，並能有效地幫助使用者選擇適合的問卷。它較傳統測量理論更能結構性地提供許多有用的訊息，例如每份問卷的心理計量特質，甚至了解到如何區辨每個題目的好壞 8。老年人口的增加在開發中及已開發國家中為一個共同的現象。在衰老的過程中有一些症狀是很難避免的，如身體及心理的老化，而且每一個人老化的程度是不相同的，甚至是相當兩極化的。每一個人都有不同的特質，但是如何在老化的過程中歸納出老人面臨老化時共同的特點及在老化過程中的需求是非常重要的。老人在健康上常會面臨的問題很多，其中常見有多種的慢性病、憂鬱症、失智等。目前有許多學者利用生活品質來測量老人的健康，這些研究指出生活品質可以用來預測老人憂鬱症 9 老人在照護中心的死亡率等。根據世界衛生組織將生活品質定義為『個人在所生活的文化價值體 1.

(13) 系中的感受程度，這種感受程度與個人目標、期望、標準、及關心等方面有關。』。世界衛生組織（World Health Organization, WHO）於 1991 年開始，結合了 15 個國家發展了一份與健康相關生活品質問卷，定名為「世界衛生組織生活品質問卷（WHOQOL-100）」10, 11。台灣於 1997 年由姚開屏等人向世界衛生組織取得授權，組成台灣版生活品質問卷發展小組，將 WHOQOL-100 原始問卷翻譯為本國文字，並按其規定先做問卷量尺的發展，進行台灣版生活品質問卷的研究與發展 12。世界衛生組織生活品質問卷簡明版(WHOQOL-BREF)的問卷題目是由 WHOQOL-100 的 24 個層面中各選出一個題目，並將這 24 題簡明版題目分成四個主要的範疇：生理健康範疇（physical health domain，包含原先的生理及獨立程度範疇）、心理範疇（psychological domain，包含原先的心理及心靈/ 宗教/個人信念範疇）、社會關係範疇（social relationships domain）以及環境範疇（environmental domain），也從一般性評量中挑選出兩個題目分別為與「整體生活品質」與「一般健康」相關的題目各一題，並且亦提供 2 題針對不同文化特質的本土性題目，此問卷共有 28 題。 Hwang 等利用傳統心理計量方法來評估 WHOQOL-BREF 在新社鄉社區老人的適用性 13，顯示 WHOQOL-BREF 具有良好的信度、效度且適用於評估老人的生活品質。WHOQOL-BREF 問卷中包含很多問卷中所沒有考量到的環境範疇，對於老人在環境範疇上較敏感的需求是很重要的。同時，也顯示不論是請老人自填或是由訪員訪問所花費的時間差不多（花費平均時間分別為 11 分及 15 分，兩者間並沒有統計上顯著的不同），並不會造成老人在答題上的負擔，表示 WHOQOL-BREF 是適用於測量老人生活品質的。然而以上的方法大都以傳統分析為主，在傳統分析中常利用範疇的得分來看人的特質，但項目反應理論(IRT)乃是更細緻地探討每一個題目的特質且從題目的特質來看人的能力。另外，傳統分. 2.

(14) 析中題目特質與人的能力之間是無法相比較的，但 IRT 利用一個數學模式將人的能力及題目特質放在同一個尺度上使其可以相互比較，並能更深入有系統地發掘問題。項目反應理論（item response theory, IRT）一般可作為現代測量理論的代表，其基礎架構主要是根據心理計量理論利用數學模式將人的能力及題目的難度放在同一個尺度上，使得人的能力與題目的難度間可以加以比較評估。此理論發展大致分為兩個系列的模式，一為 Rasch 系列模式，另一為参數系列模式。項目反應理論目前已廣泛使用在教育界、心理界、商業界，且在近十幾年來在健康結果測量上的應用亦是大量增加。在 2001 年著名的雜誌 Medical Care 對 IRT 專闢一系列的討論 1, 2, 14。實際應用的文獻亦增加中，因應在 2001 年在美國伊利諾州芝加哥所舉辦的客觀測量的國際研討會（International Conference on Objective Measurement, ICOM）中，117 篇被接受的論文中有 104 篇使用 Rasch 測量模式，有 8 篇利用 2-或 3-参數的項目反應理論模式，只有 5 篇是利用傳統測驗理論（classic test theory）。Rasch 模式亦廣泛地被利用在健康照護的研究中，在 2004 年 1 月 Medical Care 針對 IRT 中的 Rasch 模式在健康照護的研究中有一系列的探討 5, 15-20。使用傳統的方法來驗證問卷是簡單且易懂，但是其並沒有一個完整的理論架構作支持，利用 IRT 雖不像傳統測量理論來得易懂，但是其背後有完善的理論架構，針對每一題提供的訊息更多、且更符合理論的假設。目前已有許多研究利用 IRT 來驗證生活品質的問卷並較傳統方法提供更多題目的訊息。在 Ducan 等人利用 IRT 中的 Rasch 模式來驗證一份新的中風衝擊量表(stroke-impact scale)的研究中也提到利用 IRT 分析所提供的訊息不僅可以用來驗證問卷的信、效度，也利用所提供的訊息來評估受測者的特質 8。Nijsten 等進ㄧ步比較傳統測量理論與項目反應理論，. 3.

(15) 在評估如何縮減牛皮癬衝擊問卷(impact of Psoriasis Questionnaire)21，結果顯示在縮減問卷方面利用 Rasch 分析所提供的訊息較傳統測量理論不僅題目更少並且在信度，單一向度的假設上有更好的心理計量特質。因此，本研究擬針對 Hwang(2003)所使用 WHOQOL-BREF 來測量新社鄉老人的生活品質，以 IRT 理論中之 Rasch 模式重新探討 WHOQOL-BREF 應用在社區老人之心理計量特質及 WHOQOL-BREF 應用在老人的適用性。. 第二節研究的重要性 1.可使研究者更瞭解 WHOQOL-BREF 問卷在範疇及題目的心理計量特質，方便未來研究使用時之選擇參考。 2.可利用問卷的特質來更瞭解 65 歲以上社區老人的生活品質，檢驗老人對 WHOQOL-BREF 問卷的適合性作為發展更適宜問卷的參考。. 第三節研究目的本研究目的為以 Rasch 模式分析 WHOQOL-BREF 問卷在測量老人生活品質的心理計量特質。應用 Rasch 分析來評估下列各項心理計量特質： (1) 單一向度 (unidimensionality) (2) 題目的難度 (item difficulty) (3) 題目的適中性 (targeting) (4) 區別性指標 (separation index) (5) 試題差別功能(differential item functioning) (6) 訊息功能 (information function) (7) 鑑別力 (discrimination) (8) 難度與能力整合 (integrated analysis)。. 4.

(16) 第四節研究問題與研究假設研究問題 (1) 從現代測量理論觀點，世界衛生組織生活品質問卷簡明版 (WHOQOL-BREF)是否有良好的心理計量特質? (2) 世界衛生組織生活品質問卷簡明版(WHOQOL-BREF)是否適用於社區老人生活品質的測量?. 研究假設 (1) WHOQOL-BREF 各範疇具單一向度的概念。 (2) WHOQOL-BREF 各範疇題目難度均勻分佈。 (3) WHOQOL-BREF 各範疇題目難度具適中性。 (4) WHOQOL-BREF 各範疇在不同族群沒有 DIF 存在。 (5) 訊息函數（information function）能準確提供各題目訊息量。 (6) 心理計量特質能反映出測量品質的好壞。 (7) IRT 分析可以更準確且全面性來檢驗問卷的心理計量特質。 (8) WHOQOL-BREF 適用於社區老人生活品質的測量。. 5.

(17) 第五節名詞界定古典測量理論：又稱為傳統測量理論或真實分數模式（true score model），這個理論是假設任何觀察的測驗分數是由真實分數及隨機誤差兩個成分組成的，亦即觀察分數=真實分數+隨機誤差（X＝T＋E）。項目反應理論：在心理計量理論中是較近期發展的一套理論，故又稱為現代測量理論。它是因應古典測量理論的一些限制，而發展出的一系列家族模式，可方便評估模式與資料間之適合度，並常用在教育及心理學上的評估上。項目反應理論主要的假設為一個人對於一個特定的題目答對（贊同）機率為人的能力與一個或以上的題目參數的聯合函數。反應機率的表現是以題目特徵曲線作為潛在特質的函數。 Rasch 分析：為項目反應理論中的一種。心理計量特質：統計上評估問卷適合度的方法，如信度、效度及內部一致性。效度：研究工具能測到研究者想要測量概念之程度。建構效度：評估測量工具能否符合研究者所感興趣理論的假設。信度：測量工具中顯出變項誤差的一致性。：評估測量工具能否區別出特質間的差異。區別性指標（Separation index）試題差別功能（Differential item functioning）：用於決定在不同族群的受測者中測量值是否準確地測量相同的概念。. 6.

(18) 第二章文獻查證第一節老人的特性由於公共衛生及醫療介入，平均餘命的延長使老年人口增加，台灣在 1997 年時 65 歲以上老年人口已超過總人口的 7%，根據台灣行政院衛生署公佈民國 93 年 65 歲以上的老年人口約占總人口的 9.48%22。老年人口的增加使老人的議題愈來愈受到關注 13。因老化所造成身體上功能的缺陷及慢性疾病常常影響老人的健康，這些退化症狀及慢性疾病成了老年人口中常見的問題。疾病或治療深深地會影響老人的健康，在現今重視病患自我感受（patient reported outcome, PRO）的醫療模式中，常利用問卷來評估病患全面性的健康。. 第二節老人生活品質研究當應用一般性問卷在老人時必須考慮測量方面的幾個問題. 13. 。首. 先，老人填寫問卷相較於年輕人負擔增加許多，因為老人身體的虛弱、文盲或認知缺陷的比例較高。第二，生活品質測量中的題目及範疇需要考慮到老人認為重要的部分，例如：健康服務的可近性及環境的安全 23。第三，假如直接使用而沒有加以修改問卷，生活品質測量的地板值（floor value）在老人可能是較常見的. 24. ，例如：許多老人比較沒有機會從事休. 閒活動或四處行動的能力比較差。地板值會降低區辨有病及健康人之間不同的能力及降低偵測不同時間或健康介入後生活品質改變的能力 25。生活品質是一個廣泛且多範疇的概念，根據世界衛生組織所定義生活品質是「生活品質是指個人在所生活的文化價值體系中，對於自己的目標、期望、標準、關心等方面的感受程度，其中包括一個人在生理健康、心理狀態、獨立程度、社會關係、個人信念以及環境六大方面」26，但世界衛生組織在實地研究之後提出生活品質至少應包含生理，心理及 7.

(19) 社會等範疇 27。隨著平均餘命的增加，人們晚年的健康愈來愈受到重視。疾病或治療會影響老人的健康，生活品質的測量結果可以協助建構老人經歷疾病或治療後全面性的健康剖析，藉此可以幫助醫療政策的制定以改善老人的生活品質. 28. 。生活品質問卷常見的如由世界衛生組織所發展. 的 WHOQOL-BREF 問卷及由 QualityMetric 公司所發展的 Short Form-36。在各地老年人口的精神疾病中，以憂鬱症的盛行率最高，其次為認知缺陷。因此，有研究利用 WHOQOL-BREF 來測量憂鬱症老人的生活品質並驗證 WHOQOL-BREF 問卷，且探討生活品質與臨床及社會人口學因子的相關性。結果發現憂鬱症愈嚴重生活品質愈差，並且自覺生理症狀（self-report physical symptom）愈多者生活品質亦愈差。但是在共病症（diagnostic co-morbidity）與生活品質間並沒有顯著的關係存在 9。在台灣亦有學者利用 SF-36 建立在都市，鄉村及離島地區老人生活品質的參考基準且針對三個區域加以比較，並且探討人口學變項與生活品質之間的關係。研究結果發現在大多數的範疇中，都市老人的生活品質較鄉村及離島地區老人顯著的比較好。離島地區老人在活力及心理健康上是最好，反之，鄉村老人的生活品質是最差的，尤其是鄉村老人中的女性。在一些其他的特徵上則顯示慢性疾病愈多者生活品質愈差，且需要看護者及最近三個月內有住院的老人生活品質都較差 29。. 8.

(20) 第三節心理計量特質的測量 — 由古典到項目反應理論 30 一般的科學研究中常常需要測量一些變項，但並不是每一個特質的測量都像身高、體重等等可以利用工具明確的量出來。常常研究者感興趣的特質是無法直接測量得到，例如：英文能力、憂鬱的程度及生活品質等等。當面臨這些無法直接測量得到的特質時，傳統上，研究者首先發展一組問題來評估一個概念。當由一群受測者完成問卷的填寫後，再將這些結果加總成一個總分的數值來代表該受測者在某特質上的表現，這種測量方式較接近古典測量理論。舉例來說，假設一個研究者發展評估一份飲食疾病的量表，量表得分愈高表示有飲食疾病的機會愈高，量表得分愈低表示愈沒有機會有飲食疾病。題目的選項通常為 5 分法：1（非常不同意），2（不同意），3（普通），4（同意），5（非常同意）。假想問卷中的幾個題目如下：非常不同意不同意普通. 同意. A. 非常同意. SD. D. N. SA. 1. 我規律地嘔吐來控制我的體重. 1. 2. 3. 4. 5. 2. 我會計算食物的熱量. 1. 2. 3. 4. 5. 3. 我用運動來燃燒脂肪. 1. 2. 3. 4. 5. 假如有一個人在等級評價量表(rating scale response)的反應分別為 2, 4, 5。利用傳統的計分方式這一個人在飲食疾病的量表中可以得到 11 分。之後，在隨後的統計分析中這個 11 分會被視為一個”測量值”。另一個人的反應為 5, 5, 1，他的分數也是 11 分。直接將分數等級加總有兩個假設如下：(1) 每一題目的貢獻都是相同的（constant information），並且(2) 每一個題目選項的測量都具有相同的間距（equal interval scale）上，就是假設選項間具有等距的特質。以下針對這兩個假設所面臨的問題進行說明。根據第一個假設表示所有的題目在評估這個概念的重要性上是相同的。以上述假想中三個不同性質的題目來討論，可發現假設此三題對於 9.

(21) 飲食疾病量表有相同的貢獻似乎是不明智的。例如，在第一題回答”非常同意”是較第三題回答” 非常同意”更可能有飲食疾病上的問題。另外，有爭議的地方則是第二題所涉及飲食議題部份是較少的。因此，當在已知的概念下題目代表不同的程度時，資料不應該用直接加總後的總分來分析，因為總分表示所有題目所貢獻的價值，但每題所貢獻價值儘管分數相同，但意義並不同。當然在第一題回答”非常同意”對於整體飲食疾病分數的貢獻是大於第二題回答”非常同意”的。第二個假設是題目的選項間間隔都是相同的（equal interval scale）。將等級評價量表(rating scale response)相加表示每一個選項的距離是相同的。我們以這虛構飲食疾病問卷的第一題為例。在心理學上，對於受測者這一題”不同意”及”非常不同意”選項的間距是較其他選項的間距接近的。同樣地，認為”同意”及”非常同意”可能是較接近的。因此，對於這一題在心理學上的每一個選項的距離可能如下。 1. 我規律地嘔吐來控制我的體重. SD D. N. A. SA. 這個間隔說明如何從回答”不同意(D)”越過”同意(A)”的反應是相當大的，在同意尺度(A 或 SA)或不同意尺度(D 或 SD)上難以捉摸的些微的變化並不容易區分。例如，對於一個並未規律地以嘔吐來控制體重的受測者而言(第一題)，他頗有可能選擇”不同意”或”非常不同意”中任一個，因為這兩個選項間心理學上的距離是相當近的，依此類推，此受測者是較難以回答”同意”或”非常同意” 中的任一個。在這個例子中，回答”同意” 與”不同意”之心理學上的距離是相當大的。此外，對於每一個題目在每個序位選項間距離的重要性可能不同。例如，對於一些題目在”同意”及”非常同意”可能有短的心理學上躍過的距離，但其他的就不ㄧ定。將題目各選項相加而得到的總分會忽略這個現. 10.

(22) 象，這所引起的另一個問題為當原始的總分被視為這個概念的測量值時會影響測量的精確度。因此，我們這 3 題飲食疾病量表中較精確的概念如以下的推論： 1. 我規律地嘔吐來控制我的體重. SD. D. N. 2. 我會計算食物的熱量. SD. DN. A SA. 3. 我用運動來燃燒脂肪. SD. DN. A. SA. A SA. 在傳統的方法中將這兩個假設強加在問卷的計分上，著實會影響測量的精確性。因應以上的問題心理計量學者提出現代測量理論以解決傳統方法上的限制。其中最具有代表性的應推項目反應理論（item responses theory），以下將針對項目反應理論進行介紹。. 第四節項目反應理論 31 項目反應理論（item response theory, IRT）因應古典測量理論的一些限制而發展。在目前的應用上，IRT 分為兩個發展的路線，一為 Rasch 系列，一為參數系列。IRT 模式是利用非線性函數整合受測者在一個特質中潛在能力（latent trait）與題目特質之間的關係. 32. 。在測量的過程中所. 觀察到題目的反應與潛在特質(或能力)之間的關係，可以題目特徵曲線（item characteristic curve）33 來表現。在 IRT 模式中，假設題目反應具有單一向度（unidimensionality）與局部獨立（local independence）的特性。單一向度表示題目間評估單一潛在的概念。局部獨立性表示在固定的能力下，題目間彼此不相關。 IRT 模式有不同的模式，其主要的區別是在潛在能力與題目反應機率間關係的函數類型不同。最簡單的 IRT 模式為 Rasch 模式 34，此模式原則上只考慮困難度參數，故又稱為一個參數的邏輯斯函數 (logit function)。Rasch 模式允許題目間有不同的難度，但是卻假設所有的題目. 11.

(23) 都有相同的鑑別力。假如 Rasch 模式符合 IRT 基本假設（單一向度與局部獨立性），其次觀察到的題目得分，可利用受測者的能力（theta）與題目難度的函數式來描述之。舉例來說，對於二項式的題目（dichotomous item），答對的機率利用數學模式形成邏輯斯的頻度曲線（logistic ogive）： Pni. 1 1 exp Bn - Di

(24). Pni 是隨機選第 n 位受測者回答第 i 題答對的機會。Bn 表示受測者的. 潛在特質，Di 為題目的難度。難度參數表示在特定的能力下，受測者答對（或贊同）這一題的機率為 0.5 時所對應在量尺上的值，此定義是根據題目為只有兩個可能的反應之二項式情況，在最初建構 IRT 模式時，就是以二項式題目作為一個基礎。二參數模式（two parameter IRT model）是在單參數模式之後發展的，不僅估計題目的難度也估計題目的鑑別力，二參數模式的反應機率為： Pni. 1 1 exp>-ai Bn - Di

(25) @. ai 為第 i 題的鑑別力參數。鑑別力參數相似於在傳統測量理論中題. 目與總分的相關性（item-total correlation）；這個參數的值愈高表示題目有較好的能力來區分鄰近能力的程度，並且這也可以由潛在能力（X 軸）或 theta 與特定回答的機率（Y 軸）間較陡的斜率來證明。而三參數模式是加入偽猜測（pseudo-guessing, c）參數來調整事實上個體可能因為運氣而使得分數高於期望值的情形。所以項目反應理論不僅提供一個數學的基礎來代替傳統的方法，並且當其他非心理學者努力地將他們的研究概念化成可操作的測量時，他們可以很容易地了解，但是實證調查需要有一個明確的理論架構作為基礎並據以檢驗找出適當模式整合，而不是任意找一個進階的模式來處理就可以了 30。 12.

(26) 訊息函數（information function）在 IRT 中訊息函數(information matrix)是一個重要的特點來評估測量的精確度，IRT 所提供的訊息函數（information function）在建構一份問卷或題目庫及比較問卷上是很有用的指標 4。IRT 的測量模式的訊息（information）是一個基本的特徵，不論是二分類選項（dichotomous response）或多個題目回答選項（polytomous item-response），它可被表現在二分類選項中以題目反應曲線（item response curve）或是在多個題目回答選項以類別反應曲線（category response curve），或是轉換成題目訊息曲線（item information curve）來表現受測者能力與其對題目反應之間的關係。以二分類選項的題目為例，可以寫出題 I T

(27). 2 目訊息曲線如下： Pi * T

(28) Pi T

(29) * 1 Pi T

(30)

(31). Pi T

(32) 為答對或贊同一個題目的條件機率，在一些二分類的 IRT 模式中. 可由參數估計值得到，且 Pi* T

(33) 這個術語代表在特定能力下題目反應曲線第一次微分的值。為了方便計算可以將公式改寫，在三參數模式中公式可以幫助研究者計算條件式題目訊息曲線（conditional item information curve）3, 35。 I θ

(34). ⎡ 2 1 Pi θ

(35) ⎤ ⎡ Pi θ

(36) ci

(37) 2 ⎤ ⎥ ⎢a i ⎥* ⎢ Pi θ

(38) ⎦ ⎣⎢ 1 ci

(39) 2 ⎦⎥ ⎣. 若偽猜測參數（c=0）如雙參數模式，則公式如下為 I T

(40) D i2 Pi T

(41) 1 Pi T

(42)

(43) ，並且在單參數模式中題目訊息函數為 I T

(44) Pi T

(45) * 1 Pi T

(46)

(47) 。訊息函數可以讓研究者瞭解每一個題目在連續的能力特質尺度的每一點所能提供的訊息，當訊息函數的數值愈高時表示題目在對於此能力下的人所能提供的訊息愈高，即能較準確的估計在此能力下的人。在本 13.

(48) 分析中藉由將每一個題目的訊息函數相加，來評估哪些題目所能提估的訊息最高，即評估哪些題目在評估老人的生活品質時，能夠估計的較準確。另外，在每個範疇中將在每一個能力間隔下的訊息函數相加，來探討每個範疇在哪一個能力區間下能夠提供較高的訊息，亦即提供較準確的估計 3, 35。. 第五節 Rasch 模式的家族 Rasch 模式的發展，Georg Rasch 佔了重要的地位。Georg Rasch （1901-1980）是一個丹麥的數學家，他同時也是個統計學家及心理計量學家，他最著名的成就是發展 Rasch 測量模式。在 1919 年，Rasch 開始在哥本哈根大學讀數學系，並於 1925 年完成碩士學歷，在 1930 年獲得博士學位。畢業後因為無法以數學家的身份找到工作，故在同年轉向去做統計學顧問 36。 Rasch 最常見的貢獻是在心理計量領域上，一開始他以 Poisson 分佈來建立學生考試時分數偏差的模式。他將模式視為一個 multiplicative Poisson model，之後他發展用於二項式題目（dichotomous items）的 Rasch 模式，並將此模式用在丹麥軍人的智力及成就測驗的回答資料探討。目前這個模式已經廣泛地用於評估教育及教育心理學的測量，尤其是在成就及認知的評估 36。 Rasch 模式公式如下： Pni. e Bn Di

(49) ,i 1,2,....,n 1 e Bn Di

(50). 從以上的數學式可推導出圖一的反應曲線。利用數學模式將人的能力與題目的難度放在同一個尺度上，使其間的關係可以相比較。從圖一中我們可以知道當人的能力與題目難度相同（ Bn. Di ）時，他答對這一題. 的機率為 0.5。當人的能力遠比題目難度低時，答對的機率就小。當能力 14.

(51) 遠比題目的難度高時，答對的機會就高。. Figure 1. The response curve. 37. Wright 等 37 利用圖二簡單的描繪出 Rasch 模式背後的心理計量理論。圖二的跨欄表示題目難度，如果人的能力與題目的難度相同（ Bn Di. 0 ），那麼該生答對這一題的機會為 0.5，即該生有一半的機. 會答對此題目。圖中的跨欄高手其能力遠比此題目的難度高（ Bn Di ! 0 ），那麼越過此跨欄的機會就增加，即跳過這個跨欄是容易的。但是若是人的能力遠比題目的難度低（ Bn Di 0 ），就難以越過此跨欄。. Figure 2 Jumper stronger than fence clears. Jumper weaker than fence tumbles. 15. 37.

(52) 二項式模式（dichotomous model）二項式模式（dichotomous model）為 Rasch 模式家族中最簡單的成員。據此我們可在已知人的能力及題目的難度之下，預測二項式結果（是 /否）的條件機率。假如回答”是”編碼為”1”，回答”否”編碼為”0”，該模式是以答”是”的機率作為在第 n 個人的能力與第 i 個題目難度差異大小的函數。此基礎為假設題目難度及人的能力這兩個測量值間的差異是會影響人在回答特定題目時答”是”的機率，這個基本的邏輯是容易理解的，在較簡單的題目中所有的人有較高的機會答”是”，而在較難的題目中則有較低的機會答”是”。當一群合適的樣本填寫一份問卷時，測量的啟動點是開始於計算每一個人（答”是”的題目個數除以總題目個數）及每一個題目（回答”是” 的人的個數除以所有人的個數）正確的百分比。這些原始分數相加的序位得分，在估計人的能力及題目難度測量值時是必需且充分的 38, 39。在估計 Bn（第 n 個人的能力估計值）的第一個步驟是轉換原始得分的百分比成答”是”的勝算，勝算的計算為以答”是”的百分比除上答”否” 的百分比。舉例來說，原始分數有 40%回答”是”（p）除以回答”否”（1-p）的百分比，獲得 40/60 的比值，此比值我們稱之為勝算。之後，取這個勝算的自然對數（ln 40/60=-0.4）就是人能力的估計值。估計題目的難度 i 個題目的難度）也是相同的計算過程，人們在回答某一題目時答” D（第 i 是”百分比除以答”否”百分比並且將這比值取自然對數就是題目難度的估計值。這些題目難度（Di）與人的能力（Bn）的估計值被放在一個 logit 的量尺上。平均難度的 logit 設為在 0，正的 logit 表示高於平均機率，而負的 logit 表示低於平均機率。Rasch 模式的計算經常開始於忽略人的估計值，先計算題目的估計值，之後使用第一輪得到的題目估計值來計算人 16.

(53) 的能力，以獲得第一輪人的估計值。這些估計值彼此間反覆的比對，以獲得一組穩定且內部一致性高的題目難度與受測者能力的參數估計值，所以 Bn - Di 的值能表現出受測者答”是”的 Rasch 機率值。這個重覆比對的過程稱為收斂(converge)。當我們已經估計出受測者能力及題目難度，受測者回答”是”的機會可利用以下數學式表示： Pni x 1

(54). f Bn -Di

(55). (1). 這裡的 Pni 是機率值，x 是一個已知的回答，並且 1 表示回答”是”。因此這個方程式所指的情況為，在一個已知的題目(i)下，第 n 個人回答”是”(x=1) 的機率( Pni )是人能力(Bn)及題目難度(Di)的差異的函數。希臘符號在統計上常用來表示估計值的參數，公式如下： π ni x ni. 1

(56). f β n -δi

(57). (2). 這裡的 S ni (pi)代表機率， E (beta)表示人的能力，並且 G 代表題目的難度。已知 Bn 及 Di 之後，我們可以方程式(1)得到下列的關係式： Pni x ni. Pni x ni. 1|Bn ,Di

(58). e Bn -Di

(59) 1 e Bn -Di

(60). (3). 1 | B n , D i

(61) 是在已知人的能力及題目難度下，第 n 個人回答第 i 題答”. 是”(x=1)的機率。. Rating Scale Model Rating scale model 是 dichotomous model 的延伸，當題目有超過 2 個以上的反應選項（如 Likert scale），例如，一個題目有五個反應的選項（0=相當不同意，1=不同意，2=普通，3=同意，4=相當同意）。這模式中有 4 個閾值（threshold），閾值的定義為一個人有 50/50 的機會選擇一個的選項越過另一個選項，每一個題目之閾值(k)對應一難度估計值(F)，例如，第一個閾值設定為選擇選項”1(不同意)”來代替選項”0(非常不同意)”的機率，可用以下公式來估計： 17.

(62) Pnil x 1|Bn ,Di ,F1

(63). e Bn->Di F1 @

(64) 1 e Bn->Di F1 @

(65). (5). Pnil 是第 n 個人在第 i 題越過非常不同意(category 0) 而選擇不同意. （category 1)的機率。在這個公式中，F1 是第一閾值的難度，在 rating scale model 中，這個閾值難度( F1 )的估計值在整個範疇的題目中只估計一次。閾值難度( F1 ）與題目難度( D i )相加（如 D i F1 ）來表示第 i 題於第一個閾值的難度。假設 B n - D i F1

(66) 與 B n - D i - F1 有相同的數值，這樣的方式更能幫助我們對於 Rasch model 的了解。例如選擇同意(category 2)越過不同意(category 1)設定如下： Pni 2 x. 2|B n ,Di ,F2

(67). e Bn-Di -F2

(68) 1 e Bn-Di -F2

(69). (6). 這裡的 B n 是人的能力， D i 是整個題目的難度，以及 F2 是第 2 個閾值的難度，且這個閾值難度是由所有題目所估計。Rating scale model 的通式是任一個人在任一個題目選擇任一個已知選項的機率，為第 n 人的能力( B n ) 第 i 題的難度( D i )及第 k 個閾值難度( Fk )的函數，亦即. Pnik. e Bn-Di-Fk

(70) 1 e Bn-Di-Fk

(71). (7). 然而，假如將這些機率轉換成勝算，参數分離也可以利用 rating scale model 來證實： ⎛ P ln⎜⎜ nik ⎝ 1-Pnik. ⎞ ⎟⎟ ⎠. (8). Bn -Di -Fk. 一般在統計上常常利用希臘字母來表示母群體參數的估計，公式表示如下： ⎛ π ln⎜⎜ nik ⎝ 1-π nik. ⎞ ⎟⎟ ⎠. (9). β n -δi -τ k. 這裡的 E n 是人的能力， G i 是整個題目的難度，以及 W k 是第 k 個閾值的難度，且這個閾值難度是由所有題目所估計。 18.

(72) 對於一組 rating scale item 的閾值可以用題目機率曲線的交叉點來描述每個反應選項。圖三中的 F1 表示選擇從 category 0 越過 category 1 的閾值，F2 表示選擇從 category 1 越過 category 2 的閾值，F3 表示選擇從 category 2 越過 category 3 的閾值，F4 表示選擇從 category 3 越過 category4 的閾值。 x 軸表示人的能力( B n )及題目難度( D i )之間的差異。Y 軸表示反應的機率值。. F1. F2. F3. F4. Figure 3. Category probability curve for a rating scale item with three thresholds30. Partial Credit Model Partial credit model 可以視為 rating scale model 的一種，但其不會強迫在一組題目間閾值估計值都是固定的，閾值估計值在每一個題目都是不相同的。當用 rating scale model 來處理 rating scale 的資料，它允許每一個題目有它本身的閾值估計值。反之，rating scale model 會將一組預值估計值套用於整組題目，partial credit model 對每一個題目(i)會有其自己 19.

(73) 的(k)個閾值估計值。 ⎛ P ln⎜⎜ nik ⎝ 1 - Pnik. ⎞ ⎟⎟ ⎠. (10). B n - D ik. 因此，從方程式 8 以 Dik 來取代 Di FK

(74) ，表示在 partial credit model 中，每一組閾值估計值對於個別的題目都是唯一的。在本文中是利用 Rasch 系列中的 Partial credit model 來進行分析。. 第六節 Rasch 模式分析（1）單一向度假設檢定 8, 30, 40 單一向度是在評估一組題目所測量的概念是否相同。Rasch model 是利用嚴謹的數學方程式將所有題目難度與人能力之間的關係經由一連續的等距尺度來結合起來，所以不可能所有的題目及所有人都會與模式完美的符合。適合度指標的估計是計算每一個人(Bn)在每一題(Di)的反應殘差，即真實的反應( x ni )與 Rasch 模式所估計的期望值( E ni )差多少？ y ni. x ni - E ni. 殘差的分佈常為一個 z 或 t 分佈，當要檢查適合度統計量時常以平均值均方（mean square fit statistic）或標準化的適合度指標（standard fit staitsic）表示。另外，這兩種適合度指標可進ㄧ步被分為(a)較強調於非期望的反應與受測者及題目測量間的差異（outfit statistic），(b)較強調在非期望的反應在受測者或題目測量附近（infit statistic）。. 1.未加權的均方適合統計量---Outfit MNSQ Outfit statistic 是考慮受測者的能力與題目難度關係後，標準化殘差的平方取平均值。這個平均值是沒有加權的，不會被其他的訊息所影響。這個指標可以提供非期望的反應對受測者及題目測量的相對的影響。 20.

(75) Z. x ni -Eni

(76) 2. 2 ni. σ ni2. outfit. ⎡ x ni -E ni

(77) 2 ⎤ average ⎢ ⎥ 2 ⎢⎣ σ ni ⎥⎦. ΣZ ni2 N. X 為觀察値，E 為期望值， V 2 為期望值的變異數，N 為觀察値的數目。期望值為 1，Outfit MNSQ 範圍介於 0 至無限大。Outfit MNSQ 值若等於 1，則表示題目具有局部獨立的特性，題目與資料適合。 Outfit 是建立在標準化殘差平方和（sum of squared standardized residuals）的基礎所發展的指標，假設標準化殘差為常態分佈（a unit normal distribution），故均方和逼近於卡方分佈（χ² distribution）。 Outfit MNSQ 有高的敏感度用來測量受測者在填達此題時，題目是否會太簡單或太困難。若 Outfit MNSQ 逼近 0，則表示此題目在測量上有過度預期的效果。若大於 1.3，則表示此題目與資料不合適 40-42. ，亦有許多文章建議以大於 1.4 作為判別標準 43, 44。. 2.加權的均方適合統計量---Infit MNSQ Infit 是 Outfit 經訊息加權後之形式（information-wieghted form），此加權過程將減低較偏離主要研究對象能力所在範圍部份所造成的影響， Wni 為經由殘差本身變異數加權的權重，則 Infit 數學公式為： infit. ∑ Z * W

(78) ∑W 2 ni. ni. ni. 若 Infit MNSQ 值逼近於 1，則表示題目具有局部獨立的特性，亦是題目與資料適合。Infit MNSQ 若接近 0，則表示此題目在測量上有過度預期的效果。因為 Rasch 模式為一機率理論，所以容許與期望值之間差異的存在，在大部分的研究中大都容許 30%的差異性存在，所以若是 infit 或是 outfit MNSQ 大於 1.3，則表示此題目與範 21.

(79) 疇不合適 40-42，亦有許多文章中建議以 1.4 作為判別依據 43, 44。一般而言，使用 Rasch 分析可以得到四種適合度指標，常用的為平均值均方（mean square infit statistic），因 infit statistic 較 outfit statistic 敏感，且不易受極端值的影響。較少是用 misfit t statistic 可能是因 t 分佈是除以標準誤，當樣本數愈大時，標準誤就愈小，t statistic 很有可能會大於 2 45。. （2）題目鑑別力(item discrimination) Rasch 模式中題目的鑑別力在每一個題目間都是固定的。這樣的特性支持相加性及概念的穩定性。在 Rasch 模式的斜率是所有題目的平均鑑別力。因為區辨參數是非線性的，所以並不是個別斜率的平均值。當 Rasch 模式是以邏輯斯（logits）為公式，在數學上將平均的斜率設為 1。在實際估計題目的應用上，首先計算及固定（anchoring）Rasch 估計值之後再計算鑑別力。這是一個事後分析，針對每一個題目估計鑑別參數( a i )。此估計模式如下： ⎛ P log⎜⎜ nik ⎝ 1-Pnik. ⎞ ⎟⎟ ⎠. ai Bn -Di -Fk

(80). a i 可能的數值範圍為-∞到+∞，數值愈趨近+∞表示鑑別力愈佳。Rasch. 估計值會強迫平均的題目鑑別力接近 1。結果鑑別力的估計值為 1 與 Rasch 模式的期望一致。數值若大於 1 表示鑑別力佳(over-discrimination)，並且數值小於 1 表示鑑別力差(under-discrimination)。鑑別力佳被認為在原始分數及 IRT 分析的分數是有益的。高的鑑別力經常與低的 MNSQ 數值相一致，低的鑑別力則與高的 MNSQ 一致 46。. （3）受測者區別性分析 Rasch 測量模式提供指標來幫助研究者了解在一個連續的尺度上題 22.

(81) 目是否夠分散並且人的能力是否區分得開。Rasch 能提供用以評估信度的指標 person reliability index。 Person reliability index 是估計測量相同概念的其他題目間，人能力相對位置的重覆性。Person reliability 會受能力的估計值誤差的影響及 targeted item 的個數所影響，即當題目估計值的誤差愈小並且題目愈多時，person reliability 就愈高，此概念與傳統方法中用以評估信度的 Cronbach’s alpha 相似。這是觀察的反應變異重複的百分比。 Rp. SA p2. SD p2 -SE p2. SD p2. SD p2. 分母（ SD p2 ）代表人在感興趣的測量上的所有變動。分子（ SAp2 ）代表所有的變動中重複的部份，用 Rasch 模式可重複的量稱為調整後人的變異數（adjusted person variability， SAp2 ），這個 SAp2 可以用總變異減去誤差變異數( SD p2 -SE p2. SAp2 )而得。這個重複的部份除以人的總變異可以獲得. 人的信度估計值，這個值( R p )的範圍為 0~1。在測量的變項中，估計人的分散程度的另一個指標為 person separation index ( G p )，這個估計值為調整後人的標準差( SA p )除以平均的測量誤差( SE p )，這個測量誤差被定義為由 Rasch 模式所沒有辦法解釋的部份 30。 Gp. SA p SE p. 不同於人分散的信度(person separation reliability)，人分散的指標（person separation index）並不會固定在 0 跟 1 之間，因此對於比較幾個不同的能力分層中可能是比較有用的。例如，為了要在統計上將人區分成不同的能力分層，使用 3 個標準差來定義每一個分層，利用這個公式可以指出在樣本中可區分出不同的能力分層。. 23.

(82) （4）試題差別功能分析（differential item functioning, DIF）比較感興趣的不同族群（例如：男/女，有工作/沒有工作，已婚/離婚/未婚）間題目的估計值，來檢查在不同的族群間題目是否有顯著不同的重要性，這稱為試題差別功能（differential item functioning, DIF）。藉由比較兩個或以上樣本的題目特質，評估 DIF 所要呈現的是題目難度是否具有不變性。這個評估過程中，需要分開估計每一個樣本的題目難度，並且以不同樣本題目的測量值來畫散佈圖 30。在本分析中我們要比較性別及年齡是否有 DIF 存在。在年齡方面，以 75 歲作為切點，大於等於 75 歲的老人分為老老人組，小於 75 歲為年輕老人組。以性別為例，要評估 WHOQOL-BREF 的題目在新社鄉社區老人中，題目的難度會不會因為性別的不同而不同。所以需要以性別分群分別估計男性與女性題目的難度。以男性及女性題目難度畫散佈圖，若是題目的難度具有的不變性，此兩組人相對的難度估計值將會落在散佈圖中的 45 度角附近。本研究中用 0.5-logit 作為評估的標準 45 以 45 度角的對角線往上下平移 0.5-logit，若是兩組人相對的難度估計值落在此範圍外，就表示此題目有 DIF。. 第七節心理計量特質（1）單一向度（unidimensionality）：單一向度是在評估一組題目所測量的概念是否相同。. （2）題目難度與人的能力（item difficulty and person ability）：Rasch模式是一個很容易被接受工具來幫助我們來建構一個客觀，可相加的量尺。這個模式可以將原始分數轉換成抽象的，等間距的量尺（equal-interval scale）。在Rasch模式中，利用logit scale來測量受測者的能力及題目難度。將機率以logit轉換，大部分的資料會落到 24.

(83) -5~5之間。受測者能力是以logit scale來測量，題目的難度也是以logit scale來測量。固定題目的難度後，在能力量尺相差一個單位，則相當於在θ量尺上的成功（贊同）的勝算相差約2.72倍。在固定人的能力，在題目難度上相差一個單位，則相當於在成功（贊同）的勝算相差約2.72倍30。 Probability p 0.00 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00. Odds p/(1-p) 0.00 0.11 0.25 0.43 0.67 1.00 1.50 2.33 4.00 9.00 99999.00. Logit ln(p/(1-p)) -5.00 -0.95 -0.60 -0.37 -0.18 0.00 0.18 0.37 0.60 0.95 5.00. （3）難度的重疊性（item redundancy）：在測量尺度上題目難度差距小於平均題目難度的兩個測量標準誤。. （4）難度的順序（item hierarchy）：Hierarchy表示用題目難度層級來排序的概念，如從最簡單到最難的題目。例如：爬一層樓梯是比爬幾層樓梯簡單的或是穿衣服是比做粗重的家事簡單。在Rasch分析中，人的能力及題目難度的單位都是以logit表示，一個人做一項特定工作的勝算。logit愈大表示題目愈難。一個人能夠做一個特定工作的勝算是這個人能夠做這一項工作的機率比上這個人無法做這個工作的機率。當一份問卷在發展時，若有使用概念化等級的題目，就可以用Rasch分析所產生的實證的題目順序與理論的順序相比較，並且結果可以被視為建構效度（construct validity）的證實8, 30。 25.

(84) （5）試題差別功能（differential item functioning）：用於決定在不同次族群（subgroup）的受測者中測量值是否準確地測量相同的概念。. 第八節現代測量理論在生活品質的應用項目反應理論是在心理計量的方法下提供一個較好的選擇可用於設計合適的問卷、考卷及調查，並且也可用來作題目分析。項目反應理論較傳統測量理論有的優點如下：(a) 題目參數與潛在能力間是獨立的，(b) 模式的表現是從觀察題目反應層級，而不是從測驗分數反應（加總後的分數）的層級，(c) 經由 IRT 所提供的訊息可以用來評估每一個題目對於所測量概念的貢獻，(d)可用在偵測不同次族群（subgroups）間的試題差別功能（differential item functioning, DIF）或題目偏差，(e) 可用來產生簡短，複本及特定形式的問卷，並且(f) 儘管研究對象回答不同的問卷也可以將研究對象的分數等化（equating）35。因應以上的優點項目反應理論現在已被廣泛地用在主觀的健康測量上。Grratt 等利用 Rasch 分析 Roland Disability Questionnaire (RDQ)題目是否都是測量相同的概念（單一向度）及題目的分散性如何。結果發現大部分的題目都符合單一向度的假設，並且發現 RDQ 題目的難度在 0 附近，有許多題目都是重複的，故作者建議日後若要修改問卷時可以刪除掉不符合單一向度的題目及重複性的題目，使問卷更簡短且精確的測量人的能力 40。 Wang 等利用多向度 Rasch 模式調整 WHOQOL-BREF 各範疇的相關性分析台灣國民健康局之國民健康調查資料庫，來評估建構效度並且改善問卷的信度及估計的精確度 47。DIF 分析被用來評估模式-資料的適合度，在不同性別、年齡分層及教育程度間題目難度是否會有顯著的不同，當不同分群中題目難度的估計值最大差距大於 0.5 時表示有 DIF。根據這 26.

(85) 個標準刪除了 7 題，其中包括：生理範疇 1 題、社會範疇 1 題以及環境範疇 5 題，剩下 19 題。發現 19-題的 WHOQOL-BREF 較原本的設計能較簡潔地估計受測者潛在能力。多向度的方法不僅能夠較精確的評估範疇間的相關性，並且也較單一向度的方法有較高的信度 47。. 27.

(86) 第三章研究方法第一節研究設計本研究為一橫斷式研究，主要是以社區老人為研究對象，以訪視的方式收集老人基本資料及 WHOQOL-BREF 生活品質問卷進行兩種測量方法的比較，基本架構如下：資料來源： 2001 年”新社鄉老人”生活品質資料（WHOQOL-BREF）訪視資料. Rasch 分析之心理計量特質： (1) 單一向度（unidimensionality） (2) 題目的難度（item difficulty） (3) 題目適中性（targeting） (4) 訊息函數功能（information function） (5) 鑑別力分析（discriminat analysis） (6) 試題差別功能（differential item functioning, DIF） (7) 整合性分析（integrated analysis）. 統計分析、書面資料整合、論文撰寫. 28.

(87) 第二節研究對象本研究對象為 65 歲以上之新社鄉老人。新社鄉位於台灣中部的台中縣，是一個有高比例老人的地區，所以是一個適合進行老人社區介入的地方。在 2001 年，新社鄉居民中 65 歲以上老人的比例為 11.9%，相較於全台灣的 8.6%是較高的。在新社鄉 13 個村里中篩選 6 個老人人口比例最高的村里。在台灣所有的人都需要登記在當地的戶政事務所，戶政登記程序可用來核對並提供人口學資訊，並提供官方用來識別個人的狀態及親戚關係。因此，研究開始時在新社鄉戶政事務所登記的基礎上得知 6 個村里中 2072 個 65 歲以上老人的姓名、生日、性別和教育程度。在兩週的訪視期間，1200 個合適的對象同意參加研究。沒有參加的 872 位研究對象，24 位已死亡，59 位住院或臥病在床，252 位搬到其他地方，323 位在訪視期間不在家及 214 位拒絕訪視。此外，相較於沒有回應的對象，有回應的對象在性別及教育程度有相似的分佈，但有回應的較沒有回應的年輕且有統計的差異 13。. 第三節研究工具的擬定 WHOQOL-BREF 台灣簡明版「世界衛生組織生活品質–簡明版問卷：台灣版」WHOQOL-BREF 台灣版問卷 48 共由 28 題目所組成，其中有 2 題是屬於測量整體生活品質及ㄧ般健康的題目。其餘 26 題主要分為四個範疇: 生理健康範疇（physical health domain）、心理範疇（psychological Domain）、社會關係範疇（social relationships domain）以及環境範疇（environment domain），而在問卷計分方面，問卷中所有題目皆是採用五點式量尺計分。本研究在分析及結果的呈現上，所有反向題目皆經轉向，分數愈高，代表患者的生活品質愈好。範疇分數的計算為範疇中所有題目的平均值乘上 4，範 29.

(88) 疇的得分範圍為 4~20 分 13。. 第四節資料收集過程本研究從當地的戶政資料篩選 65 歲的老人，訪視前寄發明信片給老人告知本研究目的及訪視的時間。受過訓練的訪員進行以結構化的問卷在老人家中進行訪視並收集相關的資料。藉由參與 4 個小時的訓練而標準化訪視的過程及訪視的態度。在開始訪視每一個老人時首先問他/她是否願意自填，假如不願意則有訪員進行個人訪視。結果只有 86 位老人自填 WHOQOL-BREF 問卷。不管是自填或是個人訪視都會計時每一次訪視的長度 13。另外，也收集年齡，性別，教育程度，慢性共病症，憂鬱及認知狀態等資訊。利用 24 個可能影響老人較大的慢性病表格來評供老人共病症的情形。利用 15 題老人憂鬱量表(15-item Geriatric Depression)簡短型來評估憂鬱症的情形，GDS 分數愈高表示有憂鬱的情形。利用簡易智能評估量表(Mini-Mental State Examination, MMSE)來評估老人的認知情形。這份問卷常見在流行病學研究中著重於評估研究對象在方向感、記錄事項、訊息回想、注意力、算數、語言及視覺空間架構的認知情形。在流行病學委託的研究(Epidemiologic Catchment Area Studies)中，MMSE 計分分類的慣例為 0-17 分表示認知缺陷 49。. 30.

(89) 第五節資料統計與分析本研究利用 Rasch 分析評估 WHOQOL-BREF 是否具有下列心理計量特質： (1) 單一向度(unidimensionality) (2) 題目難度(item difficulty) (3) 題目適中性(targeting) (4) 訊息函數功能(information function) (5) 鑑別力分析(discriminat analysis) (6) 區別性指標(person separation index) (7) 試題差別功能 (differential item functioning, DIF) (8) 整合性分析(integrated analysis) 分別詳述於後：. (1) 單一向度（unidimensionality）在同一個範疇中的題目應該要評估一個單一的方向或概念。例如，我們如果想要測量生理健康，這個範疇的題目就不應該包含測量心理的題目。假如一個範疇中包含許多不同概念的題目，所得分數的解釋將是困難的。在 Rasch 分析中，題目若缺少單一向度會反應在適合度檢定（misfit statistic）50，即當同一範疇的題目間所測量的並非同一個概念時，misfit statistic 指標將會大於判別標準 51，本研究中評估單一向度採用 infit 統計量，並以 1.4 作為判別標準。適合度的評估與卡方分析有相同的概念都是比較觀察值與預測值之間的關係。. (2) 題目的難度（item difficulty）分佈利用 Rasch 模式將人能力及題目難度放在同一個尺度上。當 logit 愈大，表示題目愈難；logit 愈小，表示愈簡單。題目難度範圍愈廣愈好， 31.

(90) 並且要準確的估計不同能力下的人需要有均勻分佈的題目難度，即盡量減少在測量尺度上題目分佈的間隔（gap）及重疊性（redundancy）40, 52。在評估範疇中的題目有無間隔時，我們是利用題目分佈的圖示來看每個範疇中兩個題目的間距若大於一個 logit，即表示有間隔存在。判別一組 ). 題目間難度的重疊性時，可利用範疇平均難度（ E ）的 2 個題目測量值的標準誤（2 standard error of measurement）8。先依題目的難度先排序，再求毗鄰題目間難度的差異，若是難度差異值小於 2 個測量標準誤，表示題目有重疊性存在。. (3) 題目適中性（targeting） Targeting 指標用來評估題目難度與研究對象能力的適中性。在題目的校準上，在不同題目間平均難度及 rating scale categories 都固定在 0，因此，範疇的平均得分若為 0，表示這些題目的難度對研究對象是適中的。當平均範疇得分離 0 越遠，表示這一組題目是 mis-targeted。當範疇平均分數為 0.5 時，表示 slight mis-targeted。範疇平均分數為 1.0 時，表示 substantial mis-targeted。範疇平均分數若為’正’表示對於這個樣本這一組題目是簡單的，範疇平均分數若為’負’表示對於這個樣本這一組題目是困難的 8。. (4)訊息函數功能（information function）訊息函數可以讓研究者瞭解每一個題目在連續的能力特質尺度的每一點所能提供的訊息，當訊息函數的數值愈高時表示題目在對於此能力下的人所能提供的訊息愈高，即能較準確的估計在此能力下的人。在本分析中藉由將每一個題目的訊息函數相加，來評估哪些題目所能提估的訊息最高，即評估哪些題目在評估老人的生活品質時，能夠估計的最準確。另外，在每個範疇中將在每一個能力間隔下的訊息函數相加，來探 32.

(91) 討這些題目在哪一個能力區間下能夠提供較高的訊息，即能較準確估計 35. 。. (5)鑑別力分析（discriminant analysis）鑑別力是用於測定該題目是否能有效地將不同能力的人區別出來。一般用 Rasch 系列的結果比較少在看鑑別力，因為在 Rasch 模式中會將此參數預測為 1，估計完所有的参數之後再來估計鑑別力，是屬於事後估計所得的。如果小於 1 表示題目鑑別能力的程度差；如果大於 1 表示題目鑑別能力的程度佳 46。. (6)區別性指標(person separation index) Rasch 分析產生一個 person separation 指標在每一個範疇中來區別出人的分層（能力明顯不同的人）。人的區別性指標（person separation index, G），公式如下： Separation index (G). adjusted person variability error variability. G 指標愈大，愈能在測量中區別出人的能力。Person separation index 為 1.5 代表為可接受的區辨能力，2.0 代表為良好的區辨能力，3.0 代表非常好的區辨能力。在樣本中區別明顯的分層可用以下公式計算 51：分層個數. 4G 1

(92) 3. 假如得到的數值為 1.5 表示樣本中可以分為兩層（高、低），數值為 2.00 表示可以分為三層（高、中、低）。題目的區別性指標(item separation index)與人的區別性指標概念同。. 33.