以現代測量理論探討慢性阻塞性肺疾病患者生活品質之評估

全文

(1)中國醫藥大學碩士論文編號：IEH-1706 以現代測量理論探討慢性阻塞性肺疾病患者生活品質之評估 Analyzing quality of life assessment in patients with COPD by applying modern measurement theory. 所別：環境醫學研究所指導教授：梁文敏學生：吳泰進 Wu Tai-Chin 學號：9465006. 中. 華. 民. 國. 九. 十. 六. 年. 六. 月.

(2) 致謝「天下無不散的宴席」，當論文完成那刻，也代表著歲月的逝去，代表著我即將要離開中國醫藥大學環境醫學研究所這個熟悉的地方，感傷之情不自覺的湧上心頭。在過去兩年的時間裡，首先感謝指導教授梁文敏老師的照顧與提攜，想當初我剛進研究所的時候，對很多事情都還懵懂無知，兩年來，老師所教給我的，不僅僅是學業上的知識，還包含許多做人的道理與處事的應對進退，因為有老師的教導，我才能夠有今天這一點的本事，感謝老師。辦公室裡的夥伴，昶弼學長、宏偉學長、懿諄學姐、曜慶學長、雅琳姐、麗菁姐、玉君姐、雅慧姐、哲瑋、欣楠與冠樺，感謝你們這兩年來對我這個任性孩子的包容與照顧，多虧有了你們，我這兩年才能平順的走過。尤其是懿諄學姐，在我論文進行的過程中，不斷的給我提供協助，督促著我要加緊努力，如果沒有妳，我想，我的論文不會這麼順利的完成，感謝妳，小諄。環醫所的師長們，宋鴻樟老師、吳芳鴦老師、郭憲文老師、江舟峰老師、郭錦堂老師、李卓倫老師、陳秋瑩老師、宋玲娜老師、吳錦景老師、李郁芬老師、何文照老師、周子傑老師，感謝你們對我的教導，在我學習生涯中，因為有你們的教導，我才會慢慢有所學習成長。環醫所的同學，姿明、孟宏、慶輿、永政、建安、子仲、倫愷、祖恩、瑜伶、采容、敏慧，感謝你們陪我走過這段日子，因為有你們的陪伴，所以在學習的旅程上其實我並不孤單。生統中心的保萱學長、懷芝學姐、麗娜學姐，環醫所的學弟妹家玉、佩蓉、冠婷、佳欣、俊傑、伊婷，還有身邊支持我的許多朋友佳盈學姐、凱婷學姐、晉維、羽伶、晏宗、書華、俊中、心怡等人，謝謝你們。感謝在論文口試時候，台北醫學大學傷害防治學研究所的林茂榮老師以及中國醫藥大學中國醫藥研究所李采娟老師給我的批評與指導，因為有你們的指導，使我的論文可以做的更好，謝謝你們。該感謝的人實在太多了，如果有疏忽遺漏的，不是因為我不感謝你們，實在是因為我受到太多人的幫助了，請你們再包容我一次。在此對我所相知相遇的各位獻上無限的感激，感謝你們為我付出的一切。最後，我要感謝我親愛的家人，父親、母親與姊姊，在我的學習過程中，一直給我鼓勵，提供我勇往直前的動力，無論是經濟還是情感，總是無條件的支持我，讓我可以沒有後顧之憂，全心全意的用心在課業與論文上，謝謝你們，我親愛的家人。泰進. 謹誌於中國醫藥大學中華民國九十六年六月. i.

(3) 摘要目的：利用現代測量理論來評估世界衛生組織生活品質問卷（World Health Organization Quality of Life-Bref, WHOQOL-BREF）與聖喬治呼吸問卷（St. George's Respiratory Questionnaire, SGRQ）兩份問卷應用在慢性阻塞性肺部疾病（chronic obstructive pulmonary disease, COPD）患者是否具有良好的心理計量特質，並評估不同疾病嚴重程度分期患者適用題目，作為發展短式問卷或電腦適性測驗之基礎。. 材料與方法：本研究共計收案 240 名男性 COPD 患者，利用項目反應理論（item response theory, IRT）中的 Rasch 模式來分析各題目的特質。分析項目包括：以適合度指標（infit statistic）來檢驗各範疇單一向度的假設，並檢驗題目難度、問卷的信度、題目門檻值範圍以及題目適中性。再以試題差別功能（differential item functioning, DIF）來檢驗各題目在不同疾病嚴重度族群與不同年齡族群之心理計量特質是否相同。最後針對題目具有難度順序（hierarchy）特質的 SGRQ 日常活動範疇，計算各題之題目訊息量（item information），挑出各疾病分期患者較適用的題目，用以探討縮減題目或發展適性測驗的可行性。. 結果：兩份問卷各範疇題目大多符合單一向度的假設。在題目難度分佈上，SGRQ 各題目平均難度範圍較 WHOQOL-BREF 要廣。在信度的評估方面，WHOQOL-BREF 各範疇的信度指標介於 0.74 ~ 0.80，而 SGRQ 除症狀範疇信度較低（0.59）外，日常活動與疾病衝擊範疇皆在 0.8 以上。題目門檻值分析結果顯示 WHOQOL-BREF 題目門檻值所能涵蓋的患者 ii.

(4) 能力範圍較 SGRQ 要廣。在題目適中性分析上，WHOQOL-BREF 生理與心理範疇題目難度適中，但社會與環境範疇的題目則較為簡單；SGRQ 症狀與日常活動範疇題目難度適中，但疾病衝擊範疇則較簡單。兩份問卷在疾病嚴重程度與年齡的 DIF 上，WHOQOL-BREF 題目很少出現試題差別，但是在 SGRQ 的日常活動與疾病衝擊範疇則有許多的 DIF 存在。針對 SGRQ 的日常活動範疇分疾病嚴重度的挑題結果，狀況較佳的族群，則挑出較具挑戰性的題目，隨著疾病愈嚴重，所挑出的題目愈趨簡單。尤其是針對疾病較嚴重的族群，不論是在「某些活動使您喘不過氣來」題組或「呼吸問題如何影響您的活動」題組，挑選出來的少數題目即能夠達到與原有題目相當的準確性。. 結論：從分析結果可以看出兩份問卷用於 COPD 患者皆呈現不同的心理計量特質。由於在不同疾病嚴重度與年齡的比較上，SGRQ 問卷有許多題目產生 DIF，因此在比較不同疾病嚴重程度與年齡族群時，要注意結果的詮釋與其所代表的臨床意義。訊息分析顯示 SGRQ 的日常活動範疇具有合理的結構性，不同疾病分期可選擇不同難度的題目來回答，尤其對疾病較嚴重的 COPD 患者，可以不需要回答冗長的問卷。本研究結果可以作為縮短問卷或發展適性測驗的基礎。. 關鍵字：慢性阻塞性肺疾病、項目反應理論、Rasch 模式、聖喬治呼吸問卷、世界衛生組織生活品質問卷. iii.

(5) Abstract Aims: The aim of this study was to apply the modern measurement theory to evaluate the psychometric characteristics of the World Health Organization Quality of Life-Bref (WHOQOL-BREF) and the St. George’s Respiratory Questionnaire (SGRQ) in chronic obstructive pulmonary disease (COPD) patients. The items selected based on information function can provide a useful reference for item reduction and computerized adaptive testing applied in COPD.. Methods: There were 240 male COPD patients included in this study. We analyzed the characteristics of each item by Rasch model. The infit statistics of Rasch model was used to examine the unidimensionality of each domain, and also evaluated the item difficulty, the reliability, the range of item threshold and item targeting of the two questionnaires. In addition, the differential item functioning (DIF) was used to examine the item psychometric properties for different groups stratified by age and disease severity. Finally, for the activity domain of the SGRQ, which is with hierarchy items, we employed the information function of the Rasch model to collect 3 items for each disease stage and compared their performance of estimation with the original lengthy items.. Result: Most of the items within each domain fitted the assumption of unidimensionality. In the item difficulty distribution, the range of mean difficulties of items with its assigned domain for the SGRQ was wider than that for the WHOQOL-BREF. The reliability of each domain with WHOQOL-BREF is from 0.74 to 0.80. In the SGRQ, the reliability is lower iv.

(6) in symptoms domain, but the reliabilities in activity and impacts domains were above 0.8. The range of item thresholds for WHOQOL-BREF could cover wider range of the patient’s ability than that of the SGRQ. For the WHOQOL-BREF, the mean difficuties of physical and psychological domains were targeting to the patients, but the mean difficulties of social and environmental domains were simpler for the patients. For the SGRQ, the mean difficulties of symptoms and activity domains were targeting to the patients, but the mean difficulty of impacts domain was simpler for the patients. Among disease severity and age groups, items of WHOQOL-BREF appeared almost no DIF, but lots of items of activity and impacts domains in the SGRQ appeared DIF. There were similar estimating powers based on the short selected items when compared with the original lenthy items, especially for the COPD patients with severe disease stage.. Conclusion: Our results show the WHOQOL-BREF and the SGRQ had different psychometric characteristics for COPD patients. Quite a few items presented item differenting among groups with different disease stages and age, which impled we need to pay more attention in interpreting the results or comparing the results among these groups. In addtion, more clinical information could be found from the items with severe DIF. Our result showed the feasibility of items reducing prosess, especially for the COPD patients with severe stages. The analysis based on the modern measurement theory can provide a useful structure in the development of computerized adaptive testing. Key words: COPD, Item response theory, Rasch model, SGRQ, WHOQOL-BREF. v.

(7) 頁次第一章緒論 ......................................................................................................................... 1 第一節第二節第三節第四節第五節. 研究背景與研究動機 ......................................................................................... 1 研究的重要性 ..................................................................................................... 4 研究目的 ............................................................................................................. 5 研究問題與研究假設 ......................................................................................... 6 名詞界定 ............................................................................................................. 7. 第二章文獻查證 ................................................................................................................. 8 第一節 COPD 患者的特性及其嚴重性 ......................................................................... 8 第二節健康相關生活品質研究的重要性 ................................................................... 10 第三節 COPD 患者的生活品質研究 ........................................................................... 11 第四節不同生活品質測量工具比較之研究 ............................................................... 13 第五節心理計量特質的測量—傳統測驗理論介紹 ................................................... 15 第六節心理計量特質的測量—項目反應理論介紹 ................................................... 16 第七節 Rasch 模式介紹 ................................................................................................ 18 第八節 Rasch 模式在生活品質的應用 ........................................................................ 21 第九節試題差別功能（DIF）的原理與應用............................................................. 22 第十節題目訊息（item information）的原理與應用 ................................................ 24 第十一節短式問卷發展與題目縮減 ........................................................................... 25 第三章研究方法 ............................................................................................................... 29 第一節第二節第三節第四節第五節. 研究設計 ........................................................................................................... 29 研究對象 ........................................................................................................... 30 研究工具的擬定 ............................................................................................... 31 資料收集過程 ................................................................................................... 32 資料統計與分析 ............................................................................................... 33. 第四章研究結果 ............................................................................................................... 39 第一節第二節第三節第四節. 基本人口學變項之敘述統計 ........................................................................... 39 問卷心理計量特質分析 ................................................................................... 41 試題差別功能（differential item functioning）.............................................. 54 題目訊息（item information） ........................................................................ 72. 第五章討論 ....................................................................................................................... 85 第六章結論與建議 ........................................................................................................... 91 第一節結論 ................................................................................................................... 91 第二節研究限制 ........................................................................................................... 93 第三節應用與建議 ....................................................................................................... 94 參考文獻 ............................................................................................................................. 95 附錄一世界衛生組織生活品質問卷（WHOQOL-BREF） ...................................... 101 附錄二聖喬治呼吸問卷（SGRQ）.............................................................................. 102 vi.

(8) TABLE CONTENTS Table 1. Characteristics of 240 COPD patients enrolled in this study................................. 40 Table 2. Results of the Rasch analysis of the four domains of the WHOQOL-BREF ........ 46 Table 3. Results of the Rasch analysis of the symptoms domain of the SGRQ .................. 47 Table 4. Results of the Rasch analysis of the activity domain of the SGRQ....................... 48 Table 5. Results of the Rasch analysis of the activity domain (separated into two parts) of the SGRQ............................................................................................................... 49 Table 6. Results of the Rasch analysis of the impacts domain of the SGRQ ...................... 50 Table 7. The range of item threshold and ability across four domains of the WHOQOL-BREF .................................................................................................. 52 Table 8. The range of item threshold and ability across three domains of the SGRQ......... 52 Table 9. Ability distribution of activity domain with Rasch analysis stratified by disease severity .................................................................................................................. 73 Table 10. Selected items from the activity domain of the SGRQ by using item information ............................................................................................................................. 78 Table 11. Selected items from the activity domain (separated into two parts) of the SGRQ by using item information ................................................................................... 79 Table 12. Item information ratio of selected items stratified by disease severity ............... 84. vii.

(9) FIGURE CONTENTS Figure 1. Category probability curve for a rating scale item with four thresholds.............. 19 Figure 2. Differential item functioning plots for each domain of the WHOQOL-BREF items for disease severity group comparison....................................................... 55 Figure 3. Differential item functioning plots for each domain of the SGRQ items for disease severity group comparison ...................................................................... 56 Figure 4. Differential item functioning plots for each domain of the WHOQOL-BREF items for age group comparison .......................................................................... 58 Figure 5. Differential item functioning plots for each domain of the SGRQ items for age group comparison ................................................................................................ 59 Figure 6. Differential item functioning plots for the physical domain of the WHOQOL-BREF items for disease severity group comparison stratified by age group.................................................................................................................... 62 Figure 7. Differential item functioning plots for the psychological domain of the WHOQOL-BREF items for disease severity group comparison stratified by age group.................................................................................................................... 62 Figure 8. Differential item functioning plots for the social domain of the WHOQOL-BREF items for disease severity group comparison stratified by age group.................. 63 Figure 9. Differential item functioning plots for the environmental domain of the WHOQOL-BREF items for disease severity group comparison stratified by age group.................................................................................................................... 63 Figure 10. Differential item functioning plots for the symptoms domain of the SGRQ items for disease severity group comparison stratified by age group ......................... 64 Figure 11. Differential item functioning plots for the activity domain (Questions about what activities usually make you feel breathless) of the SGRQ items for disease severity group comparison stratified by age group ........................................... 64 Figure 12. Differential item functioning plots for the activity domain (Questions about how activities may be affected by your breathing) of the SGRQ items for disease severity group comparison stratified by age group ........................................... 65 Figure 13. Differential item functioning plots for the impacts domain of the SGRQ items for disease severity group comparison stratified by age group ......................... 65 Figure 14. Differential item functioning plots for the physical domain of the WHOQOL-BREF items for age group comparison stratified by disease severity group.................................................................................................................. 68 Figure 15. Differential item functioning plots for the psychological domain of the WHOQOL-BREF items for age group comparison stratified by disease severity group.................................................................................................................. 68 Figure 16. Differential item functioning plots for the social domain of the WHOQOL-BREF items for age group comparison stratified by disease severity group.................................................................................................................. 69 Figure 17. Differential item functioning plots for the environmental domain of the WHOQOL-BREF items for age group comparison stratified by disease severity group.................................................................................................................. 69 Figure 18. Differential item functioning plots for the symptoms domain of the SGRQ items for age group comparison stratified by disease severity group ......................... 70 Figure 19. Differential item functioning plots for the activity domain (Questions about what activities usually make you feel breathless) of the SGRQ items for age group comparison stratified by disease severity group ..................................... 70 Figure 20. Differential item functioning plots for the activity domain (Questions about how viii.

(10) activities may be affected by your breathing) of the SGRQ items for age group comparison stratified by disease severity group................................................ 71 Figure 21. Differential item functioning plots for the impacts domain of the SGRQ items for age group comparison stratified by disease severity group ......................... 71 Figure 22. Person ability distribution of activity domain stratified by disease severity ..... 74 Figure 23. Person ability distribution of activity domain (separated into two parts) stratified by disease severity ............................................................................................. 75 Figure 24. Item information for selected items of “activity domain” stratified by disease severity .............................................................................................................. 82 Figure 25. Item information for selected items of “Questions about what activities usually make you feel breathless” stratified by disease severity ................................... 83 Figure 26. Item information for selected items of “Questions about how activities may be affected by your breathing” stratified by disease severity................................. 83. ix.

(11) 第一章第一節. 緒論. 研究背景與研究動機. 在現代醫學與健康照護的領域中，客觀的臨床指標結合患者報告資料（patient-reported outcomes, PROs）被認為是醫師評估病患健康狀態完整的方式 1，而健康相關生活品質（health-related quality of life, HRQOL） 2,3. 為患者報告資料（PROs）的醫療模式中非常重要的一環。有鑑於健康. 相關生活品質的重要性，因此尋求一個良好的測量工具便成為研究者與臨床醫師相當關心的議題。一般用來測量健康相關生活品質的工具主要為一般性問卷與疾病特定性問卷兩種。一般性的問卷主要由生理、心理、與社會等不同層面所組成，描述一般化的生活品質狀態，此類問卷具有普遍性，可用來比較不同族群間生活品質的差異，如：世界衛生組織生活品質問卷（World Health Organization Quality of Life, WHOQOL）4與Short-Form 36（SF-36） 5. ；而疾病特定性問卷可敏感的發現特定疾病對個體所造成的影響6，常見. 的有聖喬治呼吸問卷問卷（St. George’s Respiratory Questionnaire, SGRQ） 7. 、慢性呼吸疾病問卷（Chronic Respiratory Disease Questionnaire, CRQ）. 8,9. 與呼吸問題問卷（the Breathing Problems Questionnaire, BPQ）10等。由. 於此兩類問卷內容與應用特質不同，所以此兩類型的問卷常搭配使用 11-14. ，以使測量更具廣度與深度。儘管各類型的問卷逐漸被發展、驗證，期望能提高測量的品質與準. 確性 15,16，但究竟測量工具是否適當，需要一個良好的測量理論與方法來評估。測量理論主要可分為傳統測驗理論（classical test theory, CTT）與現代測量理論（modern measurement theory）。傳統測驗理論在應用上淺顯易懂，但是卻缺乏一完善的理論架構而且有許多的限制，如：（1）假 1.

(12) 設每個題目的貢獻相同與（2）每個題目的選項具有相同的間距；有鑑於此，現代測量理論便逐漸的被發展與重視，在現代測量理論中最具代表性的首推項目反應理論（item response theory, IRT）17,18，此理論最早應用於教育與心理領域，如國中基本學力測驗、托福、GRE 考試試題的發展，但是近年來在醫療相關領域中也受到很大重視，以期能提高測量的水準，發展對臨床照護更有幫助的指標來提升醫療品質 16。 IRT 主要有單參數模式（又稱 Rasch 模式）、二參數模式與三參數模式. 18. ，其理論架構主要是根據心理計量理論利用數學模式將人的能力及. 題目的難度放在同一個尺度上，使得人的能力與題目的難度間可以互相比較評估，並且可以對題目提供更多的訊息. 19. 。因此近年來有許多研究. 利用 IRT 分析取代傳統方式來驗證、分析或評估問卷，並嘗試對問卷中的題目進行縮減或修正 20-22，並進一步與資訊電腦化結合，發展電腦化的適性測驗。最近也有學者利用此理論架構配合電腦化方式搜集資料的方式，即時獲得有效且具解釋力的測量資訊，提供醫師在看診時的診斷參考 23。慢性阻塞性肺部疾病（chronic obstructive pulmonary disease, COPD）為世界主要致死與致病的慢性病之一 24，患者的主要症狀為咳嗽、咯痰、氣喘、或胸悶等特徵，為一不可完全治癒之疾病，除造成生理上的不適外、亦造成心理上極大的負擔，例如：憂鬱或焦慮等情況 25,26。故近年來，臨床上除以呼吸計量指標來評估患者的狀況或治療介入後的改善情形外，使用問卷來評估 COPD 患者的生活品質亦愈來愈受到重視. 27-29. 。而. Engstrom 等認為一般性與疾病特定性的生活品質問卷可提供不同的訊息 30. ，因此使用兩種問卷可從不同的角度分別來評估瞭解 COPD 對患者生活. 品質的影響。儘管如此，但過去對 COPD 患者生活品質的評估，不論是用一般性生活品質問卷（如：WHOQOL-BREF）31-33 或疾病特定問卷（如：. 2.

(13) SGRQ ） 7,32,34-37 ，主要都是利用傳統測量理論來分析，並證明了 WHOQOL-BREF 與 SGRQ 用在 COPD 患者具有良好的信效度，然而應用 IRT 來評估 WHOQOL-BREF 與 SGRQ 測量 COPD 患者生活品質的研究在過去則較不多見 38,39。考量COPD患者大多年紀較大且有呼吸上的問題，經常無法配合完成較長的問卷，如何改善這種情形，需要更詳細的對整份問卷內容進行探討，例如：題目是否符合單一向度、題目內容是否重疊、題目難度是否均勻分佈等。此外如何縮短病人回答問卷的時間以減少病人的負擔且增加問卷施測之品質，已成為目前在測量上的一重要課題。電腦化適性測驗（computerized adaptive testing, CAT）40以IRT理論為基礎，其原理為每一個人只要回答與其健康程度相符合，能提供最大題目訊息量（item information）的題目，便可以達到與原本問卷相等的測量特性，因此應用 IRT理論可有效地達到減輕病人面對冗長問卷所造成負擔的目的。因此，本研究擬從現代測量理論的觀點，利用 IRT 中的 Rasch 模式來探討 WHOQOL-BREF 與 SGRQ 兩份問卷應用在 COPD 患者是否具有良好的心理計量特質，並探討發展短式問卷或電腦適性問卷的可行性。. 3.

(14) 第二節. 研究的重要性. 1. 透過現代測量理論來使研究者更瞭解 WHOQOL-BREF 與 SGRQ 問卷在範疇及題目的心理計量特質，方便研究使用時之選擇參考。 2. 藉由試題差別功能（differential item functioning, DIF）來瞭解各題目在不同疾病嚴重度族群與不同年齡族群之心理計量表現。 3. 依 COPD 患者不同疾病嚴重程度分期，評估各分期患者適用題目，作為發展短式問卷或電腦適性測驗之基礎。. 4.

(15) 第三節. 研究目的. 本研究首先以現代測量理論探討 WHOQOL-BREF 及 SGRQ 兩份問卷在測量 COPD 患者生活品質的心理計量特質，包括：單一向度（unidimensionality）、題目難度（item difficulty）、信度指標（reliability）、題目適中性（targeting）。並以試題差別功能（differential item functioning, DIF）來探討題目在不同疾病嚴重程度與不同年齡難度是否一致。最後依 COPD 患者不同疾病嚴重程度分期，利用 IRT 模式中提供的題目訊息（item information），來評估各分期患者適用題目，作為發展短式問卷或電腦適性測驗之基礎。. 5.

(16) 第四節. 研究問題與研究假設. 研究問題（1）從現代測量理論觀點，探討 WHOQOL-BREF 台灣版與 SGRQ 兩份問卷用於 COPD 患者是否具有良好的心理計量特質？（2） WHOQOL-BREF 與 SGRQ 各題目在不同疾病嚴重度與不同年齡族群之心理計量特性是否一致？（3）從現代測量理論觀點，針對 SGRQ 問卷中之日常活動範疇，探討發展短式問卷或電腦適性問卷是否可行？. 研究假設（1）針對 COPD 患者，WHOQOL-BREF 與 SGRQ 各範疇具單一向度概念、題目難度均勻分佈、具有良好的區辨受試者能力、題目難度具適中性。（2）針對 COPD 患者，WHOQOL-BREF 與 SGRQ 各範疇沒有年齡與疾病嚴重程度 DIF 存在。（3）不同疾病嚴重分期可選擇不同難度題目回答，且縮減題目仍可具有良好的測量能力。. 6.

(17) 第五節. 名詞界定. 傳統測驗理論（classical test theory, CTT）：又稱為古典測量理論或真實分數模式（true score model），在傳統測驗理論中假設測驗所觀察得到的分數是包含了真實分數與誤差兩個部份，亦即 X（觀察分數）=T（真實分數）+E（誤差）。：在心理計量理論中是較近項目反應理論（item response theory, IRT）期發展的一套理論，故又稱為現代測量理論。它是因應傳統測驗理論中的一些限制，而發展出的模式，主要是用來描述試題特性（難度、鑑別度、猜測參數）與受測者的能力（潛在特質）如何影響其答題反應的一種數學模式。在 IRT 的模式中，受試者在某個題目上的答對機率是同時受到受試者能力與試題難易度所影響；而受試者在測驗上的整體表現就是各題目答對機率的聯合機率。藉由這個數學模式與聯合機率的概念，我們就能根據受試者在各個題目上的答題反應來估計受試者的能力以及題目的難易度，並且讓接受不同題目的受試者其能力可以互相比較。 Rasch 分析：由丹麥數學家 George Rasch 所發展，原先主要應用在二元計分（dichotomous items）模式，亦為項目反應理論中的一種模式。 WHOQOL-BREF 台灣版：台灣版世界衛生組織生活品質問卷，問卷主要包含 28 個題目，除 2 題是屬於測量整體生活品質及ㄧ般健康的題目外，其餘 26 題可分為四個範疇：生理健康範疇、心理範疇、社會關係範疇、環境範疇。 SGRQ：聖喬治呼吸問卷（St. George’s Respiratory Questionnaire）的縮寫。問卷主要包含 50 個題目，可分成三個主要範疇：症狀、日常活動、疾病衝擊。. 7.

(18) 第二章第一節. 文獻查證. COPD 患者的特性及其嚴重性. 慢性阻塞性肺部疾病（chronic obstructive pulmonary disease, COPD）近年來已成為全世界公共衛生的主要議題. 41-45. ，且有逐年增加之趨勢. 46-49. ，根據世界衛生組織（World Health Organization, WHO）預計在 2020. 年會達到主要死因的第五位. 50. 。COPD 是一種不可逆（或說不可完全治. 癒）的慢性氣道阻塞疾病 44,51，會對社會國家造成相當大的醫療負擔。 COPD 患者的常見的症狀為咳嗽、出痰及呼吸困難。根據世界衛生組織發起的 Global Initiative for Chronic Obstructive Lung Disease（GOLD）計畫，診斷基準為病人吸過支氣管擴充劑之後，若 FEV1/FVC 比值仍低於 70％，即可稱之為 COPD50。另外根據 GOLD 準則可將 COPD 的疾病嚴重程度分為五期，分別為 Stage 0：風險期（At risk），只有咳嗽與痰的產生；Stage 1：輕度期（Mild），FEV1/FVC 比值低於 70％且 FEV1 predicted 大於 80％；Stage 2：中度期（Moderate），FEV1/FVC 比值低於 70％，FEV1 predicted 介於 50％與 80％；Stage 3：嚴重期（Severe），FEV1/FVC 比值低於 70％，FEV1 predicted 介於 30％與 50％；Stage 4：非常嚴重期（Very Severe），FEV1/FVC 比值低於 70％，FEV1 predicted 低於 30％。24,52-54 Kuo（2005）以台灣國家衛生研究院之資料，探討台灣地區 1981 至 2002 年 COPD 患者（ICD-9 疾病代碼：490-492,496）死亡率之趨勢，研究結果指出 1981 至 1993 年 COPD 死亡率沒有明顯改變，由每十萬人 8.26 小幅上昇至 8.47，但 1993 後死亡率便一直上升，到 2002 年時死亡率為每十萬人 17.88，而這快速上升的死亡率是導因於男性患者與老年患者死亡率增加，作者推論死亡率的增加主因為男性吸菸比例增高。而在此研究分析中，台灣地區死因排行中由 1981 至 2002 年 COPD 由第 11 名升到 8.

(19) 第 6 名 55，此處之排名與衛生署不同，乃因此文獻中所選擇的 ICD-9 疾病代碼不同所致。 Menezes（2005）針對拉丁美洲五個國家的主要城市（巴西-聖保羅、智利-聖地牙哥、墨西哥-墨西哥城、烏拉圭-蒙特維多、委內瑞拉-卡拉卡斯），針對 40 歲以上的族群進行 COPD 盛行率的推估，其對 COPD 族群的定義是採 GOLD 的定義，結果其粗率範圍從墨西哥城的 7.8%到蒙特維多的 19.7%54。 Tzanakis（2001）針對希臘年齡大於 35 歲以上並且抽菸至少 5 包年的人計算 COPD 盛行率，其研究是採以人口為基礎（population-based）的設計方法，計算結果其粗率為 8.4%，研究中也指出抽菸史與年齡越大較易罹患 COPD，因此盛行率也越高，且不論在何年齡層或區位層次，男性都較女性盛行率來的高，另外也提到 COPD 患者中，有 57％是輕微的，而在這 57％的人當中，有 81.4％的人根本不知道他們患有此疾病，但此研究因只侷限於抽菸族群，屬較嚴格的定義，但不抽菸者也可能患 COPD，因此可能會低估其真正之盛行率 56。. 9.

(20) 第二節. 健康相關生活品質研究的重要性. 1958年世界衛生組織（World Health Organization, WHO）對健康下了一個定義：「健康是一種生理、心理及社會的完全安寧狀態，不只是沒有疾病或是不虛弱而已」。根據這個廣泛的定義，健康不只是在醫學模式上，還包括涵蓋病人的安寧的生活品質概念。健康相關生活品質（HRQOL）指的是病人評估他們的功能狀況與其自覺理想功能的滿意程度57。 Rothwell（1998）提到HRQOL包含許多健康的範疇，如安寧狀態、社會功能與心理功能，雖然不能直接測量受損的生理功能或是失能情形，但是對整體健康來說，HRQOL是比受損的生理功能要來的重要，如果想要嘗試去測量病人認為重要的治療效果，那麼除了測量HRQOL外，似乎沒有更好的選擇。另外在文章中也提到HRQOL可以允許我們去測量整體治療和治療所產生的副作用之間的效益，儘管這些效益的評估往往被人所忽略，但使用HRQOL當作測量結果至少可以了解治療對病人來說，整體的效益是更好或者是更糟58。 Fischer（2003）提到HRQOL與主觀的健康狀態同義，指的是從病人觀點來描述其受到健康照護介入影響的經驗59。而Bentley（1998）則提到臨床上使用病人提供HRQOL訊息，可以篩檢出功能上的問題並偵測出未被確認出的疾病，並據此提出起始的治療方式，監測疾病的發展與治療的反應，並可以增進醫師與病人之間的溝通60。 Bottomley（2002）的研究中提到，一般來說，HRQOL包含病人主觀察覺之正向與負向觀點，包含生理、情緒、社會、認知功能及治療的副作用。在20年前，很少有文獻報導生活品質的效益，但最近幾年，針對 HRQOL的研究有大幅的增加。美國食品和藥物管理局甚至認為HRQOL 可以作為新的抗癌藥物批准上市的基礎61。 10.

(21) 第三節. COPD 患者的生活品質研究. Salik（2007）針對32位平均66.7歲的COPD患者，利用SF-36問卷調查其生活品質，並找一群年齡相當的健康族群作為對照，研究結果發現 COPD患者在SF-36所有範疇的得分皆比健康族群得分還低（皆達統計上顯著差異），顯示COPD患者的生活品質是比一般族群要來的差的62。 Ambrosino（2002）年針對63位ICU病房中的COPD患者，利用諾丁漢健康量表（Nottingham Health Profile, NHP）來測量患者主觀的生理、心理社會等範疇的健康狀態，結果發現急性發作的COPD患者比穩定的 COPD患者有較差自覺健康狀態63。 Jones（2001）提到健康問卷可以針對COPD症狀對患者日常活動的衝擊提供一個有效測量，而在臨床的試驗中，健康狀態的得分可以對治療所帶來的效益做一整體的評估，最後作者更建議臨床醫師應仔細評估治療對COPD患者自覺生活品質的效益34。 Rutten-van Molken（2006）利用GOLD準則收集了622位moderate、513 位severe及91位very severe的COPD患者，並用EQ-5D VAS, 與utility去測量其生活品質的狀態。結果發現EQ-5D VAS, 與utility所測量的健康相關生活品質可以顯著的去區辨出不同疾病嚴重程度的COPD患者，甚至在校正可能會影響生活品質的其它因素（如：共病症comorbidity）後，這種區辨疾病嚴重程度的效果依然存在；從另一個角度來說，GOLD的準則不但與疾病相關的生活品質有關，也與一般自覺生活品質有相關。因此 GOLD的準則確實可以用來對COPD患者疾病嚴重度進行分期，也可以用在評估COPD患者治療介入後的成本效益分析模式中64。 Andenaes（2006）的縱貫性研究中，追蹤9個月後，共有51位急性發作出院後的COPD患者納入該研究，作者以SGRQ來評估COPD患者健康狀態改變、 Hopkins Symptom Checklist 測量心理憂鬱狀況、以及用 11.

(22) WHOQOL-BREF來測其生活品質的變化情形。研究結果發現出院後的 COPD患者健康狀態會進步，但是在心理上則有很高程度的憂鬱狀況，而造成生活品質下降，最後根據研究結果作者建議健康照護專家應該要更注意COPD患者生活品質32。. 12.

(23) 第四節. 不同生活品質測量工具比較之研究. Fischer（2003）的研究中提到，用來測量HRQOL的問卷有一般性問卷與疾病特定性兩種。一般性問卷可以比較跨條件與介入的健康相關生活品質，但可能較無法聚焦在感興趣的特定疾病或介入；而疾病特定問卷對感興趣的疾病可較敏感的偵測其變化，但是缺點是不夠廣泛，無法進行跨條件的比較59。 Fuh （ 2006 ）利用 Short Form-36 （ SF-36 ）與 Migraine Disability Assessment（MIDAS）兩份問卷，對231位偏頭痛患者進行評估，結果發現偏頭痛的患者有較低的生活品質。在兩份問卷的比較上，發現兩份問卷的得分有顯著的相關，且兩份問卷對偏頭痛造成的衝擊也有不同的觀點65。 Scheingraber（2005）針對接受胰臟手術後的98位患者，比較SF-36 與Gastrointestinal Quality of Life Index（GIQLI）兩份問卷所測量的生活品質結果，其中SF-36為一般性問卷，而GIQLI則為疾病特定性問卷。結果發現兩份問卷各有其重要性，一般性問卷（SF-36）對偵測如共病症等因子較為敏感，而疾病特定性問卷（GIQLI）則有較佳的解釋性，因此一份完整的問卷應該兼具一般性的部分與疾病特定的部分66。 McColl（2004）探討Inflammatory Bowel Disease Questionnaire（IBDQ）與SF-36兩份問卷用在潰瘍性結腸炎（ulcerative colitis）患者的區辨能力，研究共收集了111位20-88歲的個案。結果發現疾病特定問卷（IBDQ）在疾病相關的活動能力與疾病嚴重程度上有較佳的區辨能力，而控制年齡來看共病症的影響，一般性問卷（SF-36）得分有顯著的降低，但IBDQ 的分數則影響不大。兩種不同性質的問卷在應用上有互補性，因此作者建議在生活品質的研究上，應該同時併用兩種不同問卷，方可廣泛的評估病人的感受67。 13.

(24) Singh（2001）認為健康結果的測量被廣泛的應用在肺部功能修復上面，但是面對種類繁多的問卷，該採用哪種問卷仍未有定論，因此作者針對三種疾病特定問卷與兩種一般性問卷應用在COPD患者肺部修復的敏感性進行比較，疾病特定問卷分別為Chronic Respiratory Questionnaire （CRQ）、SGRQ、以及Breathing Problems Questionnaire（BPQ），而一般性問卷則採用global quality-of-life（QOL）scale及the ‘Things People Do’。研究中共收集97位經肺部修復功能的COPD患者，其中男性有58位，女性有39位，平均年齡為67歲。三份疾病特定問卷在內容上，彼此仍有不同的地方，例如：CRQ並沒有去探討活動受限的情形，其它兩份問卷則有針對活動受限特別去探討，而SGRQ則沒有特別針對咳嗽出痰及發作頻率深入調查；另外，在問卷選項設計方面，三份問卷也有所不同，CRQ 全為7分法的李克特式（Likert）量表，SGRQ則以2分法為主，但有部分題目為3-5分法，BPQ則是包含4分法、5分法與6分法的題目。研究結果發現，三份疾病特定問卷與FEV1都有中等以上的相關，而在對肺部修復後的敏感性，則是以CRQ最敏感，其次是SGRQ與BPQ，但CRQ與SGRQ皆達到偵測臨床上顯著改變的標準。至於兩份一般性問卷在文章中則沒有進一步的探討與比較12。. 14.

(25) 第五節. 心理計量特質的測量—傳統測驗理論介紹. 傳統測驗理論由於模式簡單易理解，能力與題目參數容易計算，因此在許多領域皆廣泛的被使用。傳統測驗理論假設觀察分數（X）是由真實分數（T）+誤差（E）所組成，其中誤差代表每一個受試者在沒有記憶影響或特性改變的前提下，反覆進行多次試驗的變異程度 68。在傳統測驗理論中，題目參數幾乎是完全由受試者的能力所決定。以題目難易度為例，如果受試者的能力較高，則題目答對率便會提高，題目便被認為較簡單；如果受試者的能力較低，則題目答對率便會很低，題目便被認為較困難。因此，題目的難易可說是完全由當時受試族群能力的高低來決定，也就是說樣本的代表性在估計題目難易上佔有很重要地位。在受試者能力的估計上，傳統測驗理論是直接加總所有題目的總分來作為能力的估計值，也就是說受試者的能力高低完全取決於他所接受到的題目難易度。舉例來說：若題目較難，則受試者的得分通常會比較低；若題目較簡單，則受試者的得分通常會比較高。傳統測驗理論中直接將題目得分加總的作法其實並不符合理論依據，因為分數本身並不符合等距量尺的特性，因此需強加兩個假設才可進行分數的加總，（1）每一題目的貢獻都是相同的（constant information）與（2）每一個題目選項的測量都具有相同的間距（equal interval scale）。這兩個假設在題目的本質上，其實是有許多問題存在，例如有三題 5 分法（分別為 1、2、3、4、5）的問題，受試者 A 得到的分數為 2、3、4，總分為 9 分；受試者 B 則分別得到 1、5、3，總分亦為 9 分。因此便認為受試者 A 與受試者 B 能力相當，這樣很顯然是有問題存在的 69。. 15.

(26) 第六節. 心理計量特質的測量—項目反應理論介紹. 由於傳統測驗理論有諸多的限制，因此心理計量學家近年來致力於發展新的理論模式來試圖彌補傳統理論的缺憾，其中以項目反應理論（IRT）最具代表性。 IRT 模式中主要參數包括：鑑別力參數（通常以 a 表示）、題目難度參數（通常以 b 表示）、猜測參數（通常以 c 表示）18,70，三種參數分別介紹如下：（1）參數（a）：就是「鑑別力參數」，它的值愈大表示題目對受試者的鑑別力愈強；反之，則鑑別力愈弱，其理論值範圍介於-∞ 與+∞之間，在實際應用上常限定為 0 至+3。（2）參數（b）：即為「題目難度參數」，參數（b）的理論值範圍-∞ 至+∞，但在實際應用上常會限定受試者能力介於一段範圍之間（如：-3 至+3 之間等）。（3）參數（c）: 即為「猜測參數」，它的值愈大表示不論受測者能力為高或低，猜對的機率皆較高；反之猜測參數值愈小，則表示該題目不易被猜對。 IRT 主要分為單參數模式（即為 Rasch 模式）、二參數模式與三參數模式，分別詳述如下：單參數模式：即為 Rasch 模式，在模式中所有題目都假設有高鑑別力（都是 1.0），而受試者猜對題目的機率已經被納入受試者能力中，因此猜測參數設為 0。在 Rasch 模式中認為，影響受試者答對機率的題目特性主要是題目難度參數（b），因此只要了解人的能力與題目的難易度，就能知道該人在某題目上的答對機率是多少。二參數模式：在二參數模式中，與 Rasch 最大的不同點是題目可以被允許有不同的鑑別度（a），而這些不同的鑑別度會對受試者答對題目 16.

(27) 的機率有不同程度的影響。這種模式與實際資料的分析結果較為接近，因為一份測驗中很難所有題目都具有相同的鑑別度。三參數模式：三參數模式比二參數模式再多加入猜測參數（c），這種模式比較常用在可以經由猜測來答對題目的測驗情況，例如選擇題、是非題…等。. 17.

(28) 第七節. Rasch 模式介紹. Rasch 模式由丹麥數學家 Georg Rasch 所提出，主要是利用數學模式將題目難易度與人的能力之間的關係作機率的轉換，其公式如下： Pni =. e ( Bn − Di ) 1 + e ( Bn − Di ). 其中 Bn 為第 n 個人的能力值， Di 為第 i 題的平均難度， Pni 為第 n 個人答對第 i 題的機率。從公式中我們可以知道當人的能力與題目難度相同（ Bn = Di ）時，則答對該題的機率為 0.5。當人的能力遠比題目難度低時，答對的機率就小。當能力遠比題目的難度高時，答對的機會就高。 Rasch 模式家族主要包含二元計分模式（dichotomous model）、評定量尺模式（rating scale model）與部份給分模式（partial credit model）19，針對三種模式分別詳述如下： 1. 二元計分模式（dichotomous model）二元計分模式為假設題目難易度及人的能力這兩個測量值間的差異是會影響人在回答特定題目時答「是」機率。假如回答「是」編碼為「1」，回答「否」編碼為「0」，該模式是以答「是」的機率作為在第 n 個人的能力與第 i 個題目難度差異大小的函數。其公式如下： Pni ( x ni = 1|Bn ,Di ) =. e ( Bn -Di ) 1 + e ( Bn -Di ). 其中 Pni (x ni = 1|Bn ,Di ) 是在已知人的能力及題目難度下，第 n 個人在第 i 題答「是」（x=1）的機率。 2. 評定量尺模式（rating scale model） Rating scale model 將原本只適用於二元計分題目的 Rasch 模式推展至適用於次序（ordinal）資料，主要是適用在量表中所有的題目都有相同的計分方式時。只要是題目的選項有次序的概念，得到低分比較簡單， 18.

(29) 得到高分比較難時，就適用於這種模式。例如：常見的四分法或五分法的 Likert scale。 Rating scale model 的基本假設是所有題目的閾值（threshold）的距離都是相同的，其中閾值 (Fj ) 的定義為一個人有 50/50 的機會選擇一個選項越過另一個選項。其公式如下： Pnij (x = 1|Bn ,Di ,Fj ) =. e. (Bn-[Di + Fj ]). 1+ e. (Bn- [Di + Fj ]). 其中 Pnij 是第 n 個人在第 i 題越過第 j 個閾值的機率。例如在 Figure 1 中 19，題目的計分方式為（1 分、2 分、3 分、4 分、 5 分），曲線 1 與曲線 2 的交叉點即為 F1 ，此即為從 1 分變成 2 分所需跨越的閾值，或是當受試者的能力值高於 F1 時，則他得到 2 分的機率將會高於他得到 1 分的機率；同理 F2 、 F3 、 F4 就是分別從 2 分要變成 3 分，從 3 分要變成 4 分，或是從 4 分要變成 5 分所需跨越的閾值。. F1. F2. F3. F4. Figure 1. Category probability curve for a rating scale item with four thresholds 19.

(30) 3. 部份給分模式（partial credit model） Partial credit model 亦為 Rasch 模式的推展，此模式適用於次序資料，模式的特色為針對每個題目的閾值均分別估計，且可適用於同一量表中題目有不同計分方式的情形，如：同一量表中同時有二分法與五分法並存的情形。其公式如下： (Bn-[Di + Fij ]) e Pnij (x = 1|Bn ,Di ,Fij ) = (Bn- [Di + Fij ]) 1+ e. 部分給分模式與評定量尺模式最大的不同在於部分給分模式中每個題目的閾值 Fij 皆不同，需分別估計，而評定量尺模式則假定所有題目的 Fj 都相同，因此不需像在部分給分模式中ㄧ樣要分別估計出每個題目的閾值 Fij ，而是整份量表只需要估計出 j 個閾值即可。. 20.

(31) 第八節. Rasch 模式在生活品質的應用. Pickard（2006）以 Rasch 模式探討美國流行病學研究中心之憂鬱量表（Center for Epidemiologic Studies-Depression scale, CES-D）應用在中風及一般照護族群憂鬱症狀的表現。結果發現兩個族群所得到的題目難度順序很相似；題目用在中風族群有 3 題不符合單一向度的假設，而用在一般照護族群所有題目皆符合單一向度；在兩族群間，有 4 題 DIF 存在，表示憂鬱在兩族群的發生現象可能有所不同。最後作者認為應用 Rasch 模式證實了 CES-D 量表的有效性，尤其更適用在評估一般照護族群的憂鬱情形 71。 Duncan 等（2005）評估新發展的中風結果量表（The Stroke Impact Scale）時，以 Rasch 模式對該量表進行單一向度檢驗，題目難度分布情形，題目的適用性探討（看題目難度是否適用於對象族群）及分析題目是否能有效區分不同嚴重程度的患者，結果顯示該量表中各範疇皆有符合單一向度的假設，而大多數的題目在模式的適合度檢定中也符合，題目難度分布的範圍很合適，並能有效區分不同嚴重程度的患者 72。 Garratt（2003）針對評估背痛治療結果的工具（the Roland Disability Questionnaire, RDQ）進行 Rasch 分析，發現有 4 題並沒有 fit 模式，而且在題目難度分佈上，有部分題目過於重疊，因此作者建議未來可將 misfit 的題目刪除，並且可以針對難度重疊的題目進行刪減，以達到縮短問卷的目的。另外作者也利用 Rasch 分析的特性，將原本為次序量尺的得分轉換為具有連續量尺意義的 Rasch 分數，可以在未來的研究分析上，提供更多有意義的訊息 73。. 21.

(32) 第九節. 試題差別功能（DIF）的原理與應用. 在 IRT 的模式中，提供了一種比較感興趣的不同族群（例如：男/女，有工作/沒有工作，已婚/離婚/未婚）間題目的估計值，來檢查在不同的族群間題目是否有顯著不同的重要性，稱為試題差別功能（differential item functioning, DIF）19。在心理計量學上，DIF 的定義為：「來自不同族群，但能力相同的個人，如果在答對某個試題上的機率有不同的話，則該試題便被視為有 DIF 的現象 74,75。」在臨床的應用上，DIF 則可以用來測量在不同族群中，題目難度是否有差異存在 76,77。 Thissen（2007）提到在教育領域與成就測驗上，DIF 的存在會降低測驗的效度與分數的等化性。但是在健康結果的測量上，DIF 存在可視為可以敏感的偵測不同族群的特性 78。 Reeve（2007）提到 DIF 可以評估題目在控制受試者的潛在能力後，針對不同人口學變項或是疾病分組的表現。舉例來說，同樣具有中等程度的情感痛苦，女性在哭泣的表現會比男性要來的高。從另一個角度來看，一份問卷中題目有 DIF 存在，可能會降低不同族群比較的效力，因為在兩個目標族群上，分數表現的特質可能是不相同的。另外作者也提到，在 CAT 的應用上，因只需要問少數幾個問題即可測量出受試者的能力，因此 DIF 對 CAT 的衝擊可能會比固定長度的問卷要來的高 2。 Fayers（2007）認為 DIF 在偵測不同性別、不同族群、不同文化與不同年齡的差異，扮演很重要的角色；而在偵測出 DIF 時，也需要特別注意此 DIF 是否具有臨床上的意義；當 DIF 存在時，PROs 問卷是否該被修正也是很重要的議題 79。 Crane（2007）針對修改版本的 Roland–Morris Disability Questionnaire 22.

(33) 用在背痛族群產生 DIF 的情形。結果在 23 個題目中，總共有 18 題有年齡、教育程度與工作狀態的 DIF 存在。但是作者認為，忽略 DIF 與考慮 DIF 的情況下，IRT 分析所得的分數有顯著的相關，因此雖然在修改版本的問卷有 DIF 存在，但是在大多數的研究目的上，這些 DIF 都可以被忽略而不會影響到結果 80。 Watson（2006）針對 fruit, juice and vegetable self-efficacy questionnaire （FVSEQ）進行 DIF 的分析，結果發現在性別上並沒有 DIF，但是有部分題目有種族上的 DIF81。 Stelmack（2006）針對 Veteran Affairs （VA） Low Vision Visual Functioning Questionnaire （LV VFQ-48）進行 DIF 分析，在 48 題中，有 7 題有視覺修復上的 DIF82。 Huang（2006）應用 Patient Health Questionnaire depression scale （PHQ-9）在一般照護病人的憂鬱情形上，並去評估是否有種族上的 DIF 存在。研究結果發現非裔的美國人、華裔的美國人、及非西班牙裔的白種人族群在 PHQ-9 的表現上有 DIF 存在，代表 PHQ-9 可以有效的偵測不同族群的憂鬱症狀 83。 Barley（2006）使用 Rasch 分析去評估 AQ-20 在氣喘病人測量上的穩定性。該研究利用 DIF 來檢驗重複測量後，題目的穩定性，結果發現有一個題目會隨著時間變化而產生 DIF 情形，可能的解釋因素是因為季節變化所帶來的影響。在結論中，作者提到若問卷中包含與時間有關（timedependent）的題目，會使問卷本身的信度降低 84。. 23.

(34) 第十節. 題目訊息（item information）的原理與應用. 題目訊息函數（item information functions）在現代問卷的發展上扮演很重要的角色. 85. ，訊息函數可以讓研究者瞭解每一個題目在連續的能力. 特質尺度的每一點所能提供的訊息 18。相同題目對不同能力者而言其題目訊息量並不相同，因此即使是接受相同的問卷，對不同能力者而言，他們的訊息量應該是不相同的。在實際的應用上，因為題目的難易度很難同時適用於各種不同能力的受試者，對高能力者而言，題目可能過於簡單而測不出其能力；對低能力者而言，題目可能過難而也測不出其能力；只有當題目難易度與人的能力相當時，才能較準確的測出其能力。因此 IRT 的題目訊息量概念恰可以反映出題目對不同能力者有不同測量訊息的現象。 Reeve（2007）提到題目訊息量可以看出哪些題目在不同的族群中有最好的區辨能力，較高的訊息量代表較能準確的測量出一個人的能力程度。訊息函數曲線可以用來看題目在不同的能力上的表現，這即是 CAT 模式與發展短式問卷中題目挑選過程的原理 2。 Gomez（2007）的研究中提到 IRT 中的題目訊息函數（item information function, IIF）與測驗訊息函數（test information function, TIF）的概念可以作為題目挑選與問卷發展的工具。訊息函數不但可以根據受試者的能力挑選出最合適的題目，也可以幫助電腦化適性測驗的發展。該研究針對 20 題的死亡焦慮量表（Death Anxiety Inventory, DAI）進行 IRT 的分析，發現第 1、3、7、9、17、18、19 及 20 題對中等能力及高能力的受試者題目訊息量最高，其中又以第 20 題能提供最大的訊息量 86。. 24.

(35) 第十一節. 短式問卷發展與題目縮減. （1）短式問卷與題目縮減的優勢目前用來測量健康相關生活品質的問卷相當多，而且也都有相當好的測量特質（如：有良好的信度與效度），但是過長的問卷造成了應用在病人照護上的限制。縮短版的問卷在許多情境上佔有優勢，例如在臨床應用上，可以縮短許多面訪的時間，或是應用在當病人無法參與長時間的訪問過程時，或是需要重複施測的時候，甚至在併用多種不同目的的問卷時，縮短版的問卷可以使每份問卷的完訪率提高87。（2）短式問卷的發展—利用傳統測量理論 Jacobs（2004）提到症狀只能部分的反應疾病對病人的負擔，但是病人自覺的健康狀態與醫師的診斷往往有所不同，因此醫師應該考慮病人健康相關的生活品質，以幫助訂定每個病人的不同需要與治療，但是目前已發展的問卷長度往往過長，而造成在臨床應用上有許多的限制，故在該研究中，作者嘗試去發展短式問卷以瞭解呼吸道疾病（如：COPD、氣喘等）患者受損的健康相關生活品質。作者將原本55題的Quality of Life for Respiratory Illness Questionnaire （QoL-RIQ）進行題目縮減，縮短完的問卷保留原先的10個題目，稱作RIQ-MON10，將RIQ-MON10進行驗證，發現該問卷具有良好的建構效度、效標效度與區辨效度88。 Wu（2006）利用因素分析的方法，針對42題的Caring Behaviors Inventory（CBI）問卷進行縮減，若題目的因素負荷量與任何範疇皆小於 0.4則將該題目刪除，或者該題目與超過兩個以上的範疇因素負荷量大於 0.4，表示該題目不單純測量單一的概念，因此亦將該題目刪除，縮短的問卷包含24個題目（CBI-24）。CBI-24與原本42題的CBI相比較，無論是在心理計量的特性、信度、效度等皆相當一致，因此作者建議在未來的研究上，可以採用縮短版的CBI-24來減輕受試者的負擔，並且偵測照護 25.

(36) 行為上的改變89。（3）短式問卷的發展—利用 IRT 中的 Rasch 模式 Nijsten（2006）針對牛皮癬衝擊問卷（Impact of Psoriasis Questionnaire, IPSO）進行縮減，作者以 Rasch 模式為理論基礎，若題目選項次序混亂（threshold disorder）或者題目有 DIF 存在，則將該題目刪去。最後一共刪去了 5 題，留下 11 題。經過 Rasch 縮減過的問卷長度較短，而且在評估牛皮癬患者生活的心理衝擊上亦符合單一向度，未來可針對不同文化、不同人口學特性或不同疾病嚴重程度的族群，將短式的 IPSO 問卷再加以驗證，以確立短式的 IPSO 為有效評估牛皮癬患者健康相關生活品質的工具 20。 Lin（2005）使用 Rasch 分析來評估 self-perceived change in quality of life scale（CQOL）用在輕微中風病人的適用性。CQOL 問卷共有 13 題，經 Rasch 分析後，發現說話、視覺、思考這三題並不符合單一向度的假設（infit 與 outfit MNSQ 皆大於 1.3），故將這三題刪除，再針對剩餘的 10 題題目進行分析，發現縮短版的問卷相當適用於該組樣本，並且可以用來測量輕微中風患者健康相關生活品質 22。 Hsueh（2004）以 Rasch 分析來評估結合巴式量表（Barthel Index, BI）與芙蘭切量表（Frenchay Activities Index, FAI）用在中風後患者日常活動功能的適用性。若是問卷中題目不符合單一向度指標時（infit ZSTD 與 outfit ZSTD 皆大於 2，視為不符合單一向度），便將該題目刪除。研究結果發現，在刪除兩個 FAI 的題目後，結合兩份量表的題目均符合單一向度的假設，而且巴氏量表的題目難度較低，可以測量較容易的日常活動，而芙蘭切量表題目難度較高，可以測量較困難的日常活動，因此可涵蓋較廣範圍能力的患者 21。（4） IRT 結合電腦化適性測驗. 26.

(37) 在傳統的問卷調查上，每一個人都必須回答問卷中所有的題目，來估計出其能力值，但在電腦化適性測驗（computerized adaptive testing, CAT）40中，每一個人只要回答與其健康程度相符合，能提供最大訊息量的題目就可以。結合IRT與CAT的技術在評估健康狀態的應用上，可以利用電腦的快速運算速度，根據受試者的答題反應即時估算出其程度值，並立刻選出符合受試者程度值的題目讓受試者作答。 Revicki（1997）提到結合IRT模式、建立題庫（item bank）、和電腦化適性測驗有許多的優勢，如：可以針對每個受試者訂做簡短且準確的量表、可以減少天花板與地板效應（floor and ceiling effects）、根據測驗的目的與對象不同來決定要挑選多少題目（如：目標族群很大，則採用較精簡的題目）90。 Ware（2003）探討利用電腦化適性測驗的可行性，並且評估CAT-based 得到的頭痛衝擊分數的信度與效度，題目來源為54題的Headache Impact Test（HIT）。研究結果發現利用IRT與CAT-based的方法來填答HIT的題目可以大大的減輕受試者的負擔，此外將CAT-HIT評估的結果與之前的實證研究相比較，電腦化適性測驗所得的結果可以得到相當令人滿意的準確性，而且可以估計涵蓋各種嚴重程度的頭痛患者91。 Fayers（2007）探討IRT與CAT應用在健康結果的評估上的適用性，作者認為IRT與CAT是發展應用在PROs問卷的相當有力之工具，但是這些工具並不能完全取代傳統心理計量與統計技術，但仍可以作為一個相當有價值的輔助工具。另一方面，CAT軟體在使用上仍有許多的不方便，未來希望可以開發較為容易使用的軟體，以發展新的CAT-based的PROs 問卷79。 Kosinski（2006）將CAT用在PROs問卷去評估骨關節炎（osteoarthritis, OA）對患者造成的功能與安寧衝擊，研究中估計兩種分數，Total-OA為. 27.

(38) 病人回答所有37個題目得到的分數，CAT-OA則是只回答由電腦挑選訊息量最高的5個題目所得的分數。在兩種分數的一致性上面，使用相關係數 r來評估，結果r值高達0.96，顯示兩種分數有高度相關。CAT的方法可以提供OA造成患者功能與安寧衝擊的有效且準確估計，而且相對於紙筆問卷還要再次將資料鍵入電腦，CAT則可以直接進行計分，減少許多時間，在臨床的應用上達最大效益。若從病人的觀點來看，則不再需要回答所有題目，只需回答部分訊息量高的題目，便可以達到與原本幾乎相當的結果，可大大減少病人的負擔92。. 28.

(39) 第三章第一節. 研究方法研究設計. 本研究為橫斷式研究，主要以醫院門診之 COPD 患者為研究對象，並以訪員面訪方式收集 WHOQOL-BREF 與 SGRQ 兩份問卷資料，結合個人基本資料，與肺功能檢查資料，探討兩份問卷的心理計量特質。最後再嘗試針對不同疾病嚴重程度的 COPD 患者，挑出最適合（即題目訊息量最高）的題目。. 台灣版世界衛生組織生活品質問卷（WHOQOL-BREF 台灣版）聖喬治呼吸問卷（St. George’s Respiratory Questionnaire, SGRQ）. Rasch 分析之心理計量特質：單一向度（unidimensionality）、題目難度（ item difficulty ）、信度指標（ reliability ）、題目適中性（targeting）。分不同疾病嚴重程度與不同年齡進行試題差別功能（differential item functioning, DIF）分析。利用題目訊息（item information），針對不同疾病嚴重程度的 COPD 患者，就 SGRQ 中題目具有難度順序（hierarchy）特性的日常活動範疇，挑出與患者能力相當（即題目訊息量最高）的題目。. 資料統計與分析、論文撰寫. 29.

(40) 第二節. 研究對象. 本研究共計收案 240 名男性慢性阻塞性肺疾病患者（ Chronic obstructive pulmonary disease, COPD），收案時間由 2003 年 1 月 1 日至 2006 年 12 月 31 日，自中國醫藥大學附設醫院之門診收案，並由胸腔內科專科醫師根據世界衛生組織訂定之 GOLD50,93 診斷標準來篩選患者，若患者同時患有氣喘或肺癌則將其自研究中排除。根據世界衛生組織 2003 年公布之 GOLD 準則 24,52-54，依肺功能指標 FVC 與 FEV1 將患者分為五個不同疾病嚴重程度等級，分別為第 0 期：風險期（at risk）、第 1 期：輕度期（mild）、第 2 期：中度期（moderate）、第 3 期：嚴重期（severe）、及第 4 期：非常嚴重期（very severe）。. 30.

(41) 第三節. 研究工具的擬定. WHOQOL-BREF 台灣版由於世界衛生組織生活品質問卷（WHOQOL-100）94 問卷長度太長，在實用上並不方便，因此 WHOQOL 研究總部嘗試將其簡化為簡明版問卷（稱為 WHOQOL-BREF）。而「台灣版世界衛生組織生活品質問卷（WHOQOL-BREF 台灣版）」由王榮德教授的研究團隊所研究發展 4,95，內容主要強調個體對自己生活品質的感受，問卷共包含 28 個題目，其中 2 題是屬於測量整體生活品質及ㄧ般健康的題目。其餘 26 題主要分為四個範疇，分別為生理健康範疇（physical health domain）7 題、心理範疇（psychological domain）6 題、社會關係範疇（social relationships domain） 4 題、以及環境範疇（environment domain）9 題。在問卷計分方面，問卷中所有題目皆是採用五點式量尺計分。本研究在分析及結果的呈現上，所有反向題目皆經轉向，分數愈高，代表患者的生活品質愈好。. 聖喬治呼吸問卷聖喬治呼吸問卷（St. George’s Respiratory Questionnaire, SGRQ）7,96 是發展用來測量肺部疾病如 COPD 及氣喘患者的健康相關生活品質問卷，中文版的 SGRQ 問卷，包含 50 個題目，而題目又分為三個範疇：（1）症狀範疇（symptoms domain）8 題，探討患者受疾病症狀影響的頻率與嚴重程度；（2）日常活動範疇（activity domain）16 題，探討日常活動受疾病影響的情形；（3）疾病衝擊範疇（impacts domain）26 題，探討呼吸道疾病造成的社會功能與心理上的妨害；此外所有題目再加權相加得到一整體範疇 (total domain) 分數。SGRQ 中，所有題目的選項為二到五點式的量尺，本研究在分析及結果的呈現上，所有反向題目皆經轉向，分數愈高，代表患者的生活品質愈好。 31.

(42) 第四節. 資料收集過程. 由受過訓練之訪員對患者進行面訪，除記錄其個人基本資料與健康行為外，同時採用 WHOQOL-BREF 台灣版與聖喬治呼吸問卷來測量其健康相關生活品質（HRQOL）97,98。此外並於訪視當天對患者進行呼吸量計之測試，呼吸量計的測量經年齡、身高、性別之調整，獲得之肺功能指標 FVC、FEV1 可作為主要的臨床指標參考依據，並作為患者的疾病分期標準 50。. 32.

(43) 第五節. 資料統計與分析. 本研究主要利用 IRT 中之 Rasch 模式來評估 WHOQOL-BREF 與 SGRQ 應用在 COPD 患者的適用性，並探討其是否具有下列心理計量特質，包括：單一向度（unidimensionality）、題目難度（item difficulty）、信度指標（reliability）、題目適中性（targeting）。並藉由試題差別功能（differential item functioning, DIF）來瞭解在不同疾病嚴重程度與不同年齡題目難度的表現。最後再透過題目訊息（item information）來挑出不同疾病嚴重程度分期患者在日常活動範疇適用之題目。本研究之 Rasch 模式係混合使用評定量尺模式與部份給分模式的一種混合模式。在同一範疇內，只要回答尺度內容相同的題目，則假設這些題目之間其閾值間的距離在每個題目間是相同的，故同一範疇下，有些閾值間的距離是固定的、有些則否，此為一種結合評定量尺模式與部份給分模式的混合模式。以下針對本研究所探討之各項心理計量特質、試題差別功能與題目訊息功能分別說明如下：單一向度（unidimensionality）單一向度是指同一範疇內的所有題目都是測量相同的某一項能力，或是受試者在同一範疇題目上的答題反應主要是受到單一項能力所影響。其實這是大部分測驗的必備條件，只有當測驗中的題目都是測量相同的能力，我們才適合將受試者在這些題目上的得分經由某種轉換而得到一個分數，而用這分數來代表這些受試者的能力。這是 IRT 中最重要的基本假設，如果違反此假設，那便不適合用 IRT 來分析了。而適合度指標的估計是計算每一個受試者在每個題目的反應殘差，即真實的反應（ x ni ）與 Rasch 模式所估計的期望值（ E ni ）相差多少？ y ni = x ni - E ni 33.

(44) 殘差的分佈常為一個 z 或 t 分佈，當要檢查適合度統計量時常以平均值均方（mean square fit statistic）或標準化的適合度指標（standard fit staitsic）表示。另外，這兩種適合度指標可進ㄧ步分為（a）較強調非期望的反應與受測者及題目測量間的差異（outfit statistic）與（b）較強調非期望的反應在受測者或題目測量附近（infit statistic）。 Outfit statistic 是考慮受測者的能力與題目難度關係後，標準化殘差的平方取平均值，這個平均值是沒有加權的。而 infit 則是將 outfit 經訊息加權後之形式（information-wieghted form），此加權過程將可減低較偏離主要研究對象能力所在範圍部份所造成的影響。一般而言，標準化後的適合度指標較少使用，原因為標準化係將誤差除以標準誤，而當樣本數愈大時，標準誤就愈小，而使得適合度指標容易達統計顯著（t＞2）99。另外因 infit statistic 較 outfit statistic 敏感，且不易受極端值的影響，因此在本研究的 Rasch 分析中，我們以 infit statistic 作為評估單一向度的指標，若 infit 統計量＞1.3 則代表題目不符合單一向度的假設 19,72,87,100,101。題目難度（item difficulty） Rasch 模式可經由理論機率模式將題目難度與人的能力放在相同尺度上來比較，單位為 logit，logit 尺度為一連續的尺度。以題目難度來說，若題目難度的 logit 越大，代表題目難度越高，亦即該題目對受試者而言不容易有正向的反應；相同的，若題目難度的 logit 越低，則表示該題目難度較低，受試者較容易填答正向的反應。以人的能力來說，若能力的 logit 越大，代表人的能力越高，亦即該受試者對生活品質的滿意程度越高；相同的，若能力的 logit 越低，則表示人的能力較低，代表受試者對生活品質較不滿意。原則上，為了準確的估計不同能力的人，題目難度分佈的範圍要越. 34.

(45) 廣越好，且題目難度需均勻分佈，並盡量減少題目分佈的間隔（gap）與重疊性（redundancy）73,100。信度指標（reliability）與區別性指標（person and item separation） IRT 中 reliability 數值的範圍為 0~1，其結果解釋與傳統的 Cronbach’s alpha 相當類似，達 0.7 代表可接受，0.8 代表良好，0.9 以上則為極好。另外在 Rasch 分析中，可利用區別性指標來描述該範疇的題目區辨不同能力受試者的程度。人的區別性指標（person separation index, G），公式如下： Separation index (G) =. adjusted person variability error variability. G 指標越大，代表題目越能在測量中區辨出人的能力。若 person separation index 達 1.5 代表可接受的區辨能力，2.0 代表良好的區辨能力， 3.0 代表題目具有非常好的區辨能力。在樣本中區別明顯的分層可用以下公式計算 102：分層個數 =. (4G + 1) 3. 假如得到的數值為 1.5 表示樣本可以分為兩層（高能力層、低能力層），數值為 2.0 表示可以分為三層（高能力層、中能力層、低能力層） 72,103. 。Separation index 達 1.5 時相似於 Cronbach’s alpha 係數的 0.7（可接. 受），2.0 時相似於 Cronbach’s alpha 係數的 0.8（良好），3.0 時相似於 Cronbach’s alpha 係數的 0.9（極好）72。題目的區別性指標（item separation index）與人的區別性指標概念相同。題目適中性（targeting） Targeting 指標用來評估題目難度與研究對象能力的適中性。在題目的校準上，假設不同題目間平均難度固定為 0。因此，若所有人在該範疇的平均得分若為 0，表示這些題目的難度對研究對象是適中的。所有人在該範疇的平均得分離 0 越遠，表示這一組題目是 mis-targeted。當所有人 35.

(46) 在該範疇的平均得分為 0.5 時，表示 slight mis-targeted。當所有人在該範疇的平均得分為 1.0 時，表示 substantial mis-targeted。所有人在該範疇的平均得分若為「正」，表示這一組題目對於這個樣本而言是簡單的；而所有人在該範疇的平均得分若為「負」，則表示這一組題目對於這個樣本而言是較困難的 72。試題差別功能（differential item functioning, DIF）分析在本研究中分疾病嚴重度（stage 012 與 stage 34）及年齡（＜75 歲與 ≧75 歲）次族群分別針對題目難度畫散佈圖；再利用「疾病嚴重程度分層後針對不同年齡層題目難度畫散佈圖」與「年齡分層後針對不同疾病嚴重程度題目難度畫散佈圖」，來探討疾病嚴重程度與年齡可能產生的交互作用情形。若是題目的難度具有不變性，此兩組人相對的難度估計值將會落在散佈圖中的 45 度角附近 19。本研究中用 0.5-logit 作為評估的標準 104，即以 45 度角的對角線往上下各平移 0.5-logit，若是兩組人相對的難度估計值落在此範圍之外，就表示此題目有 DIF 存在 99。題目訊息（item information）在進行挑題前，針對題目難度順序（item hierarchy）與題目訊息函數（item information function）分別說明如下：難度的順序：hierarchy 表示用題目難度層級來排序的概念. 19. ，如從. 最簡單到最難的題目。例如：坐著不動是比在家中走動簡單的，或是穿衣服要比從事耗力的工作簡單。而 SGRQ 日常活動範疇中的題目便符合此特性。題目訊息函數是 IRT 模式中提供的選擇題目和比較不同問卷的有力方法。在 IRT 的三參數模式中，題目訊息函數公式如下 18： I i (θ ) =. 2.89ai (1-ci ) 2. [c + e i. 1.7 ai (θ-bi ). ][1 + e. ]. -1.7 ai (θ-bi ) 2. 其中 Ii (θ ) 為能力為 θ 的人，回答第 i 題所得的訊息量。 36.