討論 - 以Rasch模式分析世界衛生組織生活品質問卷簡明版在社區老人的心理計量特質

題目難度的分佈

Hwang 等利用傳統的心理計量評估 WHOQOL-BREF 在老人具有良好的信、效度並且是適用的 ¹³。但是這些都是以傳統的方法從範疇的層次來看WHOQOL-BREF 在老人的適用性。本研究進ㄧ步利用項目反應理論從題目的角度作更深入的探討。本研究的結果證實WHOQOL-BREF 大多數的題目都符合單一向度的假設。題目的平均難度介在+1~-1 之間，然而，WHOQOL-BREF 四個範疇的門檻值的分佈相較於社區老人族群 95%

的能力分佈是較廣的，表示題目能準確地估計大部分老人的能力，對於少數最好及最差的老人則較不準。

在題目的重覆性上，環境範疇的題目有明顯難度重覆性存在，日後若要修改問卷時可以刪減重覆性的題目，增加題目時則選擇在有較大間隔(gap)之處，以增加量尺上題目的均勻性。在題目難度的適中性上，社會範疇的題目對老人而言較易得到高分，而其他範疇的題目難度則較為適中。

問卷信度的檢驗

Hwang 等利用傳統心理計量方法來評估 WHOQOL-BREF 在新社鄉社區老人的適用性¹³，生理、心理、社會及環境範疇的信度各範疇

Cronbach’s alpha 值分別為 0.80、0.81、0.73 及 0.80 相同，本研究中 Rasch 模式分析所得結果中，受測者潛在特質的信度指標與傳統的測量信度的 Cronbach’s alpha 相似，受測者潛在特質的信度指標在生理、心理、社會及環境範疇分別為0.76、0.77、0.68 及 0.78。兩個研究所得結果次序一致，

社會範疇的信度指標均最差。

問卷效度的檢驗

Hwang 等利用傳統心理計量方法中各範疇分數由加總計算所得之分數(summated score)，以老人憂鬱症分數、認知分數等來檢驗

WHOQOL-BREF 的區辨效度，發現各範疇均有顯著的區辨力¹³，在表十中，我們以Rasch 分析之得分進行老人憂鬱程度與認知程度之區辨力分析並與Hwang¹³的結果作比較，F 檢定的結果發現 WHOQOL-BREF 各範疇均有顯著的區辨力，更進一步我們用相對有效性指標來評估何者更能敏感地區辨出老人憂鬱程度與認知程度，在憂鬱程度方面Rasch 得分之相對有效性均優於Hwang¹³的結果，在認知分數方面 Rasch 得分之相對有效性只有在社會範疇上優於Hwang¹³的結果。

傳統方法假設的探討

傳統的方法直接將分數等級加總有兩個假設，ㄧ為每一個題目的貢獻相同，另一為題目的選項間具有相同的間距³⁰。題目的貢獻表示題目所提供的訊息，即測量的精確度。當問卷在每一個能力下測量的精確度都相同時，表示在每個能力的區間下都有題目可以來估計人的能力。影響測量的精確度的因素很多，題目難度分佈不均勻、題目難度間有較大的間距或有DIF 存在等都會影響測量的誤差⁴⁰。本研究分析中，社會範疇有顯著的DIF(圖七、圖十一範疇選項間並未具有相同的間距(圖十五~

圖十八)，環境範疇中有較明顯的題目難度重覆性存在(表四與圖四)，因此 Rasch 分析所得分數應可較傳統加總分數來得準確，尤其是在社會範疇。此與表十一中Rasch 分數較能區辨老人憂鬱程度之結果一致，但與表十一中老人認知程度之區辨結果不完全一致，或可解釋為認知程度本身並非一個很好的效標。

Table 11 Discriminant validity analysis: means of domain or facet score by characteristic in classical test theory and item response theory

Depression Cognitive impairment

Domains No

Mean(SD)

Yes Mean(SD)

F-value Relative validity

No Mean(SD)

Yes Mean(SD)

F-value Relative validity

a Based on Hwang’s result¹³, represent one kind of Summated score Based on Student’s t test. *: P<0.05; **p<0.001; ***p<0.0001 Relative validity = F value (Rasch) / F value (Summed)

另ㄧ個假設為每個選項的間距都是相同的。惟有當題目的間距都是

測者能力及題目參數後，再用已估出的參數，事後估計鑑別參數 ⁴⁶。鑑別參數的可能範圍雖然是0 ~ ∞，但 Rasch 所得的鑑別參數大都是在 0~2 之間。因為是事後估計的，主要反應的是原模式無法估計的部分，所以從表二中我們發現鑑別力與misfit 統計量有ㄧ致性存在，亦即高的鑑別力與低的misfit MNSQ 數值相ㄧ致，低的鑑別力與高的 misfit MNSQ ㄧ致。

在參數系列模式中可發現訊息函數與鑑別力參數有很大的相關性 ^3,

4，但在本研究中卻發現在生理範疇中鑑別力最差的題目PN4 其總訊息量反而較其他鑑別力較好的題目來得高；此外，在項目反應理論由訊息函數的公式可知當人的能力與題目難度相同時所提供的訊息量最大，但 Rasch 模式並未有此特質，例如 PN15 難度估計值為 0.42(表二)，但其訊息量最高是出現在-2~-1 之間。

鑑別力與 infit 統計量有ㄧ致性存在,但與訊息函數結果不一致, 與 Rasch 模式特質相符。Rasch 模式的訊息量的應該要配合適合度來看，若該題不適合(infit >1.4)則訊息量的準確性會有很大的偏差。

試題差別功能 (DIF)

在評估題目特質是否會因為性別的不同，而有不同的題目特質時，

心理範疇的 YN6 及 YN19 有輕微的 DIF，但在社會範疇中 SN21(對性生活的滿意)及 SN22(對朋友支持的滿意)則有顯著的 DIF 存在。SN21 在男性是最難的題目，而在女性則是容易的題目，有趣的是題目特質在不同性別中是不相同，究其原因可能是因為在傳統的中國文化下，男性偏向追求壯陽；而女性則是可能因生理狀態的改變對於性的需求降低，對性生活較容易滿意。然而，針對 SN21，在 Wang⁴⁷等分析國健局 20~65 歲的一般族群發現在較年輕(20-29 歲)與較年長(大於 60 歲)這兩個次族群間有 DIF 的情形，但在性別上則沒有發現。為確認性生活在性別間的 DIF

社會範疇進行DIF 分析，發現性生活這題確實在性別及年齡有 DIF 存在。

以不論在都市或是鄉下地區SN21”性生活”在性別都有 DIF。

接著在本研究中，SN22”朋友支持”在男性是較容易的題目，但在女性卻是最難的題目，造成題目特質差異存在的原因可能為本研究族群為較鄉下地區的社區老人，在傳統”男主外，女主內”的情形下，男性在外常有社交活動，但女性則是在家中相夫教子，較缺少社交活動所致。

針對社會範疇將分年齡層來看性別間的 DIF，以及分性別來評估 DIF，我們發現對性生活的滿意度與生理功能改變有很明顯的關係，表十三我們可以發現在年輕老人（65～75 歲）對性生活在性別中的差異，但是在老老人中性生活在男性與女性間都是最簡單的題目。在年輕老人中我們可以發現 SN20”人際關係”與 SN22”朋友支持”在男性是相對簡單的題目，而在女性則是相對簡單的題目。但是在老老人中我們發現不管在男性或是女性SN22”朋友支持”都是最難的題目。朋友支持的概念較偏向與同年齡的人之互動，而社會關係則是與人的互動。到了75 歲以後，身邊的朋友相繼的離開人世，這可能是老老人在朋友支持上難以得到滿足的原因。圖十四為分性別來看年輕老人與老老人之間的DIF，不論在男性或是女性都可以發現 SN21”性生活”在老老人都是最容易的題目，而 SN22”朋友支持”在老老人都是最難的題目。

我們發現社會範疇的題目在性別及年齡間有明顯的 DIF 存在，可能在測量上造成的影響為題目在不同的性別（或年齡）間貢獻不同。當題目在性別（或年齡）間的貢獻不同時，卻放在同一個基礎上來比較是不適當。總之，DIF 分析可迅速地找出不同族群間題目特質的差異性，除了檢視問卷外，也可以幫助我們進一步對於不同研究族群特質的瞭解與區隔。

在文檔中以Rasch模式分析世界衛生組織生活品質問卷簡明版在社區老人的心理計量特質 (頁 74-79)