題目難度的分佈
Hwang 等利用傳統的心理計量評估 WHOQOL-BREF 在老人具有良 好的信、效度並且是適用的 13。但是這些都是以傳統的方法從範疇的層 次來看WHOQOL-BREF 在老人的適用性。本研究進ㄧ步利用項目反應理 論從題目的角度作更深入的探討。本研究的結果證實WHOQOL-BREF 大 多數的題目都符合單一向度的假設。題目的平均難度介在+1~-1 之間,然 而,WHOQOL-BREF 四個範疇的門檻值的分佈相較於社區老人族群 95%
的能力分佈是較廣的,表示題目能準確地估計大部分老人的能力,對於 少數最好及最差的老人則較不準。
在題目的重覆性上,環境範疇的題目有明顯難度重覆性存在,日後 若要修改問卷時可以刪減重覆性的題目,增加題目時則選擇在有較大間 隔(gap)之處,以增加量尺上題目的均勻性。在題目難度的適中性上,社 會範疇的題目對老人而言較易得到高分,而其他範疇的題目難度則較為 適中。
問卷信度的檢驗
Hwang 等利用傳統心理計量方法來評估 WHOQOL-BREF 在新社鄉 社區老人的適用性13,生理、心理、社會及環境範疇的信度各範疇
Cronbach’s alpha 值分別為 0.80、0.81、0.73 及 0.80 相同,本研究中 Rasch 模式分析所得結果中,受測者潛在特質的信度指標與傳統的測量信度的 Cronbach’s alpha 相似,受測者潛在特質的信度指標在生理、心理、社會 及環境範疇分別為0.76、0.77、0.68 及 0.78。兩個研究所得結果次序一致,
社會範疇的信度指標均最差。
問卷效度的檢驗
Hwang 等利用傳統心理計量方法中各範疇分數由加總計算所得之 分數(summated score),以老人憂鬱症分數、認知分數等來檢驗
WHOQOL-BREF 的區辨效度,發現各範疇均有顯著的區辨力13,在表十 中,我們以Rasch 分析之得分進行老人憂鬱程度與認知程度之區辨力分 析並與Hwang13的結果作比較,F 檢定的結果發現 WHOQOL-BREF 各範 疇均有顯著的區辨力,更進一步我們用相對有效性指標來評估何者更能 敏感地區辨出老人憂鬱程度與認知程度,在憂鬱程度方面Rasch 得分之 相對有效性均優於Hwang13的結果,在認知分數方面 Rasch 得分之相對 有效性只有在社會範疇上優於Hwang13的結果。
傳統方法假設的探討
傳統的方法直接將分數等級加總有兩個假設,ㄧ為每一個題目的貢 獻相同,另一為題目的選項間具有相同的間距30。題目的貢獻表示題目 所提供的訊息,即測量的精確度。當問卷在每一個能力下測量的精確度 都相同時,表示在每個能力的區間下都有題目可以來估計人的能力。影 響測量的精確度的因素很多,題目難度分佈不均勻、題目難度間有較大 的間距或有DIF 存在等都會影響測量的誤差40。本研究分析中,社會範 疇有顯著的DIF(圖七、圖十一範疇選項間並未具有相同的間距(圖十五~
圖十八),環境範疇中有較明顯的題目難度重覆性存在(表四與圖四),因 此 Rasch 分析所得分數應可較傳統加總分數來得準確,尤其是在社會範 疇。此與表十一中Rasch 分數較能區辨老人憂鬱程度之結果一致,但與 表十一中老人認知程度之區辨結果不完全一致,或可解釋為認知程度本 身並非一個很好的效標。
Table 11 Discriminant validity analysis: means of domain or facet score by characteristic in classical test theory and item response theory
Depression Cognitive impairment
Domains No
Mean(SD)
Yes Mean(SD)
F-value Relative validity
No Mean(SD)
Yes Mean(SD)
F-value Relative validity
a Based on Hwang’s result13, represent one kind of Summated score Based on Student’s t test. *: P<0.05; **p<0.001; ***p<0.0001 Relative validity = F value (Rasch) / F value (Summed)
另ㄧ個假設為每個選項的間距都是相同的。惟有當題目的間距都是
測者能力及題目參數後,再用已估出的參數,事後估計鑑別參數 46。鑑 別參數的可能範圍雖然是0 ~ ∞,但 Rasch 所得的鑑別參數大都是在 0~2 之間。因為是事後估計的,主要反應的是原模式無法估計的部分,所以 從表二中我們發現鑑別力與misfit 統計量有ㄧ致性存在,亦即高的鑑別力 與低的misfit MNSQ 數值相ㄧ致,低的鑑別力與高的 misfit MNSQ ㄧ致。
在參數系列模式中可發現訊息函數與鑑別力參數有很大的相關性 3,
4,但在本研究中卻發現在生理範疇中鑑別力最差的題目PN4 其總訊息量 反而較其他鑑別力較好的題目來得高;此外,在項目反應理論由訊息函 數的公式可知當人的能力與題目難度相同時所提供的訊息量最大,但 Rasch 模式並未有此特質,例如 PN15 難度估計值為 0.42(表二),但其訊 息量最高是出現在-2~-1 之間。
鑑別力與 infit 統計量有ㄧ致性存在,但與訊息函數結果不一致, 與 Rasch 模式特質相符。Rasch 模式的訊息量的應該要配合適合度來看,若 該題不適合(infit >1.4)則訊息量的準確性會有很大的偏差。
試題差別功能 (DIF)
在評估題目特質是否會因為性別的不同,而有不同的題目特質時,
心理範疇的 YN6 及 YN19 有輕微的 DIF,但在社會範疇中 SN21(對性生 活的滿意)及 SN22(對朋友支持的滿意)則有顯著的 DIF 存在。SN21 在男 性是最難的題目,而在女性則是容易的題目,有趣的是題目特質在不同 性別中是不相同,究其原因可能是因為在傳統的中國文化下,男性偏向 追求壯陽;而女性則是可能因生理狀態的改變對於性的需求降低,對性 生活較容易滿意。然而,針對 SN21,在 Wang47等分析國健局 20~65 歲 的一般族群發現在較年輕(20-29 歲)與較年長(大於 60 歲)這兩個次族群間 有 DIF 的情形,但在性別上則沒有發現。為確認性生活在性別間的 DIF
社會範疇進行DIF 分析,發現性生活這題確實在性別及年齡有 DIF 存在。
以不論在都市或是鄉下地區SN21”性生活”在性別都有 DIF。
接著在本研究中,SN22”朋友支持”在男性是較容易的題目,但在女 性卻是最難的題目,造成題目特質差異存在的原因可能為本研究族群為 較鄉下地區的社區老人,在傳統”男主外,女主內”的情形下,男性在外 常有社交活動,但女性則是在家中相夫教子,較缺少社交活動所致。
針對社會範疇將分年齡層來看性別間的 DIF,以及分性別來評估 DIF,我們發現對性生活的滿意度與生理功能改變有很明顯的關係,表十 三我們可以發現在年輕老人(65~75 歲)對性生活在性別中的差異,但 是在老老人中性生活在男性與女性間都是最簡單的題目。在年輕老人中 我們可以發現 SN20”人際關係”與 SN22”朋友支持”在男性是相對簡單的 題目,而在女性則是相對簡單的題目。但是在老老人中我們發現不管在 男性或是女性SN22”朋友支持”都是最難的題目。朋友支持的概念較偏向 與同年齡的人之互動,而社會關係則是與人的互動。到了75 歲以後,身 邊的朋友相繼的離開人世,這可能是老老人在朋友支持上難以得到滿足 的原因。圖十四為分性別來看年輕老人與老老人之間的DIF,不論在男性 或是女性都可以發現 SN21”性生活”在老老人都是最容易的題目,而 SN22”朋友支持”在老老人都是最難的題目。
我們發現社會範疇的題目在性別及年齡間有明顯的 DIF 存在,可能 在測量上造成的影響為題目在不同的性別(或年齡)間貢獻不同。當題 目在性別(或年齡)間的貢獻不同時,卻放在同一個基礎上來比較是不 適當。總之,DIF 分析可迅速地找出不同族群間題目特質的差異性,除了 檢視問卷外,也可以幫助我們進一步對於不同研究族群特質的瞭解與區 隔。