第四章 研究結果
第二節 問卷心理計量特質分析
表二與表三為比較兩問卷於各範疇題目及分數的基本描述,分別以 傳統測量與現代測量互相對應比較二問卷的內涵與特質。因所有題目除 整體生活品質為七分法外,其餘皆為 4 點式 Likert 量尺,故在傳統測量 時逕視為等距量尺並轉為正向分數分析之,並將二問卷除原有結構範疇 外,依屬性各自再統合成「功能」與「症狀」二大向度(dimension),
據以分開測量與討論。
問卷各範疇之計分係透過線性轉換,每一題採相同權重,將原始平 均分數轉換為0-100 的分數。功能範疇分數=[1-(RS-1)/Range]×100;整體 生活品質與症狀範疇分數=[(RS-1)/Range]×100,RS 為各範疇的平均分 數,Range 為各題的(最高分-最低分);需有效題目大於範疇題目數的一半 以上,才計算此範疇分數。整體生活品質原本是正向題,透過公式線性 轉換後還是正向;功能範疇原本都是反向題,透過公式線性轉換後會變 成正向;症狀範疇原本也是反向題,透過公式線性轉換後,還是反向;
但PR25 的 50, 51, 52 題原是正向題需先轉成反向題,再計分。故整體生 活品質與功能範疇分數均越高越好,症狀範疇分數則越低越好,此均表 示生活品質越好(或越沒有症狀)。
至於各題目之分數,則採原始分數,但均統一轉成正向分數,故分
數越高代表生活品質越好(或越沒有症狀)。
範疇分數分布
以兩問卷各範疇得分的平均值、標準差、及題目難度排名表示分數 分布情況,並以ceiling effect 與 floor effect 表示選項較極端的人數比例。
結果顯示在功能範疇方面,EORTC QLQ-C30 問卷題目的得分以「日 常需他人輔助」的平均分數最高(3.96±0.33),最低為「記憶減退」
(3.13±0.65);EORTC QLQ-PR25 分數最高的題目為「性接觸不舒服」
(3.58±0.85),最低為「性生活的活躍程度」(1.48±0.72);分數愈高 表示生活品質愈高或功能越好。而在症狀範疇方面EORTC QLQ-C30 問 卷題目的得分以「嘔吐」的平均分數最高(3.92±0.37),最低為「失眠」
(3.27±0.82);EORTC QLQ-PR25 分數最高的題目是「乳頭或乳房酸痛 增大」(3.98±0.15),最低為「夜晚頻尿」(2.95±0.83);分數愈低表 示生活品質愈低或越有此症狀。
而在現代測量理論中則以 difficulty 指標表示題目的困難度,是以 partial credit model 為基礎,使用 IRT 軟體 WINSTEP 對此二份問卷的四 大範疇進行題目尺度校準(item calibration),其單位為 logit,為一連續 的尺度,各題難度估計值設定以0 為中心,一般介於-5 至+5 之間,值越
大代表此題目對於患者的難度越高,愈不容易達成,反之若值愈小則表 示此題難度愈低。分析結果顯示,在功能向度方面,EORTC QLQ-C30 問卷題目的得分以「記憶力減退」分數最高(即最容易發生)(0.860),
最低(即最不容易發生)為「注意力不集中」(-0.860),表示在一般性 功能向度中大部分攝護腺癌的患者於日常生活中最容易感到記憶力減退 的情況,相對而言注意力不集中則是最不容易發生的情況;EORTC QLQ-PR25 分數最高的題目為「性生活的活躍程度」(1.329),最低為
「性接觸不舒服」(-1.189),亦即在性功能方面以性功能的活躍程度最 難感到滿意,而性接觸不舒服的情況則是最不會有的感覺。而在症狀向 度方面EORTC QLQ-C30 問卷題目的得分以「腹瀉」最容易發生(0.745),
以「嘔吐」最不容易發生(-0.769);EORTC QLQ-PR25 以「夜晚頻尿」
最容易發生(1.495),以「乳頭或乳房酸痛增大」最不容易發生(-2.165)。
兩問卷於各向度的題目難度分布上,以EORTC QLQ-PR25 的分布範圍較 廣(-2.165-1.495),而 EORTC QLQ-C30 問卷各向度的題目難度分布則 全介於-1 至 1 之間,顯示對攝護腺癌患者而言,EORTC QLQ-PR25 問卷 的題目深淺涵蓋的範圍較廣。
地板效應表示該題自評完全有症狀或生活品質最差者的人數百分 比,二問卷除了EORTC QLQ-PR25 的性功能範疇地板效應較多外,其餘 各向度均少有地板效應,EORTC QLQ-C30 比上 EORTC QLQ-PR25 有較
少的地板效應(floor effect: 0% - 7.69% for EORTC QLQ-C30 vs. floor effect: 0% - 63.33% for EORTC QLQ-PR25);EORTC QLQ-C30 以功能向 度之「長距離步行困難」此題地板效應最高(7.69%),而EORTC QLQ-PR25 則以功能向度之「性生活活躍的程度」地板效應最高(63.33%)。
天花板效應則是該題自評完全沒有症狀或生活品質最好者的人數百 分比,二問卷普遍均有相當高的天花板效應(ceiling effect: 26.37% - 97.80% for EORTC QLQ-C30 vs. ceiling effect: 2.25% - 97.80% for EORTC QLQ-PR25),其中以 EORTC QLQ-C30 身體功能範疇之「日常生活需他 人輔助」此題天花板效應最高(66.2%)以及 EORTC QLQ-PR25 症狀向 度之「乳頭或乳房酸痛增大」天花板效應最高(97.8%)。
範疇內部一致性與題目間的相關性分析
兩問卷各範疇的內部一致性傳統測量以 Cronbach’s α 值表示,
EORTC QLQ-C30 各 範 疇 Cronbach’s α 介 於 0.399–0.860 , EORTC QLQ-PR25 則介於 0.467–0.706。進一步,將 QLQ-C30 中所有功能題目併 為一向度,所有症狀題目併為一向度,相同方式也用於PR25 問卷,則 α 值在C30 之功能、PR25 之功能、C30 之症狀及 PR25 之症狀分別為 0.80、
0.64、0.82 及 0.72。而現代測量理論則以 reliability 信度指標表示,二問 卷四個向度均低於0.7,顯示這些向度之內部一致性並不甚理想,尤其是
EORTC QLQ-PR25 之功能向度只有 0.38,蓋此向度是評量患者的性功能 情況,然而攝護腺癌患者多為年紀大的長者,很多人早已無性生活,並 且對於回答細節的部分可能並不是很自在,故此向度有些題目答題甚 少,信度偏低。
傳 統 測 量 中 範 疇 題 目 間 的 相 關 性 以 皮 爾 森 相 關 係 數 (Pearson’s correlation coefficent)表示,分成以下二個部份探討:
(一)、題目與四大向度之間的相關係數
在EORTC QLQ-C30 功能向度中與各題的相關係數低於 0.3 之題目僅
「白天需要坐臥」這一題而已,而其症狀向度亦只有「呼吸喘」這一題 小於0.3;至於 EORTC QLQ-PR25 功能向度則有「射精問題」這一題小 於0.3,但在其症狀向度卻有「白天頻尿」、「小便疼痛」、「尿片或護 墊問題」、「腹脹」、「熱潮紅」、「乳頭或乳房酸痛增大」、「腿部 或腳踝腫脹」、「體重減輕」、「體重增加」、「缺乏男人味」這10 題 均小於0.3。顯示這些題目與向度中的其他題目間的同質性偏低,並不太 適合同時用來測量同一向度的潛在特質,也許應在此向度中刪除或獨立 於此向度之外再測量。
(二)、題目與原結構問卷範疇之間的相關係數
相關係數低於0.3 的題目為 EORTC QLQ-C30 身體功能範疇中的「白
天需要坐臥」與「日常需他人輔助」,認知功能範疇的「注意力不集中」
與「記憶減退」,以及EORTC QLQ-PR25 中性功能範疇的「射精問題」,
排尿症狀範疇的「白天頻尿」、「小便疼痛」、「尿片或護墊問題」、
「因排尿而日常活動受限」,與治療相關之症狀範疇的「熱潮紅」、「乳 頭或乳房酸痛增大」、「體重減輕」、「體重增加」,顯示這些題目與 其所屬範疇的其他題目同質性偏低,並不太適合同時用來測量其所屬範 疇的潛在特質,也許應在該範疇中刪除或獨立於該範疇之外再測量。
為檢視各向度題目是否符合 IRT 單一向度的基本假設,我們以 infit 統計量進行適合度檢定,若 infit 統計值大於 1.4 即判定此題並不符合單 一向度的假設。本研究之二份問卷的兩整合功能向度全部符合此標準,
而 EORTC QLQ-C30 症狀向度僅「呼吸喘」這一題不符合標準(infit = 1.42),EORTC QLQ-PR25 症狀向度亦只有「體重增加」這一題不符合 標準(infit = 1.41),然而以 outfit 指標來看,則不符合的題目增多,尤 其是 QLQ-PR25 的症狀向度,有三個題目「熱潮紅」、「腿部或腳踝腫 脹」、「體重增加」,C30 的症狀向度也有三個題目「呼吸喘」「便祕」
及「財務困難」,不符合假設,因此可知這二份問卷在這四大向度的題 目多符合 IRT 單一向度的假設,然而兩份問卷在整合之症狀向度的內部 一致性均較功能向度差一些。
題目特質與樣本潛在特質之適中性
由於 IRT 能在同一範疇中同時估計每一題目的難度與受試者的潛在 特質,並且題目的難度與受試者的潛在特質皆位於同一測量尺度(scale)
上,因此可藉以評估各範疇題目難度是否能合適用於測量患者於各範疇 的生活品質感受性(潛在特質),此評估方式稱之為評估各範疇的目標 精確性(targeting)。由於各範疇內題目平均難度皆設定以 0 為中心,而 平移調整其相對位置,因此若某一範疇所估計出的受試者潛在特質平均 值亦等於0,則表示此範疇題目難度適合此族群,而平均值若等於或大於 1(或等於或小於-1 時),即表示有較多的題目難度不適合,而造成較差 的目標精確性(mistargeting)(47);一般若此平均值為正數,則表示此範 疇的題目對於患者趨於簡單容易達成,反之若為負數則代表此範疇題目 較難達成(28)。
在本次的研究結果,EORTC QLQ-C30 之功能向度與症狀向度所估計 出患者潛在特質的平均值分別為 2.26 與 2.52;而在 EORTC QLQ-PR25 的功能向度與症狀向度所估計出的患者潛在特質之平均值,則分別為 -1.70 與 2.20。此結果顯示 EORTC QLQ-C30 問卷的二大向度對本研究的 個 案 而 言 , 題 目 難 度 都 趨 於 簡 單 而 容 易 達 成 ; 相 較 之 下 ,EORTC QLQ-PR25 問卷的功能向度對本研究的個案而言,題目難度卻又過於困難 而不易達成,不過在其症狀向度則也是偏簡單的,患者較容易達成。
題目難度與樣本潛在特質的區別性
IRT 中以 person separation index 來標示範疇題目的區辨能力,指標越 大,代表題目越能在測量中區辨出人的能力,達1.5 代表可接受的區辨能 力,2.0 代表良好的區辨能力,3.0 代表題目具有非常好的區辨能力。
本研究之EORTC QLQ-C30 之功能向度與症狀向度所估計出之區辨 性指標分別為 1.73 與 1.89;而在 EORTC QLQ-PR25 的功能向度與症狀 向度之區辨性指標,則分別為3.61 與 2.24。顯示 EORTC QLQ-C30 問卷 的區辨能力普通,而EORTC QLQ-PR25 問卷的區辨能力則較佳,尤其是 在功能向度方面。
題目閾值(門檻值)的範圍
扣除少數幾題門檻值變異情況過大的題目後,將二份問卷四大向度 中題目門檻估計值的範圍與攝護腺癌患者的能力估計值互相對照比較。
扣除少數幾題門檻值變異情況過大的題目後,將二份問卷四大向度 中題目門檻估計值的範圍與攝護腺癌患者的能力估計值互相對照比較。