量表的發展與信度、效度的檢測

第二章文獻查證

第三節量表的發展與信度、效度的檢測

床測驗分數或臨床知識之相關性，則相關性較不顯著(Park, Kang, Lee, & Myung, 2015)。

統整以上文獻發現，臨床推理的評量方式為多元性，其標準化過程、評量方式的影響與成效，仍有待驗證。影響臨床推理的重要因素，包含個人動機 (motivation)、能否辨識出重要訊息(attention to detail)、提出疑問(ability to formulate questions)、覺察知識的落差點(awareness of knowledge gaps)、覺察自己的思考(awareness of own thinking)以及能否舉一反三(ability to draw analogies)。此外，認知能力、生活經驗、成熟度、實務技能程度、以及判斷(judging)等也可能影響臨床推理能力的發展(Fowler, 1997; Simmons, 2010; Tucker, & Bradshaw,

2014)。臨床推理能力與學業成績、教學策略之間的關聯性也是值得關注的焦點。，

研究者在發展臨床推理傾向量表時，除了澄清臨床推理概念與內涵，並擬出護理學生臨床推理之能力指標，同時也應重視臨床推理之相關影響因素，以期達成臨床推理傾向之完整評量。

填寫格式並發展量表說明書、預試量表、實際施測並評估信度與效度。有關量表的發展與信度、效度的檢測過程，陳述如下：

一、決定要尋求的資訊內容(determine the information to be sought)

首先須確認所要測量的內容或範疇，設定一個藍圖或明確的表格，並且衡量每一個內容範疇的重要性，以便決定所需的題數及特異性(specificity)程度。

Devellis(2012)認為研發量表之前，必須先有完整概念(conceptual formulation)，包括相關現象的描述與具體操作定義；如依據文獻及尋求專家意見架構概念，建立測量變項(variable)與其他概念之間的關係，以發展出符合工具概念主題之內容。

二、研發量表題項(develop the questions or items)

量表題項的架構，通常包含一個題幹與一組選擇答案。李克氏量表(Likert scale)普遍使用於評量受試者的意見、信念以及態度之作答方式，以陳述句說明測量內容。每個試題皆有一組反應答案，所使用的答案組可為奇數或偶數分量表 (如3、5、7分量表)，或者為避免受試者選擇中立、模糊不清的答案而使用偶數量表(如4、6、8分量表) (Polit, & Beck, 2012)。從完全不同意至完全同意，特質越強的受試者，在量表題目作答「同意」的傾向應該愈大，表示題目是具有鑑別度 (朱，2014)。

有關題項內容設計，應該考量題項的語意清晰(clarity of meaning)容易閱讀，

受試者所使用的語言，其理解與答題能力，以及可能造成偏差的反應(bias responses)，如疲倦、無意願、符合社會的期望等，需採用最佳方法引發出受試

者的敏感度(sensitive)或個人訊息。字辭的應用應避免專業用詞、雙否定以及複選題，句子宜簡短，避免使用負向字眼。為了讓受試者能正確詮釋題目，提高願意作答，可使用第一人稱或第二人稱描述，給予明確量表填答指引，讓受試者了解作答方式才能選出適合的答案(Devellis, 2012; Polit, & Beck, 2012)。此外，

Devellis (2012)認為應選擇能反映出潛在變項(latent variable)，且對於真實分數 (true score)具有敏感性(sensitive) 之題目。題庫試題最終應成為單一方向 (unidimensional scale)量表，才能確切評量研究者想測量的潛在變項，題庫題目總數至少為最終量表題數之三至四倍，若發展較為困難之變項，則應至少增加量表總題數之50% 題項數。

三、決定量表項目的順序(determine the sequence of the questions or items)

量表題項順序是不同於一般會談的指引。自陳式量表的量表，為增加受試者的動機與合作，量表題目的排序通常從受試者最有興趣的主題開始，以促使受試者能專注答題。也有學者建議使用隨機排序，以降低答題前後的相互干擾(Streiner

& Norman, 2008)。

四、決定量表的清晰度及完整性(subject the questionnaire to review)

此步驟為延請主題專家協助內容效度檢測。內容效度 (content validity)是指對測量工具內容的合適性進行系統檢驗，主要由專家學者檢視研究概念以及測量面向，協助選擇合適題目，並以量化方式顯示同意程度，確認測驗試題包含所有預測行為特質的代表性題目，因而建構能真正代表並反應所要研究概念的量表。

一般以內容效度指標 (content validity index, CVI) 評值測量工具的內容效度

(content validity)，即是以量化的方式，顯示專家對於測量工具之「代表性」、「合

適性」及「明確性」的同意程度進行量表評值。分數愈高表示代表性、合適性即明確性愈高。針對量表的每個題項選擇使用三、四或五等份量表(rating scales)進行評量(Polit & Beck, 2012)。

護理相關研究最常使用的內容效度為：題項內容效度 (Item-Content Validity Index, I-CVI)及量表內容效度(Scale-CVI, S-CVI)，並依據內容效度計分結果考量修改(revising)、刪除(deleting)或替代(substituting)量表題項。一般延請3~10位專家評值內容效度，且內容效度指標 (CVI)至少須達0.80以上較具有代表性。意即 80%以上的專家認為分數3分或3分以上之題目在量表中的比例，以建立專家內容效度之評定，然後再依專家的建議進行量表修訂，修改各題項的字義，使語意更明確，更為填答者所接受（林，2013；Polit & Beck, 2012；Waltz, Strickland, & Lenz, 2010）。

五、將量表調整為病患填寫格式，並發展問卷說明書(draft the questionnaire and cover letter)

此步驟為試圖量表修改以適用於受試者，並提供其明確、清晰及容易引導填寫作答之指引。通常受試者閱讀能力至少應等同於12歲的能力(Streiner & Norman, 2008)。量表的題項組合完成時，可延請熟悉此量表設計的專家進行量表檢閱，

以避免受試者感到挫折，並能順利完成填寫。問卷說明書的內容設計，包括提供

清楚解釋目的、測驗方式與測驗完成時間，同時考量受試者人權與隱私保護。

六、預試量表(pretest the questionnaire)

此步驟為進行量表的預試，尋求符合量表測量之樣本，透過實際填答，評價量表的清晰度、適當性、填寫的困難與建議改善之處；亦可透過預試確認完成量表所需時間。參與預試者應來自於該研究的目標母群體(target population)，一個量表大約為10至20人(Polit, & Beck, 2012)。完成此步驟之後，可隨後進行信度評量。

七、實際施測並評估效度與信度(administer and score the questionnaire)

量表的品質檢測，包括信度與效度檢測，藉以瞭解量表的敏感度、穩定性是否足以反應所欲測量概念的真實狀況(林，2013)。樣本數須足夠才能確認量表題項的測驗結果具有穩定性；並且應考量正常回收率80~90%，以及流失率約為 10~30% (Polit & Beck, 2012)。本研究之臨床推理傾向量表(CRRS)之效度擬以試題反應理論(item response theory, IRT)驗證量表之建構效度，並於P.32詳細說明。

信度(reliability)是指研究測量工具在重複操作時也能得到相同的結果。信度為應用相關係數(correlation coefficient)解釋兩個或兩個以上的量表其測量結果的相關係數一致性，係數(α係數)範圍從0~1，至少需達0.70以上才算是較佳的信度。

有信度的測量工具應該包括三種特質。第一種穩定性(stability)，指一個工具在重複操作之下能產生同樣的測量結果；第二種同質性(homogeneity)，指測量工具的所有試題都是測量同一個現象或概念；第三種一致性(consistency)，使用其他測

量相同概念或行為的量表時，測量結果會與本來量表的結果達成一致(Polit &

Beck, 2012)。信度測量方式，以下進行描述：

(一) 穩定性：可應用再測信度檢測量表的穩定度，以同樣的量表、相同病患，在類似的環境或情境之下進行多次測量，所測得的資料應該是相同的。通常使用皮爾森積差(Pearson’s γ)檢測測量之間的相關性。另一種測量方法，平行量表為同一種工具有兩種版本，類似於再次信度，然可能因記憶影響結果，且發展有其困難性，文獻上較少使用。

(二) 同質性：可進行單題-總量表相關((corrected item‐total correlation, CITC))評量，

文獻所認可的相關係數至少為0.3。若為新量表，則α值於0.6~0.7為最低程度；

已發展之量表α值則需0.8以上。早期使用折半信度(split-half reliability)，將量

表分成兩部份以進行比較，但缺點為不同的折半方式會得到不同的評估值 (Burns & Grove, 2009)。目前最常使用的是Cronbach’s α，係數大於0.8，可視為具有良好的信度。Cronbach’s α係數越高，表示內在一致性越高；一般大於或等於0.8可視為具有良好的信度(Burns & Grove, 2009)。

(三) 一致性：由兩位或兩位以上研究觀察者於同一個時段實際觀察受試者的行動，

瞭解測量者間信度(inter-rater reliability)與一致性，可使用兩種方法評量，一種是由不同觀察者或研究者使用同一種測量工具測量相同的現象，另一種則是使用兩個平行對等的測量工具在同一個時間進行測量(林，2012；Burns &

Grove, 2008)。

在文檔中國立臺北護理健康大學護理系博士論文 (頁 51-57)

第二章 文獻查證

第三節 量表的發展與信度、效度的檢測

第二章文獻查證

第三節量表的發展與信度、效度的檢測