• 沒有找到結果。

量表的發展與信度、效度的檢測

第二章 文獻查證

第三節 量表的發展與信度、效度的檢測

床測驗分數或臨床知識之相關性,則相關性較不顯著(Park, Kang, Lee, & Myung, 2015)。

統整以上文獻發現,臨床推理的評量方式為多元性,其標準化過程、評量方 式的影響與成效,仍有待驗證。影響臨床推理的重要因素,包含個人動機 (motivation)、 能 否 辨 識 出 重 要 訊 息(attention to detail)、 提 出 疑 問(ability to formulate questions)、覺察知識的落差點(awareness of knowledge gaps)、覺察自己 的思考(awareness of own thinking)以及能否舉一反三(ability to draw analogies)。此 外,認知能力、生活經驗、成熟度、實務技能程度、以及判斷(judging)等也可能 影響臨床推理能力的發展(Fowler, 1997; Simmons, 2010; Tucker, & Bradshaw,

2014)。臨床推理能力與學業成績、教學策略之間的關聯性也是值得關注的焦點。,

研究者在發展臨床推理傾向量表時,除了澄清臨床推理概念與內涵,並擬出護理 學生臨床推理之能力指標,同時也應重視臨床推理之相關影響因素,以期達成臨 床推理傾向之完整評量。

填寫格式並發展量表說明書、預試量表、實際施測並評估信度與效度。有關量表 的發展與信度、效度的檢測過程,陳述如下:

一、決定要尋求的資訊內容(determine the information to be sought)

首先須確認所要測量的內容或範疇,設定一個藍圖或明確的表格,並且衡量 每一個內容範疇的重要性,以便決定所需的題數及特異性(specificity)程度。

Devellis(2012)認為研發量表之前,必須先有完整概念(conceptual formulation),包 括相關現象的描述與具體操作定義;如依據文獻及尋求專家意見架構概念,建立 測量變項(variable)與其他概念之間的關係,以發展出符合工具概念主題之內容。

二、研發量表題項(develop the questions or items)

量表題項的架構,通常包含一個題幹與一組選擇答案。李克氏量表(Likert scale)普遍使用於評量受試者的意見、信念以及態度之作答方式,以陳述句說明 測量內容。每個試題皆有一組反應答案,所使用的答案組可為奇數或偶數分量表 (如3、5、7分量表),或者為避免受試者選擇中立、模糊不清的答案而使用偶數 量表(如4、6、8分量表) (Polit, & Beck, 2012)。從完全不同意至完全同意,特質越 強的受試者,在量表題目作答「同意」的傾向應該愈大,表示題目是具有鑑別度 (朱,2014)。

有關題項內容設計,應該考量題項的語意清晰(clarity of meaning)容易閱讀,

受試者所使用的語言,其理解與答題能力,以及可能造成偏差的反應(bias responses),如疲倦、無意願、符合社會的期望等,需採用最佳方法引發出受試

者的敏感度(sensitive)或個人訊息。字辭的應用應避免專業用詞、雙否定以及複 選題,句子宜簡短,避免使用負向字眼。為了讓受試者能正確詮釋題目,提高願 意作答,可使用第一人稱或第二人稱描述,給予明確量表填答指引,讓受試者了 解作答方式才能選出適合的答案(Devellis, 2012; Polit, & Beck, 2012)。此外,

Devellis (2012)認為應選擇能反映出潛在變項(latent variable),且對於真實分數 (true score)具 有 敏 感 性(sensitive) 之 題 目 。 題 庫 試 題 最 終 應 成 為 單 一 方 向 (unidimensional scale)量表,才能確切評量研究者想測量的潛在變項,題庫題目總 數至少為最終量表題數之三至四倍,若發展較為困難之變項,則應至少增加量表 總題數之50% 題項數。

三、決定量表項目的順序(determine the sequence of the questions or items)

量表題項順序是不同於一般會談的指引。自陳式量表的量表,為增加受試者 的動機與合作,量表題目的排序通常從受試者最有興趣的主題開始,以促使受試 者能專注答題。也有學者建議使用隨機排序,以降低答題前後的相互干擾(Streiner

& Norman, 2008)。

四、決定量表的清晰度及完整性(subject the questionnaire to review)

此步驟為延請主題專家協助內容效度檢測。內容效度 (content validity)是指 對測量工具內容的合適性進行系統檢驗,主要由專家學者檢視研究概念以及測量 面向,協助選擇合適題目,並以量化方式顯示同意程度,確認測驗試題包含所有 預測行為特質的代表性題目,因而建構能真正代表並反應所要研究概念的量表。

一般以內容效度指標 (content validity index, CVI) 評值測量工具的內容效度

(content validity),即是以量化的方式,顯示專家對於測量工具之「代表性」、「合

適性」及「明確性」的同意程度進行量表評值。分數愈高表示代表性、合適性即 明確性愈高。針對量表的每個題項選擇使用三、四或五等份量表(rating scales)進 行評量(Polit & Beck, 2012)。

護理相關研究最常使用的內容效度為:題項內容效度 (Item-Content Validity Index, I-CVI)及量表內容效度(Scale-CVI, S-CVI),並依據內容效度計分結果考量 修改(revising)、刪除(deleting)或替代(substituting)量表題項。一般延請3~10位專 家評值內容效度,且內容效度指標 (CVI)至少須達0.80以上較具有代表性。意即 80%以上的專家認為分數3分或3分以上之題目在量表中的比例,以建立專家內容 效度之評定,然後再依專家的建議進行量表修訂,修改各題項的字義,使語意更 明確,更為填答者所接受(林,2013;Polit & Beck, 2012;Waltz, Strickland, & Lenz, 2010)。

五、將量表調整為病患填寫格式,並發展問卷說明書(draft the questionnaire and cover letter)

此步驟為試圖量表修改以適用於受試者,並提供其明確、清晰及容易引導填 寫作答之指引。通常受試者閱讀能力至少應等同於12歲的能力(Streiner & Norman, 2008)。量表的題項組合完成時,可延請熟悉此量表設計的專家進行量表檢閱,

以避免受試者感到挫折,並能順利完成填寫。問卷說明書的內容設計,包括提供

清楚解釋目的、測驗方式與測驗完成時間,同時考量受試者人權與隱私保護。

六、預試量表(pretest the questionnaire)

此步驟為進行量表的預試,尋求符合量表測量之樣本,透過實際填答,評價 量表的清晰度、適當性、填寫的困難與建議改善之處;亦可透過預試確認完成量 表所需時間。參與預試者應來自於該研究的目標母群體(target population),一個 量表大約為10至20人(Polit, & Beck, 2012)。完成此步驟之後,可隨後進行信度評 量。

七、實際施測並評估效度與信度(administer and score the questionnaire)

量表的品質檢測,包括信度與效度檢測,藉以瞭解量表的敏感度、穩定性是 否足以反應所欲測量概念的真實狀況(林,2013)。樣本數須足夠才能確認量表題 項的測驗結果具有穩定性;並且應考量正常回收率80~90%,以及流失率約為 10~30% (Polit & Beck, 2012)。本研究之臨床推理傾向量表(CRRS)之效度擬以試 題反應理論(item response theory, IRT)驗證量表之建構效度,並於P.32詳細說明。

信度(reliability)是指研究測量工具在重複操作時也能得到相同的結果。信度 為應用相關係數(correlation coefficient)解釋兩個或兩個以上的量表其測量結果的 相關係數一致性,係數(α係數)範圍從0~1,至少需達0.70以上才算是較佳的信度。

有信度的測量工具應該包括三種特質。第一種穩定性(stability),指一個工具在重 複操作之下能產生同樣的測量結果;第二種同質性(homogeneity),指測量工具的 所有試題都是測量同一個現象或概念;第三種一致性(consistency),使用其他測

量相同概念或行為的量表時,測量結果會與本來量表的結果達成一致(Polit &

Beck, 2012)。信度測量方式,以下進行描述:

(一) 穩定性:可應用再測信度檢測量表的穩定度,以同樣的量表、相同病患,在 類似的環境或情境之下進行多次測量,所測得的資料應該是相同的。通常使 用皮爾森積差(Pearson’s γ)檢測測量之間的相關性。另一種測量方法,平行量 表為同一種工具有兩種版本,類似於再次信度,然可能因記憶影響結果,且 發展有其困難性,文獻上較少使用。

(二) 同質性:可進行單題-總量表相關((corrected item‐total correlation, CITC))評量,

文獻所認可的相關係數至少為0.3。若為新量表,則α值於0.6~0.7為最低程度;

已發展之量表α值則需0.8以上。早期使用折半信度(split-half reliability),將量

表分成兩部份以進行比較,但缺點為不同的折半方式會得到不同的評估值 (Burns & Grove, 2009)。目前最常使用的是Cronbach’s α,係數大於0.8,可視 為具有良好的信度。Cronbach’s α係數越高,表示內在一致性越高;一般大於 或等於0.8可視為具有良好的信度(Burns & Grove, 2009)。

(三) 一致性:由兩位或兩位以上研究觀察者於同一個時段實際觀察受試者的行動,

瞭解測量者間信度(inter-rater reliability)與一致性,可使用兩種方法評量,一 種是由不同觀察者或研究者使用同一種測量工具測量相同的現象,另一種則 是使用兩個平行對等的測量工具在同一個時間進行測量(林,2012;Burns &

Grove, 2008)。