行政院國家科學委員會專題研究計劃成果報告
點數對評定量表信度與效度影響之模擬研究(I)
Effects of Number of Categories on Reliability and Validity:
A Monte Carlo Study (I)
計畫編號:NSC 89-2413-H-002-048
執行期限:89 年 8 月 1 日至 90 年 7 月 31 日
主持人:翁儷禎
國立台灣大學心理學系
[email protected]
一、 中文摘要 本計畫以模擬研究的方法探討影響 評定量表信度的因素。模擬研究中操弄量 表點數、題目間的共變數、量表題數、受 試者判斷的正確度(即個別題目之信度), 與點量表題目得分分配五個變項,以探究 此五因素對內部一致性信度α,再測信 度,真分數與觀察分數相關的平方等三種 信度係數的影響。結果發現各交互作用項 的影響相當小,各因素的影響可以加成模 式解釋。內部一致性信度主要受題間共變 數與量表題數影響;再測信度主要受受試 者判斷的正確度影響,量表題數次之;真 分數與觀察分數相關的平方主要受受試者 判斷的正確度與量表題數影響,量尺點數 與分配次之。此研究結果可作為評定量表 設計之參考,以編製最能增進測量結果信 度之量尺。 關鍵詞:評定量尺、李克特式量尺、量尺 點數、題目分配、再測信度、內部一致 性信度 Abstr actThe Monte Carlo method was proposed to examine the factors that influence the reliability of Likert-type rating scales. The
number of response categories, inter-item covariance, number of items, respondents’ judgment accuracy (or reliability of individual item), and item score distributions of the rating scales. Dependent variables included three estimates of test reliability: the internal consistency reliability α , the test-retest reliability, and the squared correlation between true scores and observed scores. The research is the first part of a two-year project. Results indicated that internal consistency reliabilityαwas mainly affected by inter-item covariance and number of items. Respondent judgment accuracy and number of items affected test-retest reliability. The squared correlation between true scores and observed scores was affected by judgment accuracy, number of items, number of response categories, and item score distributions of the rating scales. It is anticipated that the results of the simulation study will assist developers of Likert-type rating scales in choosing appropriate design to achieve optimal reliability for measurement in their research.
Keywor ds:rating scales, Likert-type scales,
number of response categories, item distributions, test-retest reliability,
二、 緣由與目的 此研究為一兩年研究計畫之第一部 份,旨在探討評定量尺點數及其他因素對 量表信度的影響。評定量尺為社會科學研 究中常用的度量化方法之一,研究者常藉 評定量表測量個人特質或反應(楊、趙, 民 76)。建構評定量尺時,研究者一般會 考慮量尺點數與量尺標示語的選擇兩個向 度。自 Likert(1932)提出此測量方法以來, 已有許多學者探討此類量尺的特性,其中 量尺點數對量表信度影響的研究最多,廣 為研究者重視。然而過去有關此議題的研 究結果並不一致,研究方法與設計亦是紛 歧。大多數研究為以實際量表施測之實徵 研究,另有一些則以模擬研究的方法進 行。其中實徵研究使用的量表,討論的點 數以及信度的類別不盡相同。大多數研究 乃探討內部一致性信度係數α受點數影響 的情形(如:柯,民 83;翁,民 88;黃,民 75; Aiken, 1983; Halpin, Halpin, & Arbet, 1994; Jenkins & Taber, 1977; Komorita & Graham, 1965; Lissitz & Green, 1975; Masters, 1974; Matell & Jacoby, 1971; Oaster, 1989; Wong, Chuen, & Fung, 1993),點數對再測信度影響的研究則較少 (翁,民 88;黃,民 75;Jenkins & Taber, 1977; Lissitz & Green, 1975; Matell & Jacoby, 1971; Oaster, 1989)。再測信度研究由於需 要對同一群受試者施測至少兩次,較內部 一致性信度研究耗力費時,因之與其相關 的研究結果亦較少見。然而,再測信度受 量表點數的影響乃必須研究的議題,因為 內部一致性信度係數α與再測信度兩者所 關切的測量誤差是不同的,內部一致性信 度考慮的是題目間的相關一致性與量表測 量特質的同質性,再測信度則探討不同時
間測量結果的穩定性(Anastasi & Urbina, 1997)。一個具備高度內部一致性的量表, 如果在不同時間測量的結果並不穩定,亦 即再測信度低,則該量表將影響整體研究 推論的可信度。 以往的實徵研究中,有的研究者認為 點數與信度並無顯著關係(如:Aiken, 1983;
Wong, Chuen, & Fung, 1993),有的研究認
為點數與信度高低有關,但各研究建議的 最優點數亦不盡相同,少至兩、三點(如:
Matell & Jacoby, 1971),六、七點(如:柯,
民 83; Oaster, 1989; Symonds, 1924),乃至 多 達 18 點 或 更 多 ( 如 : Champney & Marshall, 1939)。Komorita 與 Graham (1965) 認為點數對信度的影響乃視題目的同質性 而定,對於同質的題目,兩點與六點的α 並無差異,但對異質性的題目,六點量表 的α值高於兩點量表。Masters(1974)則認 為點數的影響乃需考慮量表總分的變異 量。總分變異量高時,亦即受試者意見較 不同時,量表點數與α無關;但總分的變 異量較小,亦即受試者意見較接近時,增 加量表點數可提高變異量與量表的α值。 唯總分變異量同時受各題變異數與題間共 變 數 影 響 , 解 釋 上 之 意 義 或 較 模 糊 。 Churchill 與 Peter(1984)整合分析 108 個與 測量工具信度相關的市場行銷研究,結果 發現量表點數愈多信度愈高。他們所分析 的信度乃以內部一致性信度為主,再測信 度為輔。 在回顧一系列與量表點數相關的文 獻後,Guilford (1954)覺得多少點數最佳或 乃隨情境而異,因而建議就一量表而言, 多少點數最適當宜由實徵研究結果決定。 此建議固然很好且值得嘗試,但許多研究 可能無法在實際進行主要研究前,先進行 一系列前導研究來探討將要採用或編製之 量表的最佳點數。有鑑於此,Lissitz 與
Green (1975)乃率先以模擬研究的方法探 討量表信度如何隨著點數與題間共變數而 改變,盼望該研究結果能提供量表編製與 使用者一些線索,以選擇適當的點數。
繼 Lissitz 與 Green (1975)之後,Jenkins 與 Taber (1977)以 Lissitz 與 Green 的研究為 基本架構,再考慮可能與量尺點數交互影 響量表信度的其他因素,進一步探討量表 點數、題目間的共變數、量表題數、受試 者判斷的正確度(亦即個別題目之信度) 四個因素及其交互作用對信度係數的影 響。吳(民 85)亦以模擬實驗探討問卷長 度、項目間平均相關係數、各項目變異數 變異程度三者對內部一致性信度係數α之 影響,此研究乃評估各因素對模擬之連續 資料α值的影響,未將連續資料轉換成間 斷之評定量表式點資料,。Jenkins 與 Taber 的結果發現,操弄之四因素的交互作用並 不顯著,因此可以加成的模式整合這四個 因素對量表信度的影響。Lissitz 與 Green 及 Jenkins 與 Taber 此二模擬研究均發現量 表點數達到五點之後,就算點數增加,信 度亦不會隨之而增高,因而認為以五點量 尺進行測量即已足夠。然而此二研究假設 回答各點數的人數均等,亦即點量表的題 目 分 數 分 配 為 均 等 分 配 (uniform distribution)。此種分配在一般真實資料中 並不多見,也因此其結論不一定能直接類 推到實際資料上。Jenkins 與 Taber 亦指出, 假設各點數的人數均相等乃該研究的限 制,因為大多數實際資料的分配並非如 此 。 因 此 , 為 考 慮 題 目 分 配 的 影 響 , Bandalos 與 Enders (1996)乃進一步以十題 量表為標的,研究不同題目分配對信度的 影響,然其研究主題乃在探討連續真分數 分配與點量表觀察分數分配兩者的相似性 對信度的影響,且僅只研究內部一致性信 度係數α,而未包含再測信度等其他信度 估計值。因此,為增進模擬研究結果在實 際資料分析時的參考性,本研究以模擬研 究方法探討量尺點數等因素對量表信度的 影響時,將對連續的觀察分數作不同的處 理,以形成各式的點量表題目分配,而非 僅假設各點的機率相同。 簡言之,本研究以模擬研究的方法探 討量尺點數等五個變項對量表信度的影 響。信度估計延續 Lissitz 與 Green (1975) 及 Jenkins 與 Taber (1977)的作法,包含內 部一致性信度α,再測信度,真分數與觀 察分數相關的平方三者。模擬研究中除了 操弄 Jenkins 與 Taber 所探討的量表點數、 題目間的共變數、量表題數、受試者判斷 的正確度(即個別題目之信度)四個因素 外,亦操弄點量表的題目分配,使模擬情 境更接近實徵資料的特性,以提高此模擬 研究結果對量尺設計的參考價值。 三、研究方法 本研究共操弄五個獨變項,各獨變項 包含之數述如下。(a)量尺點數:量尺點數 涵蓋 2 至 14 點,此設計不僅包括 Lissitz 與 Green(1975)和 Jenkins 與 Taber (1977)所 研究的 2、3、5、7、9、10、14 點,並且 把其中的各數點量尺均包含在內。(b) 題目 間的共變數:此變項依 Lissitz 與 Green 和 Jenkins 與 Taber 的作法,包含 0.2、0.5、 0.8 三數值。(c) 量表題數:此變項依 Jenkins 與 Taber 的作法,包含 2、3、5、7、9、10、 14 題,另加 12、15 與 20 題三種情形。(d) 受試者判斷正確度:此變項依 Jenkins 與 Taber 的作法,包含 0.50、0.70、0.85、1.00 四種情形。(e) 點量尺題目得分分配:本研 究由檢視以往實徵資料中各點數量尺題目 的頻率分配(例如翁,民 88),選取較常 出現之分配,作為模擬研究中點量表題目
分配選取之依據。共選取六種分配情形, 包含均等分配、常態分配,以及四種不同 程度偏態之分配,此四分配之偏態係數與 峰度係數分別為(0.5,0.5)、(1.0,1.5)、 (1.5,2.25)與(2.0,4.0)。 此模擬研究之依變項包括內部一致 性信度α,再測信度,真分數與觀察分數 相關的平方等三種信度係數。資料產生步 驟乃根據 Lissitz 與 Green(1975)之作法,先 依古典測驗理論建構連續觀察資料,再轉 換成各種題目得分分配之點量表反應資 料。每一情境重覆 100 次,每次產生 100 個受試者資料。資料收集後,即計算各情 境各信度係數的平均數與標準誤等基本統 計量,並以變異數分析之η2探究各因素及 其交互作用對各信度係數的影響程度,η2 > .14 代表效果值高,η2 > .06 代表中等程 度效果值(Cohen, 1988)。 四、 結果與討論 表一列出五個操弄變項主要效果的效 果值大小η2。除了題數與判斷正確度對再 測信度的交互作用達中等程度效果(η2 =.08)外,所有的交互作用項均未有中等 程 度 以 上 的 效 果 , 與 Jenkins 和 Taber(1977)的結果一致,故表一僅列出主 要效果的效果值大小。結果發現影響各類 信度數值的變項不一。內部一致性信度α 主要受題間共變數與量表題數影響,受試 者判斷正確度亦有影響。再測信度主要受 受試者判斷正確度,另受量表題數與題間 共變數影響。真分數與觀察分數相關的平 方則同時受到受試者判斷正確度、量表題 數、點量尺題目分配型態與量尺點數影 響。此研究結果支持 Jenkins 和 Taber 結 果,惟本研究進一步提供題目分配特性對 信度的影響,題目分配主要影響真分數與 觀察分數相關的平方,對內部一致性信度 α與再測信度的影響小。 由於絕大多數的交互作用效果小,表 二乃列出各操弄變項每一情境下三信度係 數估計值的平均數與標準誤。整體而言, 三種信度估計值的平均數以再測信度最 高,真分數與觀察分數相關的平方次之, 內 部 一 致 性 信 度 α 最 低 , 與 Lissitz 與 Green(1975)及 Jenkins 和 Taber(1977)的 結果一致。三者的標準誤則以內部一致性 信度α高於其他兩者,再測信度與真分數 與觀察分數相關的平方的標準誤則相去不 大。表二中的信度平均數與標準誤乃多種 不同情境組合之信度係數的統計量,因此 顯示內部一致性信度α的數值容易因為抽 樣誤差以及本研究所操弄得量表條件而變 化,其餘兩者受到的影響相對而言則較小。 量尺點數主要影響真分數與觀察分數 相關平方的估計值,由表二的結果可發現 量尺點數超過六點後,真分數與觀察分數 相關平方估計值的增加並不大,超過八點 後增加量更少;此外,雖然量尺點數對其 於兩種信度估計值的影響不大,但可發現 點數超過五點後信度的增加量變小,七點 之 後 增 加 量 更 是 微 少 。 雖 然 Lissitz 與 Green(1975)及 Jenkins 和 Taber(1977)均建 議五點的量表設計即可有令人滿意的量表 信度,本研究的結果雖未與之相背,但若 檢視信度的平均值與標準誤,可發現偶數 點量尺採用六點,或是奇數點量尺採用七 點的結果應會較為穩定。 題目間的共變數大小對內部一致性信 度α影響極大,此乃與內部一致性信度α 的定義一致,因其主要的誤差來源為題目 同質性之高低,亦即題間共變數之大小。 量表題數對三種信度係數均有影響,其中 對內部一致性信度α影響最大。由表二可 發現當量表題數達到五或七題後,題數增
多對再測信度與真分數和觀察分數相關平 方兩種信度的增加量影響極微,內部一致 性信度α則需在量表題數達到九或十題後 信度估計值隨題數增加的程度方較趨緩。 受試者判斷正確度主要影響再測信度,再 者為真分數與觀察分數相關的平方。此結 果亦與預期一致,因為受試者判斷正確度 會影響受測者在同一份量表上反應的穩定 程度,亦即影響觀察分數的穩定性,進而 影響再測信度與真分數與觀察分數相關的 平方。此結果亦顯示評量量表信度時,如 果僅考慮內部一致性信度是不夠的,應再 評估再測信度,如此方能知道受測者在量 表反應上的穩定性。由於當量表編製完成 後,以量表為測量變項的實徵研究通常僅 收集一次量表資料,因此在量表發展歷程 中實在需要評估其再測信度,如此將來的 量表使用者方能知道一次測量所得的結果 是否穩定,量表結果的穩定與否極可能影 響整體研究的最終結論。 點量尺題目分配型態對信度係數的 影響主要呈現在真分數與觀察分數相關的 平方上,雖然點量尺分配型態偏離常態時 信度係數會下降,但此下降程度在內部一 致性信度α與再測信度上均極微,僅在真 分數與觀察分數相關的平方上較大,信度 係數平均數由常態分配時之.870 降至偏態 係數 2.0,峰度係數 4.0 時之.719。此低 影響度可能因為所操弄分配的型態並未極 端地偏離常態,譬如偏態為 3.0 或 4.0, 或是峰度高達 4.0 或 7.0 等。然而本研究 所操弄得分配型態應為一般研究較常見 者,顯示內部一致性信度α與再測信度對 量表題目分數分配的強韌性。臨床診斷用 心理測驗的題目分配可能異於一般研究, 而有偏態與峰度較高的題目分配,未來亦 可針對此類分配進行研究,以更全面性地 瞭解題目分配對信度係數的影響。 五、 計畫成果自評 本研究執行內容與原計畫相符,由於 點量表廣為研究者使用,本計畫之研究結 果將具理論與實用價值,可供研究者了解 各因素對信度之影響情形,並作為建構點 量表時之參考,選擇適合的量尺點數,以 提高測量工具的信度。研究成果在評定量 尺使用廣泛的國內兼具學術及應用價值, 且可與國外研究比較,應適合於國內外學 術期刊發表。 六、 參考文獻 吳瑞屯(民85)。影響α內部一致性係數的 因 素 。「 中 華 心 理 學 刊 」, 卷 38 : 51-59。 柯永河(民83)。同一量尺,類似受試,不 同作答方式會產生甚麼測驗結果? 「測驗年刊」,卷41:55-72。 翁儷禎(民88)。「頻率及同意度副詞的心 理量尺值研究」。國科會專題研究計 劃報告:NSC 88-2423-H-002-010。 黃恆獎(民75)。「問卷調查量度方法之研究 -以Likert量表為例」。國立台灣大 學商學研究所碩士論文。 楊中芳、趙志裕(民76)。中國受試者所面 臨的矛盾困境:對過分依賴西方評定 量表的反省。「中華心理學刊」,卷 29:113-132。
Aiken, L. R. (1983). Number of response categories and statistics on a teacher
rating scale. Educational and
Psychological Measurement, 43,
397-401.
Anastasi, A., & Urbina, S. (1997). Psychological testing (7th ed.). London: Prentice-Hall International,
Bandalos, D. L., & Enders, C. K. (1996). The effects of nonnormality and number of resonse categories on reliability. Applied Measurement in Education, 9, 151-160.
Champney, H., & Marshall, H. (1939). Optimal refinement of the rating scale. Journal of Applied Psychology, 23, 323-331.
Churchill, G. A., Jr., & Peter, J. P. (1984). Research design effects on the reliability of rating scales: A meta-analysis. Journal of Marketing Research, 21, 360-375.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates.
Halpin, G., Halpin, G., & Arbet, S. (1994). Effects of number and type of response choices on internal consistency reliability. Perceptual and Motor Skills, 79, 928-930.
Guilford, J. P. (1954). Psychometric methods. New York: McGraw-Hill. Jenkins, G. D., Jr., & Taber, T. D. (1977).
A Monte Carlo study of factors affecting three indices of composite scale reliability. Journal of Applied Psychology, 62, 392-398.
Komorita, S. S., & Graham, W. K. (1965). Number of scale points and the reliability of scales. Educational and
Psychological Measurement, 15,
987-995.
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140.
Effect of the number of scale points on reliability: A Monte Carlo approach. Journal of Applied Psychology, 60, 10-13.
Masters, J. R. (1974). The relationship between number of response categories and reliability of Likert-type
questionnaires. Journal of
Educational Measurement, 11, 49-53. Matell, M. S., & Jacoby, J. (1971). Is there
an optimal number of alternatives for
Likert scale items? Study I:
Reliability and validity. Educational and Psychological Measurement, 31, 657-674.
Oaster, T. R. F. (1989). Number of alternatives per choice point and stability of Likert-type scales. Perceptual and Motor Skills, 68, 549-550.
Symonds, P. M. (1924). On the loss of reliability in ratings due to coarseness of the scale. Journal of Experimental Psychology, 7, 456-461.
Wong, C.-S., Chuen, K.-C., & Fung, M.-Y. (1993). Differences between odd and even number of response scale: Some empirical evidence. Chinese Journal of Psychology, 35, 75-86.
表一 各操弄變項在三信度指標之主要效果的效果值η2 信度 操弄變項 內部一致性信度α 再測信度 真分數與觀察分數 相關的平方 量尺點數 .019 .035 .153 題間共變數 .452 .070 .049 量表題數 .326 .158 .208 受試者判斷正確度 .087 .521 .270 點量尺題目分配 .008 .009 .163 註:所有效果值對應之 F 值皆顯著(p<.001)。
表二 操弄變項各情境之三信度係數估計值的平均數與標準誤 信度 內部一致性係數α 再測信度 真分數與觀察分數 相關的平方 操弄變項 變項水準 平均數(標準誤) 平均數(標準誤) 平均數(標準誤) 2 .632(.236) .808(.177) .683(.144) 3 .653(.233) .826(.167) .719(.151) 4 .688(.223) .854(.146) .786(.135) 5 .706(.219) .869(.136) .813(.131) 6 .714(.216) .876(.131) .830(.124) 7 .720(.215) .882(.127) .835(.120) 8 .723(.214) .884(.125) .844(.119) 9 .726(.213) .887(.122) .846(.117) 10 .728(.212) .888(.122) .851(.117) 11 .727(.213) .887(.122) .849(.116) 12 .728(.212) .888(.122) .852(.116) 13 .731(.212) .891(.120) .855(.115) 量尺點數 14 .730(.212) .891(.121) .854(.118) .2 .510(.197) .823(.160) .774(.151) .5 .749(.163) .882(.126) .832(.127) 題間共變數 .8 .865(.117) .910(.106) .844(.117) 2 .448(.245) .759(.192) .688(.169) 3 .531(.233) .795(.173) .729(.157) 5 .637(.210) .840(.145) .781(.137) 7 .698(.191) .867(.126) .812(.123) 9 .742(.173) .886(.113) .834(.113) 10 .759(.165) .894(.108) .842(.110) 12 .787(.151) .905(.098) .855(.101) 14 .809(.141) .915(.092) .866(.097) 15 .817(.136) .920(.085) .871(.092) 量表題數 20 .854(.114) .935(.072) .889(.083) 0.50 .610(.225) .730(.145) .709(.144) 0.70 .696(.213) .843(.103) .804(.116) 0.85 .743(.205) .914(.066) .857(.101) 受試者判斷正確 度 1.00 .784(.197) 1.000(.000) .897(.098) 均等分配 .727(.212) .886(.124) .861(.116) 常態分配 .727(.211) .883(.125) .870(.121) 0.5/0.50 .720(.214) .878(.131) .854(.124) 1.0/1.50 .711(.217) .873(.134) .827(.126) 1.5/2.25 .690(.226) .859(.148) .770(.131) 點量尺題目分配 (偏態/峰度) 2.0/4.00 .674(.233) .850(.154) .719(.129)