國小學生體育態度簡式量表編製研究

(1)

國小學生體育態度簡式量表編製研究

林本源

^∗

摘要

本研究目的是發展「國小學生體育態度簡式量表」。研究工具以中小學學生體育態度量表 51 題版為基礎。研究對象為台閩地區小學四年級至六年級男、女學生；研究分為二階段，第一階段進行原始量表的測驗品質檢驗，

抽取北、中、南四縣市之有效樣本443 份進行資料分析；第二階段研究以多變項概化理論進行概化研究與決斷研究後，編擬簡式版試題。研究結果顯示原量表之測驗品質穩定；多變項概化理論提供研究者進行決斷研究時諸多測驗訊息。本研究編製之「國小學生體育態度簡式量表」信、效度俱佳，在不失原測驗品質下更具有經濟有效與簡便實施的特性，對於國小階段的體育態度施測提供更佳的選擇。

關鍵詞：多變量概化理論、概化研究、決斷研究、評分量表、概化信度

∗ 國立金門技術學院運動與休閒系副教授

(2)

壹、緒論

學生對於體育課的態度傾向，一直是學校體育工作者關注的議題，許多研究（Silverman & Subramaniam, 1999）認為學生對於學校體育課所持有積極或是消極的態度，將在某種程度上影響著課堂外，甚至日後參與體育活動的意願，而這將是學校體育課程存在的重要價值。

運動教育學界逐漸重視主體知識的態度議題，嘗試透過測驗工具得到來自學生真實而全面性的體育態度，藉以瞭解於學校體育實施的效益，以及目前在課程、師資或是教學上的疏漏不足之處，做為未來實施學校體育課的重要參考依據。然而檢視國內的相關測驗工具發現是欠缺與不足的，絕大部分的相關研究議題在影響體育態度的因素，或是實施體育課程的教學（課程）

滿意度，僅阮如鈞（1973）編製的大學生體育態度量表，以及林本源（2002）

編製的中小學學生體育態度量表兩份測驗工具，其中阮如鈞（1973）係參考各國體育課程實施目標，特別是Wear（1951）對體育課程實施目標的論述，

其共編寫成205 條陳述題；該研究為五點量表，預試對象為台灣師範大學三、

四年級的男生，經由試題分析後，原 120 道題目修改成為 112 道正式測驗的題目；在信效度的建立過程中，該研究又將題目陸續刪減為 65 題及 50 題。

林本源（2002）的「學生體育態度量表」依據社會心理學對態度的定義，將態度分為「認知」、「情感」和「行動傾向」等三個向度，以國內體育課程相關目標作為初步編擬試題的題幹，共計編擬量表試題 75 題，其中分為「認知」、「情感」與「行動傾向」三個層面，在信、效度分析後選取51 題作為正式施測的試題。

研究檢視兩篇測驗工具的編製對體育學術在探究學生體育態度相關研究上的影響發現， 1973 年至 2001 年的 29 年間以關鍵詞「體育態度」在中華民國期刊論文網搜尋共計有 6 篇相關文獻，並大都以阮氏量表為基礎或是自編（組）問卷的相關研究，目的都是對學生在學校體育教學中所表現積極或消極的態度傾向進行議題的探究；在測量態度的向度部分，除了阮氏所參考的Wear（1951）態度量表是以態度理論的多向度概念作為基礎進行研究設計之外，大多數均為對單一焦點的研究，其中特別在學生對於體育課程的滿意度為大宗，而也有少數對態度的單一向度所進行的研究文獻（楊志顯，1999）。

在研究的對象方面，因為阮氏量表的施測對象為大學生，因此後續使用該工

(3)

具的絕大多數研究對象是大專學生，僅 1 篇研究體育態度的對象為小學生；

而至於研究對象是跨越不同學習階段的研究文獻則未被發現。

相同方法搜尋 2002 年至 2010 年間則發現以「體育態度」一詞作為標題的研究文獻陸續出現，例如劉照金、周宏室（2002），郭仰三（2005）等；但是相較之下，對於體育教學或是課程的滿意度研究仍為大宗，大都以體育教學（課程）滿意度為議題進行之研究。在研究的對象方面，仍是以大專學生為主，但是也開始出現以國中生或是高中職生為對象的相關研究。研究尚發現在中華民國博碩士論文網中資料引用林本源（2002）的博碩士論文達 35 篇，論文的研究主題多集中在運動教育的相關議題；在研究對象上研究對象為國小學生者占60%強，國中學生占 24%，高中學生占 16%，大專學生則不到1%，這個現象似乎說明目前國內運動教育學在學位論文與一般體育專業期刊在研究對象相異的現狀，研究者認為這種現狀應該是學位論文多為師範教育體系的研究生（占 80%）或是在職進修的國中小教師所撰寫，因此所關注的議題多集中在中小學學生；而體育專業期刊中的發表者大多為大專院校教師，因此研究對象往往是其熟悉的任教學校。

根據上述兩份測驗工具的分析，研究者認為以目前國內外對於運動教育學研究的熱潮，測驗工具的需求勢必大增，而測驗工具的品質更直接影響到研究結果的描述或是推論，因此編製良好的測驗工具是當務之急。林本源

（2002）的「中小學學生體育態度量表」以「態度」理論為經，本國現行「體育目標」為緯，在「總加評分量表」（Summating rating scale）的「重複測量」

和「測量加總」假設概念下進行試題分析，最後得到三個向度51 題的試題，

然題目數過多諸多使用者認為應該首先改善的缺點，畢竟相較於簡化的測驗工具，後者往往能有效提高填答意願及有效提昇測驗品質（吳齊殷， 1991/1999、Beaton, Wright, & Katz, 2005）；而呂以榮（1992/2002）認為大部分的量表通常不會超過三、四十題的測驗題目數，也往往只能當作隱約的規範，因為研究者無法從有限的測驗訊息中得到決斷量表長度的依據，這是測驗工具發展上亟待突破的議題。一般而言，如果整體測驗的題目數過多，以致於影響填答者的作答意願之際，研究者通常會提高試題分析的門檻，以降低因為題目數多而影響測驗品質的可能性；但是減少題目數量又會造成整體信度下降，直接影響到測驗品質，因此試題分析的門檻標準何在？合理而適當的量表長度為何？

(4)

在量表簡化的效益上，一般認為α值是求得測驗內部一致性信度的估計指標，有賴於實際資料測量的適當性；通常測驗的長度越長，其測驗信度越高，當測驗題數較少時，增加或刪減一個題數，對α值的變化是相當大的；

當測驗的題數增加時，α值也會增加（除非是相當差的問項）；因此，量表長度的增加，有利於測驗信度的提高與信賴區間的擴大，亦使題目與真實分數之間越加接近；然而，冗長的量表題數對於受試者而言可能是一大負擔，對於測驗的品質而言更是不利的影響因素（吳齊殷，1991/1999；黃登月、王文中，2005）。

因此當測驗信度高時，即應檢視測驗的長度，若是測驗長度會對受試者產生填答的負擔時，研究即應該考慮編製簡式版測驗，然而測驗長度何者為佳？究者認為應該視研究對象及目的而定，研究對象為老年人或是閱讀能力差者，與研究對象為一般青年學子，其閱讀容忍的負擔量就不相同；而研究目的為檢核病狀，如中風病人徵狀檢核表，與研究目的為對於事物的喜好態度等，其測驗長度的要求也就不一樣。總之，在測驗長度的認定標準上，多數研究均為主觀判斷因素為多，而就體育運動領域而言，一般人格或是態度的測驗工具，研究者認為以呂以榮（1992/2002）建議大部分的量表通常不超過三、四十題的測驗題目數為佳。

Beaton, Wright 和 Katz（2005）也認為短式（或稱簡化、袖珍）量表較為吸引受試者，而且具有省時、容易實施、作答反應時的負擔最小，以及能降低遺漏值的出現等，然而簡化後的量表卻也因而必須付出總特徵值降低的代價。另外，Green 和 Frantom（2002）在調查問卷發展的幾個要點上也說明簡化後的測量工具，其測驗的品質將會提高，因此調查問卷應該盡可能精簡。

因此就預期的效益而言，簡化後的測驗工具將更具有實施的方便性與有效性，特別是在可控制的測驗品質要求下（如不同簡化方式的決斷研究推估），

簡式版的測驗將是未來的主流。

對於問卷量表進行「簡式版」的編製研究中，在中華民國期刊論文網的搜尋中並未見到體育運動領域的學術發表，大多為教育、心理及醫學等領域的相關研究，特別是在工作實務上需求而編製的簡式智力量表相關研究數量頗多，例如鄭玲宜、王珮芳、郭乃文、徐道昌（1991）在編製「簡式中文魏氏兒童智力量表」的研究中，其三個取向包括「保留全部測驗以奇偶數規則

(5)

以英文版建議的複迴歸方式進行選題研究。陳心怡（1999）編製的「簡式魏氏兒童智力量表」研究中，是以刪減分測驗的方式建立四個分測驗的簡式量表。陳心怡、花茂棽、朱建軍（2007）在編製簡式的台灣魏式成人智力量表第三版（WAIS-Ⅲ）研究中，是以在語文理解與知覺組織二因素內各選一個分測驗的方式進行測驗的組合，該研究考量的因素除了包括心理計量特性、

臨床意義性，及施測計分之省時便易性等多項因素外，亦比較文獻中常見三種全量表智商估計方法（比例分配法、線性等化法與迴歸預測法）之估計準確度。蔣世光、譚偉象、潘能靜、張勤金、陳永誠、平烈勇、林知遠（2007）

在檢驗魏氏成人智力測驗第三版（WAIS-Ⅲ）的 Blyler 和四個分測驗組成的簡式版本研究中，也是以抽取分測驗的方式進行測驗的編製。

以及衛生教育方面的研究文獻，例如張智仁、吳晉祥、陳純誠、彭巧珍

（2000）的「衛教評估問卷」的簡化原則是以鑑別力分析、內部一致性係數及因素分析的方法，從各因素及各向度中選出較有代表性之題目作為簡式版問卷。魏米秀、呂昌明（2005）在「健康促進生活形態中文簡式量表」的編製研究中，以維持原量表的因素結構，並依據 Marsh, Hua, Balla 和 Grayson

（1998）的研究結果，以樣本數大於 100 者，每一因素至少選 4 個測驗題目以求得穩定的解，該研究以因素負荷量大、單題與分量表相關大者，以及題目與語意的適當性等三個選題原則進行簡式量表的選題。

醫學界廣泛使用Lee 和 Lee（1990）編製的「簡式症狀量表」中，是以題目與該向度的相關必須達 0.8 以上，加上研究者主觀合併題意相近的題目後而成；林麗嬋（1995）在「台灣老人壓力源量表」修訂的研究中是以主觀合併原始量表類似的項目，及刪除某些無法有效測出壓力的項目編製而成；洪儷瑜、余曉珍（1998）進行「青少年社會行為簡式量表」的編製研究是以現代測驗理論的單參數模式進行，以正負 1 個標準差的題目作為簡式量表的試題。廖宜偉（2004）的「簡式情緒智力簡式量表」編製以因素分析和專家學者的主觀意見作為選題依據。Strand, Ljunggren, Bogen, Ask 和 Johnsen.（2008）

在編製簡式疼痛量表（NSF-MPQ）時仍延續 1987 年 Melzack 及 2001 年 Melzack 和Katz 所採取的標準，以臨床經驗抽取較常出現的病徵作為簡式量表的試題。

綜觀上述文獻，除了洪儷瑜、余曉珍（1998）以現代測驗理論單參數模式進行之外，原量表的試題簡化多以古典測驗理論進行因素分析後的測驗訊息，輔以主觀的刪減題目而成；或是如醫學界以臨床的診斷經驗選取出現頻

(6)

率較高，較為省時有效的題目作為簡式的測驗。而選取的題目數並無一定，

以20 題上下為多，有選取數個代表性的分測驗作為簡式版；有依據因素分析從分測驗中挑選數題較有代表性的題目；有設定測驗訊息中統計數值作為選題依據的簡式測驗。

本研究試圖對「體育態度量表」（林本源，2002）這份屬於典型表現測驗的工具進行「性能提升」，希望汲取古典測驗理論，及其延伸的概化理論

（Generalizability Theory, GT）的優缺點，為量表工具的編製及品質提升提供更為科學可行的研究範例。

貳、方法

一、研究工具

首先在該工具理論的架構上，該研究參酌國內、外相關的體育態度量表，

依目前我國教育部頒行「各級學校體育實施辦法」，及教育部「九年一貫課程」

之「健康與體育」學習領域的課程目標，以社會心理學中探討態度理論的三個層面，也就是認知層面（cognition）、情感層面（affect）與行動傾向層面

（behavior intention）進行初步的試題編寫，每個層面各有適當的試題，以反應該層面的潛在心理特質。而該工具以「總加評分量表」編製初步研究的工具，在「重複測量」和「測量加總」的理論假設之下，初步研究經由信、效度分析，將原先三個層面的75 題縮減為 51 題（在認知、情感和行動傾向三個層面的題目數分別為22 題、16 題、13 題）；α 信度為 0.97；因素效度之全體總特徵值由 31.63 降為 24.1；其他驗證建構效度的方法有「內部同質性檢定」、「發展上的改變」、「聚斂效度與區別效度」等，都顯示該量表對於態度理論具有相當的詮釋性及價值性。本文礙於篇幅及本研究目的，原量表的理論構念形成、試題編寫以及選題依據等請參見原量表的編製研究。

二、理論分析

編製簡式版量表必須面對的問題包括試題簡化的依據、簡化的科學化指標（決斷出精簡有效的題目數）、同時處理三個向度的資料，以及向度之間的關係考量等。在「概化理論」假定測量僅是一個隨機樣本，所以允許概化的情況之下（Shavelson & Webb, 1991），以延伸自「古典測量理論」的「概化理

(7)

論」進行此研究；理論中說明研究者可以從隨機樣本的分數類推到全域

（universe），而隨機樣本是具有「可相互替換」或是「可複製」的（Brennan, 2001），因而我們可以從任何一個代表性的樣本推論受試者在全域中的真分數，而這也是測驗的效度（Suen, 1990）；如 Shavelson 和 Rowley（1989）所言，概化理論是古典信度理論的延伸，能更明確的辨識和估計多重測量誤差來源的強度；也就是說概化理論解決古典測驗理論只有一個整體誤差的窘境，能確認重要的誤差來源，並加以（透過ANOVA）分解成不同的誤差，據以估計母群誤差。至於抽樣過程中產生的誤差，則必須在各個誤差層面及影響程度予以考量，以此尋找最佳的測驗條件。

由於本研究的測驗工具包括三個向度，每一個向度的測量誤差並不一致，不僅古典測驗理論無法解決這樣的難題，連單變項概化理論（Univariate Generalizability Theory, uGT）也力不從心，因此研究以可以處理在某個特定概化全域上具有多個全域分數方面問題的多變項概化理論（Multivariate Generalizability Theory, mGT）處理向度之間的共變關係，以提供更多單變項概化理論所無法提供的訊息。

三、受試者

由於該量表的數據資料為數年之前，為求工具的穩定性，研究首先進行原量表的信效度檢驗，研究樣本以分層隨意抽樣，抽取北（台北市石牌國小、

桃園縣自立國小）、中（台中市大勇國小）、南（台南市崇學國小）等四個縣市，每個年級分別發放 150 份，加上離島地區（金門縣）5 份，合計三個年級共計465 份，經由初步偵誤後得到有效樣本 443 份（含不完全填答者），其中小六為189 人，小五 117 人，小四 137 人，以小六人數稍多，合計 443 人；

在男女比例上，女生218 人，男生 224 人，一份遺漏值，男女比例約略相等，

合計442 人。

四、研究步驟、軟體與資料分析

研究概分二階段，第一階段為原量表的信效度檢定，分析量表的內部一致性，以及所有題目是否都在測量相同的潛在特質。研究以SPSS 12.0 進行因素分析與內部一致性分析，將不好的試題予以註記或是刪除，之後再將篩選後的試題進行第二階段的試題簡化分析。

(8)

接續第一階段的試題分析，研究的第二階段使用 mGENOVA 軟體

（Brennan, 2001）進行多變項概化理論的概化研究（Generalizability study, G 研究）和決斷研究（Decision study, D 研究），以建立簡化版的測驗工具。

參、結果

研究結果主要分為以原量表進行的第一階段研究，以及第二階段以多變量概化理論專屬的mGENOVA 程式進行整體測驗的 G 研究和 D 研究。

一、原量表信、效度分析

原量表信度先以內部一致性方法表示，其中可以視為分測驗的因素A 信度為0.93，個題與總分相關介於 0.5～0.66 之間；因素 B 信度為 0.94，個題與總分相關介於0.5～0.73 之間；因素 C 信度為 0.94，整體信度為 0.97，個題與總分相關介於 0.62～0.77 之間；3 個分測驗都屬於高信度水準，與原量表的信度0.97 等同；試題中僅 b36 刪題後其分測驗信度維持原分量表信度的 0.97。

信度分析說明在前後相距數年的兩次隨機抽取下，測驗仍具有相當的穩定性，且仍屬於高信度水準，具備編製簡式版測驗的條件。王文中、呂金爕、

吳毓瑩、張郁雯、張淑慧（2004），吳齊殷（1991/1999，p.144），姚漢禱（2002）

認為測驗的信度若很高，就有條件設計一個較短的量表；在量表的長度與信度是可以相互衡量之下，本研究的測驗信度達0.97 以上，具有進行量表簡化的條件。

在因素分析結果部分，KMO 取樣適切性量數為 0.96，接近 1，表示變項間的共同因素多，適合因素分析；Bartlett 的球形檢定卡方值為 13222.25，達顯著水準，表示母群的相關矩陣間有共同因素存在，適於進行因素分析。因素抽取以主軸因素法（Principal Axis Factors）分析變項間的共同變異量。因素轉軸方面，由於目前社會心理學家咸認同「態度」的構成分為三個層面，

即稱為「態度的ABC」，就是 Affect（情感）、Behavior intention（行動傾向）

以及 Cognition（認知）；在大部分的情況下，三個心理因素彼此相互關連，

協調一致，但是有些時候也會發生矛盾，因此本研究以最優斜交轉軸（Oblique Promax Rotation）進行因素轉軸，釐清因素與因素之間的最簡單結構。

結果轉軸收斂於 6 次的反覆迭代估計；轉軸前所抽取的三個因素特徵值

(9)

分別為19.089、3.386、1.482，能夠解釋全體變數變異量的 47.365%，相較於原量表（轉軸前所抽取的三個因素特徵值分別為 26.17、3.18、2.28，能夠解釋全體變數變異量的42.17%）變化不大。在試題的因素歸類上，51 題中有 7 題的因素歸類與原量表不一，分別是 b36、b31、b35、b34、b33、b32、b30 試題，其餘44 題均維持原量表的因素歸類。分析這 7 題，其均為 B 因素中的試題，因素負荷量分別介於0.31 至 0.43 之間，該試題在原量表的正式施測中，

因素負荷量介於0.42 至 0.65 之間，且有跨因素現象。對此現象研究者認為本研究屬於隨機抽樣理論，受到樣本依賴之故，不同的抽樣樣本會導致分析數值的不一致；整體而言，86.3%的試題仍維持在原因素構面下是可以接受的，

而上述 7 題因素歸類與原量表不一的題目將在進行下一階段簡化研究時，列入是否選取的考量因素之一。

二、多變量概化研究

研究曾應用斯布公式計算試題縮減量，然所產生的測驗訊息無法滿足研究的需要，例如在整個測驗中個別因素間權重的問題，分測驗的信度估計及其相互間的關係等。因此本研究在變異數分析與古典測驗理論的基礎下進行仍屬於隨機抽樣理論的多變項概化理論進行研究分析，處理某個特定概化全域上具有多個全域分數方面的問題，包括「概化研究」（G 研究）與「決斷研究」（D 研究），據以探討整體測驗長度、向度間的信度估計及其相互間的關係，作為本研究在測驗組合上的依據。

在樣本數部分，由於程式估計的限制，研究將上述 443 份中不完全填答的樣本刪除，以 420 份完整有效的樣本進行下列分析。在題目數部分，由於概化理論以隨機抽取的方式進行估計，因此刪除上述因素歸類不同的題目，

而這7 題也同時是所有題目中因素負荷量最低者，介於 0.31～0.43 之間；題目統計因素有22 題，因素 B 有 9 題，因素 C 有 13 題，合計 44 題。

(一) 測驗的概化研究

表一為受試者（p）、試題（i），以及其交互作用（

p

×

i

^{）在三個分測驗} 的變異與共變成份摘要表。其中對角線上的數值為受試者在各個測驗的變異數估計，對角線以上為測驗之間的相關，對角線以下為受試者在不同測驗間的共變數估計。三個分測驗的變異成份分別為0.154、0.393，以及 0.554；以

「行動傾向」的變異成份0.554 最大，占總變異量的 25.78%，「認知」的變異

(10)

成份0.154 最小，占總變異量的 7.16%，而「情感」的變異成份為 0.393，占總變異量的18.28%。研究結果說明「行動傾向」仍為最重要的變異來源，表示受試者在此分測驗的變異性大於其他二者，「行動傾向」分測驗的成績成為影響國小體育態度分數高低最重要的決定因素。

表一概化研究估計體育態度量表中三個層面的變異與共變成份矩陣表

效果認知情感行動傾向

p 0.15402 0.70315 0.56697

0.17304 0.39322 0.74482

0.16568 0.34777 0.55444 i 0.00348

0.00219

0.02903

p × i 0.24965

0.30316

0.46163

(二) 測驗的決斷研究

經由上述概化研究估計的變異數與共變數矩陣，研究進一步的實驗設計為

P

^•×

I

^o^；420 位受試者（P）為固定層面，並假定其變異成份為全域分數；

而試題（I）和殘差（P×I）設定為隨機層面。表二試題 I 為隨機且獨立的層面，

因此只有變異成份而沒有共變成份，三個層面的變異成份從 0.00016 至 0.00223，以及交互作用的殘差部分從 0.011 至 0.036，交互作用的變異成份高於試題的變異成份，但都遠不及受試者的變異成份（真分數部分），顯見試題的測量誤差對整體而言是很小的。在各分測驗的相關上，相關介於0.56～0.75 之間，符合在單一潛在變項的題目間一致性要高，而不同潛在變項所影響的題目間的相關係數應該相對地低的條件。

(11)

表二決斷研究估計體育態度量表中三個層面的變異與共變成份矩陣表

效果認知情感行動傾向

p 0.15402 0.70315 0.56697

0.17304 0.39322 0.74482

0.16568 0.34777 0.55444

I 22 0.00016

9 0.00024

13 0.00223

p × I 22 0.01135

9 0.03368

13 0.03551

表三為決斷研究

P

^•×

I

^o設計下各重要指標的摘要表。三個層面中以「行動傾向」的全域分數0.554 最大，其次為「情感」的 0.393，以及「認知」的 0.154；在測驗信度上，以概化係數 0.940 的「行動傾向」最高，其次為「認知」的0.931，以及「情感」的 0.921；然而測驗信度高未必其測量的誤差小，

例如「行動傾向」的相對誤差或是絕對誤差都大於其他二者，這是因為測驗誤差包括隨機誤差與系統誤差，概化係數或是信度係數只是隨機誤差大小的反應。在信噪比（Signal-Noise ratio）方面，它是全域分數變異成份（例如行動傾向層面的 0.554）和誤差變異成份（0.036）的比值，Brennan（2001）界訂信噪比為「反應測量精確度的程度」，因此上述的「行動傾向」層面之概化係數較高，其相對信噪比為 15.614，與絕對信噪比的 14.690，都是三個層面中較高的。

表三決斷研究

P

^•×

I

^o設計下各重要指標摘要表

指標名稱認知情感行動傾向

全域分數

Univ Score Var 0.15402 0.39322 0.55444 相對誤差

Rel Error Var 0.01135 0.03368 0.03551 絕對誤差

Abs Error Var 0.01151 0.03393 0.03774 誤差均值

Er Var for Mean 0.00055 0.00126 0.00364

(12)

概化係數

Gen Coefficient 0.93138 0.92109 0.93981 可靠指數

Phi 0.93049 0.92057 0.93626

相對信噪比

S/N-Rel 13.57248 11.67345 15.61358 絕對信噪比

S/N-Abs 13.38566 11.58963 14.68984 (三) 全域分數的測驗信度估計

依照上述研究，若依照三個層面所佔的題目數來決定權重係數，每個層面所佔的權重（w-weights）依序為 0.5、0.205 以及 0.296；進而估計出全域合成分數的變異數、誤差及信度如表四。從表中得知全域合成分數的變異分量為0.230，相對誤差為 0.007，概化係數達 0.969，相對信噪比 31.273，顯示整體測驗的信度良好。

表四全域合成分數的變異分量估計表

指標名稱估計值

全域合成分數的變異分量

Composite Universe Score Variance 0.22973 全域合成分數的相對誤差變異分量

Composite Relative Error Variance 0.00735 全域合成分數的絕對誤差變異分量

Composite Absolute Error Variance 0.00759 全域合成分數的誤差均值變異分量

Composite Error Variance for Mean 0.00081 全域合成分數的概化係數

Composite Generalizability Coefficient 0.96901 全域合成分數的可靠指數

Composite Phi 0.96802 全域合成分數的相對信噪比

Composite S/N-Rel 31.2732 全域合成分數的絕對信噪比

Composite S/N-Abs 30.2050

(13)

(四) 分測驗對整體測驗的貢獻比例

依據題目數，每個分測驗所佔的權重係數不同，然而在表五中得知各分測驗對整體測驗的貢獻度卻與實際不相吻合，實際影響的程度有異，就題目數而言，各層面佔總題數的比重分別為「認知」（22 題）的 50%，「情感」（9 題）的20.45%，以及「行動傾向」（13 題）的 29.55%，然而經由上述專用軟體估計出各分測驗對總測驗的貢獻比例，其中「行動傾向」的貢獻度達40.87%

最高，其次為「認知」的35.12%，以及「情感」層面的 24.01%，「行動傾向」

的貢獻度高於原先預估，而「認知」則低於原先預估。此結果與上述就誤差的變異、概化係數或是信噪比大小等探討測量精確度指標的結果是相符的。

表五各層面變異量對整體測驗變異量的貢獻比例表

貢獻的變異量認知（22題）情感（9題）行動傾向（13題）

分測驗在整體測

驗的貢獻比例 35.12% 24.01% 40.87%

相對誤差在整體

測驗的貢獻比例 38.62% 19.18% 42.20%

絕對誤差在整體

測驗的貢獻比例 37.89% 18.70% 43.40%

(五) 設定各層面信度的 G 研究

研究接著以簡化試題，改善整體測驗品質進行各層面試題數的決斷研究，試圖藉由控制各層面的測驗信度，以分析各層面簡化後的試題數。本研究在決斷研究方面將各層面的信度標準訂在概化係數必須均達 0.8 以上，且希望每一個層面的題目數不要相差太大。分析結果如表 3-6 所示，得知基本模式的各層面1 題，總題數 3 題的概化係數分別為 0.402、.565、0.566，全域合成分數的概化係數為0.709；模式一，各層面 2 題，總題數 6 題的概化係數分別為0.57230.722、0.706，整體概化係數 0.830；模式二，各層面 3 題，總題數9 題的概化係數分別為 0.669、0.796、0.783，全域合成分數的概化係數為0.880；模式三，各層面 4 題，總題數 12 題的概化係數分別為 0.7316、0.8384、

0.8277，全域合成分數的概化係數為 0.90704。至此，研究發現「情感」與「行動傾向」層面在題目數為4 題時，概化係數已經到達 0.8，且全域合成分數的概化係數也達到 0.9，然而「認知」層面的概化係數卻未達 0.8。在模式四、

(14)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

1 2 3 4 5 6 7 題數

概化信度

認知情感行動傾向整體測驗模式五、模式六中研究不斷增加「認知」層面的試題長度試圖增加概化係數，

結果在模式五中得知，當該層面試題長度達6 題時，概化係數達 0.807，全域合成分數的概化係數達0.936。研究將表六以圖一說明以更清楚試題長度與概化係數之間的變化關係，以提供後續決斷的參考。

表六決斷研究中三個層面的試題長度與整體概化係數之關係摘要表認知情感行動傾向整體概化係數係數變化量

G研究樣本 22 9 13

D研究樣本

基準模式 1（0.4015） 1（0.5647） 1（0.5657） 0.70930 模式一 2（0.5723） 2（0.7218） 2（0.7061） 0.82990 0.12065

模式二 3（0.6692） 3（0.7955） 3（0.7827） 0.87978 0.04988 模式三 4（0.7316） 4（0.8384） 4（0.8277） 0.90704 0.02726 模式四 5（0.7751） 5（0.8660） 5（0.8572） 0.92423 0.01719 模式五 6（0.8070） 6（0.8861） 6（0.8781） 0.93605 0.01182 模式六 7（0.8219） 7（0.9007） 7（0.8937） 0.94468 0.00863

（）內數字為概化係數

圖一題數長度與概化係數關係折線圖

(15)

(六) 結語

基於上述的分析與討論，本研究在概化理論的分析結果中得到諸多測驗的訊息，對於國小體育態度簡式版本的編製提供決斷的基礎。

在測驗的概化研究中得知，三個層面的變異成份以「行動傾向」層面的變異成份最大，占總變異量的 50.33%，「認知」層面的變異成份最小，占總變異量的13.98%，然而「認知」層面的測驗長度（22 題）卻是最高的，顯然該層面的試題在隨機狀況的測驗效能上較差。在測驗的決斷研究中得知三個層面的概化係數及其相關程度，其中概化係數介於 0.921～0.940 之間，相關介於0.56～0.74 之間，就理論上而言均具有相當不錯的水準。

若設定各分測驗的概化係數標準必須達 0.8 的條件下，經由多個模式的分析得到三個分測驗的題目長度分別為「認知」6 題，「情感」4 題，以及「行動傾向」4 題；總題數 14 題，整體測驗的概化係數達到 0.9 以上，堪稱進行簡式版測驗不錯的決斷依據；然而分測驗間的題目數不一是否會造成測驗結果解釋的疑慮，則必須配合測驗的理論予以繼續討論分析。

在對於如何簡化的諸多考量進行分析後，研究回歸到態度的理論探討，

以社會心理學（Zanna & Rempel, 1988）對於「態度」的看法，認為一般人對於某件事物的「態度」中，會有「偏重」態度層面中某個層面的現象，也就是例如在態度的三個層面中，對於「消費態度」的積極或是消極傾向可能偏重於「情感層面」，因此該層面將是決定其態度積極或是消極的重要關鍵，受試者如果在該層面中得分較高，整體測驗的分數將相對較高；因此在概化理論的決斷研究中，將每一分測驗的概化全域都設定在相同試題數時，對總變異量貢獻比例較大者，表示隨機的受試者在隨機題目的均值變異較大，該分測驗的影響性較高。因此，如果測驗工具中各層面的試題數不一，則可能發生原本是「情感層面」取向的態度議題，因為該層面試題數過少而產生測驗得分較低的現象，影響了測驗結果的說明。

因此本研究最後藉由多變項概化理論提供諸多測驗訊息，諸如向度權重、不同測驗長度下各層面之信度、總測驗信度、分測驗對總變異量的貢獻度等，據以進行試題數的決斷，初步決斷各向度測驗信度均必須達0.8 以上，

因此測驗長度設定在每向度6 題，三個向度共 18 題，其整體測驗信度將超過 0.9 以上，試題長度占原試題長度的三分之一強。參見附錄一。

(16)

四、討論

從測驗標準演進來看，1974 年第三版《教育和心理測驗標準》中的「測驗」乙詞英文為「tests」，其中的含意是早期的教育和心理測驗，發展測驗需要編製複本才算完整，因此，「測驗」乙詞用複數表示；到了 1985 年第四版

「測驗」乙詞改為動名詞「testing」，考量的原因是一個完整的測驗應該包括測驗的發展、施測、結果的解釋，以及實際的使用等全部過程，測驗的編製不應該只偏重專家的編製測驗，忽略了施測者和使用者，常常會使測驗與實際不相吻合，嚴重影響個人權益或是侵害人權，因此「測驗」的解釋不應只侷限在編製過程，對於實際上的應用也應該列入測驗歷程。

而1999 年第五版的《教育和心理測驗標準》更將測驗分成「測驗的編製、

評價，和佐證」、「公平的測驗」，以及「測驗的應用」，也就是測驗編製、施測、評價、輔助文件，以及測驗各方面的適切性（權力、責任、語文和對象等）和應用等，顯然和測驗相關的事和物都包括在內。因此嚴謹的來說體育態度量表完整版的編製僅止於「測驗編製、評價和文件」部分，「適當的測驗」

以及「測驗的應用」則是本研究的目的。

國小學童在專注時間或閱讀詞彙相較一般中學生不足，因此在測驗的實施上更應該考量這關鍵因素，研究者發現，測驗編製者往往不太會注意到測驗長度對受試者的影響，而實際研究者也只關心到研究是否順利，結果是否如預期等，受試者在填答時的身心理特質鮮少被提出來討論；而這樣的誤差是屬於系統性的，是標準化測驗無法掌控的部分。

而簡式版的工具編製研究準則不一，多出現在醫學、教育心理，以及能力測驗中，使用方法多為主觀選題，面對隨機樣本時猶如瞎子摸象一般。在國內大型測驗的簡式版本編製過程中，如鄭玲宜、王珮芳、郭乃文、徐道昌

（1991）在建立簡式中文魏氏智力量表的研究中以總信度為考量，並不討論各層面的長度問題，這應該是後續研究提供的測驗訊息不足所致，因為未把分測驗的長度列入簡式量表的參考將會導致測驗信度雖然受到控制，但是將可能忽略分測驗的權重探討而影響測驗的效度。

本研究以與「古典測驗理論」同屬「隨機抽樣理論」的「概化理論」進行對測量誤差的研究，以變異數分析和變異成分的概念對不同誤差來源，或是不同誤差層面界定概化的決斷機制，提供研究者依據現況進行決斷研究。

(17)

原量表的編製流程中並無設定各因素的比例，僅以通過程式設定之信、效度標準即為正式施測的題目；在本研究針對原量表的初步研究結果得知測驗的內部一致性高，總量表的α值為0.97，三個因素的信度介於 0.93～0.94 之間，

屬於高信度水準，具備簡化試題的條件；以因素分析考驗其測驗之建構效度，

得到原量表51 題在因素分析下共抽取 3 個因素，總解釋變異量達 47.365%，

有 86.3%的試題仍維持在原因素構面下，整體而言尚稱良好。這個結果與使用本量表的30 多本學位論文的研究結果大多相符，它被廣泛應用在孩童發展上的改變、實驗操弄下態度的改變，或是不同對象群組的態度議題探討等，

可以說是在運動教育學的研究中逐漸加速對主體知識認知與瞭解的重要測驗工具。

如同1999 年測驗標準考量到「整合」的概念，本研究在進行簡化試題時也必須同時考量多個議題，這些議題有的來自其他學門在編製簡式版的主要依據（如醫學界），有的來自測驗理論的界說（如概化係數的要求），有的則是考量受試者的身心特質。以因素負荷量為主要選題的依據來自文獻探討中絕大多數的研究，研究接受其每一分測驗的題目數至少不得低於 4 題，總題數必須符合前述設定的20 題上下的建議，然而因素負荷量受限於每一分測驗必須達 4 題的限制，其訂定的標準就無法拿捏，例如分測驗的因素負荷量過於分散，且題目數不多的情況下，研究往往很難訂定一個各分測驗必須遵守的「規則」。

本研究若以先期研究為基礎，認為各題目的因素負荷量可以設定在 0.6 以上，再以考量分測驗信度以固定各層面題目數的方式進行，以計算測驗折半信度的斯布公式分別估計各分測驗題目數縮減對信度的影響，得知如果研究要求各分測驗的信度都必須達 0.8 以上時，則各分測驗至少必須有 6～7 題，總題數在18～21 題之間。然而計算測驗折半信度的斯布公式既無理論依據，也無法計算分測驗之間的關連程度，因為在態度理論中，三個構面彼此之間是具有相關連性的。

研究以多變量概化理論進行量表簡化的分析研究，就可以解決上述問題。在測驗的「概化研究」中得知，三個層面的變異成份以「行動傾向」層面的變異成份最大（50.33%），「認知」層面的變異成份最小（13.98%），在古典測驗理論而言他是屬於效度部分，因此得知該層面的試題在隨機狀況的測驗效能上較差，這是後續針對試題品質的研究中可以多加著墨的地方。在測

(18)

驗的「決斷研究」中得知三個層面的概化係數及其相關程度，其中概化係數介於 0.92～0.94 之間，且向度間的相關是合宜可接受的。研究最後以多變項概化理論提供的測驗訊息，併同對於各層面題目因素負荷量的探討，以及社會心理學家認為人們會在某議題中以某態度層面（例如認知）作為態度的基礎等；簡式版的試題最後以每個層面的概化係數必須達 0.8 以上；採各層面題數一樣的方式決定題數（每層面6 題，總題數共 18 題）；題目的選擇以試題與總分的相關必須達0.6 以上；題目的因素負荷量達 0.6 以上；與原量表的測驗結果（測驗訊息）不能差異過大等條件下隨機挑選試題。在進行預試研究後發現簡式版的預試結果良好，具有不錯的因素效度與內部一致性信度。

誠如「測驗」（testing）是一個持續發展的過程，在新的蛻變中，概化理論的應用將使試題長度的決斷更有科學依據。

(19)

參考文獻

王文中、呂金爕、吳毓瑩、張郁雯、張淑慧（2004）。教育測驗與評量與評量。

台北：五南。

吳齊殷（譯）（1999）。量表的發展：理論與應用。台北：弘智。（DeVellis, R.F., 1991）

呂以榮（譯）（2002）。問卷設計、訪談及態度測量。台北：六合。（Oppenheim, A. N., 1992）

阮如鈞（1973）。大學生體育態度量表的編製與研究。教育與文化，

403，30-35。

林本源（2002）。編製中小學學生體育態度量表之研究。國立體育學院體育研究所碩士論文，未出版，桃園縣。

林麗嬋（1995）。台灣老人壓力源量表之修訂。行政院國家科學委員會，計畫編號：NSC83-0412-B010-041

姚漢禱（2002）。體育測驗與評量。台北：師大書苑。

洪儷瑜、余曉珍（1998）。青少年社會行為簡式量表在情趣障礙學生篩選工作之運用。師大學報，

43(2)，43-52。

張智仁、吳晉祥、陳純誠、彭巧珍（2000）。門診糖尿病病人個別衛生教育介入成效之研究。行政院衛生署，計畫編號：DOH89-TD-1174。

郭仰三（2005）。高雄市高級中學學生體育態度與體育課學習成效之相關研究。台北巿立體育學院運動科學研究所碩士論文，未出版，台北市。

陳心怡（1999）。「簡式」魏氏兒童智力量表之建立研究－四個分測驗之組合。

測驗年刊，

46(2)，13-32 頁。

陳心怡、花茂棽、朱建軍（2007）。台灣 WAIS-Ⅲ二分測驗組合之簡式版本建立研究。測驗學刊，

54(2)，305-330

楊志顯（1999）。樂趣化體育教學內涵認知量表之編製研究。大專體育學刊，

1(2)，73-85 頁。

黃登月、王文中（2005）。青少年約會衝突因應策略量表之發展。教育與心理

(20)

研究，

28(3)，469-494。

廖宜偉（2004）。簡式 EIS 之編製及其與傳統智力人格、動機之區分性研究。

國立雲林科技大學企業管理研究所碩士論文，未出版，雲林縣。

劉照金、周宏室（2002）。大學生體育態度與運動技能學習成就之相關研究。

大專體育學刊，

4(1)，1-12。

蔣世光、譚偉象、潘能靜、張勤金、陳永誠、平烈勇、林知遠（2007）。檢驗魏氏成人智力測驗第三版（WAIS-Ⅲ）的 Blyler 和四個分測驗組成的簡式版本在住院慢性精神分裂症病患的適用性。臺灣精神醫學，

21(1)，

26-36。

鄭玲宜、王珮芳、郭乃文、徐道昌（1991）。以迴歸模式建立之簡式中文魏氏兒童智力量表。中華復健醫誌，19，111-116。

魏米秀、呂昌明（2005）。「健康促進生活形態」中文簡式量表之發展研究。

衛生教育學報，

22，25-46

American Educational Research Association, American Psychological Association,

& National Council on Measurement in Education. (1999). The Standards for

Educational and Psychological Testing. Washington, DC: American Educational

Research Association.

Beaton, D. E., Wright, J.G., ＆ Katz, J. N. (2005) Development of the QuickDASH: comparison of three item-reduction approaches. Journal of

Bone & Joint Surgery, 87, 1038-1046.

Brennan, R.L. (2001) Generalizability Theory. New York: Springer-Verlag New York, Inc.

Green, K.E., & Frantom, C.G.. (2002). Survey development and validation with the

rasch model. Paper presanted at the International Conference on

Questionnaire Development, Evaluation, and Testing, Charleston, SC, November 14-17.

Lee, M.B., & Lee, Y. J. (1990) Reliability and validity of using a brief psychiatric sympyom rating scale in clinical practice. Journal of Formosan Med

Association. 89, 1081-1087

(21)

Marsh, H.W., Hau, K. T., Balla, J. R. & Grayson, D. (1998). Is more ever too much? The number of 43 indicators per factor in confirmatory factor analysis.

Multivariate Behavioral Research, 33(2), 181-220.

Shavelson, R.J., & Webb, N.M. (1991). Generalizability theory: A primer.

Newbury Park, CA: SAGE.

Silverman, S., & Subramaniam, P.R. (1999). Student attitude toward physical education and physical activity: a review of measurement issues and outcomes. Journal of teaching in physical education, 19, 97-125.

Strand, L.I., Ljunggren, A.E., Bogen, B., Ask, T., & Johnsen, T.B. (2008). The Short-Form McGill Pain Questionnaire as an outcome measure: Test–retest reliability and responsiveness to change. European Journal of Pain, 12(7), 917-925.

Suen, H. K. (1990). Principles of Test Theory. Hillsdale, NJ: Lawrence Erlbaum Associates.

Wear, C. L. (1951). The Evaluation of Attitude Toward Physical Education as an Activity Course. RESEARCH-QUARTERLY-(AAHPER) 22, 1951, 114-126 Zanna, M., & Rempel, J.K. (1988). Attitudes: Anew look at an old concept. In D.

Bar-Tal & A. W. Kruglanski (Eds.). The social psychology of attitudes (pp.

315-334). New York: Cambridge University Press.

(22)

附錄一國小學生體育態度簡式量表題目

編號試題內容

a01 上體育課能夠建立正確的運動觀念 a02 上體育課能夠學習新的運動技術

a03 上體育課能夠了解運動規則，培養守法精神 a04 上體育課能夠豐富運動學習的經驗

a05 上體育課能夠幫助身體的發展

a06 上體育課可以瞭解運動對健康的重要 b07 我喜歡上體育課

b08 上體育課可以讓我放鬆心情，減輕壓力

b09 上體育課時可以讓我感覺到心理是緩和、放鬆的 b10 我很期待上每一節體育課

b11 我希望每天都可以上一節體育課 b12 上體育課能夠減輕身心的壓力

c13 上體育課時我會迫不及待的想表現自己 c14 我會主動蒐集和體育課上課有關的資料 c15 上體育課時我希望能夠當老師的助手 c16 上體育課時我希望成為同學的小教練 c17 上體育課時我會主動回答老師的問題

c18 遇到體育課分組比賽時，我都會事先加以練習

(23)

The Study of the development of

“Short-Form Scale of Elementary Student Attitude toward Physical

Education”

Lin Pen-Yuan

^∗

Abstract

The purpose of this study was to develop the “Short-Form Scale of Elementary Student Attitude toward Physical Education”. This study was base on the 51 items of the “Scale of Junior High & Elementary School Student Attitude toward Physical Education”. The subjects invited to participate in this study were the students from 4^th to 6^th grade in Taiwan and Fukien Provinces. This study was divided into two phases. The first phase was to evaluate the quality of the original scale with 443 valid subjects involved in form the counties in north, centre, and south part of Taiwan. The second phase was to carry out the

“Generalizability Study” and “Decision Study” utilizing the “Multivariate Generalizability Theory”, and the development of the Short-Form scale and the pre-test. The results indicated that the quality of the short-form scale was not questionable. The researcher gained useful information from the

“Multivariate Generalizability Theory” to perform the “Decision Study”. With the productive results form first and second phases, the development of the scale was successful. The new short-form scale was identified to be reliable and valid which possessed the equal quality with the original one but more economical and convenient. It provided a better option to assess the students’

attitude toward physical education at elementary level.

Key words: Multivariate Generalizability Theory, Generalizability study, Decision study, Rating Scale, Generalizability Reliability

∗ National Kinmen Institute of Technology Associate Professor

(24)

國小學生體育態度簡式量表編製研究