• 沒有找到結果。

運動技術測驗的合理類別設定方法研究 -以重複測量單一項目測驗為例

N/A
N/A
Protected

Academic year: 2021

Share "運動技術測驗的合理類別設定方法研究 -以重複測量單一項目測驗為例"

Copied!
16
0
0

加載中.... (立即查看全文)

全文

(1)

運動技術測驗的合理類別設定方法研究

-以重複測量單一項目測驗為例

姚漢禱 *

國立體育大學

摘 要

本研究的目的是發展運動技術測驗的類別設定方法,以重複測量單 一項目測驗型式為例。研究對象是大學體育課興趣選項羽球班學生,編 製羽球發長球測驗。研究方法分成兩個步驟實施試驗,第一個步驟記錄 每一個有效長球落點的座標,利用二項分配機率設定計分類別的數量和 大小。第二個步驟利用建立的計分類別進行正式施測,然後評估此方法 設定的優劣。研究設定的五個區域,距離後發球線分別為:5 分類別 9.00 公分、4 分類別 50.50 公分、3 分類別 108.00 公分、2 分類別 174.76 公 分、1 分類別 241.00 公分。研究結果經 Linacre(2002)的適當類別準 則評價得到:六項符合準則、兩項部分符合準則、一項少部分符合準則,

根據結果得到本研究結論為:發展出運動技術測驗合理類別設定的一種 方法。

關鍵詞:類別設定、二項分配、Rasch 分析、運動技術測驗、閾值失序

* 通訊作者:姚漢禱;國立體育大學;E-mail: yauhdg@gmail.com; yauhd@hotmail.com

(2)

壹、緒論

從 Likert 量尺廣泛用於問卷調查的測量態度,人們關注的是計分研究;而 Guilford(1965)注意到:「評分量尺(rating scale)的類別應該具有良好的界定、

互斥性、單一意義和詳盡。」引發類別研究之始,當時古典測驗理論是以整個測驗 為對象,並無類別的評價,直到現代測驗理論,Stone 和 Wright(1994)發現:「將 五個順序類別併成三個時,增加了測驗的信度。」而在編製運動技術測驗方面,關 於計分類別的設定,傳統上是根據該運動項目之場地、規則和測驗目的等因素,由 編製者的主觀經驗決定運動技術測驗計分類別之數量和範圍大小,在以古典測驗理 論為依據的運動技術測驗,亦無評估計分類別;但是在實際測驗編製時,常常發現 測驗不適合受試者,而合理類別設定是一項關鍵因素。

一、研究背景

運動技術測驗的研究,Larson 和 Yocom(1951)提出一些有關編製運動技術測 驗的規準,接著是美國大學的體育學研究,出現編製運動技術測驗的研究論文。隨 著美國教育和心理測驗標準的發展,體育測驗也隨著步上正軌,在測驗的實務上,

遵循著古典測驗理論,除了測驗的信度和鑑別度外,尚無計分類別的訊息,無法探 討測驗類別的適當性;同樣的,直到現代測量理論的應用,才能深入分析合理類別 的情形。

運動測驗應用 Rasch 二分計分模式時,只有試題難度的問題,在使用 Rasch 多點計分模式時,測驗計分類別要符合等級反應(graded response)的假定。可是 實際研究卻常出現違反等級順序,也就是閾值失序(disordered thresholds);例如:

何榮桂和姚漢禱(1996)估計運動技術測驗評分量尺模式的類別,發現低類別產生 高難度,此即是閾值失序,建議採併類來調整得分類別。接著 Zhu, Updyke 和 Lewandowski(1997)發現:「運動心理自我效能的最佳分類,並不是原始建構的五 個類別設計,而是三個類別最好」。其結果類似,關於失序的問題,Bond 和 Fox(2007)

建議:「針對失序的類別考慮和相鄰的類別合併。」這樣或許可解決失序的問題,

實際上將失去了一個類別,姚漢禱、紀世清、周嵩益和姚偉哲(2008)在修訂立定 跳遠發展階段觀察檢核表研究中,就是採用類別合併處理失序的問題,雖然結果合 乎理論,但類別數量減少,同時也降低了量表的鑑別力和效度。顯然調整計分類別 僅是治標而已,並非治本的措施;另一方面,運動技術測驗的類別設定不像測量態

(3)

度,設定心理感受的程度,而是要訂出具體的計分區域,當失序問題產生,應該如 何處理?不是單純的類別合併而已,宜發展一套客觀合理的類別設定方法。

二、研究目的

運動技術測驗的合理類別設定,除了測驗編製者的主觀認知,還須受試者的反 應訊息,為改善這種單向性設計的思維,因而提出一套客觀、雙向的類別設定方法。

所以本研究的目的是以重複測量單一項目測驗(Multiple-Attempt Single-Item tests)

型式為例,發展運動技術測驗的合理類別設定方法。

三、Rasch 測量閾值失序的研究

合理類別的設定,有賴於現代測量理論估計和分析閾值失序,首先是 Linacre

(1991)的「階段失序和 Rasch-Thurstone 形式閾值」乙文觸動閾值失序的研究,

Linacre 指出:「在評分量尺類別之間,Rasch-Thurstone 形式閾值提供最佳的估計轉 換,與階段失序無關,在量尺的結構上是提供一種概念的反應。」此文針對評分量 尺類別間失序的討論,認為回歸至「Rasch-Thurstone 形式閾值」的理論基礎,當能 力達到較高的估計水準,才應該跨越過較高的閾值,如果達到較高的閾值時,早已 超越過較低水準的閾值;他沒有分析實際反應所形成的類別估計閾值問題,只就理 論上加以說明而已。

接著 Shaw、Wright 和 Linacre(1992)針對階段失序指出:「每個類別比前一 個類別代表更多的成功機率,當觀察類別 2 的出現偏低時,再與類別 1 或類別 3 比較估計出現的機率,结果產生階段難度的失序;即從類別 2 到類別 3 的閾值,

比從類別1 到類別 2 的閾值容易。這個情形與工作的難度無關,它完全是取决於我 們的評分量尺的奇特(peculiar)界定,應該批評 David 提出的評分量尺定義。」

接著引用 Rasch 關於閾值的研究報告:「Thurstone 的想法雖然有益於解釋,但 Thurstone 閾值是在變項上的中央點,在下面的類別是可能像上面類別一樣,這些 閾值通常是按照變項上的順序,在閾值之間的間隔可代表變項的部分與類別相對 應。另外Geoff 指出:「Rasch-Thurstone 閾值可以從階段難度來計算。」由此可知,

在界定方面,類別是應該依序排列,但有可能實際上反應次數的估計,會有閾值失 序的情形,那是表示該類別出現的次數過少,造成估計的機率降低,無法在某一階 段能力上呈現最高的機率;反過來思考,在某個潛在能力區段上,類別無法達到最 高的機率時,有必要深入的檢討。至此,研究仍在爭論理論和實際的出入。

(4)

隨後研究開始承認失序問題,Linacre(1999)認為:「Rasch 評分量尺結構參數,

也稱為階段校準或τ值,這些是直接涉及到類別的機率。這些機率與類別的觀察機 率,不是實際達到類別的順序。因此,當階段校準時,τ值是失序的,一個類別是 不太可能被發現,而不是更容易執行。」其論述類別瓦解,提出實際資料校準來說 明,接受了類別瓦解的事實,並警告通常不易發現,很容易被忽略。Linacre(2001)

再度解釋失序:「當類別順序不符合潛在變項,那麼每一類別實際平均測量值是非 連續的序列類別,且不適合模式。Rasch-Thurstone 閾值無法觀察是否失序。如為 Rasch-Andrich 閾值或階段校準,產生失序會使某些類別永遠不會成為模式。也就 是說,他們的觀察次數不夠,使潛在變項間的 Rasch-Thurstone 閾值間隔小於 1 logit。」此研究認為觀察次數不夠會造成類別瓦解,並提出當閾值間隔小於 1 個 logit 值時,也是失序;其主要的貢獻是提出客觀數據,初步訂定閾值失序的標準。

面對失序問題,研究提出判斷的標準,Linacre(2002)提出:「適當的類別準 則,首先基本準則是所有的試題都是潛在變項。準則一是每一個類別至少有 10 筆 觀察值。準則二是觀察分配是有規律的。準則三是類別的平均測量值是單調遞生 的。準則四是偏離反應適合度統計(OUTFIT)均方小於 2.0。準則五是階段校準進 階的。準則六是評分包含測量、且測量包含評分。準則七是階段範圍至少大於 1.4 logit。準則八是階段範圍應該小於 5.0 logit。」到此研究更具體的提供適當的類別 準則,筆者從實際的研究中發現,這些準則相當理想,當階段範圍小於1.4 logit 時,

產生了類別瓦解,例如:姚漢禱等人(2008)研究立定跳遠發展階段觀察檢核表,

證實了這些準則的可用性。

近年閾值失序的研究,Lamoureux、Pesudovs、Thumboo、Saw 和 Wong(2009)

利用Rasch 分析評價亞洲人視覺功能問卷(Visual Functioning)的信度和效度認為:

閾值失序表示受試者很難區辨這些類別,乃將「類別 2:難度適中」與「類別 3:

有點困難」合併,結果試題皆為依序的閾值。而 Lamoureux、Tee 等人(2009)使 用 PHQ-9 評估抑鬱症時,處理失序問題則是:第 2 類別隨意選擇併入第 1 類別 或第 3 類別,這兩者對試題產生依序閾值提供相同的效用。但 Bond 和 Fox(2007)

主張合併類別需要選擇,能使模式適合度良好、提高信度和效度時,類別合併才有 意義。此外,Pesudovs、Gothwal、Wright 和 Lamoureux(2010)研究整治嚴重缺陷 的視覺功能問卷時,發現合併類別處理失序問題:「如果類別是一個中性的類別,

它與相鄰的類別結合是不合乎邏輯的。」另一種作法是 Siegert、Jackson、Tennant 和 Turner-Stokes(2010)提出五個 Rasch 分析的步驟,主要是逐步刪除適合度最差

(5)

的閾值失序試題。還有一種主張 Linacre(2010):「建議過渡類別(transitional categories)應不再被視為有效測量的威脅,而是漸進的累積進步之重要部分。因此,

社會科學的測量必須提高分析和溝通過渡類別,而不是試圖消除它們。」綜合上述 的研究,閾值失序是類別界定,造成受試者無法分辨,解決方法是合併類別、或刪 除閾值失序的試題,合併類別還要合乎反應邏輯;但兩者皆是削減類別或試題,算 是暫時的應急方式,並非根本的改善之道。倒是最後 Linacre(2010)的主張加強 測量分析和明確類別意函,引導未來改善閾值失序的良好策略,此項主張和本研究 發展運動技術測驗的類別設定方法,不謀而合。

四、運動測驗閾值失序的研究

運動測驗的閾值失序研究,直到目前為止,尚無專門的研究報告,主因是現代 測量理論引進運動測驗領域,至今僅約 20 年左右,且運動測驗較偏重受試者和試 題的探討,關於類別分析和評估偏少。而且運動測驗傳統上是依賴經驗決定類別,

大部分是主觀的設定,加上目前運動測驗編製仍以古典測驗理論為基礎,未討論類 別合理性的問題。另一個原因,閾值失序只出現在多點計分模式,主要是在重複測 量單一項目測驗,故閾值失序未被注意。

實徵性運動技術測驗的研究,觸及測驗類別難度的順序性邏輯者,最早是何榮 桂和姚漢禱(1996)發現:「在 0 分至 5 分等六個類別的評分量尺模式,其估計類 別的統計分析結果是:1 分類別的難度 2.50 最難,和事實不符,因為其觀察次數僅 37 次最少,校準結果產生的最難。…建議調整評分量尺的得分區域,將它併入 0 分類別的區域、或是歸於2 分類別的區域。」當時並不是刻意研究閾值失序問題,

只是從運動技術表現觀點,配合Rasch 測量理論,分析類別難度的順序性邏輯,處 理的方法建議採用合併類別的方式,解決失序問題,後來有許多研究也是支持這種 方法。接著姚漢禱和何榮桂(1996)的研究採用相同的桌球發球技術測驗,但將 1 分類別併入0 分類別的區域,理由是測驗方法規定用正手發斜線長球,即右半區發 至右半區,而1 分類別位於左半區,所以如此修正有其原因,合乎邏輯且提高測驗 的難度;事實證明類別校準結果順序閾值、信度由 0.37 提高至 0.63,試題適合度 良好。

運動心理的問卷調查方面,針對自我效能的研究,Zhu 等人(1997)利用 Rasch 分析最佳類別:「以運動自我效能50 題測量 2,022 位孩童,並比較 Rasch 分析和傳 統統計的性能,Rasch 分析包括模式-資料適合、類別統計和參數估計,傳統統計

(6)

包括三個數據。結果是(1)Rasch 閾值估計為確定分類順序的敏感指標。(2)常用 的 alpha 係數對確定最佳分類,發現完全沒有幫助。(3)運動自我效能最好的依序 類別,受訪者的看法是三級量尺較有意義,不是原始五個類別設計。(4)對於確定 依序反應量尺的最佳分類,Rasch 分析被證明是有用的事後分析。」此研究也採合 併類別,由五個類別縮成三個類別,改善了類別適合度,但沒有討論其他測驗品質 的影響;其次,證實了Rasch 分析是研究類別的良好工具。因為這是心理感受的研 究,所設定的類別屬於語義領域,無關於技術測驗具體區域的劃分。

動作觀察檢核表為運動技術測驗的主觀評量,Chou 和 Yau(2006)研究指出:

「評價立定跳遠觀察檢核表,發現第三題的第二類別估計值-2.57 產生失序,此平 均測量值的類別失序現象,可能暗示類別定義不良。」該篇研究重點在於評價動作 觀察檢核表的優劣,僅提出有類別瓦解現象,原因歸咎於類別的定義,並沒有解決 失序問題;關於類別定義造成的失序,後來Lamoureux、Pesudovs 等人(2009)評 價視覺功能問卷的信度和效度時,也持相同的看法,認為:「閾值失序表示受試者 很難區辨這些類別」。姚漢禱等人(2008)修訂檢核表:「針對估計發現的失序時,

採用類別合併法。將第二題的第2 類別和第 3 類別合併,以及第三題和第六題的第 1 類別和第 2 類別合併,修正後估計得到良好的適合度。」此文採用合併類別策略,

除了使類別適合度良好(無閾值失序)外,信度和效度並沒有提高,只解決部分的 問題,並未帶來較多的效益,何況減少了類別的數量,將影響試題鑑別度的萎縮;

至於閾值失序的真正問題何在?回溯其源頭是類別設定的問題,所以正確的方向是 設定合理的類別。

近年來體育運動測驗在現代測量理論的基礎上,編製運動技術測驗時,也面臨 類別設定的難題,傳統主觀的經驗模式,形成閾值失序的情形;一些利用Rasch 測 量研究的論文,例如陳玟靜(2008)的桌球甲組選手正手拉球測驗之編製,參考前 人的桌球技術測驗,其初步研究採主觀的設定計分類別,經過三次的調整和測試,

努力的尋找適當的類別設定,最後只勉強的達到「軟體估計出來沒有失序,使用 Rasch 模式是可以的」,顯然要尋找出類別設定的方法,不只是研究者單方面的思 維,還要有受試者的反應訊息,兩者溝通、調整來決定類別區域的大小和數兩,才 是徹底的解決辦法。其次是余美儒(2009)的編製桌球甲組選手正手快帶技術測驗,

有鑑於陳玟靜編製測驗的經驗,初步研究先放棄參考前人的測驗類別,先收集受試 者的反應資料,再依據Rasch 模式順序閾值的類別比率,推算合理類別的範圍,完 成計分類別設定;此研究進行兩次的初步實驗,結果仍然不理想,但兩次實驗的結

(7)

果很接近,認為類別瓦解不是受試者數量的問題,而是類別設定的問題。陳玟靜嘗 試尋找適當的類別設定,余美儒增加受試者的反應訊息,但仍有缺陷存在,如何建 立一套運動技術測驗合理類別設定方法?顯然才是核心課題。

上述運動技術測驗研究的發展,由主觀設定的類別開始,面臨閾值失序產生 時,採用合併類別的方式;為避免類別數量減少發生,陳玟靜嘗試修訂類別的設定,

余美儒為得到客觀的資料,增加收集受試者的反應,再依固定的比率規劃類別,雖 然逐漸改善失序問題,但仍然沒有獲得較好的成果。總結這些研究文獻的發展,目 前需要明確的建構一套類別設定方法,因此,本研究目的在於發展運動技術測驗的 合理類別設定方法。

貳、方法

一、研究模式

本研究採兩步驟實施,第一個步驟提出一套設定測驗類別的方法,第二個步驟 實證研究以評估此類別設定方法。本章分為:研究設計、測驗方法和實證研究三節 敘述如下:

一、研究設計

本研究是設計羽球發長球測驗類別,採用的兩個階段類別設定,最後進行實測 資料評估,說明如下。

(一)第一階段先收集受試者的羽球發高遠球的落點,並記錄每一個球落點的 XY 軸座標。

(二)第二階段根據二項分配理論,計算資料的分界點,設定計分類別。

(三)運用第二階段設定的計分類別,測驗一般大學體育課羽球興趣選項學生的羽 球發長球,然後評估類別的合理性。

二、羽球發長球測驗方法

羽球的發長球是指比賽開始的第一拍,根據羽球規則發出又長又高的球,發球 者目標對準單打後發球線,目的在使接發球者向後方移動,才能回接發球。

(一)測驗流程

(8)

1. 說明測驗目的為編製羽球技術測驗,用於評量學生的運動技術能力。

2. 健康篩選和填寫同意書:先排除免測者,於填寫受試者同意書時詢問健康狀況,

並告知受試者的權利和義務。

3. 先實施熱身運動及發球練習,然後依上課點名表編號進行正式測驗。

(二)測驗場地

測驗在羽球場實施,以羽球單打場地為施測場地。(參見圖一)

圖一 羽球發長球場地規畫圖(紅色框為有效區域)

(三)測驗要項

1. 受試者 A 站在右發球區,依羽球發球規則發長球。

2. 襄試者 B 站於接發球位置,模擬比賽情境。受試者發球必須越過襄試者頭頂上 方、且不被攔截,才算是發長球;襄試者不移動或跳躍。

(9)

3. 每位測試二十次,由身旁 C 負責給球。

4. 襄試者 D 在接發球區域,判斷球的落地位置和記錄。

5. 研究第一階段記錄落點,以中線和單打後發球線的交點為圓心,丈量落點的座 標值。實證研究則依設定的計分類別,記錄每一球的得分。

三、實證研究

(一)研究對象

研究對象是大學體育興趣選項羽球班學生,體育課程16 週,上學期收集男 88 名發長球落點資料,下學期發長球測驗施測男生158 名。

(二)評價指標

本研究實測資料利用Winsteps 估計,以 Linacre(2002)的適當類別準則評估。

參、結果

本研究結果就原始資料分析、類別設定及實測資料驗證等三部分分析如下:

一、原始資料分析

研究第一階段記錄每一個球的落點,在羽球單打有效發球區域內(X 軸 261 公 分和Y 軸 472 公分)共計 597 個,X 軸平均 124.28 公分、標準差 64.39 和 Y 軸平 均112.27 公分、標準差 65.76,落點大致平均分布。

二、類別設定

表一 二項分配的類別理論機率和設定區域的大小

類別 理論機率(%) 累積機率(%) 百分等級 分界點(Y軸cm)

5 3 100 97 9.00

4 16 97 81 50.50

3 31 81 50 108.00

2 31 50 19 174.76

1 16 19 3 241.00

(10)

0 3 3 ― ―

因落點平均分布,乃採後發球線平行設計類別區域,設定二項分配參數為 N=5、p=0.5,得到類別理論機率和設定區域的大小(參見表一)。類別「0」至類別

「5」的理論機率分別為 3%、16%、31%、31%、16%、3%,根據百分等級求得各 類別的區域大小,類別「5」至類別「1」的分界點:距離後發球線分別為 9.00 公 分、50.50 公分、108.00 公分、174.76 公分、241.00 公分。

三、實測資料驗證

本研究驗證類別設定的優劣,主要是類別分析,首先是實測資料分布考驗,得 到類別「0」至類別「5」的機率(如表二)為 2%、23%、34%、27%、12%、2%,

經柯史適合度考驗(K - S goodness of fit test)得到 D=0.0934 大於臨界值 0.0242,

達到p<.05 顯著水準,裁決實測資料的類別分布不適合二項分配,顯示實測和規劃 還是有差距。

表二 類別結構基本測量摘要表 類別 次數 比率

(%)

觀察

平均 期望值 訊息加權均方 偏離反應均方 閾值 類別難度 0 51 2 0.02 -0.79 1.89 1.55 NONE (-4.47) 1 734 23 -0.50* -0.50 1.00 1.00 -3.31 -2.10 2 1090 34 -0.22 -0.14 0.93 0.96 -0.72 -0.36 3 846 27 0.22 0.21 0.92 0.88 0.29 0.78 4 378 12 0.64 0.55 0.86 0.83 1.19 2.03 5 61 2 0.97 0.94 0.99 0.98 2.56 (3.82)

註:1>「*」失序。2>「NONE」無閾值。3>「( )」表示極端類別加權 0.25 計算。

適合度考驗僅類別「0」的訊息加權 1.89 和偏離反應 1.55 超出適合標準,其餘 類別皆適合 Rasch 模式;類別「0」是極端類別、無閾值,適合度顯示變異較大,

因高能力者也會失誤(類別 0)。且測驗的高分區域靠近後發球線,線外就是類別

「0」,即類別「5」和類別「0」相鄰,在高分區與低分區僅一線之隔下,造成類別

「0」較大變異,在運動技術測驗中是合理的。

閾值為結構校準得到的類別分界點,它是 Rasch 模式的參數,類別「0」是下 限、無閾值;其次是類別「1」至類別「5」的閾值分別為-3.31、-0.72、0.29、1.19、

(11)

2.56(參見圖二)。閾值是估計 Rasch-Andrich 模式的參數,也稱為 Rasch-Andrich 閾值,本研究的類別由低至高,呈現逐漸遞升的情形。類別難度是該類別的最高機 率位置,除極端類別以外,它是各類別曲線的最高點;兩個極端類別皆加權 0.25 計算,表二中用「( )」表示加權調整所得的數值;本研究的類別難度是:類別「0」

至類別「5」分別為-4.47、-2.10、-0.36、0.78、2.03、3.82(參見圖三),類別難度 是進階的,沒有產生失序,此項結果Rasch 模式與理論吻合,這是合理類別設定方 法產生的效果。

圖二 測驗的類別機率曲線和閾值難度圖

圖三 測驗的類別難度圖

(12)

表三估計類別結構測量值(Rasch-Andrich 閾值)和標準誤,類別「1」至類別

「5」分別為:-3.31±0.14,-0.72±0.05,0.29±0.04,1.19±0.06,2.56±0.13;由測量 值計算階段範圍,類別「1」至類別「4」為:2.59、1.01、0.90、1.37。估計類別「0」

至類別「5」區域範圍,得到上限至下限分別為:-3.49 至負無限大,-1.08 至-3.49,

0.23 至-1.08,1.35 至 0.23,2.99 至 1.35,正無限大至 2.99。類別中點是指累積機率 50%的位置,亦稱為 Rasch-Thurstone 閾值,類別「1」至類別「5」分別為:-3.38、

-0.92、0.26、1.29、2.76。

表三 類別結構估計測量摘要表 類別結構 類別範圍

類別 測量值 標準誤 下限 上限

類別 中點

測量的 百分比

類別的 百分比

估計的 鑑別值 0 無 ― -INF -3.49 ― 0% 0% ― 1 -3.31 0.14 -3.49 -1.08 -3.38 61% 18% 0.87 2 -0.72 0.05 -1.08 0.23 -0.92 41% 69% 0.84 3 0.29 0.04 0.23 1.35 0.26 37% 48% 1.20 4 1.19 0.06 1.35 2.99 1.29 39% 4% 1.13 5 2.56 0.13 2.99 +INF 2.76 0% 0% 1.01

註:1>「-INF」負無限大。2>「+INF」正無限大。3>「()」極端類別加權 0.25。

類別結構和測量的關連,包括測量的百分比和類別的百分比兩個部分。測量的 百分比為類別中它是期望產生的觀察值,類別「0」至類別「5」為:0 %、61 %、

41 %、37 %、39 %、0 %;類別的百分比則是類別產生一個對應的測量,類別「0」

至類別「5」為:0 %、18 %、69 %、48 %、4 %、0 %。鑑別值是估計模式參數的 局部鑑別度,類別「1」至類別「5」的鑑別值:0.87、0.84、1.20、1.13、1.01,大 致接近理論1.00,即支持資料適合模式。

肆、討論

利用 Linacre(2002)的適當類別準則,評估本研究結果:(1)基本準則是所 有的試題都是潛在變項。本研究的運動技術測驗是試做(試題)20 次,據此估計受 試者的潛能,所以符合基本準則。(2)準則一是每一個類別至少有 10 筆觀察值。

在表二中類別「0」51 次最少,故全部皆滿足準則一。(3)準則二是觀察分配是有

(13)

規律的。本研究經過柯史適合度考驗,發現實測資料的類別分布不適合二項分配;

實測類別「0」至類別「5」機率分別是 2%、23%、34%、27%、12%、2%,顯示資 料的類別分布,仍然是中間類別比率較高、兩端類別比率較少的規律性。(4)準則 三是類別平均測量值是單調遞生。表二平均測量值除了類別「0」的 0.02 高於類別

「1」的-0.50,其於的類別平均測量值符合單調遞生。(5)準則四是偏離反應適合 度統計均方應小於 2.0。表二類別適合度考驗,類別「0」的偏離反應均方值 1.55 最大,符合準則四。(6)準則五是階段校準進階的。本研究表三中類別結構測量值 即校準的階段,類別「1」至類別「5」分別為:-3.31±0.14,-0.72±0.05,0.29±0.04,

1.19±0.06,2.56±0.13。階段校準是進階的,且標準誤兩極端類別大、中間類別小,

和Rasch 理論模式一致。(7)準則六是評分包含測量、且測量包含評分。在表五中 類別結構和測量的關連,所呈現的測量百分比和類別百分比兩個部份,也就是「評 分包含測量、且測量包含評分」;除兩極端類別為0%外,其百分比從 4%至 69%,

皆有關連存在。(8)準則七是階段範圍至少大於 1.4 logit,準則八是階段範圍應該 小於5.0 logit。階段範圍研究結果:類別「1」為 2.59 符合,類別「2」的 1.01 和類 別「3」的 0.90 範圍較小,類別「4」的 1.37 接近下限。

相關的運動技術測驗研究,在實際的測驗編製裡有兩種處理的方式:一種是採 取合併類別的方式,例如何榮桂和姚漢禱(1996)研究運動技術測驗、Zhu 等人

(1997)研究運動自我效能的處理,以及姚漢禱等人(2008)修訂檢核表採用類別 合併,雖然修訂出合乎理論的量表,解決了失序的問題,但類別數量減少,同時也 降低了測驗的鑑別力和效度。另外一種是從不斷的測試調整計分區域的設定,例如 陳玟靜(2008)初步研究經過三次的測試,余美儒(2009)編製技術測驗先收集落 點,然後設定類別,最後仍不盡理想。

綜合上述評估討論的結果,本研究從收集受試者反應的具體資料,然後依據二 項分配理論規劃客觀的給分範圍,進而實證研究類別品質的一系列類別設定法,經 過 Linacre(2002)適當類別準則評估得到,有六項符合適當類別準則,另外有兩 項部份符合適當類別準則,只有一項少部份符合適當類別準則;整體而言,本研究 的合理類別設定法已經有很大的改變,提升運動技術測驗類別設定品質,開創出另 一種的選擇程序。根據研究結果,本研究得到結論為發展出運動技術測驗合理類別 設定的一種方法。

(14)

參考文獻

何榮桂、姚漢禱(1996)。評分量尺模式在運動技能測驗上的應用,測驗年刊,43,

141-152。

余美儒(2009)。編製桌球甲組選手正手快帶技術測驗。國立台灣體育大學(桃園)

碩士論文,未出版,桃園縣。

姚漢禱、何榮桂(1996)。固定試做次數之運動技能測驗的適性化測驗研究,體育 研究,2,15-31。

姚漢禱、紀世清、周嵩益、姚偉哲(2008)。修訂立定跳遠發展階段觀察檢核表,

國立台灣體育大學論叢,19 (1 ),35-48。

陳玟靜(2008)。桌球甲組選手正手拉球測驗之編製。國立台灣體育大學 (桃園) 運 動技術研究所碩士論文,未出版,桃園。

Bond, T. G., & Fox, C. M. (2007). Applying the Rasch model: Fundamental measurement in the human sciences (2nd). Mahwah, NJ: Lawrence Erlbaum Associates.

Chou, S. I. & Yau, H. D. (2006). An evaluation of the assessing the development level of the standing long jump observation checklist. Paper presented at the 2nd Pacific Rim Objective Measurement Symposium, PROMS HK 2006, Hong Kong Institute of Education, Hong Kong. 27-29, June.

Guilford, J. P. (1965). Fundamental statistics in psychology and education, 4th, ed.

New-York: McGraw-Hill

Lamoureux, E. L., Pesudovs, K., Thumboo, J., Saw, S. M. & Wong, T. Y. (2009). An evaluation of the reliability and validity of the Visual Functioning questionnaire (VF-11) using Rasch analysis in an Asian population. Investigative Ophthalmology and Visual Science. 50, 2607-2613.

Lamoureux, E. L., Tee, H. W., Pesudovs, K., Pallant, J. F., Keeffe, J. E., & Rees, G.

(2009). Can clinicians use the PHQ-9 to assess depression in people with vision loss? Optometry and Vision Science, 86(2), 139-145.

Larson, L. A., & Yocom, R. D. (1951). Measurement and evaluation in physical, health, and recreation education. St. Louis: C. V. Mosby.

Linacre, J. M. (1991). Step disordering and rasch-thurstone-type thresholds. Rasch

(15)

Measurement Transactions, 5(3), 171.

Linacre, J. M. (1999). Category disordering vs. step (threshold) disordering. Rasch Measurement Transactions, 13(1), 675.

Linacre J .M. (2001). Category, step and threshold: definitions & disordering. Rasch Measurement Transactions, 15(1), 794.

Linacre, J. M. (2002). Understanding Rasch Measurement: Optimizing Rating Scale Category Effectiveness. The Journal of Applied Measurement, 3(1), 85-106.

Linacre, J. M. (2010). Transitional categories and usefully disordered thresholds. Online Educational Research Journal, 1(2), Retrieved from

http://www.oerj.org/View?action=viewPDF&paper=2

Pesudovs, K., Gothwal, V. K., Wright, T., & Lamoureux, E. L. (2010). Remediating serious flaws in the National Eye Institute Visual Function Questionnaire. Journal Cataract Refract Surg, 36, 718-732.

Siegert, R. J., Jackson, D. M., Tennant, A., & Turner-Stokes, L. (2010). Factor analysis and Rasch analysis of the Zarit Burden Interview for acquired brain injury carer research. Journal Rehabilitation Medicine, 42, 302-309.

Shaw, F., Wright, B., & Linacre, J. M. (1992). Disordered steps? Rasch Measurement Transactions, 6(2), 225.

Stone, M. H., & Wright, B. D. (1994). Maximizing rating scale information. Rasch Measurement Transactions, 8(3), 386.

Zhu, W., Updyke, W. F., & Lewandowski, C. (1997). Post-Hoc Rasch analysis of optimal categorization of an ordered-response scale. Journal of Outcome Measurement, 1(4), 286-304.

(16)

A Study of Reasonable Categories

Setting Approach in Sport Skill Testing:

An Example of Multiple-Attempt Single-Item Tests

Han-Dau Yau *

National Taiwan Sport University

Abstract

The purpose of the study was to develop the approach of categories setting in sport skill testing: an example of Multiple-Attempt Single-Item tests. The research objects were the students whose selection of physical education for Badminton class was to construct the long service testing of Badminton. The method of study has two-staged testing. At the first stage, we recorded each valid point of long service in the coordinates, and used binomial distribution to set quantity and size of scoring categories. At the second step, we used the constructed scoring categories to test, and then assessed setting of this method. This study set five areas of the distance between long service line: 5 scores for 9.00 cm, 4 scores for 50.50 cm, 3 scores for 108.00 cm, 2 scores for 174.67 cm, and one score for 241.00 cm.

According to rule of optimizing categories in Linacre (2002), the results of the study were that the evaluation is the goodness of fitted 6 principles, partial fitted 2 principles and few fitted 1 principle. According to the results, we obtained the conclusion of this study was that we develop one of the approach of reasonable categories setting in sport skill testing.

Key words: categories setting, Binomial distribution, Rasch analysis, sport skill testing, disordered thresholds

* Corresponding author: Han-Dau Yau; National Taiwan Sport University; E-mail: yauhdg@gmail.com;

yauhd@hotmail.com

參考文獻

相關文件

- Informants: Principal, Vice-principals, curriculum leaders, English teachers, content subject teachers, students, parents.. - 12 cases could be categorised into 3 types, based

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =&gt;

incapable to extract any quantities from QCD, nor to tackle the most interesting physics, namely, the spontaneously chiral symmetry breaking and the color confinement.. 

• Formation of massive primordial stars as origin of objects in the early universe. • Supernova explosions might be visible to the most

In this paper we establish, by using the obtained second-order calculations and the recent results of [23], complete characterizations of full and tilt stability for locally

In this paper we establish, by using the obtained second-order calculations and the recent results of [25], complete characterizations of full and tilt stability for locally

Optim. Humes, The symmetric eigenvalue complementarity problem, Math. Rohn, An algorithm for solving the absolute value equation, Eletron. Seeger and Torki, On eigenvalues induced by

We have also discussed the quadratic Jacobi–Davidson method combined with a nonequivalence deflation technique for slightly damped gyroscopic systems based on a computation of