Rasch 模式評分量尺類別的最適合

(1)

H A N - D A U Y A U

N A T I O N A L T A I W A N S P O R T U N I V E R S I T Y 1

Rasch 模式評分量尺類別的最適合理論分配

This study (NSC 99 - 2410 - H - 179 - 009) was sponsored by The

National Security Council, R.O.C.

(2)

緒論

2 

運動技術測驗：如何設定類別量尺（計分區域）



例如：羽球發球測驗

1.

主觀經驗（傳統）



缺乏受試者的反應訊息



易造成類別失序 (disorder category )

2.

客觀設定 (Yau, 2010)

(3)

緒論

3 

羽球發球測驗

1.

主觀經驗（傳統）



缺乏受試者的反應訊息



易造成類別失序

(disorder category )

(4)

緒論

4 

羽球發球測驗

2.

客觀設定 (Yau, 2010)

(5)

問題與處理

5  研究問題



使用 Rasch 評分量尺模式 (rating scale model ) 編製運動技術測驗，經常會發生類別失序。

 解決的方法



本研究企圖探索 Rasch 評分量尺的最佳類別，應該根據的機率分配理論。

(6)

階段難度失序的原因

6 

階段 2 (Step 2) 比階段 1 (step 1) 更容易。

(7)

解決類別失序的對策

7 目前四種處理的方法：

1.

Andrich (1996) ：合併失序的類別

2.

Siegert et al. (2010) ：逐步刪除不適合的試題

3.

Van Lente et al. (2010) ：重新抽樣，使用拔靴法 (bootstrap) 重複抽取數據並替換。

4.

Linacre (2010) ：社會科學的測量必須提高分析和溝通過渡類別，而不是試圖消除它們。

(8)

適當的評分量尺類別

8  Linacre (2002) ：適當類別的準則



基本準則：所有的試題都是潛在變項。

準則一是每一個類別至少有 10 筆觀察值。

準則二是觀察分配是有規律的。

準則三是類別的平均測量值是單調遞生的。

準則四是偏離反應適合度統計均方小於 2.0 。

準則五是階段校準逐階遞升的。

準則六是評分包含測量、且測量包含評分。

準則七是階段難度至少要大於 1.4 logit 。

準則八是階段難度應該要小於 5.0 logit 。

(9)

運動技術測驗的階段失序研究

9 1. 合併失序的類別

：姚漢禱、紀世清、周嵩益和姚偉哲（2008）（國科會專題計畫編號：NSC 95-2413-H-179 - 011 ），陳玟靜（2008）。

2. 發展合理類別的設定方法

：姚漢禱（2010）

（國科會專題計畫編號： (NSC 98 - 2410 - H - 179 - 004）。

(10)

研究目的

10 

研究的目的是模擬研究 Rasch 模式評分量尺類別的最適合理論分配。

(11)

研究對象

11 1. 常態分配

(Normal Distribution) ： Lord (1952)

2. 二項分配

(Binomial Distribution) ：Rasch (1972)；Andrich (1978)

3. 羅吉斯分配

(Logistic Distribution) ： Rasch (1960)

4. 均等分配

(Uniform Distribution) ： Linacre (2002)

(12)

模擬研究

12 （一）產生模擬資料



利用 SAS 的 normal、 binomial、 ranuni 函數分別產生常態分配、二項分配和均等分配隨機資料，儲存為 SAS 的永久檔。



利用 Minitab14 的 logistic 函數產生羅吉斯分配隨機資料，

儲存為 Minitab14 的資料檔，然後直接轉換至 Excel 活頁簿。

（二）

Rasch 分析：利用測驗軟體 Winsteps 直接讀取 SAS 永久檔和Excel 檔，建立 Winsteps 程式內含資料檔；

然後執行 Winsteps 軟體，得到測驗估計之參數。

(13)

初步研究

13 

初步研究運用概化理論方法，做出最佳的決斷。



概化理論模式： ( P : S ) × I ，設定 5 次隨機抽樣 (S)，每次抽取30個樣本 (P)、10 題的測驗長度 (I)， (30 : 5) ×10

表一四項分配理論研究設計的概化研究結果

變異來源變異成份百分比

二項分配羅吉斯分配常態分配均等分配平均

S 0.00% 0.00% 0.00% 0.00% 0.00%

P:S 0.75% 2.99% 0.00% 0.00% 0.94%

I 0.85% 0.00% 0.05% 0.02% 0.23%

SI 0.55% 1.02% 0.00% 0.00% 0.39%

(14)

概化研究

14 

概化研究發現各變異來源的變異成份所佔的百分比，

以隨機誤差 (PI:S) 平均的 98.44% 佔絕大多數，其餘的變異來源都佔不到百分之ㄧ的比率，顯示本研究模擬隨機抽樣資料，與隨機抽樣理論相吻合。



其次，樣本數量巢串在抽樣次數 (P:S) 的平均變異成份 0.94% 、居第二位，抽樣次數和測驗長度交互作用 (SI) 的平均變異成份 0.39% 、居第三位，測驗長度 (I) 的平均變異成份 0.23% 、居第四位，抽樣次數 (S) 的平均變異成份趨近于零、最不重要。

(15)

決斷研究

15 1. 本模擬研究的資料，與隨機抽樣理論相吻合

：隨機誤差 (PI:S) 平均佔 98.44% 。

2. 樣本數量平均變異成份居第二位，設定

^：

大樣本 (N=1000)、中樣本 (N=300) 和小樣本 (N=30) 三種大小。

3. 設定短測驗 (I=10)和長測驗 (I=50)兩種

^：

測驗長度 (I) 的平均變異成份 0.23%。

4. 設定隨機抽樣執行 5次

：抽樣次數 (S) 的平均變異成份趨近于零。

(16)

結果

16

類別的適合度



準則四是偏離反應適合度統計均方小於 2.0 。

表二四種分配理論模擬資料類別適合度考驗的基本統計

分配理論適合度考驗個數平均標準差最小值最大值

常態分配訊息加權均方 167 0.997 0.034 0.84 1.09 偏離反應均方 167 0.997 0.034 0.86 1.10 羅吉斯分配訊息加權均方 180 0.997 0.051 0.63 1.21 偏離反應均方 180 0.997 0.051 0.65 1.20 二項分配訊息加權均方 180 0.999 0.043 0.86 1.24 偏離反應均方 180 1.000 0.042 0.85 1.18 均等分配訊息加權均方 180 0.997 0.052 0.80 1.38 偏離反應均方 180 0.997 0.057 0.78 1.41

(17)

類別適合 Rasch 模式

17 

類別適合度統計：接近期望值 1.0 ，且四種分配 F考驗沒有差異。

(18)

階段難度

18 

適當類別準則七是階段難度至少要大於 1.4 logit 。



單一樣本 t 考驗（μ=1.4）四種分配理論的階段難度。



僅常態分配階段難度平均 2.45 顯著大於 1.4 。

表四四種分配理論模擬資料估計階段難度的單一樣本 t 考驗 (μ=1.4)

分配理論個數平均標準差標準誤 t 值

常態分配 107 2.455 0.458 0.044 23.808*

羅吉斯分配 120 1.060 0.546 0.050 -6.808*

二項分配 120 0.874 0.230 0.021 -24.938*

均等分配 120 0.026 0.134 0.012 -111.739*

* p < .05

(19)

評價理想的階段難度

19 

常態分配模擬資料的階段難度最好，有 105 個理想階段難度、佔 88%，其次是羅吉斯分配有 44 個理想階段難度、佔 37%，二項分配和均等分配理想階段難度分別只有 4 個(3%)、 0 個(0%) 最差。

表五四種分配理論模擬資料估計的理想階段難度個數(百分比)

樣本數測驗長度常態分配羅吉斯分配二項分配均等分配反應個數

大樣本 (N=1000)

長測驗(I=50) 20(100%) 5(25%) 0(0%) 0(0%) 50000 短測驗(I=10) 20(100%) 6(30%) 0(0%) 0(0%) 10000 中樣本

(N=300)

長測驗(I=50) 20(100%) 5(25%) 0(0%) 0(0%) 15000 短測驗(I=10) 19(95%) 9(45%) 0(0%) 0(0%) 3000 小樣本

(N=30)

長測驗(I=50) 16(80%) 9(45%) 0(0%) 0(0%) 1500 短測驗(I=10) 10(50%) 10(50%) 4(20%) 0(0%) 300

(20)

評價理想的階段難度

20 ‡ 發現：



(1) 常態分配在大樣本和中樣本具有最好的理想階段難度，至小樣本時情況變壞。



(2) 羅吉斯分配則是相反現象，至小樣本時理想階段難度情況增多。



(3) 二項分配僅在小樣本短測驗時，才有理想階段難度 20%。



(4) 均等分配則是都沒有理想階段難度，顯然此理論不適合 Rasch 測量模式。

(21)

類別的觀察個數

21 

Linacre (2002) 的準則一是每一個類別至少有 10 筆觀察值。



只有均等分配沒有類別少於 10 筆個數發生。

表六四種分配理論模擬資料估計類別少於 10 筆個數的統計表

大樣本 (N=1000)

長測驗(I=50) 0(0%) 0(0%) 0(0%) 0(0%) 50000 短測驗(I=10) 10(33%) 0(0%) 0(0%) 0(0%) 10000 中樣本

(N=300)

長測驗(I=50) 8(27%) 0(0%) 0(0%) 0(0%) 15000 短測驗(I=10) 10(33%) 0(0%) 0(0%) 0(0%) 3000 小樣本

(N=30)

長測驗(I=50) 10(33%) 1(3%) 0(0%) 0(0%) 1500 短測驗(I=10) 12(40%) 10(33%) 6(20%) 0(0%) 300

(22)

類別空缺-1

22 

只有常態分配有類別空缺情形。

表七四種分配理論模擬資料估計的類別空缺個數(百分比)

大樣本 (N=1000)

長測驗(I=50) 0(0%) 0(0%) 0(0%) 0(0%) 50000 短測驗(I=10) 0(0%) 0(0%) 0(0%) 0(0%) 10000 中樣本

(N=300)

長測驗(I=50) 0(0%) 0(0%) 0(0%) 0(0%) 15000 短測驗(I=10) 0(0%) 0(0%) 0(0%) 0(0%) 3000 小樣本

(N=30)

長測驗(I=50) 3(10%) 0(0%) 0(0%) 0(0%) 1500 短測驗(I=10) 10(33%) 0(0%) 0(0%) 0(0%) 300 欄小計 13(7%) 0(0%) 0(0%) 0(0%) ---

(23)

類別空缺 -2

23

1.

常態分配只在小樣本長測驗時，有 3 個類別空缺、

佔 10%，在小樣本短測驗時，有 10 個類別空缺、

佔 33%。

2.

依樣本大小判斷，當反應個數 1500 時，常態分配開始出現類別空缺。

(24)

階段校準失序個數-1

24 

準則五是階段校準逐階遞升的。

表八四種分配理論模擬資料估計的階段校準失序個數(百分比)

大樣本 (N=1000)

長測驗(I=50) 0(0%) 0(0%) 0(0%) 6(30%) 50000 短測驗(I=10) 0(0%) 0(0%) 0(0%) 8(40%) 10000 中樣本

(N=300)

長測驗(I=50) 0(0%) 0(0%) 0(0%) 8(40%) 15000 短測驗(I=10) 0(0%) 0(0%) 0(0%) 8(40%) 3000 小樣本

(N=30)

長測驗(I=50) 0(0%) 1(5%) 0(0%) 9(45%) 1500 短測驗(I=10) 0(0%) 0(0%) 1(5%) 8(40%) 300 欄小計 0(0%) 1(1%) 1(1%) 47(39%) ---

(25)

階段校準失序個數-2

25 

(1) 常態分配沒有階段校準失序的發生，而羅吉斯分配和二項分配都只有 1 個階段校準失序、佔 1% 居次，

均等分配有 47 個階段校準失序、佔 39% 最差。



(2) 羅吉斯分配和二項分配都是在小樣本時（反應個數 3000 以下），會有階段校準失序的現象。



(3) 均等分配則是在樣本數和測驗長度組合的各項狀況，皆有階段校準失序發生，從 30% 至 45% 的失序個數。

(26)

本研究發現

26 

(1) 樣本大小在3000 個反應資料以上時，常態分配是理想的理論分配。



(2) 樣本大小在1500 個反應資料以下時，羅吉斯分配是較好的理論分配。

(27)

結論

27 

本研究結論為：Rasch 模式評分量尺類別的適合理論分配和樣本大小有關。

(28)

Rasch 模式評分量尺類別的最適合

H A N - D A U Y A U

N A T I O N A L T A I W A N S P O R T U N I V E R S I T Y 1