利用Rasch 測量分析測驗編製的試題

(1)

(2)

反映個人的一些特質，所以是順從理論運用演繹法來編寫試題。根據姚漢禱 (1998) 分析體育學報第 20 至 23 輯 (1996 和 1997 年) 使用測驗總加評分量表的論文數量，共有 28 篇、佔 22﹪，單就人文社會科學計算則高達 33﹪。因此以問卷調查為主說明資料處理，首先討論編製測驗總加評分量表，其次深入探討利用 Rasch 測量在測驗編製時進行試題分析，提供基本的共同概念，做為進一步資料處理的基礎。因此本研究的目的是利用 Rasch 測量在測驗編製時進行試題分析，這是利用現代測驗理論所發展一系列新方法的第一篇研究。

貳、理論基礎

一、Rasch 測量 1960 年丹麥數學家 Rasch 研究智力和成就測驗的機率模式，利用受試者能力和試題難度來校準量尺，希望達到測量的目的，因而產生 Rasch 模式。近年來

的趨勢 Rasch 測量模式蓬勃發展，主要是 Rasch 模式具有線性的可加性，Rost

(3)

時答對的機率大於 0.5，(3)  n i 時答對的機率等於 0.5，參考圖一。

圖一 Rasch 模式圖

從機率（Probability）、為勝率（Odds）和 logit 公式(勝率的自然對數值)，當

(4)

=ln(Pni*Pmi/ ((1-Pni)*(1-Pmi)) ) = (Bni+Bmi)

我們能更進一步說明。Bni 是受試者 n 的能力相對試題難度 i ，因此吾人

定義反應結果(Bni) 是受試者 n 能力 Bn 和試題 i 難度 Di 二者之間的差異關

係。

因此

Bn - Di = 反應結果 (Bni) = ln (Pni / (1-Pni)) 以及

(5)

等距的量尺。

Rasch 模式有兩種主要的適合度統計，第一是訊息加權 (the

information-weighted mean-square fit statistic，簡稱 Infit)，第二是偏離反應(the

outlier sensitive, mean-square fit statistics，簡稱 Outfit)。訊息加權統計考驗以訊息

(6)

1、均方值大於 2.0：複雜的過度變異是大於有用的訊息，將會貶低測量價值。 2、均方值大於 1.5：引人注意的變異過度複雜，但不編製的話，也不會貶低測量價值。 3、均方值 0.5 - 1.5：測量有效。 4、均方值小於 1.5：過度可預測，可能誤導我們去思考，而實際上會比我們測量的更好。(矛盾會被稀釋掉) 通常是優先修正較大的不適合統計部分，只有在測驗題數較少時，不適合統計小於 1.0 才會有影響。也就是說，均方統計值 0.5 - 1.5 時測量有效，這是最好的狀況。而均方統計值在 1.5 - 2.0 和小於 1.5 時，測量雖非良好但可接受，只有在短式測驗時才須探討均方統計值小於 1.5 帶來的影響。至少均方統計值大於 2.0 者是測驗必須處理的問題。二、測量問題問卷沒有理論架構時，只能逐題分析，難以建構整體構念；但有些問卷就經驗來看，可以形成初步的架構，也有人據此給予量化，其結果當然不及量表的嚴謹。量表長期的被使用，視量化為理所當然的事，追根究底，吾人所謂的量表

為總加評分量表(Summating rating scale)，Spector (1992)指出：「總加評分量表基

(7)

三、編製測驗總加評分量表

測驗的總加評分量表(Summating rating scale)是體育和運動常用的研究工

(8)

(9)

(10)

(11)

(12)

(13)

表一成功機率、失敗機率和勝率對照表成功機率（p）

_{0.01 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 0.99}

失敗機率（1-p）

_{0.99 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.01}

勝率（Odds）

_{0.01 0.11 0.25 0.43 0.67 1.00 1.50 2.33 4.00 9.00 99.0}

非線性的模式在解釋和使用上較為複雜，如果用 logit 模式來敘述關係較簡單，具有相當的價值。轉換 logit 值有兩個步驟：首先將機率（Probability）換算為勝率（Odds），其次取勝率的自然對數值，logit 公式如下： Li＝ln〔Pi÷（1－Pi）〕 logit 值有兩大優點：一是沒有上限和下限效應的限制，其範圍從『－∞』到『＋∞』（從負無限大到正無限大，參考圖五）。圖五成功機率、勝率和 logit 的關係

其次是非線性的線性化（linearizing the nonlinear）。原來的勝率是非線性的，

(14)

(15)

問卷的差異，提到發展問卷的五項問題與挑戰：「（1）問卷調查要找出最適合的

測驗長度是困難的。（2）須要界定有效的處理缺失資料的方法。（3）試題間的相

依可能會出現妨礙測量的編製進行。（4）界定適當的試題和反應量尺的工作。（5）

收集資料的施測工具應該能夠符合統計分析的標準。」這已點出比較的要點所

在，但此文僅分別編製，並沒有進行比較彼此的優劣。Hong， Kim 和 Wolfe (2005)

的研究則是直接使用 Rasch 分析來修訂量表，其重點擺在「（1）使用七點量尺是否適當。（2）修正測量以增加試題同質性。（3）研究修正測量的試題產生的個人潛能和試題難度的適配性。」這裡筆者認為最重要的是第三點提到潛能和試題難度的適配性，這也就是適性測驗的關鍵，因為適配的試題才能獲得最大的訊息量。Reeve 和 Fayers (2005) 指出：「應用試題反應理論評價試題和量尺特質、並改進量尺，有五個重點（1）試題內容的關係和難度。在 CTT 是試題與總分的相關（鑑別度）、α信度，IRT 為難度（b）和鑑別度（a）。（2）評價適合的反應類別。（3）評價試題的重複（指多餘的試題）。（4）評價試題內容的等值（試題差異函數，DIF）。（5）用 IRT 分析量尺，包括訊息量、信度、測量標準誤，而 CTT 只有 α信度。」明顯的看見利用 IRT 的特長使測驗獲益，上述各項 IRT 的特長

中除了鑑別度（a）之外，Rasch 分析都具備； WINSTEPS 3.59.1 版 Rasch 分析

(16)

(17)

肆、結果和分析

Rasch 測量模式在問卷調查的分析，從探討可能性，到現今被各相關領域爭

相運用，本節就評鑑教練資料做為範例說明，這些工作包括古典測驗理論的試題

分析 (item analysis)、信度 (reliability)、效度 (validity) 和常模 (norms) 或標準

(standards, criterion)，特別是 Rasch 測量專有的能力，能更精確深入的分析，呈

現更豐富詳盡的訊息。一、初步資料分析評鑑教練量表和資料依介紹需求而虛構，原始資料試題共有十題、受試者一百位的反應，反應量尺由很不同意至很同意，共有五種類別提供選擇；內含無效反應和缺失反應，且十題中有三題反向題。表三評鑑教練量表內容向度運動訓練比賽指導健康管理題號 1 2 3 4 5 6 7 8 9 10 要點訓練方法領導方式激勵士氣以身作則戰術運用比賽指導移地訓練預防傷害運動營養用藥問題反向題是是是原始資料利用 Winsteps 軟體估計，估計結果：經過兩次概略法（PROX,

normal approximation algorithm）得到初步的估計基礎，接著九次的聯合最大可能

率法估計（JMLE, joint maximum likelihood estimation）得到精確的估計，達到收

(18)

(19)

(20)

(21)

(22)

(23)

(24)

(25)

在表十二中就訊息加權均方和偏離反應均方超過 2.0，發現有七位受試者，訊息加權均方和偏離反應均方低於 0.5，發現有三位受試者，滿分和零分者有兩位，除此之外，相關值為零者有兩位受試者，總共有 14 位受試者。總之，確實有實據者近半數而已，還有 16 位受試者雖為有問題，但無法查知；可見這類資料不容易找出來，當大量資料時，依賴人工尋找，幾乎不可能，通常人們都沒有處理。五、信度、效度和常模或標準正確資料完成估計後，信度參見表九，實際的受試者信度 0.89，模式的受試者信度 0.90，受試者克龍巴賀(庫李 20 號)信度 0.92，表示有良好的信度，可以接受。本文範例 100 位受試者僅三位適合度統計超過 2.0，所以不符合模式資料佔 3%， Cole 和 Zhu (1994) 的研究指出：「如果僅是少數的個人適合度統計不符合模式，此測驗仍可視為適合理論模式。」因此本研究受試者的資料適合

Rasch 測量模式，當資料顯示受試者能夠適合 Rasch 模式，根據 Wright 和

(26)

表十三評鑑教練量表的常模參照表原始分數測量值標準誤原始分數測量值標準誤原始分數測量值標準誤 10 -5.420E 1.839 24 -0.818 0.369 38 1.069 0.392 11 -4.183 1.024 25 -0.684 0.365 39 1.226 0.401 12 -3.441 0.741 26 -0.551 0.362 40 1.391 0.411 13 -2.986 0.619 27 -0.421 0.36 41 1.565 0.424 14 -2.647 0.549 28 -0.291 0.359 42 1.751 0.439 15 -2.372 0.503 29 -0.162 0.359 43 1.952 0.458 16 -2.137 0.469 30 -0.034 0.359 44 2.172 0.482 17 -1.928 0.445 31 0.096 0.361 45 2.42 0.515 18 -1.739 0.426 32 0.227 0.363 46 2.707 0.560 19 -1.565 0.410 33 0.359 0.365 47 3.058 0.629 20 -1.401 0.398 34 0.494 0.369 48 3.525 0.749 21 -1.247 0.389 35 0.631 0.373 49 4.278 1.029 22 -1.099 0.381 36 0.772 0.378 50 5.523E 1.842 23 -0.957 0.374 37 0.918 0.385 註：E 表示極端值估計調整正負 0.3。測量值為 logit 值，0.0 的位置是 50%，其他常用的機率為：(1) logit 0.5 是

62%、logit -0.5 是 38%。(2) logit 1.1 是 75%、logit -1.1 是 25%。(3) logit 2.0 是

88%、logit -3.0 是 12%。(4) logit 3.0 是 95%、logit -3.0 是 5%。(5) logit 4.6 是 99%、

(27)

論的整個測驗只有一個信度，所以測量更精確。

表十四評鑑教練量表應用 Rasch 測量摘要

原始資料更正錯誤更正錯誤和反向題

估計過程 JMLE 9 JMLE 9 JMLE 20

受試者平均誤差 0.04 0.04 0.14

有效反應 99.7% 100% 100%

Alpha 信度 0.32 0.32 0.92

試題平均誤差 0.15 0.15 0.05

受試者適合度統計

MS>1.5 INFIT 16 INFIT 16 INFIT 11

MS>1.5 OUTFIT 19 OUTFIT 19 OUTFIT 12

試題適合度統計

MS>1.5 INFIT 2 INFIT 2 INFIT 0

MS>1.5 OUTFIT 3 OUTFIT 3 OUTFIT 0

(28)

(29)

參考文獻

王文中（2004）： Rasch 測量理論在教育和心理之應用。發表於 2004 年教育與 心理測驗學術研討會，中國測驗學會年會，民國九十三年十一月十三日，國立政治大學。吳齊殷（譯）（1999）：量表的發展:理論與應用。台北市：弘智文化出版。(DeVellis, R.F., 1991) 姚漢禱（1998）：編製測驗總加評分量表。中華體育，45， 37- 42 頁。 姚漢禱（2001）：用試題反應理論估計運動項目的成績表現排名。國科會專題研 究計畫成果報告（專題計畫編號：NSC 89-2413-H-179-013），中華民國九十年七月三十一日出版，共 90 頁。 姚漢禱（2004）：體育統計。台北市：師大書苑。 姚漢禱（2006）：運動資料統計處理（一）- 人文社會領域。2006 年卓越運動教 練研習會，大會邀請專題演講，民國九十五年七月二十日，國立臺灣大學。葉憲清和姚漢禱（2001）：編製運動教練評鑑量表，國立體育學院論叢，11（2）， 1－15 頁。

Daniel, Wayne W. (1990). Applied Nonparametric Statistics (2nd Ed.). PWS-KENT

Publishing Company is a division of Wadsworth, Inc.

Green, K. E. (2002). Survey development and validation with the Rasch model.

Paper presented at the International Conference on Questionnaire Development,

Evaluation, and Testing, Charleston, SC, November 14-17, 2002.

Hong, S., Kim, B. S. K. and Wolfe, M. M. (2005). A psychometric revision of the

European American Values Scale for Asian Americans using the Rasch model.

(30)

194-207.

Linacre, J.M. (2005a). A user's guide to Winsteps Ministep Rasch-Model computer

programs manual. winsteps.com.

Linacre, J. M. (2005b). WINSTEPS Rasch-Model computer program. WINSTEPS

for Windows Version No. 3.59.1 1991-2005.

Myers, D.C. (1993). Social psychology. New York: McGraw-Hill.

RMT. (2005). Rasch dichotomous model vs. One-parameter Logistic Model. Rasch Measurement Transactions, 19:3. 1032.

Reeve, B. B. & Fayers, P. (2005). Applying item response theory modeling for

evaluating questionnaire item and scale properties. In Peter Fayers and Ron

Hays (Eds.), Assessing Quality of Life in Clinical Trials Methods and practice

（pp. 55-73）. Oxford University: United Kingdom & Europe.

Rost, J. (2001). The growing family of Rasch models. In A. Boomsma, M.A.J. van

Duijn, & T.A.B. Snijders (Eds.), Essays on Item Response Theory（pp. 25-42）.

New York: Springer-Verlag.

Spector, P.E. (1992). Summating rating scale construction. Newbury Park, CA: Sage.

Wright, B.D., & Masters, G.N. (1982). Rating scale analysis: Rasch measurement.

Chicago: Mesa Press.

Wright, B.D., & Stone, M.H. (1979). Best test design: Rasch measurement. Chicago:

(31)

Using Rasch measurement to analyze the item of

construction testing.

Graduate institute of sports training science, National Taiwan Sport

University(Taoyuan).

Yau, Han-Dau

Abstract

The purpose of the study was to analyze the item of construction testing by Rasch measurement, this is develops a series of new methods of first research using the modern test theory. The research subjects were item analysis stage in the procedure of construction testing. The method of study draws up to has completed the raw data(observations 100) of survey. In the item analysis stage, used "the Rasch measurement method", analyzed in the item difficulty, discrimination, reliability, validity, fit indices (item and model), and the ability of detected errors for data (investigation missing data,

correction wrong and reverse items) and so on. The results were that using the Rasch measurement have a mass of information in the construction testing. Therefore a conclusion was a good method of Rasch measurement in the item of construction testing.