195
國立臺灣師範大學教育心理與輔導學系 教育心理學報,民鈣, 38 卷, 2 期, 195-211 頁能力估計方法對多向度電腦化適性測驗測量
精準度的影響
陳柏熹
國立台灣師範大學 教育心理與輔導學系 本研究旨在分析不同能力估計方法對多向度電腦化遍性測驗 (multidimensionalcomputerized
adaptive testing
,MCAT) 測量精準度的影響。研究分為兩階段:第一階段先找出在 MCAT 中 貝氏期望後驗法 (expecteda posteriori
,EAP) 的最佳節點數 (quadraturepoind
;第二階段是 比較最大概似法 (maximumlikelihood.
ML) 、期望後驗法 (EAP) 與最大後驗法 (maximuma
posteno泊, MAP) 在不同向廣(二向度與四向度)及不同相關性(低相關與高相關)的情況 下,進行不問題數 (20 題、 40 題、 ω 題、 80 題) MCAT 時的能力估計信度、偏誤 (bias)以及均方根誤 (root
mean square of error
,RMSE) 。階段一的結果顯示,隨著 EAP 節點數的增加(從弘30 點)與能力向度的增加,其選題所需的時間會明顯地增加。在考量到選題時間又 不致影響到測量精準度的情況下,在 MCAT 中將 EAP 的節點數訂為 10 是理想的選擇。階段 二的結果顯示, MAP 法與 EAP 法比 ML 法的能力估計信度高,均方根誤較低。在平均偏誤 方面此三種方法則無明顯差異,不過 MAP 法會有明顯的過歸性偏誤。這些現象在能力間相 關較高、能力向度數量較多以及題數較少時會更明顯。整體而言,三種方法各有其優缺點, 其中 MAP 法的迴歸性偏誤、 EAP 法的選題時間以及 ML 法的信度與測量誤差是未來進行 MCAT 時需要改善的問題。 關鍵字:多同度電腦化適性測廠、最大概似法、 II大後驗法、期望後II法
電腦化適性測驗 (computerized
adaptive testing
,CAT) 主要是利用電腦的快速運算能力,根據受試者的答題反應立刻估計出其能力,並且挑選出適合該受試者能力的下一道試題讓受試者作答。由於 受試者所接受到的試題都很接近其能力水準,因此只要用較少的題數就可以達到與傳統測驗相同的測
量精確度 (Sand,
Water
,&
McBride
,1997; Wainer et
al吋 19則; Wei訟, 1985) 。而 CAT 理論基礎主要是源自於試題反應理論(item
response theory
,IRT) 。基於 IRT 的單向度(unidimensionality
)假定,以及受試者的能力估計的不變性(invariance) ,使接受不同試題的受試者能力可以被放在同一個尺度上
E相比較 (Hambleton
&
Swaminathan
,1985; Wainer et al.
, 1990) 。然而,單向度假定也限制了的 CAT的應用,使 CAT 大都侷限在單向度能力的測量上。對於人格量表、多元性向測驗、綜合能力測驗... 等多向度測驗,以及一些含有多向度題的測驗而言,目前尚無法用 CAT 來進行。
196
教育心理學報response theory
,
MIRT)
,並將之應用到多向度電腦化適性測驗 (multidimensionalcomputerized adaptive
testing
,
MCAT) 的程序中(陳伯熹、王文中,民 89a' 民的b; Hattie
,
1981; Luecht
,
1996; Mckinley
&
Reckase
,
1983; Reckase
&
Mckinley
,
1991; Segall
,
1996; Sympson
,
1978) 。由於 MCAT 同時包含了多向 度分析與適性程序的優勢,因此其測量精準度又比單向度電腦化適性測驗(uCAT) 更高。然而,測量精準度與能力估計方法有密切的關係:根據過去單向度電腦化適性測驗的研究顯示(洪碧霞、吳鐵
雄、黃干綺、江秋坪、許宏彬,民 81;
Bock
&
Mislevy
,
1982; Weiss
&
Mcbride
,
1984)
,最大概似估計法(
maximum likelihood
,
ML) 的均方根誤 (rootmean square of error
,
RMSE) 較高,但是比較沒有偏誤 (bias) ;而買氏最大後驗法 (Bayesian
maximum a posteriori
,
MAP) 與買氏期望後驗法 (Bayesianexpected
a 仰晦n凹, EAP) 的均方根誤較小,但會有迴歸性的偏誤。而這三種能力估方法在MCAT 中 測量精準度的差異有多大,目前尚不清楚。本研究的目的之一就是想比較這三種方法在MCAT 中的 測量精準度,以作為後續發展 MCAT 時的參考;又由於在 EAP 方法中所選取的節點數量與 EAP 的效果有闕,因此本計畫也將探討不同節點數量的 EAP 對 MCAT 測量精準度的影響。 一、單向度電腦化適性測臨的能力估計
CAT 主要的理論基礎是 IRT 。在 IRT 中,每個考生在每個試題上的答對機率主要是受到考生能
力與試題參數所影響。其基本假設有兩項,第一是單向度,也就是所有題目都是測量同一向度;第二 是局部獨立性 (local
independency)
,意指對同能力水準者而言 4.答對某一題的機率與答對其他題目 的機率是無關的。藉由 IRT 的模式與局部獨立性的假設,可以計算出受試者在整份測驗上的反應概 似國數(likelihood function)
,並藉此估計出每個受試者在接受不同測驗試題後的能力。只要這些測驗 試題都測量相同的能力並符合 IRT 的模式與基本假設,貝IJ 接受不同試題的受試者其能力估計值就可 以互相比較。 CAT 就是使用反應概似函數來估計受試者的能力。估計方法是先由IRT 的反應模式算出 k 個人 在 n 個試題上的概似函數,再找出此函數的最佳解。尋找最佳解的常見方法有三種:第一種是找出能 使概似函數最大化的能力值,稱為最大概似估計法 (ML) 。為了加速找到能使概似函數最大化的能力 值,通常以牛頓-約佛森 (Newton-Raphson) 法來進行疊代。 第二種是以受試者的事前能力分布烈的作為加續值,形成事後機率密度函數,並找出能使此事 後機率密度函數 f(θIV) 最大化的能力值,稱為買氏最大後驗法 (MAP) 。事後機率密度函數計算方 式如公式(1)所示:f(θIV)= L(VI θ)f(O) ,
(I)
f(V)
其中 , f(O) 為受試者的事前能力分布, L(VI θ) 是能力值為 θ 者的反應概似函數, f(V) 是受 試者的邊際機率,是由L(VI θ )f(O) 從一∞到∞積分所得。為了加速找到能使事後機率密度函數最 大化的能力值,通常也是以牛頓.約佛森(Newton-Raphson) 法來進行疊代。 第三種與第二種方法穎似,只是所尋找的能力值是事後機率密度函數的期望值,稱為期望後驗法 (EAP) 。如公式 (2) 所示: kqL(V
IOq)f(θq)θW'
=
Z: 0J(θq
I
V)=
Z: 0q 丸
q=1~)L(VI θq)f俄)]
,
(2)
其中 f(θ) 、 L(VI
0) 的說明如公式(I)所示。而 q 是計算能力的期望值時所切割成的節點 , kq
為 最高節點數。kq
點愈大 , EAP 的計算結果就愈精確。多向度電腦化通性測驗
197
1984)
'MAP 法與 EAP 法的均方根誤較小,但是會有過歸性的偏誤,估計時需要用到受試群體能力 的先驗分布資訊{平均數與變異數) ,對各種答題反應的受試者皆可進行估計。兩種方法的估計效果 差不多,但 EAP 法的迴歸性偏誤較小。 ML 比較沒有迴歸性偏誤,但均方根誤較大,且受試者的答題 反應中必須有答對也有答錯的反應才能進行估計,全部答對或全部答錯者無法進行。 二、多向度試題反應理輸 由於目前大部分的 CAT 都是建立在 IRT 單向度假定的基礎上,亦即測驗中所有試題都是在測 量同一種特質,可稱為單向度電腦化適性測驗。然而,實際生活情境中有許些問題並非靠單一能力 或潛在特質就能解決的,測驗的作答也是如此 (Kelderm妞, 1996) 。當受試者答對試題的機會受到不只一種能力所影響時,已經違反了單向度IRT 的理論假設,因此不應該進行單向度 CAT0
Ackerman
(
199)) 的研究顯示,當試題測量不只一種能力時,如果以單向度 IRT 來進行參數估計會使鑑別度 較大的能力向度被擴大、鑑別度較小的向度被縮小或忽略掉,產生偏差的試題參數估計值,而且所估 計出來的能力其意義已經模糊了,不適合放在同一個向度上互相比較。 再從測量精確度的角度來看,學向度 IRT 無法藉著各向度能力的相關性來提升對各向度能力估 計的精確性,因此每個向度都需要很多題,才能到達某個信度水準。這也是為什麼目前大部分的人格 量表,興趣量表或性向測驗的題數都這麼多。多向度 IRT 在估計能力時,會將向度間的相關性納入 估計程序中,提升了各向度能力估計的精確性,因此每個向度只要少數幾題就能使各向度具有高信度了。 Wan皂, Chen 與 Cheng (2∞4) 的研究顯示,當向度之間為高相關時,多向度 IRT 分析可以大幅
提高各向度的信度,由原本的 0.6 (單向度 IRT 分析)提昇至 0.8 。
為了使 CAT 的測量信度能夠更加提升,並突破試題只能測量一種能力的限制,近幾年來 MCAT
的概念漸漸被提出來(陳柏熹、哇文中,民 89a' 民的b
;
Li
&
Schafer
,
2∞5; Luecl前,1996; Segall
,
1996; Wang
&
Ch冊, 2∞4) 0 MCAT 的發展需要仰賴多向度試題反應理論 (MIRT) ,以及能力估計、 訊息量、選題等相關算則的改進。近代學者們提出來的多向度 IRT 模式大多是單向度 IRT 模式的衍生模式。例如: Mckinley 與
Reckase
(1983) 所發展的多向度二參數模式 (mult凶mensionaltwo
p訂ameters model) 是二參數 IRT 的衍生模式(簡稱為 M2PL) ,如公式 (3) 所示:P;
(X;j=
II a
i 'b;
,
O) = l
(3)
其中 Xij 為受試者反應型態,答對該題時記錄為I' 答錯時記錄為0 。純為試題鑑別度向量, bj
為試題 難度,見為能力向量。此模式是將原本的受試者能力值OJ 與試題鑑別度8j
擴展為向暈院、丸,如此 就能將多向度的能力同時包含在模式中,也就是答對試題的機率會受到多種能力所影響。當能力和 鑑別力都只有一個向度時,就變成純量而非向量, M2PL 就問化為單向度的二參數模式(Birnbaum,1968
)。Hattie
(1981) 的模式與 Sympson (1978) 的模式相當額似,都是將 Birnbaum (1968) 單向度三 參數模式中的能力參數與鑑別度參數改成向量的型式所產生的(簡稱為 M3PL) 。其反應模式如公式 (4) 所示:P;
(x;;
=
II 丸,科 , C; ,Oj)=C;+
I-c;
ν jJ-~;'l+exp[-a;'(Oj-b))]
,
(4)
其中 Cj
為試題的猜對率,純為試題鑑別度向量, 1 是為了使試題的難度d; 成為向量,這樣才能與能力 向量相戚。叭,雋的意義與上述Reckase 與 Mckinley (1991) 的模式相同,這兩種模式的概念相當接198
教育心理學報(5)
種模式提出二向度試題訊息量圖示法。
Adams
、 Wilson 與 Wang(l 997) 等人所提出來的多向度隨機係數多項洛基模式(multidimensional
random coefficients multinomiallogit model
,
MRCMLM) 為 Rasch 模式的衍生模式。其反應模式如公式(5) 所示:
e叩 (b;k'0+8;k'~)
f(X拈 =1; 已 10)=K;""'-;k
~:e叩 (bi.'O+a 八)
,
其中 j(X;k =I;~IO) 表示能力向量為 0 的受試者在第 i 題上答出第 k 穎別反應的機率; ~為試題參 數向量 ;Xik
為受試者反應型態 'Ki
為第i試題的計分類別數。其中 bik 為第 i 題在第 k 個反應頓別上 的計分向量;。為受試者能力向量 ; 8ik
為第
1題中第k
個反應類別的設計向量。舉例來說,若一份 測驗中測量到了D 種能力,分別為吭,吭, θ3, ...九等;而受試者在第 d固試題回答出第 k 個反應類 別時,在這 D 個向度能力上所得到的分數為 b;k=
(b恥 bikb
•••b ikD)' , 此計分向量應該根據當初設計試 題時的建構來決定的,也就是試題設計的理論建構與計分方式必須一致。在5 方面,若測驗試題共 有 3 題,第 l 題的計分為0斗的部份給分,其餘兩題為0.1 的二元計分,貝IJ第一題需要估計2 個參 數(難度卜其餘兩題各估計l 個參數,共估計了~11> ~12' 仇, ~ 3 等 4 個參數,即~=(
~I l ' ~ 12'~
2
,
~3)'
0 8ik 稱為設計向量 (designvector)
,是估計每個試題參數時所使用的係數,也就是描述了第i 題的第 k 類別反應是否要用來估計某個參數~ik ' 這可以根據研究者的目的自行設計,詳見Wu'
Adams 與 Wilson
(1998)
0 _陳柏熹(民 90) 曾對這三類 MIRT 模式進行比較。簡單來說, Reckase 與 Mckinley
(199
I)的優點是引入了多向度鑑別度以及其方位角的概念,這些資訊可以幫助理解多向度試題的訊息量。然而, 該模式只適用在二元計分以及各向度能力互相獨立的情境中。而且其能力估計與訊息量計算方式也沒 有考慮到能力間的相關性。Ackerman (1994) 修改了該模式,發展出可以容許各向度能力有相關性 的模式,以及納入此相關性的能力估計與訊息量校正公式。但是當能力向度超過兩個時,
Ackerman
所發展出來的訊息量校正公式變得相當複雜。 Hattie (1981) 以及 Sympson (1978) 的三參數模式雖 然已經由 Segall (1996) 發展成 MCAT 的程序,但也只能用在二元計分的模式中。上述兩種模式在進 行試題參數估計時還會遇到無法界定( unidentifiable) 的問題。因此在 Segall (1996) 的研究中只能 用單向度 IRT 估計出來的參數來進行 MCAT 。MRCMLM 功能較多且包容性較廣,舉凡最原始的 Rasch 模式 (Rasch,
1960; Wright
&
Stone
,
1979) 、 Fischer
(I
973
)的對數潛在特質模式 (logisticlatent trait model;
LLTM) 、 Andrich (1978) 的評定量尺模式 (rating
scale
model) 、 Master (1982) 的部份給分模式 (partialcredit model)
'"等,都是它的特例。就計分方式來說,MRCMLM 可以適用在二元計分、多元計分、評定量尺等計分方式 上;就能力向度來說,可以用來估計單向度與多向度能力,而且各向度間可以允許有相關性。該模式 目前已經發展出參數估計軟體ConQuest
(Wu et a
t.,
1998) 。因此,本研究以該模式作為理論基礎來發 展 MCAT 的能力估計與選題算則。 三、多向度電腦化適性測隘的能力估計 根據多向度試題反應模式可以發展出多向度的電腦化適性測驗。根據 MRCMLM' 受試者在 n 個 試題上的概似函數如公式 (6) 所示:L(xVI
,
xV
,,···IO)=
n
P;
(O)"iQj(O)I-Ui
,
(6)
其中 V 為被選到的遍性試題,只(9) 表示能力為 0 的受試者在第i 題答出某個反應的機率,如同公式
多向度電腦化適性測驗
199
(一)最大概倒估計 最大概似估計就是找出能使公式 (6) 最大化的能力向量。為了加速找到此能力向量,可以先對 此概似函數取自然對數,再以牛頓一約佛森程序來進行疊代。其作法是先求出概似函數的一階微分向 量 (Wang ,1994) :
是叫 lu)
月|一ιloL(a
I u)
訪loL(a
I u)=
I 拘 2
士已loL(a
I u)
~~k 其元素為 θ In f(OI
u)θF 一一一一一=一~lnL(uIO)=)Jb'k-E, (O)],
θ8k
拘k
tv
肌 a(7)
其中見
(a)=
~:>jk/;k(a)'
而品(0)
如公式 (5)所示。
v為選到問題目。再求出二階微分矩陣:。
2lnL(8Iu)/OO
I
2o2I
n
L(8Iu)loO
to02 ... o2lnL(8\u)loO
,
oOp
。
2In
L(8Iu)lo0
2
00
2
..,
o2lnL(8I u)1802oOp
J(8)=
-nrnv
州州 U nrnu
《川 U/
、...
', U AHV , s ﹒‘、 FL nu -2 《卅 U 其而二階微分矩陣中第 (k,
I)元素的公式為:坐且
1
且竺型止
2=_
←一乏
z
品必
'k
圳
I(
洲(仰併
0
OOIOO
,
~L~ 接著再以下列算式進行疊代:(8 )
。
(j)=
O
(j一1)+δ(j)(9)
其中'。約為受試者在在第j
次疊代的能力估計值,而δ
(j)
=
rδ2lnf(01
u)r
lθ
1n
f(Olu)
(10)
=1 - _. I 'x--一一一一-一 ‘ θ0θo .θ。
估計。的時必讀反覆將新的能力值代入公式 (9) 計算,直到V收斂到某個值為止,如此便得到暫時 的能力估計值。的,再依此能力值選出下一題。 (二)貝氏期望後駿估計 員氏期望後驗法是以事後機率密度函數的期望值作為能力向量的最佳估計值。多向度能力的事後 機率密度函數f(θIV)
為:f(O
I
V)=L(U
I O)f(O)
,
(
II )
f(V)
2∞ 教育心理學報
是受試者的邊際機率,是由 L(VI θ )/(0) 在各能力向度從一∞ $IJ ∞積分所得。而其期望值。EAP 為:
ιι
L(V
10.)/(0.)
0EAP
=
L0
.J
(o.1
V)=
LO.
k_ ' , q'" qI
.=1 寸(12)
2)L(V
10.)/(0.)]
其中 q 為各向度的節點數量。在進行多向度估計時- q 的數量會隨著能力向度呈指數遞增。例如:當 我們設定每個能力|角度分成n 個節點來求期望值時,貝IJ五向度能力的節點總數為nS。向度數量愈多, 則能力估計時所需要的時間就愈久;若降低每個向度的節點數,又會因為能力取樣數量太少便能力估 計的精確度變差。因此實際應用在多向度能力的估計時,較常以買氏最大後驗法來進行。 (三)貝氏量大後毆估計 貝氏最大後驗法的事後機率密度函數與貝氏期望後驗法相同。為了加速找到事後機率密度函數 的最大值,該方法比照ML 法依牛頓.約佛森程序來進行。首先將In /(θIV) 分別對k 個能力向 度進行偏微分。MRCMLM事後機率度函數的一階偏微分向量中的元素為(陳伯熹,民90; Wang
,
1994) :
θ In /(Olu)θ1θ 一一一一一=一:-In L(uIO) 一一一一 [(0 一闕'<1> -1 (0- 州,
。8k
OOk
' "
2
OOk
5[btfR(0)]-[ 去(叫開 I(刊,
..
(13 )
( 14)
£;(8)=): 丸/u, (8) 其中 4 封“仿 ,而 /;k(O) 如公式 (5) 所示。 v 為選到的題目, μ 為 0 的平均數向量, φ為 0 的共變數矩陣。按著再算ill二階偏微分矩障,其二階微分矩陣中第(尤 J) 元素的公式為:
向f只川州(份糾0叫|川u叫)
=
一z£
b仙'丸正
ιk(削0的)一E瓦叮
m
圳
i正爬胸(仰附0的)附
0 品8
k
a晶€I,其他程序則比照最大概似估計法來進行。
在 MCAT 的相關研究方面-
Segall
(1996) 曾以 M3PL 模式發展出 MCAT 的程序,並以電腦化軍旅性向測驗 (Computerized
Adaptive Testing version of the
Arm
ed Served Vocational Aptitude Battery;
CAT-ASVAB) 的九個分量表進行 MCAT 以及 UCAT 的模擬研究,結果發現,用 MAP 法進行能力 估計時 -MCAT 的能力估計的精準度比 UCAT 好,以要達到相同的能力精準度來看 -MCAT 可以比 UCAT 節省的的題數。 Luecht (1996) 將 Segall 的模式應用在醫學證照考試的題庫中,用最大概率 法進行 MCAT 與 UCAT 的模擬研究,並且在選題時加上向度題數比例的條件限制。他發現從每個 向度的分數與信度來看 -MCAT 所得到的各向度信度都比 UCAT 高,而且這種測量信度的優勢在題
數較少或信度較差的向度中更加明顯。Li與 Schafer (2∞5) 的研究則指出,使用多向度 MCAT 的
能力估計精準度比 UCAT 好,尤其是對那些高能力與低能力者來說效果更好,而且還可以減少題庫 中未被使用的試題比率。陳柏熹與王文中(民 8知,民的 b) 以模擬資料來進行題間多向度 MCAT
(BMCAT) 與題內多向度 MCAT
(WMCAT)
-結果發現當向度數量愈多或各向度之間的相關愈高時- MCAT 的信度比 UCAT 高出愈多,其中 WMCAT 又比 BMCAT 的信度更高。
Segall
(1996) 與 Luecht (1996) 的研究都是以單向度試題參數與模擬資料來進行 MCAT 研究,Segall 將之稱為多向性 UCAT
(multi-unidimensional
CAT) 。但這在過輯上是自相矛盾的。既然是使用MCAT- 就應該以多向度試題參數來進行,如此試題參數的取得與 MCAT 才是在相同的理論基礎上
進行的,其結果才可算,這也是為何本研究採用 MRCMLM 模式的原因,因為該模式已經發展出可
多向度電腦化遍性測驗
201
在 MCAT 的能力估計方法的比較方面,
Tseng
(2001) 曾使用 M3PL 模式比較 ML 法、加權最大概似法 (WLE) 、 EAP 法與 MAP 法在三個向度的 MCAT 中的能力估計精準度,結果發現後面三種方 法與 ML 法的信度與測量偏誤都差不多,這與過去單向度CAT 所得的結果不太相同(洪碧霞等人,
民 81;
Bock
&
Mislevy
,
1982; Weiss
&
Mcbri缸, 1984) 。筆者深究其原因主要是使用了 M3PL 模式(如公式 (4) 所示)。由於在該模式中,各向度能力之間必讀限制為獨立,因此能力的相關係數矩陣無法 提升測量精準度。本研究將改用 MRCMLM 來進行。當使用 MRCMLM 時,不論是買氏 EAP 或 MAP 法都能利用能力事前分布的共變數矩陣來提升對各向度能力的估計,而 ML 法只有多向度過性選題的 優勢,能力的事前分布的資訊並沒有被使用到其能力估計程序中,因此 EAP 或 MAP 法的能力估計 精準度應該會比 ML 法高。此外,由於 EAP 的能力估計精準度會受到計算時分割的能力節點數量所 影響,而能力節點數量與能力向度的數量太多又會造成能力估計所需的時間大量增加,因此,在使 用 EAP 進行能力估計時,需先分析不同節點數量與不同向度數量對能力估計精準度及估計時間的影 響,在找出較適當的 EAP 節點數量後,再進行後續研究了解這三種不同能力估計方法對 MCAT 能力 估計精準度的影響。
方法與結果
研究一、 EAP 節點,質量對 MeAT 能力估計嘲準盧興估計時間的影響 (一)研究毆計 本研究是探討在 EAP 估計方法中,能力節點數量、向度數量與向度間相關程度對 MCAT 能力估 計精準度與選題時間的影響。主揪出在進行 MCAT 時最適當的 EAP 節點數。本研究的設計如下: 1.自變項 a. 節點數量:將各向度節點數量定為 5 、 10 、 20 與 30 點,共四種。 b. 能力向度數量:有兩種,分別為二向度與四向度。 C. 向度間的相關程度;有兩種,分別為低相關« 0.4)與高相關(> 0.7) 。 2. 依變項 本研究的依變項有兩項,分別為各向度能力估計的平均信度與平均每進行一題 MCAT 的時間。 其中能力估計的信度為能力估計值與真實能力值的相關係數平方 (Seg甜, 1996) 。 (二)研究程序 1.產生模擬資料 先根據研究變項中的向度數量與向度間相關程度,產生四組相關係數矩陣。再以這四組相關係數 矩陣來產生受試者的能力值。四組相關係數矩陣的數值如表一所示。產生方式是以 Fortran 中 CHFAC 與 RNMVN 等函數配合上述的相關係數矩陣來隨機產生 10∞筆多變項常態分布(平均數為 0 、標準 差為1)的能力值。另外再針對每個向度隨機產生 l∞題難度為均等分布 (UD (-3.0-3β) )的模擬題 目。接著以 MRCMLM 來產生受試者的反應資料,也就是將受試者的能力與題目難度代入 MRCMLM 中算出每個受試者在每個題目上的答對機率,再將此答對機率與從 0.0- 1.0 的均等分布中產生出來的 隨機值相比較,如果聞機值大於答對機率,貝IJ判斷受試者答錯該題,否則就判斷受試者答對該題。 2. 估計多向反試邀參數 本研究使用 ConQuest 軟體 (Wuetal., 1998) 對上述資料進行題間多向度(每個題目只測量到所 屬的學一向度)試題參數估計。估計方法是分別對四組資料(兩種向度數量配合兩種相關程度)進行 MIRT 估計。 MIRT 估計的優點是可以將各向度的相關也納入估計過程中,提高參數估計的精確性。202
教 育JL\
理 ~.
報 裹一產生模蟬資料的四組相關係數矩陣 一向度,低相關 一向度,高相關1.
00
1.∞0.28
1.∞0.87
1.∞ 四向度,低相關 四向度,高相關 1 ∞1.
00
0.29
1.∞0.89
1.
00
0
.35
0.28
I.∞0.85
0.88
I.∞0.22
0.27
0.31
I.∞0.92
0.87
0.91
1.
00
3.
MCAT 執行程序 將上述估計出來的試題參數當作四組資料題庫中的試題參數,配合程序 1 所產生出來的受試者模 擬反應,使用 EAP 能力估計方法來進行 MCAT' 進行時分別將各向度節點數量定為 5 、 10 、 20 與 30 點,每組資料皆進行四種不同節點數量的 MCAT 。每種程序分別進行總題數為 10 題(低題數)與 40 題(高題數)的 MCAT 。 (三)資料分析 分別針對兩個依變項,描繪以各種節點數量、向度數量與向度間相關程度為自變項的折線圖,以 了解這些因素對 MCAT 測量精準度的影響,以及隨著 MCAT 測驗題艷的要求不間峙,兩項依變項指 標的變化情形。 (四)研究結果 圖一與圖二是分別在能力為二向度或四向度的情況下,以不同節點數的 EAP 進行 MCAT 的能力 估計信度。從圖一可以看出,不同節點數對 EAP 的能力估計信度並沒有明顯的影響,只有當 MCAT 的題數較多 (40 題)時,且每個向度的節點數量是 5 點時,以 EAP 法進行 MCAT 的信度會比較低。當 MCAT 題數較少時,或是節點的數量在 10 點以上時,以 EAP 進行 MCAT 所得到的信度都差不 多。圖二也呈現出類似的情形,但是當各向度間為低相關且節點數是 10 點或 5 點時,所得的信度比 節點數是 20 點或 30 點時略低一些。而影響 MCAT 信度的最主要因素是題數與向度間的相關高低, 這與過去 MCAT 的相關研究果一致(陳柏熹、王文中,民 93) 。
I:r -
--一﹒企﹒--
--一含一- -一 -il雯,于 7.Tf 煚立于﹒于1項六六于._-要
. 。一高相關 '10題 --~--低相關 '10題1.0
0.9
0.8
0.7
0.6
0
.5
0.4
0.3
0.2
一+一高相關, 40題- -
-x-·- 低相闕, 40題n=5
n=lO
n=20
n=30
團一 以不罔聞點,賞之 EAP 進行二向 11 MeAT 的能力估計價廈多向度電腦化通性測驗
203 .
令一高相關, 10題 --/s'- 低相關 '10題 ---高相闕, 40題 ·_-x··· 低相關, 40題1.
0
0.9
0.8
...----﹒-一--..-一一-
-IIx..··....·x
0 . 7 x · · ..
0.6
·午三令0.5
0
.4
一.一...一一. --A_一 -.-t:r--_. 一﹒企
0
.3
0
.2
n=5
n=
lO
n=20
n=30
圖二 以不罔聞點,臣之 EAP 進行四向!l MCAT 的能力估計信度 表二是在能力為二向度與四向度的情況下,以各節點數進行 EAP 峙,平均每執行 I 題 MCAT 所 需的能力估計加上選題的時間,筆者所使用的電腦配備是 Pentium2.8
GMHz 的 CPU 以及 256M 的RAM
。從表中可以看出在二向度時,所有節點數量其平均每執行l 題 MCAT 所需的時間均少於 1 秒;但是在四向度且節點數為20 點時,平均每執行 l 題 MCAT 就需要 3 秒;而節點數為 30 點峙,平均每執行 I 題 MCAT 就需要的市,這是相當久的。從表中亦可明顯看出當能力向度數量與
EAP 節點
數的增加,平均每執行1 題 MCAT 所需的時間會大幅提高。因此,在同時考量信度與時間的情況下, 筆者建議若要以EAP 法執行四向度以內的MCAT 峙,其各向度的節點數應該至少要在10 點以上,但 是最好不要超過 20 點,否則隨著能力向度的增加,選題與能力估計時間會呈現指數倍增加。 表二 在不罔聞點,實時,以EAP 法平均每執行 1 題 MCAT 所需的時間 節點 =5 節點 =10 節點 =20 節點 =30 二向度 0.001 秒 0.005 秒。 015 秒
0.033 秒 四向度 0.007 秒。.200 秒
3.000 秒 15.000 秒 研究二、不同能力估計方法對MCAT 測量精準度的影響 (一)研究體計 研究二是探討最大概似估計 (ML) 、買氏最大後驗估計 (MAP) 與買氏期望後驗估計 (EAP) 三 種能力估計方法對MCAT 能力估計精準度的影響。研究設計如下: 1.自變項 a. 能力估計方法:有三種,制鴨ML 法、 EAP 法與 MAP 法。 b. 能力向度數量:有兩種,分別為二向度與四向度。204 .
教育心理學報-C. 向度間的相關程度:有兩種,分別為低相關( <0.4) 與高相關(> 0.7) 。
2. 依變項
本研究的依變項有三項,分別為各向度能力估計的平均信度、平均偏誤 (bias) 與均方根誤
(root mean
squ紅eof error
,
RMSE) 。其中能力估計的信度為能力估計值與真實能力值的相關係數平方(Segall
,
1996) 。其他項指標的算法分述如下:A
~:<8Ak
-8 0)
bias(8
k)=
k=1n
L(8
A k-8
0 )RMSE(8
k )=
'I
k=1n
其中,。為受試者真實能力值,而已是由 MCAT 估計出來的受試者能力值 , n 為資料筆數,本研究中
為 10∞筆資料。
(二)研究程序 1.產生模擬資料 模擬產生方式與研究一相同。 2. 估計多向度試題參數 試題參數估計方法與研究一相同 3.MCAT 執行程序 將上述估計出來的試題參數當作四組資料題庫中的試題參數,配合程序 1 所產生出來的受試者模 擬反應,使用 ML 、 EAP 、 MAP 三種不同的能力估計方法來進行 MCAT 。其中 EAP 的節點數量為 10 點,此乃依研究一的結果,以不影響 EAP 估計精準度且每進行一題 MCAT 的時間不超過 1 秒的原則 來決定。每種程序皆進行 20 題、 40 題、 60 題與 80 題的 MCAT 。 (三)資料分析 分別針對三種能力估計法、四種不同的 MCAT 總題數、兩種不同的向度數以及兩種不同的能力 相關係數,計算三個依變項在各向度的平均值,以了解這些因素對 MCAT 測量精準度的影響,以及 隨著 MCAT 總題數增加峙的變化情形。 (四)研究二結果 1.二向反表三是在二向度的情況下,以 ML 、 MAP 與 EAP 法進行不同題數 MCAT 的各向度能力平均信
度、平均偏誤、均方根誤。在信度方面,當能力間為低相關峙,這三種方法所得到的能力估計信度很 接近,只有在總題數 20 題時(約每向度 10 題), MAP 法與 EAP 法的信度略高於 ML 法;但當總題 數超過 40 題時,這三種方法的信度幾乎相同。但是當能力間為高相關時 'MAP 與 EAP 法的信度明 顯高於 ML 法,這個現象在題數較少時更明顯。而 MAP 與 EAP 法的信度只有在總題數 20 題時有些 微差異,在總題數的題以上時這兩種方法的信度幾乎相同。 在平均偏誤方面,從表三中可以看出,這三種方法的能力估計偏誤都在± 0.03 以肉。顯示出這 三種能力估計方法的平均偏誤都很低。由於平均偏誤不易呈現出迴歸性偏誤的情形(正向與負向偏誤 在相加時會互相抵消) ,因此本研究進一步分析以這三種估計法進行二向度 MCAT 時,受試群體之能 力估計值變異數(見圖三)。如果在 MCAT 能力估計過程中產生迴歸性偏誤(高估低能力者的能力且 低估高力者的能力) ,會使受試群體能力估計值的變異數變小。圖三的結果顯示 'ML 法估計出來的 受試群體變異數最接近原始真值,而 MAP 與 EAP 法都會使受試群體能力估計值的變異數降低。這種
多向度電腦化適性測驗
205 .
過歸性偏誤在 MCAT 總題數較少時更加明顯;隨著總題數增加 'MAP 與 EAP 的迴歸性偏誤逐漸減 少。而 MAP 法的過歸性偏誤又比 EAP 法嚴重。
在均方根誤 (RMSE) 方面,表三的結果顯示 :ML 法的 RMSE 比 MAP 法及 EAP 法大,此差異 在 MCAT 總題數較低時更為明顯。而 MAP 法與 EAP 法的 RMSE 很接近,當題數在 40 題以上峙, 兩種方法的 RMSE 幾乎相同。在選題時間方面,二向度的 MAP 與 ML 法平均每執行 1 題 MCAT 所 需的時間皆小於 O.∞ 1 秒,而 EAP 法(節點數 =10) 約為 O.∞5 秒。
MeAT
總題數 平均信度 m 題 40 題 ω 題 80 題 平均偏誤 (bias) 20 題 40 題 ω 題 80 題 均方根誤 (RMSE) 20 題 40 題 60 題 80 題 以三種估計法進行二向廈 MCAT 之平均信廈、平均偏觀與均方扭頭個 MSE) 低相闕, EAP 法 低相闕, MAP 法 低相闕, ML 法 高相關, EAP 法 高相關, MAP 法 高相關, ML 法 表三0.69
0.68
0.66
0.76
0.79
0.66
0.83
0.83
0.82
0.86
0.87
0.82
0.88
0.90
0.88
0.90
0.87
0.90
0.90
0.92
0.90
0.92
0.88
0.90
-0.01
0.03
0.00
0.00
O.∞ O.∞0.00
0.00
0.01
-0.01
-0.01
O.∞0.01
0.00
0.01
。∞
O.∞0.00
-0.01
-0.01
-0.01
-0.01
-0.01
-0.01
0.57
0.56
0.82
0.5 1-0
.47
0.64
0
.42
0.41
0.68
0.39
0.37
0
.45
0.35
0.31
0
.35
0.3 10.62
0.58
0.33
0.30
0.32
0.29
0.37
0.33
國 80題 國的題 目的題 口 20題 ﹒真值 們1.
2
1.
0
幫 0.8
聽到
0.6
鞋。 4
0.2
心〈凶,軍車道 空間函,匿單單 J玄,屋車過 已〈凶,盛軍阻 ι〈玄,靈車僅 」玄,遷回特但0.0
估計方法 以三種估計法進行二向度 MCAT 時,曼試群體之能力估計值變異數 圖三206
教育心理學報2. 四向度
表四是在四向度的情況下,以ML 、 MAP 與 EAP 法進行不同題數MCAT 的各向度能力平均信
度、平均偏誤、均方根誤。在信度方面,當能力間為低相關峙,這三種方法所得到的能力估計信度 很接近;其中當總題數20 題時,使用 ML 會因受試者在某些向度上全部答對或達錯而無法估計出其 能力,因此在表中無法計算出來。但是當能力間為高相關時-MAP 法與 EAP 法的信度明顯高於ML 法,這種優勢在題數較少時更加明顯。而MAP 法的信度略高於EAP 法一些。 在平均偏誤方面,從表四中可以看出,除了當總題數為20 題時以 ML 法進行能力估計其平均偏 誤會稍微大一點外,在其餘各種研究情境中,這三種方法的能力估計偏誤都在±0.03 以內。顯示出 這三種能力估計方法的平均偏誤都很低。由於平均偏誤不易呈現出迴歸性偏誤的情形(正向與負向偏 誤在相加時會互相抵消)-因此本研究進一步分析以這三種估計法進行四向度MCAT 峙,受試群體之 能力估計值變異數(見圖四)。如果在MCAT 能力估計過程中產生迴歸性偏誤(高估低能力者的能力 且低估高力者的能力) -會使受試群體能力估計值的變異數變小。圖四的結果顯示-ML 法與 EAP 法 估計出來的受試群體變異數較接近原始真值,而MAP 法會使受試群體能力估計值的變異數變小。這 種迴歸性偏誤在MCAT 總題數較少時更加明顯;隨著總題數增加-MAP 的迴歸性偏誤逐漸減少。而 在四向度 MCAT 中 -MAP 法的迴歸性偏誤比在二向度MCAT 中還要嚴重。
在均方根誤 (RMSE) 方面,表四的結果顯示 :ML 法的 RMSE 比 MAP 法及 EAP 法大,此差異 在 MCAT 總題數較低時更為明顯。而MAP 法的 RMSE 略低於£AP 法一些。在選題時間方面,二向 度的 MAP 與 ML 法平均每執行 1 題 MCAT 所需的時間皆小於O.∞ 1 秒,而 EAP 法(節點數 =10) 約 為 0.20 秒。
表四 以三種估計法進行四向度MeAT 之平均信廈、平均偏誤興均方根誤個MSE)
MCAT
高相關, 高相闕, 高相關, 低相闕, 低相闕, 低相闕,總題數 ML 法 MAP 法 EAP 法 ML 法 MAP 法 EAP 法
平均信度 20 題
0
.43
0.75
0.73
0.53
0.53
40 題0.66
0.84
0.82
0.68
0.70
0.69
由題0.76
0.88
0.86
0.77
0.78
0.78
80 題0.82
0.90
0.89
0.82
0.83
0.82
平均偏誤 (bias) 20 題0.08
-0 ∞ 個0.03 -0.∞ -0.∞ 40 題0.03
-0.∞-0
.01
0.03
O.∞ -0.∞ 60 題0.02
0.01
-0.01
0.02
-0.01
-0
.01
80 題0.01
-0.01
0.00
0.01
-0.01
-0.01
均方根誤 (RMSE) 20 題0.84
0.51
0.55
0.69
0.73
40 題0.64
0.40
0.44
0.61
0.55
0.58
60 題0.53
0.36
0.38
0.51
0
.47
0
.49
80 題0
.45
0.33
0.35
0
.45
0
.42
0
.43
207
多向度電腦化通性測驗 國 80題 國 60題 目的題 口 20題 ﹒真值1.2
I
..
1.
0
r
iii
0.8
I-車站0.6
十鞋 0.4
I
0.2
I
0.0
22. 是凶,盡車過 遷回特通 」玄,軍區特駐 們門〈叫﹒謹惡也 們門〈玄,盛軍也 」崖,盡早但 估計方法 以三種估計法進行四向度 MCAT 時,曼試群體之能力估計值變翼數 圖四 輸 最大概似法、貝氏期望後驗法與貝氏最大後驗法是電腦化適性測驗中最常用的三種能力估計方法,它們的效果在單向度電腦化適性測驗中被研究的相當多(洪碧霞等人,民 81;
Bock
&
Mislevy
,
1982; Weiss
&
Mcbri缸,1984)
,品幫褻大都顯示出: MAP 與 EAP 法的能力估計信度較高且誤差較小,但是會有迴歸性的偏誤;而 ML 比較沒有過歸性偏誤,但均方根誤較大,且全部答對或全部答錯者無
法進行(在表四中,以 ML 法對四向度低相關能力進行 20 題的 MCAT 就因此而無法估計)。不過這
三種能力估計方法在多向度電腦化適性測驗中的效果至今尚無定論。
本研究將三種能力估計方法在 MCAT 中的效果做有系統的比較。研究結果顯示, MAP 法與 EAP
法的能力估計信度比 ML 高,而均方根誤 (RMSE) 也比 ML 法低,而且隨著能力間的相關性愈高、
能力向度數量愈多,或是當 MCAT 的總題數較少時, MAP 與 EAP 相對於 ML 的測量優勢更明顯。
造成這樣的結果主要是因為 MAP 與 EAP 法使用了各向度能力的先驗分佈 (prior
distribution)
,其共變數矩陣為這兩種貝氏法提供了部份訊息量,幫助進行能力估計。當能力間相關愈高或是能力向度數 量愈多時,此共變數矩陣所能提供的訊息愈高,因此這兩種能力估計法也比 ML 法的信度高出較多。 不過其先決條件是先驗分布的共變數矩陣是正確的,如果受試者明顯不適用此共變數矩陣峙,買 IJ這兩 種貝氏估計法反而會讓能力均方根誤變大。 在 MCAT 總題數較少峙,由於對受試者的能力估計均方根誤很大,因此大多仰賴來自於共變數 矩陣的訊息,而 ML 法並沒有這方面的訊息,所以 MAP 法與 EAP 法在測驗總題數較低時其信度會比 ML 法高出許多;不過這樣的測量優勢在測驗題數較多時會漸漸消失,因為此時受試者的作答反應愈 來愈多,作答反應所提供的訊息漸漸增加,愈來愈不需要仰賴受試群體的先驗分佈。而且 MAP 法與
EAP 法的信度也已經相當高了,產生些微的天花眼效應,因此 MAP 與 EAP 法的信度只略高於 ML
的信度一點點。
雖然 MAP 與 EAP 法可以提高信度,但是卻產生了能力估計的姐歸性偏誤。三種方法在平均偏誤
方面並沒有明顯的差異;但是 MAP 法卻呈現出嚴重的祖歸性偏誤,而且在測驗題數較低時,這種姐
208 教白心 £Lll
,?
N~fhri 性偏改更加明擷(見|品 1--:. 與 li;:;/IJ 刊) 0 EAP 沾的坦歸性偏 Ii吳小做 MAP 法1i1il世嚴重, I可能是|大|為本研
究巾所使用的 EAP 節點數僅為每向度 10 點,也足國民如此,在來:j圳究 II~ EAP 的七度略也於 MAP0
在那份 lRT 軟體(例如 Bilog) 中控揖 EAP 的節點數1:cl H J:) 30 點,這對軍 I句度 IRT 及 CAT !JJ(~午 ~IIJ 行的,們是對 MIRT 及 MCAT 是小 IIJ 行的。因為,品,向位數括:增加到四向度時,如果節點做為 30
點, '+,均每進行一題 MCAT 就布要花費 15 秒以上的時間來進行能力估計,更別說是向皮數量超過四
個向皮的 MIRT 或 MCAT 了。|大|此,如果要以 EAP 法進行 MCAT' 布要發展 比改良的作法來降低
能力的計時間,、正且又要保何J.lJf!lJ 壘優勢。
it 研究放度方而,本研究主要是以模|誕資料的方式來進行。在本糢j疑資料研究中,題庫參數是充 足的均勻分布,受 ~J\ 者的能力是多變咕:常態分佈口符合先驗分布﹒而其答題反應是依 MIRT 模式棋擬 從你的。雖然以模擬任中料科}}j ;;'\.進行研究 II) 以對研究變叫做 'I!剝削的控制,但在實際測驗情況巾,題!車 參般不一定足完美的均勻分布,受試者的能力也不划得仲介先!撿分布,答題反 J!~ 也不見得符合 MIRT m 式。當題目參數千是均可少 }.{Iill.j ,或受拭且能力司、 rf 介先!除分 {rill品,一一種 }j ill叮 MCAT 的能力估 計結果是否還會自II 本研究所述, IJn月尚無所知] 0 例如:過去1' JfiJf究 Wj/J~ 在進 hH 氏估計法 I峙,先驗 分布的.L!:li在件,對能力佔后|品;li !-t!:,'JI-j:俘營J 司、人,尤其{I;趙敏愈來 jE 多 II午(i共碧昆等人,民 81 ;
Chang
&
Twu.
200I;
Rob巴n ,Donoghuc. &
Laughli肌 1999‘ Wainer&
Thi叫cn. 1987) 。 但泣方市l 研究大多是以單向位 lRT 或 CAT 為|。閃此,木來還布要史近 )J(IJ'J 師先必使用 '[;J睞的 MCAT 資料來驗諦。
幣體主1<:;;兒,這二船方 il <t
MCAT
'll 符有 .!t 優缺點﹒ ffifF:然從幣體{吉皮與測量誤差來看, MAP 法lt 比較好的,但其祖歸'It 偏校也足ht 嚴重的。 EAP 的估計 f"f 1\'仗與 MAP 差不多,但當向皮數量較 高的,選題與能力佔計所需(I"JII.IHIJJ)(長。 ML f!可是 MCA")、'I
IiWI
4士和j 準度較差的方法。因此,未來在MCAT
'I I ,研究古拉議當能力 /('11立數較少叫(例如:少於凹nlill~JI立) I 可以使用 EAP' 以避免迴歸性偏說的問題;但足當能力I('J 度達到山個成凶個以七峙,最Hi史月 I MAP 來進行,不過需注意其姐歸'I'生
偏誤的問題,最好能發展一些調幣的作法來改良,亡,以[\年位11;姐歸性偏誤。只手重折衷的作法足,先
以 MAP 來進行選題與能力仙訓,最後的階段再用 EAP 來屯祈進行能力估計。這樣的好處是在選題過 得I'll 小會太慢而影響iHiJ驗的進衍,而在最後又能以 EAP 來減少能力 i, l,計的咀歸性偏誤。
參考文獻
jjhf句話、吳鐵雄、黃 T 綺、 i /秋昨、 r\q: 宏彬(民 81) ;能)
Ji
,
l;
,\
I 山、趙犀利質及終|卡-標准對 CAT 考 也能力估計影響之 Mf3't:。測驗年刊, 39 抖, 249-267 n 。陳伯恩、王文中(民的a) 測驗組之題間多向度電腦化過性測驗o
III
i在心理學會主辦 II加倍心理學 會第二十九個作會」立泊之論文(台北)。II~t 怕虎、王文中(.h: 89b) :過問與越內多向反電腦化過性測驗。'-1'1或|測驗學會主辦「教育與測驗學 1/圳市千年會」宣讀之論文(台北)。
|棟怕是~ (封閉) 是E 數限制與曝光率控制對多向度電腦化遍性測驗之測量精雄性與試題曝光率的影
響。 ~I 立中正大學心理學研究所t~j I 一論文。
!揀帕污、+文中(民的):曝光半JtE制對多向度,造腦化'@'['I:ml]!驗能力 i, li ~I-I';度之影響:以2001 年國 巾基本學力測驗資料的j§1) 0 教育與心理研究, 27 卷, I)叭, 181-213 頁。
Ackcrman. T. A.
(1991).Thc usc of
unidimcn叫 onal param巴 tcrcstimatcs of multidimensional items in
adaptive testing.
Applied 只:'iycholο>gical Mea‘、 uremcnt.13.
I
13-127Ackerman. T. A.
(1994).Crcating a tcst information profilc for a two-dimensional latcnt space.
Applied
多向度電腦化適↑生測驗
209
Adams
,R. J.
,Wilson
,M.
,&
Wang
,W.
C.
(1997). The multidimensional random coefficients multinomial
logit mode
l.Applied Psychological Measurement. 21
,
1-23.
Andrich
,D. (1978). A rating formulation for ordered response categories.
Psychometrik且, 43,561-573
Birnbaum
,A. (1968). Some latent trait models and their use in inferring an examinee' s ability. In F. M
Lord & M. R. Novick (Eds.)
,
Statistical theories of mental test scores
(pp. 397-479). Reading
,
MA:
Addison- Wesley
Bock
,R. D.
,&
Mislevy
,R. J. (1982). Adaptive EAP estimation of ability in a microcomputer environmen
t.Applied Psychological Measurement
,6.431 午~4.Chan皂,
S. H.
,&
Twu
,B. Y. (200 I). Effects of changes in the examinees' ability distribution on the exposure
control methods in CAT.
P~ychologicalTesting
,
48
,
167-189.
Fischer
,G. H.
(1
973). The Linear logistic model as an instrument to educational research.
Acta Psychologica
,37
,359-374.
Hambleton
,
R.
J. 、& Swaminathan 、 H.(1985).
Item response theory: Principles and applications.
Boston
Klvwer Nijhoff
Hattie
,
J. (1981).
Decision criteria for
de仿rminingunidime
l1Sional and multidimensional normal ogive models
o
f/
atent trait theor
y.
Armidale 、 NewSouth Wales
,Australia: The University of New England
,Center
for Behavioral Studies.
Kelderman
,
H. (1996). Multidimensional Rasch models for partial-credit scoring.
Applied Psychological
Me<lsurement
,20. 155-168
Li
,Y. H..
&
Schafer
,W. D. (2005). Trait parameter recovery using multidimensional computerized adaptive
testing in reading and mathematics.
Applied Psychological Measurement
,29. 3-25
Luecht
,
R. M. (1996). Multidimensional computerized adaptive testing in a certification or licensure context
Applied
Psychological九Ifeasurement,20
,
389-404.
Master
,
G. N. (1982). A Rasch model for panial credit scoring.
Psychometrika
,
47. 149-174.
Mckinley
,R.
L., &Reckase
,M. D. (1983). MAXLOG: A computer program for the estimation of the
parameters of a multidimensional logistic mode
l.Behavior Research Methods
&
Instrumentation. 15
,389-390
Rasch
,G.
(1960) 抖。babilisticmodels for some intelligence and attainment tests.
Copenhagen
,Copenhagen
,Denmark: Danish Institute for Educational Research
Recka詞,
M. D.
,&
Mckinley
,R.
L.(1991). The discrimination power of items that measure more than one
ability.
Applied
Psychological九Ifeasurement.15. 361-373.
Roberts
,J. S.
,Donoghue
,J. R.
,&Laughlin
,J. E. (1999).
Estimating parameters in the generalized graded
unfolding model: Sensitivity to the prior distribution assumption ilnd the number of quadrature
pain的use
d.Paper presented at the Annual Meeting of the National Council on Measurement in Education
,
Montrea
l.PQ
,Canada
Sand W. A.
,Wat前,B. K.
,&
McBride
‘J. R. (Eds.) (1997).
Computerized adaptive testing: from inquiry to
opemtion.
Washington
,D
C:
American Psychological Association
Segall
,D. O. (1996). Multidimensional adaptive
testing. 只sychometrika.61.331-345.
Sympson
,
J. B. (1978). A model for testing with the multidimensional items. Jn D. J. Weiss (Ed.).
ltem
response theory and computerized adaptive testing conference proceedings.
MN: University of
Minnesota press
210
教育心理學報Tseng
,
F.
L.
(2001).
Multidimensional adaptive testing using the weighted likelihood estimation: A
comparison ofestimation
me的ods.Unpublished doctoral dissertation
,
University of Pittsburgh
,
P
A. Wain缸,且,Dorans
,
N. J.
, Fl
augher
,
R.
,
Green
,
B. F.
,
Mislevy
,
R. J.
,
Steinberg
, L.,
et a
l.(Eds.)
(1
990).
Computerized adaptive testing: A primer. Hillsdale
,
NJ
.
Lawrence Erlbaum Associates publish.
Wain缸,且,
&
Thiss凹,D.
(1
987). Estimating ability with the wrong mode
l.Journal ofEducational
Statis白res,12
,
339-368.
Wang
,
W.
C.
(1
994).
Implementation and application of the multidimensional random coefficients
multinomiallogit mode
l.Unpublished doctoral
dissertati凹,University of California
,
Berkeley
,
C
A.Wang
,
W. 仁,Chen
,
P. 旺, &C臨時,Y. Y.
(2∞4).Improving measurement precision of test batteries using
multidimensional item response models.
Psychological Methods
,
9
,
116-136.
Wang
,
W. 仁,&
Ch凹,P.-H. (2004). Implementation and measurement efficiency of multidimensional
computerized testing.
Applied Psychological Measurement
,
28
,
295-316.
Wei鉤,
D. J.
,
& Mcbride
,
J. R.
(1
984). Bias and information of Bayesian adaptive testing.
Applied
Psychological Measurement
,
8(3)
,
273-285.
Weiss
,
D. J. (Ed.) (1985).
Item
response 的eoryand computerized adaptive testing conference proceedings.
MN: University ofMinnesota press.
Wright
,
B.口,& Stone
,
M. H. (1979).
Best test design: Rasch me
8JP
rement. Chicago: MESA press.
Wu
,
M.
L.,
Adams
,
R.
J吋&Wilson
,
M. R. (1998).
Acer ConQuest. Melbourne
,
Victoria
,
Aus仕alia:Australian
Council for Educational Research press.
收稿日期 :2∞6 年 03 月 08 日 一稿修訂日期 :2∞6 年 08 月 02 日 二稿修訂日期: 2006 年 10 月 02 日 接受刊登日期 :2∞6 年 10 月 03 日
~UJlS品l aA!ld8pB pa司』品 lndwoJ IBUOJSU3W!P