融合kernelsmoothing之MMLE法於IRT參數估計之應用

(1)

國立台中教育大學教育測驗統計研究所碩士論文

指導教授：郭伯臣博士

融合kernel smoothing 之MMLE法

於IRT參數估計之應用

(2)

(3)

摘要

BILOGMG 在應用邊際最大概似法(marginal maximum likelihood estimation/ EM, MMLE/EM)估計試題參數過程中，在估計能力的機率密度函數時，涉及數值運算的部分，BILOGMG 採用直方圖的估計方法，本研究以無參數的方法，藉由核平滑化(kernel smoothing)的方法估計能力的機率密度函數，期望克服直方圖估計所遭遇的問題並提升估計精準度。是故本研究自行開發基於核平滑化法之邊際最大概似估計法(簡稱 MMLE/EMMIX)之程式，比較能力值為不同分布時，以 MMLE/EMMIX 進行參數估計，與 BILOGMG 之估計結果比較估計精準度。研究結果顯示在實驗一中，能力參數估計部分，能力為不同分布時，測驗長度為 60 題時，大致以 MMLE/EMMIX( l =0 )所得之參數估計誤差較小，測驗長度為 30 題時，大致以 BILOGMG 所得之參數估計誤差最小。試題參數估計部分，樣本數較少時，以 MMLE/EMMIX( l =0 )所得之參數估計誤差最小；樣本數較大時，以 BILOGMG 所得之參數估計誤差最小。實驗二中，無論受試者的能力分布為何，以 MMLE/EMMIX 進行能力參數及試題參數估計，其參數估計誤差大致上均小於 BILOGMG 之參數估計誤差，然因l值設定的不同，在不同參數估計及情境下有不同的效果。關鍵字：邊際最大概似法、貝氏後驗機率期望值估計法、核平滑化法

(4)

Abstract

In this paper, a modified version of MMLE/EM (Bock & Aitkin, 1981) is proposed. From simulation study, we find that the performance of BilogMG (MMLE with EAP) is poor when the distribution of incidental parameter is not normally distributed. There are two modifications in the proposed algorithm. First, kernel density estimation technique is applied to estimate the distribution of incidental parameter in Estep. Second, kernel density estimation technique is applied to estimate the structural parameters and incidental parameters with EAP in Mstep. Then we use this methodology to estimate the ability and item parameters iteratively.

In this paper, a simulation experiment based on threeparameter logistic model is conducted to compare the performances of BilogMG and the proposed algorithm. In the experiment, three types of distributions of incidental parameters (normal, bimode and skewed distributions) are considered. Three

values of l which means the weight of kernel method are tried. Then root

mean square error (RMSE) is used to evaluate the performances of BilogMG and the proposed algorithm. Experimental result shows that under most conditions, RMSEs of both ability and item parameters of the proposed algorithm are less than those of BilogMG.

(5)

第一章緒論... 5 第一節研究動機... 7 第二節研究目的... 8 第三節研究問題... 8 第二章文獻探討... 9 第一節聯合最大概似法 ... 10 第二節邊際最大概似法 ... 13 第三節貝氏估計法... 16 第四節 BILOGMG 的參數估計方法... 19 第參章研究方法... 20 第一節 MMLE/EM 的估計缺點 ... 20 第二節核平滑化法... 22 第三節基於核平滑化法之貝氏估計法... 25 第四節研究設計... 28 第肆章研究結果... 36 第一節實驗一之結果 ... 37 第二節實驗二之結果 ...46 第三節實驗結果比較 ... 50 第伍章結論與建議 ... 85 第一節結論 ... 85 第二節限制與建議... 86 參考文獻 ... 87

(6)

第一章緒論

試題反應理論(item response theory, IRT)是現代測驗理論的主要架構，為國內外測驗學者廣泛應用，且為測驗學界的主流趨勢。然而，由於受試者的能力參數和試題參數的真值在現實生活中無法預知，故無法評斷估計所得的參數是否精確，故只能以電腦模擬試驗的方式模擬參數真值，藉由真值模擬作答反應，以該作答反應進行參數估計，再計算參數估計值和真值之間的誤差作為評斷不同估計法優劣的指標。目前已有數種 IRT 應用軟體問世，比如說：BILOGMG、ICCNP、 MULTILOG (Thissen, 1991)、PARSCALE (Muraki & Bock, 1996)，每種軟體適用的模式及參數估計方法皆不太相同。趙素珍（1998）採用真實資料與模擬資料並用的方式，利用三參數對數模式製造二元計分資料，來測試上述四種 IRT 軟體的實際應用情形及其參數估計精準度，研究結果指出試題參數與能力值參數皆以 BILOGMG 軟體的估計最為精確與穩定。然 BILOGMG 在應用邊際最大概似法(marginal maximum likelihood estimation/ EM, MMLE/EM)估計試題參數過程中(Mislevy & Bock, 1989)，涉及估計能力的機率密度函數部分，BILOGMG 採用直方圖的估計方法，但是在實際應用過程中則有組距及原點以決定的問題。因此，若能有較精準的估計法，相信必能提升整體的估計精確度。加拿大心理計量學者 Ramsay (1991)成功地結合高低試題鑑別指數與核平滑無參數估算法，發展出正確選項與誘答選項均可分析之核平滑法無參數試題特徵曲線估算法（kernel smoothing approaches to nonparametric

(7)

本章分為四節，第一節介紹研究動機，第二節介紹研究目的，第三節介紹研究問題。

(8)

第一節研究動機

BILOGMG 在應用邊際最大概似法(marginal maximum likelihood estimation/ EM, MMLE/EM)估計試題參數過程中(Mislevy & Bock, 1989)，涉及估計能力的機率密度函數部分，BILOGMG 採用直方圖的估計方法，該方法雖然很方便，亦能針對能力參數為非常態的情況下進行正確的估計，但是在實際應用過程中則有組距難及原點以決定的問題。故本研究以無參數的核平滑化(kernel smoothing)來估計能力的機率密度函數，期望克服直方圖估計所遭遇的問題並提升估計精準度。為探討本研究所提出之基於核平滑化法之邊際最大概似估計法(簡稱 MMLE/EMMIX)是否可行，本研究將與 BILOGMG 比較估計結果估計之精準度

(9)

第二節研究目的

本研究欲了解在不同人數、測驗長度、不同能力分布時，以 MMLE/EMMIX 及 BILOGMG 進行參數估計之精準度比較。茲將本研究目的敘述如下：一、了解 BILOGMG 在不同情況下之參數估計的效果。二、開發新的參數估計法 MMLE/EMMIX。三、了解 MMLE/EMMIX 在不同情況下之參數估計的效果。四、比較 MMLE/EMMIX 及 BILOGMG 於不同情況下參數估計的效果。

第三節研究問題

本研究欲探討的問題有三，茲分述如下：一、各變項對 BILOGMG 進行參數估計效果的影響為何？二、各變項對 MMLE/EMMIX 進行參數估計效果的影響為何？三、比較 MMLE/EMMIX、BILOGMG 於不同情況下參數估計效果之優劣？

(10)

第二章文獻探討

本章第一節介紹聯合最大概似法，第二節介紹邊際最大概似法，第三節介紹貝氏估計法，第四節介紹BILOGMG的參數估計方法。 爲說明上的方便，進行文獻探討前，先定義本章所使用之符號： N ：受試者(subject or examinee)人數 n ：測驗長度 j q ：第 j位學生的能力值其中 1£ j £ N q ：整體受試的能力向量， q = ( q 1 , q 2 , L , q N) i a ：第i題試題鑑別度參數其中 1 £ i £ n i b ：第i題試題難度參數其中 1 £ i £ n i c ：第i題試題猜測度參數其中 1 £ i £ n P：三參數對數模式下之答對機率 ₍ ₎ ) ( 1 ) 1 ( ) ( i i i i b a b a i i i e e c c P _- - + - + = _q q q 其中 1 £ i £ n * P ：二參數對數模式下之答對機率 ₍ ₎ ) ( * 1 ) ( i i i i b a b a i e e P _- - + = _q q q 其中 1 £ i £ n Q：三參數對數模式下之答錯機率 Q _i(q ) = 1 - P _i( q ) 其中 1 £ i £ n * Q ：二參數對數模式下之答錯機率 Q _i*( q ) = 1 - P _i* ( q ) 其中 1 £ i £ n î í ì = 題試題位受試者答錯第第題試題位受試者答對第第 0 1 i j i j u _ij 其中 1 £ i £ n 1 £ j £ N ) | , , , , ( ₁_j ₂_j ₃_j _nj _j

j u u u u

(11)

x ：試題參數 t ：影響能力參數分布之超參數(hyperparameter) h：影響試題參數分布之超參數(hyperparameter) ) , | (U x q L ：已知x ,q 的條件下，抽樣試題反應的概似函數 ) | ( h x g ：已知h的條件下，x 之先驗分布

第一節聯合最大概似法

Birnbaum(1968) 提出聯合最大概似法(joint maximum likelihood estimation, JMLE)，JMLE 的主要特色是能力值參數與試題參數以迭代方式共同估計，分二個階段進行，第一階段估計試題參數，第二階段估計能力參數。根據(1)受試者彼此間獨立及(2)試題間彼此獨立的假設，可以得知其概 似函數（likelihood function）如下所示： ij ij u ij u ij n i N j Q P U - = =

P

= 1 1 1 ] | [ Prob q

令 L = logProb [ U | q ] ，則

åå

= = - + = = N j n i ij ij ij ij P u Q u U L 1 1 ] log ) 1 ( log [ ] | [ Prob log q 第一階段，先假設受試能力己知進行試題參數估計，一般是使用標準化的原始總分當作受試者的初始能力，估計試題參數時，利用牛頓法 (NewtonRaphson method)進行迭代，更新試題參數，如下式所示。 2 1 1 23 22 21 13 12 11 i i i i L L L c b a c b a ú ú ú ù ê ê ê é × ú ú ú ù ê ê ê é L L L L L L L L L - ú ú ú ù ê ê ê é = ú ú ú ù ê ê ê é -

(12)

å

= - - - - = ¶ ¶ = N j ij ij ij ij j c P P u c P b a L L 1 1 ) 1 ( ) )( )( ( 7 . 1 q

å

= - - - - = ¶ ¶ = N j ij ij ij ij c P P u c P a b L L 1 2 ) 1 ( ) )( ( 7 . 1

å

= - - = ¶ ¶ = N j ij ij ij c P P u c L L 1 3 ) 1 ( 使用 Fisher scoring 法可得二階導數為： ij ij ij N j j P Q c P c b a L E L E 2 1 2 2 2 11 11 ) ( ) 1 ) ( 7 . 1 ( ) ( ) ( × - - - - = ¶ ¶ = = L

å

= q ij ij ij N j P Q c P c a b L E L E 2 1 2 2 2 22 22 ) ( ) 1 7 . 1 ( ) ( ) ( × - - - = ¶ ¶ = = L

å

=

å

= - - = ¶ ¶ = = L N j ij ij c P Q c L E L E 1 2 2 2 33 33 ) 1 ( ) ( ) (

å

= - - - = ¶ ¶ = = L = L N j ij ij ij j p Q c c P b a b L E L E 1 2 2 2 1 12 21 12 ) 1 ( ) )( ( 7 . 1 ) ( ) ( q

å

= - - - - = ¶ ¶ = = L = L N j ij ij ij j P Q c c P b c L E L E 1 2 1 13 31 13 ) 1 ( ) ( ) ( 7 . 1 ) ( ) ( q

å

= - - = ¶ ¶ = = L = L N j ij ij ij P Q c c P a c L E L E 1 2 2 23 32 23 ) 1 ( ) ( 7 . 1 ) ( ) ( 第二階段，再利用第一階段估計的試題參題去估計受試者的能力，利用牛頓法進行迭代，更新能力參數，如下式所示。

(13)

將二階導數的部分由其期望值替代：

å

= ï _þ ï ý ü ï î ï í ì - - - = ¶ ¶ = L n i ij ij ij j P c Q c P a L E 1 2 2 2 2 2 ) 1 ( ) ( ) 7 . 1 ( ) ( q qq 當每位受試者的能力皆估計完畢後即可得到最大能力概似估計向量 q ，即「使這種作答反應組型出現機率最高」的能力值。但由於估計過程會產生「identification problem」，亦即估計的過程中量尺會移動，所以在每次估計完後必須將能力值進行標準化： q q q q * _j= ( _j- ) / S 同時調整試題參數： a S a S b b* = ( - q) / _q , * = _q Wood, Wingersky＆Lord (1976)等使用概似函數來作為迭代(iteration) 終止的標準(criterion)，亦即當 L ( t + 1 ) - L ( t ) < e時則終止迭代。

其中 L (t ) 是將第t次迭代所得之 q (t ) 、 a (t ) 、 b (t ) 及 c (t ) 代入 L = logProb [ U | q ] 之

(14)

第二節邊際最大概似法

由於 JMLE 引起 NeymanScott 問題，即當樣本數越大時，所要估計的能力參數也越多，估計的精準度無法藉由樣本數的增加而提升，使得參數的估計缺乏一致性(Baker, 2004)。Bock & Lieberman (1970) 提出邊際最大概似法(marginal maximum likelihood estimation, MMLE)來進行參數估計。然而，Bock & Lieberman (1970)的方法在計算上相當繁雜，而且僅適用於非常短的測驗，Bock & Aitkin (1981)採用 EM 演算法改進 MMLE，本文中把 Bock & Aitkin (1981)的參數估計法稱為 MMLE/EM 法。茲詳述 MMLE/EM 之估計方法如下： MMLE/EM 分成三個步驟進行試題參數及能力參數的估計：一、E步驟 1. 設定試題參數及能力參數的起始值，並將所有受試者依能力參數排序後分為q組，並以其組中點 X _k代表該組的能力值。( k = 1 L , 2 , , q )

2. 令 ij u ij

k i u k i n i k P X Q X X L ( ) =

_P

( ) ( ) 1 - ，計算在各組中點 X _k之每種作答反應的概似機率。 3. 根據組中點的權重 A ( X _k) 計算第 j位能力值為 X _k的後驗機率(posterior probability)： ) ( ) ( ) ( ) ( ) , , | ( k k q k k k j k X A X L X A X L U X P S = t x 。 4. 計算各組期望人數 f _k及各組於各題的答對人數 r _ik。

(15)

二、M步驟 M步驟主要在估計試題參數及能力參數，分二個階段進行。第一階段 的試題參數估計是以 E步驟中得到的 f k 及 r ik 進行試題參數的估計。此階段的參數估計是對所有試題個別進行，利用牛頓法進行迭代，更新試題參數，如下式所示。 ) t ( 3 2 1 1 ) t ( 33 32 31 23 22 21 13 12 11 ) t ( i i i ) 1 t ( i i i L L L c b a c b a ú ú ú û ù ê ê ê ë é × ú ú ú û ù ê ê ê ë é L L L L L L L L L - ú ú ú û ù ê ê ê ë é = ú ú ú û ù ê ê ê ë é - + 其中ㄧ階導數的部分如下： )] ( ) ( )[ )]( ( [ 7 . 1 * 1 1 k k k k k ik k q k X P X P b X X P f r f L =

_å

- - - = ) ( ) ( )] ( [ 7 . 1 * 1 2 k k k k ik k q k P X X P X P f r af L = -

å

- = c X P X P X P X P f r f L k q k k k k k ik k - - =

å

= ( ) 1 ) ( ) ( )] ( [ 1 * 3 使用 Fisher scoring 法可得二階導數為： 2 * 2 1 2 11 11 ] ) ( ) ( )[ ( ) ( ) ( 7 . 1 ) ( k k k k k k q k P X X P X Q X P b X f L E = - - = L

_å

= ) ( ) ( ) ( ) ( ) 7 . 1 ( ) ( * 1 2 22 22 k k k k k q k P X X P X Q X P f a L E

_å

= - = = L ) ( ) ( ) ( 1 ) 1 ( ) ( ) ( * 1 33 33 k k k q k k k X P X P c X P c X Q f L E - - - = = L

å

= 2 * 2 12 21 12 ] ) ( ) ( )[ ( ) ( ) ( 7 . 1 ) ( k k k k k q X P X P X Q X P b X af L E = - = L = L

_å

(16)

) ( ) ( 1 ) ( 7 . 1 ) ( * 1 23 32 23 k k k k q k P X X P c X Q af L E - = = L = L

_å

= 第二階段估計能力值參數時，是固定前一階段的試題參數估計值，利用牛頓法進行迭代，更新能力參數，如下式所示。 ) ( 1 ) ( ) ( ) 1 ( [ ] [ ] [ ] ] [ _t j t t j t j L q q q _qq ¶ ¶ × L - = - + 其中ㄧ階導數的部分如下：

å

= - - - = ¶ ¶ n i ij ij ij ij j P c P u c P a L 1 ( 1 ) ) )( ( 7 . 1 q 將二階導數的部分由其期望值替代：

å

= ï _þ ï ý ü ï î ï í ì - - - = ¶ ¶ = L n i ij ij ij j P c Q c P a L E 1 2 2 2 2 2 ) 1 ( ) ( ) 7 . 1 ( ) ( q qq 三、C步驟重複 E步驟及 M步驟，直至所有的概似機率都不再變動，亦即當 e < - + 1 ) ( ) ( t L t L 則終止迭代。其中 L (t ) 是將第t次迭代所得之 q (t ) 、 a (t ) 、 b (t ) 及 c (t )

(17)

第三節貝氏估計法

雖然 MMLE/EM 解決了 JMLE 估計上的 NeymanScott 問題，但對於受試者答對或答錯該測驗中所有試題的情況時，MMLE/EM 則無法進行能力參數的估計 (Baker, 2004)。 Swaminathan & Gifford (1982)提出以貝氏理論為基礎並結合由 Birnbaum 所提出的二階段估計法，以進行 IRT 的參數估計。這種以貝氏理論為基礎的估計法能有效結合先前的先驗分布（prior distribution）與蒐集所得的概似機率(likelihood)，並透過貝氏定理求得參數的後驗機率分布 (posterior distribution) 以進行試題參數、能力參數等未知參數的推論 (Baker, 2004)。因此以貝氏理論為架構之二階段估計法除可獲得穩定之試題參數估計值外，對於全對或是全錯的作答反應組型之能力估計亦可獲得正確的估計結果(Lindley, 1971)。貝氏理論為架構之二階段估計法主要分成：試題參數估計部分與能力參數估計部分。估計試題參數時，假設能力參數已知。試題參數和能力參數的後驗機率可表示 g (x | U , q , h ) µ L ( U | x , q ) g ( x | h ) 其中的概似機率又可定義為

ÕÕ

Õ

= = = - = = N j n i N j j j u j i u j i Q P U P U L ij ij 1 1 1 1 ) , | ( ) ( ) ( ) , | ( x q q q q x 其中 P (U _j| q _j, x ) 為已知能力參數 q _j及試題參數x 的情況下，作答反應 組型 U _j發生的機率。此方法用的概似機率和 JMLE、MMLE/EM 的概似機率是一樣的。

(18)

是故採逐題估計。爲估計未知的試題參數，將下式

ò ò

µ q x q t t x h h q h t x U L U g g g g d d g ( , | ) ( | , ) ( | ) ( ) ( | ) ( ) ) ( ) ( ) , | (U x t g x g t L µ 取對數後取導數，即為貝氏估計方程式： , 0 )] ( [log )] ( [log )] , | ( [log = ¶ ¶ + ¶ ¶ + ¶ ¶ t x t x g v g v U L v 其中v為試題參數，即 a, b 及 c 但因 g (t ) 不包含任何試題參數，所以對v微分為 0，即上式為 0 )] ( [log )] , | ( [log = ¶ ¶ + ¶ ¶ x t x g v U L v 由上述方程式可以發現，與 Bock & Aitkin (1981)所提之 MMLE/EM 估計法中的試題參數估計法的方程式相比較，多了一個先驗分布(prior distribution)在其中。Baker (2004) 指出 BILOGMG 中假設各試題參數之先驗分布 a ~ lognormal ( 1 . 13 , 0 . 6 ) ， b ~ N ( 0 , 1 ) 及 c ~ beta ( 4 , 16 ) ( Mislevy, 1986)，由此可推得試題參數估計式為如 MMLE/EM 估計法中的試題參數估計法的 方程式再加上試題先驗分布之對數取導數，下列所示： a a X P X P b X X P f r f L a a a k k k k k ik k q k × - + - + - - - =

å

= 2 2 * 1 1 ln )] ( ) ( )[ )]( ( [ 7 . 1 s s m 2 * 1 2 ) ( ) ( )] ( [ 7 . 1 b b k k k k ik k q k b X P X P X P f r af L s m - + - - =

_å

= ) 1 1 1 ( ) ( 1 ) ( ) ( )] ( [ 1 * 3 c c c X P X P X P X P f r f L c c k q k k k k k ik k - - + - + - - =

å

= b a

(19)

] ) 1 ( 1 [ ) ( ) ( ) ( 1 ) 1 ( ) ( ) ( 2 ₂ * 1 33 33 c c X P X P c X P c X Q f L E c k k k q k k k - - + + - - - = = L

å

= b 2 * 1 2 12 21 12 ] ) ( ) ( )[ ( ) ( ) ( 7 . 1 ) ( k k k k k k q k P X X P X Q X P b X af L E = - = L = L

_å

= ) ( ) ( 1 ) ( ) ( 7 . 1 ) ( * 1 13 31 13 k k k k q k k X P X P c X Q b X f L E - - - = = L = L

_å

= ) ( ) ( 1 ) ( 7 . 1 ) ( * 1 23 32 23 k k k k q k P X X P c X Q af L E - = = L = L

_å

= 利用牛頓法進行試題參數的迭代估計： ) ( 3 2 1 1 ) ( 33 32 31 23 22 21 13 12 11 ) ( ) 1 ( i t t t i i t i i i L L L c b a c b a ú ú ú û ù ê ê ê ë é × ú ú ú û ù ê ê ê ë é L L L L L L L L L - ú ú ú û ù ê ê ê ë é = ú ú ú û ù ê ê ê ë é - + Mislevy & Bock (1982) 提出以貝氏理論為基礎之貝氏後驗機率期望值估計法(Bayes expected a posteriori estimation procedure, EAP) 進行能力參數的估計，能力參數估計方程式如下式所示：

å

= = = q k k k q k k k k j j X A X L X A X L X U E 1 1 ) ( ) ( ) ( ) ( ) , | (q x 以 EAP 進行能力參數估計，可以直接計算，不必經由迭代的過程。 Mislevy & Stocking (1989) 建議以 EAP 作能力參數估計的方法。故本研究以 EAP 作能力參數的估計方法。

(20)

第四節 BILOGMG 的參數估計方法

BILOGMG為(Zimowski, Muraki, Mislevy, & Bock, 1996)研發，由美國Scientific Software, Inc發行。BILOGMG估計試題參數時是使用 MMLE/EM法，並以牛頓迭代法估算試題參數。此軟體對二元計分之試題能作有效的分析，包含多選題或記為對、錯、遺漏或沒有回答的簡答題，能處理單參數對數模式、雙參數對數模式、三參數對數模式。在能力值的估計上，BILOGMG使用的估計方法有三種，分別為最大概似估計法（maximum likelihood estimation , MLE）及期望後驗估計法（Bayes expected a posteriori , EAP）、最大後驗估計法（maximum a posteriori, MAP）。 MLE是依據作答反應的模式，利用統計方法估計出「使這種作答反應組型出現機率最高」的能力值，其缺點是當某一受試者答對或答錯該測驗中所有試題時，MLE將無法估算其能力值。EAP估計法克服此缺點，此法是利用受試者的作答反應組型來「修正」先前假定的能力分佈（prior distribution）後，得到新的能力分佈(posterior distribution)，可適用於所有的答題模式，因此即使有受試者答對或答錯所有題目時，其能力值亦可由 EAP法估計。然而EAP所估得的值較集中在母群體的平均值附近（shrink toward the mean），但若其標準誤很小時，相對其誤差也會很小。MAP法的做法類似EAP法，其估得的值也會稍微偏向集中於母群體的平均值，但誤差比EAP稍大(楊孟麗、譚康榮、黃敏雄，2003)。綜合上述所述，本研究以BILOGMG進行參數估計時，選用適用範圍較廣泛、估計較為精準的

(21)

第參章研究方法

本研究以基於核平滑化(kernel smoothing)的方法，開發新的參數估計法，來改良原先 BILOG 進行試題參數估計 MMLE/EM 過程中數值積分的問題。本章架構為：第一節介紹原 MMLE/EM 估計法中的估計缺點；第二節論述核平滑化法的基本概念；並於第三節詳細介紹本研究所提之基於核平滑化法之邊際最大概似估計法(以下簡稱 MMLE/EMMIX)；第四節介紹本研究之設計。

第一節 MMLE/EM 的估計缺點

Bock & Aitkin (1981)所提之 MMLE/EM 法在估計試題參數過程中主要分成 E步驟及 M步驟，E步驟主要目的為計算各組人數之期望值以及各組於各題的答對人數之期望值，M步驟主要藉由 E步驟中所獲得的參數來估計試題參數。而 BILOGMG 在應用 MMLE/EM 估計試題參數過程中，即是基於上述的方法進行試題參數之估計，然在估計過程中涉及到數值運算的部分：估計能力的機率分布。目前 BILOGMG 採用直方圖的估計方法(Zimowski, Muraki, Mislevy & Bock, 1996)。該方法雖然很方便，亦能針對能力參數不是在常態的情況下進行正確的估計，但是在實際應用過程中仍會衍生以下幾個問題：(Wolfgang & Marlene , 2004) (1) 組距難以決定組距的大小會對直方圖的形狀有影響，組距變大會使得曲線變得較平滑，然組距太大會使得圖形失真，所以由組距大小界定最佳的平滑程度有

(22)

響直方圖的形狀，進一步會影響到面積的估計，所以由原點位置的決定有其困難度。

因此 BILOGMG 中的 MMLE/EM 法是有其估計上的問題。本研究目的之一即是提出一個基於核平滑化法之 MMLE/EM 估計法

(23)

第二節核平滑化法

核平滑化法(kernel smoothing)是指以核函數（kernel function）為基礎的無參數迴歸估計法，因為具有直觀且簡單的優點，故被廣泛地使用。而在眾多核平滑化法估計量中，又以下列三種估計模式較為常見：（Silverman, 1986）（1）NW 統計量：為 Nadaraya & Watson(1964)提出，形式如下： ï ï ï ï ï î ï ï ï ï ï í ì = - ¹ - - - =

å

= = = = N j j N j j N j j N j j j NW h X x K h X x K h X x K Y h X x K x g 1 1 1 1 0 ) ( , 0 0 ) ( , ) ( ) ( ) ( 當當其中 N ：樣本個數 j X ：預測變項 for j = 1 L , 2 , , N j Y ：反應變項 ) (× K ：核函數 h：帶寬參數（bandwidth）（2）PC 估計量：為 Priestley & Chao (1972)所提出，形式如下：

( )

=

_å

(

-

)

ç æ - ÷ ö N j Y X x K X X N x g 1

(24)

( )

_{å ò}

= - ÷ ø ö ç è æ - = N j d d j GM j j dz h z x K h Y x g 1 1 1 其中 d 0 = 0 2 1 - + = j j j X X d for j = 1 L , 2 , , N 1 = n d 此外，上述三種模式中的核函數 K (× ) 均必須滿足下列條件： A. 對於所有自變數u， K

( )

u ³ 0 B. 若 u ³ 0 ，則 K

( )

0 > K

( )

u C. 當 u ® ¥ ， K

( )

u ® 0 常用的核函數則有下列三種（Silverman, 1986）（1）均一函數（uniform function） î í ì £ = otherwise 0 1 | | if 5 . 0 ) ( u u K （2）二次函數（quadratic function） î í ì £ = otherwise 0 1 | | if ) (1 75 . 0 ) ( 2 u u u K

(25)

在測驗上的轉化應用研究，可參考國內外相關文獻（Silverman, 1986；劉湘川，2001a，2001b；吳慧泯，2001）。研究結果指出，在估計模式部份， NW 統計量最適合用來估計試題答對機率P， P Î

[ ]

0 , 1 。在核函數部份，因為高斯函數可進行快速傅立葉轉換（fast Fourier transform），估計較省時。帶寬參數h是估計過程中，影響模式準確性最重要的參數。h值愈大，曲線愈平滑，而偏差（bias）會隨之減小，但抽樣變異數（sampling variance）帶狀區域則隨之增大，當h值過大時，圖形可能會過度平滑而失真；反之，當h值越小時，抽樣變異數雖然越小，但曲線愈趨不平滑，偏差增大，當h 值過小時，則易失去平滑的目的。因此，若欲獲得較佳的估計結果，必須兼顧偏差與抽樣變異數之間的平衡（劉湘川，2001a，2001b）。Silverman (1986)經由模擬研究指出，符合標準常態分配且使用高斯函數為核函數時，可獲得最佳估計值。基於此，故本研究選擇 NW 統計量進行核估計，並以高斯函數作為專有之核函數。

(26)

第三節基於核平滑化法之貝氏估計法

依據 Bock & Aitkin (1981)所提之 MMLE/EM 法中的試題參數估計過程

主要分成 E步驟及 M步驟，其中 A ( X _k) 即是能力值為 X _k的密度，若要計算該值則必須先對能力分布進行估計。本研究基於 MMLE/EMMIX 估計法改良該步驟，茲詳述 MMLE/EMMIX 法之能力參數估計法及改良後的 E步驟、M步驟如下： E步驟 1. 已知 q ，以核平滑化法進行無參數曲線估計，得到能力參數的機率分布 _i 如下： ) ( ) 2 1 ( 1 ) ( 1 q p q K Nh P N j × =

_å

= 其中 [ ]) 2 1 exp( ) ( h K q = - q - q j N ：樣本個數 q ：能力目標分布 j q ：已知的能力參數，用以描述能力目標分布 for j = 1 L , 2 , , N h：帶寬參數（bandwidth） 2. 定義新的分組權重 A _mix( X _k) 如下： ) ( ) 1 ( ) ( ) ( _k _ks _k _norm _k

mix X A X A X

A =l × + - l × for l =[0,1] 其中 ( ) ( ) 1 ( 1 ) ( ) N X K X P X A = =

_å

×

(27)

本研究中設定 l =0 , 0 . 5 , 1 三種情況，探討 MMLE/EMMIX 於不同情境下參數估計的效果。 3. 藉上述公式重新改寫 f _k與 r _ik值為： ú ú ú û ù ê ê ê ë é S =

_S

) ( ) ( ) ( ) ( k mix k q k k mix k N j k X A X L X A X L f ú ú ú û ù ê ê ê ë é S =

_S

) ( ) ( ) ( ) ( k mix k q k k mix k ij N j ik X A X L X A X L u r M步驟利用牛頓法進行試題參數的迭代估計： ) ( 3 2 1 1 ) ( 33 32 31 23 22 21 13 12 11 ) ( ) 1 ( i t t t i i t i i i L L L c b a c b a ú ú ú û ù ê ê ê ë é × ú ú ú û ù ê ê ê ë é L L L L L L L L L - ú ú ú û ù ê ê ê ë é = ú ú ú û ù ê ê ê ë é - + 如同貝式估計法，各符號定義如下： a a X P X P b X X P f r f L a a a k k k k k ik k q k × - + - + - - - =

_å

= 2 2 * 1 1 ln )] ( ) ( )[ )]( ( [ 7 . 1 s s m 2 * 1 2 ) ( ) ( )] ( [ 7 . 1 b b k k k k ik k q k b X P X P X P f r af L s m - + - - =

_å

= ) 1 1 1 ( ) ( 1 ) ( ) ( )] ( [ 1 * 3 c c c X P X P X P X P f r f L c c k q k k k k k ik k - - + - + - - =

å

= b a

(28)

2 * 1 2 22 22 1 ) ( ) ( ) ( ) ( ) 7 . 1 ( ) ( b k k k k k q k P X X P X Q X P f a L E s - + - = = L

_å

= ] ) 1 ( 1 [ ) ( ) ( ) ( 1 ) 1 ( ) ( ) ( 2 ₂ * 1 33 33 c c X P X P c X P c X Q f L E c k k k q k k k - - + + - - - = = L

å

= b 2 * 1 2 12 21 12 ] ) ( ) ( )[ ( ) ( ) ( 7 . 1 ) ( k k k k k k q k P X X P X Q X P b X af L E = - = L = L

_å

= ) ( ) ( 1 ) ( ) ( 7 . 1 ) ( * 1 13 31 13 k k k k q k k X P X P c X Q b X f L E - - - = = L = L

_å

= ) ( ) ( 1 ) ( 7 . 1 ) ( * 1 23 32 23 k k k k q k P X X P c X Q af L E - = = L = L

_å

= 以 EAP 進行能力參數估計，能力參數估計方程式如下式所示：

å

= = = = q k k mix k q k k mix k k j j j X A X L X A X L X U E 1 1 ) ( ) ( ) ( ) ( ) , | (q x q 最後持續 E步驟及 M步驟直至其概似機率不再變動為止。本研究所開發之 MMLE/EMMIX 估計法與 MMLE/EM 估計法一樣，使用二階段估計法。第一階段依上述法估計試題參數完畢後，便固定試題參數，再於第二階段應用 EAP 估計法來進行能力參數的估計。本研究基於原先 MMLE/EM 估計法所發展之 MMLE/EMMIX 新的估計程法，期望能改進原先 MMLE/EM 在估計能力參數分布的缺點，並期望應用於不同能力分布下進行試題參數及能力參數之估計，都能獲得較高的

(29)

第四節研究設計

本節分為四部份，首先介紹研究步驟，其次介紹本研究之變項設計，再介紹參數估計誤差，最後介紹研究工具。

壹、研究步驟

本研究以試題反應理論為基礎，利用模擬資料，比較於不同情境下，以自行開發的MMLE/EMMIX程式進行參數估計，與BILOGMG之估計結果相比較，藉以評估MMLE/EMMIX的效益。研究流程如圖31所示： 圖31 研究流程圖 模擬資料設定撰寫 MMLE/EM-MIX 程式進行參數估計利用 BILOG-MG 進行參數估計參數估計效果評估撰寫研究報告文獻探討研究主題

(30)

貳、變項設定

本研究中模擬資料之變項設定為：一、施測人數3000人、1000人及500人。由於一般參數估計軟體所需的樣本數約莫是1000人，故本研究人數設定以此為基準，再增減人數。二、能力值為常態、偏態及雙峰三種分布。由於常見的能力值分布有常態、偏態及雙峰三種，本研究中之偏態係指負偏態，因其在測驗中出現的頻率較正偏態高。三、測驗長度有60題、30題二種情況。由於一般的短測驗長度約30題，長測驗之長度則約莫為60題。研究流程圖(圖31)中的模擬資料設定包括試題參數的設定以及受試者群能力的分佈。茲分別說明如下：本研究蒐集IRT相關文獻之參數模擬整理如下表。 表31 IRT相關文獻之模擬參數設定

title theta a b c

More Effcient Markov Chain Monte Carlo Estimation in IRT Using Marginal Posteriors (Yao,L, Patz,R.J. & Hanson,B.A., 2002) N(0,1) N(0,1) lognormal beta Un test adaptativo informatizado para evaluar el conocimiento de ingles

(31)

Models (DeMars, C.E., 2005) Data Sparseness and Online Pretest Item Calibration/Scaling Methods in CAT (Ban, J.C., Hanson, B.A, Yi, Q., & Harris, D.J., 2001) N(0,1) lognormal (0, 0.5) beta4 (1.01, 1.01, 6, 6) beta (5, 17) Item Parameter Calibration of LSAT Items Using MCMC Approximation of Bayes Posterior Distributions (Jones,D.H & Nediak.M, 2000)

normal lognormal normal beta

Bayesian or NonBayesian: A Comparison Study of Item Parameter Estimation in the ThreeParameter Logistic Model(Gao.F & Lisue.C, 2005) N(0, 1) Lognormal (0, 0.5) N(0, 2) beta(5, 17) Testing Linear Models for Ability Parameters in Item Response Models (Glas .C. A.W. & Hendrawan.I, 2005) normal Lognormal (0,0.25) normal Modeling Variability in Item Parameters in Educational Measurement (Glas, C.A.W.& van der Linden,W.J, 2006)

N(0,1) normal normal normal

A Study of the Use of Collateral Statistical Information in Attempting to Reduce TOEFL IRT Item Parameter Estimation Sample Sizes(Tang,K.L.& Eignor.D.R, 2001)

normal lognormal normal beta

Comparing the Effectiveness of Procedures to Detect Item Parameter Drift(Donoghue, J.R. & Isham,S.P. 1996) N(0,1) N(0.1,1) lognormal N(0,1) 0.2 Estimating the Effects of

(32)

Bayes modal estimation in item response models (Mislevy, R.J., 1986) lognormal (1.13, 0.6) N(0,1) beta(4,16) 本研究參考上述文獻設定試題參數。一、試題參數的設定：模擬試題參數之真值為二種不同分布設計。如實驗一、實驗二所示：實驗一：根據BILOGMG設定各試題參數的先驗分布( Mislevy, 1986)：鑑別度參數 a ~ lognormal( 1.13,0.6) 、難度參數 b ~ N(0,1) 及猜測度參數 beta(4,16) ~ c ，並限制其最大值與最小值，避免極端值及不合理的試題參數發生。實驗二：根據Glas & van der Linden (2006) 設定各試題參數的分布均服從常態分布：鑑別度參數 a ~ N(1,0.33) 、難度參數 b ~ N(0,1) 及猜測度參數 c ~ N(0.125,0. 042) ，並限制其最大值與最小值，避免極端值及不合理的試題參數發生。測驗的設計上，測驗長度有30題、60題二種。先模擬60題的試題參數，再從中抽取30組試題參數作為30題測驗的試題參數。

(33)

二、受試者群體能力的分佈本研究因設定於試題反應理論三參數模式下，模擬能力值成常態、偏態、雙峰分佈三種情況，每一群的人數有500、1000、3000人三種情況。先模擬3000人的能力參數，再從中抽取1000個能力參數作為1000人的能力參數，500人的能力參數亦是從1000人的能力參數中抽取而來的。此外，本研究主要有二種不同的參數估計方法，分別是 BILOGMG 及自行開發的 MMLE/EMMIX 程式，MMLE/EMMIX 程式又分 l =0 , 0 . 5 , 1 三種情況進行討論。本研究目的在探討不同變項下，不同參數估計方法之估計誤差。

(34)

參、參數估計誤差

本研究視原始生成參數為真值，以真值產生作答反應，再以作答反應進行參數估計後得到估計值，計算真值與估計值的均方根誤差(root mean squared error, RMSE)。本研究求模擬 100 次的平均，作為參數估計誤差，依此來評斷參數估計的效果。 RMSE 是根據能力值、鑑別度、難度參數及猜測度參數分別計算。其數學式如下所示：ㄧ、能力值

å

= - = N j j j N RMSE 1 2 ) ( 1 ) (q J q 其中 q _j：第 j位能力值估計值 j J ：第 j位能力值真值 N ：受試者人數二、鑑別度參數

å

= - = n i i i a n a RMSE 1 2 ) ( 1 ) ( a 其中 a _i：第i題鑑別度估計值

(35)

三、難度參數

å

= - = n i i i b n b RMSE 1 2 ) ( 1 ) ( b 其中 b _i：第i題難度估計值 i b ：第i題難度參數真值 n：試題題數四、猜測度參數

å

= - = n i i i c n c RMSE 1 2 ) ( 1 ) ( z 其中 c _i：第i題猜測度估計值 i z ：第i題猜測度參數真值 n：試題題數

(36)

肆、研究工具

本研究使用的工具有BILOGMG軟體及MATLAB軟體，茲分述如下。一、BILOGMG 3.0 本研究使用BILOGMG 3.0 (Zimowski, Muraki, Mislevy & Bock, 2003) 進行參數估計，利用邊際最大概似法(MMLE/EM) 來估計試題的鑑別度、難度與猜測度參數，利用期望後驗法(expected a posteriori, EAP) (Zimowski et al., 2003)估計受試者能力值。二、MATLAB 7 本研究利用MATLAB 7模擬受試者作答反應、撰寫MMLE/EMMIX，藉以估計試題的鑑別度、難度與猜測度參數與受試者能力值，並估算參數估計誤差。

(37)

第肆章研究結果

本研究採用試題反應理論三參數模式，設定模擬資料。模擬不同的試題參數分布之下，樣本數為 500、1000 及 3000 人時，能力值分布在常態、雙峰及偏態三種狀況下，測驗長度為 30 及 60 題時，以 BILOGMG 及自行開發的 MMLE/EMMIX 程式進行參數估計，MMLE/EMMIX 程式又分 1 , 5 . 0 , 0 = l 三種情況進行討論。本研究以 RMSE 作為參數估計誤差，依此來評斷 BILOGMG 及 MMLE/EMMIX 參數估計的效果。本章分為二節，第一節為實驗一之參數估計誤差結果，第二節為為實驗二之參數估計誤差結果，第三節為 BILOGMG 及 MMLE/EMMIX( l =0 , 0.5, 1 )之實驗結果比較。茲分述如下：

(38)

第一節實驗一之結果

本節為實驗一之參數估計誤差結果，分能力值分布的不同，樣本數為 500、1000 及 3000 人時，測驗長度為 30 及 60 題時，以 BILOGMG 及自行開發的 MMLE/EMMIX 程式( l =0 , 0.5, 1 )進行參數估計之參數估計誤差。

一、能力值為常態分布

表 41 至表 44 為實驗一中，能力值成常態分布時，以 BILOGMG、 MMLE/EMMIX ( l =0 , 0.5, 1 )進行能力及試題參數估計之誤差。由結果可知，實驗一中，當能力值為常態分布時，估計能力參數以 MMLE/EMMIX( l =0 )可獲得最小參數估計誤差；估計試題參數時，大部 分的情況下，均以 BILOGMG 可獲得最小參數估計誤差。 表 41 實驗一中能力值為常態分布時， BILOGMG 之參數估計誤差

60 items Theta a b c

RMSE 0.2859 0.3309 0.1453 0.0574 500 人 RMSE_std 0.0140 0.5333 0.0250 0.0073 RMSE 0.2831 0.2201 0.1229 0.0514 1000 人 RMSE_std 0.0071 0.0307 0.0236 0.0064 RMSE 0.2814 0.1387 0.0849 0.0410 3000 人 RMSE_std 0.0054 0.0222 0.0216 0.0068

RMSE 0.3223 0.2826 0.1950 0.0570 500 人 RMSE_std 0.0142 0.0570 0.4870 0.0091 RMSE 0.3218 0.2256 0.1224 0.0517 1000 人 RMSE_std 0.0093 0.0416 0.0300 0.0083 RMSE 0.3213 0.1447 0.0799 0.0407 3000 人

(39)

表 42 實驗一中能力值為常態分布時， MMLE/EMMIX( l =0 )之參數估

計誤差

RMSE 0.3068 0.2842 0.1455 0.0535 500 人 RMSE_std 0.0180 0.0584 0.0324 0.0093 RMSE 0.3049 0.2456 0.1264 0.0496 1000 人 RMSE_std 0.0128 0.0570 0.0292 0.0095 RMSE 0.3208 0.1796 0.1342 0.0472 3000 人 RMSE_std 0.0304 0.0611 0.0600 0.0125 表 43 實驗一中能力值為常態分布時， MMLE/EMMIX( l =0 . 5 )之參數 估計誤差

(40)

表 44 實驗一中能力值為常態分布時， MMLE/EMMIX( l =1 )之參數估

計誤差

(41)

二、能力值為雙峰分布

表 45 至表 48 為實驗一中，能力值成雙峰分布時，以 BILOGMG、 MMLE/EMMIX ( l =0 , 0.5, 1 )進行能力及試題參數估計之誤差。由結果可知，實驗一中，當能力值為雙峰分布時，估計能力參數以 MMLE/EMMIX( l =1 )可獲得最小參數估計誤差；估計試題參數時，當樣 本數較大、測驗長度較長時，BILOGMG 之參數估計誤差較小，然在樣本數較小、測驗長度較短時，MMLE/EMMIX( l =1 )之參數估計誤差較小。 表 45 實驗一中能力值為雙峰分布時，BILOGMG 之參數估計誤差

(42)

表 46 實驗一中能力值為雙峰分布時，MMLE/EMMIX( l =0 )之參數估

計誤差

RMSE 0.3245 0.2943 0.1843 0.0552 500 人 RMSE_std 0.0279 0.0702 0.0459 0.0100 RMSE 0.3185 0.2624 0.1770 0.0539 1000 人 RMSE_std 0.0253 0.0544 0.0505 0.0104 RMSE 0.3182 0.2330 0.1742 0.0531 3000 人 RMSE_std 0.0246 0.0651 0.0792 0.0121 表 47 實驗一中能力值為雙峰分布時，MMLE/EMMIX( l =0 . 5 )之參數估 計誤差

(43)

表 48 實驗一中能力值為雙峰分布時，MMLE/EMMIX( l =1 )之參數估計

誤差

(44)

三、能力值為偏態分布

表 49 至表 412 為實驗一中，能力值成偏態分布時，以 BILOGMG、 MMLE/EMMIX ( l =0 , 0.5, 1 )進行能力及試題參數估計之誤差。由結果可知，實驗一中，當能力值為偏態分布時，估計能力參數以 MMLE/EMMIX ( l =0 , 0.5, 1 )都可獲得較小參數估計誤差；試題參數的估計則以 BILOGMG 進行參數估計可獲得較小的參數估計誤差。 表 49 實驗一中能力值為偏態分布時， BILOGMG 之參數估計誤差

(45)

表 410 實驗一中能力值為偏態分布時，MMLE/EMMIX( l =0 )之參數估

計誤差

RMSE 0.3442 0.3273 0.2090 0.0533 500 人 RMSE_std 0.0227 0.0761 0.0784 0.0090 RMSE 0.3369 0.3117 0.2024 0.0502 1000 人 RMSE_std 0.0194 0.0581 0.0780 0.0085 RMSE 0.3324 0.3034 0.2011 0.0483 3000 人 RMSE_std 0.0187 0.0569 0.0707 0.0082 表 411 實驗一中能力值為偏態分布時， MMLE/EMMIX( l =0 . 5 )之參數 估計誤差

(46)

表 412 實驗一中能力值為偏態分布時， MMLE/EMMIX( l =1 )之參數估

計誤差

(47)

第二節實驗二之結果

本節為為實驗二之參數估計誤差結果，分能力值分布的不同，樣本數為 500、1000 及 3000 人時，測驗長度為 30 及 60 題時，以 BILOGMG 及自行開發的 MMLE/EMMIX 程式進行參數估計，MMLE/EMMIX 程式又分 l =0 , 0 . 5 , 1 三種情況之參數估計誤差。

一、能力值為常態分布

表 413 至表 416 為實驗二中，能力值成常態分布時，以 BILOGMG、 MMLE/EMMIX ( l =0 , 0.5, 1 )進行能力及試題參數估計之誤差。由結果可知，實驗二中，當能力值為常態分布時，估計能力參數及試題參數時，MMLE/EMMIX ( l =0 , 0.5, 1 )之參數估計誤差均小於 BILOGMG 之參數估計誤差，其中又以 MMLE/EMMIX( l =0 )所獲得的參數估計誤差最小。 表 413 實驗二中能力值為常態分布時，BILOGMG 之參數估計誤差

60 items Theta(60) a(60) b(60) c(60)