緒論 - 以kernel smoothing技術改進Generalized Partial Credit Model之參數估計

試題反應理論（item response theory, IRT）在現階段是現代測驗理論中很常被探討的理論，為國內外學者廣泛應用，且為測驗學界之主流趨勢。然而因為受試者的真實能力值與試題參數的真值並無法從現實情境中知道，所以無法評估所估得的參數是否精準，故只能以電腦模擬試題參數與受試者能力參數，再藉由真值模擬作答反應，接著以作答反應進行參數估計，再計算參數估計值和真值之間的誤差作為評斷不同估計法優劣的指標。

目前已有數種IRT 軟體問世，如：BILOG-MG（Zimowski, Muraki, Mislevy, &

Bock, 1996）、MULTILOG（Thissen, 1991）、PARSCALE（Muraki & Bock, 1996）

等，每種軟體適用的模式與參數估計的方法不太相同。陳政漳（2003）針對九十一學年度大學多元入學考試自然科進行分析，又因自然科中有多重選擇題，所以使用PARSCALE 中的部分給分模式（partial credit model, PCM）與等級反應模式

（graded response model, GRM）進行分析。而此研究因為為真實資料的分析，所以研究結果無法顯示出估計效果是否精準。

PARSCALE 在應用邊際最大概似法（marginal maximum likelihood estimation, MMLE）估計試題參數過程中，在估計能力的機率密度函數時，涉及數值運算的部分，是採用長條圖的估計方法（Muraki & Bock, 2003），該方法雖然很方便，亦能針對能力參數為非常態的情況下進行正確的估計，但是在實際應用過程中則有組距及原點難以決定的問題。而在二元計分三參數模式下，以無參數的方法，藉由核平滑化（kernel smoothing）的方法估計能力的機率密度函數，研究結果顯示使用核平滑化的方法估計能力的機率密度函數，能夠提升試題參數與能力參數的估計精準度（Kuo, Hsieh, & Chang, 2007）。張雅媛（2007）提出融合 kernel smoothing 之 MMLE 法於 IRT 參數估計之應用，研究指出能夠提升試題參數與能力參數的估計精準度。故本研究提出在多元計分GPCM（generalized partial credit model）

模式下，以無參數的方法，藉由核平滑化（kernel smoothing）的技術改進估計能力的機率密度函數，期望克服長條圖估計所遭遇的問題並提升估計精準度。

加拿大心理計量學者 Ramsay(1991)成功地結合高低試題鑑別指數與核平滑化無參數估算法，發展出正確選項與誘答選項均可分析之核平滑化無參數試題特徵曲線估算法（kernel smoothing approaches to nonparametric item characteristic curve estimation）。因核平滑化法使用時毋需事先假設任何適當模式，可完全根據受試者實際作答資料來進行估計。因此，對於分佈估計核平滑化法的確有其優點。所以本研究希望導入核平滑化法改進能力參數估計，以提升整體估計精準度。

本章分為三節，第一節介紹研究動機，第二節介紹研究目的，第三節介紹研究問題，第四節為名詞解釋。

第一節研究動機

PARSCALE 在應用邊際最大概似法估計試題參數過程中，在估計能力的機率密度函數時，涉及數值運算的部分，PARSCALE 採用長條圖的估計方法，該方法雖然很方便，亦能針對能力參數為非常態的情況下進行正確的估計，但是在實際應用過程中仍會衍生一些問題，故本研究以無參數的方法，藉由核平滑化的方法估計能力的機率密度函數，期望克服長條圖估計所遭遇的問題並提升估計精準度。再加上二元計分三參數模式下，藉由核平滑化的技術改進估計能力的機率密度函數已開發出來（Kuo, Hsieh, & Chang, 2007），所以本研究欲將其技術從二元計分拓展到多元計分下，期望能夠改善多元計分參數估計的效果，是故本研究自行開發「以kernel smoothing 技術改進 generalized partial credit model 之參數估計

（簡稱KS-GPCM）」之程式，比較能力值為不同分布時，以 KS-GPCM 進行參數估計和以PARSCALE 進行參數估計，比較何者之估計結果較為精準。

第二節研究目的

本研究欲了解在不同人數、試題數、不同能力分布時，以 KS-GPCM 及 PARSCALE 進行參數估計之精準度比較。

茲將本研究目的敘述如下：

一、了解PARSCALE 在不同情況下之參數估計的效果。

二、了解KS-GPCM 在不同情況下之參數估計的效果。

三、比較KS-GPCM 及 PARSCALE 於不同情況下參數估計的效果。

第三節研究問題

本研究欲探討的問題有三，茲分述如下：

一、各變項對PARSCALE 進行參數估計效果的影響為何？

二、各變項對KS-GPCM 進行參數估計效果的影響為何？

三、KS-GPCM、PARSCALE 於不同情況下參數估計效果有何差異？

第四節名詞解釋

一、Generalized Partial Credit Model（GPCM）

GPCM 模式是多元計分下的試題反應理論模式之一，其中包含斜率參數、試題步驟難度參數，其中試題步驟難度參數可以經由試題座標參數與類別閾值參數來轉化。而模式定義每一題皆有不同的斜率參數。GPCM 模式可以計算出受試者答每一題每個選項的機率，藉此來定義多元計分下，受試者的答題狀況。

二、邊際最大概似法

在邊際最大概似法中，θ 表受試者能力參數，為一連續量尺，g(θ |τ)表θ 的機率密度函數，其中^τ 表示受試者母群能力分佈的參數向量。假設受試者能力參數θ 為一隨機效果（random effect），試題參數ξ為一固定效果（fixed effect），可藉由對能力參數進行積分，將聯合概似函數中的能力參數移除，所以試題參數可透過邊際分配（marginal distribution）來進行估計。

三、核平滑化法

核平滑化法是指以核函數（kernel function）為基礎的無參數迴歸估計法，因為具有直觀且簡單的優點，故被廣泛地使用。在估計模式部份，NW 統計量最適 合用來估計試題答對機率 P，P∈

[ ]

0,1。在核函數部份，因為高斯函數可進行快速傅立葉轉換（fast Fourier transform），估計較省時。而在 NW 統計量中的帶寬參 數 h 是估計過程中，影響模式準確性最重要的參數。 h 值愈大，曲線愈平滑，而 偏差（bias）會隨之減小，但抽樣變異數（sampling variance）帶狀區域則隨之增 大，當 h 值過大時，圖形可能會過度平滑而失真；反之，當 h 值越小時，抽樣變 異數雖然越小，但曲線愈趨不平滑，偏差增大，當 h 值過小時，則易失去平滑的 目的。

在文檔中以kernel smoothing技術改進Generalized Partial Credit Model之參數估計 (頁 9-13)

緒論

第一節 研究動機

第二節 研究目的

第三節 研究問題

第四節 名詞解釋

[ ]

第一節研究動機

第二節研究目的

第三節研究問題

第四節名詞解釋