• 沒有找到結果。

以kernel smoothing技術改進Generalized Partial Credit Model之參數估計

N/A
N/A
Protected

Academic year: 2021

Share "以kernel smoothing技術改進Generalized Partial Credit Model之參數估計"

Copied!
73
0
0

加載中.... (立即查看全文)

全文

(1)國立台中教育大學教育測驗統計研究所理學碩士論文. 指導教授:郭伯臣. 教授. 以 kernel smoothing 技術改進 Generalized Partial Credit Model 之參數估計. 中. 華. 民. 研究生:蘇少祖. 撰. 國. 七. 九. 十. 年. 六. 月.

(2)

(3) 摘要 本研究提出「以 kernel smoothing 技術改進 generalized partial credit model 之 參數估計 (簡稱 KS-GPCM) 」之程式。PARSCALE 在應用邊際最大概似法(marginal maximum likelihood estimation, MMLE)估計試題參數過程中,估計能力的機率密 度函數時,涉及數值運算的部分,是採用長條圖的估計方法。本研究以無參數的 方法,藉由核平滑化(kernel smoothing)的技術改進估計能力的機率密度函數, 期望克服長條圖估計所遭遇的問題並提升估計精準度。本研究設計能力值在常 態、雙峰、偏態分布時,以 KS-GPCM 進行參數估計,與 PARSCALE 之估計結 果比較。研究結果顯示如下: 一、能力參數估計: 1. 能力分佈為常態時,整體而言以 PARSCALE 之參數估計誤差較小。 2. 能力分佈為雙峰、偏態分佈時,皆以 KS-GPCM( λ = 1 )之參數估計誤差 較小。 二、試題參數估計: 1. 能力分佈為常態時,整體而言斜率參數估計以 PARSCALE 的誤差較小, 試題步驟難度參數估計以 PARSCALE 的誤差較小。 2. 能力分佈為雙峰時,整體而言斜率參數估計以 KS-GPCM( λ = 1 )的誤差 最小,試題步驟難度參數估計以 KS-GPCM( λ = 0.5 )的誤差較小。 3. 能力分佈為偏態時,整體而言斜率參數估計並無明顯的一致性,整體而言 試題步驟難度參數估計以 KS-GPCM 的誤差較 PARSCALE 小。. 關鍵字:核平滑化、GPCM、試題反應理論、MMLE/EM、PARSCALE. I.

(4) Abstract In this paper, a modified version of MMLE/EM is proposed. There are two modifications in the proposed algorithm. First, kernel density estimation technique is applied to estimate the distribution of ability parameter in E-step. Second, kernel density estimation technique is applied to estimate the item parameters and ability parameters with EAP in M-step. Finally, we use this methodology to estimate the ability and item parameters iteratively. This algorithm is named kernel smoothing generalized partial credit model , KS-GPCM for short. In this paper, a simulation experiment based on the generalized partial credit model is conducted to compare the performances of PARSCALE and KS-GPCM. In the experiment, three types of distributions of ability parameters (normal, bi-mode and skewed distributions) are considered. Experimental results show as follow: (i) When distribution of ability parameter is normally distributed, RMSE of ability parameter of PARSCALE is less than KS-GPCM. (ii) When distributions of ability parameters are bimodal and skewness, RMSE of ability parameter of KS-GPCM is less than PARSCALE. (iii) When distribution of ability parameter is normally distributed, RMSE of slope and item step parameters of PARSCALE is less than KS-GPCM. (iv) When distributions of ability parameters are bimodal and skewness, RMSE of slope and item step parameters of KS-GPCM is less than PARSCALE.. Keywords: kernel smoothing, generalized partial credit model, item response theory, MMLE/EM, PARSCALE. II.

(5) 目錄 第一章. 緒論...............................................................................................................1. 第一節 第二節 第三節 第四節 第二章. 文獻探討.......................................................................................................5. 第一節 第二節 第三節 第四節 第三章. 研究動機............................................................................................................2 研究目的............................................................................................................3 研究問題............................................................................................................3 名詞解釋............................................................................................................3. Generalized Partial Credit Model(GPCM) ..............................................6 邊際最大概似法...............................................................................................9 PARSCALE的參數估計方法 .......................................................................13 核平滑化法 .....................................................................................................14. 研究方法.....................................................................................................17. 第一節 MMLE/EM的估計缺點.................................................................................17 第二節 以kernel smoothing技術改進Generalized Partial Credit Model之 MMLE/EM參數估計法...............................................................................................18 第三節 研究設計..........................................................................................................22 第四章. 研究結果.....................................................................................................27. 第一節 參數估計誤差結果 ........................................................................................28 第二節 實驗結果比較 .................................................................................................46 第五章. 結論與建議.................................................................................................58. 第一節 結論 ..................................................................................................................58 第二節 限制與建議 .....................................................................................................60 參考文獻 …………………………………………………………………………….62. III.

(6) 表目錄 表 4-1 能力值為常態分布時,PARSCALE 之參數估計誤差.....................................29 表 4-2 能力值為常態分布時,KS-GPCM( λ = 0 )之參數估計誤差.....................30 表 4-3 能力值為常態分布時,KS-GPCM( λ = 0.5 )之參數估計誤差..................31 表 4-4 能力值為常態分布時,KS-GPCM( λ = 1 )之參數估計誤差......................32 表 4-5 能力值為雙峰分布時,PARSCALE 之參數估計誤差...................................34 表 4-6 能力值為雙峰分布時,KS-GPCM( λ = 0 )之參數估計誤差.....................35 表 4-7 能力值為雙峰分布時,KS-GPCM( λ = 0.5 )之參數估計誤差..................36 表 4-8 能力值為雙峰分布時,KS-GPCM( λ = 1 )之參數估計誤差......................37 表 4-9 能力值為偏態分布時,PARSCALE 之參數估計誤差....................................39 表 4-10 能力值為偏態分布時,KS-GPCM( λ = 0 )之參數估計誤差...................40 表 4-11 能力值為偏態分布,KS-GPCM( λ = 0.5 )之參數估計誤差.....................41 表 4-12 能力值為偏態分布時,KS-GPCM( λ = 1 )之參數估計誤差....................42 表 4-13 各變項對於能力參數估計精準度的影響.....................................................43 表 4-14 各變項對於斜率參數估計精準度的影響.................................... ................44 表 4-15 各變項對於試題步驟難度參數估計精準度的影響.....................................45. IV.

(7) 圖目錄 圖 3-1 研究流程圖.....................................................................................................23 圖 4-1 能力值為常態分布、測驗長度 60 題之能力參數估計誤差..........................47 圖 4-2 能力值為常態分布、測驗長度 30 題之能力參數估計誤差..........................47 圖 4-3 能力值為常態分布、測驗長度 10 題之能力參數估計誤差..........................48 圖 4-4 能力值為常態分布、測驗長度 60 題之斜率參數估計誤差..........................48 圖 4-5 能力值為常態分布、測驗長度 30 題之斜率參數估計誤差..........................49 圖 4-6 能力值為常態分布、測驗長度 10 題之斜率參數估計誤差..........................49 圖 4-7 能力值為雙峰分布、測驗長度 60 題之能力參數估計誤差..........................51 圖 4-8 能力值為雙峰分布、測驗長度 30 題之能力參數估計誤差..........................51 圖 4-9 能力值為雙峰分布、測驗長度 10 題之能力參數估計誤差..........................52 圖 4-10 能力值為雙峰分布、測驗長度 60 題之斜率參數估計誤差........................52 圖 4-11 能力值為雙峰分布、測驗長度 30 題之斜率參數估計誤差........................53 圖 4-12 能力值為雙峰分布、測驗長度 10 題之斜率參數估計誤差........................53 圖 4-13 能力值為偏態分布、測驗長度 60 題之能力參數估計誤差........................55 圖 4-14 能力值為偏態分布、測驗長度 30 題之能力參數估計誤差........................55 圖 4-15 能力值為偏態分布、測驗長度 10 題之能力參數估計誤差........................56 圖 4-16 能力值為偏態分布、測驗長度 60 題之斜率參數估計誤差........................56 圖 4-17 能力值為偏態分布、測驗長度 30 題之斜率參數估計誤差........................57 圖 4-18 能力值為偏態分布、測驗長度 10 題之斜率參數估計誤差........................57. V.

(8)

(9) 第一章 緒論 試題反應理論(item response theory, IRT)在現階段是現代測驗理論中很常被 探討的理論,為國內外學者廣泛應用,且為測驗學界之主流趨勢。然而因為受試 者的真實能力值與試題參數的真值並無法從現實情境中知道,所以無法評估所估 得的參數是否精準,故只能以電腦模擬試題參數與受試者能力參數,再藉由真值 模擬作答反應,接著以作答反應進行參數估計,再計算參數估計值和真值之間的 誤差作為評斷不同估計法優劣的指標。 目前已有數種 IRT 軟體問世,如:BILOG-MG(Zimowski, Muraki, Mislevy, & Bock, 1996)、MULTILOG(Thissen, 1991) 、PARSCALE(Muraki & Bock, 1996) 等,每種軟體適用的模式與參數估計的方法不太相同。陳政漳(2003)針對九十 一學年度大學多元入學考試自然科進行分析,又因自然科中有多重選擇題,所以 使用 PARSCALE 中的部分給分模式(partial credit model, PCM)與等級反應模式 (graded response model, GRM)進行分析。而此研究因為為真實資料的分析,所 以研究結果無法顯示出估計效果是否精準。 PARSCALE 在應用邊際最大概似法(marginal maximum likelihood estimation, MMLE)估計試題參數過程中,在估計能力的機率密度函數時,涉及數值運算的 部分,是採用長條圖的估計方法(Muraki & Bock, 2003) ,該方法雖然很方便,亦 能針對能力參數為非常態的情況下進行正確的估計,但是在實際應用過程中則有 組距及原點難以決定的問題。而在二元計分三參數模式下,以無參數的方法,藉 由核平滑化(kernel smoothing)的方法估計能力的機率密度函數,研究結果顯示 使用核平滑化的方法估計能力的機率密度函數,能夠提升試題參數與能力參數的 估計精準度(Kuo, Hsieh, & Chang, 2007) 。張雅媛(2007)提出融合 kernel smoothing 之 MMLE 法於 IRT 參數估計之應用,研究指出能夠提升試題參數與能力參數的 估計精準度。故本研究提出在多元計分 GPCM(generalized partial credit model). 1.

(10) 模式下,以無參數的方法,藉由核平滑化(kernel smoothing)的技術改進估計能 力的機率密度函數,期望克服長條圖估計所遭遇的問題並提升估計精準度。 加拿大心理計量學者 Ramsay(1991)成功地結合高低試題鑑別指數與核平滑 化無參數估算法,發展出正確選項與誘答選項均可分析之核平滑化無參數試題特 徵曲線估算法(kernel smoothing approaches to nonparametric item characteristic curve estimation) 。因核平滑化法使用時毋需事先假設任何適當模式,可完全根據 受試者實際作答資料來進行估計。因此,對於分佈估計核平滑化法的確有其優 點。所以本研究希望導入核平滑化法改進能力參數估計,以提升整體估計精準度。 本章分為三節,第一節介紹研究動機,第二節介紹研究目的,第三節介紹研 究問題,第四節為名詞解釋。. 第一節 研究動機 PARSCALE 在應用邊際最大概似法估計試題參數過程中,在估計能力的機率 密度函數時,涉及數值運算的部分,PARSCALE 採用長條圖的估計方法,該方法 雖然很方便,亦能針對能力參數為非常態的情況下進行正確的估計,但是在實際 應用過程中仍會衍生一些問題,故本研究以無參數的方法,藉由核平滑化的方法 估計能力的機率密度函數,期望克服長條圖估計所遭遇的問題並提升估計精準 度。再加上二元計分三參數模式下,藉由核平滑化的技術改進估計能力的機率密 度函數已開發出來(Kuo, Hsieh, & Chang, 2007),所以本研究欲將其技術從二元 計分拓展到多元計分下,期望能夠改善多元計分參數估計的效果,是故本研究自 行開發「以 kernel smoothing 技術改進 generalized partial credit model 之參數估計 (簡稱 KS-GPCM)」之程式,比較能力值為不同分布時,以 KS-GPCM 進行參數 估計和以 PARSCALE 進行參數估計,比較何者之估計結果較為精準。. 2.

(11) 第二節 研究目的 本研究欲了解在不同人數、試題數、不同能力分布時,以 KS-GPCM 及 PARSCALE 進行參數估計之精準度比較。 茲將本研究目的敘述如下: 一、了解 PARSCALE 在不同情況下之參數估計的效果。 二、了解 KS-GPCM 在不同情況下之參數估計的效果。 三、比較 KS-GPCM 及 PARSCALE 於不同情況下參數估計的效果。. 第三節 研究問題 本研究欲探討的問題有三,茲分述如下: 一、各變項對 PARSCALE 進行參數估計效果的影響為何? 二、各變項對 KS-GPCM 進行參數估計效果的影響為何? 三、KS-GPCM、PARSCALE 於不同情況下參數估計效果有何差異?. 第四節 名詞解釋 一、Generalized Partial Credit Model(GPCM) GPCM 模式是多元計分下的試題反應理論模式之一,其中包含斜率參數、試 題步驟難度參數,其中試題步驟難度參數可以經由試題座標參數與類別閾值參數 來轉化。而模式定義每一題皆有不同的斜率參數。GPCM 模式可以計算出受試者 答每一題每個選項的機率,藉此來定義多元計分下,受試者的答題狀況。. 3.

(12) 二、邊際最大概似法 在邊際最大概似法中, θ 表受試者能力參數,為一連續量尺, g (θ | τ ) 表 θ 的 機率密度函數,其中 τ 表示受試者母群能力分佈的參數向量。假設受試者能力參 數 θ 為一隨機效果(random effect),試題參數 ξ 為一固定效果(fixed effect),可 藉由對能力參數進行積分,將聯合概似函數中的能力參數移除,所以試題參數可 透過邊際分配(marginal distribution)來進行估計。. 三、核平滑化法 核平滑化法是指以核函數(kernel function)為基礎的無參數迴歸估計法,因 為具有直觀且簡單的優點,故被廣泛地使用。在估計模式部份,NW 統計量最適 合用來估計試題答對機率 P , P ∈ [0,1]。在核函數部份,因為高斯函數可進行快速 傅立葉轉換(fast Fourier transform),估計較省時。而在 NW 統計量中的帶寬參 數 h 是估計過程中,影響模式準確性最重要的參數。 h 值愈大,曲線愈平滑,而 偏差(bias)會隨之減小,但抽樣變異數(sampling variance)帶狀區域則隨之增 大,當 h 值過大時,圖形可能會過度平滑而失真;反之,當 h 值越小時,抽樣變 異數雖然越小,但曲線愈趨不平滑,偏差增大,當 h 值過小時,則易失去平滑的 目的。. 4.

(13) 第二章 文獻探討 試題反應理論中的多元計分模式有多種,但依據資料形式的不同,會有使用 上的限制,本文針對 GPCM 進行後續研究,GPCM 適用資料形式為多元計分的 模式,如一個數學試題有四種反應選項,如下所示。 題目:S = 3 2 + 7 得 1 分:S = 9 + 7 得 2 分:S = 16 得 3 分:S = 4 如上題中,考生的得分介於 0~3 分四個表現水準,受試者必須完成平方、加 法與開根號三個運算才能完成所有類別,在這當中受試者必須要了解(1)平方、 (2)先平方再進行加法、(3)將得到的結果開根號三個知識類別,由題目可以 知道要得 3 分必須要三個知識類別皆會,得 2 分則必須學會二個知識類別,得 1 分只需學會一個知識類別,類似這種部分給分的題目,皆適用於 GPCM 模式來分 析。本章第一節將針對 GPCM 模式進行探討。 本研究主題為 GPCM 模式的參數估計,而參數估計是建構在邊際最大概似 法,所以本章第一節將對於 GPCM 模式進行探討,第二節將針對邊際最大概似法 進行探討,第三節將對於 PARSCALE 的參數估計方法進行探討,第四節論述核 平滑化法的基本概念。. 5.

(14) 第一節 Generalized Partial Credit Model 在探討 GPCM 模式之前,我們先針對 PCM 模式進行探討,因為 GPCM 模式 為 PCM 模式之延伸,其不同之處在於 GPCM 模式中各試題之間有不同的鑑別度 參數。 Partial credit model 是由 Masters(1982)所提出,為 Rasch’s model 在多元計分 的一個應用。. ⎡k ⎤ exp ⎢∑ (θ − b jv )⎥ ⎣ v =1 ⎦ Pjk (θ ) = m c ⎡ (θ − b jv )⎤⎥ exp ∑ ∑ ⎢ c =1 ⎣ v =1 ⎦ j. b j1 = 0 且 ∑ (θ − b jv ) ≡ 0 1. 且. v =1. θ :表示受試者的潛在能力特質 ( - ∞ < θ < ∞ )。 k :為受試者的回答所屬類別,從 1… m j 。 m j :為隨題目而變的變數, m j 是第 j 題所有的類別數。 Pjk (θ ) :為潛在能力特質為 θ 的受試者在第 j 題得 k 類的機率(0< Pjk (θ ) <1)。 b jv :指第 j 題第 v 個的試題步驟難度參數(item step parameter)或類別閾參數. (category intersection parameter) ,隨著類別界線(category boundary)而變, 相鄰在兩類別間,就有一個 b jv 參數( - ∞ < b jv < ∞ ),即 b jk 為 Pj ,k −1 (θ ) 和 Pjk (θ ) 的交點。. 在 PCM 的公式中,我們可以發現如果試題為二元計分,則用 PCM 模式來分 析試題會與使用 Rasch 單參數模式來分析相同。 Yen 提出了一個新的模式,此模式為 PCM 模式的延伸,後來這個模式被稱做 2PPC 模式(two parameter partial credit model)。公式如下:. 6.

(15) Pjk (θ ) =. exp(Z jk ). k = 1, L , m j. ∑ exp(Z ) mj. c =1. jc. k −1. 其中 Z jk = a jk ⋅ θ − ∑ δ js s =0. , δ j0 ≡ 0. 其中 a jk ≡ α j (k − 1). θ :表示受試者的潛在能力特質 ( - ∞ < θ < ∞ )。 k :為受試者的回答所屬類別,從 1… m j 。 m j :為隨題目而變的變數, m j 是第 j 題所有的類別數。 Pjk (θ ) :為潛在能力特質為 θ 的受試者在第 j 題得 k 類的機率(0< Pjk (θ ) <1)。. α j :第 j 題試題鑑別參數。 δ js :第 j 題第 s 個試題步驟難度參數。其中 s = 0, L , k − 1 。 我們可以說 PCM 是 2PPC 模式下的一個特例,因為當 2PPC 下全部試題的鑑 別度參數皆為 1 時,2PPC 模式剛好與 PCM 模式相同。 GPCM 是 PCM 的延伸,由 Muraki(1992)所提出,為各試題之間有不同的鑑 別度參數。2PPC 模式與 GPCM 模式是等值的,但它們定義試題參數的方式是不 同的。假定一試題 j 具有 m j 個等級類別(graded categories),越高的類別表示能 力越高,而最高得分為 m j 。 GPCM 模式為 ⎡k ⎤ ⎡k ⎤ exp ⎢∑ a j (θ − b jv )⎥ exp ⎢∑ a j (θ − b j + d v )⎥ ⎦ = ⎣ v=1 ⎦ Pjk (θ ) = m j ⎣ v=1 c mj c ⎡ ⎤ ⎡ ⎤ ∑ ⎢exp ∑ a j (θ − b jv )⎥ ∑ ⎢exp ∑ a j (θ − b j + d v )⎥ c =1 ⎣ v =1 v =1 ⎦ c=1 ⎣ ⎦. 在此 d1 ≡ 0 (為了在進行參數估計時,所下的限制,使其有一個相對原點),. 7.

(16) b jv = b j − d v. θ :表示受試者的潛在能力特質( - ∞ < θ < ∞ )。 k :為受試者的回答所屬類別,從 1… m j 。. e:是底為 1.728 的指數。 m j :為隨題目而變的變數, m j 則是第 j 題所有的類別數。 Pjk (θ ):為潛在能力特質為 θ 的受試者在第 j 題得到第 k 類的機率(0< Pjk (θ ) <1)。 b jv : b jv = b j − d v 。 b jv 為第 j 題第 v 個的試題步驟難度參數(item step parameter). 或類別閾參數(category intersection parameter),隨著類別界線(category ,即 b jk boundary)而變,相鄰在兩類別間,就有一個 b jv 參數(- ∞ < b jv < ∞) 為 Pj ,k −1 (θ ) 和 Pjk (θ ) 的交點,同一試題內的試題步驟參數不需是有序的。 b j 為 試題座標參數(item location parameter) 、 d v 為閾參數(threshold parameter), d k 為同一試題內的第 k 類和其他類別的相對難度(Andrich, 1982)。 a j :試題 j 的斜率參數,同一試題在各類別選項有相同的斜率參數,但不同的試. 題有不同斜率。. 因為 GPCM 的斜率參數在估計並沒有限制,所以 GPCM 可以被擴展到多維 度的情況下,如發展出基於二元計分模式下的多維度 IRT 模式(Bock, Gibbons, & Muraki, 1988)。當試題步驟難度參數並非是有序的,此現象被稱為「參數反序 (reversal)」(Dodd & Koch, 1987),假如此現象發生,可以證明在此題至少有一 個類別是在任何能力下都不太可能有人作答到的(Andrich, 1988) 。. 8.

(17) 第二節 邊際最大概似法 由於 JMLE 引起 Neyman-Scott 問題,當樣本數越大時,所要估計的能力參數 也越多,估計的精準度無法藉由樣本數的增加而提升,使得參數的估計缺乏一致 性(Baker, 1992) 。Bock & Lieberman(1970)提出邊際最大概似法來進行參數估計。 然而,Bock & Lieberman(1970)的方法在計算上相當繁雜,而且僅適用於非常 短的測驗,Bock & Aitkin(1981)採用 EM 演算法改進 MMLE,本文中把 Bock & Aitkin(1981)的參數估計法稱為 MMLE/EM 法。Muraki(1992)提出 GPCM 的 MMLE/EM 估計法,在詳述 GPCM 模式的 MMLE/EM 之估計方法前,我們先進 行符號的定義,定義如下: N :受試者人數 n :測驗題數 m :試題類別數( m 元計分) e :第 e 個受試者 h :第 h 題. F :E 步驟中的能力值分組數 f :第 f 個能力分組 a j :第 j 題的斜率參數. b j :第 j 題的 location 參數 d k :第 k 個閾值參數. ξ :試題參數 U e :第 e 個受試者的反應組型 U hke :第 e 個受試者答第 h 題是否為第 k 類,所以 U hke = 0或1. T :迭代次數. 9.

(18) GPCM 模式的 MMLE/EM 估計法分成二個步驟進行試題參數及能力參數的 估計: 一、. E 步驟. 1. 設定試題參數及能力參數的起始值 a h 、 bh 、 d k ,並將所有受試者能力參數排 序後分為 F 組,並以其組中點 X f 代表該組的能力值。並且設定各分組權重 A( X f ) 。( f = 1,2,L, F ). 2. 計算各分組能力值中點 X f 在全部受試者作答反應之概似機率,也就是 L( X f ) = ∏∏ [Phk ( X f )] n. m. U hk. 。. h =1 k =1. ~ F 3. 計算各作答反應發生的機率, P = ∑ L( X f ) A( X f ) 。 f =1. 4. 根據組中點的權重 A( X f ) 計算第 e 受試者能力值為 X f 的後驗機率(posterior probability): P (X f | U e , ξ ) =. L( X f ) A( X f ) F. ∑ L( X f =1. N. 5. 計算各組期望人數 N f = ∑ e =1. f. 。. ) A( X f ). L( X f ) A( X f ) 。 ~ P N. 6. 計算各組在各題答各類別的期望人數, rhkf = ∑ e =1. 二、. L( X f ) A( X f ) ⋅ U hke 。 ~ P. M 步驟. 主要在分成兩階段估計,第一階段為估計試題參數(斜率參數 a h 、座標參數 bh )與閾値參數,第二階段為估計能力參數。在估計試題參數 ah 、 bh 部份,以 E. 步驟得到的 N f 和 rhkf 進行參數估計,此階段對所有試題進行個別估計,利用牛頓 法進行迭代,更新試題參數 ah 、 bh ,如下式。. 10.

(19) 第一階段又分為兩個步驟,第一步驟為試題參數 ah 、 bh 估計,第二步驟為閾 值參數 d k 估計,以下分別就兩步驟進行敘述: (一)試題參數 ah 、 bh 估計 ⎡v a a ⎡a h ⎤ ⎡a ⎤ = ⎢ h⎥ +⎢ ⎢b ⎥ ⎣ h ⎦ (T +1) ⎣ bh ⎦ (T ) ⎣va b. h h. h h. va b ⎤ vb b ⎥⎦ h h. h h. −1. ⎡t a ⎤ ⋅⎢ ⎥ t (T ) ⎣ b ⎦ ( T ) h. h. 其中 一階導函數的部份如下: m + ⎤ ⎡ + ( ) r Z X Z hc ( X f )Phc (X f )⎥ − ∑∑ ∑ hkf ⎢ hk f f =1 k =1 c =1 ⎦ ⎣ F m m ⎤ ⎡ t b = a h ∑∑ rhkf ⎢− k + ∑ cPhc (X f )⎥ f =1 k =1 c =1 ⎦ ⎣. t a = ah. F. −1. m. h. h. 二階導函數的部份如下: va a = a h. −2. h h. vb b. h h. m + ⎤ ⎡ + ( ) ( ) N P X Z X Z hc (X f )Phc (X f )⎥ − ∑ ∑ f ∑ hk f ⎢ hk f f =1 k =1 c =1 ⎦ ⎣ F. m. m ⎤ ⎡ = a h ∑ N f ∑ Phk (X f )⎢− k + ∑ cPhc (X f )⎥ f =1 k =1 c =1 ⎦ ⎣. 2. F. m. 2. 2. F m m m ⎤ ⎤⎡ ⎡ v a b = ∑ N f ∑ Phk ( X f )⎢ Z + hk (X f ) − ∑ Z + hc ( X f )Phc (X f )⎥ ⎢− k + ∑ cPhc ( X f )⎥ f =1 k =1 c =1 c =1 ⎦ ⎦⎣ ⎣ h h. 其中 Z. +. (X ) = ∑ Z (X ) = ∑ a (X k. hk. f. v =1. k. hv. f. v =1. h. f. − bh + d v ). (二)閾值參數 d k 估計 在閾值參數 d k 估計,但因為 d1 定義為 0,所以需要估計的閾值參數有 m − 1 個,利用牛頓法進行迭代,更新閾值參數,如下式。. 11.

(20) ⎡Vd d ⎡d2 ⎤ ⎡d2 ⎤ ⎢ ⎢ M ⎥ ⎢ ⎥ =⎢ M ⎥ +⎢ M ⎢ ⎥ ⎢⎣d m ⎥⎦ (T +1) ⎢⎣d m ⎥⎦ (T ) ⎢⎣Vd d. 2 2. m 2. L Vd d O M L Vd d. 2 m. m m. −1. ⎤ ⎡d2 ⎤ ⎥ ⎢ ⎥ ⎥ ⋅⎢ M ⎥ ⎥ ⎦ (T ) ⎢⎣d m ⎥⎦ (T ). 其中 一階導函數: m ⎡ ⎤ = ∑∑ a h ∑ ⎢rhkf − Phk ( X f )∑ rhcf ⎥ , g = 2K m f =1 h =1 k =g ⎣ c =1 ⎦ F. td. g. n. m. 二階導函數: F n m ⎡m ⎤⎡ ⎤ Vd d = ∑ N f ∑ ah2 ⎢∑ Phk ( X f )⎥ ⎢1 − ∑ Phk ( X f )⎥ , g = g '= 2K m , g ' ≤ g f =1 h =1 ⎣k =g ⎦ ⎣ k=g ' ⎦ g g'. 第二階段估計能力參數,以期望後驗估計法( Bayes expected a posteriori,. EAP)進行能力參數估計,能力參數估計方程式如下式所示: q. E (θ e | U e , ξ ) = θ e =. ∑X f =1. f. L( X f ) A( X f ). q. ∑ L( X f =1. f. ) A( X f ). 12.

(21) 第三節 PARSCALE 的參數估計方法 PARSCALE 為 Eiji Muraki 和 R. Darrell Bock 所研發的以 IRT 為理論基礎的軟 體,PARSCALE 估計試題參數時使用 MMLE/EM 法,並以牛頓迭代法估算試題 參數。PARSCALE 能對二元計分與多元計分之試題進行有效的分析,也能針對評 分量表進行分析,如李克特氏量表,而軟體能分析的 IRT 模式分別有 PCM、. GPCM、modified graded response model(Muraki, 1990)。 在能力值的估計上,PARSCALE使用的估計方法有三種,分別為最大概似估 計法(maximum likelihood estimation, MLE)及期望後驗估計法(Bayes expected a. posteriori, EAP)、權重最大概似估計法( Warms’ weighted maximum likelihood estimation, WML)。 MLE是依據作答反應的模式,利用統計方法估計出「使這種作答反應組型出 現機率最高」的能力值,其缺點是當某一受試者答對或答錯該測驗中所有試題 時,MLE將無法估算其能力值。EAP估計法克服此缺點,此法是利用受試者的作 答反應組型來「修正」先前假定的能力分佈(prior distribution)後,得到新的能 ,可適用於所有的答題模式,因此即使有受試者答 力分佈(posterior distribution) 對或答錯所有題目時,其能力值亦可由EAP法估計。然而EAP所估得的值較集中 ,但若其標準誤很小時,相對其 在母群體的平均值附近(shrink toward the mean) 誤差也會很小。綜合上述所述,本研究以PARSCALE進行參數估計時,選用適用 範圍較廣泛、估計較為精準的EAP法進行能力參數的估計。 故本研究開發以 kernel smoothing 技術改進 GPCM 之參數估計,在估計參數 的部分採用 KS-GPCM 法,其中估計能力參數是採用 EAP 的方法。. 13.

(22) 第四節 核平滑化法 核平滑化法是指以核函數為基礎的無參數迴歸估計法,因為具有直觀且簡單 的優點,故被廣泛地使用。而在眾多核平滑化法估計量中,又以下列三種估計模 : 式較為常見(Silverman, 1986) (1)NW 統計量:為 Nadaraya & Watson(1964)提出,形式如下: x− Xj ⎧N )Y j ⎪∑ K ( N x− Xj h j =1 ⎪ , 當 ( )≠0 K ∑ x− Xj h ⎪ N j =1 ⎪ ∑ K( h ) ⎪ j =1 g NW ( x) = ⎨ ⎪ ⎪ ⎪ N x− Xj ⎪ 0 , 當∑ K ( )=0 ⎪⎩ h j =1. 其中. N :樣本個數. X j :預測變項 for j = 1,2, L , N Yj :反應變項. K (⋅) :核函數. h :帶寬參數(bandwidth). (2)PC 估計量:為 Priestley & Chao(1972)所提出,形式如下:. 1 (X j − X j −1 )K ⎛⎜⎜ x − X j j =1 h ⎝ h N. g PC ( x ) = N ∑. ⎞ ⎟⎟Y j ⎠. (3)GM 統計量:為 Gasser & Muller(1979)所提出,形式如下:. 14.

(23) N. g GM ( x ) = ∑ Y j ∫d. dj. j =1. j −1. 1 ⎛x−z⎞ K⎜ ⎟dz h ⎝ h ⎠. 其中 d 0 = 0. dj =. X j + X j −1 2. for j = 1,2, L , N. dN = 1 此外,上述三種模式中的核函數 K (⋅) 均必須滿足下列條件:. A. 對於所有自變數 u , K (u ) ≥ 0 B. 若 u ≥ 0 ,則 K (0 ) > K (u ) C. 當 u → ∞ , K (u ) → 0 常用的核函數則有下列三種(Silverman, 1986) (1)均一函數(uniform function). ⎧0.5 if | u |≤ 1 K (u ) = ⎨ ⎩0 otherwise. (2)二次函數(quadratic function) ⎧0.75 (1 - u 2 ) if | u |≤ 1 K (u ) = ⎨ ⎩0 otherwise. (3)高斯函數(Gaussian function) ⎧ u2 ⎫ K (u ) = exp ⎨− ⎬ ⎩ 2⎭. −∞ <u < ∞. 核平滑化法有多種估計模式及多種核函數可供選擇使用,核平滑化法在測驗. 15.

(24) 上的轉化應用研究,可參考國內外相關文獻(Silverman, 1986;劉湘川,2001a,. 2001b;吳慧珉,2001) 。研究結果指出,在估計模式部份,NW 統計量最適合用 來估計試題答對機率 P , P ∈ [0,1]。在核函數部份,因為高斯函數可進行快速傅立 葉轉換,估計較省時。帶寬參數 h 是估計過程中,影響模式準確性最重要的參數。 h 值愈大,曲線愈平滑,而偏差會隨之減小,但抽樣變異數帶狀區域則隨之增大,. 當 h 值過大時,圖形可能會過度平滑而失真;反之,當 h 值越小時,抽樣變異數 雖然越小,但曲線愈趨不平滑,偏差增大,當 h 值過小時,則易失去平滑的目的。 因此,若欲獲得較佳的估計結果,必須兼顧偏差與抽樣變異數之間的平衡(劉湘 。Silverman(1986)經由模擬研究指出,符合標準常態分配且使 川,2001a,2001b) 用高斯函數為核函數時,可獲得最佳估計值。 基於此,故本研究選擇 NW 統計量進行核估計,並以高斯函數作為專有之核 函數,帶寬參數 h 值採用動態最佳化的方法設定(Bowman & Azzalini, 1997)。. 16.

(25) 第三章 研究方法 本研究以核平滑化(kernel smoothing)的方法,開發新的參數估計法,來改 良原先PARSCALE進行試題參數估計MMLE/EM過程中各能力區間的權重,使其 與能力值真值的分佈更接近。本章節架構為:第一節介紹原MMLE/EM估計法中 的 估 計 缺 點 ; 第 二 節 詳 細 介 紹 本 研 究 所 提 的 以 kernel smoothing 技 術 改 進. Generalized Partial Credit Model之邊際最大概似估計法(以下簡稱KS-GPCM) ;第 三節說明本研究之研究設計。. 第一節 MMLE/EM 的估計缺點 Bock & Aitkin(1981)所提之 MMLE/E M 法在估計試題參數過程中主要分成 E-步驟及 M-步驟,E-步驟主要目的為計算各組人數之期望值以及各組於各題的答 對人數之期望值(二元計分的情況下)或各組於各題答各類別之期望值(多元計 分的情況下),M-步驟主要藉由 E-步驟中所獲得的參數來估計試題參數。 而 PARSCALE 在應用 MMLE/EM 估計試題參數過程中,即是基於上述的方 法進行試題參數之估計,然在估計過程中涉及到估計能力的機率分布。目前. PARSCALE 採用長條圖的估計方法(Muraki & Bock, 2003) 。該方法雖然很方便, 亦能針對能力參數不是在常態的情況下進行正確的估計,但是在實際應用過程中 仍會衍生以下幾個問題(Wolfgang & Marlene, 2004): (1) 組距難以決定 組距的大小會對長條圖的形狀有影響,組距變大會使得曲線變得較平滑,然 組距太大會使得圖形失真,所以由組距大小界定最佳的平滑程度有其困難度。 (2) 原點難以決定 即使是同一筆資料,在固定組距大小的情況下,原點位置的不同會影響長條. 17.

(26) 圖的形狀,進一步會影響到面積的估計,所以由原點位置的決定有其困難度。. 因此 PARSCALE 中的 MMLE/EM 法是有其估計上的問題。本研究目的之一 即是提出 KS-GPCM,用以改良、解決上述缺點,使得估計結果更為準確。. 第二節 以 kernel smoothing 技術改進 Generalized Partial Credit Model 之 MMLE/EM 參數估計法 由於基於混合分佈之 MMLE/EM-KS EAP 之估計程序(謝典佑,王暄博,郭 伯臣,楊思偉,2007)較 BILOG 所實作之 MMLE/EM EAP 估計具有強韌性,且 能獲得更精確的模型估計。故本研究針對欲改進的 MMLE/EM 法,提出以 kernel. smoothing 技術改進 GPCM 之 MMLE/EM 參數估計法,以下簡稱 KS-GPCM 法, 而依據 Bock & Aitkin(1981)所提之 MMLE/EM 法中的試題參數估計過程主要分成. E-步驟及 M-步驟,其中 A( X k ) 即是能力值為 X k 的密度,若要計算該值則必須先 對能力分布進行估計。本研究以自行開發之 KS-GPCM 估計法改良該步驟,茲詳 述 KS-GPCM 法之能力參數估計法及改良後的 E-步驟、M-步驟、C-步驟如下:. E-步驟 1. 已知 θ ,以核平滑化法進行無參數曲線估計,得到能力參數的機率分布如下: P (θ ) =. 1 N 1 ( ) ⋅ K (θ ) ∑ Nh e =1 2π. 1 θ − θe 其中 K (θ ) = exp(− [ ]) 2 h N :樣本個數. θ :能力目標分布. 18.

(27) θ e :已知的能力參數,用以描述能力目標分布 for e = 1,2,L, N h :帶寬參數. 2. 定義新的分組權重 Amix ( X k ) 如下:. Amix ( X k ) = λ ⋅ Aks ( X k ) + (1 − λ ) ⋅ Anorm ( X k ) for λ = [0,1] 其中 Aks ( X k ) = P( X k ) =. 1 N 1 ( ) ⋅ K(X k ) ∑ Nh j =1 2π. 1 X − θi ]) K ( X k ) = exp( − [ k 2 h. Anorm ( X k ) =. ( X − μ)2 1 exp(− k 2 ) 2σ σ 2π. X k :各組中點所代表的能力值 k = 1,2, L , q. λ 代表使用核平滑化法來估計受試者能力分布的權重值,當 λ = 1代表受試者 能力分布皆使用核平滑化來估計,當 λ = 0 代表受試者能力分布皆使用標準常態分 布來設定其組中點的權重,當 λ = 0.5 代表使用核平滑化與標準常態分布權重各一 半的方式進行設定能力分布,是故本研究中設定 λ = 0, 0.5, 1 三種情況,探討. KS-GPCM 於不同情境下參數估計的效果。. 3. 藉上述公式重新改寫 N f 與 rhkf 值為: ⎤ ⎡ ⎢ L( X f ) Amix ( X f ) ⎥ N f = ∑⎢ F ⎥ e =1 ⎢ L( X f ) Amix ( X f ) ⎥ ⎥⎦ ⎢⎣ ∑ f =1 N. 19.

(28) ⎤ ⎡ ⎢ L( X f ) Amix ( X f ) ⋅ U hke ⎥ = ∑⎢ F ⎥ e =1 ⎢ L( X f ) Amix ( X f ) ⎥ ⎥⎦ ⎢⎣ ∑ f =1 N. rhkf. M-步驟 利用牛頓法進行試題參數的迭代估計:. 1. 試題參數 a h 、 bh 估計 ⎡v a a ⎡a h ⎤ ⎡a h ⎤ = + ⎢ ⎢b ⎥ ⎢ ⎥ ⎣ h ⎦ ( t +1) ⎣ bh ⎦ ( t ) ⎣v a b. h h. h h. −1. v a b ⎤ ⎡t a ⎤ ⋅ vb b ⎥⎦ ⎢⎣t b ⎥⎦ (t ) (t ) h h. h. h h. h. 上述各符號定義如下: m + ⎡ + ⎤ t a = a h ∑∑ rhkf ⎢ Z hk (X f ) − ∑ Z hc ( X f )Phc (X f )⎥ c =1 f =1 k =1 ⎣ ⎦ F m m ⎡ ⎤ t b = a h ∑∑ rhkf ⎢− k + ∑ cPhc ( X f )⎥ c =1 f =1 k =1 ⎣ ⎦ −1. F. va a = a h. −2. m. h. h. h h. m + ⎡ + ⎤ ( ) ( ) − N P X Z X Z hc (X f )Phc (X f )⎥ ∑ ∑ f ∑ hk f ⎢ hk f c =1 f =1 k =1 ⎣ ⎦ F. m. 2. 2. vb b. m ⎡ ⎤ = a h ∑ N f ∑ Phk (X f )⎢− k + ∑ cPhc (X f )⎥ c =1 f =1 k =1 ⎣ ⎦. va b. m m ⎡ + ⎤⎡ ⎤ + = ∑ N f ∑ Phk (X f )⎢ Z hk (X f ) − ∑ Z hc (X f )Phc (X f )⎥ ⎢− k + ∑ cPhc ( X f )⎥ f =1 k =1 c =1 c =1 ⎣ ⎦⎣ ⎦. h h. 2. F. F. h h. 而其中 Z. m. m. +. (X ) = ∑ Z (X ) = ∑ a (X k. hk. f. v =1. k. hv. f. v =1. h. f. − bh + d v ). 2. 閾值參數 d k 估計 ⎡Vd d ⎡d2 ⎤ ⎡d2 ⎤ ⎢ ⎥ ⎢ ⎢ M ⎥ M + = ⎢ M ⎢ ⎥ ⎢ ⎥ ⎢⎣d m ⎥⎦ (T +1) ⎢⎣d m ⎥⎦ (T ) ⎢⎣Vd d. 2 2. m 2. 20. −1. L Vd d ⎤ ⎡d2 ⎤ ⎥ O M ⎥ ⋅ ⎢⎢ M ⎥⎥ ⎢d ⎥ L Vd d ⎥⎦ (T ) ⎣ m ⎦ (T ) 2 m. m m.

(29) 其中 一階導函數: m ⎡ ⎤ = ∑∑ a h ∑ ⎢rhkf − Phk ( X f )∑ rhcf ⎥ , g = 2K m f =1 h =1 k =g ⎣ c =1 ⎦ F. td. g. n. m. 二階導函數: F n m ⎡m ⎤⎡ ⎤ Vd d = ∑ N f ∑ ah2 ⎢∑ Phk ( X f )⎥ ⎢1 − ∑ Phk ( X f )⎥ , g = g '= 2K m , g ' ≤ g f =1 h =1 ⎣k =g ⎦ ⎣ k=g ' ⎦ g g'. 以 EAP 進行能力參數估計,能力參數估計方程式如下式所示: q. E (θ e | U e , ξ ) = θ e =. ∑X f =1 q. f. L( X f ) A( X f ). ∑ L( X f =1. f. ) A( X f ). 因為使用 EAP 進行能力估計時,會有最小的均方根誤差(Bock & Mislevy, ,但有研究指出這個性質只有在先驗分布是正確的情況下才會發生(Wainer 1982). & Thissen, 1987)。. C 步驟 重 複 E- 步 驟 及 M- 步 驟 , 直 至 所 有 的 概 似 機 率 都 不 再 變 動 , 亦 即 當. L( t +1) − L( t ) < ε 則終止迭代(Bock & Aitkin, 1981) 。其中 L(t ) 是將第 t 次迭代所得之. θ (t ) 、 a(t ) 、 b(t ) 及 d k ( t ) 代入 L = log Prob [U | θ ] 之結果。最後持續 E-步驟及 M-步驟 直至其概似機率不再變動為止(Bock & Aitkin, 1981)。. 本研究所開發之 KS-GPCM 估計法與 MMLE/EM 估計法一樣,使用二階段估. 21.

(30) 計法。第一階段依上述方法估計試題參數完畢後,便固定試題參數,再於第二階 段應用 EAP 估計法來進行能力參數的估計。 本研究基於原先 MMLE/EM 估計法所發展之 KS-GPCM 新的估計法,期望能 改進原先 MMLE/EM 在估計能力參數分布的缺點,並期望應用於不同能力分布下 進行試題參數及能力參數之估計,都能獲得較高的估計精準度。 因此本研究擬用 KS-GPCM 在不同情況下進行參數估計,其估計結果再與. PARSCALE 之估計結果進行比較,藉以探討 KS-GPCM 用在參數估計的成效。. 第三節 研究設計 本節分為四部份,首先介紹研究步驟,其次介紹本研究之變項設計,再介紹 參數估計誤差,最後介紹研究工具。. 壹、研究步驟 本研究以試題反應理論為基礎,利用模擬資料,比較於不同情境下,以自行 開發的「以kernel smoothing技術改進GPCM之MMLE/EM參數估計法」程式進行 參數估計,與PARSCALE之估計結果相比較,藉以評估「以kernel smoothing技術 改進GPCM之MMLE/EM參數估計法」的效益。以下簡稱「以kernel smoothing技 術改進GPCM之MMLE/EM參數估計法」為KS-GPCM。研究流程如圖3-1所示:. 22.

(31) 研究主題. 文獻探討. 模擬受試者能力、試題參數、並模擬作答反應. 撰寫 KS-GPCM 程式進行參數估計. 利用 PARSCALE 進行參數估計. 參數估計效果評估. 撰寫研究報告. 圖3-1 研究流程圖. 貳、變項設定 本研究中模擬資料之變項設定為: 一、施測人數3000人、1000人及500人。 由於一般參數估計軟體所需的樣本大約為1000人,所以本研究在人數上的設 定以此為準則,增減人數,所以選定3000人、1000人、500人。 二、能力值為常態、偏態及雙峰三種分布。 在我們實際情況中,常見的能力分布大概會有常態、偏態、雙峰三種,其中 偏態在本研究中採用負偏態,而本研究將依照這三種能力分布,進行模擬學生能 力值。 三、每份測驗有60題、30題、10題三種情況。 由於一般測驗的長度約為30題,所以本研究模擬的題數設定為60題、30題、. 10題。. 23.

(32) 四、參數估計方法有PARSCALE、KS-GPCM( λ = 1 、 λ = 0.5 、 λ = 0 )四種。 由於本研究預期KS-GPCM( λ = 1 )能在非常態的情況下得到較PARSCALE 好的參數估計,另外預期KS-GPCM( λ = 0 )能在常態的情況下得到較PARSCALE 好的參數估計,最後加入KS-GPCM( λ = 0.5 )探討混合的權重對於參數估計的 效果,所以使用PARSCALE、KS-GPCM( λ = 1、 λ = 0.5 、 λ = 0 )四種進行參數 估計。. 下面針對本研究試題參數與受試者能力參數的模擬進行說明: 一、試題參數的設定: 本研究採用試題反應理論GPCM模式的六元計分,設定模擬資料。模擬試題 參數之真值為斜率參數 a ~ lognormal(1.13,0.6) 、location參數 b ~ N(0,1) 、相鄰閾 值參數 d k 之間的間距設定在0.4~0.8之間,並限制其最大值與最小值,避免極端值 與不合理的試題參數發生。 (Mislevy, 1986) 測驗的設計上,每個測驗的題數有10題、30題、60題三種。先模擬60題的試 題參數,再從中抽取30組試題參數作為30題測驗的試題參數,再從30組試題參數 抽取10組試題參數作為10題測驗的試題參數。 二、受試者群體能力的分佈 本研究因設定於試題反應理論 GPCM模式的六元計分下,模擬能力值成常 態、偏態、雙峰分佈三種情況,每一群的人數有500、1000、3000人三種情況。 先模擬3000人的能力參數,再從中抽取1000個能力參數作為1000人的能力參數,. 500人的能力參數亦是從1000人的能力參數中抽取而來的。 此外,本研究主要有二種不同的參數估計方法,分別是 PARSCALE 及自行 開發的 KS-GPCM 程式,KS-GPCM 程式又分為 λ = 0, 0.5, 1 三種情況進行討論。 本研究目的在探討不同變項下,不同參數估計方法之估計誤差。. 24.

(33) 參、參數估計誤差 本研究視原始生成參數為真值,以真值產生作答反應,再以作答反應進行參 數估計後得到估計值,計算真值與估計值的均方根誤差(root mean squared error, 。本研究求模擬 100 次的平均,作為參數估計誤差,依此來評斷參數估計 RMSE) 的效果。. RMSE 是根據能力值、斜率參數及試題步驟難度參數分別計算。其數學式如 下所示: ㄧ、能力值 1 N. RMSE (θ ) =. 其中. N. ∑ (ϑ i =1. i. − θi )2. θ i :第 i 位能力值估計值 ϑi :第 i 位能力值真值 N :受試者人數. 二、斜率參數. RMSE (a ) =. 其中. 1 n (α j − a j ) 2 ∑ n j =1. a j :第 j 題斜率參數估計值. α j :第 j 題斜率參數真值 n :試題題數. 25.

(34) 三、試題步驟難度參數( b jk = b j − d k ). RMSE (bd k ) =. 其中. 1 n ( β jk − b jk ) 2 ∑ n j =1. b jk :第 j 題第 k 個試題步驟難度估計值. β jk :第 j 題第 k 個試題步驟難度真值 n :試題題數. 肆、研究工具 本研究使用的工具有PARSCALE軟體及MATLAB軟體,茲分述如下。 一、PARSCALE軟體 本研究使用PARSCALE進行參數估計,利用邊際最大概似法(MMLE/EM) 來估計試題的斜率參數、試題步驟難度參數,利用期望後驗法(expected a posteriori,. EAP)估計受試者能力值。 二、MATLAB 7 本研究利用MATLAB 7模擬受試者作答反應,並且撰寫KS-GPCM,藉以估 計試題的斜率參數、試題步驟難度參數與受試者能力值,並估算參數估計誤差。. 26.

(35) 第四章 研究結果 本研究採用試題反應理論中 GPCM 模式,設定模擬資料。模擬六元計分情 況下,各試題數為 10 題、30 題、60 題的情況下,而受試者樣本數為 500、1000、. 3000 人,能力值分佈為常態、偏態、雙峰三種情況下,以 PARSCLAE 及自行開 發之 KS-GPCM 程式進行參數估計,KS-GPCM 程式又分為 λ = 0, 0.5, 1 三種情況進 行討論。本研究以 RMSE 做為參數估計誤差,依此來評斷 PARSCALE 及 KS-GPCM 參數估計的效果。 本章分為二節,第一節為參數估計誤差結果,第二節為 PARSCLAE 及. KS-GPCM( λ = 0, 0.5, 1 )之實驗結果比較。分別敘述如下:. 27.

(36) 第一節 參數估計誤差結果 模擬六元計分試題數為 10 題、30 題、60 題的情況下,而受試者樣本數為 500、. 1000、3000 人,能力值分佈為常態、偏態、雙峰三種情況下,以 PARSCALE 及 自行開發之 KS-GPCM( λ = 0, 0.5, 1 )程式進行參數估計,並計算參數估計之誤 差。. 壹、 能力值為常態分佈 表 4-1 到 表 4-4 為 能 力 值 成 常 態 分 布 時 , 以 PARSCALE 、 KS-GPCM ( λ = 0, 0.5, 1 )進行能力及試題參數估計之誤差。 當能力值為常態分布下,估計能力參數(試題數 60 題)以 KS-GPCM 的估 計誤差皆較 PARSCALE 小;估計能力參數(試題數 10、30 題)以 PARSCALE 的估計誤差最小。所以當試題數越多時,越建議使用本研究開發之 KS-GPCM 來 進行能力參數估計。 當能力值為常態分布下,估計斜率參數大部分皆以 PARSCALE 的估計誤差 較小,但在人數 3000 人,題數為 30、60 題的情況下,以 KS-GPCM( λ = 0 )的 估計誤差最小,但在人數 1000 人,題數為 60 題的情況下,以 KS-GPCM( λ = 0.5 ) 的估計誤差最小。 當能力值為常態分布下,估計試題步驟難度(試題 60 題)以 KS-GPCM 的 估計誤差大部分較 PARSCALE 小;估計試題步驟難度(試題 10、30 題)大部分 以 PARSCALE 的估計誤差較小。所以當試題數越多時,越建議使用本研究開發 之 KS-GPCM 來進行試題步驟難度參數估計。 整體而言,能力值為常態分布,題數越多,越建議使用 KS-GPCM 來進行參 數估計,得到良好的估計效果。 當能力值為常態分布下,使用 KS-GPCM、PARSCALE 進行參數估計,在能 力值參數估計上,當題數越多則能力值的參數估計誤差越小;在試題步驟難度參. 28.

(37) 數估計上,當題數越多則試題步驟難度參數的估計誤差則越小。. 表 4-1 能力值為常態分布時,PARSCALE 之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1082 0.0017 0.1084 0.0031 0.1098 0.0047 Theta 0.1514 0.0023 0.1516 0.0038 0.1518 0.0044 Theta 0.2607 0.0034 0.2597 0.0068 0.2609 0.0093. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0469 0.0056 0.0811 0.01 0.1176 0.0146. 0.0188 0.0031 0.0321 0.0059 0.0471 0.0098. 0.0187 0.0032 0.0322 0.0056 0.0446 0.006. 0.0197 0.0036 0.0328 0.0062 0.0448 0.0073. 0.0217 0.0054 0.0337 0.0059 0.0487 0.0118. 0.0228 0.006 0.0342 0.0081 0.0489 0.0109. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0474 0.0084 0.0825 0.013 0.116 0.0199. 0.0187 0.0033 0.0327 0.0064 0.0457 0.0084. 0.0202 0.0045 0.0328 0.0074 0.045 0.0066. 0.0203 0.0045 0.0324 0.0062 0.0458 0.0079. 0.0224 0.0058 0.0333 0.006 0.0462 0.0085. 0.0226 0.0069 0.0353 0.0093 0.0471 0.0101. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0548 0.0159 0.0898 0.0239 0.1276 0.0341. 0.0228 0.0072 0.0368 0.0114 0.0514 0.0165. 0.0226 0.0063 0.0347 0.0125 0.0511 0.0158. 0.022 0.0058 0.036 0.0123 0.0523 0.0174. 0.0249 0.0087 0.0404 0.0143 0.0555 0.0201. 0.0276 0.0121 0.0455 0.0188 0.0638 0.0272. 29.

(38) 表 4-2 能力值為常態分布時,KS-GPCM( λ = 0 )之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1078 0.0016 0.1075 0.003 0.1081 0.004 Theta 0.1521 0.0023 0.1518 0.0038 0.152 0.0045 Theta 0.2626 0.0034 0.2617 0.0069 0.263 0.0094. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0461 0.0109 0.0871 0.0426 0.1212 0.0347. 0.019 0.0041 0.031 0.0051 0.0443 0.0065. 0.0181 0.0027 0.0297 0.0035 0.0426 0.0049. 0.0176 0.0023 0.03 0.0036 0.0427 0.0052. 0.0179 0.0025 0.0301 0.0033 0.0433 0.006. 0.0194 0.004 0.0309 0.0048 0.0442 0.0074. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0468 0.0088 0.0847 0.0357 0.1242 0.041. 0.0192 0.0034 0.033 0.0064 0.047 0.0087. 0.0193 0.0037 0.0328 0.0063 0.0448 0.0062. 0.0186 0.003 0.0316 0.0056 0.0461 0.0073. 0.0193 0.0034 0.0325 0.0062 0.045 0.0077. 0.021 0.0051 0.0338 0.008 0.0479 0.0106. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0727 0.0177 0.0954 0.0246 0.1278 0.0286. 0.0295 0.0089 0.0413 0.0129 0.0586 0.0201. 0.0274 0.0072 0.039 0.0124 0.0551 0.0172. 0.0277 0.0064 0.0412 0.0126 0.0573 0.0183. 0.0374 0.0131 0.0474 0.017 0.0639 0.0209. 0.0464 0.0172 0.0608 0.0266 0.0765 0.0379. 30.

(39) 表 4-3 能力值為常態分布時,KS-GPCM( λ = 0.5 )之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1078 0.0017 0.1075 0.003 0.1083 0.0041 Theta 0.1519 0.0023 0.1517 0.0038 0.1522 0.0045 Theta 0.2626 0.0033 0.2618 0.0068 0.2634 0.0092. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0484 0.0264 0.0807 0.0145 0.1183 0.0287. 0.019 0.0052 0.0309 0.0047 0.0449 0.0074. 0.0182 0.0028 0.0299 0.0034 0.0424 0.0048. 0.0176 0.0023 0.03 0.0036 0.0427 0.0051. 0.0179 0.0028 0.0303 0.0036 0.0432 0.0055. 0.0199 0.0055 0.031 0.0046 0.0449 0.0064. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.048 0.0153 0.0834 0.0207 0.1178 0.039. 0.0195 0.0049 0.0337 0.0066 0.0467 0.0085. 0.0196 0.0037 0.0329 0.0064 0.0448 0.0066. 0.0187 0.003 0.0316 0.0056 0.0459 0.0073. 0.0194 0.0036 0.0331 0.0066 0.0451 0.0083. 0.0217 0.0061 0.0342 0.0078 0.0481 0.0109. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0747 0.018 0.0966 0.0249 0.1287 0.0285. 0.0358 0.0118 0.0467 0.0165 0.0657 0.0241. 0.0289 0.0075 0.0405 0.0128 0.0561 0.0186. 0.0286 0.0064 0.042 0.0127 0.058 0.0186. 0.0436 0.0148 0.0521 0.0195 0.0683 0.0233. 0.0557 0.0194 0.0699 0.0306 0.085 0.0421. 31.

(40) 表 4-4 能力值為常態分布時,KS-GPCM( λ = 1 )之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1075 0.0016 0.1074 0.003 0.1084 0.0043 Theta 0.1519 0.0022 0.1518 0.0038 0.1525 0.0046 Theta 0.2695 0.0032 0.2658 0.0066 0.2661 0.0089. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0464 0.0097 0.0885 0.0395 0.1183 0.0307. 0.0183 0.0027 0.0315 0.0055 0.0448 0.0068. 0.0179 0.0023 0.0298 0.0035 0.0425 0.0051. 0.0176 0.0023 0.03 0.0036 0.0428 0.0052. 0.0179 0.0026 0.0307 0.0038 0.0434 0.0059. 0.0192 0.0037 0.0316 0.0059 0.0442 0.0065. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0478 0.0087 0.0845 0.0246 0.1183 0.0343. 0.0199 0.0039 0.0334 0.0067 0.0475 0.01. 0.0196 0.0038 0.0329 0.0063 0.0449 0.0063. 0.0189 0.0032 0.0317 0.0057 0.046 0.0072. 0.0197 0.0037 0.033 0.0068 0.045 0.0078. 0.0215 0.0053 0.0339 0.0076 0.0492 0.0128. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0934 0.0184 0.1037 0.0257 0.1324 0.0319. 0.0511 0.0138 0.0594 0.0202 0.0792 0.028. 0.0379 0.0093 0.0463 0.014 0.0597 0.0214. 0.0338 0.0065 0.0449 0.0129 0.06 0.0189. 0.0592 0.0164 0.0622 0.023 0.0762 0.0272. 0.0782 0.0216 0.0886 0.0355 0.1003 0.0476. 32.

(41) 貳、能力值為雙峰分佈 表 4-5 到 表 4-8 為 能 力 值 成 雙 峰 分 布 時 , 以 PARSCALE 、 KS-GPCM ( λ = 0, 0.5, 1 )進行能力及試題參數估計之誤差。 當能力值為雙峰分布時,估計能力參數以 KS-GPCM 的估計誤差皆較. PARSCALE 小,而其中估計誤差依序由低到高分別為 λ = 1 、 λ = 0.5 、 λ = 0 。所 以建議使用本研究開發之 KS-GPCM( λ = 1 )來進行能力參數估計。 當能力值為雙峰分布時,估計斜率參數大部分以 KS-GPCM( λ = 1 )的估計 誤差最小,唯有在人數 3000 人,題數為 10、30 題的情況下,以 KS-GPCM( λ = 0.5 ) 的估計誤差最小。所以建議使用本研究開發之 KS-GPCM( λ = 1 )來進行斜率參 數估計。 當能力值為雙峰分布時,估計試題步驟難度大部分以 KS-GPCM( λ = 0.5 ) 的估計誤差較小。所以建議使用本研究開發之 KS-GPCM( λ = 0.5 )來進行斜率 參數估計。 整體而言,當能力值為雙峰分布時,建議使用 KS-GPCM ( λ = 1 )或者. KS-GPCM( λ = 0.5 )來進行參數估計,會得到較良好的估計效果。 當能力值為雙峰分布下,使用 KS-GPCM、PARSCALE 進行參數估計,在能 力值參數估計上,當題數越多則能力值的參數估計誤差越小;在試題步驟難度參 數估計上,當題數越多則試題步驟難度參數的估計誤差則越小。. 33.

(42) 表 4-5 能力值為雙峰分布時,PARSCALE 之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1057 0.0016 0.1056 0.0023 0.1067 0.0037 Theta 0.1496 0.0022 0.1495 0.0037 0.1492 0.0045 Theta 0.2559 0.0035 0.2566 0.0058 0.2561 0.0083. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.048 0.0056 0.0802 0.0093 0.1177 0.0149. 0.0216 0.0052 0.0332 0.0071 0.0464 0.0098. 0.0207 0.004 0.0315 0.0049 0.0448 0.007. 0.0192 0.0026 0.0316 0.0045 0.0453 0.0068. 0.0228 0.0055 0.035 0.0073 0.0497 0.0099. 0.0229 0.0055 0.0342 0.0064 0.0484 0.0103. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0492 0.02 0.019 0.0214 0.0297 0.0079 0.004 0.0033 0.0051 0.0067 0.0824 0.0335 0.0326 0.0342 0.0391 0.0108 0.007 0.0053 0.0071 0.0095 0.1168 0.0452 0.0447 0.0462 0.0507 0.0178 0.0081 0.0079 0.0084 0.0105. 0.0238 0.0057 0.0361 0.0095 0.0484 0.0116. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0626 0.0158 0.0947 0.0272 0.1328 0.0383. 0.0438 0.0134 0.0532 0.0184 0.0647 0.021. 0.0296 0.0087 0.0406 0.0151 0.054 0.0142. 0.035 0.0102 0.0445 0.0155 0.0567 0.0182. 0.0486 0.0128 0.0605 0.0222 0.0692 0.0239. 0.0296 0.0113 0.0445 0.0184 0.0602 0.02. 34.

(43) 表 4-6 能力值為雙峰分布時,KS-GPCM( λ = 0 )之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1055 0.0015 0.1049 0.0022 0.1055 0.0034 Theta 0.1499 0.0022 0.1498 0.0037 0.1496 0.0045 Theta 0.2565 0.0035 0.2576 0.0059 0.2572 0.0084. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0476 0.0124 0.078 0.0094 0.1187 0.0341. 0.0188 0.0032 0.0306 0.0039 0.0441 0.0059. 0.0194 0.0036 0.031 0.0042 0.0436 0.0052. 0.0177 0.0022 0.0302 0.004 0.0429 0.0049. 0.0193 0.0033 0.031 0.0042 0.044 0.0056. 0.0187 0.0032 0.0304 0.0037 0.0439 0.0059. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0476 0.009 0.0793 0.0122 0.1191 0.035. 0.0207 0.0045 0.0339 0.0074 0.0455 0.0083. 0.0212 0.0048 0.0346 0.0064 0.046 0.0094. 0.018 0.0035 0.0321 0.0062 0.0454 0.0078. 0.0202 0.0045 0.0332 0.0066 0.047 0.0094. 0.0189 0.0037 0.0336 0.0073 0.0468 0.0097. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0575 0.0169 0.0899 0.0209 0.1201 0.0341. 0.0283 0.0112 0.0415 0.0152 0.057 0.0175. 0.0287 0.0102 0.0406 0.016 0.0542 0.0147. 0.0262 0.0095 0.0393 0.0146 0.0544 0.0165. 0.023 0.0087 0.0415 0.0141 0.0552 0.0165. 0.0415 0.0174 0.0547 0.0225 0.0703 0.0295. 35.

(44) 表 4-7 能力值為雙峰分布時,KS-GPCM( λ = 0.5 )之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1047 0.0015 0.1043 0.0022 0.1049 0.0033 Theta 0.1475 0.0022 0.1478 0.0037 0.1479 0.0045 Theta 0.2488 0.0035 0.2506 0.0058 0.2513 0.0082. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0471 0.0135 0.0781 0.0114 0.1188 0.0318. 0.0189 0.0036 0.0308 0.0043 0.044 0.0063. 0.0186 0.0031 0.0305 0.0038 0.0434 0.0054. 0.0177 0.0023 0.0302 0.004 0.0429 0.0049. 0.0185 0.0028 0.0305 0.004 0.0434 0.0052. 0.0185 0.0028 0.0305 0.004 0.0446 0.0061. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.047 0.0071 0.0795 0.0121 0.1153 0.0179. 0.0185 0.004 0.0335 0.0069 0.0458 0.0085. 0.0188 0.0035 0.0327 0.0057 0.0449 0.0079. 0.0179 0.0034 0.0323 0.0064 0.0455 0.0079. 0.0182 0.0032 0.0322 0.0055 0.046 0.0097. 0.0202 0.0048 0.0355 0.0081 0.0478 0.0099. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0575 0.0165 0.0915 0.0252 0.1224 0.0372. 0.0233 0.0074 0.0365 0.0117 0.053 0.0176. 0.0234 0.0072 0.0375 0.0139 0.0537 0.0168. 0.024 0.0081 0.0385 0.0145 0.0544 0.0163. 0.024 0.0087 0.0396 0.0129 0.0538 0.0164. 0.0542 0.0194 0.0683 0.0282 0.0847 0.0377. 36.

(45) 表 4-8 能力值為雙峰分布時,KS-GPCM( λ = 1 )之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1037 0.0015 0.1036 0.0022 0.1043 0.0033 Theta 0.1452 0.0021 0.1462 0.0036 0.1465 0.0044 Theta 0.2419 0.0034 0.2441 0.0057 0.2461 0.0079. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0455 0.0062 0.0768 0.0085 0.1112 0.015. 0.0188 0.0028 0.0309 0.0042 0.0446 0.0073. 0.0179 0.0025 0.0302 0.0036 0.0431 0.0058. 0.0178 0.0023 0.0302 0.0039 0.0429 0.0049. 0.0178 0.0022 0.0302 0.0037 0.0435 0.0054. 0.0184 0.0026 0.0309 0.004 0.0456 0.0072. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0474 0.0072 0.0786 0.011 0.1132 0.0172. 0.0219 0.0062 0.0356 0.0079 0.0489 0.0107. 0.0183 0.003 0.0322 0.0055 0.0448 0.0075. 0.0182 0.0034 0.0324 0.0065 0.0458 0.008. 0.019 0.0038 0.0326 0.0059 0.0461 0.0099. 0.0241 0.0065 0.0378 0.0096 0.0499 0.0108. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0624 0.0144 0.0868 0.017 0.1138 0.0293. 0.0426 0.0127 0.0528 0.0167 0.0654 0.0264. 0.0273 0.0086 0.0406 0.0142 0.0573 0.0232. 0.0252 0.0075 0.0398 0.0144 0.055 0.0164. 0.0396 0.0114 0.0461 0.0171 0.0586 0.0219. 0.0695 0.0196 0.0851 0.0314 0.1028 0.0447. 37.

(46) 參、能力值為偏態分布 表 4-9 到表 4-12 為能力值成偏態分布時,以 PARSCALE 、 KS-GPCM ( λ = 0, 0.5, 1 )進行能力及試題參數估計之誤差。 當能力值為偏態分布時,估計能力參數以 KS-GPCM 的估計誤差皆較. PARSCALE 小,而其中估計誤差依序由低到高分別為 λ = 1、 λ = 0.5 、 λ = 0 。所 以建議使用本研究開發之 KS-GPCM( λ = 1 )來進行能力參數估計。 當能力值為偏態分布時,當測驗長度為 60 題時,在 3000 人以 KS-GPCM ( λ = 1 )的估計誤差最小,而在 1000、500 人皆以 PARSCALE 的估計誤差最小。 當測驗長度為 30 題時,以 KS-GPCM( λ = 1 )的斜率參數估計誤差最小。當測驗 長度為 10 題時,以 PARSCALE 的斜率參數估計誤差最小。以 PARSCALE 的斜 率參數估計誤差最小,所以在估計斜率參數並無明顯的估計一致性。 當能力值為偏態分布時,估計試題步驟難度以 KS-GPCM 的估計誤差大部分 較 PARSCALE 小。所以本研究建議使用本研究開發之 KS-GPCM 來進行試題步 驟難度參數估計。 整體而言,當能力值為偏態分布時,建議使用 KS-GPCM( λ = 1 )來進行參 數估計,會得到較良好的估計效果。 當能力值為雙峰分布下,使用 KS-GPCM、PARSCALE 進行參數估計,在能 力值參數估計上,當題數越多則能力值的參數估計誤差越小;在試題步驟難度參 數估計上,當題數越多則試題步驟難度參數的估計誤差則越小。. 38.

(47) 表 4-9 能力值為偏態分布時,PARSCALE 之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1092 0.0019 0.1088 0.0028 0.1103 0.0049 Theta 0.1523 0.0023 0.1522 0.0033 0.1529 0.0048 Theta 0.2611 0.0035 0.2607 0.0059 0.2612 0.0092. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0468 0.0059 0.0813 0.0094 0.1134 0.0146. 0.0341 0.0083 0.0408 0.009 0.0547 0.0132. 0.0264 0.0065 0.036 0.0075 0.0493 0.0113. 0.0226 0.0051 0.0337 0.0066 0.0465 0.0088. 0.0215 0.0051 0.0331 0.0059 0.0465 0.0092. 0.026 0.0068 0.0355 0.0082 0.048 0.0124. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0469 0.0072 0.0803 0.0119 0.1151 0.0199. 0.0257 0.0066 0.0351 0.0086 0.0503 0.0104. 0.0185 0.0029 0.0315 0.0061 0.0451 0.0097. 0.0189 0.0039 0.0319 0.0053 0.0445 0.0091. 0.0184 0.0037 0.0318 0.0055 0.0447 0.0091. 0.0234 0.0062 0.0346 0.0085 0.0494 0.0116. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.05 0.0145 0.0867 0.0227 0.1232 0.0357. 0.0266 0.0105 0.0382 0.0137 0.0534 0.0173. 0.0298 0.0101 0.0394 0.0146 0.0556 0.0198. 0.0345 0.0113 0.0465 0.0185 0.0545 0.0183. 0.0222 0.0075 0.0398 0.0142 0.0518 0.0181. 0.0497 0.0206 0.063 0.0305 0.0765 0.0345. 39.

(48) 表 4-10 能力值為偏態分布時,KS-GPCM( λ = 0 )之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1075 0.0015 0.1072 0.0024 0.1071 0.004 Theta 0.1525 0.0023 0.1524 0.0034 0.1531 0.0048 Theta 0.2625 0.0036 0.2623 0.006 0.263 0.0094. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0464 0.0075 0.091 0.0482 0.1258 0.049. 0.0215 0.0047 0.0318 0.005 0.0438 0.0063. 0.0179 0.0024 0.0308 0.0039 0.0428 0.006. 0.0183 0.0028 0.0307 0.0035 0.0431 0.0057. 0.0189 0.0029 0.0311 0.0046 0.0419 0.0054. 0.0184 0.0029 0.0322 0.005 0.0433 0.0062. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0476 0.0089 0.0796 0.0143 0.1224 0.0523. 0.0222 0.0059 0.0336 0.0077 0.0485 0.0095. 0.0186 0.0034 0.0319 0.0061 0.0461 0.0099. 0.0203 0.0044 0.0332 0.006 0.0455 0.0102. 0.0191 0.004 0.0324 0.0058 0.045 0.0087. 0.0235 0.0075 0.034 0.0078 0.0489 0.0115. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0783 0.0179 0.0961 0.0259 0.1325 0.0383. 0.0285 0.0067 0.0409 0.0134 0.055 0.0164. 0.0374 0.0099 0.0454 0.015 0.0606 0.02. 0.036 0.0093 0.0481 0.0169 0.0562 0.0181. 0.0363 0.0115 0.0476 0.0177 0.0602 0.0197. 0.094 0.0232 0.1013 0.0371 0.1075 0.0457. 40.

(49) 表 4-11 能力值為偏態分布,KS-GPCM( λ = 0.5 )之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1064 0.0015 0.1064 0.0024 0.1066 0.004 Theta 0.1503 0.0022 0.1507 0.0032 0.1517 0.0047 Theta 0.2589 0.0035 0.2587 0.006 0.2597 0.0091. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0473 0.0131 0.0814 0.0244 0.1224 0.0458. 0.0197 0.0045 0.0313 0.0045 0.044 0.0066. 0.0179 0.0027 0.0308 0.0038 0.0429 0.0058. 0.018 0.0025 0.0305 0.0034 0.043 0.0056. 0.0182 0.0024 0.0307 0.004 0.0421 0.0056. 0.0187 0.0038 0.0328 0.0054 0.044 0.0071. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0468 0.0085 0.0791 0.0129 0.117 0.039. 0.0205 0.0046 0.0331 0.0071 0.0473 0.0088. 0.0185 0.003 0.0317 0.0058 0.046 0.0099. 0.0189 0.0037 0.0321 0.0055 0.045 0.0097. 0.0186 0.0037 0.0319 0.0055 0.0449 0.0093. 0.0228 0.0072 0.0341 0.0079 0.0488 0.0107. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0761 0.0178 0.0946 0.0257 0.1299 0.0368. 0.0352 0.0102 0.0479 0.0175 0.0588 0.0208. 0.0362 0.0095 0.0456 0.0152 0.0612 0.0206. 0.031 0.0076 0.0449 0.0151 0.0542 0.0168. 0.0427 0.0134 0.0524 0.0207 0.065 0.0227. 0.0922 0.0233 0.1044 0.0379 0.1132 0.0476. 41.

(50) 表 4-12 能力值為偏態分布時,KS-GPCM( λ = 1 )之參數估計誤差. 60 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 30 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std 10 items RMSE 3000 人 RMSE_std RMSE 1000 人 RMSE_std RMSE 500 人 RMSE_std. Theta 0.1055 0.0014 0.1057 0.0023 0.106 0.004 Theta 0.1484 0.0021 0.1492 0.0031 0.1507 0.0046 Theta 0.2596 0.0035 0.2578 0.0061 0.2584 0.009. a. 0.0458 0.0064 0.0883 0.0422 0.117 0.0328. bd1. bd 2. bd 3. bd 4. bd 5. 0.0188 0.018 0.0178 0.0179 0.0187 0.0031 0.0026 0.0023 0.0024 0.0031 0.0313 0.0309 0.0305 0.0305 0.0324 0.0046 0.004 0.0033 0.0039 0.0055 0.0439 0.043 0.0427 0.0422 0.0436 0.0067 0.0061 0.0055 0.0056 0.0069. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.0467 0.0078 0.0771 0.0089 0.1103 0.0164. 0.0197 0.005 0.0339 0.0069 0.0464 0.0098. 0.0186 0.0029 0.0316 0.0058 0.0459 0.0098. 0.0185 0.0034 0.0319 0.0053 0.0444 0.009. 0.0187 0.0033 0.0324 0.0059 0.0444 0.009. 0.0227 0.0065 0.0347 0.008 0.0487 0.0107. a. bd1. bd 2. bd 3. bd 4. bd 5. 0.085 0.0159 0.098 0.0261 0.1306 0.0367. 0.0513 0.013 0.0647 0.0223 0.0719 0.0277. 0.0374 0.009 0.0473 0.0157 0.0631 0.0217. 0.0313 0.0068 0.0442 0.0132 0.0536 0.0155. 0.0535 0.0139 0.0607 0.0237 0.0718 0.0262. 0.0859 0.0232 0.1058 0.0387 0.1176 0.05. 42.

(51) 表 4-13 至表 4-15 為各變項對於能力參數、斜率參數、試題步驟難度參數估 計精準度的影響,在表中列出在各變項間估計誤差最小的估計方法。. 表 4-13 各變項對於能力參數估計精準度的影響 能力參數估計精準度. 60 題 常態分布. 30 題 10 題. 60 題 雙峰分布. 30 題 10 題. 60 題 偏態分布. 30 題 10 題. 3000 人. 1000 人. 500 人. KS-GPCM ( λ = 1) KS-GPCM ( λ = 1). KS-GPCM ( λ = 1). KS-GPCM (λ = 0). PARSCALE. PARSCALE. PARSCALE. PARSCALE. PARSCALE. 3000 人. 1000 人. 500 人. KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) KS-GPCM ( λ = 1). KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) KS-GPCM ( λ = 1). KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) KS-GPCM ( λ = 1). 3000 人. 1000 人. 500 人. KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) KS-GPCM ( λ = 0 .5 ). KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) KS-GPCM ( λ = 1). KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) KS-GPCM ( λ = 1). 43.

(52) 表 4-14 各變項對於斜率參數估計精準度的影響 斜率參數估計精準度. 60 題 常態分布. 30 題 10 題. 60 題 雙峰分布. 30 題 10 題. 60 題 偏態分布. 30 題 10 題. 3000 人. 1000 人. 500 人. KS-GPCM (λ = 0) KS-GPCM (λ = 0). KS-GPCM ( λ = 0.5 ). PARSCALE. PARSCALE. PARSCALE. PARSCALE. PARSCALE. PARSCALE. 3000 人. 1000 人. 500 人. KS-GPCM ( λ = 1) KS-GPCM ( λ = 0.5 ) KS-GPCM ( λ = 0.5 ). KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) KS-GPCM ( λ = 1). KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) KS-GPCM ( λ = 1). 3000 人. 1000 人. 500 人. PARSCALE. PARSCALE. KS-GPCM ( λ = 1). KS-GPCM ( λ = 1). PARSCALE. PARSCALE. KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) PARSCALE. 44.

(53) 表 4-15 各變項對於試題步驟難度參數估計精準度的影響 試題步驟難度參數估計精準度. 3000 人. 1000 人. 500 人. 60 題. KS-GPCM ( λ = 1). KS-GPCM ( λ = 0.5 ). KS-GPCM ( λ = 0.5 ). 30 題. PARSCALE. PARSCALE. PARSCALE. 10 題. PARSCALE. PARSCALE. PARSCALE. 3000 人. 1000 人. 500 人. KS-GPCM ( λ = 0 .5 ) KS-GPCM ( λ = 0.5 ) KS-GPCM ( λ = 0.5 ). KS-GPCM ( λ = 0.5 ) KS-GPCM ( λ = 0.5 ) KS-GPCM ( λ = 0.5 ). KS-GPCM ( λ = 0.5 ) KS-GPCM ( λ = 0.5 ) KS-GPCM ( λ = 0.5 ). 3000 人. 1000 人. 500 人. KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) KS-GPCM ( λ = 0 .5 ). KS-GPCM ( λ = 1) KS-GPCM ( λ = 1) KS-GPCM ( λ = 1). KS-GPCM ( λ = 0.5 ) KS-GPCM ( λ = 0.5 ) KS-GPCM ( λ = 0.5 ). 常態分布. 60 題 雙峰分布. 30 題 10 題. 60 題 偏態分布. 30 題 10 題. 45.

(54) 第二節 實驗結果比較 本節就研究結果,分別就六元計分下,能力為常態、雙峰及偏態分布,而測 驗長度為 10、30 及 60 題時,PARSCALE 及 KS-GPCM( λ = 0,0.5,1)之能力參 數估計誤差進行比較。. 壹、能力值為常態分佈 圖 4-1 至圖 4-3 是能力值為常態分布,測驗長度為 60、30、10 題的能力參數 估計誤差。 由圖 4-1 至圖 4-3 可知,能力值為常態分布下,當測驗長度為 60 題時,能力 參數估計誤差在 3000、1000 人以 KS-GPCM( λ = 1 )的估計誤差最小,而在 500 人以 KS-GPCM( λ = 0 )的估計誤差最小。當測驗長度為 30 題時,能力參數估 計誤差在 3000 人以 KS-GPCM( λ = 1 )的估計誤差最小,而在 1000 人、500 人 以 PARSCALE 的估計誤差最小。當測驗長度為 10 題時,能力參數估計誤差在. 3000、1000、500 人皆以 PARSCALE 的估計誤差最小。 圖 4-4 至圖 4-6 是能力值為常態分布,測驗長度為 60、30、10 題的斜率參數 估計誤差。 由圖 4-4 至圖 4-6 可知,能力值為常態分布下,當測驗長度為 60 題時,斜率 參數估計誤差在 3000 人以 KS-GPCM( λ = 0 )的估計誤差最小,在 1000 人以. KS-GPCM( λ = 0.5 )的估計誤差最小,在 500 人以 PARSCALE 的估計誤差最小。 當測驗長度為 30 題時,斜率參數估計誤差在 3000 人以 KS-GPCM( λ = 0 )的估 計誤差最小,在 1000 人、500 人以 PARSCALE 的估計誤差最小。當測驗長度為. 10 題時,斜率參數估計誤差在 3000、1000、500 人皆以 PARSCALE 的估計誤差 最小。. 46.

(55) 能力參數估計誤差 (常態分布 60題). 0.11 KS-GPCM(λ=1). RMSE. 0.109. KS-GPCM(λ=0.5). 0.108. KS-GPCM(λ=0). 0.107. PARSCALE. 0.106 3000. 1000. 500. 受試者人數. 圖 4-1 能力值為常態分布、測驗長度 60 題之能力參數估計誤差. 能力參數估計誤差 (常態分布 30題). 0.153 KS-GPCM(λ=1). RMSE. 0.1525. KS-GPCM(λ=0.5). 0.152. KS-GPCM(λ=0). 0.1515. PARSCALE. 0.151 3000. 1000. 500. 受試者人數. 圖 4-2 能力值為常態分布、測驗長度 30 題之能力參數估計誤差. 47.

(56) 能力參數估計誤差 (常態分布 10題). 0.275 RMSE. 0.27. KS-GPCM(λ=1). 0.265. KS-GPCM(λ=0.5) KS-GPCM(λ=0). 0.26. PARSCALE. 0.255 0.25 3000. 1000. 500. 受試者人數. 圖 4-3 能力值為常態分布、測驗長度 10 題之能力參數估計誤差. 斜率參數估計誤差 (常態分布 60題). RMSE. 0.15 KS-GPCM(λ=1). 0.1. KS-GPCM(λ=0.5) KS-GPCM(λ=0). 0.05. PARSCALE. 0 3000. 1000. 500. 受試者人數. 圖 4-4 能力值為常態分布、測驗長度 60 題之斜率參數估計誤差. 48.

(57) 斜率參數估計誤差 (常態分布 30題). RMSE. 0.15 KS-GPCM(λ=1). 0.1. KS-GPCM(λ=0.5) KS-GPCM(λ=0). 0.05. PARSCALE. 0 3000. 1000. 500. 受試者人數. 圖 4-5 能力值為常態分布、測驗長度 30 題之斜率參數估計誤差. 斜率參數估計誤差 (常態分布 10題). RMSE. 0.15 KS-GPCM(λ=1). 0.1. KS-GPCM(λ=0.5) KS-GPCM(λ=0). 0.05. PARSCALE. 0 3000. 1000. 500. 受試者人數. 圖 4-6 能力值為常態分布、測驗長度 10 題之斜率參數估計誤差. 49.

(58) 貳、能力值為雙峰分布 圖 4-7 至圖 4-9 是能力值為雙峰分布,測驗長度為 60、30、10 題的能力參數 估計誤差。 由圖 4-7 至圖 4-9 可知,能力值為雙峰分布下,當測驗長度為 60 題時,能力 參數估計誤差在 3000、1000、500 人以 KS-GPCM( λ = 1 )的估計誤差最小。當 ( λ = 1) 測驗長度為 30 題時,能力參數估計誤差在 3000、1000、500 人以 KS-GPCM 的估計誤差最小。當測驗長度為 10 題時,能力參數估計誤差在 3000、1000、500 人以 KS-GPCM( λ = 1 )的估計誤差最小。 圖 4-10 至圖 4-12 是能力值為雙峰分布,測驗長度為 60、30、10 題的斜率參 數估計誤差。 由圖 4-10 至圖 4-12 可知,能力值為雙峰分布下,當測驗長度為 60 題時,斜 率參數估計誤差在 3000、1000、500 人以 KS-GPCM( λ = 1 )的估計誤差最小。 當測驗長度為 30 題時,斜率參數估計誤差在 3000 人以 KS-GPCM( λ = 0.5 )的 估計誤差最小,在 1000、500 人以 KS-GPCM( λ = 1 )的估計誤差最小。當測驗 長度為 10 題時,斜率參數估計誤差在 3000 人以 KS-GPCM( λ = 0.5 )的估計誤 差最小,在 1000、500 人以 KS-GPCM( λ = 1 )的估計誤差最小。. 50.

(59) RMSE. 能力參數估計誤差 (雙峰分布 60題). 0.107 0.106 0.105 0.104 0.103 0.102 0.101. KS-GPCM(λ=1) KS-GPCM(λ=0.5) KS-GPCM(λ=0) PARSCALE 3000. 1000. 500. 受試者人數. 圖 4-7 能力值為雙峰分布、測驗長度 60 題之能力參數估計誤差. 能力參數估計誤差 (雙峰分布 30題). 0.152 RMSE. 0.15. KS-GPCM(λ=1). 0.148. KS-GPCM(λ=0.5). 0.146. KS-GPCM(λ=0). 0.144. PARSCALE. 0.142 3000. 1000. 500. 受試者人數. 圖 4-8 能力值為雙峰分布、測驗長度 30 題之能力參數估計誤差. 51.

參考文獻

相關文件

For a polytomous item measuring the first-order latent trait, the item response function can be the generalized partial credit model (Muraki, 1992), the partial credit model

Specifically, in Section 3, we present a smoothing function of the generalized FB function, and studied some of its favorable properties, including the Jacobian consistency property;

Specifically, in Section 3, we present a smoothing function of the generalized FB function, and studied some of its favorable properties, including the Jacobian consis- tency

Gu, Smoothing Newton algorithm based on a regularized one-parametric class of smoothing functions for generalized complementarity problems over symmetric cones, Journal of

In the past researches, all kinds of the clustering algorithms are proposed for dealing with high dimensional data in large data sets.. Nevertheless, almost all of

張庭瑄 華夏技術學院 數位媒體設計系 廖怡安 華夏技術學院 化妝品應用系 胡智發 華夏技術學院 資訊工程系 李志明 華夏技術學院 電子工程系 李柏叡 德霖技術學院

• 訓練課程之設計格式,請參用 本分署規範之課程申請相關表件-學、術科

由於本計畫之主要目的在於依據 ITeS 傳遞模式建構 IPTV 之服務品質評估量表,並藉由決