參數型估計方法估計成效之比較

第四章研究結果

第一節參數型估計方法估計成效之比較

de la Torre 與 Song (2009) 所提出的單因子階層試題反應理論模式，並非基於完整貝氏模型(fully Bayesian model)進行推導，本論文應用 MH-within-Gibbs sampling 針對 HIRT 模式的參數進行估計 (謝典佑、曾彥鈞、廖晨惠、郭伯臣, 2009) ，輔以完整貝氏模型進行推導，參數設計與推導過程基於圖 3-1 的 HO-IRT 模式架構進行說明：

圖 3-1 單因子 HIRT 模式

其中圖 3-1 各參數的說明如下：

H ：高層次的量尺分數變數；1 L ：領域量尺分數變數，其中_s s=1 , ,S；λ ：₁_s X₁₁

X21

X_S1

L₁

λ 11

λ12

λ 1

b11

b₂₁

b_S1

2 H1

σ µ b

σb

X2 j1

b2 L2

Sjs S X

bSj

H 對應到1 L 的迴歸參數，且其代表_s H 和₁ L 的概念關係。假設為正向關係，使得_s

1 inv Gamma

H −

18 配（posterior probability distribution）為：

) 的能力L ，在後驗機率分布的架構下，套用 MH-within-Gibbs sampling 進行參數_is 估計。依據 Patz 與 Junker (1997, 1999) 的建議：

（1）進行抽樣估計的所有參數區塊化(blocking)，分別進行 MH sampling。

（2）各區塊中各參數的 MH sampling 轉置核採用該參數的先驗機率分布。

態；反之[ ⁽ ⁾, ²⁽⁾]

經上述 MH-within-Gibbs sampling 最終收斂後，可獲得所有參數估計值。

第二節無參數型估計方法

由比較UIRT模式與MIRT模式的估計結果，探究誤用模式對於參數估計會產生怎麼樣的影響 (Kuo, B. C., Hsieh, T. Y., Wu, H. M., & Lin, C. H., 2009) 。

（一）估計方法

本實驗採用 ConQuest (Wu 等, 1998) 進行參數估計的時候，為了使模式得以辨證，因此將受試者的母體之平均數設定為 0；變異數與共變異數矩陣則透過給定試題的 scoring matrix 而得以進行估計 (Reckase, 2009) 。因此，為了使各參數估計方法得以相互進行比較，在非 ConQuest 的參數估計過程亦一律將母體平均數設定為 0。總而言之，各參數估計的名稱以及其縮寫如表 3-1 所示：

表 3-1 估計方法

縮寫 MCMC 參數估計法備註

Gibbs Gibbs sampling 基於 HIRT 模式，透過 WinBUGS 程式撰寫完成參數估計

MH-G MH-within-Gibbs 本論文所提出的參數估計方法，透過 Matlab 撰寫並用以完成參數估計 NP-MH-G nonparametric

MH-within-Gibbs

UIRT & MIRT MMLE/EM 分別透過 UIRT 與 MIRT 結構，利用 ConQuest 軟體進行參數估計。

（二）模式架構

本實驗擬探討四種 HIRT 模式之表現，模式 1~4 如圖 3-2，其中模式模式 1、

2 為 1 個總體量尺分數對應 5 個領域量尺分數；模式 3、4 為與 2 個總體量尺分數對應 5 個領域量尺分數，其中模式 1、3 與 2、4 分別為題間及題內多向度。

（三）相關設定

模式 1 至模式 4 中的迴歸參數，依據領域量尺分數間的相關設定高相關與中相關，用以探討此迴歸參數對參數估計精準度的影響，其中高相關設定為 0.7；

而中相關設定為 0.4 (de la Torre & Song, 2009) 。

（五）測驗人數與題數

為了解樣本大小與測驗題數多寡對於估計精準程度的影響，本研究實驗人數設計為 500 人與 1000 人；題數設計為每一個領域量尺分別對應至 10 與 20 個題目 (de la Torre & Song, 2009) 。

（六）模擬次數與評估指標

模擬次數設為 50 次，除藉由均方根誤差( root mean square error, RMSE)

RMSE N

∑

−

= ¹

) (ς ς

來描述各個參數估計方法的估計精準程度外，更透過 t-test 的方式來檢驗不同估計方法對於同一種參數估計之結果差異有無達顯著的現象。

二、實驗二

透過模擬研究探討HIRT模式等化同時估計法成效，以及探究不同人數、題數、定錨比例與不同多向度架構下的測驗對於參數估計精準度的影響。

（一）估計方法

每個資料集除了利用本論文所提出的參數與無參數型之等化同時估計方法進行參數估計之外，更透過 UIRT 模式與 MIRT 模式等化同時估計方法進行參數估計（ConQuest），並將所獲得的參數估計結果作為校標，用以評估估計結果。

（二）模式架構

為了提供後續的實徵資料分析一個可比較的基準，本實驗採用圖 3-2 中的模式 1 與模式 2 兩種作為建立模擬研究之模式基準。

（三）相關設定

實驗二主要是要驗證本論文所提出的等化同時估計法的成效，因此在相關設定部份就沒有進一步探索；領域量尺分數變數間的相關如何影響估計精準度則在實驗一應可獲得驗證。因此，實驗二僅就高相關進行論證。

（四）能力分布

本實驗能力參數分布參考Woods與Lin (2008) ，各分布設計如下所示：

（1）常態分布(β₁ =0,β₂ =0)：N(0,1)

（2）偏態分布(β₁ =1.57,β₂ =3.52)：0.9×N(−0.25,0.61)+0.1×N(2.19,1.04)

（3）雙峰分布(β₁ =0.30,β₂ =2.04)：0.6×N(−0.7,0.5)+0.4×N(1.05,0.54) 其中β 是偏態(skewness)係數而₁ β 是峰態(kurtosis)係數。其中不管是哪一種₂ 分布都是具備平均數為0、變異數為1的狀態。

（五）測驗人數、題數與定錨比率

為了解人數的多寡對於 HIRT 模式的等化同時估計法的估計精準度的影響，

因此人數設定有分成 500 與 1000 人兩種；為了解題數的多寡對於 HIRT 模式等化同時估計法的估計精準度的影響，題數設定有分成每個領域量尺分數對應到 10 與 20 題兩種；為了解定錨題數的多寡對於 HIRT 模式的等化同時估計方法的估計精準度的影響，因此定錨比率的設定有分成 20%與 40%兩種。

（六）等化設計

資料編排架構假定為受試者有兩群GS1={S₁,S_p}與GS2={S_p₊₁,S_N}合計共有N 個受試者；其中第一組學生GS1做第一組試題GI1={I₁,,I_m}，第二組學生GS2做第二組試題GI2={I_m₋_k,,I_n}，其中k+1代表定錨題數。測驗完畢後資料收集情況如下所述，其中or_i_,_j為第 i 為受試者於第 j 題的作答反應(有參與作答)；mr_i_,_j為第i為受試者於第 j 題的作答反應(未參與作答)：

三、實驗三

本實驗主要透過本研究所提出的參數估計方法與等化估計方法，建立使用 HIRT模式分析之流程，使用TASA原因為：

（1）TASA之評量架構符合HIRT模式(就其測驗的架構來看) 。

（2）TASA目前採用UIRT模式進行參數估計，和其測驗架構並未完全吻合。

（3）無相關研究採用HIRT模式分析TASA測驗資料。

本實驗擬分別透過UIRT、MIRT及HIRT三種模式之參數估計模式來分析 TASA 的測驗資料，建立使用 HIRT 模式分析之流程。此外更藉由 Akaike’s information coefficient(AIC)、 Bayesian information coefficient,(BIC)與deviance information coefficient(DIC)等指標來驗證TASA測驗資料是否屬於適合使用HIRT 模式進行分析，並進一步論述TASA資料於合適的模式與參數估計方法下的參數

估計之結果 (謝典佑、林佳樺、郭伯臣、施淑娟, 2009; Kuo, B. C., Hsieh, T. Y., &

Cheng, C. M., 2010) 。本實驗目的設定如下：

（一）實驗三之一

哪一個指標對於判定 HIRT 模式有較高的準確性：利用 HIRT 模式針對 TASA2006小四數學科的測驗資料進行參數估計與分析，利用所得的參數進行模擬研究。用以確定在相同測驗架構與情況底下，模式指標的驗證是不是可以確實的找出正確的模式已進行後續分析。後續針對實徵資料進行分析，並歸納出 TASA2006小四數學科應該用哪一種模式下進行分析較為恰當。

（二）實驗三之二

延續前一個實驗，利用Conquest針對TASA2006小四數學科的測驗資料進行 UIRT以及MIRT模式的分析，並比較UIRT與MIRT和HIRT模式下估計的差異。

以下為實徵資料之說明，以及模式比較等指標建立之方式：

（三）實徵資料

根據「臺灣學生學習成就評量資料庫」之研究調查資料釋出網站 (http://tasa.naer.edu.tw/Release/index.aspx)提供之資料，其中TASA2006小四數學科題庫係以教育部所公布的「國民小學九年一貫課程暫行綱要」的能力指標為依據，涵蓋了所有數學與自然的課程內容及能力，理想上應將所有試題施測於學生；但因為時間限制與體能負荷之影響，常用的一個變通方式是將題庫中的題目分為若干區塊(blocks)，每個區塊中的試題均不重疊。受試者只需接受若干區塊的試題，不同受試者可能接受部分相同、完全相同、或完全不同的區塊。最後，

所有受試者的資料將結合一同進行分析，達到能力估計的目的。該年度數學科分為13題本，而各題本的區塊設計整理如表3-2。

表 3-2

TASA 2006 小四數學題本、人數、題數分配表

題本編號人數題數題本編號人數題數題本編號人數題數題本一 611 23 題本六 628 23 題本十 626 23 題本二 620 24 題本七 621 24 題本十一 627 24 題本三 619 24 題本八 621 24 題本十二 623 24 題本四 625 23 題本九 620 23 題本十三 620 24 題本五 624 23

（四）模式適合度

應用試題反應理論模式進行測驗資料分析的過程，必須先確定資料與模式間匹配的程度是合適的 (Li, Cohen, Kim ,& Cho, 2009；Kang & Cohen, 2007) 。由於應用的參數估計方式是以MCMC架構進行估計，所以Akaike (1974) 的AIC與 Schwarz (1978) 的BIC均不適用 (Lin & Dayton, 1997; Lord, 1975; Sahu, 2002) 。本研究擬利用貝氏架構下的Akaike’s information coefficient , AIC (Congdon, 2003) 、 Bayesian information coefficient, BIC (Congdon, 2003) 與 deviance information coefficient, DIC (Spiegelhalter, Best & Carlin, 1998) 三個較為常用的模是檢定指標進行驗證，作為後續分析TASA資料的一個依據。

（1）AIC指摽

p D

Model

AIC( )= (ξ)+2 (3.19) 其中D(ξ)為MCMC架構下的後驗差異指標的平均值；p模式當中參數數量。

（2）BIC指摽

(N)) p(

D Model

BIC( )= (ξ)+ log (3.20) 其中，D(ξ)和AIC指標相同； p 模式當中參數數量；N 為樣本數。

（3）DIC指摽

D Model

DIC( )= (ξ)+ (3.21) 其中，D(ξ)和 AIC 指標相同；而p_D =D(

ξ

)−D(

ξ

ˆ)，而ξ^ˆ為參數估計值。

第四章研究結果

為了評估及驗證本研究所提出的 HIRT 模式無參數型的估計方法與等化同時估計方法，總共設計兩個模擬研究與一個實徵分析之研究。其中實驗一驗證各參數估計方法的的估計之成效外，更進一步透過比較 UIRT 模式與 MIRT 模式的估計結果說明在資料具備階層結構時，模式誤用對於參數估計結果產生的影響；實驗二驗證適用於 HIRT 模式等化同時估計方法，透過比較 UIRT 與 MIRT 模式的等化同時估計法的估計結果，驗證 HIRT 模式等化同時估計法成效；實驗三主要是透過 TASA2006 小四數學科作為實證資料的分析，並討論模式驗證指標的效用。為呈現出整個研究目的，底下將研究目的分成若干小節。

第一節參數型估計方法估計成效之比較

本節比較參數型 MH-within-Gibbs sampling 與 Gibbs sampling 估計方法的結果，探究本研究依據 de la Torre 與 Hong（2010）基於 MH-within-Gibbs sampling 提出的參數估計方法所實作的估計程式之估計成效。由於 HIRT 模式架構中，預估參數的類型很多(包括：總體量尺分數、領域量尺分數以及試題參數)，下面將呈現各類參數在不同的架構下估計方法的差異。此外模擬資料具備多因子的情境，因此資料呈現方式亦會將單因子與多因子加以區隔，以便於結果之論述與比較說明。

由於研究過程所產生的 RMSE 值表格過於龐大，爲清楚呈現參數型 MH-within-Gibbs sampling 與 Gibbs sampling 方法的估計成效之差異，文中僅列出兩種估計方法的 RMSE 差異，並輔以 t-test 檢驗不同參數估計法的估計結果之差異有無顯著性(正值代表參數型 HIRT 較好；負值代表 WinBUGS 比較好)。

表 4-1

單因子MH-G與Gibbs RMSE差異表 人數題數多向度

架構

領域量尺

在文檔中階層式試題反應理論模式及其等化估計方法 (頁 23-41)

第四章 研究結果

第一節 參數型估計方法估計成效之比較

第二節 無參數型估計方法

∑

ξ

ξ

第四章 研究結果

第一節 參數型估計方法估計成效之比較

第四章研究結果

第一節參數型估計方法估計成效之比較

第二節無參數型估計方法

第四章研究結果

第一節參數型估計方法估計成效之比較