緒論 - 多向度試題反應理論下不同估計方法估計成效之探討

本研究是從多向度試題反應理論( multidimensional item response theory, MIRT )中多向度隨機係數多項洛基模式( multidimensional random coefficients multinomial logit model, MRCMLM )的角度，透過電腦模擬各種情境，比較不同的估計方法對於個體能力與群體參數估計的差異，探究納入輔助變數與否對於能力估計效果的影響。本章將針對研究動機、研究目的與名詞解釋逐一進行說明。

第一節研究動機

為瞭解臺灣學生與其他國家學生在基本能力上的程度比較，台灣近幾年積極參與國際型評比的大型測驗，如國際學生評量計畫 PISA( The Programme for International Student Assessment )以及國際數學與科學教育成就趨勢調查

TIMSS( Trends in International Mathematics and Science Study )等。綜觀各大型測驗的評量內容架構包含多個向度，在進行能力估計時，仍是以單向度試題反應理論 ( unidimensional item response theory, UIRT )做為資料分析模式的基礎（郭伯臣、

曾建銘、吳慧珉，2012）。以評量架構而言，以 UIRT 做為資料分析模式，失去其命題的原理原則且忽略向度間的相關對能力估計的影響。從測量精確度的角度來看，單向度 IRT 無法藉著各向度能力的相關性來提升對各向度能力估計的精確性，因此每個向度都需要很多題，才能到達某個信度水準。多向度 IRT 在估計能力時，會將向度間的相關性納入估計程序中，提升了各向度能力估計的精確性（陳柏熹，2006; de la Torre, J. 2009）。

多向度試題反應理論的模式大多由單向度試題反應理論的模式加以延伸而來，主要包含多向度隨機係數多項洛基模式( multidimensional random coefficients

multinomial logit model, MRCMLM )、多向度二參數模式( multidimensional two parameters model, M2PL )與多向度三參數模式( multidimensional three parameters model, M3PL )三種模式，其中多向度隨機係數多項洛基模式( MRCMLM )功能性較多，可用於二元計分、多元計分、評定量尺的測驗，並能估計單向度與多向度的能力，且國際學生評量計畫 PISA 亦使用此模式估計各學科之次級量尺( OECD , 2009 )。

除了評量科目的試卷，國際評比的大型測驗也將影響學生學習成效的可能原因設計成背景問卷，如：學生問卷、學校問卷、教師以及家長問卷等。在估計能力時，多採用可能值方法( plausible value method )進行群體能力參數評估( OECD, 2005; Lee, Grigg & Dion, 2007 )，亦即使用學生的作答反應，並把背景問卷中的背景變項( background variables, BV )作為輔助變數( ancillary variables, AV )，以潛在迴歸模式計算出每位受試者實際能力的後驗分佈，再從後驗分佈中隨機抽取數個資料作為可能值( plausible value )，因此可能值是使用多個值代表學生能力的近似分佈，提供可能範圍不偏估計的資料庫以及學生團體的能力位置( Mislevy, 1991 )。

輔助變數可以包含人口統計變項，如：性別、年齡、種族；教育變項，如：

年級、修習課程、先前測驗分數，在電腦化測驗中，反應時間亦能做為輔助訊息的來源( Fox, Klein Entink, & van der Linden, 2007; van der Linden, 2007 )，納入區分受試群體的輔助變數可以導致群體參數的不偏估計、更準確的能力估計和穩定的參數估計( Mislevy & Sheehan, 1989 )。

大型測驗資料庫建置，主要在探究學生群體的表現，檢視目前國內在測驗的相關研究上，大多仍以單向度試題反應理論進行分析，並以集合個體能力的方式估計群體表現，通常造成較大的誤差。因為估計個別受試者能力的方法，如：最大概似估計法( maximum likelihood estimation, MLE )與期望後驗估計法( expected a posterior, EAP )，皆會因受試者的總分或後驗分佈相同，使不同的受試者獲得相

同的能力估計，而可能值方法乃直接估計母群參數，雖然其包含了隨機誤差成分，不適合描述個體分數，但卻具有良好群體估計一致性，適合描述群體之特性 ( Mislevey, 1991; Mislevy, Beaton, Kaplan & Sheehan, 1992 )。

相較於現代測驗中會考量到影響學生學習表現的各種訊息，傳統的測驗僅瞭解學生在學科上的表現，著重於學生在試題上的作答反應，不蒐集學生的背景資料以及可能影響學習表現的相關訊息並將之納入考量。在資料蒐集產生中附帶有背景變項資料以及本身沒有背景變項的這兩種架構中，分別探討各種估計方法的估計成效，在文獻中付之闕如，但現實中仍常使用傳統的測驗架構，在這樣的情境下，何種估計方法能產生良好的估計成效，也待研究說明。

國內文獻對於探討不同估計方法在回復個體與群體能力參數時的差異，內容較少從多向度試題反應理論的角度、探討在模式估計中納入輔助變數對於能力估計的影響，是以本研究採用 MRCMLM，分別就無輔助變數與有輔助變數的情境下，進行不同評量架構的多向度試題反應理論之估計成效探討，瞭解不同估計方法對個體與群體參數估計之差異，並期望透過模擬資料的結果提供未來資料分析者作為分析之依據以及參考。

第二節研究目的與待答問題

本研究透過模擬資料的方式，以多向度試題反應理論探討無輔助變數和有輔助變數的設計條件下，不同的施測題數、不同能力向度數、不同輔助變數與能力值間的相關、不同能力向度間的相關，在這些不同情境架構中，對於個體能力估計與群體參數估計之效果，進而瞭解納入輔助變數的參數估計方法對於能力估計的效果。本研究目的條列如下：

一、在無輔助變數的設計情境，各種估計方法在不同施測題數、不同向度數和不同能力向度間的相關下，對於個體能力估計之差異。

二、在無輔助變數的設計情境，各種估計方法在不同施測題數、不同向度數和不同能力向度間的相關下，對於群體能力估計之差異。

三、在有輔助變數的設計情境，各種估計方法在不同施測題數、不同向度數、不同能力向度間的相關和不同輔助變數與能力值間的相關下，對於個體能力估計之差異。

四、在有輔助變數的設計情境，各種估計方法在不同施測題數、不同向度數、不同能力向度間的相關和不同輔助變數與能力值間的相關下，對於群體能力估計之差異。

五、在有輔助變數的設計情境，各種估計方法在不同施測題數、不同向度數、不同能力向度間的相關和不同輔助變數與能力值間的相關下，對於次群體能力估計之差異。

依據上列研究目的，設定待答問題如下：

一、在無輔助變數的設計情境下，施測題數多寡是否會對各種估計方法在個體能力值及群體能力參數的估計準確度上產生影響？

二、在無輔助變數的設計情境下，能力值間的相關是否會對各種估計方法在個體能力值及群體能力參數的估計準確度上產生影響？

三、在有輔助變數的設計情境下，施測題數多寡是否會對各種估計方法在個體能力值及群體能力參數的估計準確度上產生影響？

四、在有輔助變數的設計情境下，能力值間的相關是否會對各種估計方法在個體能力值及群體能力參數的估計準確度上產生影響？

五、在有輔助變數的設計情境下，輔助變數與能力值間的相關是否會對各種估計方法在個體能力值及群體能力參數的估計準確度上產生影響？

六、在無輔助變數和有輔助變數的設計情境下，何種估計方法有較佳的估計效果？

第三節名詞解釋

壹、納入輔助變數的期望後驗估計法( EAP_AV )

納入輔助變數的期望後驗估計法( EAP_AV )為將期望後驗估計法加入輔助變數進行估計，估計過程中透過輔助變數的加入，進行後驗分佈估計，並找出後驗分佈的平均值作為受試者的能力值。

貳、沒有納入輔助變數的可能值方法( PV_noAV )

沒有納入輔助變數的可能值方法( plausible value without ancillary

variables )，在估計過程中未納入輔助變數，僅以學生答題反應直接進行後驗分佈估計，並從後驗分佈中抽取五個可能值，作為受試者的能力值。

在文檔中多向度試題反應理論下不同估計方法估計成效之探討 (頁 13-19)

緒論

第一節 研究動機

第二節 研究目的與待答問題

第三節 名詞解釋

壹、納入輔助變數的期望後驗估計法( EAP_AV )

貳、沒有納入輔助變數的可能值方法( PV_noAV )

第一節研究動機

第二節研究目的與待答問題

第三節名詞解釋