緒論 - 階層式試題反應理論之多點計分模式探討

第一節研究動機與目的

大型測驗(large-scale assessments)使用階層式的評量架構來定義學生的學習表現或是能力素養，也就是評量架構中包含兩階層能力的評量架構，亦即測驗分數中包含總測驗的分數（總體量尺，overall ability），以及各分測驗的分數（領域量尺，domain ability）。NAEP(National Assessment of Educational Progress)的數學評量即是使用階層式的評量架構的大型測驗，NAEP 2009 數學評量架構分為兩個向度

（總體量尺），ㄧ為數學內容(mathematics content)，ㄧ為數學的複雜度(mathematical complexity) ；其中數學內容又區分成數字概念與運算 (number properties and operations)、測量(measurement)、幾何(geometry)、資料分析與機率(data analysis and probability)及代數(algebra)等五個子向度（領域量尺）。然而，在測量模式上大型測驗並非採用可同時估計總體量尺與領域量尺的估計模式，例如： NAEP 和 TIMSS(Trends in International Mathematics and Science Study) 採用 UIRT(unidimensional item response theory)為主要的測量模式(NAEP, 2009; IEA, 2008)，PISA(Programme for International Student Assessment)對各學科之領域量尺進行估計時，採用 MIRT(multidimensional item response theory) 之 MRCMLM(multidimensional random coefficients multinomial logit model)為主要的測量模式，對於各學科之總體量尺則是使用 UIRT 進行估計(OECD, 2005)，上述兩種估計模式(UIRT, MIRT)並未同時進行總體量尺與領域量尺之參數估計。

針對階層式的評量架構下，總體量尺和領域量尺能力能同時進行估計的測驗分析，有 de la Torre and Douglas(2004)之階層式潛在特質分析模式(hierarchical latent analysis model)，此模式中總體量尺為連續量尺，但領域量尺為離散量尺；

另 Sheng(2005)提出二參數常態肩形階層分析模型(two-parameter normal ogive

態肩形模式。而de la Torre 與 Song (2009)提出同時進行總體量尺與領域量尺之 HO-IRT模式(higher-order item response theory model)，不僅總體量尺與領域量尺皆為連續量尺，亦適用於1PL、2PL及3PL模式，其研究結果顯示HO-IRT模式的估計效果較UIRT為佳。隔年de la Torre 與 Hong (2010)基於HO-IRT模式，分析3PL模式在小樣本時，同時估計量尺間的相關係數、總體量尺、領域量尺和試題參數的估計成效，研究結果顯示總體量尺、領域量尺和試題參數之參數估計以HO-IRT 模式較UIRT模式為佳。而林佳樺(2009)以PISA數學科評量架構為基礎，擴充de la Torre 與 Song (2009)之HO-IRT模式為二因子HO-IRT模式，並透過模擬實驗，證實HO-IRT模式之參數估計精準度皆接近或是優於UIRT及MIRT。

上述HO-IRT模式多以二元計分之測驗資料為分析對象，然而答對的受試者不一定真的全會，而答錯的受試者亦可能並非完全不會，這樣的評分方式將獲得較少的受試者能力訊息，同時也未考慮到受試者答題的歷程；而多點計分模式有兩種以上之計分等級，可依受試者之作答反應給予適當之等級分數。部分給分、李克氏量表等即為典型的多點計分模式。以數學之多點計分測驗為例，在受試者答錯的情況下，仍可依據受試者答題紀錄中所答對之部分步驟，給予部分分數，藉此將學生能力在全對與全錯之間細分為不同等級。由此可知，多點計分模式較二元計分模式較精確地估計受試者的特質（簡月梅，民87）、可提供較多有關受試者能力的訊息(Baker, 1992)，同時兼顧受試者的作答結果與解題歷程，其重要性自不待言。因此此種依據受試者之答題反應而採多點計分之測驗分析實屬必要。

當大型測驗的總體量尺數不再是單一，計分方式也不再只是全對與全錯的二元計分，而HO-IRT模式多以二元計分之測驗資料為分析對象，對於大型測驗採用多點計分的測驗資料分析付之闕如。因此，本研究的主要目的是以階層式的評量架構為基礎，擴充de la Torre 與 Song (2009)及林佳樺（2009）所發展出之二因子 HO-IRT模式為多點計分之HO-IRT模式與二因子HO-IRT模式，探討多點計分測驗

準度做比較，以及探討迴歸參數、人數和試題數等變項對HO-IRT模式下多點計分測驗之參數估計的影響。

第二節待答問題

根據上述的研究目的，本研究將討論下列問題：

一、採用HO-IRT模式進行參數估計時，參數之先驗分布之超參數設定的不同，對參數估計精準度的影響為何？

二、採用HO-IRT模式與其他估計模式進行參數估計，對參數估計精準度的影響為何？

三、不同的變項設定（迴歸參數、受試者人數及試題數）對參數估計精準度的影響為何？

第三節名詞解釋

以下為本研究常見名詞之釋義﹕

壹、階層式的評量架構

階層式的評量架構為包含兩階層的能力，第一層的能力量尺為領域量尺，第二層的能力量尺為總體量尺。

貳、總體量尺能力

總體量尺是階層式的評量架構中第二層能力量尺，為統整領域量尺所欲測量之高階的能力。以NAEP為例：NAEP 2009數學評量架構分為兩個向度，ㄧ為數學內容，ㄧ為數學的複雜度。此二個向度皆為本研究中所謂之總體量尺。

叁、領域量尺能力

領域量尺是階層式的評量架構中第一層能力量尺，是測量學生在不同學習目標或是分測驗的能力表現。NAEP 2009數學評量架構中將數學內容又區分成數字概念與運算、測量、幾何、資料分析與機率及代數等五個子向度。此五個子向度皆為本研究中所謂之領域量尺。

肆、階層式試題反應理論模式

de la Torre 與 Song (2009) 提出階層式試題反應理論模式(higher-order item response theory model, HO-IRT model)，適用於分析階層式的評量架構的測驗資料，此模式可同時進行包含總體量尺能力與領域量尺能力之參數估計。

伍、RMSE

均方根誤差(root mean square error, RMSE)亦稱估計標準誤差，為均方誤（估計值與真實值差異平方的平均值, Mean-square error）之正平方根。

在文檔中階層式試題反應理論之多點計分模式探討 (頁 10-14)

緒論

第一節 研究動機與目的

第二節 待答問題

第三節 名詞解釋