• 沒有找到結果。

第一節 研究動機與目的

大型測驗(large-scale assessments)使用階層式的評量架構來定義學生的學習表 現或是能力素養,也就是評量架構中包含兩階層能力的評量架構,亦即測驗分數 中包含總測驗的分數(總體量尺,overall ability),以及各分測驗的分數(領域量 尺,domain ability)。NAEP(National Assessment of Educational Progress)的數學評量 即是使用階層式的評量架構的大型測驗,NAEP 2009 數學評量架構分為兩個向度

(總體量尺),ㄧ為數學內容(mathematics content),ㄧ為數學的複雜度(mathematical complexity) ; 其 中 數 學 內 容 又 區 分 成 數 字 概 念 與 運 算 (number properties and operations)、測量(measurement)、幾何(geometry)、資料分析與機率(data analysis and probability)及代數(algebra)等五個子向度(領域量尺)。然而,在測量模式上大型 測驗並非採用可同時估計總體量尺與領域量尺的估計模式,例如: NAEP 和 TIMSS(Trends in International Mathematics and Science Study) 採 用 UIRT(unidimensional item response theory)為主要的測量模式(NAEP, 2009; IEA, 2008),PISA(Programme for International Student Assessment)對各學科之領域量尺 進 行 估 計 時 , 採 用 MIRT(multidimensional item response theory) 之 MRCMLM(multidimensional random coefficients multinomial logit model)為主要的 測量模式,對於各學科之總體量尺則是使用 UIRT 進行估計(OECD, 2005),上述兩 種估計模式(UIRT, MIRT)並未同時進行總體量尺與領域量尺之參數估計。

針對階層式的評量架構下,總體量尺和領域量尺能力能同時進行估計的測驗 分析,有 de la Torre and Douglas(2004)之階層式潛在特質分析模式(hierarchical latent analysis model),此模式中總體量尺為連續量尺,但領域量尺為離散量尺;

另 Sheng(2005)提出二參數常態肩形階層分析模型(two-parameter normal ogive

態肩形模式。而de la Torre 與 Song (2009)提出同時進行總體量尺與領域量尺之 HO-IRT模式(higher-order item response theory model),不僅總體量尺與領域量尺皆 為連續量尺,亦適用於1PL、2PL及3PL模式,其研究結果顯示HO-IRT模式的估計 效果較UIRT為佳。隔年de la Torre 與 Hong (2010)基於HO-IRT模式,分析3PL模 式在小樣本時,同時估計量尺間的相關係數、總體量尺、領域量尺和試題參數的 估計成效,研究結果顯示總體量尺、領域量尺和試題參數之參數估計以HO-IRT 模式較UIRT模式為佳。而林佳樺(2009)以PISA數學科評量架構為基礎,擴充de la Torre 與 Song (2009)之HO-IRT模式為二因子HO-IRT模式,並透過模擬實驗,證 實HO-IRT模式之參數估計精準度皆接近或是優於UIRT及MIRT。

上述HO-IRT模式多以二元計分之測驗資料為分析對象,然而答對的受試者不 一定真的全會,而答錯的受試者亦可能並非完全不會,這樣的評分方式將獲得較 少的受試者能力訊息,同時也未考慮到受試者答題的歷程;而多點計分模式有兩 種以上之計分等級,可依受試者之作答反應給予適當之等級分數。部分給分、李 克氏量表等即為典型的多點計分模式。以數學之多點計分測驗為例,在受試者答 錯的情況下,仍可依據受試者答題紀錄中所答對之部分步驟,給予部分分數,藉 此將學生能力在全對與全錯之間細分為不同等級。由此可知,多點計分模式較二 元計分模式較精確地估計受試者的特質(簡月梅,民87)、可提供較多有關受試 者能力的訊息(Baker, 1992),同時兼顧受試者的作答結果與解題歷程,其重要性 自不待言。因此此種依據受試者之答題反應而採多點計分之測驗分析實屬必要。

當大型測驗的總體量尺數不再是單一,計分方式也不再只是全對與全錯的二 元計分,而HO-IRT模式多以二元計分之測驗資料為分析對象,對於大型測驗採用 多點計分的測驗資料分析付之闕如。因此,本研究的主要目的是以階層式的評量 架構為基礎,擴充de la Torre 與 Song (2009)及林佳樺(2009)所發展出之二因子 HO-IRT模式為多點計分之HO-IRT模式與二因子HO-IRT模式,探討多點計分測驗

準度做比較,以及探討迴歸參數、人數和試題數等變項對HO-IRT模式下多點計分 測驗之參數估計的影響。

第二節 待答問題

根據上述的研究目的,本研究將討論下列問題:

一、採用HO-IRT模式進行參數估計時,參數之先驗分布之超參數設定的不同,對 參數估計精準度的影響為何?

二、採用HO-IRT模式與其他估計模式進行參數估計,對參數估計精準度的影響為 何?

三、不同的變項設定(迴歸參數、受試者人數及試題數)對參數估計精準度的影 響為何?

第三節 名詞解釋

以下為本研究常見名詞之釋義﹕

壹、階層式的評量架構

階層式的評量架構為包含兩階層的能力,第一層的能力量尺為領域量尺,第 二層的能力量尺為總體量尺。

貳、總體量尺能力

總體量尺是階層式的評量架構中第二層能力量尺,為統整領域量尺所欲測量 之高階的能力。以NAEP為例:NAEP 2009數學評量架構分為兩個向度,ㄧ為數 學內容,ㄧ為數學的複雜度。此二個向度皆為本研究中所謂之總體量尺。

叁、領域量尺能力

領域量尺是階層式的評量架構中第一層能力量尺,是測量學生在不同學習目 標或是分測驗的能力表現。NAEP 2009數學評量架構中將數學內容又區分成數字 概念與運算、測量、幾何、資料分析與機率及代數等五個子向度。此五個子向度 皆為本研究中所謂之領域量尺。

肆、階層式試題反應理論模式

de la Torre 與 Song (2009) 提出階層式試題反應理論模式(higher-order item response theory model, HO-IRT model),適用於分析階層式的評量架構的測驗資 料,此模式可同時進行包含總體量尺能力與領域量尺能力之參數估計。

伍、RMSE

均方根誤差(root mean square error, RMSE)亦稱估計標準誤差,為均方誤(估 計值與真實值差異平方的平均值, Mean-square error)之正平方根。