緒論 - 階層式試題反應理論模式及其等化估計方法

第一節研究動機

能力結構為階層式之模式在心理與教育領域的研究與實務中已被廣泛的接受 (de la Torre & Song, 2009; Carrol, 1993; Cronbach & Snow, 1977) ，這些具備階層式之能力被分為兩大類 (de la Torre & Song, 2009) ，包括，在測驗情境下所定義的一般能力(general ability) (Spearman, 1904) 與多元能力(multiple abilities)（例如：Thurstone, 1938）。其中，一般能力相對於多元能力是屬高層的能力；而多元能力相對於一般能力是屬較低層的能力 (Gustafsson & Snow, 1997) ，本文將隸屬於高層的一般能力定義為總體量尺分數(overall score)；而隸屬於較低層的多元能力定義為領域量尺分數（domain score）。關於這兩類的量尺分數，目前有越來越多的大型測驗技術報告中都有將這兩類分數呈現出來，以 PISA(The Programme for International Student Assessment)為例，根據 PISA2003 年技術報告中陳述兩種不同量尺分數之報告型式，以數學科評量架構為例，包括用以描述數學科能力 (mathematics) 的主要領域量尺分數 (major domain score) (OECD, 2005, 頁 354) ；以及用以描述所屬四個主題領域量尺分數(subject domain score)，包括數量(quantity)、空間與形體(space and shape)、改變與關係(change and relationships) 及不確定性(uncertainty)四個數學能力 (OECD, 2005, 頁 412)。

一般實務分析過程中，領域量尺分數採多向度試題反應理論 (multidimensional item response theory, MIRT)模式；總體量尺分數採單向度試題反應理論(unidimensional item response theory, UIRT)模式 (OECD, 2005) 。然，依據過去的研究顯示在具備多向度的測驗結構下，透過 UIRT 估計總體量尺分數將對估計結果產生偏誤(bias)與無效度(not be valid)的現象 (Ackerman, 1992; de la Torre & Patz, 2005; Wainer 等, 2001) 。於此，越來越多的階層式試題反應理論 (hierarchical item response theory, HIRT)模式被發展出來解決上述的問題並提供更為精確的領域量尺估計之結果 (de la Torre & Song, 2009; de la Torre & Hong, 2010) 。其中，又以 de la Torre 與 Song (2009) 和 de la Torre 與 Hong (2010) 所提出的單因子階層試題反應理論 (one-factor higher-order item response theory,

但是 HO-IRT 模式的發展過程中，仍有些限制需要改善：

（1）僅探究多向度架構下的題間多向度測驗(between-item multidimensional test) 而尚未探究題內多向度測驗(within-item multidimensional test)，此外，亦無探究當資料具備 HIRT 模式結構時，誤用 UIRT 模式與 MIRT 模式對參數估計精準度所造成的影響，此外，僅考慮到單一總體量尺分數的結構，而無考慮多個總體量尺分數的結構及其參數估計的成效。

（2）量尺分數分布非必然遵守常態分布的假設，當常態的假設無法被遵守時參數型(parametric)估計方法之估計結果將產生偏誤 (Ferrando, 2003; Woods, 2006;

Woods & Thissen, 2006; Woods, 2007) 。目前 IRT 領域正如火如荼的發展各種無參數型(nonparametric)的參數估計方法以解決這樣的問題，如各種商業軟體：

BILOG-MG (Zimowski, Muraki, Mislevy, & Bock, 1996) 和 Parscale (Muraki

& Bock, 1996) 採用經驗貝氏資料分析(empirical baysian data analysis)來進行估計，此外，Woods (2004) 利用 Ramsay curves、Woods 與 Thissen (2006) 使用 B-Spline 和 Woods 與 Lin (2008) 使用 Davidian Curves 等曲線估計方式針對模式的參數進行估計。

但是在 HIRT 模型中，目前仍無相關研究探究當量尺分數無遵守常態方布假設時，非常態分布的現象將對參數型的參數估計結果產生何種影響。此外並適用於 HIRT 模式的無參數估計方法被提出，以使得 HIRT 模式得以在非常態分布的情況下，得以進行參數估計。

（3）此外，目前 HIRT 模式研究大多著眼於模式建立及參數估計，相關應用領域如：等化(equating)、試題差異功能(differential item functioning, DIF)、電腦化適性測驗(computerized adaptive test, CAT)及大型測驗中可能值方法(plausible values methodology, PV)皆尚無相關研究。

本研究將針對上述之限制加以改善，並輔以臺灣學生學習成就評量資料庫 (Taiwan Assessment of Student Achievement，簡稱 TASA)為例，同時提供理論與實務之驗證。

第二節研究目的

本研究旨在提出 HIRT 模式的無參數型參數估計方法與適用於 HIRT 模式的等化同時估計方法，同時探究各參數估計方法於多種不同模擬情境(人數、題數、

計分模式、能力分布與試題架構之不同)與臺灣學生學習成就評量資料庫(Taiwan Assessment of Student Achievement，簡稱 TASA)下的表現，提供 HIRT 模式於後續實務應用於大型測驗過程中的一個依據。

為了達到上述的研究目標，本研究之研究目的設定如下所示：

一、探究資料具備階層式結構時，模式的誤用對參數的估計之影響。

二、探討非常態能力分布對 HIRT 模式參數估計法之影響。

三、研發 HIRT 模式無參數估計法。

四、研發 HIRT 模式等化同時估計法。

五、透過實徵資料的分析了解 HIRT 的實際運作流程。

第三節研究架構

為達前節所設定之研究目的，本研究架構主要分成五個章節，第一章為研究動機、目的以及研究架構；第二章主要針對所需文獻進行探究；第三章主要針對本研究所用之工具與參數估計方法進行理論推導並論述各實驗設計之相關細節；第四章提供各個實驗設計下的實驗結果，並針對的各項數據加以比較以呈現出足以驗證各研究目的的證據；第五章提供整個研究的結論與建議，並論述後續在 HIRT 模式發展過程中可持續研究之相關議題。

第四節名詞解釋

針對本研究常見的名詞，釋義如下﹕

一、領域量尺分數

當一份測驗是屬多向度的測驗，其意指該測驗架構的試題具有多向度特質 (Reckase, 1985; 1997) ，亦或指該份測驗同時測量多個學科內容 (Ackerman, Gierl,

& Walker, 2003) 。該測驗架構下，測量相同學科內容的試題被視為一個測驗的子集合(subset)，而對應於該測驗之子集合的能力值在de la Torre與Song (2009) 的

文章裡定義為domain ability，而PISA的技術報告 (OECD, 2005) 則是以主題領域量尺分數(subject domain score)來呈現，本研究統一將之定義為領域量尺分數 (domain score)。

二、總體量尺分數

此外，依據de la Torre與Song (2009) 所用之智力與能力的觀點進一歩闡述，

可以了解，一份測驗所測量的多個domain ability中存在一個用來表示總分的共同的能力，該能力在de la Torre與Song (2009) 的文章裡定義為overall ability，而PISA 的技術報告 (OECD, 2005) 則是以主要領域量尺分數(major domain score)來呈現，本研究統一將之定義為總體量尺分數(overall score)。

三、階層式試題反應理論模式

本文所定義之階層式試題反應理論(hierarchical item response theory，簡稱 HIRT)模式，所指為模式中同時具備總體量尺分數與領域量尺分數且兩類領域量尺分數存在著線性關係之 IRT 模式。

第五節研究範圍與限制

研究過程中，仍有部分的設計與資料的產生並無法涵蓋所有教育現場之資料，因此研究結果與結論僅能適當推論而無法進行過多的臆測。下述將列出本研究所無涵蓋之重要變項：

一、HIRT模式假設

本文所定義之HIRT模式所指為總體量尺分數與領域量尺分數間為線性關係的模式。然一般教育現場中，總體量尺分數與領域量尺分數間關係是否僅具備線性關係，仍有待進一步研究與探討。

此外，模式中試題與領域量尺分數間概似機率分布(likelihood distribution)，

僅探究多向度隨機係數多項洛基模式 (multidimensional random coefficients multinomial logit model, MRCMLM)模式下的情況，對於其他IRT模式的使用是否會獲得相同結論，仍有待進一步研究與探討。

二、模擬研究設計

雖然本研究的模擬研究已有考慮人數、題數與測驗結構等變項，並足以驗證所提出之參數估計方法。然這些參數的操弄仍不足以涵蓋所以實徵分析過程中所

遇到的資料型態，比方說：不同測驗試題類別、不同等化資料收集方法等等，這些情況下使用本論文所提出的各種參數估計方法，是否會獲得如同本論文的結論一樣，仍有待商榷。

三、實徵資料分析過程

真實資料分析過程因為沒有真值可以供比對與驗證分析的結果。於此，本論文僅使用de la Torre與Song (2009) 所用的評估方式，以論述該實證資料較適合用 HIRT模式進行分析。然是否存在更為貼切的評估方式(基於HIRT模式下)可更正確的比較與評估，這有待後續研究者的探究。

在文檔中階層式試題反應理論模式及其等化估計方法 (頁 8-13)

緒論

第一節 研究動機

第二節 研究目的

第三節 研究架構

第四節 名詞解釋

第五節 研究範圍與限制

第一節研究動機

第二節研究目的

第三節研究架構

第四節名詞解釋

第五節研究範圍與限制