第一節 研究動機
能力結構為階層式之模式在心理與教育領域的研究與實務中已被廣泛的接 受 (de la Torre & Song, 2009; Carrol, 1993; Cronbach & Snow, 1977) ,這些具備階 層式之能力被分為兩大類 (de la Torre & Song, 2009) ,包括,在測驗情境下所定 義的一般能力(general ability) (Spearman, 1904) 與多元能力(multiple abilities)(例 如:Thurstone, 1938)。其中,一般能力相對於多元能力是屬高層的能力;而多元 能力相對於一般能力是屬較低層的能力 (Gustafsson & Snow, 1997) ,本文將隸屬 於高層的一般能力定義為總體量尺分數(overall score);而隸屬於較低層的多元能 力定義為領域量尺分數(domain score)。關於這兩類的量尺分數,目前有越來越 多的大型測驗技術報告中都有將這兩類分數呈現出來,以 PISA(The Programme for International Student Assessment)為例,根據 PISA2003 年技術報告中陳述兩種 不同量尺分數之報告型式,以數學科評量架構為例,包括用以描述數學科能力 (mathematics) 的 主 要 領 域 量 尺 分 數 (major domain score) (OECD, 2005, 頁 354) ;以及用以描述所屬四個主題領域量尺分數(subject domain score),包括數 量(quantity)、空間與形體(space and shape)、改變與關係(change and relationships) 及不確定性(uncertainty)四個數學能力 (OECD, 2005, 頁 412)。
一 般 實 務 分 析 過 程 中 , 領 域 量 尺 分 數 採 多 向 度 試 題 反 應 理 論 (multidimensional item response theory, MIRT)模式;總體量尺分數採單向度試題反 應理論(unidimensional item response theory, UIRT)模式 (OECD, 2005) 。然,依據 過去的研究顯示在具備多向度的測驗結構下,透過 UIRT 估計總體量尺分數將對 估計結果產生偏誤(bias)與無效度(not be valid)的現象 (Ackerman, 1992; de la Torre & Patz, 2005; Wainer 等, 2001) 。於此,越來越多的階層式試題反應理論 (hierarchical item response theory, HIRT)模式被發展出來解決上述的問題並提供 更為精確的領域量尺估計之結果 (de la Torre & Song, 2009; de la Torre & Hong, 2010) 。其中,又以 de la Torre 與 Song (2009) 和 de la Torre 與 Hong (2010) 所提 出 的 單 因 子 階 層 試 題 反 應 理 論 (one-factor higher-order item response theory,
2
但是 HO-IRT 模式的發展過程中,仍有些限制需要改善:
(1)僅探究多向度架構下的題間多向度測驗(between-item multidimensional test) 而尚未探究題內多向度測驗(within-item multidimensional test),此外,亦無探究 當資料具備 HIRT 模式結構時,誤用 UIRT 模式與 MIRT 模式對參數估計精準度 所造成的影響,此外,僅考慮到單一總體量尺分數的結構,而無考慮多個總體量 尺分數的結構及其參數估計的成效。
(2)量尺分數分布非必然遵守常態分布的假設,當常態的假設無法被遵守時參 數型(parametric)估計方法之估計結果將產生偏誤 (Ferrando, 2003; Woods, 2006;
Woods & Thissen, 2006; Woods, 2007) 。目前 IRT 領域正如火如荼的發展各種無 參數型(nonparametric)的參數估計方法以解決這樣的問題,如各種商業軟體:
BILOG-MG (Zimowski, Muraki, Mislevy, & Bock, 1996) 和 Parscale (Muraki
& Bock, 1996) 採用經驗貝氏資料分析(empirical baysian data analysis)來進行估 計,此外,Woods (2004) 利用 Ramsay curves、Woods 與 Thissen (2006) 使用 B-Spline 和 Woods 與 Lin (2008) 使用 Davidian Curves 等曲線估計方式針對模式 的參數進行估計。
但是在 HIRT 模型中,目前仍無相關研究探究當量尺分數無遵守常態方布假 設時,非常態分布的現象將對參數型的參數估計結果產生何種影響。此外並適用 於 HIRT 模式的無參數估計方法被提出,以使得 HIRT 模式得以在非常態分布的 情況下,得以進行參數估計。
(3)此外,目前 HIRT 模式研究大多著眼於模式建立及參數估計,相關應用領 域如:等化(equating)、試題差異功能(differential item functioning, DIF)、電腦化 適性測驗(computerized adaptive test, CAT)及大型測驗中可能值方法(plausible values methodology, PV)皆尚無相關研究。
本研究將針對上述之限制加以改善,並輔以臺灣學生學習成就評量資料庫 (Taiwan Assessment of Student Achievement,簡稱 TASA)為例,同時提供理論與 實務之驗證。
第二節 研究目的
本研究旨在提出 HIRT 模式的無參數型參數估計方法與適用於 HIRT 模式的 等化同時估計方法,同時探究各參數估計方法於多種不同模擬情境(人數、題數、
計分模式、能力分布與試題架構之不同)與臺灣學生學習成就評量資料庫(Taiwan Assessment of Student Achievement,簡稱 TASA)下的表現,提供 HIRT 模式於後 續實務應用於大型測驗過程中的一個依據。
為了達到上述的研究目標,本研究之研究目的設定如下所示:
一、探究資料具備階層式結構時,模式的誤用對參數的估計之影響。
二、探討非常態能力分布對 HIRT 模式參數估計法之影響。
三、研發 HIRT 模式無參數估計法。
四、研發 HIRT 模式等化同時估計法。
五、透過實徵資料的分析了解 HIRT 的實際運作流程。
第三節 研究架構
為達前節所設定之研究目的,本研究架構主要分成五個章節,第一章為研究 動機、目的以及研究架構;第二章主要針對所需文獻進行探究;第三章主要針對 本研究所用之工具與參數估計方法進行理論推導並論述各實驗設計之相關細 節;第四章提供各個實驗設計下的實驗結果,並針對的各項數據加以比較以呈現 出足以驗證各研究目的的證據;第五章提供整個研究的結論與建議,並論述後續 在 HIRT 模式發展過程中可持續研究之相關議題。
第四節 名詞解釋
針對本研究常見的名詞,釋義如下﹕
一、領域量尺分數
當一份測驗是屬多向度的測驗,其意指該測驗架構的試題具有多向度特質 (Reckase, 1985; 1997) ,亦或指該份測驗同時測量多個學科內容 (Ackerman, Gierl,
& Walker, 2003) 。該測驗架構下,測量相同學科內容的試題被視為一個測驗的 子集合(subset),而對應於該測驗之子集合的能力值在de la Torre與Song (2009) 的
4
文章裡定義為domain ability,而PISA的技術報告 (OECD, 2005) 則是以主題領域 量尺分數(subject domain score)來呈現,本研究統一將之定義為領域量尺分數 (domain score)。
二、總體量尺分數
此外,依據de la Torre與Song (2009) 所用之智力與能力的觀點進一歩闡述,
可以了解,一份測驗所測量的多個domain ability中存在一個用來表示總分的共同 的能力,該能力在de la Torre與Song (2009) 的文章裡定義為overall ability,而PISA 的技術報告 (OECD, 2005) 則是以主要領域量尺分數(major domain score)來呈 現,本研究統一將之定義為總體量尺分數(overall score)。
三、階層式試題反應理論模式
本文所定義之階層式試題反應理論(hierarchical item response theory,簡稱 HIRT)模式,所指為模式中同時具備總體量尺分數與領域量尺分數且兩類領域量 尺分數存在著線性關係之 IRT 模式。
第五節 研究範圍與限制
研究過程中,仍有部分的設計與資料的產生並無法涵蓋所有教育現場之資 料,因此研究結果與結論僅能適當推論而無法進行過多的臆測。下述將列出本研 究所無涵蓋之重要變項:
一、HIRT模式假設
本文所定義之HIRT模式所指為總體量尺分數與領域量尺分數間為線性關係 的模式。然一般教育現場中,總體量尺分數與領域量尺分數間關係是否僅具備線 性關係,仍有待進一步研究與探討。
此外,模式中試題與領域量尺分數間概似機率分布(likelihood distribution),
僅 探 究 多 向 度 隨 機 係 數 多 項 洛 基 模 式 (multidimensional random coefficients multinomial logit model, MRCMLM)模式下的情況,對於其他IRT模式的使用是否 會獲得相同結論,仍有待進一步研究與探討。
二、模擬研究設計
雖然本研究的模擬研究已有考慮人數、題數與測驗結構等變項,並足以驗證 所提出之參數估計方法。然這些參數的操弄仍不足以涵蓋所以實徵分析過程中所
遇到的資料型態,比方說:不同測驗試題類別、不同等化資料收集方法等等,這 些情況下使用本論文所提出的各種參數估計方法,是否會獲得如同本論文的結論 一樣,仍有待商榷。
三、實徵資料分析過程
真實資料分析過程因為沒有真值可以供比對與驗證分析的結果。於此,本論 文僅使用de la Torre與Song (2009) 所用的評估方式,以論述該實證資料較適合用 HIRT模式進行分析。然是否存在更為貼切的評估方式(基於HIRT模式下)可更正 確的比較與評估,這有待後續研究者的探究。
6