本 研 究 茲 以 單 向 度 詴 題 反 應 理 論 ( uni-dimensional item response theory, UIRT)中三參數 Logistic 模式為基礎,以電腦模擬資料與實徵資料來探討結合輔 助訊息之不同估計方法,對於個體能力值與群體能力值估計之效果。本章將針對 研究動機與背景、研究目的、待答問題、名詞釋義四部份逐一進行闡述。
第一節 研究動機與背景
近 年 來 , 國 外 各 大 型 測 驗 , 如 : 美 國 國 家 教 育 進 展 評 量 (The National Assessment of Educational Progress, NAEP)、國際數理成就趨勢調查(The Trends in International Mathematics and Science Study, TIMSS) 、國際學生能力評量計畫 (Program for International Student Assessment, PISA)、促進國際閱讀素養研究 (Progress in International Reading Literacy Study, PIRLS)等,皆聚焦於學生能力的整 體表現,以作為國家教育政策訂定與教育力評估之指標。國內部份,在九年一貫 施行以後,陸續有全國性學生學習成就資料庫之建置計畫,例如:臺灣教育長期 追蹤資料庫(Taiwan Education Panel Survey, TEPS)(楊孟麗、譚康榮、黃敏雄,
2003)、臺灣高等教育資料庫之建置及相關議題之探討、臺灣學生學習成就評量 資料庫(Taiwan Assessment of Student Achievement, TASA)等(郭伯臣、曾建銘、
吳慧珉,2012),亦以評估群體之能力參數為目標,但目前仍以傳統的點估計方 法來推論群體參數值,然國外相關研究指出若以點估計方法進行群體參數的推 估,容易造成偏誤(Mislevey, 1991; Mislevy, Beaton, Kaplan & Sheehan, 1992;
OECD, 2009; Lee, Grigg & Dion, 2007),故目前國外大型測驗多採用可能值方法 (plausible value method, PV)做為群體能力參數之估計(Lee, et al., 2007; OECD, 2009;張郁雯,2009)。
Mislevy 和 Sheehan(1987, 1980)根據插補理論(Rubin, 1987)提出可能值的概 念,可能值方法是以潛在迴歸模式進行受詴者能力值之估計,除考慮受詴者答題 反應外,更加入和學生相關之背景變項(如性別、社經地位等)來作為輔助訊息 (ancillary variables, AV),估計每位受詴者能力之後驗機率分佈,再於此分佈中隨 機抽取數個受詴者的能力值,以呈現受詴者「可能合理」的能力值範圍(吳慧珉,
2011),由於未先估計學生個別能力再回復群體能力參數,而是直接針對母群體 能力參數進行估計,故適合描述群體之特性(Mislevey, 1991;Mislevey, et al., 1992;王敏嫻,2011;葉昶成,2012)。
目前國外關於可能值方法的研究多著重於估計方法的改善,如 Adams 等學 者 使 用 迴 歸 模 式 來 取 代 帄 均 數 並 納 入 背 景 變 項 做 為 輔 助 訊 息 , 以 expectation-maximization(EM)法來估算母群和詴題的參數,使可能值方法在能力 估計時獲得較小的均方誤差(Adams, Wilson & Wu, 1997)。但國內有關大型測驗的 相關研究,多未以可能值方法來推估整體的能力值,而採估算出個體能力值之帄 均數與變異數後,再以此推估整體受詴者的表現,如:黃國清等針對台南地區國 中生進行數學數學標準化成就測驗之編製與其相關之研究,即以單向度 IRT 模式 為基礎,以估算而得之詴題參數來推估群體受詴者之能力值(黃國清、吳寶桂,
2006)。
國內可能值方法的相關論文研究僅有王敏嫻(2011)以可能值方法來探究帄 衡不完全區塊設計(balanced incomplete block design, BIB)與定錨不等組設計
(non-equivalent groups with anchor test design, NEAT)兩種水帄等化(horizontal equating)的連結設計在單向度單參數 IRT 模式下個體能力值及群體能力值之回 復性研究。葉昶成(2012)針對垂直等化(vertical equating)議題,在單向度單參數 IRT 模式下進行進行可能值方法及其它估計方法的估計效果探討。綜上所述,目 前國內可能值相關研究皆僅著眼於單向度單參數模式。
臺灣學生學習成就評量(TASA)實施的目的在了解國小四年級、六年級、國中
二年級、高中二年級及高職二年級學生成就的現況及其關聯背景因素,希望能提 供教師、家長、教育行政和研究人員綜觀且具體的參考資訊,而其在數學科的詴 卷設計採選擇題的命題方式,因選擇題之題型特性容易讓受詴者在面對未有把握 題目時進行猜臆的動作,故在評估受詴者之能力時,應同時考量難度、鑑別度與 猜測度之詴題參數,故採三參數 IRT 模式應是較適切之估計模式,然而目前國內 對於單向度三參數模式下可能值方法估計效果這方面的研究卻仍付之闕如,是以 本研究採用模擬資料及實徵資料分別進行分析與探討,依據 TASA(2010)國二數 學科的命題架構採 BIB 題本設計,在 IRT 單向度三參數模式下,探討在不同估計 法方法、不同施測題數與 BIB 等化連結和完整作答反應設計下,對於個體與群體 能力值之估計效益比較,期待提供國內大型測驗未來進行分析之參考,最後再輔 以 TASA2010 年國二數學科之實徵資料來驗證模擬資料之結果。
第二節 研究目的
本研究以模擬資料探討在 IRT 單向度三參數模式下,加入背景變項為輔助訊 息時,於不同估計方法下對於個體與群體能力估計之效果比較。最後以實徵資料
(TASA2010 年國中二年級數學科)為例進行驗證,本研究目的臚列如下:
壹、探討納入背景變項作為輔助訊息與否,在 BIB 等化連結和完整作答兩種題本 設計下,對於個體與群體能力參數估計之影響。
貳、探討納入背景變項作為輔助訊息與否在 BIB 等化連結設計和完整作答兩種題 本設計間反應估計能力值之影響。
參、探討不同題本長度在 BIB 等化連結設計情境對於個體與群體能力參數估計之 影響。
肆、探討納入背景變項作為輔助訊息於實徵資料中驗證結果。
第三節 待答問題
根據本研究之目的,擬定待答問題如下:
壹、 參數估計方法納入背景變項作為輔助訊息與否,在 BIB 等化設計與完整作 答反應種題本設計下,對於模擬資料個體能力值與群體參數值估計之影響為 何?
貳、參數估計方法納入背景變項作為輔助訊息與否,在 BIB 等化設計與完整作 答反應兩種題本設計間估計能力值之影響為何?
參、在不同題本長度之 BIB 等化設計情境對於模擬資料個體能力值與群體參數值 估計之影響為何?
肆、參數估計方法納入背景變項作為輔助變數之與否、相關高低在實徵資料中驗 證情形為何?
第四節 名詞釋義
為利於本研究之分析與討論,茲針對測驗等化之連結設計、完整作答反應估 計 能 力 值 (Complete) 、 加 入 輔 助 訊 息 之 期 望 後 驗 估 計 法 (EAP with ancillary variables, EAP_AV)、根均方差(root mean square error, RMSE)進行釋義如下:
壹、測驗等化之連結設計
在測驗發展初期,即需考慮將來不同測驗間的連結,常見的等化連結 設計 計有四種,分別為單組設計(single-group design)、等群組設計(equivalent-group design)、定錨不等組設計(non-equivalent groups with anchor test design, NEAT)、帄 衡不完全區塊設計(balanced incomplete block design, BIB)等(余民寧,2009)。
本研究所使用的測驗等化連結設計依據TASA(2010)詴題架構採帄衡不完全區塊 (BIB)設計。
BIB 等化連結設計是將詴題分成若干詴題區塊,區塊間的詴題皆不重複。並
依需求將詴題區塊進行組成詴卷,不同受詴者可能接受部分相同、完全相同、或 完全不同的詴題區塊,最後,將所有受詴者的作答反應資料進行等化分析。
貳、完整作答反應估計能力值(Complete)
完整作答反應估計能力值係指模擬受詴者作答所有詴題,並將所有完整作答 反應進行能力值之估計,用以比較受詴者在透過等化連結設計後對於不同參數估 計方法之影響。本研究之完整作答反應估計能力值用以與BIB等化連結設計的情 況下進行估計進行比較。
參、加入輔助訊息之期望後驗估計法
加入輔助變數之期望後驗估計法(EAP_AV)是將期望後驗估計法(EAP)方法 加入輔助訊息進行後驗分佈的估計,本研究所指的加入輔助變數之期望後驗估計 法為找出後驗分布之帄均值作為受詴者之能力值,而不同於可能值方法從後驗分 佈中抽取五個可能值作為受詴者之能力值。