• 沒有找到結果。

本研究根據試題反應理論(item response theory, IRT)中三參數logistic模式

(three-parameter logistic model, 3PL)與一般化部分給分模式(generalized partial credit model, GPCM),以模擬實驗方式探討不同次級量尺分數(subscale score)

計算方法之差異;並探討不同次級量尺分數計算方法於單一測驗設計與等化測驗 設計中,其測驗分數估計之效果。本章將針對研究動機、研究目的與名詞釋義進 行闡述。

第一節 研究背景與動機

近年來,隨著資訊科技快速進步、測驗形式的改變及需求量的快速增加,大 型測驗(large-scale assessments)的議題廣泛受到矚目。大型測驗依其功能之不 同,大致可分為兩種類型,一為具有篩選功能之大型測驗,例如「國中基本學力 測驗(The Basic Competence Test for Junior High School Students)」、「大學學力 測驗(College Entrance Examination)」及「美國大學入學測驗(American College Test, ACT)」等。這些大型測驗主要目的為測量學生的學科能力,提供學生於高 中入學或大學入學之依據。另一種為建立教育資料庫之大型測驗,例如「台灣教 育長期追蹤資料庫」(Taiwan Education Panel Survey, TEPS)」、「臺灣學生學 習成就評量資料庫(Taiwan Assessment of Student Achievement, TASA)」、「國 際數理趨勢研究(The Trends in International Mathematics and Science Study, TIMSS)」、「國家教育進展評量(National Assessment of Educational Progress, NAEP)」、「國際學生評量(Program for International Student Assessment, PISA)」

及「國際閱讀發展研究(Progress of International Reading Literacy Study, PIRLS)」。 這些大型測驗主要目的為建置一套完整且客觀的學生學習成就資料庫,並且藉由 例行性地學生資訊蒐集及統整,以追蹤學生學習的成果及分析其變遷趨勢,進而

檢視目前國家教育體制與政策實施是否完善。然而不管是具有篩選功能或是欲建 立教育資料庫之大型測驗,實施時常會遇到許多問題,例如:題庫(item bank)

建立、題本設計(booklet design)、資料收集設計(data collection design)、樣 本的設計(sample design)、通過標準設定、參數估計(parameter estimation)、

量尺化程序(scaling procedures)、分數量尺(score scale)之計算、次級量尺分 數之報告等。然而,這些問題大部分已經有許多相關且完整的研究報告及實施程 序的探討,例如:TEPS心理計量報告(楊孟麗、譚康榮、黃敏雄,2003)、The NAEP 1998 Technical Report(Nance, John, & Terry, 2001)、TIMSS 2003 Technical Report(Martin, Mullis, & Chrostowski, 2004)、National Indian Education Study 2007 Part I(Moran, Rampey, Dion, & Donahue, 2008),但卻無針對次級量尺分數之相 關研究及分析報告進行探討。因此,本研究的主要目的將著重於不同次級量尺分 數計算方法之研究。

測驗的整體分數通常使用來評斷個人等級,測驗的次級量尺分數通常有助於 教師評斷學生的特殊專長及弱點(Yen, 1987;Wainer, Vevea, Camacho, Reeve, Rosa, Nelson, Swygert, & Thissen, 2000),這兩種分數提供受試者表現不同訊息重要度 之解釋。然而,若能直接測量學生各面向的能力,將會比由學生整體成績來預測 學生於各面向表現程度有較好的效果(Bock, Thissen, & Zimowski, 1997)。因此,

若能精準的估計次級量尺分數,便能有效提供受試者更多訊息,所以次級量尺分 數的報告亦為許多大型測驗所感興趣的問題(Kahraman & Kamata, 2004)。舉例 來說,2007臺灣學生國語文學習成就評量(TASA-LAN 2007),測驗內容包含字 詞測驗(如字音、字形及字義等)、語法句式測驗(如句型與語態的辨識、文法 與修辭的運用及標點符號、連接詞的使用等)及閱讀測驗(如閱讀方法與理解能 力運用)等(台灣學生學習成就評量資料庫,2007);PISA 2006數學能力測驗

(Mathematical Literacy in PISA 2006),測驗內容包含量數(quantity)、空間與 形狀(space and shape)、推論(reasoning)及不確定性(uncertainty)(PISA 2006)。

因此,可知藉由測驗的整體分數能了解學生的整體表現,而藉由測驗的次級量尺 分數報告則能呈現學生在字詞測驗、語法句式測驗及閱讀測驗等面向的優勢與劣 勢(以TASA-LAN 2007為例),不僅有助於個別化的學習指導,更能掌握學生各 面向的表現水準。

次級量尺分數計算通常會遇到試題數過少的問題,使得次級量尺分數估計誤 差大。因此,若測驗能有足夠多的試題來測量相同的次級量尺,則能精確的估計 次級量尺分數,且對於次級量尺分數之報告為可信的。然而,在真實情境中,次 級量尺之試題數通常很少,這是經常存在的問題(Pommerich, Nicewander, &

Hanson, 1999)。由上述能發現,最常使用來增加測驗分數估計精準度的方式為增 加試題數,但在大型測驗中,由於受試者接受的測驗可能包含許多次級量尺,為 避免試題數過多,導致學生無法於短時間內順利完成,試題數的不足被視為次要 的條件。

第二節 研究目的

雖然國外已有學者針對次級量尺分數之研究進行探討,但是國內部分目前尚 無相關研究,且並沒有研究比較這些方法使用於等化測驗設計。此外,本研究除 探討國外學者所提出的幾種常見的次級量尺分數計算方法外,亦提出新的次級量 尺分數計算方法。綜合上述,茲將本研究目的歸納如下:

一、 比較研究者提出之新的次級量尺分數計算方法,其測驗分數估計效果。

二、 單一測驗設計中,不同次級量尺分數計算方法於不同次級量尺相關程度、

施測人數、測驗題型混合比例、次級量尺個數及次級量尺測驗長度之估計 效果。

三、 等化測驗設計中,不同次級量尺分數計算方法於不同次級量尺相關程度、

施測人數、定錨試題配置及等化方法之估計效果。

第三節 名詞釋義

一、 次級量尺分數

次級量尺分數係指能測量之學生各面向的能力,這些面向可以為學習目標

(learning objectives)、子測驗(subtests)或是學習規範(learning standards),其 目的在提供各面向訊息。如數學科成就測驗包含測量、幾何及空間感、代數及函 數等。

二、 選擇題

選擇題(multiple choice items, MC items)的構成包含題幹(stem)、選項或可 能答案(options, possible answers, alternatives)、正確答案或最佳答案(correct answer, best answer)及誘答(distractors, misleads, foils)。由命題者提出問題後要

求學生作反應,且通常只有一個正確答案(歐滄和, 2002),有一致且客觀的評分

方式,不是對就是錯。

三、 建構式反應測驗題

建構式反應測驗題(constructed response items, CR items)依據學生能自由發 揮程度,可以分成簡答題(short answer questions)、申論題(essay test)及研究 計畫。其作答為由受試者自由書寫,不受試題所提供選項的限制,但是仍然有客

觀的標準答案(歐滄和, 2002)。通常為人工閱卷,並無一致的評分方式,給分方

式可以為部份給分。本研究所使用的建構式反應測驗題為三點計分。

四、 單一測驗設計

單一測驗設計有別於等化測驗設計之測驗題型,係指一般測驗情境。本研究

之單一測驗設計有 MC 試題及由 MC 試題與 CR 試題組合而成之混合測驗試題

(mixed-format tests)。

相關文件