• 沒有找到結果。

第一章 緒論

第一節 研究動機與目的

第一章 緒論

本研究是以試題反應理論(item response theory, IRT)中三參數 Logistic 模式,

以模擬實驗方式探討進行測驗等化時,比較不同等化設計進行水平及垂直等化之 等化效果。本章將針對研究背景、研究動機、研究目的及重要名詞釋義逐一進行 闡述。

第一節 研究動機與目的

一、研究背景與動機

國內缺乏長期量化指標和標準測量工具來檢視學生學習成就的表現與差 異,以致無法確實瞭解課程實施之成效,亦不利於課程發展之進行與相關教育政 策之研擬。因此,建置一套完整且客觀的學生學習成就資料庫,以追蹤學生學習 的成果並分析其變遷趨勢,進而檢視目前國家教育體制與政策實施是否完善,是 有其必要性。目前教育資料庫的建立普遍受到重視,在國內正建置中之教育資料 庫主要有:(一)「台灣教育長期追蹤資料庫(Taiwan Education Panel Survey, TEPS)」,主要在蒐集全國中等學校學生在身心發展、學習活動、學習成就表現 及其影響因素的多面向資料。(二)「台灣高等教育資料庫之建置及相關議題之 探討」,在建立有關全國高等教育校院特質與狀況、課程、經費、校園環境設備、

校園文化、各科系在校學生素質、學習行為與表現、各學門畢業生、以及教職員 素質等資料的全國性資料庫。(三)「臺灣學生學習成就評量資料庫(Taiwan Assessment of Student Achievement, TASA)」,針對目前國內國小四年級、六年級、

國中二年級、高中二年級以及高職二年級學生,進行跨年級、跨學科之學生學習 成就長期性資料庫的建置,並以能力指標為基準,欲建立同年級不同測驗及不同 年級不同測驗之量尺。綜合上述可以發現,要了解全國學生之學習成效如何,長 期性資料庫的建置是首要項目,欲透過資料所衍生的訊息,提供教育政策參考以

2

及國內專家學者或學術單位進行基礎性的研究。然而,欲建置資料庫必須克服在 進行測驗等化及題庫建製時,容易遭遇到的困難:

1. 受試者人數有限,受測時間有限;

2. 同年級與不同年級測驗間之能力量尺連結;

3. 命題範圍廣大,必須施測大量的試題,方可涵蓋欲測量之範圍。

此外,為了滿足此一目標所建立之題庫,需涵蓋不同認知層次及不同難度,

試題數量將無法由單一受試學生於短時間內完成。在此限制下,若希望能滿足測 驗之目標、減輕受試學生之負擔、比較不同年級及不同年度之變化與擔保所有評 量內容都能測驗到,建立共同量尺,乃是不得不研究的課題。而共同量尺的建立,

必須藉助於測驗等化(test equating)技術之配合,若等化技術不被採用,則大型測 驗將無法順利進行。

測驗等化的目的就是允許相同的測驗在不同的形式下,測驗分數是可以被使 用與解釋的。由於不同受試者能力與不同試題難度控制不易,所以等化方法更為 重要。測驗等化屬於ㄧ種統計和心理測量的方法及技術,在相同的測量結構下,

去調整並連結不同測驗的測驗分數,使得這些測驗是可互相比較的。因此,受試 者僅需要施測題庫中的部分試題,再透過多重矩陣抽樣程序(multiple matrix sampling procedures),來建立不同測驗之分數量尺與受試者能力量尺。而一般在 進行測驗等化時,主要使用的等化設計有以下兩種:

(一)「隨機分配受試者受測某一份測驗」

此等化設計為假設在足夠的受試人數下,隨機分配受試者受測某一份測驗,

而不同測驗的分配是使用螺旋(spiral)排列的方式,由於受試者是隨機分成數組,

因此假定每一測驗所測之受試者的平均能力應大致相同。依此假設,以每組受試 者之平均能力相似為連結(linking),並由測驗等化技術建立測驗間分數之轉化(李 源煌、楊玉女,民89)。

3

然而,在這些不同測驗中,必須有一測驗在上次施測時使用過,此一測驗將 作為建立新測驗分數量尺之橋樑,且受試者在新測驗中之能力量尺必須轉化為舊 測驗中之能力量尺。美國ACT(American College Testing ,ACT)測驗即採用此一等 化設計。

(二)「加入定錨試題(anchor item)於每個測驗」

此等化設計必須在題庫(item bank)中編輯一部份的定錨試題,並且使任一測 驗中均包含一些定錨試題。在設計定錨試題時,必須考量某些原則,譬如這些定 錨試題應是整個測驗的縮影,且其在每一測驗中的位置必須一樣或非常相似的,

在計算分數時,定錨試題通常不併入計分(李源煌、楊玉女,民 89)。因此,在進 行測驗等化時,以受試者在這些定錨試題之作答反應為連結,來調整不同測驗之 間的差異與建立受試者之能力量尺。在連結受試者新測驗與舊測驗中之能力量尺 時,此設計通常只需利用部分試題即可,而美國國家教育進展評量(National Assessment of Educational Progress, NAEP)即採用此一等化設計。

李源煌、楊玉女(民 89)指出,由於第一種等化設計通常有一測驗需在上次施 測時被使用,而在國內基於受測試題必須公佈的原則,這樣的計劃似乎很難實施,

因此,國內若欲實施測驗等化時,將以第二種等化設計為較佳的選擇。是故,本 研究採用上述的第二種等化設計,選擇國內外主要的兩個等化設計,平衡不完全 區塊設計(balanced incomplete block design, BIB)與定錨不等組設計(non-equivalent groups with anchor test design, NEAT),進行測驗等化效果之比較。此外,在建構 測驗題庫時,能力指標個數的多寡會影響測驗試題總數,而試題總數又會牽動 BIB 與 NEAT 等化設計的試題區塊數,以致產生不同 BIB 與 NEAT 設計的問題。

其次,由於施測人數的多寡通常會影響測驗成本與等化品質的兩難取捨,解決之 道唯有透過模擬試驗之結果來作決定,然而在母群體未知的狀況下,本研究假設 學生之能力分布為常態分布。職是之故,本研究就能力分布與施測人數的不同以

4

及為進行垂直等化而牽動的不同定錨試題數來進行模擬試驗,以了解等化後所估 計的能力值與試題參數風險效果,期能了解在最少人數下,估計風險達到尚能接 受的程度,並保持等化的效果,以提供決策者決斷的訊息。

5

二、研究目的

由於國內較少進行大規模的測驗,對於測驗等化的研究亦不多,根據上述背 景及動機,本研究從測驗等化設計著手,由於國內外之大規模測驗,其測驗題本 設計大概以BIB 及 NEAT 等化設計為主,但基於文獻有獻,且較少針對等化效果 與跨年級、跨年度之模擬研究進行探討。是故,不足以針對TASA 計畫中之問題 提出完整研究報告,因此,本論文將進行測驗資料之模擬,利用 BIB 與 NEAT 等化設計,比較等化後估計的能力值風險與試題參數風險效果。此外,為了建立 同年級不同測驗及不同年級不同測驗之量尺,本研究亦進行水平及垂直測驗之等 化設計。基本上,本研究之目的為:

1. BIB 及 NEAT 設計於不同施測人數下水平等化效果;

2. BIB 及 NEAT 設計於不同試題區塊數下水平等化效果;

3. BIB 及 NEAT 設計於不同施測人數下垂直等化效果;

4. BIB 及 NEAT 設計於不同試題區塊數下垂直等化效果;

5. BIB 及 NEAT 設計於不同垂直定錨數下垂直等化效果;

6

相關文件