分數概念題庫之建立:
跨學習階段的校準與測量
摘 要
本研究目的旨在整合目前現有的分數概念研究之紙筆測驗題目,經古 典試題理論、項目反應理論雙參數羅吉斯模式篩選,校準學生跨學習階段之 能力,同時建立一個可以後續發展的題庫。本研究定義分數概念為五個數學 內容上的子概念與四個認知處理程序,受測對象為台灣地區北中南國小三到 六年級2771位學生,以專家檢驗與雙向細目表確認內容之正確,並以瑞文式 標準圖形推理測驗與各子概念建立效標關聯效度證據。研究結果顯示,各分 數子概念愈難,則與圖形推理測驗愈困難時的相關愈高,表示當學生在回答 困難的分數概念試題時需要運用更高層次、更有彈性的圖形推理思考能力。
學生在經過連結後的134個分數概念試題的表現,由高而低分別為六年級(
1.51)、五年級(0.52)、三年級(0.10)、四年級(-0.17);整體題庫試 題平均難度為-0.67,平均鑑別度為1.33。由於四年級學生遇到新舊課程銜接 的斷層,使得四年級學生的平均能力值與三年級沒有顯著差異,不同年級與 不同數學版本間在學生的能力值上有顯著交互作用存在。
關鍵詞:分數概念、項目反應理論、教材版本、題庫 林俊吉
國立㆗正大㈻心理㈻系博士候選㆟
吳毓瑩
國立台北教育大㈻心理與諮商㈻系教授
呂玉琴
國立台北教育大㈻數㈻暨㈾訊教育㈻系教授
Abstract
The purpose of this study was to develop a test composed of 134 items selected from 178 items through classical test theory and two parameter logistical model of item response theory. Two dimensions of fraction concepts were represented by the items:
Five sub-concepts in mathematical contents and four levels of cognitive processing. The average difficulty was -0.67 and the average discrimination was 1.33. Students’ ability levels were: 1.51 for the 6th graders, 0.52 for the 5th graders, -0.17 for the 4th graders, and 0.10 for the 3rd graders. The gaps in the old curriculum and new curriculum for the 4th graders might be the reason of their lower performance was not significantly superior to the 3rd graders. Interaction existed among grades and textbook versions.
Keywords: fraction concepts, item response theory, curriculum and materials, item bank
Developing an Item Bank of Fraction Concepts
Yuh-Chyn Leu
Professor, Department of Mathematics and Information Education, National Taipei University of Education
Jyun-Ji Lin
Ph. D. Candidate, Department of Psychology, National Chung Cheng University
Yuh-Yin Wu
Professor, Department of Psychology and Counseling, National Taipei University of Education
壹、緒論
分數概念(fraction concepts)是指學生在「平分、測量、比例、部分∕
全部」四種皆有「除法」的意義下,所展現出的心智表徵狀況,分數能力 是指操作此表徵的能力。分數與小數、百分率、比、除法等概念之關係十 分密切,學習者所面臨的情境變化非常多,因此學生需瞭解各種表徵系統,
並透過表徵以呈現其瞭解,例如圖形、符號、語言、與具體操作等(Behr, Wachsmuth & Post, 1988; Lesh, Behr & Post,1987)。
關於分數能力之測量,紙筆測驗乃為最普遍的工具,國內一些研究者 已編製了許多分數概念試題(陳靜姿,1999;游政雄,2002;黃靖瑩,2003;
詹婉華,2004;龐嘉芬、陳淑琳,2000),期望能篩選出有迷思概念的學 生,以歸納學生在分數概念上典型的犯錯類型。可惜的是這些研究所得結果 並未校正在同一量尺上,施測的對象也分立在各個年級中,使得測驗分數在 跨年級的解釋上容易失準。研究者整合上述測驗內容,但是不以迷思概念為 核心,而以認知處理程序為出發觀點,橫斷性地討論三、四、五、六年級學 生的分數概念之能力面向與發展狀況。透過題目的整合,吾人可以了解分數 能力在各個分數子概念下所對應的量尺位置,有助於提高測驗品質以及對於 分數之內容知識與認知處理程序之解釋的效度。
許多研究已指出建立題庫可以收集不同層級水準的試題,將試題特性 與學生的能力校準在同一量尺上,不但能使測驗分數在比較時有意義,更能 呈現學生在不同學習階段的成長趨勢樣貌(王力行、周東山,1996;吳裕 益,1991;張敏強,1999;簡茂發,1999)。由於建立題庫對於測驗編製以 及使用具有經濟效益、方便、以及彈性運用等優勢,特別是利用「項目反應 理論(IRT, item response theory)」模型所建立的題庫,其選題組卷的品質 通常會比測驗實施者自己編寫題目的品質還要好(Choppin, 1985; Hambleton
& Swaminathan, 1985; Suen, 1990; Vale, 1986)。本研究今提出分數概念之題 庫雛形架構,研究者透過項目反應理論(IRT)之參數估計,使得題目之性 質可幫助教學者或研究者對於不同學習階段的學生,以能力為依歸,瞭解學
生分數概念不同面向的表現;另外,透過此題庫之建立,亦可以作為未來電 腦適性測驗之準備。
貳、文獻探討
一、分數概念的評量
(一)分數概念的意義
「分數(fraction)」在不同情境下所指涉的意義不同,需要有多種的 定義才能充分描述在不同情境所代表的意義。根據九年一貫數學學習領域課 程綱要(教育部,2003),分數包含「平分」、「測量」、「比例」、「部 分/全部」四種意義,這四種意義的核心意涵是「除的意涵」。在課程綱要 中,分數是歸類在國小階段數與量主題下的「有理數」中,是以有理數來看 待分數。課程綱要指出「有理數即分數,有些分數可以小數表示。」因此不 管是分數還是小數都有著「平分」、「測量」、「比例」、「部分/全部」
四種意義。
「概念」指的是某種「類別」的心智表徵(彭聃齡、張必隱,1999;
Medin, Ross & Markman, 2002)。Vergnaud(1988;引自呂玉琴,1991)認 為,概念可以用一個三元組C =(S,I,R)來表示。C指的是概念、S是使概念 有意義情境(situation)的集合、I是情境中的共同不變性(invariance)、R 是為呈現共同不變性與表達情境的表徵(representation)。研究者認為,概 念的本質是一種「關係」的呈現,這種關係指的是能夠掌握某類事物共同屬 性的關係,而且這個關係必需要在一個有意義且不變的情境下才能建立。本 研究所指的分數概念就是在「平分、測量、比例、部分/全部」四種不同有 意義情境下,共有著「除的意涵」的不變性,並透過各種不同的表徵方式加 以呈現。
(二)分數概念評量的處境與需要
分數概念的學習情況,如以紙筆測驗檢驗者,主要在測量學生對於分
數概念的「圖形」、「符號」、以及「語言」的表徵能力。至於「具體操作 表徵」與「真實情境表徵」礙於紙筆測驗的限制,無法展現在紙筆測驗的結 果中。呂玉琴(1991)曾指出,在分數概念的研究方法中,紙筆測驗的限制 在於無法進一步探討學生解題的思考過程及影響其思考的真正原因,呂玉琴 並建議採用「個別面測」的方法才能隨學生的反應而當下調整問題的難易,
以了解學生所具備的分數概念。研究者認為,在分數概念的研究初期確實需 採用個別面測或訪談的方法來瞭解學生的解題歷程及錯誤類型,而當研究已 能掌握學生的認知處理程序與典型錯誤類型時便可開始編製分數概念測驗,
以收診斷之效率。在分數概念的紙筆測驗上,測驗編製者可以將學生的不同 認知處理程序中的典型錯誤類型編入各題目的選項中,使得每個試題能夠區 辨學生的典型錯誤類型,並藉由紙筆測驗的結果找出學生分數能力的整體趨 勢。
編製好的分數概念試卷必須一再地修訂,因為一份好的測驗是需要持 續不斷地進行「有效化」工作,透過不同來源的證據,並與理論相互辯證以 修正測驗,如此連續不斷的有效化歷程(validation),是一個良好紙筆測驗 的基礎(吳毓瑩,2004)。關於分數概念,目前為止,已經有許多研究者編 製許多分數概念試卷,利用大規模施測的方式尋找不同背景變項學生在各分 數子概念的整體表現與典型錯誤類型(陳瑞發,2003;游政雄,2002;詹婉 華,2004)。這些研究中亦提出分數概念試題未來能以電腦適性測驗結合線 上評量的方式,以便利未來在施測的過程中隨著學生的反應調整問題的難 易。研究者認為,題庫的建立可以將試題特性與學生的能力校準在同一量尺 上,使能呈現學生分數概念能力在不同階段一個連貫趨勢的樣貌。對於學生 在不同版本教材的學習,亦能透過題庫建立的過程了解教材順序安排對於學 生學習能力的關係。同一個年級的學生在學習不同內容的分數概念教材後,
經過本研究的試題施測,採行不同版本教科書的學生會因版本教材安排順序 的不同而造成其能力上的差異。不同年級學生會因年齡的發展使得分數概念 學習經驗的增加,透過試題施測後,不同年級學生的學習發展情形會展現在 分數差異上。從測驗構念的角度來看,若試題能將受試者不同的學習經驗反
映在能力估計上,本研究試題所測量的構念,的確為分數概念學習後的 能力。鑑於目前學生在分數概念對不同版本的學習成果之橫斷性實徵證據 不多,故研究者在建立題庫為電腦適性測驗做準備的同時,並予以了解學生 在不同年級、性別與版本教材的學習狀態。
二、關於題庫的建立
(一)題庫的定義與分類
題庫的定義,學者各有不同的看法。Millman & Arter(1984)認為,
題庫是在編製測驗時能方便挑選試題的大型試題集合。Choppin(1981)、
Lippey(1974)、Mead(1981)、Newbould 和Massey(1977)等人認為,
題庫不光只是試題的集合而已,題庫會依據試題的內容、試題特性(難度、
信度等),經過組織、分類後,以電腦化的方式儲存以確保試題的品質,並 將試題的難度放在同一量尺上進行校準。這樣的定義雖然精確地指出題庫建 置時的大致樣貌,但是卻也限制了題庫建置者必須使用精確的量尺化技術才 能算是真正地在建立題庫。研究者認為Umar(1999)的看法比較彈性且為 實用,Umar表示題庫的定義是依照題庫使用者的目的而有所不同,並非只 有限於使用IRT的量尺化技術才算建立題庫。然而,不管題庫的定義為何,
這些定義都有一個共通點-只有好題目才會被收納到題庫裡。
Umar(1999)依據題庫使用者在編製測驗的目的之不同,將題庫分為 基本水準、進階水準、以及高級水準三類:
1.基本水準的題庫(basic level)
基本水準的題庫是一個「內容有效」的題庫,題庫內的試題皆為內容 適當、評量項目具有代表性、試題在命題時能符合測驗編製的原則。測驗實 施者若要編製的測驗類似隨堂測驗或測驗分數不重要時,便可利用基本水準 的題庫來編製測驗,如:劉湘川、黃孝雲(1998)的國小國語科在家考試題 庫。
2.進階水準的題庫(advanced level)
進階水準的題庫是一個「具有傳統實徵證據」的題庫,除了滿足基本
水準題庫的內容有效外,並藉由古典測驗理論的方法來建置題庫。測驗實施 者若要發展標準化測驗或是多份標準化測驗的複本時,題庫內的試題除了要 達到基本水準(內容有效)外,題庫內的試題更需要透過編製多份測驗進行 預試,利用古典試題分析的通過率、鑑別度、選項分析等符合信、效度原則 作為選題入題庫的標準。如:吳權威、王佩蓮(1995)的國小環保題庫系統 研究。
3.高級水準的題庫(high level)
高級水準的題庫是一個「校準過」的題庫,主要利用IRT模型測量試題 的特性、估計受試者的能力以進行試題校準(calibration)的工作,並將所 有的試題參數都建立在同一個能力量尺上。高級水準題庫內的試題除了必須 達到基本水準、進階水準外,還必須符合項目反應理論的模型。測驗實施者 若要建構一個測量系統(measurement system)、電腦適性測驗或網路測 驗,便需要這樣「校準過」的題庫,如吳裕益、陳英豪、林惠華、陳香 吟、馬景榮(1992)國小低年級學術性向測驗題庫之建立,李盛祖與林世 華(1999)國小數學乘法診斷測驗題庫的建立,洪碧霞、吳裕益、洪淑琴、
洪嘉品、曾秋琪(1992)國小高年級數學科應用問題題庫之建立,洪碧霞、
邱上真、林素微、葉千綺(1998)國小中低年級國語文成就測驗題庫建立,
鄭蕙如與林世華(2002)九年一貫課程數學領域第三、四階段能力測驗試題 題庫的建立等,都是高級水準的題庫。本研究即在處理高級水準的分數能力 之題庫。
(二)題庫建立的步驟與時機
題庫的建立程序與測驗編製的程序相似,主要步驟有「建立雙向細目 表」、「根據命題原則編寫試題」、「修訂與審查試題」、「預試與試題分 析」、「篩選試題」、「將試題內容與試題參數輸入電腦資料庫」(Choppin, 1976; Rudner, 1998 ; Wainer, Dorans, Flaugher, Green, Mislevy, Steinberg, &
Thissen, 1990)。由於建立題庫需要花費相當的人力、金錢與時間,實務上 也有著一些困難的課題(Keeves & Masters, 1999; Mckinley & Reckase, 1981;
Runder, 1998)。Umar(1999)認為只有在需要建立題庫的時機下,發展題
庫才能突顯題庫的價值之處,否則只會導致題庫建立後棄置不用的情況。根 據Millman & Arter(1984)的說法,在有下列任一項情況之需要下,建立題 庫才可發揮其最大效用:
1.現存測驗已無法接受,需要自編測驗的時候。
2.經常需要使用測驗的時候。
3.測驗需要多個複本的時候。
4.設計個別化測驗(individually tailored test)的時候。
5.有多位測驗實施者需要從題庫建立自己的測驗時。
6.已經有題庫系統(如:電腦軟、硬體)及已有潛在的題庫使用者時。
研究者認為,題庫建立的時機是未來題庫使用頻率多寡的關鍵,在建 立題庫前若能了解建立題庫的時機是否適當外,預期題庫建立後的使用者來 源、題庫使用者的能力,更能使題庫在使用時發揮最大的效用。本研究所建 立的題庫,乃屬Umar(1999)所稱的高級水準,而其建立的時機乃是在於 分數概念的測量已累積了相當多的經驗,而在進入電腦適性化測驗之前,題 庫必須建立起來的情況下,此時將有利於適性之選題與能力的估計。鑑於目 前分數概念研究,本題庫之建立乃基於以下的需要:
1.分數概念是國小學童學習數學歷程中,遭遇到的第一個重大關卡,試 題時常有被施測的需要,高品質的題庫可幫助教師或是行政主管瞭解 學生的能力狀況。本研究之目的,乃在建立此題庫,並確認題目的有 效性。
2.在不同版本教材之情況下,我們需利用項目反應理論將國小不同年級 分數概念的試題建立在同一量尺上,並需要利用垂直等化將不同年級 學生分數概念能力呈現一個連貫趨勢的圖像,以瞭解學習的基本與發 展狀況。
3.因為本題庫之最後目的在於教學上,是以需要經常使用測驗,並且需 有測驗的複本。不同使用者(包括研究者以及教師)皆可自此題庫中 建構適合的測驗。
4.電腦適性化測驗是分數概念題庫之未來發展,我們希望確認目前題目 之品質,建立為未來適性化測驗之基礎。
參、研究方法
一、研究對象
本研究施測對象為國小三到六年級學生,樣本收集自台灣地區北、
中、南國民小學共14所,顧及地區性、城鄉別、以及大小之不同,詳細資 料以及年級別如表1所示,共計2771位學生。
表1 各年級受試樣本在各施測卷別之人數分配表
學校大小
(班級數) 施測學校
施測年級
3年級 4年級 5年級 6年級
A卷 B卷 B卷 C卷 D卷 C卷 D卷
北部
中(46) 台北市中正國小 33 34 35 17 17 17 15
中(36) 台北市健康國小 32 33 29 15 15 14 14
大(102) 台北縣民安國小 32 35 34 16 18 16 16
大(85) 台北縣安和國小 36 16 17 19 18
大(61) 桃園縣華勛國小 35 33 60 15 17 17 16
大(59) 桃園市大業國小 35 35 33 16 17 18 18
中部
大(54) 台中市文昌國小 205 174 201 34 33 104 102
中(35) 台中市順天國小 49 49
南部
中(30) 高雄市九如國小 44 44
大(52) 高雄市十全國小 98 88 46 45
大(52) 高雄市桂林國小 66 92 49 53
大(64) 高雄市加昌國小 31 36 43
中(41) 屏東縣內埔國小 31
中(44) 屏東縣萬丹國小 96
各卷別人數總和 572 524 550 258 270 300 297
各年級施測人數 572 524 1078 597
施測人數總和 2771
註1:學校大小以24班以下為小型學校、25班-48班為中型學校、49班以上為大型學校。
註2:各學習階段之測驗卷,有分A、B、C、D等卷,僅為區別之用,沒有特別意義。
二、研究工具
(一)分數概念試卷
本研究分數概念題庫的試題蒐集自「分數概念能力指標的詮釋」(呂 玉琴,2004)共4份試卷(A、B、C、D卷),178題。該研究從九年一貫數 學學習領域中選取重要的分數能力指標,定義構念以及雙向細目表,設計試 題後,經過專家審題的流程,在試題內容上具有代表性。
在試題的內容分析方面,本研究分數概念題庫之雙向細目表採用TIMSS 2003數學科的雙向細目表(Martin, Mullis & Chrostowski, 2004)作為本研究 題庫建置的架構,該雙向細目表包括兩個主軸:「內容領域」與「認知層 次」。「內容領域」指數學主題,就分數能力而言,包含等分概念、分數符 號概念、單位量概念、等量概念、等值分數概念等五個子概念;「認知層次」
定義為我們所期望學生在探究數學內容時的行為,包含「熟知知識與程序」、
「概念使用」、「解決例行問題」、「推理」等四個認知層次,這四個認知 層次所運用的認知處理程序由易而難、愈來愈複雜。表2為題庫雙向細目表 兩個主軸的試題篩選原則。經內容篩選後,共計154題保留,有24題因內容 不符合試題原則而刪除。
本題庫較著重學生在分數概念下「不同表徵轉換的熟練度」以及運用 分數概念來「解決情境」問題的能力,是以從題庫雙向細目表內所蒐集的題 數總和(請見表2),亦可以看到內容領域以「等值分數概念」的題目54題 最多,「等分概念」的題目13題最少。認知層次以「解決例行問題」的題目 75題最多,以「推理」的題目12題最少。
表2 內容適當之試題題數分配表
內容領域 認知層次
熟知知識與程序 概念使用 解決例行問題 推理 題數總和
分數符號概念 2 10 5 0 17
等分概念 1 1 4 7 13
等量概念 0 1 21 0 22
單位量概念 0 20 24 4 48
等值分數概念 12 20 21 1 54
題數總和 15 52 75 12 154
從各年級在各分數子概念下的題數分配來看(表3),三年級未有等值 分數概念的教學,因此三年級未施測等值分數概念的試題。在四、五、六年 級方面,教材上逐漸涉及所有分數子概念。因此,本題庫在試題內容領域上 涵蓋了五種分數子概念,特別是在「等值分數概念」與「單位量概念」皆有 豐富的試題。這些試題在呂玉琴、劉曼麗、李源順等資深數學教育研究者篩 選內容合適的試題,透過專家篩選的方式形成正式施測題目,使得題目能達 到Umar(1999)在基本水準題庫對試題內容有效的要求,能夠符合內容適 當、評量項目具有代表性且符合命題原則等要求。
表3 各年級在內容領域上之試題題數分配表
內容領域 年級
3年級 4年級 5年級 6年級
分數符號概念 6 8 14 8
等分概念 6 7 8 3
等量概念 2 5 22 17
單位量概念 6 18 43 28
等值分數概念 0 35 54 29
題數總和 20 73 141 85
註:年級間有共同試題。
在施測過程中,每位學生只受測一份試卷。在施測時間方面,A卷施測 時間為一節課(40分鐘),B、C、D卷為二節課(80分鐘)。各卷別之施測 年級與樣本數如表1所示。
在 試 題 安 排 方 面 , 由 於 一 個 學 生 無 法 一 次 將 所 有 的 試 題 都 答 題 完 畢 , 如此將相當耗費時間與精力,因此研究者採用「不平衡等組定錨測驗
(non-equivalent groups with anchor test design, NEAT)」的概念進行安排。
研究者將試題以「卷別」及「跨學習階段」兩者分類到同屬性的試題組塊(
block),不同試題組塊所連結的學習階段亦不相同,但此四份試卷(A、B、C、
D卷)之間存在著共同試題組塊,以進行試題參數的校準。表4為各試卷試題 組塊的組合及題數。以A卷為例,A卷施測於三年級,包含組塊1、組塊5與
組塊9,其中組塊5是A、B兩卷的共同試題,而組塊9是A、B、C、D卷的 共同試題。換句話說,A卷的試題和BCD卷的部分試題是相同的(20題中有 8題為共同試題)。四份試卷皆有共同試題以進行跨學習階段之連結。
表4 各試卷之試題組塊分佈摘要表
卷別 試題組塊
組塊1 組塊2 組塊3 組塊4 組塊5 組塊6 組塊7 組塊8 組塊9
題數 12 51 15 18 6 10 33 4 2
A卷 ◎ ◎ ◎
B卷 ◎ ◎ ◎ ◎ ◎
C卷 ◎ ◎ ◎ ◎
D卷 ◎ ◎ ◎ ◎ ◎
註:「◎」表示組成該試卷的試題組塊。
(二)效標關聯之工具
在試題的效標關聯證據方面,由於分數概念題目中,有許多圖形思考 的問題,是以本研究採用瑞文氏標準圖形推理測驗(Standard Progressive Matrices,簡稱SPM)作為蒐集試題效標關聯證據的工具。瑞文氏標準圖形 推理測驗主要是給予受試者一個挖空的圖形,受試者從六選一的選項中找出 能夠填補挖空圖形的正確圖案,以測量學生的「圖形推理能力」。瑞文氏標 準圖形測驗可分為甲、乙、丙、丁、戊5個分測驗,每個分測驗有12題,共 計60題。試題的難度採用漸進式階層排列,每個分測驗由甲到戊逐漸由易而 難排列,分測驗中的每個試題也依題號由易而難排序,每個分測驗的後半部 試題與下個分測驗前半部試題的難度相當。舉例而言,甲測驗後半部試題的 難度與乙測驗前半部試題的難度相當。
研究者採用瑞文氏標準圖形推理測驗作為效標的工具,原因在於該測 驗在國小的使用率相當高外(彭麗琦,1994),瑞文氏標準圖形推理測驗與 分數概念試題同樣反應學生圖形表徵的特質。由於分數概念的試題可以展現 出學生運用圖形表徵、符號表徵與語言表徵的能力,而瑞文氏標準圖形推理 測驗主要在測量學生的「圖形推理能力」,該能力包含「觀察力」、「思考
能力」與「推理能力」三種能力,這兩份測驗皆反應學生圖形表徵的共同能 力。Lesh、Behr與Post(1987)指出學生是否能在不同表徵自由轉換,足以 代表其對分數概念是否能掌握,而且不同表徵系統的運用,會直接影響到學 生在作答試題的難易程度。換句話說,分數概念的試題可以看出學生在不同 表徵下或不同表徵間的表現差異,這個差異可以反映學生在圖形、符號與語 言表徵間的轉換能力程度或是其他影響學生運用表徵系統更深層的能力。
研究者抽取台北縣安和國小169位高年級學生以兩節課同時施測本研究 之C卷與瑞文式標準圖形推理測驗,分別求取各分數子概念與瑞文式各分測 驗的相關係數,以了解同一位學生在施測兩份測驗中所運用的共同能力之相 關強度,作為本研究試題的同時效標關聯效度證據(結果見表8)。
三、資料分析
研究者將所蒐集的試題以本研究的構念與雙向細目表進行試題內容分 析,再將所蒐集資料進行古典試題分析、與項目反應理論分析等三步驟,使 得題庫內的試題能達到內容適當、具鑑別力且能符合IRT參數模式的原則,
同時符合Umar(1999)所提的題庫設計之基本水準、進階水準、以及高級 水準三項要求。
首先,在試題內容分析方面,研究者採用TIMSS 2003數學科的雙向細 目表(Martin, Mullis & Chrostowski, 2004)作為本研究題庫建置的思 考架構,針對試題的內容與特性進行試題篩選,將不符雙向細目表的題目 刪除。雙向細目表以及刪題結果見下一章。
在古典試題分析方面,研究者利用BILOG-MG軟體分析各試題的通過 率、鑑別力等試題資訊。在通過率部分,研究者以不同年級學生在共同試題 的表現探討其結果;在鑑別力部分,由於本研究的資料屬於0、1對錯的二元 反應資料,本研究採用二系列相關係數作為鑑別力分析的依據。對於二系列 相關係數小於等於0.2的低相關試題研究者視為鑑別力低的試題,將之刪除 不納入後續分析(Anderson & George, 2008)。在效標關聯證據蒐集方面,
研究者針對169位學生在C卷各分數子概念與瑞文氏標準圖形推理測驗各分
測驗得分求取相關係數矩陣,以探討分數概念試題是否與圖形推理能力中的 觀察力、思考能力與推理能力有相當程度之關聯。
在項目反應理論分析方面,研究者先採用未轉軸之主成分分析來檢驗 本研究的資料是否有違反單維IRT的單一向度檢定。若無嚴重違反單一向度 的假設,研究者將採用BILOG-MG軟體利用邊際最大概似估計法(MML, marginal maximum likelihood)分別進行單參數羅吉斯模式、雙參數羅吉斯 模式、三參數羅吉斯模式同時估計三種模式下的試題參數,並分別針對三個 模式,考量符合模式的題數與模式的測驗訊息曲線狀況,挑選出最適當的模 式以將所有的試題參數與學生能力校準在同一能力量尺上,學生能力參數採用 最大概似估計法(ML, maximum likelihood)估計。Reckase(1979)提及單一向 度的兩個檢驗標準,分別是:1、最大特徵值需佔總變異量的20%以上;2、
第一特徵值要比第二特徵值來得大。本研究結果顯示不同試卷的特徵值佔總 變異量在18.86%到26.55%之間,第一特徵值與第二特徵值的比值在2.019到 4.977之間,因此可以採用單一向度假定的項目反應理論。
肆、研究結果
一、古典試題分析結果
(一)刪除分數概念試卷中沒有鑑別力的試題
根據Umar(1999)對題庫進階水準的要求,題庫內的試題必須符合 古典試題理論中的信、效度原則。透過古典測驗理論來篩選題目,的確會 冒著樣本依賴的風險,是以我們僅使用它來做初步的篩選。研究者採用 Bilog-MG軟體進行古典試題分析,分析各試題的作答人數、答對人數、答 對率、二系列相關係數等資訊,以檢視試題特性與古典試題理論的實徵證 據。其中,二系列相關係數過低表示該試題的鑑別力過低,研究者將二系列 相關係數小於等於0.2的低相關試題刪除不納入後續分析。在154題中,共有 3題因鑑別力低而刪除,共計151題符合內容有效與有鑑別力的原則。所刪除 之這三題,在題目內容上存在混淆學生的多餘資訊,非常困難,使得高能力 學生幾乎答錯,部分低能力學生猜對,相信在我們後續的IRT模式中,此三
題亦會遭到刪除。
(二)檢視各年級在共同試題中的表現
經刪除沒有具鑑別力的試題後,研究者針對9個試題組塊探討不同年級 在共同試題上的表現(見表5)。在同一個試題組塊中,由於各年級所施測 的試題相同,所以不同年級在同一個試題組塊下的平均答對率可以直接 比較。但是,不同試題組塊間所測得各年級平均答對率是來自不同試題的 反應,所以不同試題組塊的測驗分數是無法直接做跨年級的比較。對此,研 究者在古典試題分析中只針對各個試題組塊內進行各年級的比較分析。
表5 各年級在各試題組塊之答對率平均數摘要表
中年級 高年級
試題組塊 所屬試卷 題數 三年級 四年級 五年級 六年級
Block 1 A 12 0.81 - - -
Block 2 B 51 - 0.68 0.81 -
Block 3 C 15 - - 0.45 0.71
Block 4 D 18 - - 0.67 0.75
Block 5 A、B 6 0.84 0.80 0.87 -
Block 6 A、C 10 - 0.56 0.67 0.81
Block 7 A、D 33 - - 0.56 0.72
Block 8 B、C、D 4 - 0.49 0.58 0.72
Block 9 A、B、C、D 2 0.30 0.34 0.48 0.60
註:「-」表示無資料。
按常理假設,學生的數學能力應隨著年齡的發展、年級的增加而提 升。從表5的數據來看,在同一個試題組塊下,六年級表現優於五年級,五 年級表現優於四年級。然而,三、四年級間的差異則值得進一步檢核。研究 者針對三、四年級共同試題Block5與Block9的試題組塊內進行各題答對率的 差異檢定(表6)。結果指出,三年級在等分概念與分數符號概念顯著優於 四年級,在等量與單位量概念上三、四年級並無顯著差異,此項結果與過去 研究者(陳靜姿,1999;游政雄,2002;黃靖瑩,2003)的發現不一致。
表6 試題組塊Block5與Block9在三、四年級間答對率差異檢定摘要表
試題 組塊
題號
(內容領域)
年 級
答對率 平均數
4年級-3年級 平均數
差異 t p 95%信賴區間
下界 上界
Block 5
p012
(等分概念)
3 0.76
-0.21 7.33 .00** -0.26 -0.15 4 0.55
p020
(分數符號概念)
3 0.88
0.04 -2.25 .03* 0.00 0.08 4 0.92
p021
(分數符號概念)
3 0.98
-0.05 3.60 .00** -0.07 -0.02 4 0.93
p022
(分數符號概念)
3 0.98
-0.04 3.91 .00** -0.07 -0.02 4 0.94
p023
(等量概念)
3 0.54
0.05 -1.58 .11 -0.01 0.11 4 0.59
p025
(等量概念)
3 0.91
-0.02 1.36 .17 -0.06 0.01 4 0.89
Block 9
p015
(單位量概念)
3 0.44
0.04 -1.54 .12 -0.01 0.11 4 0.48
p024
(單位量概念)
3 0.16
0.04 -1.49 .14 -0.08 0.01 4 0.20
註:「*」表示p≦.05;「**」表示p≦.01。
本研究受試者為92學年度三到六年級學生,其中三、四、五年級學生 皆採用九年一貫暫行綱要的新版教材,只有六年級學生採用最後一屆82年版 的舊教材。本研究四年級受試者學生有新、舊教材銜接之問題,丁志仁等人
(2002,頁63)與歐慧敏(2004,頁420)的研究指出91學年度三年級升92 學年度四年級學生的數學課程中,在分數概念與分數計算上出現新舊課程的 斷層,而三、五、六年級的學生並無課程銜接之問題(見表7)。因此,研 究者不排除新舊教材銜接出狀況使得四年級分數概念的數學能力在較難的等
量概念與單位量概念上,與三年級表現差不多,反而在較簡單的等分概念以及 分數符號概念上比三年級差。進一步的分析討論,見項目反應理論分析結果。
表7 九十二學年度各年級之新舊教材銜接狀況
(三)效標關聯效度證據
分數概念的紙筆測驗試題主要在提供施測者了解學生在分數符號與圖 形間的轉換關係,以及學生展現在圖形的彈性思考能力。為探究本研究的分 數概念試題是否能夠真正測量到學生對圖形的觀察與思考能力,研究者另外 找尋169位高年級學生同時施測C卷與瑞文氏標準圖形推理測驗,以獲得分 數概念試題與圖形推理測驗的同時關聯效度證據。
瑞文氏標準圖形測驗是由5個分測驗(甲、乙、丙、丁、戊)所組成,
試題難度由甲到戊漸進增加。表8為C卷各分數子概念下的總分與瑞文氏標 準圖形推理測驗在各分測驗的相關係數,大部份分數子概念與瑞文氏標準圖 形測驗的得分呈現正相關並達顯著,而且當圖形推理測驗愈困難時與各分數 子概念以及C卷總分的相關係數愈高。這表示當學生在回答分數概念試題時 需要運用更高層次、更有彈性的推理思考能力才能正確回答試題。從瑞文氏 標準圖形測驗的效標關聯證據顯示,本研究的分數概念試題與圖形推理有相 當程度之關係。換句話說,本研究的分數概念試題與瑞文氏標準圖形測驗能 夠測得一個共同能力,而該能力便是學生掌握圖形推理的能力,且分數概念 題目越難,與瑞文氏推理測驗進階測驗的相關越高。
表8 C卷各分數子概念與瑞文氏標準圖形測驗各分測驗與總分相關係數表
甲分測驗 乙分測驗 丙分測驗 丁分測驗 戊分測驗 瑞文氏
測驗總分 等分概念 0.13 0.23** 0.26** 0.23** 0.33** 0.35**
等量概念 0.31** 0.21** 0.25** 0.26** 0.38** 0.40**
單位量概念 0.15* 0.11 0.29** 0.30** 0.41** 0.40**
等值分數概念 0.29** 0.37** 0.37** 0.50** 0.50** 0.59**
C卷總分 0.29** 0.30** 0.38** 0.44** 0.52** 0.57**
註:「**」表示p ≦.01。
經研究者篩選出具鑑別力的試題後,上述所列151題內的試題除了內容 有效外,試題的鑑別度皆大於0.2以上,在效度證據上也蒐集了與瑞文氏圖 形推理測驗作為同時關聯效度證據,已達Umar(1999)對進階水準題庫具 備古典實徵證據的要求。接下來本研究將進行項目反應理論的試題刪除與參 數校準,以達到高級水準題庫的要求。
二、項目反應理論分析結果
(一)單一向度檢定
本研究採單向度的項目反應理論模式。為了檢測本研究所測量的能力 有無嚴重違反單一向度的假設,研究者先進行單一向度檢定。研究者根據 Reckase(1979)所提出「第一主成分特徵值要比第二主成分特徵值來得大,
或第一主成分特徵值可以解釋整份測驗20%的總變異量」作為本研究單一向 度的標準。研究者將排除內容不符、鑑別力過低等試題後的四份試卷(151 題)進行「未轉軸之主成分分析」。
各試卷單一向度檢定顯示(表9),除了在A卷略低於第一特徵值可解 釋20%的總變異量之條件外,其他試卷皆能符合第一主成分特徵值要比第二 主成分特徵值來得大,或第一主成分特徵值可以解釋整份測驗20%的總變異 量單一向度的假定。從圖1各試題的主成分負荷量散佈圖的右半部來看,幾 乎大部分的試題都能集中在散佈圖上下對角線交集區內,在交集區內的試題
其第一主成分的負荷量必大於第二主成分,這表示大部分的試題與該試卷所 測量的某一種能力特質有相當程度地關聯。整體而言,本研究的試題並不嚴 重違反單一向度的檢定,適合採用單一向度IRT模式進行分析。
表9 各試卷單一向度檢定摘要表
卷
別 第一特徵值 第二特徵值 單一向度檢定
(第一特徵值/第二特徵值)
第一特徵值
可解釋總變異量之比率(%)
A卷 3.772 1.868 2.019 18.862
B卷 15.538 4.007 3.878 21.284
C卷 14.336 3.231 4.437 26.547
D卷 12.319 2.475 4.977 25.140
圖1 各試卷試題主成分之負荷量散佈圖
A � B �
C � D �
(二)參數模式的選取
本研究題庫的試題包含選擇題、是非題、填充題、作圖題,在參數估 計方面,研究者採用邊際最大概似法(MML)分別進行單參數羅吉斯模式、雙 參數羅吉斯模式、三參數羅吉斯模式同時估計三種模式的試題參數,再以 模式總卡方值G2比較資料之最符合理論模式。根據Umar(1999)對高級水 準題庫的期待,題庫中的各試題需能符合項目反應理論模式,本研究乃以 Bilog-MG之MML所計算出的各題卡方值與p值為指標。
在整體模式適配方面,單參數模式之對數比卡方統計量G2=126931.78,
雙參數模式之G2=126340.29,三參數模式之G2=126580.04,三種模式中的對 數比卡方統計量G2以雙參數模式最小,表示雙參數模式與資料的適配情形最 為理想。在試題適配方面,由於樣本人數算多,題目適配容易達到模式與資 料間的顯著差異,因此給予較寬鬆的標準來篩檢試題,當p小於等於.01時表 示該題不符合項目反應理論的理論模式。在四份卷別151題中,單參數模式 共計70題未能符合模式,雙參數模式共計17題未能符合模式,三參數模式共 計12題未能符合模式。綜合以下三個狀況的考量,研究者決定以雙參數模式 作為本研究題庫之題目特質估計的模式:
1.雖然三參數模式在成就測驗下較能夠描述受試者對於選擇題、是非題 的猜測狀況, 但從模式適配的情況來看,三參數模式的適配情形並無 雙參數模式來得好,換句話說,三參數模式考量猜測行為給予猜測參 數並沒有比雙參數模式更能解釋學生的能力值。由於本研究題庫的試 題難度較為簡單,甚至部分內容領域的平均難度值在-2以下,題目簡 單使得受試者不需要猜測便能正確回答問題。另外,根據模式選取 的簡約原則(principle of parsimony),最佳模式乃是參數量少又能 發揮模式解釋的最大效能,在此條件下,研究者認為選擇雙參數模式 比三參數模式更佳。
2.其次,從訊息曲線的角度來看(圖2),雖然三參數模式的訊息曲線 在平均能力以上之範圍比單、雙參數模式還要高,表示能力估計較準 確,但是此訊息曲線的多峰分配狀況顯示能力估計標準誤在不同能力
區段間忽高忽低,這對於本研究在能力估計誤差的解釋會產生困難。
本研究分數概念題庫期望的訊息曲線以平坦式的曲線為優先選取 考量,因此,三參數模式的確不適合本題庫。
3.比較單參數與雙參數模式,雙參數模式的適配情形比單參數模式得好 這是合理的。但因從古典試題分析的結果發現題目的二系列相關係數 散佈範圍較廣,而二系列相關係數又與IRT中的鑑別度參數a有函數關 係(Lord & Novick, 1968),研究者不能將鑑別度參數a視為常數(即 等鑑別度),鑑別度參數的估計是必要的。雖然在各種模式中,只有 單參數羅吉斯模式是建立在一個客觀等距的量尺上(王文中,2004),
研究者綜合上述考量,認為以「雙參數羅吉斯模式」所估計的參數較 適合本研究之題庫。
圖2 本研究題庫三種IRT模式之測驗訊息曲線圖
(三)試題參數分析
在項目反應理論分析結果中,共有134題符合雙參數羅吉斯模式,研究 者刪除不恰當的17題後,將此134題收納至題庫內,各內容領域的難度與鑑 別度之平均數與標準差如表10所示。在試題內容領域方面,以「分數符號概 念」的試題最簡單,以「等值分數概念」的試題最難。在鑑別度方面以「等
值分數概念」的試題最有鑑別度,以「等量概念」的試題鑑別度最低。在試 題的認知層次方面,以「熟知知識與程序」的試題最簡單,以「推理」的試 題最難。試題難度分配的結果與TIMSS 2003認知層次的架構相同,因此可 推估本研究的試題能夠反應認知層次上的差別。在鑑別度方面以「熟知知識 與程序」的試題最有鑑別度,以「推理」的試題鑑別度最低。本研究經過內 容分析、古典試題分析、項目反應理論分析,在刪除試題後,共收錄134題,平 均難度為-0.67,平均鑑別度為1.33,題庫內的題數分配摘要表如表11所示。
表10 題庫內容領域與認知層次難度與鑑別度描述性統計摘要表
變項 平均數 標準差
難度 鑑別度 難度 鑑別度
內容領域
分數符號概念 -2.78 1.20 0.95 0.37
等分概念 -1.25 1.11 1.13 0.52
等量概念 -0.56 1.05 1.04 0.38
單位量概念 -0.36 1.38 1.54 0.57
等值分數概念 -0.24 1.49 1.14 0.43
認知層次
熟知知識與程序 -1.26 1.72 1.23 0.33
概念使用 -1.02 1.37 1.55 0.55
解決例行性問題 -0.38 1.29 1.29 0.45
推理 0.15 0.87 1.58 0.20
整體題庫 -0.67 1.33 1.46 0.50
根據Millman & Arter(1984)、以及Prosser(1974)的說法,題庫內每 個概念的試題至少要包含10題,而且每個課程單元下至少要包含50題。若是 要使用在電腦適性測驗上,題庫內至少要有100至200題難度均勻、鑑別度合 理的試題(Millman & Arter, 1984; Reckase,1981)。本研究雖然在各個分數
子概念與認知層次的試題數皆達到Prosser提示10題的建議,但研究者認為在 題數分配摘要表(表11)中仍有少數細格的題數為0題,關於此部分,研究 者建議在未來題庫擴充時能再蒐集或撰寫此類試題。
表11 本研究題庫之題數分配摘要表
認知層次
內容領域 熟知知識與程序 概念使用 解決例行問題 推理 題數總和
分數符號概念 2
(1.49%) 9
(6.27%) 3
(2.24%) 0
(0.00%) 14
(10.45%)
等分概念 1
(0.75%) 1
(0.75%) 3
(2.24%) 7
(5.22%) 12
(8.96%)
等量概念 0
(0.00%) 1
(0.75%) 18
(13.43%) 0
(0.00%) 19
(14.18%)
單位量概念 0
(0.00%) 18
(13.43%) 20
(14.93%) 3
(2.24%) 41
(30.60%)
等值分數概念 11
(8.21) 18
(13.43%) 18
(13.43%) 1
(0.75%) 48
(35.82%)
題數總和 14
(10.45%) 47
(35.07%) 62
(46.27%) 11
(8.21%) 134
(100.00%)
註:括弧內的數值為該細格佔題庫總題數的百分比。
(四)學生能力參數分析
在學生的能力參數方面,本研究採「羅吉斯雙參數模式」以最大概似 估計法估計2771位學生的能力參數,共計39位受試者不符合雙參數模式。這 些不符合模式的受試者答對率偏低,其答對的試題同時包含極簡單與極困難 的試題,因此無法符合模式。換句話說,這39位受試者對能力參數估計的幫 助不大。經研究者刪除39位不符合模式的受試者後,研究者以2732位受試者 的能力值進行變異數分析,以了解學生的分數概念能力在不同年級、不同性 別及不同版本的數學教科書之間是否有差異(表12)。
表12 不同年級、性別學生在不同版本教科書下 的分數概念能力之變異數分析摘要表
變異來源 自由度 平方和 均方 F p
年級 3 622.68 207.56 104.03 0.00**
性別 1 3.26 3.26 1.63 0.20
數學版本 4 138.89 34.72 17.40 0.00**
年級×性別 3 7.33 2.44 1.22 0.30
年級×數學版本 6 120.45 20.08 10.06 0.00**
性別×數學版本 4 3.02 0.76 0.38 0.82
年級×性別×數學版本 6 2.39 0.40 0.20 0.98
誤差 2704 5394.80 2.00
總和 2731 6907.33
註:「**」表示p≦.01。
研究結果顯示,學生的分數概念能力在「年級」間有顯著差異、「數 學版本」間有顯著差異、「年級與數學版本」間有顯著地交互作用。雖然描 述性統計(表13)顯示,不同年級學生間的能力值由高而低分別為:六年級、
五年級、三年級、四年級,但由於年級與版本間有交互作用存在,透過能力 折線圖(圖3)亦可知年級之間的差異狀況實際上因版本有不同,尤其在三 年級與四年級之間,是以無法斷言四年級全然比三年級低。經Scheffe事後比 較顯示,三、四年級之間,三年級學生採行「康軒版本」與「翰林版本」的 平均值顯著高於四年級採行「南一版本」的學生,至於其他版本則兩個年級 間沒有顯著差異。以版本的角度來看學生在各年級間的表現狀況,採行「翰 林版本」的三、四、六年級學生的平均能力值並無顯差異;採行「康軒版本」
學生平均能力值則不同年級間有別:六年級>五年級>三、四年級;採行「
牛頓版本」的三、五年級學生平均能力值並無顯差異(四年級沒有牛頓版本 者);採行「南一版本」學生平均能力值之差異狀況為:六年級>五年級>
三、四年級。
表13 年級、數學版本、年級×數學版本描述性統計摘要表
因子 平均數 標準誤 因子 平均數 標準誤
年級 年級×數學版本
3 0.10 0.07 3年級×仁林 0.13 0.21
4 -0.17 0.07 3年級×牛頓 -0.06 0.10
5 0.52 0.05 3年級×南一 -0.27 0.12
6 1.51 0.06 3年級×康軒 0.07 0.07
數學版本 3年級×翰林 0.62 0.21
仁林 0.13 0.21 4年級×南一 -0.86 0.11
牛頓 0.05 0.08 4年級×康軒 0.04 0.07
南一 0.23 0.05 4年級×翰林 0.30 0.15
康軒 0.70 0.03 5年級×牛頓 0.16 0.12
翰林 0.71 0.10 5年級×南一 0.66 0.04
5年級×康軒 0.75 0.04
6年級×南一 1.38 0.07
6年級×康軒 1.95 0.06
6年級×翰林 1.21 0.14
註:本研究資料無四年級牛頓與五年級翰林版本的資料,仁林版本只有三年級。
圖3 不同年級、不同數學教科書版本之學生能力折線圖
四年級的表現出現「不同版本教科書造成學生能力有差異」。關於此 點發現,研究者針對四年級中能力最高的「翰林」版本與能力最低的「南一」
版本的數學教科書進行分數概念內容比較,以檢驗是否版本間的內容差異會 使得學生的能力有所差別:在三年級下學期,兩個版本所採用的皆為82年的 數學課程,兩者並無太大差異,但從四年級上學期進入九年一貫教育課程後 在內容上開始出現了分歧。四上時,翰林版的教科書在進行假分數與帶分數 的教學,南一版的教科書則仍是真分數的教學。到了四年級下學期,翰林版 的教科書已在進行等值分數的教學時,南一版的教科書開始進入帶分數與假 分數的教學(本研究施測時間為92學年度下學期開學(1/26)後的二個月(
3/22-3/26),此時採用翰林版的四年級學生已學到分數的等值遞移或次序遞 移關係,而南一版學生才剛學完真分數的合成、分解活動)。由此顯示,不 同版本的教材因教材順序安排不同,確實會造成學生在分數概念的表現上有 所差異。
從測驗構念的角度來看上述差異,同一個年級的學生在學習不同內容 的分數概念教材後,經過本研究的試題施測,確實將不同的學習經驗反映在 能力估計上。換句話說,採行不同版本教科書的學生會因版本在教材安排順 序的不同而造成其能力上的差異,而這個能力差異顯現在本研究分數概念試 題的表現上。這樣團體差異的證據可以顯示,本研究試題所測量的構念,的 確為分數概念學習後的能力。
伍、結論
本研究共蒐集178個試題,施測於北中南地區共2771學生。研究者依內 容篩選、二系列相關係數的鑑別力篩選、單一向度檢定、IRT的雙參數羅吉 斯模式的篩選,共收納134題分數概念試題作為分數概念題庫的試題。
在試題的統計特徵方面,內容領域的五個分數子概念試題之平均難度 由易而難依序為:分數符號概念、等分概念、等量概念、單位量概念、等值 分數概念,在認知層次的試題之平均難度由易而難依序為:熟知知識與
程序、概念使用、解決例行問題、推理。題庫中的每個試題都能達到內 容有效、有鑑別力、皆校準在同一個能力量尺上,整個分數概念題庫的平 均難度為-0.67,平均鑑別度為1.33,有著良好的統計特徵。
在試題的效度證據上,本研究所蒐集的證據有三:第一,各分數子概 念的試題與瑞文氏標準圖形推理測驗各項分測驗達顯著正相關,該相關係數 的大小是隨各個分數子概念的難度與瑞文標準圖形推理測驗的各分測驗難度 的增加而愈大,顯示本研究的試題所測得的能力與學生對圖形的觀察力、思 考能力與推理能力具有相當程度的關聯。第二,本研究在探討不同年級學生 的能力時,不同年級團體對分數概念所展現的差異情形可以藉由本研究的試 題展現出來。第三,本研究的試題能夠呈現學生的能力,且對於學習教材相 當敏感,可以反映教科書內容的順序安排。
在學生能力方面,不同年級學生在各個試題組塊下的平均答對率以六 年級學生顯著高於五年級學生,高年級學生顯著高於中年級學生,但三、
四年級的差異並不明顯。在項目反應理論分析中,各年級的平均能力值由高 而低分別為六年級(1.51)、五年級(0.52)、三年級(0.10)、四年級(
-0.17)。由於本研究的四年級學生遇到新舊課程的斷層,正好在銜接時候 包含了分數概念教學的不連續狀況,使得四年級學生的能力值低於三年級學 生的能力值。另外,學生的能力表現在年級與數學版本間有顯著交互作用存 在,由於各版本教材安排順序不同,使得學生在分數概念的能力表現也有不 同。
由於題庫內的試題構念效度良好,對於不同數學版本或者是教育變革 產生新舊課程銜接問題,都能有效反映出來。目前義務教育已全面採行九年 一貫課程,與本研究樣本的四年級之學習經驗有所不同,然此狀況不致於影 響本題庫之題目參數的變化,因題目已進行跨年級項目反應理論之量尺化校 正。本研究的核心目標旨在建立分數概念題庫,研究者在整合國小分數概念 試題時,利用項目反應理論的技術將試題統計特徵建立在同一量尺上,使得 跨年級的比較更具意義。建議後續研究一方面可以進行電腦化適性測驗的編 製,另外可以進行學生能力隨年級而發展的診斷測量。
參考文獻
丁志仁、吳財順、盧雪梅、林佳蓉、李美穗、林陳涌、高永遠、楊舒茹、周愫嫻、
張政亮、彭增龍、吳忠泰、吳錦秀、王壬(2002)。國民小學三、四年級及
國小六年級、國中一年級之新舊課程銜接研究報告。台北:教育部。
王文中(2004)。Rasch測量理論與其在教育和心理之應用。教育與心理研究,
27,637-694。
王立行、周東山(1996)。應用IRT試題連結設計建立能力成長曲線。測驗年刊,
43,53-66。
吳毓瑩(2004)。效度。載於王文中、呂金燮、吳毓瑩、張郁雯、張淑慧主編,教
育測驗與評量—教室學習觀點(頁49-76)。台北:五南。
吳裕益(1991)。IRT等化法在題庫建立之應用。台南師範學院學報,4,319-365。
吳裕益、陳英豪、林惠華、陳香吟、馬景榮(1992)。國小低年級學術性向測驗題
庫建立之研究:題庫建立時題目參數的估計與連結問題之探討。台南師範學 院學報,5,1-31。
吳權威、王佩蓮(1995)。國民小學環保題庫系統之研究。台北市立師範學院學
報,26,9-38。
呂玉琴(1991)。分數概念:文獻探討。國立台北師範學院學報,4,573-606。
呂玉琴(2004)。分數概念能力指標的詮釋。論文發表於國科會科教處九十二年度
九年一貫數學領域能力指標詮釋計畫成果發表會。台北:國立台灣師範大學 數學系。
李盛祖、林世華(1999)。國小數學乘法系列診斷測驗題庫的建立與應用。師大學
報:教育類,44(1&2),55-74。
洪碧霞、吳裕益、洪淑琴、洪嘉品、曾秋琪(1992)。國小高年級數學科應用問題
題庫之建立及其題目參數估計和量尺化相關問題之探討。台南師範學院學 報,5,91-122。
洪碧霞、邱上真、林素微、葉千綺(1998)。國小中低年級國語文成就測驗題庫建
立之研究。測驗年刊,45(2),1-18。
張敏強(1999)。教育考試等值方法的應用研究。載於中國測驗學會主編,新世紀
測驗學術發展趨勢(頁561-572)。台北:心理。
教育部(2003)。九年一貫數學學習領域綱要。台北:作者。
陳瑞發(2003)。國小低年級學童分數概念之研究。國立台北師範學院數理教育研 究所碩士論文。
陳靜姿(1999)。國小四年級兒童等值分數瞭解之初探。中師數理學報,2(2),
125-145。
彭聃齡、張必隱(1999)。認知心理學。台北:東華。
彭麗琦(1994)。從瑞文氏測驗談對測驗的幾點看法。教與愛,46,29-31。
游政雄(2002)。台灣北部地區國小中年級學童分數概念之研究。國立臺北教育大
學學報:數理科技教育類,15,37-67。
黃靖瑩(2003)。國小中年級學童分數概念之研究。國立台北師範學院數理教育研
究所碩士論文。
詹婉華(2003)。國小高年級學童分數概念之探究。國立台北師範學院數理教育研
究所碩士論文。
詹婉華(2004)。國小高年級學童分數概念量表之設計研究。科學教育學刊,12(
2),241-263。
劉湘川、黃孝雲(1998)。國小國語科在家考試題庫初探。測驗統計簡訊,24,
13-22。
歐慧敏(2004)。新舊課程銜接理念與實務〜以數學學習領域為例。國民中小學九
年一貫課程:理論基礎,2,412-430。
鄭蕙如、林世華(2002)。九年一貫課程數學領域第三、四學習階段分段能力指標
序階之適切性初探研究。測驗年刊,49(1),51-74。
簡茂發(1999)。心理與教育測驗發展之趨勢。載於中國測驗學會主編,新世紀測
驗學術發展趨勢(頁1-16)。台北:心理。
龐嘉芬、陳淑琳(2000)。談國小學童等值分數概念的了解。屏師科學教育,12,
34-41。
Anderson, P., & George, M. (2008). Developing tests and questionnaires for a national assessment of educational achievement. Washington, DC: World Bank Publications.
Behr, M. J., Wachsmuth, I., & Post, T. R. (1988). Construct a sum: A measure of children’s understanding of fration size. Journal for Research in Mathematics Education, 15(5), 323-341.
Choppin, B. H. (1976). Recent developments in item banking: a review. In D. N. M. De Gruijter and L. J. van der Kamp (Eds.), Advances in psychological and educational measurement. (pp. 233-245). New York, NY: John Wiley & Sons.
Choppin, B. H. (1981). Educational measurement and the item bank model. In C. Lacey
& D. Lawton (Eds.), Issues in evaluation and accountability. (pp. 204-221). New York, NY: Methuen.
Choppin, B. H. (1985). Principles of item banking. Evaluation in Education, 9(1), 87-90.
Hambleton R. K.,& Swaminathan H. (1985). Item response theory: Principle and application. Boston: Kluwer Nijhoff.
Keeves, J. P., & Masters, G. N. (1999). Issues in educational measurement. In G. N.
Masters & J. P. Keeves (Eds.), Advances in measurement in educational and research and assessment. (pp. 268-281). New York, NY: Pergamon.
Lesh, R., Behr, M. & Post, T. (1987). Rational number relations and proportions. In C.
Janvier (Ed.), Problems in the teaching and learning of mathematics. London: New Jersey.
Lippey, G. (1974). Computer-assisted test construction. Englewood Cliffs, NJ:
Educational Technology Publications.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley.
Martin, M. O., Mullis, I. V. S., & Chrostowski, S. J. (2004). TIMSS 2003 technical report.
Chestnut Hill, MA: Boston College.
Mckinley, R. L. & Reckase, M. D. (1981). A comparison of procedures for constructing large item pools. Columbia, MO: University of Missouri.
Mead, R.J. (1981). Basic ideas in item banking. Paper presented at the annual meeting of the National Council on Measurement in Education, Los Angeles.
Medin, D. L., Ross, B.H.,& Markman, A. B. (2002). Cognitive psychology. NK: John Wiley & Sons.
Millman, J. & Arter, J. A. (1984). Issues in item banking. Journal of Educational Measurement, 21(4), 315-330.
Newbould, C. A., & Massey, A. J. (1997). A Computerized item banking system (CIBS).
British Journal of Educational Technology, 8(2), 114-123.
Prosser, F. (1974). Item banking. In G. Lippey (Ed.), Computer-assisted test construction.
(pp. 29-66). Englewood Cliffs, NJ: Educational Techology Publications.
Reckase, M. D. (1979). Unifactor latent trait models applied to multifactor test: Results and implications. Journal of Educational Statistics, 4(3), 207-230.
Rudner, L. (1998). Item banking. Practical Assessment Research & Evaluation, 6(4), 1-7.
Suen, H. K. (1990). Principles of test theories. Hillsdale, NJ: Lawrence Erlbaum Associates.
Umar, J. (1999). Item banking. In G. N. Masters & J. P. Keeves (Eds.), Advances in measurement in educational and research and assessment. (pp. 207-219). New York, NY: Pergamon.
Vale C.D. (1986). Linking item parameters onto a common scale. Applied Psychological Measurement, 10(4), 333-344.
Wainer, H., Dorans, N. J., Flaugher, R., Green, B. F., Mislevy, R. J., Steinberg, L. &
Thissen, D. (1990). Computerized Adaptive Testing: A Primer. Hillsdale, NJ:
Lawrence Erlbaum Associates.
謝誌:感謝國立屏東教育大學數理教育研究所劉曼麗教授、以及台北市立 教育大學數學資訊教育學系李源順教授對於研究結果的詮釋以及施測 過程之諮詢;亦感謝許見行、江愛華研究助理在資料蒐集上的協助。
另外並感謝國科會專題研究計畫之支助(NSC-92-2522-S-152-004,
NSC-93-2511-S-152-012)。