• 沒有找到結果。

國小五年級數學科學力評估之研究

N/A
N/A
Protected

Academic year: 2021

Share "國小五年級數學科學力評估之研究"

Copied!
95
0
0

加載中.... (立即查看全文)

全文

(1)

國立臺中教育大學教育測驗統計研究所

理學碩士學位暑期在職進修專班碩士論文

指導教授:曾建銘 博士

郭伯臣 博士

國小五年級數學科學力評估之研究

研究生:余媺慧 撰

中華民國 一 百 年 八 月

(2)
(3)

謝誌

暑假即將結束,在研究生涯告一段落後又將回到職場,繼續自己的執教生 活。在尚未念研究所之前,每每看到他人論文的謝誌裡,總是感謝了許許多多 的人,常甚感不解而疑惑,但在自己的研究過程中,深深的領悟到,沒有這些 「許許多多的人」,自己是無法完成這本論文的。 論文能夠順利完成,最要感謝的就是我的指導教授曾建銘老師,在您親切 和藹的笑顏裡,總是在百忙中抽空指導,常常都是在凌晨收到老師寄來的回覆 mail,在論文中指導我釐清問題、協助我解決困難,在我快沒動力時,曾老師 一句「加油!」讓我能夠繼續堅持下去。感謝另一共同指導教授郭伯臣所長, 以及承蒙口試委員台南大學林素微教授、國家教育研究院吳慧珉博士,在百忙 之餘仔細地審閱我的論文,在口試過程中給予諸多的寶貴建議與斧正,讓我的 論文能更加完善。再來是要感謝大華國小陳永發校長,提供我研究資料,並給 我許多研究建議;感謝興國國小退休校長張田聰,張田校長不遺餘力地給予協 助,提供給我很多研究的方向,後休後張田校長更惦記著我的研究,時時給我 鼓勵。 在研究過程中,感謝家人的鼓勵、支持與分擔,讓我無後顧之憂的完成學 業,兩個小孩廷叡、士恒更貼心的互相照顧不讓我擔心。另外,必須感謝同窗 好友佳蓁、靚瑜和閔琦等,感謝你們給予的陪伴,讓我在研究過程中不會孤 單。 論文的完成不是一個結束,而是代表另一個人生階段的開始,期許自己以 寬容、感恩、謙虛、善解的處事態度,走向幸福的未來。 余媺慧 謹誌 中華民國一百年八月

(4)
(5)

摘要

本研究以桃園縣 98 年度五年級數學科學力評估施測資料為研究內容,並進 行兩部份分析,分析試題在古典測驗理論之難度、鑑別度及選項誘答力以及在 現代測驗理論三參數模式下之難度參數、鑑別度參數及猜測度;其次分析性 別、原住民與父母任一個為外籍人士等變項下,受試者在學力評估表現上之差 異情形,及差異試題功能之檢定。研究結果摘述如下: 一、整體而言,以古典測驗理論分析後發現大部份皆屬於優良試題,只有第 10 題因題目圖形誤導學生,以致使難度增加,只要再加以修正即可;第 15 題 之錯誤選項 1、4,選擇錯誤選項的高分組受試者比低分組還多,所以這兩 個錯誤選項須再做修正;有些選項較無誘答力可以修改錯誤選項以提高選 項誘答力,例如第 6 題的選項 4 及第 22 題的選項 4。 二、以現代測驗理論三參數模式估計,鑑別度參數介於 0.33~1.68 之間,平均鑑 別度為 0.81 是屬中、高鑑別度標準;難度方面,難度參數介於-3.73~2.36 之間,平均難度為-0.21,大致符合中間微偏易;猜測度方面,平均猜測度 為 0.17,不至於過高。 三、CTT 與 IRT 分析結果之關係為難度及能力值方面有高度之相關;鑑別度方 面呈現為低相關。 四、在性別及原住民變項中試題呈現有 DIF 現象;父母中任一個人是否為外籍 人士變項中並未發現有 DIF 試題。 五、男生和女生學力評估的表現差異不大。 六、原住民學生學力評估的表現低於非原住民學生。 七、父母中任一個人是否為外籍人士學生學力評估的表現差異不大。 關鍵字:學力評估、試題分析、古典測驗理論、現代測驗理論 、差異試題功能

(6)

Abstract

This study is focused on the testing materials on the 2009 Taoyuan County 5th Grade Mathematics Assessment, and two sections of further analysis are followed. The first part delves into studying the difficulty, the discrimination and distraction of the test questions with respect to classical test theory. The difficulty parameter, discrimination parameter and guessing parameter, the three-parameter logistic model of IRT are also discussed. In the second part, the differential academic assessment performance of the test takers and differential item functioning are also studied in relation to the variables of gender, aboriginality and the foreign nationality of the parent. The study result can be summarized below:

I. Overall, the majority of the testing items are of high quality, as analyzed from our analysis based on classical test theory. Item 10 is the only item that may misguide the students due to its diagram, and thus add more difficulty to the item. The item will be fine with a few slight revisions. For item 15, there are more high performers than low performers who chose the incorrect choices of 1 and 4. So these two incorrect choices need to be further revised. There are some choices that lack distraction, so the incorrect choices need to be revised in order to enhance distraction, e.g., Choice 4 of item 6 and Choice 4 of item 22.

II. Use the three-parameter logistic model of IRT to perform estimation. The discrimination parameter is between 0.33~1.68, with an average of 0.81, which is considered to have a medium to high discrimination standard. With respect to difficulty, the difficulty parameter is between 3.73~2.36, with an average difficulty of -0.21, which roughly fits into the medium difficulty with little easier range. In regards to guessing, the average guessing parameter is 0.17, which is

(7)

not as high.

III. CTT and IRT analysis results are highly related when considering the difficulty parameter and the capability parameter. Lower relativity is found with respect to the discrimination parameter.

IV. The phenomenon of DIF is found in the testing questions with respect to the variables of gender and aboriginality. There are no DIF items when analyzed with respect to the variable of having a parent with foreign nationality.

V. There is not much assessment performance variance between male and female students.

VI. The academic performance assessment of aboriginal students is worse than that of non-aboriginal students.

VII. The parent’s foreign nationality does not play a significant factor in the student’s assessment performance.

Key words: academic performance assessment, item analysis, classical test theory, item response theory, DIF.

(8)

目錄

第一章

緒論………

1 第一節

硏究背景和動機……… 1 第二節

硏究目的與待答問題……… 2 第三節

名詞解釋……… 3

第二章

文獻探討………

5 第一節

測驗理論……… 5 第二節

試題與測驗之分析……… 13 第三節 DIF 的檢定方法……… 18 第四節 影響學力評估成績的相關因素探討……… 20

第三章

研究設計………

23 第一節 硏究架構與設計……… 23 第二節 研究方法與研究對象……… 24 第三節 研究工具……… 26 第四節 資料分析與處理……… 29

第四章

研究結果………

33 第一節 五年級數學學力評估試題結果分析……… 33 第二節 試題反應測驗理論(IRT)分析……… 48 第三節 不同背景變項學生學力評估 DIF 之分析……… 50 第四節 不同背景變項學生之學力評估成績比較……… 56 第五節

學力評估結果之討論……… 68

第五章 結論與建議………

73 第一節 結論……… 73 第二節 建議……… 75

(9)

參考文獻………

77 一、中文部分……… 77 二、英文部分……… 79

附錄………

81 附錄一 性別 DIF 試題一覽表………. 81 附錄二 原住民 DIF 試題一覽表………. 82 附錄三 父母任一個為外籍人士 DIF 試題一覽表………. 83

(10)

表目錄

表 2-1 試題難易度等級表………15 表 2-2 鑑別度評鑑標準表………16 表2-3 總分為K的2×2列聯表……….19 表 3-1 五年級數學學力評估男女學生樣本數………..24 表 3-2 五年級數學學力評估原住民及非原住民學生樣本數………..24 表 3-3 五年級數學學力評估父母任一個是否為外籍人士樣本數………..25 表 3-4 各背景變項學生抽樣之樣本數………..25 表 3-5 五年級數學學力評估實施概況………..26 表 3-6 五年級數學學力評估試題主題暨內容一覽表………..26 表 3-7 五年級數學學力評估試題雙向細目表………...29 表 4-1 試題 1~試題 25 的分析數據………49 表 4-2 男生和女生數學學力評估成績表………...57 表 4-3 男生和女生「數與計算」方面成績表………...58 表 4-4 男生和女生「關係」方面成績表………. .58 表 4-5 男生和女生「量與實測」方面成績表………...59 表 4-6 男生和女生「圖形與空間」方面評估成績表………...60 表 4-7 原住民和非原住民學生數學學力評估成績表………..60 表 4-8 原住民和非原住民學生「數與計算」方面成績表………..61 表 4-9 原住民和非原住民學生「關係」方面成績表………..62 表 4-10 原住民和非原住民學生「量與實測」方面成績表………62 表 4-11 原住民和非原住民學生「圖形與空間」方面成績表………63 表 4-12 父母中任一個人是否為外籍人士學生數學學力評估成績表………64 表 4-13 父母中任一個人是否為外籍人士學生「數與計算」方面成績表………65 表 4-14 父母中任一個人是否為外籍人士學生「關係」方面成績表………66 表 4-15 父母中任一個人是否為外籍人士學生「量與實測」方面成績表………67 表 4-16 父母中任一個人是否為外籍人士學生「圖形與空間」方面成績表………68

(11)

圖目錄

(12)
(13)

第一章 緒論

本研究主要在探討國小五年級學生數學學力評估之狀況,本章之研究背景 和動機、硏究目的與待答問題、名詞解釋敘述如下。

第一節 硏究背景和動機

為了檢視教學成效,了解學生學習的成果,教育局訂定了學力評估與補救 教學三年計畫(96-98)。施測目的僅供學生解題策略分析,作為學習診斷;不做 為各校評比依據,學力評估之結果,只做為相關問題的瞭解。所以不公布學生 個人、班級、學校、鄉鎮市之成績,亦不列入學生學習成績,減少對於學生、 家長、學校造成比較心態而產生焦慮,也不希望影響學校的正常教學活動。希 望藉此學力評估施測可以達到: 一、分析五年級學生學習數學的能力,提供學習的診斷與發展補救教學策略與 教學示例。 二、精進教師自行發展補救教學策略能力,提升學生數學學習的成效。 三、分年建立數學學習基準,奠定每個階段學習數學課程的良好基礎。 四、整合教學資源,建置評量題庫系統,擴大教學及應用實效。 雖然教育局有此預期目的與成果,但是此項工作是由國民教育輔導團數學 學習領域成員辦理,在人力不足情況下,只能做到學生作答資料的統計,無法 繼續進行後續的分析研究,以上為本研究之背景。 然而由於桃園縣的地理幅員相當廣闊,東邊臨山,西邊面海,山海交會, 呈現縣內不同的經濟樣態,風土人情也因族群多元的文化而交融成獨特的風華 面貌。族群多元,依學力評估資料顯示,五年級原住民學生共 1445 人,佔全縣 五年級學生數之比例為 5%,原住民教育問題也是目前教育關注之焦點(張碧 如、段慧瑩,2004)。父母中任一方為外籍人士學生共 2057 人,也佔全縣五年級 學生數之比例 7%。希望藉由分析五年級學生數學學力評估檢測資料,了解學生

(14)

學力之狀況,以供教育局輔導團課程發展方向之參考及發展補救教學之策略, 為本研究之動機。

第二節 硏究目的與待答問題

依據前述研究動機,擬定本研究之研究目的及待答問題。

壹、研究目的

本研究依據本章第一節所述之研究動機,希望藉由分析學生數學學力評估 檢測資料,了解桃園縣五年級學生學力之狀況,以供教育局輔導團課程發展方 向之參考及發展補救教學之策略。擬定研究目的如下: 一、了解數學學力評估試題在古典測驗理論(CTT)之難度、鑑別度與選項分析。 二、了解數學學力評估試題在試題反應理論(IRT)三參數模式下之難度參數、鑑 別度參數及猜測度。 三、了解數學學力評估試題在古典測驗理論和試題反應理論不同理論比較下, 其兩者之關係。 四、檢測試題在不同受試族群學力評估反應的差異試題功能(DIF)情形。 五、比較不同性別學生在數學學力評估上之表現。 六、比較原住民及非原住民學生在數學學力評估上之表現。 七、比較父母任一個是否為外籍人士學生在數學學力評估上之表現。

貳、待答問題

依據研究目的,擬定下列研究問題。 一、 數學學力評估試題在古典測驗理論(CTT)之難度、鑑別度與選項誘答力如 何? 二、數學學力評估試題在試題反應理論(IRT) 三參數模式下之難度參數、鑑別度 參數及猜測度如何?

(15)

三、數學學力評估試題在古典測驗理論和試題反應理論不同理論比較下,其關 係如何? 四、不同性別的學生在學力評估的作答反應,試題是否產生 DIF 現象? 五、原住民及非原住民學生在學力評估的作答反應,試題是否產生 DIF 現象? 六、父母任一個是否為外籍人士學生在學力評估的作答反應,試題是否產生 DIF 現象? 七、不同性別學生在學力評估成績表現上是否有差異? 八、不同性別學生在主題內容之「數與計算」、「關係」、「量與實測」、「圖形與 空間」方面答題表現上是否有差異? 九、原住民及非原住民學生在學力評估成績表現上是否有差異? 十、原住民及非原住民學生在主題內容之「數與計算」、「關係」、「量與實測」、 「圖形與空間」方面答題表現上是否有差異? 十一、父母任一個是否為外籍人士學生在學力評估成績表現上是否有差異? 十二、父母任一個是外籍人士與父母任一個不是外籍人士學生在主題內容之 「數與計算」、「關係」、「量與實測」、「圖形與空間」方面答題表現上是 否有差異?

第三節 名詞解釋

本節將針對研究主題裡所稱之名詞,加以界定及解釋如下:

壹、學力評估

本研究所稱之「學力評估」係以紙筆測驗方式,對桃園縣各學校五年級學 生進行數學科普測評量,以了解學生學習數學的能力。與各縣市政府所辦理之 「學力檢測」、「基本學力評量」、「能力檢測」、「學習成就評量」…等相關評量 方式,在名稱上雖然不同,但本研究皆歸類在學力評估之範圍。

(16)

貳、父母任一個為外籍人士

本研究之「父母任一個為外籍人士」是指桃園縣 98 年度五年級學生其父親 或母親至少其中一位不是本國籍,亦即受試學生之父親、母親其原始國籍不同 或父母為同一外國籍人士。

(17)

第二章 文獻探討

本章旨在探討本研究相關之文獻及研究結果,以作為本研究之理論基礎。

第一節 測驗理論

解釋測驗分數意義的理論學說,可以分成兩大學派:一為『古典測驗理論』 (classical test theory,簡稱 CTT),另一為『試題反應理論』(即 IRT)(Crocker & Algina, 1986; McDonald, 1999; Suen, 1990)。

壹、古典測驗理論

「古典測驗理論」是最早的測驗理論,主要是以整份測驗(或試卷)的觀 點,來解釋測驗分數的涵義。因此,它對學生或受試者的測驗分數的看法,是 以各試題得分加總之後的總分做為代表,單獨一道試題的得分,不具有任何意 義的解釋價值。所以,它提出下列的數學假說,以作為其主要的理論學說依 據: χ=t+e (公式1) 即χ為測驗分數,t為真實分數(即代表該測驗所欲測得學生的真正能力或潛在特 質的部分),e為誤差分數(即代表該測驗無法測得學生的真正能力或潛在特質 的部分)。古典測驗理論也稱為真實分數理論(true score theory),即是因為它 的基本假設緣故而得名;換句話說,在古典測驗理論學說的看法下,我們必須 使用一堆試題(通常即是一整份試卷),才能測得(或估計)學生的真正能力 或潛在特質,單獨一道試題是做不到的。

一、真實分數理論的基本假設

古典測驗理論亦根據其基本假說,提出一連串的輔助假設,以協助解釋的 測量原理和其合理性。這些假設大致可以歸納如下 (Allen & Yen, 2001; Crocker & Algina, 1986; Gulliksen, 1950/1987; Lord & Novick, 1968; Nunnally & Bernstein, 1994):

(18)

1. χ=t+e (即測驗分數等於真實分數與誤差分數之和); 2.Ε (χ) =t (即測驗分數的期望值等於真實分數); 3. te 0 (即真實分數與誤差分數之間為零相關); 4. 0 2 1ee (即不同測驗的誤差分數之間為零相關); 5. 0 2 1et (即不同測驗的誤差分數與真實分數之間為零相關); 6. 假設有兩個測驗,其測驗分數分別為χ和χ',並且滿足上述 1到 5 的假設,且 對每一群體考生而言,亦滿足t=t'和2e =2e'等條件,則這兩個測驗便稱作 「複本測驗」 (parallel tests); 7. 假設有兩個測驗,其測驗分數分別為χ和χ',並且滿足上述 1到 5 的假設,且 對每一群體考生而言,亦滿足t1t2c12,其中c12為一常數,則這兩個測驗稱

作「類似複本測驗」(essentially τ-equivalent tests)。

根據上述七個基本假設的數學公式所示可知,古典測驗理論對測量問題所 持的觀點,可以進一步詮釋如下(余民寧,2002): 1.假設具有潛在特質存在。從第一個假設可知,測量必須要有對象,此對象 即是我們所假定的『潛在特質』(亦即是所代表者),它是看不見的東西,但 我們必須先假設它的存在,如此才值得我們去測量它,若不先假設它是存在 的,則我們的任何測量行為都將失卻目標,變得盲目無效。一般說來,教育測 驗均假設它所要測量的潛在特質即是學生在某種學科的『能力』(ability),而 心理測驗則假設它所要測量的潛在特質即是受試者的某種『潛在特質』(latent trait)(可能是人格、性向、興趣、態度、或價值觀等)。 2.多次測量的推論結果。既然上述所假設的潛在特質是看不見的,因此,我 們就無法直接進行測量它。我們僅能從數學觀點去假設它與我們從外觀測量得 到的數據之間,具有某種數學關係(通常都假設成直線關係)存在而已。為了 釐清這種關係,通常需要使用多次的測量數據,再透過統計學的估算(如:求 期望值或平均數),才能估計出這種潛在特質的量到底是多少,並且推論出它

(19)

與外觀測量得到的數據之間具有什麼關係。 3.單獨一次的測量必含誤差。既然潛在特質是經由多次測量才能推論得到, 因此,單獨一次的測量結果,除了測量到所要測量的潛在特質外,也必定同時 測量到誤差成份。但是,在經過多次的測量後,我們經由上述說明所推論出來 的結果將愈來愈接近真正的潛在特質,因此,這麼多次測量值所含的誤差分數 也就可以彼此正負抵銷。這項結論,也就是根據上述第一和第二個假設,合併 起來的推理結果。 4.假設潛在特質與誤差之間是獨立的。第三個假設則把測量問題單純化,僅 假設潛在特質與誤差之間是獨立的。由於有這項假設存在,在測量時,我們不 必考慮其他可能干擾測量結果的來源,僅將潛在特質以外的干擾,統統歸類到 所謂的測量誤差(measurement errors),不再進一步細部分析,如此,可以把 測量結果的推論問題單純化。附帶的,這項假設亦延伸出第四和第五個假設; 但是,這種把測量問題單純化的假設,卻也是造成古典測驗理論飽受批評的地 方。 5.複本測驗的嚴格假設。古典測驗理論對測量結果的解釋和比較,是建立在 複本測驗的嚴格假設上。換句話說,從第六和第七個假設可知,唯有滿足複本 測驗之嚴格假設的兩個測量結果之間,才可以直接進行比較大小和解釋其分數 的優劣;若非滿足此假設,則任何兩次測量結果間的解釋和比較,均是無意義 的。 二、古典測驗理論的優缺點 古典測驗理論的理論架構,主要是以真實分數模式為主,其理論模式的發 展已為時甚久,且頗具規模,所採用的計算公式簡單明瞭、淺顯易懂,適用於 大多數的教育與心理測驗情境,以及社會科學研究資料的分析,為目前心理計 量學界應用與流通最廣的一種測驗理論。然而,若從當代測驗理論(以「試題 反應理論」為代表)的觀點來看,古典測驗理論除了具備上述各項優點外,卻

(20)

含有下列諸項缺失: ( 一 ) 古 典 測 驗 理 論 所 採 用 的 指 標 , 諸 如 : 難 度 ( difficulty ) 、 鑑 別 度 (discrimination)、和信度(reliability) 等,都是一種樣本依賴(sample dependent)的指標;也就是說,這些指標的獲得,會因為接受 測驗的受 試者樣本的不同而不同,因此,針對不同潛在特質的樣本,同一 份測驗很 難獲得一致的難度、鑑別度、或信度等指標。

(二)古典測驗理論以一個共同的測量標準誤(standard error of measurement), 作為每位受試者的潛在特質估計值的測量誤差指標;這種作法完全沒有 考慮受試者反應的個別差異,對於具有高、低兩極端潛在特質的受試者 而言,這種指標極為不合理且不精確,致使古典測驗理論模式的適當性 受到懷疑。 (三)古典測驗理論對於非複本(nonparallel),但功能相同的測驗所獲得之量數 間,無法提供有意義的比較;有意義的比較僅侷限在相同測驗的前後測量 之量數或複本測驗分數之間而已。 (四)古典測驗理論對信度的假設,是建立在複本(parallel forms)測量概念的假 設上;但是這種假設在實際的測驗情境裡,往往是不合理或不存在的。因 為,在實際的測驗情境下,施測者不可能要求每位受試者在接受同一份測 驗無數次後,而仍然保持每次反應結果都彼此獨立、互相不影響;況且, 每一種測驗並不一定在編製測驗之時就同時製作複本。因此,複本測量的 理論假設是行不通的,不論是從實際層面或方法學邏輯的觀點來看,它的 假設既不切實際、又不合理、並且也是矛盾的。

(五)古典測驗理論忽視受試者作答的試題反應組型(item response pattern)所代 表的意義,對於在原始得分上相同的受試者或正確反應總和相同的試題, 即看成是潛在特質(如:能力)或試題參數(如:難度)的估計值相同。 這種觀點其實是不正確的,因為,總分相同的受試者或總和相同的試題,

(21)

其試題反應組型不見得會完全一致,因此,試題反應組型所顯示的意義也 不會相同,所估算出的潛在特質和試題參數估計值,應該也會不一樣。

貳、試題反應理論

試題反應理論主要是以個別試題的觀點,來解釋測驗分數的涵義。它認為 學生在某一試題上的表現情形,與其背後的某種潛在特質(即能力)之間具有 某種關係存在,該關係可以透過一條連續性遞增的數學函數來加以表示和詮 釋,這個數學函數便稱作『試題特徵曲線』(item characteristic curve,簡稱ICC) (如圖1所示的各條曲線);換句話說,我們把能力不同考生的得分點連接起來 所構成的曲線,便是能力不同考生在某一測驗試題上的試題特徵曲線,而把各 試 題 的 試 題 特 徵 曲 線 加 總 起 來 , 便 構 成 所 謂 的 『 測 驗 特 徵 曲 線 』( test characteristic curve,簡稱TCC)。因此,試題特徵曲線和測驗特徵曲線,都是一 條用來解釋學生的試題分數或測驗分數涵義的迴歸線,這條迴歸線基本上是屬 於非直線的,但直線的試題特徵曲線或測驗特徵曲線也是有可能的,端視我們 所決定選用的試題反應模式(item response model)而定(Embretson & Reise, 2000; Hambleton, 1989; Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Lord, 1980; McDonald, 1999)。

在試題反應理論中,每一種試題反應模式都有其相對應的一條試題特徵曲 線,此一曲線通常包含一個或多個參數來描述該試題的特性,以及一個或多個 參數來描述考生的潛在特質;因此,根據我們選用的試題反應模式所具有的參 數個數的不同,所畫出的試題特徵曲線形狀便不相同。但是,它們的涵義都是 一致的,都是在表示學生的能力與其在該試題上做出正確反應兩者之間的可能 關係;通常,學生的能力程度愈高(或愈強),則其在該試題上做出正確反應 (即答對)的機率便愈大,反之,學生的能力程度愈低(或愈弱),則其在該試 題上做出正確反應的機率便愈小。

(22)

茲舉一個典型的『三參數對數型試題反應模式』(three-parameter logistic model,簡稱3PL)為例,說明學生的能力與試題特徵曲線之間的關係如下: 公式2即表示任何一位學生答對任何一道試題的機率,可由兩種參數來決 定,一為學生的能力值大小,另一為該試題的試題參數值的大小。所以,公式2 的涵義即可簡化讀成:具有能力值為θ的學生答對第i試題的機率(即等號左邊所 表示的涵義),可以由該學生的能力參數值θ和該試題的試題參數值aibici所 組成的數學公式(即等號右邊所表示的涵義)來表示。若把公式2的所有參數值 代入,算出各個答對試題的機率值,並畫出其相對應的點,並將這些點連結起 來,便形成如圖1所表示的試題特徵曲線。只要每一道試題的試題參數值不同, 所畫出來的試題特徵曲線便會不一樣,即如圖1所示(圖中的這六條試題特徵曲 線, 其個 別具 有的 試題 參 數值 ,分 別為 :a =1.8 ,1 b =1.0 ,1 c =0.0 ,1 a =0.8 ,2 2 b =1.0,c =0.0,2 a =1.8,3 b =1.0,3 c =0.25,3 a =1.8,4 b =-1.5,4 c =0.0,4 a =1.2,5 5 b =-0.5,c =0.1,5 a =0.4,6 b =0.5,6 c =0.15,6 這些參數分別決定這六條試題特徵 曲線的形狀各不相同)。 所以,決定每道試題特徵曲線形狀的三個試題參數,分別為:ai是第 i 試題

(23)

的鑑別度參數(item discrimination parameter),表示該試題能否區別出學生能 力高低的程度;bi是第 i 試題的難度參數(item difficulty parameter),表示該試

題是否困難或容易作答的程度;而ci是第 i 試題的猜測度參數(pseudo-chance parameter),表示該試題被低能力學生隨機猜題而猜中的程度。一般說來,試 題一旦被教師出題命定之後,這些試題參數即告存在,只是在學生還沒有作答 之前,我們無法事先知道這些參數值的大小,因此,通常需要使用電腦程式去 估算其數值的大小(像 BILOG-MG 即是一種目前常用的軟體程式)。 從圖1所示中可知,每一條曲線的所在位置及其形狀,均由學生的能力值和 該試題的三種參數來共同決定,故稱作『試題特徵曲線』,即是用來描述該試 題形狀隨著能力值大小而變化的一條曲線。由該圖中可知,對任何一道試題而 言,學生的能力值愈大,其答對該試題的機率便愈高,反之,則否;對任何一 位學生而言,試題愈容易作答(即試題難度參數愈低)、愈不具有鑑別功能 (即試題鑑別度 參數愈低) 、或愈容易 被猜題猜中(即 試題猜測度 參數愈 高),則該試題被答對的機率便愈高,反之,則否。 上述三個參數的對數型模式,適合用來解釋一般學校的考試題目的作答情 形。就一般課室內用的(如教師自編成就測驗)、升學用的(如升高中的基本 學力測驗和升大學的學科能力測驗)、或檢定用的(如全民英檢、TOEIC、 TOEFL、 GRE 等 ) 考 試 題 目 而 言 , 多 半 都 是 以 單 選 的 選 擇 題 型 的 試 題 ( 即 multiple-choice items),作為考試的測量工具,此時使用三個參數的對數型模 式,是解釋學生的作答反應行為最為恰當的測量模式(余民寧,1992)。

參、古典測驗理論與試題反應理論差異

古典測驗理論一直是各種心理測驗編製與解釋之主要依據,然而其有許多 理論上的缺點,因而測驗學者發展出試題反應理論,以補古典測驗理論之缺 點。IRT與CTT的發展有其先後,雖立論不一,但亦有其相同之處(曾建銘、陳清 溪,2009):

(24)

一、理論相同之處 (一)試題分析 試題反應測驗理論與古典測驗理論在進行試題分析時,若試題反應測驗理 論在只考慮一個參數下(亦即單參數模式),則兩種理論所推估出的難度呈現 幾乎相同的極高正相關;另外在計算試題的鑑別指數時,相同道理,試題反應 測驗理論在僅考慮兩個參數的雙參數模式下,其推估出的鑑別度參數a i ,應會與 古典測驗理論所 計算的鑑別 指數 (如點 二系列相關係數 )呈現高度 正相關 (Lord,1980)。 (二)理論的假設 如前所述試題反應測驗理論與古典測驗理論都有其假設的前提,其中試題 的「單向度」、「知道—正確假設」之前提,對兩種理論而言,都是必要的。 (三)受試者的評定 對於受試者的優劣評定,雖然試題反應測驗理論較古典測驗理論來得嚴謹(例 如兩受試者答對題數相同時,試題反應測驗理論亦能分辨出兩受試者之間的能 力高低),但兩種理論所得的能力值及總分,具有一致性,都能有極高的正相 關。 二、理論相異點 針對試題反應理論與古典測驗理論加以比較,其中較明顯的差異有以下四 點(Hambleton & Cook, 1977):

(一)樣本的影響 古典測驗理論以反應正確受試者之百分比作為難度指標,以試題分數與測 驗總分的相關係數作為鑑別度指標,這些代表試題特質的統計量數隨受試者能 力水準而變,亦即這些統計量數係團體相依(group-dependent)。而試題反應理 論的試題參數,如難度參數b 及鑑別度參數a,雖然經過不同群體受試者的施 測 , 卻 仍 舊 保 持 不 變 , 也 就 是 說 , 試 題 參 數 之 估 計 不 受 樣 本 不 同 的 影 響

(25)

(sample-free)。 (二)試題難度的影響 古典測驗理論的觀察分數隨測驗的難度而變,亦即觀察分數係依測驗而定 (test-dependent),此現象造成不同受試者接受不同試題的結果難以直接比較。 而在試題反應理論中,受試者能力估計不受試題不同的影響(item-free),且不 同受試者的能力值可以直接比較。 (三)測量誤差 在古典測驗理論中,所有受試者接受一測驗的結果皆具有相同的測量誤 差,無法反應出受試者間的個別差異。而在試題反應理論中,測量誤差之估計 因受試者能力水準的不同而異,因此可提供不同水準受試者能力估計值,不同 的準確度評估。 (四)測驗結果的解釋 在古典測驗理論中,測驗結果的解釋通常是將受試者在測驗中答對的試題 予以計分,忽視了受試者答對試題的難度有高有低。而在試題反應理論中,則 考慮試題難度的訊息,因此原始得分相同者,能力估計值不見得相同。 綜合上述,古典測驗理論雖不夠嚴謹,但理論淺顯易懂,便於在實際測驗 情境(尤其是小規模測驗)實施,至今,它仍然是最實用的測驗理論,古典測 驗理論所採用的數學方法較為簡單易行,廣被中小學教師及一般大眾所能接 受,在當今實務應用方面,古典測驗理論的重要性仍佔有一席之地(余民寧, 2002);而試題反應測驗理論雖嚴謹,但理論艱深難懂,僅適用於大規模測驗。

第二節 試題與測驗之分析

試題是構成一份測驗最基本的單位,有良好的試題才有良好的測驗。但要 如何評鑑試題的優劣呢?必須同時透過試題質與量的分析,也就是題目邏輯的 分析與試題選項統計的分析。質的分析是針對試題的內容和形式,從取材的適

(26)

切性與編製試題的技術等方面加以評鑑;而量的分析是根據實際測驗後所蒐集 的考生作答反應資料進行統計,與分析試題的難易度、鑑別度、猜測度與受試 者對各誘答選項的反應情形等,以作為審題及修題的依據。就測驗理論觀點, 所有的試題均須經過質與量的分析,以挑出不符合測驗目的需求的試題,並予 以刪除或是加以修改,經過篩選過程後,將優良的試題而納入題庫中,日後抽 取組合後的試卷,才能發揮測驗評量的功能(曾建銘,2006),以下將進一步說明 有關質與量的分析: 壹、質的分析—試題內容與形式的分析 編製試題時,應配合測驗目的與其命題原則,才能編出適當的試題。試題 在質方面的分析,可就試題的內容請相關學科專家或資深教師,就內容審查、 有效命題原則及教學目標等評鑑工作來進行,此為試題在質方面所做的邏輯分 析(余民寧,2006)。 貳、量的分析—難易度、鑑別度、猜測度的分析 試題經過質的分析後,僅可確定試題是否符合測驗的基本原則,為避免測 驗中出現難易度過難或鑑別度過低的試題,所有命題後的試題均須經過預試, 並根據施測後所有考生之作答反應進行測驗統計分析,以確定每個試題有關量 的分析各項數值(曾建銘,2006)。 一、難易度(古典測理論) 難易度適當的試題是構成一份優良測驗的必要條件。一般以 P 代表試題的難易 度,N 代表全體受試者人數,R 為答對該題的人數,PH代表高分組(全體受試者 分數前面的 27%)答對該答的百分比,PL 表示低分組(全體受試者分數後面的 27%)答對該答的百分比。難易度有下列三種計算方式(簡茂發,1991): 1、P= N R ×100% 例如一個測驗,共有 100 位受試者,其中某一題答對人數為 60 人,則此題的難

(27)

易度為 P= 100 60 ×100%=0.6。 2、 例如一個測驗,共有 100 位受試者,其中某一題高分組答對人數為 60 人,低分 組答對人數為 20 人,則此題的難易度為 0.4 2 % 20 % 60    P P 值介於 0 與 1 之間,愈大表示愈容易,相反地,愈小表示愈困難。 3、等距量尺分析: 美國教育測驗服務社(ETS)另外設計的標準化等距難度係數,難易度指數以 △(delta)表示,△=13+4Z。它是一種以 13 為平均數,4 為標準差,下限為 1,上 限為 25 的標準分數,△值愈大表示愈困難,相反地,愈小表示愈容易。其算法 是根據答對某一試題的人數百分比與答錯該題人數的百分比,使前者在右,後 者在左,找出兩者在常態分配曲線橫軸上的分界點,此點的相對位置以標準差 為單位表示,例如,某一試題的答對人數為 84%,即 P=0.84,則可知其 Z 值為-1,帶入公式,則其△值為 13+4(-1)=9。關於如何利用難度值要挑選試題,美國 的測驗學者 Ebel 和 Frisbie(1991) 將試題的難度區分為五個等級,如下表 2-1 所 示: 表 2-1 試題難易度等級表 難易度(P) 難易度等級 P≧0.80 極容易 0.80>P≧0.60 容易 0.60>P≧0.40 難易適中 0.40>P≧0.20 困難 0.20>P 極困難 一般測驗專家均建議挑選難度約 0.5 的試題,也就是難易適中的試題,因為 這樣的試題鑑別度可以達到最大,不過在實際的測驗選題上要使每一題的難易 P= 2 P PHL

(28)

度都接近 0.5 是有些困難的。因此,有學者主張以 0.4 到 0.8 之間的難易度作為 選題標準(Chase,1978),但平均而言,整份測驗的平均難度值還是以接近 0.5 為 佳。 二、鑑別度 想要增進測驗診斷與評量的功能,試題必須要有良好的鑑別度,鑑別度的 分析方法如下: 1、試題反應與測驗總分的關聯性: 試題若為選擇題,則考生的作答反應為答對或答錯之二分變項;而對整份 測驗而言,總分可視為連續變數,兩者之關係可以用點二系列相關係數(γpb)來表 示其內部一致性的高低,即該試題之鑑別度。 2、鑑別度指數 D: D = P H - P L,其中P H 與 P L之定義同難易度所述。 由鑑別度的定義可知,鑑別度高的試題可以清楚地分辨能力高與能力低 者,但鑑別度要算多少才算好呢?根據Noll,Scannell 和 Craig(1979)的看法,至 少要達到0.25以上,低於0.25者即為鑑別度不佳或品質不良之試題。美國測驗學 者Ebel(1991)曾提出一套判斷鑑別度的標準如表2-2,供測驗試題命題者作為選擇 試題的參考。 表2-2 鑑別度評鑑標準表 鑑別度指標 試題評鑑結果 0.4 以上 非常優良 0.3~0.39 優良,但可能需要小幅修改 0.2~0.29 尚可,但需做局部修改 0.19 以下 劣,需要大幅刪除或修改

(29)

三、難度、鑑別度與猜測度(試題反應理論) 在試題反應理論中若以三參數模式為例,模式中有三個參數:a、b、c,分 別代表試題的鑑別度、難度與猜測度。鑑別度與難度的值介於-∞與+∞之間,一 般而言,鑑別度只取正,以 0 至 2 之間為多,值愈大代表鑑別度愈大;難度則 通常介於+3 到-3 之間,同樣地,值愈大代表試題難度愈難;猜測度則介於 0 與 1 之間,值愈大亦代表試題猜測度愈大,通常試題選項越多,猜測度就會較小。 參、選項分析 選擇題的選項包括正確選項與誘答選項,正確答案選項必須明確,而誘答 選項則必須具有誘答的功能,要知道是否符合正確選項與誘答選項的性質,則 需透過選項分析。選項分析可以讓施測者清楚地了解每一道試題的所有選項是 否符合命題原則,分析過程是比較高分組與低分組對正確與誘答選項的選答 率,分析的結果如果符合下列兩項原則,則表示該試題的所有選項是合理且有 效的(郭生玉,1999): 一、高分組選答正確選項的比率必須高於低分組。 二、每個誘答選項均要有低分組的受試者選答,且低分組對於每個誘答選項的 選答率都必須比高分組還要高。 肆、試題分析的功能 試題經過質的分析評估,對試題內容進行檢驗後,再透過客觀的量化統計 分析,可以分析出每一試題的統計特徵,幫助命題者了解測驗試題的品質,若 經過上述質與量分析後,確認該試題為優良,則可納入題庫中,作為日後組卷 時使用。試題在經過質和量的分析後,可以讓命題者知道試題是否有預期的測 量功能、試題的資訊—如:難易度、鑑別度、猜測度、試題特徵曲線、試題訊 息量及選項是否具有誘答力等,而這些試題資訊如果再加上主題內容與教學目 標後分類儲存,並提供關鍵字後納入題庫,將可提供教師日後實施測驗時的參 考。教師可以根據雙向細目表,自題庫中選出適當之試題,組成一份測驗,如

(30)

此可以降低命題時間並節省人力及物力,而且所選出的試題均為經過試題分析 後的優良試題(曾建銘,2006)。經過試題分析可以充分協助教師改進編製試題的 技 巧 與 初 步 瞭 解 整 體 學 生 的 答 題 情 形 , 以 便 進 一 步 調 整 或 改 變 教 學 策 略 (Haladyna, 1994)。

第三節 DIF的檢定方法

本節將說明DIF的定義,並簡介本研究中所運用的DIF檢定方法(M-H、 SIBTEST)。

壹、DIF的定義

差異試題功能(differential item functioning,以下簡稱DIF), DIF的意思是 指:「來自不同的族群或團體,但能力相同的個人,在作答某試題上的機率卻 有所不同,則該試題便具有DIF 現象。」(余民寧,1993)。如果測驗題目具有 DIF 現象,表示同一試題於兩團體或族群當中展現出不同的功能(functioning), 可能是因不同性別、族群或是地區性教學差異、生活經驗不同、資源分配不公 等等因素所造成。

貳、DIF檢定方法

一、M-H 法

Mantel-Haenszel 法(簡稱M-H 法,Holland & Thayer, 1988),是目前於實際 應用上最廣泛的方法,此法不僅計算簡單、理論易懂,且研究者可自行利用一 般市面上套裝軟體(如SAS)進行DIF 分析,美國教育測驗服務社(Educational Testing Service)即是利用此法來進行DIF 試題檢定。

M-H 法在進行檢定前需選定配對的標準,通常以測驗總分作為焦點組與對 照組的配對變項。M-H 法乃屬於列聯表(contingency tables)的分析法,包含共同 勝算率(common odds ratio)及M-H 卡方統計值(x2MH)的計算,其方法乃直接根據

(31)

表,表中的Tk 代表得分為k 的總人數,nRK 與nFK 分別代表參照組與焦點組的 人數,m1K 為答對試題的人數, m0K 為答錯試題的人數。 表2-3 總分為K的2×2列聯表 試題反應 答對(1) 答錯(0) 總和 參照組(R) AK BK nRK 焦點組(F) CK DK nFK 組 別 總和 m1K m0K Tk M-H 法的虛無假設(null hypothesis)即是在考驗這k+1 個分數層的參照組和焦點 組的共同勝算率(MH )是否等於1.0,其虛無與對立假設如下: H0:MH=1 H1:MH≠1 而MH的估計值如下:

k k k k k k k k MH T C B T D A / / (公式1) Mantel 和 Haenszel (1959)曾提出一卡方統計數來考驗MH 等於1.0 的假設:

         k k ar k k k k MH A V A E A ) ( 5 . 0 ) ( 2 2 (公式2) 其中: k k RK k T m n A E( ) 1 ) 1 ( ) ( 2 1 0   k k k k FK RK T T m m n n Ak Var (公式2 中,-0.5 是為提昇間斷的 2 MH 分配趨近連續卡方分配)。在虛無假設為真時, 2 MH 統計數為自由度1的卡 方分配。Birch (1964)和Cox (1970)都認為M-H 卡方檢定是考驗H0 與H1 最強而 有力的不偏考驗。

(32)

二、SIBTEST法(simultaneous item bias test)

同步試題偏差檢定法(簡稱SIBTEST) 是由Shealy 與Stout 於1993 年所提出 的DIF 檢定法,此方法依據多向度IRT 觀點來解釋DIF,是一種不需依賴IRT 模式的無母數( non-parametric )檢測方式。主要是當試題在原本所欲測量的主要 能力之外,還受到其他干擾因素的影響,以至於有利某些受試群體的作答表 現,則代表該試題具有DIF。一般二元計分試題的DIF 偵測方法,可區分為觀察 分數( observed score )法和潛在變數( latent variable )法,前者是以受試者之測驗 總分作為比較依據,後者則是以受試者潛在能力之估計值為比較的對象,而 SIBTEST 特別之處,即是一方面以試題反應理論為其理論架構,另一方面卻以 觀察分數作為DIF 檢測比較之基準。 SIBTEST可同時檢定一個或多個試題是否具有DIF現象。檢定方法是將整份 測驗分成兩組,其中一組是無DIF的試題,另一組是待檢測的DIF的單一或多個 試題,比較兩組於待檢測組上經迴歸校正後的分數,若兩組校正後的分數達顯 著差異時,表示該組試題具有DIF現象存在。

第四節 影響學力評估成績的相關因素探討

影響學力評估測驗成績的因素很多,大部分國內外研究指出影響學業成績 之主要三大因素,分別為學校因素、個人因素和家庭背景特徵的因素,整理相 關文獻發現,影響學力評估測驗成績的因素如下:

壹、家庭背景因素

社會資本論(Coleman, 1988)具體指出家庭環境中的財物、人力和社會資 本深刻的影響學童的學習成就。大部分的研究結果均指出,不同的家庭背景因 素(父母教育、父母職業、家庭收入、居住區域),會造成學生學業成就的顯 著差異(李敦仁、余民寧,2005;李鴻章,2006;巫有鎰,2007;黃毅志、陳 怡靖,2005;李佩倫,2005;Bakermans-Kranenburg、van Ijzendoorn 與Bradley

(33)

(2005))。

貳、外籍配偶因素

母親為本國籍之子女其整體學業表現優於外籍配偶子女,其中又以東南亞 配偶之子女的學業表現有較低落的現象(蘇筱楓,2005)。本國籍母親之子女學 業成就高於外籍母親之子女,尤其數學領域成就顯著差異(柯淑慧,2003)。數學 科方面,鍾文悌(2005)從其研究中發現五年級的外籍配偶子女與母群的差異 有擴大的趨勢。新移民子女和本國配偶子女在數學學業表現上具有差異,本國 配偶子女的數學學業表現優於新移民子女數學學業表現(蘇雅雯,2008)。 綜合 以上研究顯示,外籍配偶子女在學業表現上比本國籍差。 但是,也有其他研究顯示,外籍配偶子女在學業表現上與本國籍子女並無 差異。在學業成就差異上,漢族學童與外籍配偶子女之學業成就無顯著差異, 且皆顯著優於原住民族學童(陳振新,2007)。外籍配偶子女與本國籍配偶子在智 力方面並無顯著差異(陳湘淇,2003)。新民移子女國小階段成績沒有差異(王世 英等,2006)。

參、性別因素

簡茂發等人(1995)以國小5 年級學生為樣本,研究結果顯示:在數學內 容方面,男生機率的平均數顯著高於女生,但在算術運算、數的關係、幾何、 度量、統計、類型與關係、代數等項目則無顯著性別差異;在數學歷程方面, 女生的數學解題平均數顯著高於男生,但在數學溝通、數學推理和數學聯結等 項目則無顯著性別差異。 有些研究則持不同看法,吳嘉麗(1998)發現國小階段男女生數學及自然科目 表現無差異,認為由於數學及自然科目在小學中年級以前仍十分簡單,普通才 智者即可獲得不錯的成績,高年級以後數理科目漸趨複雜,如果教學無法引起 學生興趣,或學生無法認同這些科目,將影響學習效果及日後之學習。陳翠華

(34)

(1996)針對國小學生的研究,在數學科方面,國小學生不因性別不同而有顯著差 異。TIMSS最近兩次的調查(2003,2007),我國不管是國小四年級或國中八年級 學生,其國際平均之數學成就對於性別並無顯著差異;就25 個參與國家或地區 估得的國際平均數來說,男女生的數學整體表現也沒有顯著差異(林碧珍、蔡 文煥,2005;Mullis, Martin,Gonzalez, & Chrostowski, 2004)。

綜合以上,男生和女生在數學表現是否有差異存在?很難得到一致的結 論,如Willingham 和Cole(1997)所言:受試者的年級(或年齡)、樣本取樣 方法(如隨機抽取代表性樣本、報名考生、方便取樣)、測驗構念和形式(前 者如知識內容、認知歷程;後者如選擇題、問答題等)等因素都可能影響到結 果。

肆、原住民因素

以原住民為對象的相關研究中數學成績不理想或學習困難也常被提及(郭 李宗文、鄭偉壕,2009),比較原漢學生的相關研究也顯示數學成就上原住民 學生與平地學生之間有顯著差異存在(王國亨,2005;蔡馨儀,2008),而巫 有鎰(2007)的研究結果也發現,原住民各族的數學成績均不如漢人,其原因 除了各族家庭社經地位較低、單親與隔代教養比率較高、居住地區都市化程度 較低而不利於數學成績。學業成就在不同族群別方面,非原住民學生顯著高於 原住民學生(邱筠媛、李郁文,2009)。

(35)

第三章 研究設計

本研究依據桃園縣 98 年度五年級學生數學學力評估測驗進行試題分析,以 期能根據學生解題策略分析,提供給教師進行補救教學,提升學生數學學習成 效。本章共分為四節,依序為:「研究架構與設計」、「研究方法與研究對象」、 「硏究工具」、「資料處理與分析」。

第一節 硏究架構與設計

本研究依據桃園縣 98 年度五年級學生數學學力評估測驗進行試題分析,並 且以量化研究統計方法,利用學力評估施測成績為依變項,學生身份別為自變 項,探討不同變項學生是否有差異,學生身份變項分別為:性別、原住民、父 母任一個為外籍人士。 統計分析 撰寫硏究報告 文獻探討 試題分析 施測資料 現代測驗理論 三參數分析 難度 鑑別度 選項 分析 學生背景變項 1、性別 2、原住民 3、父母任一個 為外籍人士 學 力 評 量 結 果 古典測驗理論 分析 難度 鑑別度 猜測度 分析 圖 3-1 硏究架構圖

(36)

第二節 研究方法與研究對象

壹、研究方法

本研究採用量化研究之調查研究法,以桃園縣 98 年度五年級學生為樣本, 由桃園縣政府於 98 年 5 月 7 日進行學力評估之施測,將所獲得之施測數據加以 分析。

貳、研究對象

一、全部樣本數 本研究對象為桃園縣 98 年度五年級學生,總施測人數為 28242 人(本項資料 數據的取得,係由桃園縣國民教育輔導團提供)。概況如下: 全部有效施測人數為 28242 人,扣除背景變項未選擇是否為男生或女生人 數 47 人,男生共 14675 人,女生共 13520 人。 表 3-1 數學學力評估男女學生樣本數 人數 男 14675 女 13520 合計 28195 全部有效施測人數為 28242 人,扣除背景變項未選擇是否為原住民學生或 不是原住民學生人數 56 人,原住民學生共 1445 人,不是原住民學生共 26741 人。 表 3-2 數學學力評估原住民及非原住民學生樣本數 人數 原住民學生 1445

(37)

非原住民學生 26741 合計 28186 全部有效施測人數為 28242 人,扣除背景變項未選擇我的父母中任一個人 是否為外籍人士人數 73 人,父母中任一個人是外籍人士共 2057 人,父母任一 個不是外籍學生共 26112 人。 表 3-3 數學學力評估父母任一個是否為外籍人士樣本數 人數 父母中任一個人是外籍人士 2057 父母中任一個人不是外籍人士 26112 合計 28169 二、抽樣樣本數 本研究為了解不同背景變項學生在學力評估測驗有無 DIF 現象,考量若全 部之男女皆放入做 DIF 分析,將因樣本太大而產生太多 DIF 試題,因此男女生 採隨機抽樣方式各 2000 人;非原住民依原住民每 5 分為一群之人數,隨機抽取 相對群組之人數做配對;父母中任一個人不是外籍人士學生依父母任一個為外 籍人士學生每 5 分為一群之人數,隨機抽取相對群組之人數做配對。表 3-2-4 為 各背景變項學生抽樣之樣本數。 表 3-4 各背景變項學生抽樣之樣本數 人數 男 2000 女 2000 原住民學生 1444 非原住民學生 1444 父母中任一個人是外籍人士 2055 父母中任一個人不是外籍人士 2055

(38)

第三節 研究工具

本研究工具為桃園縣 98 年度五年級數學學力評估試題及施測數據,試題主 要是由桃園縣國教輔導團輔導員依據試題類別(數與計算、關係、代數、量與實 測、圖形與空間、機率與統計)加以命題,再經由團員討論後決定第一次預試的 題目,接著於縣內選擇三所學校的三個班級進行第一次預試,經過第一次施測 後將試題分析的結果,請教授與團員一起討論,依據各題的難度與鑑別度加以 討論與修正,選擇適合的題目,再進行縣內另三所學校三個班級的第二次預 試,依據預試結果再請團員與教授討論並確定正式施測的題目。 桃園縣 98 年度五年級學生數學學力評估施測於 98 年 5 月 7 日實施,實施 概況如下表 3-5 表 3-5 五年級數學學力評估實施概況 日期 98 年 5 月 7 日 地區 桃園縣 13 個鄉鎮市 對象 桃園縣全縣國小五年級學生 地點 各受測學生所在學校 作答時間 40 分鐘 表 3-6 五年級數學學力評估試題主題暨內容一覽表 主題 內容 數與計算 1. 十萬以內數的說、讀、聽、寫、做。 2. 延伸加、減、乘、除在情境上的運用。 3. 取概數、做概算。 4. 同分母分數的合成與分解。 5. 理解內容 物為 多個個 物的分 數意義 ,並 理解等值 分

(39)

主題 內容 數。 6. 假分數、帶分數的互換。 7. 分數的整數倍。 8. 認識二位小數。 9. 解決二位小數的分解、合成、簡單整數臂的問題。 關係 1. 理解乘法交換律、等號對稱性、「>、=、<」的遞移 性。 2. 理解加法和乘法的分配律與結合律。 3. 理解乘法和除法的相互關係。 4. 知道四則運算的規定。 5. 認識整數數線、分數數線與小數數線。 6. 能用時間 長短 ,描述 一物體 在固定 距離 內的運動 速 率;能用距離短,描述一物體在固定時間內的運動速 率。 代數 1. 將問題表徵為含有△、□、甲、乙、?…的式子。 2. 能解決生活情境中列出的算式填充題。 3. 察覺簡易數量模式,並能描述模式中的一些特性。 4. 能使用中文簡記式描述長(正)方形面積與體積。 量與實測 1. 點算兩時刻間的時間。 2. 理解並應用 24 時制。 3. 兩個同類量間的間接比較、個別單位比較。 4. 認識各種量的普遍單位。 5. 認識各種 量的 測量工 具上的 刻度結 構, 並作形式 計

(40)

主題 內容 算。 6. 同類量中的二階單位的關係與化聚。 7. 以乘法簡化長(正)方形面積與體積的點算。 圖形與空間 1. 知道形體的組成要素。 2. 能依據形體組成要素間的關係比較兩形體的異同。 3. 能察覺到形體的性質。 4. 能用東西南北的語詞描述位置及方向。 5. 知道兩鉛垂線及兩水平線互相平行。 6. 瞭解張開程度、旋轉程度和角度關係。 7. 知道線對稱。 統計與機率 1. 能製作並報讀長條圖。 2. 能解讀長條圖的各種變形。 3. 能報讀生活中常見的二維表格。

(41)

表 3-7 98 年度數學學力評估試題雙向細目表 題號 難 中 易 小計(題) 數與計算 12、25 1、19、21 5 關係 4 9、20、23 4 代數 8 1 量與實測 16、18 2、14、17、24 5、22 8 圖形與空間 7 3、13、15 6、10 6 統計 11 1 小計(題) 4 14 7 25

第四節 資料分析與處理

本節共分兩個部份,第一部分使用 TESTER For Windows 程式 2.0 版,對 桃園縣 98 年度五年級數學學力評估試題,進行試題難度、鑑別度和試題選項誘 答力分析以及使用 BILOGMG 3.0 軟體進行試題難度參數(b)、鑑別度參數(a)和 猜測度參數(c)分析。第二部分是使用 t 考驗(t-test)統計方法,探討不同背景變項 學生在學力評估測驗成績的表現上是否有差異,再利用 Effect Size Generator 2.3 軟體計算 Cohen’s d 的 Effect Size 數值,來呈現影響的程度。以及使用 M-H 和 SIBTEST 法分別對不同背景變項學生進行 DIF 檢測。

壹、試題之分析

一、古典測驗理論(CTT)分析

本研究使用 TESTER For Windows 程式 2.0 版對五年級學生數學學力評估 測驗試題,進行試題難度、鑑別度分析,以及試題選項誘答力分析。各項指標

(42)

鑑定如下: 難度指數最大值為 1,最小值為0,難度指數愈接近1 代表答對人數愈多, 試題愈簡單,愈接近0 代表答對人數愈少,試題就愈困難。依據Ebel 與Frisbie (1991)、王文中等(1999)、余民寧(1997)、陳英豪與吳裕益(1992)、 郭生玉(1985)等提出之試題評鑑原則,個別試題的難度指數應介於0.4 ~0.8 之 間,整份試題的難度指數應在0.5 左右。 鑑別度指數的最大值為+1,最小值為-1,鑑別度指數愈大代表試題鑑別程 度愈好,愈小代表試題鑑別程度愈差。依據Ebel 與Frisbie(1991)、王文中等 (1999)、余民寧(1997)、陳英豪與吳裕益(1992)、郭生玉(1985)等提 出之試題評鑑原則,鑑別度指數在0.4 以上是屬於非常優良試題;介於0.3 ~0.39 屬於優良試題,但可能需要修改;在0.2 ~0.29 屬於尚可試題,但需做局部修 改;0.2 以下屬於較差試題,建議刪除。 選項誘答力分析的分析方式是將受測者的評量總分,分成高分組(全體受 試者當中分數最高的27%至33﹪)及低分組(全體受試者當中分數最低的27%至 33),再分別計算出每一個選項的選答率。依據 Ebel 與Frisbie(1991)、王文 中等(1999)、余民寧(1997)、陳英豪與吳裕益(1992)、郭生玉(1985) 等提出之選項誘答力評鑑標準,試題的選項誘答力應至少有一位低分組受試者 選擇任何一個錯誤選項,並且選擇錯誤選項的低分組受試者會比高分組多。 二、試題反應理論(IRT)分析 以BILOGMG 3.0軟體進行試題的參數分析,以三參數模式計算分析每一試 題之難度參數(b)、鑑別度參數(a)和猜測度參數(c)。 三、古典測驗理論(CTT)和試題反應理論(IRT)之分析比較 兩種模式分析下,分別求其難度指標、鑑別度指標、受試者能力指標之相 關情形。

貳、量化資料之處理

(43)

一、以 t 考驗(t-test)統計方法,探討以下問題: (一)、了解不同性別學生在學力評估測驗成績的表現上是否有差異? 1、了解不同性別學生在「數與計算」方面試題的表現上是否有差異? 2、了解不同性別學生在「關係」方面試題的表現上是否有差異? 3、了解不同性別學生在「量與實測」方面試題的表現上是否有差異? 4、了解不同性別學生在「圖形與空間」方面試題的表現上是否有差異? (二)、了解原住民和非原住民學生在學力評估測驗成績的表現上是否有差異? 1、了解原住民和非原住民學生在「數與計算」方面試題的表現上是否有 差異? 2、了解原住民和非原住民學生在「關係」方面試題的表現上是否有差 異? 3、了解原住民和非原住民學生在「量與實測」方面試題的表現上是否有 差異? 4、了解原住民和非原住民學生在「圖形與空間」方面試題的表現上是否 有差異? (三)、了解父母中任一個人是否為外籍人士學生在學力評估測驗成績的表現上 是否有差異? 1、了解父母中任一個人是否為外籍人士學生在「數與計算」方面試題的 表現上是否有差異? 2、了解父母中任一個人是否為外籍人士學生在「關係」方面試題的表現上 是否有差異? 3、了解父母中任一個人是否為外籍人士學生在「量與實測」方面試題的 表現上是否有差異? 4、了解父母中任一個人是否為外籍人士學生在「圖形與空間」方面試題 的表現上是否有差異?

(44)

以 t 考驗分析不同背景變項學生,比較不同性別學生、原住民學生和非原 住民學生、父母中任一個人是否為外籍人士學生,由其 t 值與顯著性判斷資料 與分析結果,了解在數學學力評估成績表現上是否有差異性的影響,其差異 是否達顯著水準。 二、 對於分析不同性別學生、原住民學生和非原住民學生、父母中任一個人是 否為外籍人士學生,在學力評估測驗成績表現上的數據是否顯著的同時, 我們還要考慮影響的程度,所以利用Effect Size Generator 2.3軟體計算 Cohen’s d的Effect Size數值,來呈現影響的程度。在Effect Size統計技術中 選擇以Cohen’s d方法來計算Effect Size的數值,Cohen(1988,1992)認為計 算出來的d值就等於Effect Size,d值愈小Effect Size愈小,他認為大約0.2者 屬於較弱的效果量(Effect Size),0.5屬於中強度的效果量(Effect Size),0.8 或以上就算是較強的效果量(Effect Size)。

三、DIF的檢測

以M-H法及SIBTEST法分別對不同背景變項學生進行DIF檢測,以了解 不同變項學生的試題差異功能情形。Holland 及 Thayer(1988)以 Mantel 與 Haenszel(1959)研究的技術來研究 DIF,計算在每個配對標準之下以 2×2 列 聯 表 計 算 兩 群 體 的 勝 算 比 ( odds ratio ) , 並 計 算 共 同 勝 算 比 (common odds ratio),提供卡方顯著性檢定以偵測單一試題是否有 DIF。 此種程序一般稱為M-H法。Shealy 和 Stout(1993)以答對率概念所發展出 SIBTEST 用以偵測 DIF 之方法,檢定兩群體在相同能力值之下答對率是 否達顯著差異。

(45)

第四章 研究結果

本章分為四節敘述研究之結果,第一節是桃園縣 98 年度五年級數學學力評 估試題結果分析;第二節為試題反應理論(IRT)分析;第三節是不同背景變項學 生學力評估 DIF 之分析;第四節是不同背景變項學生之學力評估成績比較。

第一節 五年級數學學力評估試題結果分析

第 1 題全體學生受試結果其難度為 0.90 鑑別度 0.17,高、低分組答對率皆 高,此題題目偏易。 一、下列哪一個是錯的? 40506 讀作四萬零五百零六 八萬零八百零八記作 80808 3 個萬,5 個千,8 個十合起來是 35080 6 個 10000,8 個 1000,7 個 1 合起來是 60807 第 1 題 選 項 1 2 3 4* 選項率 .02 .02 .03 .93 高分組 .00 .00 .00 .99 低分組 .05 .04 .08 .82 通過率:93 難度:0.90 鑑別度:0.17 第 2 題全體學生受試結果其難度為 0.59 鑑別度 0.61,此題為良好試題,高 分組學生幾乎都答對,低分組有 45%的學生選擇錯誤選項 1,顯示低分組學生對 於數線區間等分的概念不足或粗心大意,未能注意 0.2 和 0.3 之間的等分數目, 反而受刻度影響而答錯。所以在此題低分組學生有迷思概念必須對其進行補救

(46)

教學。 二、 0.2 公尺 ( )公尺 0.3 公尺 0.4 公尺 箭頭所指的數是0.23 公尺0.26 公尺0.28 公尺0.6 公尺 第 2 題 選 項 1 2* 3 4 選項率 .27 .59 .08 .05 高分組 .07 .89 .03 .01 低分組 .45 .28 .13 .13 通過率:59 難度:0.59 鑑別度:0.61 第 3 題全體學生受試結果其難度為 0.61 鑑別度 0.44,高分組答對率高,低 分組因不了解角錐和角柱的特性,若能增加圖形輔助,低分組應能減少猜測情 形而提高答對率。 三、下列敘述角錐和角柱的特性哪個說法錯誤? 角柱的側面是四邊形 角錐有一個底面 角錐的側面是長方形 角柱有相互平行的底面 第 3 題 選 項 1 2 3* 4 選項率 .17 .09 .60 .12

(47)

● ○○ ●●● ○○○○ 圖一 ○○ ●●● ○○○○ ●●●●● 圖二 ●●● ○○○○ ●●●●● …… ? ○○○○○○ 圖三 圖七 高分組 .09 .03 .83 .05 低分組 .23 .17 .39 .18 通過率:60 難度:0.61 鑑別度:0.44 第 4 題全體學生受試結果其難度為 0.59 鑑別度 0.46,此題為良好試題,高 分組學生幾乎都答對, 3 個錯誤選項對低分組學生皆有誘答力,選擇選項 1 是 因為圖一~圖三都是後一個黑色層比前一個黑色層多 2 個,選擇選項 3 是因為看 圖二黑色層比白色層多 1 個,選擇選項 4 是因為看圖三白色層比黑色層多 1 個。 四、如下圖所示,請問圖七中哪一種顏色多?多幾個? 黑色多 2 個白色多 2 個黑色多 1 個白色多 1 個 第 4 題 選 項 1 2* 3 4 選項率 .21 .58 .09 .10 高分組 .11 .82 .02 .04 低分組 .27 .36 .18 .16 通過率:58 難度:0.59 鑑別度:0.46 第 5 題全體學生受試結果其難度為 0.89 鑑別度 0.19,高、低分組答對率皆

(48)

高,此題題目偏易。 五、泰桂涼麵上的標籤顯示著:「製造日期」:5 月 7 日 12 時;「有效日期」:5 月 8 日 18 時。請問這盒涼麵的保存期限共有幾日幾時? 1 日 3 時 1 日 4 時 1 日 5 時 1 日 6 時 第 5 題 選 項 1 2 3 4* 選項率 .02 .03 .03 .92 高分組 .00 .01 .01 .98 低分組 .05 .06 .08 .80 通過率:92 難度:0.89 鑑別度:0.19 第 6 題全體學生受試結果其難度為 0.88 鑑別度 0.15,題目偏易,高分組及 低分組學生大部份皆答對。 六、下圖是一個線對稱圖形,它的對稱軸有幾條? 6條 10條 12條 14條 第 6 題 選 項 1* 2 3 4 選項率 .90 .03 .06 .01 高分組 .96 .01 .03 .00 低分組 .81 .06 .10 .02 通過率:90 難度:0.88 鑑別度:0.15

(49)

第 7 題全體學生受試結果其難度為 0.43 鑑別度 0.44,題幹敘述複雜過長, 且缺乏圖形輔助,又同時測驗 2 種方位。選擇選項 3 人數偏多,選項 3 含有迷 思概念且是唯一有兩種方位之選項,與其他選項敘述較不同,故較易直接推測 選項 3 為正確答案。 七、五年一班有 35 個學生,每 7 個坐一排,共有五排。從左邊算起為第一排, 班長坐在第二排第二列,副班長坐在第三排第三列,風紀股長坐在第五排 第二列,請問以下敘述何者正確? 風紀股長坐在班長的右邊 風紀股長坐在班長的左邊 副班長坐在班長的左後方 班長坐在副班長的前方 第 7 題 選 項 1* 2 3 4 選項率 .41 .12 .35 .11 高分組 .65 .05 .23 .07 低分組 .21 .21 .41 .15 通過率:41 難度:0.43 鑑別度:0.44 第 8 題全體學生受試結果其難度為 0.72 鑑別度 0.43,此題為良好試題,高 分組學生幾乎都答對, 3 個錯誤選項對低分組學生皆有誘答力。選擇選項 1 之 學生題目列式正確,但在計算過程中約分後某數除以 15 等於 5,直接計算成 3 1 。選擇選項 2 之學生直接以 24 除以 15 乘上 120 得答案。選擇選項 3 之學生直 接以題目上之數字相乘,將 24 乘以 15 再乘以 120 得答案。 八、恩如做數學計算時,把「某數乘以 24 後,再除以 15」後,得到的答案是

(50)

120,請問原來的「某數」是多少?  3 1 7519243200 第 8 題 選 項 1 2* 3 4 選項率 .08 .75 .11 .06 高分組 .02 .94 .02 .02 低分組 .14 .51 .22 .11 通過率:75 難度:0.72 鑑別度:0.43 第 9 題全體學生受試結果其難度為 0.68 鑑別度 0.49,此題為良好試題,高 分組學生幾乎都答對, 3 個錯誤選項對低分組學生皆有誘答力。選擇選項 1 是 將 29 除以 7,得商為 4 餘數為 1,以餘數為答案。選擇選項 2 是將 29 除以 6, 得商為 4 餘數為 5,以商為答案。選擇選項 4 是將 29 除以 6,得商為 4 餘數為 5,以小數點第四位 8 為答案。 九、把 1 除以 7,得到的商是 0.142857142857142857……,請問,這個商的小數 第 29 位數是多少? 1 4 5 8 第 9 題 選 項 1 2 3* 4 選項率 .08 .08 .71 .12 高分組 .03 .01 .92 .03 低分組 .15 .18 .43 .22 通過率:71 難度:0.68 鑑別度:0.49 第 10 題全體學生受試結果其難度為 0.36 鑑別度 0.20,邊長ㄅ的可能性很

數據

圖 3-1 研究架構圖………………………………………………………………23
表 3-7    98 年度數學學力評估試題雙向細目表  題號  難  中  易  小計(題)  數與計算  12、25  1、19、21  5  關係  4  9、20、23  4  代數  8  1  量與實測  16、18  2、14、17、24  5、22  8  圖形與空間  7  3、13、15  6、10  6  統計  11  1  小計(題)  4  14  7  25  第四節  資料分析與處理
表 4-13 父母中任一個人是否為外籍人士學生「數與計算」方面成績表  變項  個數  平均數  標準差  平均數的  標準誤  t 值  顯著性(p)  Effect  Size  父 母 中 任 一 個 人 是 外籍人士  2057  3.20  1.35  0.030  父 母 中 任 一 個 人 不 是 外 籍 人 士  26112  3.49  1.29  0.008  -9.222  .000***  0.219  ***p<.001  三、父母中任一個人是否為外籍人士學生在「關係」方面成績之比
表 4-14 父母中任一個人是否為外籍人士學生「關係」方面成績表  變項  個數  平均數  標準差  平均數的  標準誤  t 值  顯著性(p)  Effect  Size  父 母 中 任 一 個 人 是 外籍人士  2057  2.25  1.12  0.025  父 母 中 任 一 個 人 不 是 外 籍 人 士  26112  2.46  1.09  0.007  -8.448  .000***  0.190  ***p<.001  四、父母中任一個人是否為外籍人士學生在「量與實測」方面成績之比
+3

參考文獻

相關文件

Robinson Crusoe is an Englishman from the 1) t_______ of York in the seventeenth century, the youngest son of a merchant of German origin. This trip is financially successful,

fostering independent application of reading strategies Strategy 7: Provide opportunities for students to track, reflect on, and share their learning progress (destination). •

How does drama help to develop English language skills.. In Forms 2-6, students develop their self-expression by participating in a wide range of activities

Now, nearly all of the current flows through wire S since it has a much lower resistance than the light bulb. The light bulb does not glow because the current flowing through it

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

The accuracy of a linear relationship is also explored, and the results in this article examine the effect of test characteristics (e.g., item locations and discrimination) and

Hope theory: A member of the positive psychology family. Lopez (Eds.), Handbook of positive

By correcting for the speed of individual test takers, it is possible to reveal systematic differences between the items in a test, which were modeled by item discrimination and