• 沒有找到結果。

彰化縣101學年度國中新生入學測驗數學科試題分析

N/A
N/A
Protected

Academic year: 2021

Share "彰化縣101學年度國中新生入學測驗數學科試題分析"

Copied!
88
0
0

加載中.... (立即查看全文)

全文

(1)國立臺中教育大學教育測驗統計研究所 國民小學教師在職進修教學碩士學位班碩士論文. 指導教授:許天維 博士 胡豐榮 博士. 彰化縣 101 學年度國中新生入學測驗 數學科試題分析. 研究生:賴慧鞠 撰. 中華民國一○二年七月.

(2) 謝 辭 在十幾年的教學現場,有感教學環境變遷及學生的成長,自身渴望再精 進。進入中師測統所是我的不二選擇。 雖是炎炎夏日,但在各位師長的教導下,如沐春風,每每懷著愉悅心情 進入求真樓,也滿懷收穫踏上歸途。如今師長的教導充實了學生的學理探 究,讓我充足了能量再次迎向教學現場的挑戰。 隨著論文的付梓,四年的暑期研究生涯匆匆而過,感謝同窗好友,有緣 千里在學習路上認識你們;也感激師長的提攜:許院長天維、郭所長伯臣、 胡教授豐榮、施教授淑娟、楊教授志堅、陳教授桂霞、陳教授亦芬、吳教授 慧珉、曾教授建銘等,您們的學識及涵養令我敬仰;更感激二位指導教授: 胡教授豐榮及許院長天維,在論文寫作期間對學生的殷切指導及協助,讓我 能順利完成艱鉅的工程。同時也謝謝口試委員:郭所長伯臣、辛博士俊德及 鄭博士裕篤的不吝指正,提供諸多建議,使學生的論文更臻完善,在此致上 深深的謝忱。特別還要感謝彰化縣萬興國中粘志河主任熱心提供試題及考生 做答資料的取得,再三感謝您。 在這四年的暑期,忙碌的課業及家庭照顧上無法兩面兼顧,有賴體貼的 先生-智信全心全意的護持,在炎炎夏日帶著二個小蘿蔔頭四處探險及照顧 生活起居,讓我能心無旁鶩,專心於暑期的進修;亦仰仗智信在數學教育研 究所的背景,在我困惑時及時提供解答或意見,所以在他照顧兒子之際,還 不時要協助我的課業難題,對我而言,是伴侶也是”亦師亦友”。 我何其幸運,在人生路上有同窗好友、敬愛的師長及親愛家人的陪伴。 心中無限感恩!合掌謝「天」、謝「父母」! 賴慧鞠. 謹誌. 2013 年 7 月.

(3) 摘要 本研究主要目的在探討彰化縣 101 學年度國中新生入學測驗數學科試卷之 試題分析及測驗學生之能力分析。研究者取得彰化縣國一新生參與施測之有 效資料為 15344 人,先就試卷做試題檢核,再以 BILOG-MG 軟體進行 IRT 試 題分析,最後對施測學生的測驗成績做能力分析,分析其在性別及城鄉的差 異性。研究結果如下: 一、在試題質的檢核上,命題偏重「問題解決」及「數與量」的試題;試 題檢核表上大部分符合,少數檢核項有不符合的現象,應加強審題; 在九年一貫能力指標上,有部份試題超出能力範圍。 二、在量化分析上,其整份測驗的信度值為 0.852,具有良好信度,表示 試題具有可靠性,亦即有良好的測驗品質。 三、在 IRT 試題分析上,試題鑑別度指數平均值 0.987,鑑別度無非常低 之情形,屬於鑑別度適中;試題難易度指數平均值 0.363,為難易適 中;試題猜測度指數平均值 0.171,符合猜測度參數估計值的一般範 圍。經量化綜合分析,有 7 題應屬不佳試題。 四、在學生的能力分析上,女生的數學成績表現優於男生。以城鄉分區達 顯著差異,其中市的成績表現優於鎮和鄉,鎮的成績表現優於鄉,顯 示學生數學能力確實有城鄕差異。 根據研究結果,本研究對命題者及未來研究方向提出一些建議。. 關鍵字: 關鍵字:IRT、 IRT、試題分析. I.

(4) The Study of Mathematics Item Analysis from 101-Academic-Year Junior High School Entrance Examinations in Changhua County. Abstract This study aimed to investigate item analysis and the student's ability for the Changhua County 101 freshmen in academic year in entrance mathematics test. The researcher obtains the valid sample(N=15344) , first on paper do checklist questions, then BILOG-MG software for IRT item analysis, the last of statistical tests on the differences in performance for the variables of gender and urban-rural. The results were as follows: 1.Qualitative analysis on the checklist, qualitative questions on the checklist, the proposition emphasis on "problem solving" and "the number and quantity" questions; questions on the checklist meet most, a few checklist items of the phenomenon of non-compliance should be strengthened moderation; in nine consistent indicators of ability, some questions beyond the capacity range. 2. In the quantitative analysis, the whole test reliability is 0.852, with good reliability, which means that reliability questions, that there is a good test quality. 3. In IRT item analysis, the item discrimination index averages 0.987; item difficulty index average 0.363 for moderate difficulty; questions guessing index average 0.171. The quantitative comprehensive analysis, there should be a poor question 7 questions. 4. On the student's ability to analyze, girls outperform boys in math. The city's academic performance is better than the town and township. The town's is better than rural, showing student math ability Xiang city does have differences. Based on the results, this research will propose some instrumental commentaries and upcoming research.. Keywords : Item Response Theory、 、item analysis. II.

(5) 目. 次. 第一章 緒論………………………………………………………. 1. 第一節 研究動機………………………………………………. 1. 第二節 研究目的與待答問題…………………………………. 2. 第三節 研究方法與步驟………………………………………. 3. 第四節 研究範圍與限制………………………………………. 4. 第五節 名詞解釋………………………………………………. 4. 第二章 文獻探討…………………………………………………. 7. 第一節 測驗理論………………………………………………. 7. 第二節 試題反應理論與古典測驗理論相關評論……………. 13. 第三節 雙向細目表……………………………………………. 17. 第四節 試題檢核表……………………………………………. 21. 第五節 九年一貫數學學習領域………………………………. 22. 第六節 試題分析的相關研究…………………………………. 24. 第七節 學生能力差異的相關研究……………………………. 27. 第三章 研究方法…………………………………………………. 31. 第一節 研究架構………………………………………………. 31. 第二節 研究對象………………………………………………. 33. 第三節 研究工具………………………………………………. 33. 第四節 資料處理與統計方法…………………………………. 35. 第四章 研究結果分析……………………………………………. 37. 第一節 測驗試題檢核…………………………………………. 37. 第二節 IRT 測驗分析…………………………………………. 50. 第三節 學生能力分析…………………………………………. 64. 第五章 結論與建議………………………………………………. 69. 第一節 結論……………………………………………………. 69. 第二節 建議……………………………………………………. 72. III.

(6) 參考文獻……………………………………………………………. 75. 一、中文部份……………………………………………………. 75. 二、英文部份……………………………………………………. 78. 錄………………………………………………………………. 79. 附錄一 彰化縣 101 學年度新生入學測驗數學科試卷…………. 79. 附. IV.

(7) 表. 次. 表 4-1-1 彰化縣 101 學年度國中新生入學測驗數學科雙向細目表 38 表 4-1-2 試題內容檢核表…………………………………………. 40. 表 4-1-3 試題題幹檢核表…………………………………………. 41. 表 4-1-4 測驗試卷正確選項統計表………………………………. 41. 表 4-1-5 試題選項檢核表…………………………………………. 42. 表 4-1-6 試題題本檢核表…………………………………………. 43. 表 4-1-7 九年一貫數學試題之能力指標檢核……………………. 44. 表 4-1-8 整份試卷的信度統計量…………………………………. 48. 表 4-1-9 各試題信度統計量………………………………………. 49. 表 4-2-1 因素特徵值與因素解釋量………………………………. 50. 表 4-2-2 IRT 洛吉數三種參數模式適合度檢定…………………. 51. 表 4-2-3 IRT 三參數模式之試題參數估計值摘要表……………. 52. 表 4-2-4 測驗試題 IRT 三參數估計值暨全體答對率……………. 53. 表 4-3-1 測驗樣本描述統計………………………………………. 65. 表 4-3-2 性別分組之描述性統計…………………………………. 65. 表 4-3-3 性別分組之獨立樣本 T 檢定結果………………………. 65. 表 4-3-4 城鄉分組之描述性統計…………………………………. 66. 表 4-3-5 城鄉分組學生數學能力變異數分析摘要表……………. 66. 表 4-3-6 城鄉分組之變異數同質性檢定…………………………. 67. V.

(8) 圖. 次. 圖 3-1-1 研究架構圖………………………………………………. 32. 圖 4-3-1 試題 1 的內容及試題分析曲線…………………………. 56. 圖 4-3-2 試題 2 的內容及試題分析曲線…………………………. 56. 圖 4-3-3 試題 14 的內容及試題分析曲線………………………. 57. 圖 4-3-4 試題 16 的內容及試題分析曲線………………………. 58. 圖 4-3-5 試題 18 的內容及試題分析曲線………………………. 59. 圖 4-3-6 試題 24 的內容及試題分析曲線………………………. 59. 圖 4-3-7 試題 32 的內容及試題分析曲線………………………. 60. 圖 4-3-8 試題 34 的內容及試題分析曲線………………………. 61. 圖 4-3-9 試題 35 的內容及試題分析曲線………………………. 62. 圖 4-3-10 試題 39 的內容及試題分析曲線………………………. 63. 圖 4-3-11 試題 40 的內容及試題分析曲線………………………. 64. VI.

(9) 第一章 緒論 本研究主要是在研究彰化縣國小畢業生國中入學測驗數學科試題分析 與學生能力分析,探討試題的特性與適切性及鄉鎮市學生是否有能力差異。 本章就研究動機及研究目的作陳述,並對相關名詞做釋義,最後對本研究的 範圍及限制做敘述。. 第一節 研究動機 民國 92 年 9 月,在全國教育發展會議會場外,彰化縣彰安國中教師吳 麗慧跪求教育部遏止縣市政府變相能力分班歪風。11 月,教育部行文各縣 市教育局,調查轄內國中常態編班情形。彙整回報後發現:全國有六成縣市 國中執行常態編班成效為「優等」 ,但包括台中縣、彰化縣、南投縣、雲林 縣、嘉義縣、台南縣、屏東縣等七縣市執行成效只在及格邊緣的「丙等」。 國教司長吳財順表示,教育部已要求這七縣市教育局建立追蹤機制,督導縣 內國中限期改善。 教育部為有效實施國中正常化教學,發揮國民教育功能,於民國 93 年 7 月 20 日特別修正「中華民國國民中學學生編班實施要點」 ,規定國民中學 各年級一律實施常態編班。其國民中學新生之編班方式如下: 一、為達常態編班目的,國民中學新生編班得採用測驗(智力測驗、學業 性向測驗或學習成就測驗)、公開抽籤或電腦亂數方式辦理,並依高 低順序(採公開抽籤及電腦亂數者以先後順序)排列,再依序(S型 排列)分配於各班。 二、新生編班,其班級數太多時,得先公開抽籤或電腦亂數分群,各群不 得少於六班。分群後之編班方式比照前款之規定。 三、各國民中學辦理編班作業前應事先公告並通知邀請全體新生家長參觀 編班作業。直轄市、縣(市)政府除自行統一辦理全直轄市、縣(市) 各國民中學新生之編班作業外,應派員到各國民中學督導。 1.

(10) 四、導師於各班學生編班作業完成後,立即以抽籤方式編配。 五、學校於編班作業及導師編配完成後,應立即公告週知,並將學生編班 名冊上網公告六個月,學期內班級學生有異動者應隨時更新公告。 教育部並於 94 年 3 月 30 日公布「國民小學及國民中學常態編班及分組 學習準則」 。其中規定國中新生之編班得採測驗再依成績高低順序以 S 型排 列,或採公開抽籤方式,或採電腦亂數方式為依據,分配就讀班級;編班後 補報到之新生或轉學生,由原辦理單位採公開抽籤方式分配就讀班級。 彰化縣政府為落實教育部政策,落實常態編班實施要點,達成教育公平 及教學正常化,於準則公佈後,確定 94 學年度國中入學新生依準則要點辦 理。每年國小畢業生畢業至國中報到當天實施新生入學測驗,分數將作為常 態編班的依據,屆時將依學生分數高低,以S型順序編班。考科為國語、數 學,考試範圍為國小五、六年級課程內容。 研究者針對「彰化縣 101 學年度國中新生入學測驗」數學科試題進行質 與量的分析,以期日後能提供一套有效的分析程序,並提供測驗命題專家從 事題庫建置之參考。. 第二節 研究目的與待答問題 九年一貫課程於 2001 年 9 月試行,2004 年 9 月全面實施。本研究以彰 化縣國小畢業國中入學測驗數學科試題做為分析,其研究目的如下: 一、探討測驗試題在九年一貫能力指標上符合度。 二、利用 IRT 模式分析對測驗試題的難易度、鑑別度、猜測度分析。 三、對測驗試題個別做質的分析,包括試題內容、題幹、選項等要素的 檢核。 四、依此次測驗成績進行分析,瞭解不同性別及各鄉鎮學生能力的情形。. 2.

(11) 根據上述之研究動機與研究目的,本研究提出下列幾項待答問題: 一、探討「彰化縣 101 學年度國中新生入學測驗」數學科試題在九年一貫 能力指標上是否符合? 二、「彰化縣 101 學年度國中新生入學測驗」數學科試題質和量的分析結 果為何? 三、以 IRT 三參模式分析「彰化縣 101 學年度國中新生入學測驗」數學科 試題作答資料情形? 四、「彰化縣 101 學年度國中新生入學測驗」數學科學生能力分析,是否 有差異?. 第三節 研究方法與步驟 本研究以「彰化縣 101 學年度國中新生入學測驗」數學科試題與作答資 料作為研究的資料來源,做以下三個研究分析: 一、試題檢核 試題檢核分析 檢核分析 以九年一貫數學學習領域能力指標分析測驗試題內容,檢視其測驗能 力是否符合第三階段能力指標,對應符合那些能力指標,是否有超出學生 學習能力範圍。再以雙向細目表、試題檢核表做試題質的檢核,以信度分 析做試題量的檢核。 二、試題分析 以試題反應理論(IRT)分析此次的測驗試題做量的統計分析,包 括個別試題的難易度、鑑別度、猜測度分析。 三、學生能力分析 以各國中測驗之成績作為學生能力分析之依據,分析學生能力是否有 城鄉差距,男生、女生的成績是否有差異。. 3.

(12) 第四節 研究範圍與限制 本研究以「彰化縣 101 學年度國中新生入學測驗」數學科試題與作答資 料作為研究的資料來源,其研究的範圍僅以彰化縣為例。 在試題的分析上,因彰化縣數學測驗試題的考試範圍為五、六年級教學 範圍,故試題分析於九年一貫能力指標的分析上,以第三階段能力指標分析 為主,並檢視是否有超出範圍之疑慮。 在學生能力的檢測上,因國民義務教育以學生戶籍學區為就讀學校之分 配,故以各學校做為學生能力分析之依據。. 第五節 名詞解釋 為使名詞的意義更為明確,便於討論,以下就彰化縣 101 學年度國中新 生入學測驗、試題反應理論、雙向細目表、九年一貫課程數學領域等本研究 中所常用的名詞作釋意及界定,其說明如下: 一、彰化縣 彰化縣 101 學年度國中新生入學測驗 彰化縣政府為落實教育部政策,落實常態編班實施要點,達成教育公 平及教學正常化,於 94 學年度起,每學年度於國中新生入學後辦理新生 入學測驗,分數將作為常態編班的依據,屆時將依學生分數高低,以S型 順序編班。考科為國語、數學,考試範圍為國小五、六年級課程內容。彰 化縣 101 學年度國中新生入學測驗由萬興國中承辦,測驗日期為 6 月 29 日(星期五)。 二、試題反應理論 試題反應理論( Item response theory,IRT),又稱潛在特質論 ( Latent trait theory ),乃假設受試者在相對單一特質或特性的存在下, 透過受試者答題的反應, 能用一個函數關係,將受試者的潛在能力和實 際得分情形聯結在一起。受試者的測驗成績是由一些看不見的能力特質來 4.

(13) 決定,此能力特質可經由測驗試題表現出來, IRT 就是依據受試者在試 題上的實際反應,來分析試題的難易度、鑑別度、猜測度等試題的內在特 性與受試者的個人能力特質的一種理論。 三、雙向細目表 「雙向細目表」猶如編製測驗的「藍圖」,目的在於發現學習結果與 課程內容的關係,訂出不同領域的相對比重,以確保測驗能測量到我們所 預期的學習結果和教材的代表性樣本,亦即根據測驗目的及教學目標的需 求,使試題的取材能充分涵蓋所要評量的教學目標和教材內容的範圍(陳 英豪、吳裕益,2003)。 四、九年一貫課程數學領域 九年一貫是將國民小學與國民中學兩學校層級課程中的科目與內 容,以教科書為主軸來做九年一貫的銜接,其目的在於學生能獲得連續且 統合的學習與知識。其包含人與自己、人與社會、人與自然三個面向,整 合所有國語、鄉土語言、英語、數學、社會、自然與生活科技、藝術與人 文、健康與體育、綜合活動等學習領域,並依學生能力為指標,成為教育 目標的依據。 本研究探討之數學學習領域以 92 年頒布的正式課程綱要為主,共分 四個階段的學習目標,以第三階段(國小五至六年級)的學習目標為主。. 5.

(14) 6.

(15) 第二章 文獻探討 本研究主要是針對彰化縣國小畢業生國中入學測驗數學科試題做試題 分析與學生能力分析,以下就測驗理論、試題反應理論與古典測驗理論相關 評論、雙向細目表、試題檢核表、九年一貫數學學習領域、試題分析的相關 研究及學生能力差異的相關研究等七個節次做文獻探討。. 第一節 測驗理論 測驗理論旨在解釋測驗分數的意義。測驗與評量的發展當前有兩大學 派:古典測驗理論(classical test theory,CTT)與試題反應理論(item response theory,IRT)。 一、古典測驗理論( ) 古典測驗理論(CTT) CTT 是最早發展的測驗理論,又稱為真實分數理論,描述實得分數與 真實分數之間的關聯程度,此關聯程度可描述一個測驗實得分數的信度, 因此又稱「古典信度理論」。 古典測驗理論認為真實分數表示一個人的潛在特質(能力),因為它 無法單由一次測驗的實得分數來表示,必須由在無限次測驗的得分平均數 或期望值,代表該受試者能力的不偏估計值,即真實分數。實際上單獨一 次測驗所得的實得分數和真實分數會有一段差距,亦即凡測量必存在誤 差,所以古典測驗理論對於一個真實分數為 t 的受試者,以真實分數與實 得分數之間的直線數學關係表示如下:(余民寧,2011) x(真實分數) = t(實得分數) +e(誤差分數) 古典測驗理論以整份測驗的觀點來解釋測驗分數的內涵,亦即以該測 驗之所有試題得分的總分(原始分數)為代表,來解釋受試者的能力。 「古 7.

(16) 典測驗理論」的試題指標估計受樣本影響,難以比較受試者的能力(潘靖 瑛,2005)。 由於原始分數是測驗試題與受試者本身特質交互作用的結果,所以以 原始分數並不能代表受試者本身真正的能力,也就無法達到真正的客觀。 再則,答對題數的加總分數只是順序量尺,無法進行有意義的四則運算, 也就是用原始分數來進行後續的研究和推論,可能會有不可預期的結果。 (袁筱青,2008) 二、試題反應理論( ) 試題反應理論(IRT) 試題反應理論是描述試題特性(難度、鑑別度、猜測度)與受試者的 能力(潛在特質)如何影響其作答反應的一種數學模式,亦稱為潛在特質理 論,描述潛在特質和試題反應機率之間,其數學函數關係的一種心理計量 理論。 試題反應理論主要是以個別試題的觀點,來解釋測驗分數的涵義。受 試者在某一試題上的表現情形,與其內在的某種潛在特質(即能力)之 間具有某種關係存在,該關係可以透過一條連續性遞增的數學函數來加 以表示和詮釋,這個數學函數便稱作「試題特徵曲線」(item characteristic curve, ICC) (余民寧,2005)。 (一)試題反應理論的參數 決定每道試題特徵曲線形狀的三個試題參數,分別為:ai 是第 i 試 題的鑑別度參數(item discrimination parameter),表示該試題能否區 別出學生能力高低的程度;bi 是第 i 試題的難度參數(item difficulty parameter) ,表示該試題是否困難或容易作答的程度;而 ci 是第 i 試題 的猜測度參數(pseudo-chance parameter) ,表示該試題被低能力學生 隨機猜題而猜中的程度(余民寧,2005)。 8.

(17) (二)試題反應理論基本假設及其檢定 1.單向度(unidimensionality): 測驗中的每一試題都測量到同一種共同的能力或潛在特質(如數 學能力,而非語文能力),亦即同一份測驗中的所有題目主要都是測 量相同的某一項能力,或是受試者在測驗題目上的答題反應主要是受 到單一項能力所影響,這也是大部分測驗的必備條件。然而實際的測 驗情境裡,考生在測驗上的表現往往受到很多因素的影響,如成就動 機、考試焦慮、應試技巧、及人格特質等。因此,試題反應理論中對 單向度假設的基本要求,只要該測驗具有能夠影響測驗結果的一個 「主要成份或因素」(dominant component or factor),便算符合單 向度假設(余民寧,2009;陳柏熹,2006)。 本研究利用因素分析法的主成分分析來檢驗,由其所得之特徵值 大小判斷是否有明顯的主要因素存在(余民寧,2009) 。而單向性的 認定以 Reckase(1979)建議:第一因素能解釋百分之二十以上的變 異;或第一因素的特徵值明顯大於第二因素的特徵值,且因素一與因 素二的特徵值之比值很高,第二因素的特徵值並不比其他的特徵值大 很多(顧介梅,2002)。 2.局部獨立性(local independence): 局部獨立性是指相同能力水準的受試者,在各個題目上的答對機 率是互相獨立的,換句話說,受試者的潛在特質(能力)是影響答題反 應的唯一因素。此假設隱含在單向度假設上,當單向度基本假設成立 時,此假設也才成立;如果不是單向度,則不同試題的答對機率可能 受到其他能力的共同影響,也就不符合局部獨立性的假設(陳柏熹, 2006)。 9.

(18) 3.非速度測驗: 這項假設亦隱含在單向度假設裡,測驗的實施不是在速度限制下 完成的,也就是說,考生的考試成績不理想,是由於能力不足所引起, 而不是由於時間不夠答完所有試題所致(余民寧,2009)。 4.知道—正確假設 如果考生知道某一試題的正確答案,他必然會答對該試題;反 之,如果他答錯某一試題,他必然不知道該試題的答案。這項假設一 樣也隱含在單向度假設裡,故咸少被提及(余民寧,2009) 。 (三)試題反應理論的模式 本研究試題為選擇題屬於二元化的反應資料,答題反應非「對」即 「錯」 。謹就適用於二元計分模式之常用的試題反應模式如下:(余民 寧,2009) 1.洛吉數單參模式(one-parameter logistic model,1PL 模式) e θ-bi θ −b Pi(θ)= 1 + e i. i=1,2,3,…,n. θ:受試者的能力值 Pi(θ):表示能力值為θ之考生答對試題 i 的機率 bi :表示第 i 題的難易度 i :表示試題第 i 題 n :表示該測驗的試題總數 e :代表自然對數的底數,近似於 2.718 當受試者能力值和試題難易度相等時,受試者答對第 i 題的機率 Pi(θ)=0.5。若能力值小於試題難易度,受試者答對第 i 題的機 10.

(19) 率低於百分之五十,即 Pi(θ)<0.5;反之,若能力值大於試題難 易度,受試者答對第 i 題的機率高於百分之五十,即 Pi(θ)>0.5。 理論上,難易度值介於-∞到+∞之間,但實際應用上,通常只取- 2 到+2 之間的範圍。 2.洛吉數二參模式(two-parameter logistic model,2PL 模式) 二參數對數形模式最早是由 Lord (1952)所提出的常態肩形模式 (normal ogive model),之後再由 Birnbaum (1968)修改成較簡單的 對數模式,由於它比常態肩形模式易於計算和解釋,而成為主要的試 題反應模式(陳柏熹,2006)。. . Pi(θ)=. e a i (θ − b i ) 1 + e a i (θ − b i ). i=1,2,3,…,n. ai :表示第 i 題的鑑別度 雙參數模式係指模式中除了難易度(bi),還多了鑑別度參數 (ai) 。鑑別度參數是指試題對不同能力的受試者能否反應出其答題 的差異,鑑別度愈大的試題,區別出不同能力水準考生的功能愈好, 也就是說鑑別度大的試題,對於能力高的受試者而言,其答對率高; 對能力低的受試者而言,其答對率低。從試題特徵曲線來看,ICC 愈 陡的試題,具有較大的鑑別度參數值,反之 ICC 愈平緩的試題,其 鑑別度愈小。理論上,鑑別度參數值介於-∞到+∞之間,但負的鑑 別度值顯示該試題反向區別不同能力水準的受試者,即能力愈高的受 試者答對某試題的機率愈低,明顯違反常理。實際應用上,鑑別度值 通常只取 0 到+2 之間的範圍。. 11.

(20) 3.洛吉數三參模式(three-parameter logistic model,3PL 模式) 陳柏熹(2006)指出這種模式主要是針對可以經由猜測來答對試 題的測驗狀況,例如選擇題、是非題等,因此該模式比二參數模式更 符合實際的資料。 e a i (θ − b i ) a (θ − b ) Pi(θ)=ci+(1-ci) 1 + e i i. i=1,2,3,…,n. ci :表示第 i 題的猜測度 三參數模式除了上述難易度、鑑別度參數之外,再加上猜測度參 數(ci),把低能力考生的表現好壞因素也考慮在模式裡。從 ICC 來 看,它是位於該曲線的左下漸近線。通常猜測度參數值比受試者在完 全隨機猜測下猜答的機率稍小,亦即 ci 值小於試題選項數目的倒 數。本研究之試題為選擇題型有四個選項,則 ci 應小於 0.25。 在以選擇題為主的測驗情境中,我們經常可以發現有些試題因為 誘答選項設計不佳,或是題目中有些暗示答案的線索,造成即使能力 很低者也容易猜對該題,此時就需要三參數模式來找出那些題目。而 在估計受試者能力時,三參數模式也考慮不同題目的猜對率對受試者 答對機率的影響,因此所得到的能力值應該會更符合其實際能力水準 (陳柏熹,2006) 。. 12.

(21) 第二節 試題反應理論( )與古典測驗理論 試題反應理論(IRT) (CTT) )相關評論 一、IRT 的特色 IRT 的特色大致可以從模式特性、試題參數特性、能力與分數量尺特 性、測量精準度與應用等幾個層面來看:(陳柏熹,2006) (一)模式特性: IRT 模式是針對單一試題的作答反應所提出的數學模式,同時考量 了受試者能力與試題特性對答對機率的影響,比古典測驗理論更為仔細 且精確。 (二)試題參數特性: IRT 模式同時考量試題參數與受試者能力,因此所估計出來的試題 參數(難易度、鑑別度、猜對度)不會受到受試者能力所影響,也就是 說,不論誰來做這個題目,其試題難易度或鑑別度是固定不變的。反觀 在古典測驗理論中,試題參數則是完全取決於受試群體的能力。 (三)能力與分數量尺特性: IRT 對受試者的能力估計值也不會受到試題特性所影響,所估計出 來的受試者能力值具有等距量尺的特性,亦即其能力量尺可以作加減乘 除的運算,而且根據 IRT 模式與概似函數(likelihood)所估計出來的程 度值,有比較強的數學理論基礎。反觀在古典測驗理論中,受試者的能 力值是測驗中各題目的得分加總(實得分數),忽略受試者之試題反應 組型,實得分數也不具備等距量尺的特性,因此也不適合直接進行四則 運算,更不適合拿來做 t 檢定或因素分析等統計運算。. 13.

(22) (四)測量精準度: IRT 的測量精準度是以訊息量(information)的概念來表示。訊息 量愈高,對受試者的測量就愈精準,測量誤差愈低。同樣的測驗對高能 力者而言,題目太過簡單而測不出其能力;對低能力者而言,題目可能 過難也測不出其能力;只有對中等能力者而言,較能精確地測出其能 力,而 IRT 的訊息量概念可以反映出測驗對不同能力者有不同的測量 精準度。古典測驗理論中,假設接受相同測驗的受試者其信度都相同, 因此測量標準誤也視為相同,如此與實際的測驗情況不相符,因為測驗 中的題目不見得對各種不同能力的受試者都適用。 (五)應用: 基於 IRT 的單向度假定與受試者能力估計的不變性,接受不同題 目的受試者其能力可以比較,因此就能讓受試者都接受適合自己能力的 題目,達到適性測驗的目的。IRT 的試題參數較不受樣本所影響,因此 很適合用來發展題庫;而 IRT 的能力也較不受試題參數所影響,所以 也適合進行能力分數的等化。而根據古典測驗理論,很難進行題庫建 立、試題等化與試題偏誤之分析。 二、IRT 與 CTT 之異同 試題反應理論係測驗學者為改進古典測驗理論的缺失而發展的測驗 理論,兩者理論的差異:(黃國清、吳寶桂,2006) (一)理論的相異處 1.樣本的影響 古典測驗理論之難度指標、鑑別度指標,隨受試者能力水準而 變,是樣本依賴。而試題反應理論的試題參數之估計不因樣本不同而 14.

(23) 改變,如難度參數 b 及鑑別度參數 a,經過不同群體受試者的施測, 仍舊保持不變。 2.題目難度的影響 古典測驗理論的觀察分數隨測驗的難度而改變,會造成不同受試 者接受不同題目的結果無法直接比較。而試題反應理論之受試者能力 估計不因測驗難度而不同,且不同受試者的能力值可直接比較。 3.測量誤差 古典測驗理論中,所有受試者接受同一測驗的結果皆具有相同的 測量誤差,無法反應受試者間之個別差異。而在試題反應理論中,測 量誤差之估計因受試者程度而不同,因此有不同的受試者能力估計 值。 4.測驗結果的解釋 古典測驗理論以受試者在測驗中答對的試題得分即原始總分來 做解釋,忽視了受試者的試題反應組型,因為答對試題的難度有高有 低。而在試題反應理論中,則考慮試題難度的訊息,因此原始得分相 同者,能力估計值不見得相同。 5.理論的假設 古典測驗理論依據弱勢假設(weak assumption),其理論模式 簡單易行,適用於多數的心理測驗資料。而試題反應理論基於強勢假 設(strong assumption),雖然限制了許多資料的應用性,但可帶來 較準確的測驗結果。. 15.

(24) (二)理論的共通處 1.試題分析 若試題反應理論在只考慮一個參數下(亦即單參數模式),則兩 種理論所推估出的難度呈現幾乎相同的極高正相關;相同道理,計算 題目的鑑別指數時,試題反應理論在雙參數模式下,其推估出的鑑別 度參數 ai,應會與古典測驗理論所計算的鑑別度指數(如點二系列相 關係數)呈現高度正相關。 2.理論的假設 試題反應理論與古典測驗理論都有其假設的前提,其中題目的 「單向度」、「知道—正確假設」之前提都是必要的。 3.受試者評定的一致性 對於受試者的優劣評定,雖然試題反應理論較古典測驗理論更嚴 謹(例如受試者答對題數相同時,試題反應理論能分辨出兩受試者之 間的能力高低),但兩種理論所得的能力值及總分,具有一致性,都 有極高的正相關。 三、學者評論 余民寧建議:在小規模班級的教學評量下,可能是適合使用古典測驗 理論的情境;但在大規模的測驗評量情境(如升學考試、檢定考試、或就 業考試等)下,可能才是試題反應理論派得上用場的地方。 而三個參數的對數型模式,適合用來解釋一般學校的考試題目的作答 情形。就一般課室內用的(如教師自編成就測驗)、升學用的(如升高中 的基本學力測驗和升大學的學科能力測驗)、或檢定用的(如全民英檢、 TOEIC、TOEFL、GRE 等)考試題目而言,多半都是以單選的選擇題型 16.

(25) 的試題(即 multiple-choice items) ,作為考試的測量工具,此時使用三個 參數的對數型模式,是解釋學生的作答反應行為最為恰當的測量模式(余 民寧,2005)。 IRT 之理論架構嚴謹,應用層面較廣,其所提出的測驗特性較符合實 際的測驗狀況,雖然 IRT 的模式複雜,但隨著電腦科技的進步,利用電腦 軟體進行 IRT 的分析更顯輕而易舉,因此以 IRT 編製測驗或試題分析逐漸 被應用在大型測驗當中。(陳柏熹,2006) IRT 雖計算複雜,非一般測驗編製者或使用者能確切理解應用,但其 試題難度參數、考生能力指標及訊息函數皆架構在同一量尺上,可以提供 更精確的能力評估,加上應用 IRT 電腦自動化編製測驗的發展已臻成熟, 因此成為需嚴謹編製的大型測驗的最佳選擇。IRT 的另一個理想是希望能 以最少的題目達成預期要求的目標訊息量。(潘靖瑛,2005) IRT 以試題訊息量(item information)及測驗訊息量(test information) 來評定測驗的「測量準確性」,因此在考生能力評估上,IRT 比「古典測 驗理論」更為精確(許擇基,1995) 綜合上述,研究者擬取得較多的試題參數,以便分析獲得更完整的試 題資訊,決定應用試題反應理論(IRT)洛吉數三參數模式,讓本研究更 具有科學客觀的價值。. 第三節 雙向細目表 測驗是爲了評量學生對一門學科是否達到了教學大綱的基本要求,而測 驗的內容是教學內容的抽樣,全面地反映教學內容。測驗試題的內容是否能 達到測驗的目的是需要被檢核的,而雙向細目表便是常被用來檢核試題的工 具之一。 17.

(26) 雙向細目表表示測驗的架構藍圖,它描述了一份測驗中所應該包含的內 容以及所評量到的能力,也是命題的依據。建立雙向細目表可以幫助命題者 釐清教學目標和學習內容的關係,以確保測驗能反映教材的內容,並能夠真 正評量到預期之學習結果。 雙向細目表以教學目標和學習內容為兩軸,橫軸為教學目標,縱軸為學 習內容,其所形成之二維表格作為檢核試題內容之依據。其分述如下: 一、教學目標 教學目標是指在教學中所預期要達成的目標或學習成果,通常以具體 可觀察評量的形式來說明單元教學活動完成後所預期的學生學習表現。一 般教學目標分為認知(cognitive)、情意(affective)、心理動作技能 (psychomotor)三領域,雙向細目表使用教學目標以認知領域為主,以下 為三種雙向細目表常見的教學目標分類方法。 (一)Bloom 的認知領域 美國教育學者 Bloom 將教育目標的認知領域分為六個層次:知識、 理解、應用、分析、綜合、評鑑。分述如下: 1.知識(knowledge):包括記憶名詞、事實、規則和原理原則。行 為動詞有:說明、列舉、標明、選擇、背誦、配合、界定、描述、 指出、識別、依序排出、回憶等。 2.理解(Comprehension):只能把握所學過的知識或概念。行為動 詞有:辨別、解釋、轉換、歸納、舉例、摘要、分類、標出、表達、 複述、推斷、翻譯、重寫、預估、引申。 3.應用(Application) :將所學到的規則、方法、步驟、原理、原則、 概念,應用到新情境。行為動詞有:計算、演算、示範、操作、發 18.

(27) 展、運用、套用、使用、連結、修飾、改編、轉譯、解決、建造。 4.分析(Analysis) :將所學的概念或原則,分析為各個構成的部分, 或找出各部分間的相互關係。行為動詞有:細列、圖示、細述理由、 分辨、區分、評估、比較、對照、批判、推衍、檢測、實驗、概算、 差別、再認。 5.綜合(Synthesis) :將所學到的片段概念或知識、原理原則與事實 等統合成新的整體。行為動詞有:安排、蒐集、聯合、組成、計畫、 企劃、總結、重建、重組、設計、編篡、創造、擬定、組織、處理、 修改。 6.評鑑(Evaluation) :依據某項標準作價值判斷的能力。行為動詞有: 評量、評價、鑑別、對比、標準化、判斷、檢討、闡釋、證明、選 責、支持、預測、推測、結論、關聯、排序。 (二)修訂 Bloom 認知目標分類 修正後的 Bloom 教育分類系統是由 Anderson 和 Krathwohl 於 2001 年所提出,其將認知歷程向度修訂為記憶、了解、應用、分析、評鑑、 創作,也常被使用於雙向細目表的教學目標分類上,分述如下: 1.記憶:是從長期記憶中提取相關知識。包括:再認與回憶兩種歷程。 2.了解:從課堂、書本或電腦螢幕的口語、書面與圖形等教學訊息中 建構意義;建立所學新知識與舊經驗的連結。包括:詮釋、舉例、 分類、總結、推論、比較、解釋。 3.應用:善用程序(步驟)來執行作業或解決問題,與程序知識緊密連 結。包括:執行、實行。. 19.

(28) 4.分析:將材料分解成局部,指出局部之間對整體結構或目的的關 聯。與評鑑、創作緊密連結。包括:區辨、組織、歸因。 5.評鑑:根據規準與標準作判斷。包括:檢查、批判。 6.創作:要求將各個元素組裝在一起,形成一個完整且具功能的整 體。包括:產生、計畫、製作。 (三)NAEP 數學評量架構 NAEP 是指美國國家教育進展評量委員(National Association of Educational Progress),NAEP 數學領域之評量架構主要包含三大向 度:內容成分(content strands) 、數學能力(mathematical abilities)、 數學力(mathematicalpower),其分述如下: 1.內容成分包含:數學的概念、性質與運算、測量、幾何與空間觀念、 資料分析、統計與機率、代數與函數。 2.數學能力包含:概念的了解、程序性知識、問題解決。 3.數學力包含:推理、連結、溝通。 而雙向細目表中的教育目標以 NAEP 數學領域評量架構之數學能 力的子向度為量尺。 本研究以數學科試題做為研究分析,綜觀上述分類架構後,決定以 NAEP 數學評量架構中的數學能力向度做為雙向細目表的教學目標量 尺,較能符合此次測驗試題檢核的依據。 二、學習內容 學習內容是以測驗試題所欲測量學生能力的範圍,表示出包含幾個不 同的單元。本次施測範圍為國小五、六年級數學領域學習範圍。九年一貫 20.

(29) 數學領域將內容分為「數與量」 、 「幾何」 、 「代數」 、 「統計與機率」 、 「連結」 五大主題,其中「連結」指的是內部連結的貫串,以強調解題能力的培養; 及外部的連結強調生活應用解題,也能適當結合其他學科教材的發展,讓 學生能認識到數學與其他學科的關係。所以「連結」並非單一學習單元的 項目,故本研究雙向細目表中,縱向的學習內容單元以前四主題為檢核項 目。. 第四節 試題檢核表 測驗試題的編製必須遵循一定的流程,以確保測驗內容與測驗目的相 符,也能夠減低其他因素對測驗分數的影響,致使測驗的結果能夠如實的反 映受測者所具備的知識和能力。除了上述雙向細目表的檢核外,最被廣為使 用的另一個試題檢核工具便是試題檢核表。 試題檢核表使用的版本很多,有些人會因自己所要測驗的測驗目標或科 目,編製專屬的試題檢核表;或學校統一制定一個供校內老師檢核月考試題 的試題檢核表。 本研究檢核試題所使用的試題檢核表是顧介梅於 2002 年以大慧調查法 研究分析建立的檢核表。其問卷以數學科試題檢核分析為研究主題,本研究 所要檢核的也是數學科的試題,故以此檢核表為本研究試題檢核之工具。其 檢核表分試題內容、試題題幹、試題選項、試題題本四個檢核子項目,分述 如下: 一、試題內容檢核表 試題內容檢核共有 9 個檢核項目,主要檢核試題內容是否提供完整訊 息、有無符合學習領域與評量之目標、是否偏重單一向度試題等。. 21.

(30) 二、試題題幹檢核表 試題內容檢核共有 6 個檢核項目,主要檢核試題題幹是否完整、關鍵 詞與否定句是否加底線、是否完整敘述評量主要概念及圖表配置等。 三、試題選項檢核表 試題內容檢核共有 11 個檢核項目,主要檢核試題選項與評量目標是 否一致、選項是否合乎題幹邏輯及避免重疊、錯誤選項是否具誘答力、正 確選項是否不具爭議、是否避免以上皆是或以上皆非選項等。 四、試題題本檢核表 試題內容檢核共有 12 個檢核項目,主要檢核試題題本是否涵蓋學習 內容及理解與運用、是否偏重特定題型或範圍、是否由淺入深、難度與作 答時間的分配及標準答案分配是否均勻等。. 第五節 九年一貫數學學習領域 九年一貫課程是臺灣在 21 世紀初最重要的一項教育政策,內涵是指將 國小與國中課程中的科目與內容做九年一貫的銜接,以使學生能獲得連續且 統整的學習與知識。九年一貫課程以學習十大基本能力為主要目標,經由人 與自己、人與社會、人與自然三個面向,整合所有學科成為語文、數學、社 會、自然與生活科技、藝術與人文、健康與體育、綜合活動七大領域,並依 學習領域設定能力指標,做為課程目標的依據。 在進入 21 世紀且處於高度文明化的世界中,數學知識及數學能力,已 逐漸成為日常生活及職場裡應具備的基本能力。基於以上的認知,九年一貫 數學學習領域的基本理念為:(1)數學能力是國民素質的一個重要指標;(2) 培養學生正向的數學態度,瞭解數學是推進人類文明的要素;(3)數學教學. 22.

(31) 應配合學童不同階段的需求,協助學童數學智能的發展;(4)數學作為基礎 科學的工具性特質。 九年一貫數學學習領域將教學目標分為國小一至二年級、國小三至四年 級、國小五至六年級、國中一至三年級四個階段,分述如下: 一、第一階段(國小一至二年級):能初步掌握數、量、形的概念,其重 點在自然數及其運算、長度與簡單圖形之認識。 二、第二階段(國小三至四年級):在數方面要能熟練自然數的四則與混 合計算,培養流暢的數字感;另外,應初步學習分數與小數的概念。 在量上則以長度的學習為基礎,學習各種量的常用單位及其計算。幾 何上則慢慢發展以角、邊要素認識幾何圖形的能力,並能以操作認識 幾何圖形的性質。 三、第三階段(國小五至六年級):在小學畢業前,應能熟練小數與分數 的四則計算;能利用常用數量關係,解決日常生活的問題;能認識簡 單平面與立體形體的幾何性質,並理解其面積或體積之計算;能製作 簡單的統計圖形。 四、第四階段(國中一至三年級):在數方面,能認識負數與根號數之概 念與計算方式,並理解坐標表示的意義。代數方面則要熟練代數式的 運算、解方程式,並熟悉常用的函數關係。幾何方面要學習三角形及 圓的基本幾何性質,認識線對稱與圖形縮放的概念,並能學習簡單的 幾何推理。能理解統計與機率的意義,並認識各種簡易統計方法。 九年一貫數學學習領域將數學內容分為「數與量」 、 「幾何」 、 「代數」 、 「統 計與機率」 、 「連結」等五大主題,依此五大主題制定學生學習的能力指標細 目,以明訂學生在各階段或各年級所需學習的能力範圍。. 23.

(32) 第六節 試題分析的相關研究 徐惠貞(2012)主要在研究新北市國二數學科段考試題分析。其研究針 對「國二數學科段考試題」進行質與量的分析,希望能了解學生在本次段考 試題的作答情形,並得知測驗與試題之特性。研究對象是以新北市某國中 100 學年度二年級學生為母群體,抽籤方式選取 6 個班級共 180 人為樣本, 並對這 180 位同學的試卷作答情形進行分析。測驗後的資料處理包括登錄、 記分及輸入電腦等三項主要事項並利用 Excel 2003、TESTER for Windows 2.0 及 SPSS 12 三套統計軟體進行相關的統計分析,盼能藉由本次試題分 析之研究結果提供日後教師教學、命題以及學生學習之參考。 張維辰(2012)在探討國一數理班數學甄選之試題分析。其研究旨在探 討「國一數理班數學甄選試題」分析,研究方法是對整份試題與個別試題作 質與量的分析,研究對象為研究者執教的高雄市某私立國中,依據測驗資 料,分別就測驗與試題作質與量的分析。質的方面利用雙向細目表來檢驗; 量的分析則探討信度、難易度、鑑別度,並利用 TestGraf 98 試題分析軟體, 由學生答題狀況繪製選項特徵曲線來進行正答與誘答選項之分析。 楊繕鳴(2012)在研究一百學年度學科能力測驗數學科試題分析。其研 究針對「一百學年度大學學科能力測驗數學科試題」的答題情形做「試題分 析」。試題分析主要分成兩方面進行:一、質的分析:包含內容效度、建構 效度、雙向細目表;二、量的分析:(一)利用古典測驗理論,進行試題和 測驗的相關指標分析,有:難易度、鑑別度、選項誘答力等。(二)利用試 題反應理論,進行試題圖表分析,有:試題特徵曲線、選項特徵曲線等。 陳芬婷(2011)以苗栗縣 98 學年度國民小學四年級數學學習成就測驗 做試題分析。其研究旨在以 Excel、TestGraf98 等繪圖軟體,檢測「苗栗縣 九十八學年度國民中小學學生學習成就診斷補救計畫–四年級數學科試題」. 24.

(33) 之題庫中,依照屬性分類兼顧能力指標來區分題目,平均挑選出試題,編製 一份優良的試卷,從中了解學生與每道試題之各個選項間的反應情形。從學 生選擇各個選項答案的反應情形,來了解學生對四年級數學領域的概念、學 習困難所在及可能出現的迷思概念,讓老師們在進行四年級數學補救教學 時,可供參考。 侯立峯(2011)在研究雲林縣麥寮鄉國小數學科基礎能力鑑定之試題分 析。其研究的主要檢測「雲林縣麥寮鄉九十八學年度學區國小數學科基礎能 力鑑定數學科試題」,了解受試者對試題之各選項的反應情形。從受試者選 擇各個選項的反應情形,來了解受試者在國小數學科學習困難和迷思概念, 以提供老師在進行六年級數學教學及補救教學時的參考。 蔡元忠(2009)主要在研究數學科學習成就測驗之試題分析與測驗分 析。其研究的主要目的,在藉由數學科學習成就測驗之編製與分析,探討學 生能力參數與試題參數在不同測驗理論間之相關情形,以及試題參數在不同 次測驗間之差異情形,並建立一套可行的測驗編製與分析模式,作為教師命 題之參考。在進行研究學生能力之相關分析時,主要是以研究者任教國民中 學之二年級學生為研究對象;在進行試題分析、測驗分析及試題參數之相關 分析與差異分析時,主要是以研究者編製之數學科學習成就測驗為研究對 象。研究工具為研究者編製之數學科學習成就測驗及該測驗之審題問卷。研 究者分別以古典測驗理論(CTT) 、試題反應理論(IRT)與學生問題表分析 理論進行試題分析與測驗分析、以 Pearson 積差相關探討學生能力、試題難 度與鑑別度在古典測驗理論與試題反應理論間的相關情形,並以相依樣本 t 考驗探討試題之難度、鑑別度與注意係數在預試與正式測驗間的差異情形。 林秀娟(2007)研究九年一貫社會領域能力指標與國中基本學力測驗社 會領域之試題分析。其研究旨在探討國中基測社會領域試題與能力指標之相 關性及社會領域教師對於基測之看法。據此,一方面為未來基測提供一個準 25.

(34) 備的方向;另一方面,也希望藉此提醒國小社會領域教師為因應未來國中基 測所需之教學準備。研究以內容分析法為主,針對九十四年兩次基測社會領 域試題和教育部公佈之九十四年基測試題取材依據─九年一貫課程(暫行) 綱要所公佈之基本能力指標做一比對分析,並歸納出基測的試題方向;同時 以問卷調查法為輔,了解台北縣國中小社會領域教師對於基測的看法。研究 以自編之「國中基測實施現況與能力指標解讀之研究問卷」為調查工具,採 分層隨機取樣與簡單隨機抽樣方式,進行次數分配、平均差、標準差、t 考 驗和單因子變異數分析等統計方法進行資料分析。 施建寧(2006)主要研究九十四年國民中學學生基本學力測驗數學科試 題分析。研究針對「國民中學學生基本學力測驗推動工作委員會」所提供「九 十四年第一次及第二次國中基本學力測驗」之數學科試題所作的一系列的分 析,利用試題檢核表、雙向細目表對此二次試題做質的分析,利用試題反應 理論(簡稱 IRT)對試題進行量的分析,首先進行 IRT 假設的檢定及模式適 合度檢定,以確定此二次測驗資料是否適合使用 IRT 來作量的分析,接著 進行其統計分析,如測驗的信度、個別試題的難易度、鑑別度、猜測度及選 項分析等,最後依照質與量的分析結果對個別試題作綜合分析。 傅怡銅(2003)研究以試題分析做鑑別度之探討與比較。其研究以「台 北區公私立高職九十一學年度四技二專統一入學測驗第四次學力測驗模擬 考試試題以-台北縣立鶯歌高職九十一、九十二學年度畢業生為例」 。其中, 工業類考生 589 位、商業類考生 632 位考生,於數學科 A、B 兩份試卷之作 答狀況加以分析。當考生答題狀況僅有答對與答錯兩種狀況時,本論文提供 了古典理論(CTT) - D 值、點二系列相關係數、項目反應理論(IRT)、卡方 適合度檢定、羅吉斯迴歸模式下卡方適合度檢定及概似比函數等六種方法, 僅對試題鑑別度部份加以論述與比較。其中,卡方適合度檢定、羅吉斯迴歸 模式下卡方適合度檢定即概似比函數等三種方法,乃是透過檢定的過程來判 斷試題鑑別力的優劣並賦予評斷優劣之統計意義。 26.

(35) 第七節 學生能力差異的相關研究 黃寶葵(2013)在研究屏東縣國小六年級學童在分數乘除法運算的表 現。其研究發現有:一、學童在分數乘除法運算答題表現並不好。二、不同 族群學童在分數乘除法運算的答題表現達顯著差異。三、不同地區學童在分 數乘法運算的答題表現達顯著差異,「一般地區」學童的表現顯著優於「特 偏地區」學童。四、不同家庭社經地位學童在分數乘法運算的答題表現無顯 著差異。五、不同性別學童在分數乘除法運算之答題表現未達顯著差異。 謝易達(2012)主要在研究新北市九年級的學生在七、八年級的數學課 程內容,有哪些解題上的差異。其依據民國 97 年教育部修訂之九年一貫課 程綱要數學能力指標,設計 15 題計算題,隨機抽樣新北市五所學校九年級 學生進行施測,經統計答題結果得出結論歸納有:一、不同的性別,在解題 能力上,男生的答題表現明顯優於女生的只有三個部份。整體而言,男生的 解題能力只比女生略好一點點,但並未發現有顯著的差異。二、看起來計算 複雜的題目,若需要善用解題技巧才容易解的出來,學生的答題表現會相當 的不好。三、解方程式的題目,學生的答題表現較佳,特別是二元一次聯立 方程式的題目。四、在國中七、八年級的數學課程內容,學生的答題表現最 差的有數列與級數及三角形證明兩部份。五、同樣都是幾何的題目,學生們 對勾股定理的答題表現較好。 陳玫如(2012)主要研究國小高年級學生代數推理能力。,以北、中、 南、東部區域「國小高年級」學童共 460 人其研究結果為:一、「圖形樣式 多元表徵」的代數推理能力上,「線性序列」顯著高於「二階序列」的代數 推理能力;男生與女生的代數推理能力未達顯著差異;六年級學童顯著高於 五年級學童的代數推理能力;北部學童顯著高於中部及南部學童的代數推理 能力。二、在「生活情境多元表徵」的代數推理能力上,「線性序列」顯著. 27.

(36) 高於「二階序列」的代數推理能力;男生與女生、六年級與五年級代數推理 能力都未達顯著差異;北部學童顯著高於中部及南部學童的代數推理能力。 郭又正(2012)在探討高雄市一所國中生英語學習策略與英語學業成就 之相關。其研究發現有:一、國中學生英語學習策略表現在中等以下水準。 二、國中女生英語學習策略使用顯著優於國中男生。三、有課外補習英語的 英語學習策略的使用顯著優於無補習的學生。四、英語學習滿意度高及有英 語學習興趣的國中學生英語學習策略使用顯著優於低者。五、英語學習策略 與英語學業成就有顯著正相關。六、英語學習策略對國中學生的英語學業成 就有預測力。 王明典(2011)應用資料探勘探討嘉義縣市小學生城鄉資源差距對學習 成就之影響。根據統計分析結果,顯示學生在學習成就上具有顯著正相關 性,亦即如關聯分析結果所呈現;在學習成就之城鄉差距分析上,從結果中 顯示都會區學生在各科成績表現上均具較佳且與鄉村區學生在學習成就上 具有顯著之差異性;在男女生學習差異之 T 檢定分析結果中,得到顯著之差 異性,平均成績女生優於男生。且在鄉村區,以男生為主,英語程度與社會 成績較差,需進行補救教學輔導,以改善城鄉差距所形成之教學資源分配不 均問題。 劉世強(2011)研究國小五年級學童分數概念表現之分析。其以彰化縣 五個城市與五個鄉村共 10 個五年級班級 286 名學童為研究樣本,研究結果 為:一、分數概念能力的表現上以「等值分數」為表現最優秀。二、學童答 題錯誤類型分概念錯誤型、運算錯誤型及逃避錯誤型三類。三、在國小五年 級城鄉學童分數概念能力的表現方面有顯著差異。 黃心如(2011)研究男女在英語字彙學習自我效能改變之學習差異。其 研究旨在調查台灣高中生英語字彙學習自我效能是否有性別差異之影響。經. 28.

(37) 601 份有效問卷資料分析,其結果整體而言,在初期,男女生對英文字彙學 習自我效能信念並無差異,但隨著時間發展,男性的英文字彙學習自我效能 信念顯然比女性為高。兩性在六個不同的時間點,在自我效能上皆表現出規 律的變化模式。 潘明智(2009)研究臺南市國中生基測成績城鄉差異。經研究後發現: 影響基測成績的權重排序為 1.學生個人投入學習的努力。2.校長的辦學理 念與行政措施。3.教師的教學方法或教學策略 4.學生家庭所提供的文化刺 激等;造成城鄉差異的因素則依序為 1.位居交通不便、產業落後地區。2. 落實常態編班政策。3.校長的領導風格。4.地方政府的師資甄選與請調政 策。基測成績的差異方面:1.城區總分的平均分數超出全國平均分數有 17.08 分,鄉區平均分數則低於全國平均分數有 1.48 分,很明顯的城鄉差異有 18.5 分。2.城鄉區英語及自然成績呈現嚴重雙峰現象,尤其鄉區自然科成績落差 非常嚴重,學習成效表現相當不好。 李坤章(2008)研究彰化縣偏遠及市鎮學校國民中學學生學習差異。其 研究以彰化縣偏遠地區及市鎮地區學生進行問卷調查,經過分析統計後發現 偏遠地區國中學生與市鎮地區學校在學習過程上有所差異。其包含課後參加 補習的人數市鎮地區學校學生高出偏遠地區學校學生,且補習時間亦長於偏 遠地區學校學生,而家庭因素中家長的關心與參與,經過統計後,市鎮地區 學校家長關心程度高於偏遠地區學校家長。 黃琮智(2007)研究國小六年級學童數感能力之分析。其以高雄縣、市 各選取一所小學,以此二校中六年級三個班共 184 名學童為研究樣本,研究 的結果為:一、城鄉之間國小六年級學童數感能力的表現,整體數感能力達 顯著性差異。二、學童答題錯誤類型分為傳統算則型、數感迷思型及逃避型 三類。三、數感能力表現高者,其數感的培養上均與生活經驗有關。. 29.

(38) 韓維仁(2007)研究國小學生多元智能與英語閱讀能力之相關性。其以 台北縣 257 名國小六年級學生為研究對象,研究結果為:一、人際智能、空 間智能、內省智能以及肢體運動智能較強,然其自然智能、語言智能以及音 樂智能較弱。二、英語對話能力差異較大,單字部分差異則較小。三、國小 學生的英語閱讀能力與多元智能有顯著相關。四、女生在閱讀英語單字、句 子的表現方面,皆顯著高於男生。五。女生的音樂、人際、語文、內省等智 能皆顯著高於男生。六、不同性別的學生主要和英語閱讀能力相關的多元智 能並無差異。 陳慧珍(2001)研究南投縣國一男女生對文字符號概念與代數文字題之 解題。經檢定及分析之後,其研究結果為:一、不同性別的國一學生在文字 符號概念的理解上沒有顯著的差異。二、國一學生對文字符號概念的理解, 男女均深感困難。三、不同性別之國一學生在傳統式代數文字題的解題能力 沒有顯著之差異,且男女生的解題狀況都呈現兩極化的現象。四、在引導式 的題型下,男生對於將題意轉譯成外在表徵,並以文字符號表示出來的能力 明顯低於女生。五、引導式代數文字題的題型能彌補學生深感困難的部分。. 30.

(39) 第三章 研究方法 本研究旨在探究「彰化縣 101 學年度國中新生入學測驗」之「數學科」 試題(詳見附錄ㄧ)的特性和適切性。為了能測出考生在這個學科上的真實 能力,必須依靠一份適切的試題來對考生做測驗,至於試題是否符合適切性 的要求,可以從兩方面著手,一是從質的方面來看,另一則從量的方面來分 析。在學生能力分析上,依各鄉鎮國中測驗所得成績做為分析,檢視學生能 力是否因城鄉學校而有差異。 本研究以試題反應理論為基礎,依據試題反應理論的假設對「彰化縣 101 學年度國中新生入學測驗」之「數學科」測驗資料進行 IRT 模式的符合 度檢測,利用適合的模式進行統計分析,以探討個別試題和整份測驗在量的 方面之特性;另一方面利用試題檢核表、雙向細目表等工具來檢驗個別試題 和整份測驗在質的方面之特性;最後依分析之結果提出改進的建議,作為日 後命題者及使用試題反應理論來分析試題的研究者之參考。以下各節將分別 就本研究之研究架構、研究對象、研究工具、資料處理與統計方法等加以說 明。. 第一節 研究架構 本研究以「彰化縣 101 學年度國中新生入學測驗」之「數學科」試題作 為研究分析,主要在試題的質、量、九年一貫能力指標分析、測驗作答資料 測驗分析及學生能力分析。本研究架構主要可分為三個部分,研究流程如圖 3-1-1,說明如下: 一、試題分析 根據試題檢核表、雙向細目表等檢核工具對本次測驗做質的分析及九 年一貫能力指標的檢視;試題量的分析以 SPSS 作試題的信度分析。. 31.

(40) 二、測驗資料分析 針對「彰化縣 101 學年度國中新生入學測驗」之「數學科」試題作答 資料用 IRT 模式進行量的統計分析,包括個別試題的難易度、鑑別度、 猜測度等。 三、學生能力分析 以各國中新生入學測驗成績做為依據,分析各鄉鎮市學生在學習成效 上是否有所差異。 彰化縣 101 學年度 國中新生入學測驗 「數學科」試題. 試題檢核. 質的檢核. 測驗資料分析. 量的檢核. 學生能力分析. IRT 測驗分析. 信 決定 參數模式. 度 分 析. 九年一貫能力指標檢核. 試題檢核表檢核. 雙向細目表檢核. 依學生測驗 成績做能力 分析. 從事 IRT 結果分析. 綜 合 分 析. 圖 3-1-1 研究架構圖 32.

(41) 第二節 研究對象 本研究主要是在探究彰化縣國小畢業生 101 學年度國中入學測驗數學 科試題分析與學生能力分析,其研究對象為 101 年 6 月 20 日畢業之應屆國 小畢業生。因國民中學屬九年國民義務教育,學生學籍之分配採學區制,故 學生就讀之國中為原就讀國小鄉鎮市學區內之國中,因此以鄉鎮市國中入學 學生成績作為學生能力分析之依據。 本次研究對象為國一新生,有效資料共有 13544 人,其中男生計有 7049 人,女生計有 6495 人。參與測驗學校為彰化縣 42 所國中學生,將其所在學 區以行政劃分規模分鄉、鎮、市 3 個區域,做為學生能力分析中城鄉差異之 探討依據。. 第三節 研究工具 本研究在質的分析方面使用試題檢核表、雙向細目表等工具來檢測試 題,量的分析方面則利用試題反應理論分析試題及測驗的相關指標,其中包 括了難易度、鑑別度、猜測度、試題的選項分析;以統計套裝軟體 SPSS 測驗試題的信度及學生能力分析。本節將針對雙向細目表、試題檢核表、IRT 電腦應用軟體、統計套裝軟體 SPSS 等做介紹。 一、雙向細目表 雙向細目表是測驗編製和命題的依據,研究者參考 2001 年版 Bloom 認知領域的修訂結果(葉連祺、林淑萍,2003):認知歷程分成記憶、了 解、應用、分析、評鑑及創造共六個層次,及 Polya 數學解題四大步驟: 了解題意、擬定計劃、實現計劃、回顧。而美國國家教育發展評量 National Association of Educational Progress(NAEP)在其數學評量架構中將認 知能力分成概念理解(CU) 、程序執行(PE) 、問題解決(ST)等三種分 類架構(鄭蕙如,2001)。本研究以這三大能力為橫軸,而以學習內容: 33.

(42) 數與量(N)、圖形與空間(S)、統計與機率(D)、代數(A)四大類為 縱軸,根據教材內容的重要性及國小五、六年級學習歷程決定該內容的比 重,並配合所欲達成的教學目標,分配每一欄的試題數。根據雙向細目表 來編寫試題,可以幫助命題者釐清教學目標和學習內容的關係,以確保測 驗能反映實際教材內容,並能夠真正評量到預期之教學目標。 二、試題檢核表 本研究用來檢查試題是否符合命題原則及測驗目標的試題檢核表,是 以顧介梅(2002)匯集多位測驗專家學者意見並經過三次大慧調查法所產 生的試題檢核表作為基本架構。表中包含一系列的檢查項目,來檢視命題 的過程是否符合命題的原則,如內容的向度、題幹的敘述、選項的誘答及 題本的各項檢查等,使命題者可以很清楚的知道命題的要訣,作為命題的 依據;檢視命題的內容是否符合測驗的目標,以做為進行試題評鑑的內容 效度指標。 三、IRT 電腦應用軟體 BILOG- -MG 3.0 以 BILOG-MG 進行模式適合度考驗,並估計出試題的參數值,如難 易度、鑑別度、猜測度及受試者能力參數值。 四、統計套裝軟體 SPSS 18.0 以 SPSS 來檢測此次測驗試題的信度,及分析學生能力的差異情形。. 34.

(43) 第四節 資料處理與統計方法 本研究的資料來源為彰化縣政府教育處委託彰化縣萬興國中承辦 101 學年度國中新生入學測驗,所提供之「數學科」考生實際作答資料分析試題 及學生能力。以下就測驗試題分析及學生能力分析方式做說明: 一、測驗試題分析 (一)質的分析 以雙向細目表、試題檢核表及九年一貫能力指標做試題檢核,分析 試題的適切程度。 (二)量的分析 以 SPSS 軟體檢定此份測驗試題的信度,檢測試題是否有其內部一 致性。 三、IRT 試題分析 以 BILOG-MG 應用軟體進行適合度考驗並估計出試題的參數值,如 難易度、鑑別度、猜測度及受試者能力參數值,以分析資料所提供的各項 試題訊息。 三、學生能力分析 以 SPSS 軟體進行分析,將此次數學科測驗成績資料做學生能力分 析,分別以性別及鄉鎮市分項分析,即分析學生能力在性別或城鄉上是否 有所差異。. 35.

(44) 36.

(45) 第四章 研究結果分析 本研究目的在探討「彰化縣 101 學年度國中新生入學測驗」之「數學科」 試題的特性和適切性,以及學生就性別及城鄉做能力分析。本章就測驗試題 檢核、IRT 測驗分析及學生能力分析等三個部分做說明。. 第一節 測驗試題檢核 ㄧ、測驗試題質的分析 (一)雙向細目表檢核 雙向細目表表示測驗的架構藍圖,它描述了一份測驗中所應包含的 內容以及所評量到的能力,也是命題的依據。它是以教學目標和學習內 容為兩軸,分別說明各項評量目標。其兩個軸向分述如下: 1.教學目標(以橫軸表示):在教育目標的分類上有多種分類系統,研 究者以 NAEP 在其數學評量架構中所使用的概念理解、程序執行、 問題解決等三種數學能力為本份試卷的檢核依據。 2.學習內容(以縱軸表示):以出題的範圍,表示出包含幾個不同的單 元。本份試題為測驗國一新生,其學習內容以九年一貫能力指標所 訂定之數學綱要四個主題:數與量、幾何、代數、統計與機率為檢 核向度。 雙向細目表之用途是可以幫助命題者釐清教學目標和學習內容的 關係,以確保測驗能反映教材的內容,並能夠真正評量到預期之學習結 果。以雙向細目表檢核此份測驗試題,其分布情形如表 4-1-1:. 37.

(46) 表 4-1-1 彰化縣 101 學年度國中新生入學測驗數學科雙向細目表 教學目標 概念理解 程序執行 問題解決 學習內容 5、10. 命題數. 1、2、3、4、 6、12、13、 11、22、27、. 14、15、16、. 31、36. 19、20、21、. 數與量. 24、25、29、 30、32、34、. 30. 35、38、39、 40. 幾何. 9、17、18、. 26、28. 9. 7. 1. 23. 代數 統計與機率 命題數. 8、33、37. 0. 6. 11. 23. 40. 由上表可以看出,此份試卷在橫軸的教學目標出題數上,以「問題 解決」的試題數最多,所佔比率為 57.5%。本次使用的評量架構為「概 念理解」、 「程序執行」、 「問題解決」,此三個為漸進的架構,即先能概 念理解後才能程序執行,最後方能解決問題。此份試卷為國一新生測驗 國小學習能力之檢測,故以「問題解決」能力題目居多,是為測驗學生 的總結學習能力。但因「問題解決」能力屬最後階段,故此份試卷對學 生應屬較難試題,測驗結果也較不理想。建議在「概念理解」的試題上 可以增多,減少「問題解決」能力試題。 在縱軸的學習內容上,以「數與量」的學習內容題數最多,佔整份 試卷的 75%。其分析成因主要有下列兩個: 1.國小的學習以「數與量」的學習內容為主, 「代數」及「統計與機 率」的學習內容大部分都放在國中,所以造成題數偏重「數與量」 的題型。. 38.

參考文獻

相關文件

In the second quarter of 2003, the average number of completed units in each building was 11, which was lower than the average value for 2002 (15 units). a The index of

(In Section 7.5 we will be able to use Newton's Law of Cooling to find an equation for T as a function of time.) By measuring the slope of the tangent, estimate the rate of change

The accuracy of a linear relationship is also explored, and the results in this article examine the effect of test characteristics (e.g., item locations and discrimination) and

FIGURE 5. Item fit p-values based on equivalence classes when the 2LC model is fit to mixed-number data... Item fit plots when the 2LC model is fitted to the mixed-number

By correcting for the speed of individual test takers, it is possible to reveal systematic differences between the items in a test, which were modeled by item discrimination and

Using a one-factor higher-order item response theory (HO-IRT) model formulation, it is pos- ited that an examinee’s performance in each domain is accounted for by a

For a polytomous item measuring the first-order latent trait, the item response function can be the generalized partial credit model (Muraki, 1992), the partial credit model

民國 104 年開始,身障生考試歷史考科將依據 101 學年度實施之「普通高級中學課程 綱要」之「歷史課程綱要」(簡稱「101 課綱」)命題