以認知診斷模型分析台灣與亞洲四國（地區）八年級學生在TIMSS 2007的數學學習成就表現：以DINA模型為例

全文

(1)國立臺灣師範大學數學系碩士班碩士論文. 指導教授：蔡蓉青博士. 以認知診斷模型分析臺灣與亞洲四國地區八年級學生在 TIMSS 2007 的數學學習成就表現：以 DINA 模型為例. 研究生：王成元. 中華民國一百零一年六月.

(2)

(3) 致謝回首近一年的碩士論文完成路程，如人飲水，冷暖自知。在此，謹以最誠摯的心，向幾位於此路程中，無私且投注大量心力幫助自己的貴人致以最大的感謝。約一年前，只因一份執著而不顧家境困難，執意繼續拼著拿下學位。家人仍始終頂下一切困難，而對自己投以最大的支持。當猛醒身陷泥沼時，早已落入四處碰壁與求助無門之況。兄長王志維猶如在此時一躍而下，與自己奮力掙扎著尋找出口，並在發現出口之後用盡一切力氣爬出。數不清的夜晚，我們硬是提起所有精力討論相關問題與編寫程式碼。如論文內容所呈，併同自己能在此短時間內從一無所知乃至於已能譯解相關程式碼，即是一切努力的明證，此論文之一切相關程式的成果皆應與王志維共享。另一雙將自己拉出泥沼的手來自好友邱謙文。無數個星期一至五的下班後夜晚，以及無數個週末的全天，還有自己追到屏東的某個週末，我們協力討論與解決此篇論文之數學教育相關問題，特別是制定試題編碼的架構。從精神奕奕，到腦力用盡再也無法思考。無數個夜晚，自己坐著超過十一點半的捷運自好友住處離開。此論文之一切相關數學教育的成果皆應與邱謙文共享。如果可以，此篇論文應加上兩位共同作者，即王志維與邱謙文。還有來自幾位好友與教授如及時雨般的襄助，為自己舖下通往出口的重要路磚。感謝好友婉嘉在自己向國外教授求助時的英文信件寫作幫助，以及應付自己諸多的繁雜事項詢問，並總適時的打氣與鼓勵。感謝哥倫比亞大學 Corter 博士，百忙之中願意回應一位不知名來自臺灣的碩士生的叨擾信件，並主動提供了論文中試題編碼架構的重要文獻。感謝臺南教育大學林素微教授與臺中教育大學胡豐榮教授義不容辭在行程表中排下為自己校正品質不佳的編碼架構。特別是林老師，在自己學業就讀期間的多次叨擾下，竟明快表示樂意協助。回想每次的煩擾，林老師皆在信件中展現耐心、包容與鼓勵，感激之情難於此盡述。感謝同樣慷慨費心審閱編碼架構的千鳳，除了伸出援手外，對自己的誠心建議、分享與打氣，讓這段漫漫長路增添了一道彩虹。感謝花襯衫大學同窗好友，不但每年的例行聚會總願意留下一個位子給這個自私於自己學業的自己，並三不五時的.

(4) 在這場耐力考驗中為自己熱情打氣。特別感謝瑞玫、威翰、曉婷、李翔、奕喬、文寧等，在聽聞自己的請求後，永遠二話不說的協助。還有大學同窗菊玲，在自己這個於第五年方結束的碩士班就讀過程中，在幾次心緒未平穩之時，無私提供諮詢窗口與建議。感謝同學婉如與芳如於論文致贈頁的鼓勵，與伯軒對自己的諸多幫助。感謝學弟柏甫對自己統計相關問題的熱心回應。感謝淑貞在口試當天電腦設備的協助，看似事小，實解決了當天匆忙慌張的自己的一大問題。. 此外，感謝指導老師蔡蓉青教授在自己欲放棄學業之時，不吝再提供完成學位之機會，並於過程中給予統計問題諮詢之機會。感謝育瑋學長在論文進行初期無私提供相關程式資源與諮詢，為自己在論文中進行過程所需之統計知識的充實與相關程式問題之處理奠下重要基礎，對造成學長煩擾之處亦在此表達歉意。感謝兩位口試委員郭伯臣教授與譚克平教授撥冗費心審查論文與提供寶貴建議，特別是郭老師與指導學生楊智為學長，在論文進行期間接受自己的請益，指引自己相關研究方向。感謝謝豐瑞教授與楊凱琳教授於自己在系上就讀期間，對不認真的自己曾給予之包容與指導。. 最後，謹將最深的謝意給予祢們與母親。在祢們的指引下，一道道光線照亮通往出口之路，讓自己不再一路彎曲跌撞、原地轉圈。感激之情，非己身能力所能言喻…. 偶然點放いつも何度でも與いのちの名前。許多個無法安睡的夜晚，與恨不得每日不只 24 小時的驚惶，慶幸能畫下句點。. 王成元. 謹誌於台北師大. 民國一百零一年六月.

(5) 摘要本研究旨在針對 TIMSS 2007 的八年級數學成就測驗試題之解題所需認知屬性，透過認知診斷模型中的 DINA 模型進行分析，以了解並比較臺灣與亞洲四國（地區）之八年級學生在認知屬性的精熟情形。本研究依據測驗的題本四之試題分析出內容、歷程、技能／試題類型等三大類共 20 項認知屬性的 Q 矩陣架構，研究樣本共包含臺灣 290 名、韓國 301 名、新加坡 306 名、香港 243 名與日本 301 名等受測學生。研究主要發現如下：一、臺灣與亞洲四國（地區）在大部分的認知屬性皆至少有一半的學生能精熟，其中臺灣在「數」、「代數」、「應用數、量與形的知識於計算或判斷」、「機率、統計與閱讀理解」、「數學思維」與「試題特徵」等面向皆有屬性的精熟情形顯著優於部分國家（地區），但在「機率、統計與閱讀理解」面向的部份屬性之精熟表現顯著不如日本與韓國。二、將認知屬性分組檢視屬性組型的分布情形後發現：(1) 在「數」、「代數」與「機率、統計與閱讀理解」方面，皆有相對多數的學生精熟所有相關屬性；(2) 在「幾何」方面，相對多數的學生皆精熟或是皆未精熟所有相關屬性，表現具雙峰化現象；(3) 在「數學思維」方面，相對多數的學生在所有相關屬性皆精熟、皆未精熟或是僅未精熟屬性「解析的思維」；(4) 在「試題特徵」方面，相對多數的學生在所有相關屬性皆精熟、皆未精熟或是僅精熟屬性「開放式的題目」；(5) 臺灣表現最好的面向為「代數」與「試題特徵」，最不佳的為「機率、統計與閱讀理解」；(6) 臺灣在幾何面向的表現有些微雙峰化現象，即所有相關屬性皆精熟與皆未精熟的學生皆較大部分國家（地區）多。三、精熟試題所需所有屬性的情形方面，臺灣在數與代數兩維度的情形較幾何和機率與統計維度試題都要好；亞洲四國（地區）在數、代數以及機率與統計等維度的情形皆較幾何維度好。此外，臺灣與韓國學生的精熟情形相近，而在代數維度試題的表現優於新加坡、香港與日本的情形最佳，數與幾何兩個維度次之，機率與統計維度的優異情形最不明顯。. 關鍵詞：TIMSS 2007、認知診斷模型、DINA.

(6)

(7) Abstract This study focuses on cognitive attributes that required for solving the mathematical items of the TIMSS 2007 eighth-grade. It conducts analysis through the DINA model of the cognitive diagnostic model in order to understand and to compare the mastery of cognitive attributes among students of the eighth grade in Taiwan and other four countries in Asia (region). This study based on the questions in Test Booket Four to analyse a Q matrix framework covering 20 cognitive attributes, which are cataglorized into three major camps including “content”, “process”, and”skill / item type”. The sampling of this study takes up 290 examinees from Taiwan and 301 from Korea, 306 from Singapore, 243 from Hong Kong, and 301 from Japan. The major findings are as follows: 1) More than half of students in Taiwan and four other Asian countries (region) show masteries in most cognitive attributes. Taiwan students particularly outperform in dimentions including "number", " algebra”, " computational and judgmental applications of knowledge in number, quantity, and the geometry", "probability and the basic statistics”, “mathematical thinking” and “characteristics of items” while Taiwan students underperformed Japan and Korean in “probability, statistics, and reading comprehension”. 2) This study examined the distribution of attribute patterns via grouping attributes and found out: (1) Relatively a larger number of students master in attributes such as "number", "algebra" and "probability, statistics, and reading comprehension"; (2) relatively a larger number of students master all or master none of the related attributes in “ geometry ", showing a bimodal phenomenon; (3) in “mathematical thinking ", relatively a larger number of students master all or master none of the related attributes, or only not master the attribute “analytical thinking”; (4) in ”characteristics of items” , relatively a larger number of students master all or master none of the related attributes, or only master the attribute “ open-ended items"; (5) Taiwan outperformed in "algebra" and " characteristics of items“ while underperformed in “probability, statistics, and reading comprehension”; (6) Taiwan shows slight bimodal phenomenon in “geometry” with most students all master or master none of the related attributes while compared with most countries (regions). 3) In item related attributes, Taiwan performs better in “number” and “algebra” than in “geometry” and “probability and statistics”; four Asian countries (regions) perform better in “number”, “algebra” and “probability and statistics” than in”geometry”. In addition, Taiwan students demonstrate similar mastery as Korean students, outperforming students from Singapore, Hong Kong and Japan in “algerbra”, the best situation followed by “number” and “geometry”, while the performance in “probability and statistical dimensions” is the least obvious.. Key words：TIMSS 2007、cognitive diagnostic model、DINA.

(8)

(9) 目次中文摘要英文摘要目次......................................................................................................................................................I 圖目次...............................................................................................................................................III 表目次...............................................................................................................................................IV. 第一章. 緒論..............................................................................................................1. 第一節. 研究動機...................................................................................................................1. 第二節. 研究目的與問題.......................................................................................................5. 第三節. 名詞釋義...................................................................................................................6. 第四節. 研究範圍與限制.....................................................................................................10. 第二章. 文獻探討...................................................................................................11. 第一節. 國際數學與科學教育成就趨勢調查簡介..........................................................11. 第二節. 認知診斷模型.........................................................................................................18. 第三節. 認知屬性集.............................................................................................................32. 第三章. 研究設計與實施......................................................................................47. 第一節. 研究架構.................................................................................................................47. 第二節. 研究對象.................................................................................................................49. 第三節. 研究工具與流程.....................................................................................................53. 第四節. 資料分析方法.........................................................................................................62. 第四章. 研究結果...................................................................................................65. 第一節. 分析與比較我國與亞洲四國（地區）學生在解 TIMSS 2007 數學試題所需之各認知屬性的精熟情形...............................................................................65. I.

(10) 第二節. 分析與比較我國與亞洲四國（地區）學生在解 TIMSS 2007 數學試題所需認知屬性的屬性組型分布情形.......................................................................82. 第三節. 分析與比較我國與亞洲四國（地區）學生精熟試題解題所需所有認知屬性情形...................................................................................................................96. 第五章. 結論與建議............................................................................................109. 第一節. 結論.................................................................................................................109. 第二節. 建議.................................................................................................................113. 參考文獻..................................................................................................................122 附錄..........................................................................................................................129 附錄一....................................................................................................................................129 附錄二....................................................................................................................................174 附錄三....................................................................................................................................176 附錄四....................................................................................................................................180 附錄五....................................................................................................................................183 附錄六....................................................................................................................................186 附錄七....................................................................................................................................219. II.

(11) 圖目次圖 2-1 TIMSS 課程模型................ ............................................................................................15 圖 2-2. 受試者 i 在試題 j 的反應歷程圖示................................................................................29. 圖 3-1. 研究架構圖................ .......................................................................................................48. 圖 3-2. 研究流程圖............. ..........................................................................................................61. 圖 4-1. 各國（地區）學生在各內容屬性的精熟人數比例長條圖...........................................66. 圖 4-2. 各國（地區）學生在各歷程屬性的精熟人數比例長條圖...........................................67. 圖 4-3. 各國（地區）學生在各技能／試題類型屬性的精熟人數比例長條圖......................68. 圖 4-4. 各國（地區）學生在 TIMSS 2007 各測驗目標的能力值平均之長條圖....................73. 圖 4-5. 各國（地區）精熟各數維度試題解題所需所有屬性的學生比例長條圖..................97. 圖 4-6. 各國（地區）精熟各代數維度試題解題所需所有屬性的學生比例長條圖..............99. 圖 4-7. 各國（地區）精熟各幾何維度試題解題所需所有屬性的學生比例長條圖............100. 圖 4-8. 各國（地區）精熟各機率與統計維度試題解題所需所有屬性的學生比例長條圖.......................................................................................................................................101. 圖一. 各筆實徵資料以卡方統計量進行檢定後，所有成對試題之 p 值的次數分布圖...180. 圖二. 各筆實徵資料以 z-相關進行檢定後，所有成對試題之 p 值的次數分布圖............181. 圖三. 各筆實徵資料以對數勝算比進行檢定後，所有成對試題之 p 值的次數分布圖.........................................................................................................................................182. III.

(12) 表目次表 1-1. 臺灣學生在 TIMSS 的歷屆排名與表現....... ..................................................................2. 表 1-2. 各國八年級學生整體數學成就....... ................................................................................3. 表 2-1. IEA 的數學成就相關研究............. .................................................................................12. 表 2-2 TIMSS 的受測對象...........................................................................................................13 表 2-3. 原設定 TIMSS 2007 八年級數學試題在各主題與層次所佔比重..............................15. 表 2-4. TIMSS 2007 學生題本設計－四年級與八年級...........................................................16. 表 2-5. TIMSS 2007 數學成就國際基準.....................................................................................17. 表 2-6. 發展以心理學為導向的認知診斷測驗之五個編製步驟...........................................19. 表 2-7. 認知診斷模型分類...........................................................................................................21. 表 2-8. 認知診斷模型列表...........................................................................................................23. 表 2-9. 試題 Q 矩陣示例................................................................................................................24. 表 2-10. 各認知診斷模型假設的知識結構................................................................................29. 表 2-11. 各認知診斷模型所假設的試題結構...........................................................................31. 表 2-12 TCD 屬性的詳細描述....................................................................................................34 表 2-13 TIMSS 2007 八年級數學測驗內容維度測驗目標.....................................................39 表 2-14 TIMSS 2007 八年級數學測驗認知維度測驗目標.....................................................39 表 2-15. 洪碧霞等人（2009）研究使用之認知成份說明表......................................................42. 表 2-16. 張惠芳（2010）研究使用之認知成份說明表...............................................................43. 表 2-17. Turner (2009)研究使用之認知成份說明表................................................................45. 表 3-1. 各國（地區）施測對象學制名與年齡.............................................................................49. 表 3-2. 各國（地區）之抽樣設計與抽樣學生數.......................................................................50. 表 3-3 TIMSS 2007 各題本預設與實際施測時之試題分布情形..........................................52 表 3-4. 各國（地區）作答題本四的學生人數及學生的能力值平均.......................................52. 表 3-5 TIMSS 的問答題計分原則與作答反應編碼................................................................53 表 3-6. 各國（地區）學生題組四各試題的答對率.....................................................................54 IV.

(13) 表 3-7. 各國（地區）學生題組五各試題的答對率.....................................................................55. 表 3-8. 認知屬性代碼....................................................................................................................58. 表 3-9. 連結試題與內容屬性及歷程屬性的架構.....................................................................59. 表 3-10. 連結試題與技能／試題類型屬性的架構...................................................................60. 表 4-1. 各國（地區）學生在各內容屬性的精熟人數比例與我國比例之排名......................66. 表 4-2. 各國（地區）學生在各歷程屬性的精熟人數比例與我國比例之排名......................67. 表 4-3. 各國（地區）學生在各技能／試題類型屬性的精熟人數比例與我國比例之排名.68. 表 4-4. 各國（地區）學生在 TIMSS 2007 的能力值達到各國際基準分數的人數比例........69. 表 4-5. 虛擬變數編碼....................................................................................................................71. 表 4-6. 認知屬性分組....................................................................................................................72. 表 4-7. 各國（地區）做答題本四之學生在 TIMSS 2007 各測驗目標的能力值平均............73. 表 4-8 「數」、「代數」與「幾何」組別之迴歸分析摘要表..........................................................74 表 4-9. 臺灣與新加坡在題本四涉及「數」主題相關屬性的試題，以及測驗目標隸屬於 TIMSS 2007 數維度的試題之平均答對率...................................................................76. 表 4-10 「機率、統計與閱讀理解」組別之迴歸分析摘要表....................................................77 表 4-11 「數學思維」組別之迴歸分析摘要表...........................................................................78 表 4-12. 臺灣與日本在題本四涉及屬性 P4（結合運用的思維）的試題，以及測驗目標隸屬於 TIMSS 2007 推理層次的試題之平均答對率................................................79. 表 4-13 「試題特徵」組別之迴歸分析摘要表...........................................................................80 表 4-14. 認知屬性分組與排序一覽表........................................................................................83. 表 4-15 「數」組別的屬性組型分布............................................................................................85 表 4-16 「數+P1+P2」組別的屬性組型分布...............................................................................85 表 4-17 「代數」組別的屬性組型分布........................................................................................87 表 4-18 「代數+P2」組別的屬性組型分布.................................................................................87 表 4-19 「幾何」組別的屬性組型分布........................................................................................89 表 4-20 「幾何+P1+P2」組別的屬性組型分布..........................................................................89 V.

(14) 表 4-21 「機率、統計與閱讀理解」組別的屬性組型分布........................................................90 表 4-22 「數學思維」組別的屬性組型分布................................................................................91 表 4-23 「試題特徵」組別的屬性組型分布................................................................................93 表 4-24. 所有屬性皆精熟與皆未精熟的組型在各屬性組別與各國（地區）之比例與我國比例之排名......................................................................................................................95. 表 4-25. 各國（地區）精熟各數維度試題解題所需所有屬性的學生比例與我國比例之排名.......................................................................................................................................97. 表 4-26. 各國（地區）精熟各代數維度試題解題所需所有屬性的學生比例與我國比例之排名..................................................................................................................................98. 表 4-27. 各國（地區）精熟各幾何維度試題解題所需所有屬性的學生比例與我國比例之排名................................................................................................................................100. 表 4-28. 各國（地區）精熟各機率與統計維度試題解題所需所有屬性的學生比例與我國比例之排名....................................................................................................................101. 表 4-29. 我國在各維度試題之精熟比例範圍的題數分布....................................................102. 表 4-30. 韓國在各維度試題之精熟比例範圍的題數分布....................................................102. 表 4-31. 新加坡、香港與日本在各維度試題之精熟人數比例分布.....................................102. 表 4-32. 比較各國（地區）精熟數維度與代數維度試題情形之邏輯斯迴歸分析結果.....104. 表 4-33. 比較各國（地區）精熟幾何維度以及機率與統計維度試題情形之邏輯斯迴歸分析結果............................................................................................................................105. 表 4-34. 各國（地區）在試題的精熟勝算與我國的顯著差異情形之題數分布..................106. 表 5-1. 各國（地區）TIMSS 2007 八年級數學各主題成就之能力值總平均.......................114. 表 5-2. Q 矩陣架構修正前後之試題編碼數與 g 值之變化，以及臺灣學生在各試題之答對率..................................................................................................................................116. 表一. 各筆實徵資料之樣本數、屬性個數與試題個數..........................................................174. 表二. 各筆實徵資料之 p 值小於 0.05 的成對試題所佔比例...............................................175. 表三. 連結試題與 TIMSS 2007 八年級數學內容領域測驗目標之 Q 矩陣.......................185 VI.

(15) 表四. de la Torre(2009b)發表之 Ox 程式碼與 C 語言程式碼在 g 值與 s 值的估計結果.........................................................................................................................................187. VII.

(16) VIII.

(17) 第一章緒論本章共分四節，分別說明本研究之研究動機、研究目的、研究問題、使用之重要名詞釋義以及研究範圍與限制。. 第一節. 研究動機. 學生的學習成就是教育領域中普遍被關注的議題，而透過對國際性的大型測驗結果的分析，可以提供相關的現況描述、教育研究與政策改進的訊息。國際數學與科學教育成就趨勢調查研究 (Trends in International Mathematics and Science Study, TIMSS) 是目前受到矚目的國際型評量計畫之一，該研究的目的之一就在於提供各國關於學生在四、八年級所學的數學與科學概念、歷程等全面性的資料以做為國際比較的依據 (Mullis et al., 2005)，其資料被認為有助於瞭解各國學生在學科上的表現及探索學生表現差異的原因（譚克平，2009）。自 1995 年起，TIMSS 每四年即進行一次調查，目前已有超過 60 個國家參與 TIMSS 的調查（李雯雅，2009），而最近期舉辦的 TIMSS 2011 預計在 2012 年 12 月公佈調查結果。從過去已公佈的歷次調查結果檢視我國的參與成績與排名後（參閱表 1-1 與表 1-2），可發現我國學生表現優異。在評分的處理上，TIMSS 以「試題反應理論」(Item Response Theory, IRT)為基礎，採用可能分數 (plausible value) 的技術來估計學生的能力，再將估計出來的能力值轉換為量尺分數做報導（譚克平，2009）。例如表 1-2 所示，在近期公佈的 TIMSS 2007 調查結果中，我國八年級學生在數學的平均量尺分數為 598 分位於第一名。但已有學者提出了疑慮，指出 TIMSS 使用的 IRT 模型提供的單一總分僅是指出學生在一個連續的量尺中的相對位置，而無法提供關於課堂教學與學生學習的診斷訊息（Lee, Park, & Taylan, 2011）。 Nichols 在 1994 年提出結合認知科學與心理計量學的認知診斷評量 (cognitively diagnostic assessment, CDA)，希望彌補傳統評量無法洞察受試者在測驗表現背後的心理特點的缺陷，而提供教學更多的診斷訊息。在評量的過程當中，透過應用心理計量模型. 1.

(18) 表 1-1. 臺灣學生在 TIMSS 的歷屆排名與表現四年級a. 歷屆年份. 八年級b. 數學科. TIMSS 1999. c. TIMSS 2003. ---. 自然科. ---. ---. 數學科新加坡. (604). 臺灣. (569). 韓國. (587). 新加坡. (568). 臺灣. (585). 匈牙利. (552). 香港. (582). 日本. (550). 日本. (579). 韓國. (549). ---. 新加坡. (594). 新加坡. (565). 新加坡. (605). 香港. (575). 臺灣. (551). 韓國. (589). 日本. (565). 日本. (543). 香港. (586). 臺灣. (564). 香港. (542). 臺灣. (585). 比利時. (551). 英格蘭. (540). 日本. (570). a. 註：括號內為平均成績。. b. 即國小四年級。. 即國中二年級。. 自然科. c. 新加坡臺灣韓國香港愛沙尼亞. (578) (571) (558) (556) (552). 該次僅對八年級學生進行評量。. 資料來源：修改自李雯雅（2009：3）。. 於所觀察到的資料上，除了評定學習者的成就分數外，並能據以推論其歷程與知識結構的品質。近年來能夠用於 CDA 的心理計量模型，亦即認知診斷模型 (cognitive diagnostic model, CDM)，已陸續開發出至少十餘種 (Rupp, Templin, & Henson, 2010)。有別於 IRT 在低維度的歐式空間上標定或排序受試者的設計，CDM 的目的在於以受試者在評量中的表現而得出其具有何種技能或認知屬性，而目前部分學者已將認知診斷模型應用於包括 TIMSS 在內的大型測驗的資料上，而得到了許多關於學生解題所需的技能與屬性等更豐富的診斷訊息 (Birenbaum, Tatsuoka, & Xin, 2007; Birenbaum, Tatsuoka, & Yamada, 2004; Chen, Gorin, Thompson, & Tatsuoka, 2008; Dogan & Tatsuoka, 2008; Im & Park, 2010; Lee, Park, and Taylan, 2011; Tatsuoka, Corter, & Tatsuoka, 2004)，但應用於 TIMSS 2007 資料的類似研究目前在國內仍鮮少。若回頭仔細檢視 TIMSS 2007 八年級的數學測驗結果，如表 1-2 所示，則可發現我 2.

(19) 各國八年級學生整體數學成就. 國家或地區. 數學成就分布. 臺灣韓國新加坡香港日本匈牙利英格蘭俄羅斯 2 美國 1 立陶宛捷克斯洛維尼亞國際平均亞美尼亞澳大利亞瑞典馬爾他蘇格蘭 1 2 塞爾維亞義大利馬來西亞挪威賽普勒斯保加利亞 3 以色列烏克蘭羅馬尼亞波士尼亞黎巴嫩泰國土耳其約旦突尼西亞 1 喬治亞伊朗巴林印尼敘利亞埃及阿爾及利亞哥倫比亞阿曼巴勒斯坦波札那 ¿ 科威特薩爾瓦多沙烏地阿拉伯迦納卡達 ¶ 摩洛哥基準參照區 2 麻塞諸塞州(美國) 2 明尼蘇達州(美國) 3 魁北克省(加拿大) 2 安大略省(加拿大) 3 卑詩省(加拿大) 巴斯克地區(西班牙) ¿ 杜拜(阿拉伯聯合大公國). 平均量尺學校年分數級* (4.5) (2.7) (3.8) (5.8) (2.4) (3.5) (4.8) (4.1) (2.8) (2.3) (2.4) (2.1). 8 8 8 8 8 8 9 7 or 8 8 8 8 7 or 8. 14.2 14.3 14.4 14.4 14.5 14.6 14.2 14.6 14.3 14.9 14.4 13.8. 0.932 0.921 0.922 0.937 0.953 0.874 0.946 0.802 0.951 0.862 0.891 0.917. (3.5) (3.9) (2.3) (1.2) (3.7) (3.3) (3.0) (5.0) (2.0) (1.6) (5.0) (3.9) (3.6) (4.1) (2.7) (4.0) (5.0) (4.8) (4.1) (2.4) (5.9) (4.1) (1.6) (3.8) (3.8) (3.6) (2.1) (3.6) (3.4) (3.5) (2.3) (2.3) (2.8) (2.9) (4.4) (1.4) (3.0). 8 8 8 9 9 8 8 8 8 8 8 8 8 8 8 or 9 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8. 14.9 13.9 14.8 14 13.7 14.9 13.9 14.3 13.8 13.8 14.9 14 14.2 15 14.7 14.4 14.3 14 14 14.5 14.2 14.2 14.1 14.3 13.9 14.1 14.5 14.5 14.3 14 14.9 14.4 15 14.4 15.8 13.9 14.8. 0.775 0.962 0.956 0.878 0.946 0.810 0.941 0.811 0.968 0.903 0.824 0.932 0.788 0.813 0.803 0.772 0.781 0.775 0.773 0.766 0.754 0.759 0.866 0.728 0.724 0.708 0.733 0.791 0.814 0.731 0.654 0.891 0.735 0.812 0.553 0.875 0.646. 547 532 528 517 509 499 ▽ 461. (4.6) (4.4) (3.5) (3.5) (3.0) (3.0) (2.4). 8 8 8 8 8 8 8. 14.2 14.3 14.2 13.8 13.9 14.1 14.2. -. ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▽ ▲ ▲ ▲ ▲ ▲. 100. 200 5th. 300. 400 500 600 700 表現百分點 25th 75th 95th. 800 ▲ 國家平均分數顯著高於國際平. ▽ 國家平均分數顯著低於國際平均. 平均數 9 5 % 的信賴區間 (± 2 個標準誤). 資料來源：Mullis、Martin 與 Foy (2008: 35); 引自曹博盛（2009b：22） 3. 人文發展指數**. 598 597 593 572 570 517 513 512 508 506 504 501 500 499 496 491 488 487 486 480 474 469 465 464 463 462 461 456 449 441 432 427 420 410 403 398 397 395 391 387 380 372 367 364 354 340 329 309 307 381. ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲ ▲. 0. 平均年齡. SO URCE: IEA's Tre n d s in In te rn a t io n a l M a th e m a tics a n d Scie n ce Stu d y (TIM SS) 2 0 0 7. 表 1-2.

(20) 國學生成績雖名列第一，但與二、三名的韓國與新加坡差距甚小。而特別地，排名的前五名皆為亞洲國家，且平均量尺分數都高出了第六名的匈牙利一段差距，也就是在平均量尺分數的審視之下，地理位置鄰近的亞洲四小龍與日本的表現相對突出且彼此差異不大。考慮上述 CDM 具有的優點，或可透過模型進行診斷分析，而更廣泛的檢視在各項影響解題的知識、歷程與解題技巧等認知屬性上，臺灣學生的表現情形以及探查與分數同居領先的四個亞洲國家（地區）間的差異所在。儘管相關學者都已察覺 CDM 具有提供豐富訊息的實用性，但相較於傳統的試題反應模型，CDM 仍然因為對研究者而言較陌生與複雜且需要的電腦程式較不易取得而未被充分利用 (de la Torre, 2009b)。在眾多 CDM 中，deterministic ,inputs, noisy, “and” gate (DINA) 模型 (Haertel, 1989; Junker & Sijtsma, 2001; Macready & Dayton, 1977)具有理論簡單且易於解釋的特性，近年來國內外相關的理論研究與教育應用日漸豐富(Lee et al., 2011; 王文卿，2009；李曉嵐、呂淳郁、吳慧珉、許天維，2011；陳亭宇，2010)。因此基於認知診斷模型的特點及應用於大型測驗的價值、對臺灣與亞洲四國（地區）學生在 TIMSS 2007 八年級數學測驗之平均量尺分數相近的觀察與國內相關研究鮮少的現況，加上考量研究者取得電腦程式的便利性後，研究者擬透過 TIMSS 2007 的相關資料與 DINA 模型的分析，針對臺灣與分數同居領先的四個亞洲國家（地區）學生在解題所需知識、歷程與解題技巧的表現情形進行分析與比較。. 4.

(21) 第二節. 研究目的與問題. 壹、研究目的基於上述動機，本研究的目的在於利用認知診斷模型中的 DINA 模型，針對解 TIMSS 2007 數學試題所需的認知屬性，了解並比較我國與亞洲四國（地區）八年級學生在各屬性的精熟情形與屬性組型的分布情形，同時進一步檢視學生精熟各試題解題所需所有認知屬性的情形，以期提供我國學生數學成就更豐富的診斷訊息以及應用認知診斷模型於大型測驗的建議。. 貳、研究問題依據上述研究目的，本研究提出以下研究問題：. 一、針對解 TIMSS 2007 數學試題所需的認知屬性，我國與亞洲四國（地區）八年級學生在各屬性的精熟情形為何？我國與其他四國（地區）的差異情形為何？. 二、針對解 TIMSS 2007 數學試題所需的認知屬性，我國與亞洲四國（地區）八年級學生的屬性組型分布為何？我國與其他四國（地區）的差異情形為何？. 三、我國與亞洲四國（地區）八年級學生在 TIMSS 2007 的各個數學試題中，精熟各試題解題所需所有認知屬性的情形為何？我國與其他四國（地區）的差異情形為何？. 5.

(22) 第三節. 名詞釋義. 壹、我國與亞洲四國（地區）八年級學生本研究中的我國與亞洲四國（地區）八年級學生係指臺灣、韓國、新加坡、香港與日本等在 TIMSS 2007 八年級數學平均量尺分數排名前五名之國家（地區）的八年級學生。其中八年級學生的定義為各國兩個包含十三歲學生的相鄰年級中，較高的那個年級 (Mullis, Martin, Smith, Garden, & Gregory, 2003; Olson, Martin, & Mullis, 2008)。. 貳、TIMSS 2007 數學試題本研究中的 TIMSS 2007 數學試題意指 TIMSS 2007 之題本四的試題，共 29 題。僅選取題本四進行分析為考量本研究使用的認知診斷模型及其程式碼無法處理具遺漏值的資料、試題編碼所需時間與 TIMSS 2007 原設定之測驗目標在各數學施測題本試題的分布狀況等因素後的決定。. 参、解 TIMSS 2007 數學試題所需的認知屬性在本研究中，解 TIMSS 2007 數學試題所需的認知屬性意指解題所需之知識、認知歷程、技巧與試題類型，共包含三大類 20 項屬性，茲分述如下：一、內容屬性（一）整數的基本概念與運算精熟這個屬性的學生應該能夠理解與應用全數與整數的基本概念與運算，例如加、減、乘、除、正負號、位值 (place value)、找出質因數等。（二）分數、小數與比的基本概念與運算精熟這個屬性的學生應該能夠理解與應用分數和小數的基本概念與運算，例如加、減、乘、除、使用小數、辨識與找出等值的比。（三）基礎代數的基本概念與運算精熟這個屬性的學生應該能夠理解與應用基礎代數的基本概念與運算，例如以符號表示未知數；化簡代數式；計算代數式（例如計算涉及文字符號的代數式的和、積 6.

(23) 或次方）；以數字替換代數式或方程式中的變數並求值，或經由這樣的替換及計算後，判別一個值（或數個值）或數對是否滿足一個給定的方程式；解一次方程式；使用代數式轉換文字敘述中描述的量的關係。（四）幾何的基本概念與性質精熟這個屬性的學生應該能夠理解與應用幾何的基本概念與性質，例如知道基本的幾何概念、幾何形體、多邊形的性質、直角座標、計算面積與體積。（五）機率與基本統計精熟這個屬性的學生應該能夠遵照涉及到統計資料的表格 (tables) 或圖表(charts) 的書面指示；讀取與理解包含在統計表格或圖表中的訊息，並使用這些訊息回答問題；從數量關係判斷一個結果發生的可能性。二、歷程屬性（一）數、量與形的知識在計算或單位換算上的應用精熟這個屬性的學生應該能夠成功的應用關於數、量與形的知識進行計算或單位換算。學生應該藉由以下事情展現其能力：在整數、小數、分數與正負數上面進行算術運算(包括比的計算、取次方、質因數分解)；在 12 小時制與 24 小時制間換算，或是在小時與分鐘間換算；進行幾何中的基本計算(包括計算體積與面積)。單純的數數與判斷兩個數的大小關係並不包含在內。（二）數、形與代數的知識在判斷上的應用精熟這個屬性的學生應該能夠應用數、形與代數的知識來回答概念性的問題，或是在解題過程中發現真正的關係與性質。（三）解析的思維 (analytic thinking) 精熟這個屬性的學生應該能夠分析問題中不明顯的、潛在的或隱含的成份或構成元素，進而使用其解題。. 7.

(24) （四）結合運用的思維精熟這個屬性的學生應該能夠同時將兩個以上的概念或定理結合起來以解題。（五）形成 (generating)、想像 (visualizing)、操弄或轉換 (transforming) 形體 (figures) 與圖形 (graphs) 精熟這個屬性的學生應該能夠形成、想像、操弄或轉換圖形或形體，來幫助解題的活動。其中圖形或形體可能是明確的書面形式或是心理的形式。（六）處理 (managing) 複雜的步驟、子目標或程序精熟這個屬性的學生應該能夠處理涉及複雜的步驟或子目標的問題，以及進行一連串複雜的推理與程序。而這些步驟、子目標可以是明顯的或隱含的，可能需要整理以及依照順序進行。（七）使用多項數學知識精熟這個屬性的學生應該能夠使用兩個以上的數學知識解題。例如對頂角相等、等腰三角形兩底角相等、指數律、代數式的化簡、等差數列及其公式、解一元一次方程式、正六邊形一個內角度數的計算。（八）模組套用精熟這個屬性的學生應該能夠在解題目時能回憶並套用已學過的模組，其中模組是在特定題型下的固定解法。三、技能／試題類型 (skill/item type) 屬性（一）使用給定的圖像 (figures) 與圖形 (graphs) 精熟這個屬性的學生應該能夠遵照涉及到圖像與圖形的書面指示，以及讀取與理解包含在圖像與圖形中的訊息，並使用這些訊息回答問題。（二）驗證選項精熟這個屬性的學生應該能夠藉由驗證選擇題的選項來解題。當一個選擇題的題幹明示或暗示解題者需要使用這個解題技能時，這個試題類型屬性會被編碼。（三）評估精熟這個屬性的學生應該能夠解具有以下特徵的非選擇題：題目要求學生能夠在 8.

(25) 給定的條件下，評估可行的或最佳的方案。（四）開放式的題目精熟這個屬性的學生應該能夠在面對沒有明確或固定答案的開放式題目時，推導 (derive) 與呈現答案，例如選擇題、是非題、有明確的幾個可能答案可猜答的問題或是有固定答案的填充題就不在這個屬性的編碼範圍內。具有這個屬性的題目會因為沒有明確的答案可猜答而降低學生作答意願。（五）閱讀與理解具有真實世界脈絡的問題精熟這個屬性的學生應該能夠解決需要具備與問題相關的真實世界的知識或脈絡才能理解的題目。（六）閱讀與理解具有複雜文本 (text) 的問題精熟這個屬性的學生應該能夠閱讀與理解特別複雜或特別冗長的敘述，包含涉及”至少(at least)”＂少算＂＂最高＂＂甚於＂等詞的句子。要注意的是，若題目涉及的詞語或句型相對簡單而容易閱讀，那麼並不在編碼的範圍內。（七）實行 (implement) 精熟這個屬性的學生應該能夠實行題目指令，即依題意畫出圖形或完成複雜表格，以合乎給定要求。. 9.

(26) 第四節. 研究範圍與限制. 一、本研究共選取參與 TIMSS 2007 八年級數學成就測驗的國家與地區中，數學平均量尺分數排名前五名的成員進行數學成就之認知診斷分析，包括臺灣、韓國、新加坡、香港與日本等五國（地區）。因此本研究結果僅適合推論於上述各國（地區）之學生。二、因本研究使用的認知診斷模型及其程式碼無法處理具遺漏值的資料以及考量試題編碼所需時間，本研究僅以 TIMSS 2007 八年級數學成就測驗題本四之試題進行分析，並以作答該題本之學生為研究樣本。因此相關研究結果與使用 TIMSS 2007 八年級數學成就測驗的所有試題，和五國（地區）的所有參與施測學生進行分析而得到之研究結果可能有所不同。亦可能與對五國（地區）全體學生調查而得到之研究結果有所不同。三、承第一點所述，本研究之研究對象限定為臺灣、韓國、新加坡、香港與日本等五國（地區）之八年級學生，因此研究結果不宜推論至八年級以外的年級。四、本研究係以解 TIMSS 2007 數學試題所需的認知屬性進行認知診斷，且所有認知屬性皆來自對於數學試題之分析，因此研究結果不宜推論至數學以外之學科。. 10.

(27) 第二章文獻探討本章共分為三節，第一節首先介紹 TIMSS 2007 的緣起及其測驗架構，第二節介紹與探討認知診斷模型相關特性，第三節針對本研究應用認知診斷模型時，為發展認知屬性集所需之相關文獻加以探討。. 第一節. 國際數學與科學教育成就趨勢調查 (TIMSS)簡介. 壹、國際成就調查委員會 (IEA)與 TIMSS 一、IEA 的成立背景在 1958 年，一群教育心理學、社會學、心理計量學等各領域的學者齊聚於聯合國教科文組織教育學院，研討關於學校與學生評鑑的問題。他們主張有效的評鑑應同時包含知識與態度等教育的輸入與其成果("Brief History of IEA: 50 Years of Educational Research," n.d.)。隨後於 1960 年前後在多位學者的發起之下，國際教育成就調查委員會 (International Association for the Evaluation of Educational Achievement, IEA) 正式成立，並致力於找出對於教育成果有意義與具一致性的影響因素 (Husén, 1967; 戴曉霞， 1994)。同時 IEA 的發起者認為，若能透過研究廣泛的蒐集多個教育系統的資料，便能從當中的變異發現重要的關係 ("Brief History of IEA: 50 Years of Educational Research," n.d.)。目前 IEA 屬於獨立、國際性的研究機構，主要進行與學校教育、學生學習有關的跨國合作，能夠讓參與研究的國家能夠藉著研究計劃而分析與探討國家的教育政策或相關主題，進而對本身與各國的教育體制、特色與文化差異有進一部的理解。此外各國週期性的參與也能讓其評估長時間的教育政策之成效（王建中，2006）。在 IEA 的研究中，依其目的可分為教育生產力及教學效能研究。除「教室環境研究」之外，IEA 的各項研究皆屬於教育生產力 (productivity) 之研究，亦即皆以成就測驗來呈現各國之教育生產力，及探討學業成就和家庭、學校、教學之間的關係，屬於教育研究中的巨觀研究。而「教室環境研究」則偏重於個別教育情境中教學過程及師生互動之分析，以確定其與學業成就之關係，屬於教育的微觀研究（戴曉霞，1994）。. 11.

(28) 二、IEA 的數學成就相關研究至今 IEA 所完成的研究裡，與數學成就測驗較相關之主要研究已超過十項，如表 2-1 所示。其中 TIMSS 是 IEA 第一次同時將數學與科學兩學科一起包含在內的國際研究評量，於 1995 年首度施行。其後每四年定期舉辦一次。TIMSS 的受測對象為四年級與八年級學生，其定義及在我國學制中對應的年級如表 2-2 所示。TIMSS 的主要目的是在提供各國長期追蹤學生數學和科學成就的趨勢，以及課程、教學、學習環境、家庭背景與教師等影響成就因素的相關資料，藉以了解各國在其教育或課程改革等政策上的施行成效。到了 2003 年，為了強調該系列調查研究著重於追蹤學生表現的趨勢發展，而將 TIMSS 的全名改為「Trends in International Mathematics and Science Studies（國際數學與科學教育成就趨勢調查）」(Mullis, et al., 2005; 李雯雅，2009)。. 表 2-1. IEA 的數學成就相關研究. 年份. 研究計畫名稱. 1964. 第一次國際數學研究 (First International Mathematics Study, FIMS). 1980~1982. 第二次國際數學研究 (Second International Mathematics Study, SIMS). 1994~1995. 第三次國際數學與科學教育成就研究 (Third International Mathematics. 1998~1999. and Science Study, TIMSS 1995) 第三次國際數學與科學教育成就研究後續調查 (Third International Mathematics and Science Study Repeat, TIMSS-R 或 TIMSS1999). 1998~2000. 第三次國際數學與科學教育成就研究後續調查：影像研究 (Third. 2002~2003. International Mathematics and Science Study Repeat: Video Study) 數學與科學教育成就趨勢調查 2003 (Trends in International Mathematics. 2006~2007. and Science Study 2003, TIMSS 2003) 數學與科學教育成就趨勢調查 2007 (Trends in International Mathematics. 2008. and Science Study 2007, TIMSS 2007) 高等數學與科學教育成就趨勢調查 2008 (Trends in International Mathematics and Science Study Advanced 2008). 資料來源：整理自 IEA studies (http://www.iea.nl/completed_studies.html); 王建中（2006：15）。. 12.

(29) 表 2-2 TIMSS 的受測對象學生年級定義. 我國學制所在年級. 四年級. 兩個包含九歲學生的相鄰年級中，較高的那個年級. 國小四年級. 八年級. 兩個包含十三歲學生的相鄰年級中，較高的那個年級. 國中八年級. 資料來源：Olson 等人(2008: 6-7); Mullis 等人(2003: 6)。. 在表 2-1 所示的歷年各項研究中，TIMSS 1999 為我國第一次參與的 TIMSS 研究，之後又陸續參與了 TIMSS 2003、TIMSS 2007 以及甫施測完成正進行資料分析的 TIMSS 2011，希望藉此至少探討以下主題（＜國際數學與科學教育成就趨勢調查 2003 計畫簡介＞，無日期；＜國際數學與科學教育成就趨勢調查 2007 計畫簡介＞，無日期；＜國際數學與科學教育成就趨勢調查 2011 計畫簡介＞，無日期）：. 1.. 了解我國學生數學及科學學習成就，提供規劃我國中小學的數學及科學課程之參考。. 2.. 了解我國學生數學及科學學習成就與學習環境、教師、家庭背景因素等影響因子的關係，並進一步作國際比較分析。. 3.. 與歷次參與之 TIMSS 研究結果作比較，了解我國學生在數學及科學學習成就之趨勢。. 4.. 了解國際上評量學生學習成就的趨勢與新的評量方法，提供我國教師參考。. 5.. 提昇國內研究人員資料分析研究能力. 由上述可見我國亦積極參與 TIMSS 之相關研究，並期望從中獲得關於教育研究的重要訊息。. 13.

(30) 貳、國際數學與科學教育成就趨勢調查 2007 (TIMSS 2007) 一、TIMSS 2007 的評量架構在 2005 年出版的《TIMSS 2007 評量理論架構》(TIMSS 2007 Assessment Frameworks) 中指出，自 1995 年起每四年進行一次的 TIMSS 研究透過蒐集學生在數學與科學的成就資料以及學校資源、課程與教學品質等背景資訊，提供了各國增進數學與科學的教學與學習的訊息。TIMSS 期望參與的各國獲得的價值為以下幾點： 1.. 針對四年級與八年級學生所學得的數學與科學概念、歷程與態度，得到廣泛與可進行國際比較的資料。. 2.. 針對四年級與八年級學生，進行數學與科學學習進展的國際性評量。. 3.. 針對四至八年級的數學與科學知識和技能，鑑別其成長的面向。. 4.. 因參與四年級測驗的學生在八年級時會再參與一次測驗，因此可將在兩個年級資料進行比較，以監控其教學與學習效益。. 5.. 理解對於學生學習而言最好的脈絡。針對能夠獲致較高層次學生成就的課程、教學與資源，TIMSS 有助於針對其當中關鍵的政策變數進行國際性的比較。. 6.. 使用 TIMSS 提出國家內部的政策議題。. 從 TIMSS 1995 的 38 個國家，至 TIMSS 2007 約 60 國參與的情形，顯見其調查已受各國重視與肯定。再以上述期望提供各國的價值來看，其資料應適宜作為國際比較的依據。 TIMSS 提出了一個課程模型描述關於教育機會的提供以及影響學生受教的因素，並以其為基礎發展問卷與測驗，以從專家學者、學校校長、教師與學生等人員蒐集所需資料。課程模型如圖 2-1 所示。其中達成的課程是以成就評量的方式評量各參與國學童的表現，並讓所使用的題目經由學科專家撰寫、各國代表認同、確定題目之預試參數良好等機制確立其信、效度 (Mullis, et al., 2005)。. 14.

(31) 規劃的課程. 國家、社會與教育脈絡. Intended Curriculum. 學校、教師與課堂脈絡. 實施的課程 Implemented Curriculum. 達成的課程. 學生成就與特徵. Attained Curriculum 圖 2-1 TIMSS 課程模型資料來源：Mullis 等人 (2005: 5)。 TIMSS 2007 的成就評量本身也具有其架構，以八年級的數學評量架構而言，包含了內容 (content) 與認知 (cognitive) 兩個維度。內容維度係指所要評量的數學學科主題，包括數、代數、幾何、機率與統計；認知維度指的是所要評量的數學思維過程，包括知道 (knowing)、應用 (applying) 以及推理 (reasoning) 三個層次。各主題與層次的試題設定佔的比重分別如表 2-3 所示（曹博盛，2009a）。. 表 2-3. 原設定 TIMSS 2007 八年級數學試題在各主題與層次所佔比重主題. 百分比. 層次. 百分比. 數代數幾何機率與統計. 30% 30% 20% 20%. 知道應用推理. 35% 40% 25%. 資料來源：Mullis 等人(2005: 14); 修改自曹博盛（2009a：1、8）。. 二、TIMSS 2007 的施測試題設計在施測試題的使用上，考量受試者的時間有限，TIMSS 2007 將兩百多個試題以「矩陣抽樣法 (matrix sampling)」將所有數學與科學試題各自分為 14 個題組 (blocks)，並分別編號為 M01~ M14 與 S01~ S14，再將 28 個題組分配到 14 份測驗題本 (booklets)。而為了連接各題本，TIMSS 2007 讓每一個題組皆被分配至兩份題本。最後每份題本皆含 15.

(32) 有兩個數學題組與兩個科學題組。如此在進行測驗時，每位學生僅需作答其中一份題本 (Olson, et al., 2008; 李雯雅，2009)。各題本與題組之組成關係如表 2-4 所示。最後進行測驗的評分處理時，TIMSS 是使用了 IRT 讓每位學生在數學、科學各內容領域皆產生五. 個似真值，做為該生在各領域的估計分數。. 表 2-4 TIMSS 2007 學生題本設計－四年級與八年級評量題組. 學生成就測驗題本題本一題本二題本三題本四題本五題本六題本七題本八題本九題本十題本十一題本十二題本十三題本十四. 第一部份 M01 S02 M03 S04 M05 S06 M07 S08 M09 S10 M11 S12 M13 S14. 第二部份 M02 S03 M04 S05 M06 S07 M08 S09 M10 S11 M12 S13 M14 S01. S01 M02 S03 M04 S05 M06 S07 M08 S09 M10 S11 M12 S13 M14. S02 M03 S04 M05 S06 M07 S08 M09 S10 M11 S12 M13 S14 M01. 資料來源： Mullis 等人(2005: 109); 修改自李雯雅（2009: 18）。. 為了進行跨年趨勢的比較，TIMSS 需要不斷更新使用過的題目；加上為了協助研究者詮釋學生成就而必須公開部分題目，所有的題目也無法反覆的使用。因此 TIMSS 在每次評量結束後，一方面保留部分題目不公開作為趨勢題「trend items」，一方面由專家另行發展新題目取代公開的試題（譚克平，2009）。在 TIMSS 2007 中，編號為奇數（如 01、03、05 等）的題組試題為沿用 TIMSS 2003 的趨勢題；編號為偶數者為首次發展使用的試題。而八年級的數學試題中，公開的試題題組編號為 M01、M02、M03、M04、 M05 與 M07，其中組成題本四的題組 M04 與 M05 即為本研究進行分析的試題。 16.

(33) 三、TIMSS 2007 的評分處理與分數詮釋在評估個人能力的時候，TIMSS 2007 除了依據試題作答情形外，尚考慮性別、功課、父母教育與家中書本等各項個人背景資料，以 IRT 為基礎，採用可能分數 (plausible value) 的技術推估每位學生在 TIMSS 整體的能力分布，再從該分布隨機抽取五個數值做為作答學生能力的代表值，並稱之為可能分數。同時該技術認為上述抽取的五個可能分數的平均值可以代表作答學生能力的不偏估計值。更進一步地，TIMSS 不僅單純報導各國（地區）學生的能力值總平均，還界定了 625 分、550 分、475 分與 400 分等四個分數基準，並根據達到各基準的學生的相關資料，而描述能力值達到各基準的學生之數學成就。其中若學生分數為 625 分以上，表示其能力達到進階國際基準 (advanced international benchmark)，為 550 分、475 分與 400 分以上則分別表示其能力達到高等國際基準 (high international benchmark)、中等國際基準 (intermediate international benchmark)與低等國際基準 (low international benchmark) (Mullis, Martin, & Foy, 2008; 譚克平，2009)。達到各國際基準的學生之質性描述摘要如表 2-5 所示。. 表 2-5. TIMSS 2007 數學成就國際基準進階國際基準－625. 學生能夠組織訊息並做出結論，做出一般化，解非例行性問題。他們能夠解許多的比、比例與百分比的問題。他們能夠應用數值與代數的概念與關係的知識。學生能夠以代數的方式表達一般化與為情境建模。他們能夠在複雜的情境裡應用幾何的知識。學生能夠從好幾種來源中推導與使用資料，以解決需要多個步驟的問題。高等國際基準－550 學生能夠在各式各樣相對複雜的情境裡應用他們所理解到的以及知識。他們能夠以分數、小數與百分比進行連結與計算，操作負整數，以及解涉及比例的文字問題。學生能夠操作代數式與線性方程式。學生使用幾何性質的知識解題，包含面積、體積與角度。他們能夠解讀各式各樣的統計圖表中的資料，以及解涉及機率的簡單問題。中等國際基準－475 學生能夠在簡單的情境裡應用基本的數學知識。他們能夠以加法與乘法解決涉及全數與分數的單一步驟文字問題。他們能夠操作熟悉的分數。他們理解簡單的代數關係。他們展現了對三角與基本幾何概念的理解。他們閱讀與解讀圖表。他們察覺基本的可能性(likelihood)的觀念。 17.

(34) 表 2-5. TIMSS 2007 數學成就國際基準（續）低等國際基準－400. 學生具有一些全數與分數、運算與基本圖形的知識。資料來源：譯自 Mullis 等人 (2005: 109). 第二節. 認知診斷模型. 壹、認知診斷評量 (Cognitively diagnostic assessment) 認知診斷評量 (Cognitively diagnostic assessment, CDA) 一詞源自於 Nichols (1994) 所創。在教育研究回顧 (Review of Educational Research) 發表的文章中，他除了概述促使 CDA 發展的社會趨勢外，並提出以心理學為導向而設計的認知診斷評量的架構。 Nichols (1994)指出，起源於 20 世紀初期的傳統評量，其目的在於選才，亦即找出最有可能在特定的教育制度下獲得成功的學生。評量所用的方式是估計受測者在某個潛在變數當中的位置，該變數在古典測驗理論中就是真分數 (True score)，在單維度的試題反應理論中則是潛在特質。同時，傳統評量的設計往往依據邏輯分類與內容細目，原就缺乏在測驗領域的成就背後的歷程與結構的模型，因此測驗分數緊密的聯繫著施測的內容範圍，而非認知機制。到了 90 年代，由於察覺高品質與廣泛分布的教育緊密連結到國家的表現，因此教育的重心開始放在幫助個體在教育機會中達致成功，而非選擇出能夠在教育機會中成功的個體。在這樣的脈絡下，教育工作者需要的是有助於個體進一步學習的評量，於是許多學者一方面批判傳統評量無法洞察測驗表現背後的心理特點 (Glaser, 1981; Glass, 1986)，另一方面也發展結合認知科學與心理計量學的診斷評量，以提供教學更多的診斷訊息，Nichols 將之稱為認知診斷評量 (Nichols, 1994)。 Nichols (1994)提到了 CDA 的幾項特徵：. 1. 以學習與成就背後的心理學研究為基礎，並有系統的設計評量中的問題。 2. 應用統計模型於所觀察到的資料上，以評定學習者的成就分數，並據以推論其歷程與知識結構的品質。. 18.

(35) 3. CDA 能夠將測驗的發展者對於建構測驗與測驗的評分背後的假定明確化，包括受測者所使用的歷程與知識結構和發展的方式，以及能力高與能力低的受測者之間的差異等。在 2002 年 1 月，美國簽署了一項聯邦法律《不讓孩子落後法案》 (No Child Left Behind Act of 2001, NCLB)。法案中要求美國全國所有 3－8 年級學生每年必須接受各州政府的閱讀和數學統考，其中統考的目的是診斷學生在閱讀與數學的相關技能或屬性的精熟狀態，以提供學生關於其強項或弱點的詳細訊息，而這項政策也進一步促使了認知診斷評量的迅速發展 (Huebner, 2010)。時至今日，由相關文獻集結而成或專門介紹的相關書籍已陸續出版(Leighton & Girel, 2007; Nichols, Chipman, & Brennan, 1995; Rupp, et al., 2010; Tatsuoka, 2009)，也正說明了此新領域的蓬勃成長。綜上所述，隨著時代的演進，教育的焦點更加關注於個體的學習，能夠提供個體的認知歷程與知識結構的 CDA 也應運而生。. 貳、認知診斷模型 (Cognitively diagnostic model) 關於 CDA 的實施，Nichols (1994) 提出了設計的五個步驟，包含實質理論的建構、設計的選擇、測驗管理、反應計分與設計修正，如表 2-6 所示。. 表 2-6 步驟一. 步驟二. 步驟三. 發展以心理學為導向的認知診斷測驗之五個編製步驟實質理論的建構實質理論所關注的是，一方面發展描述個體成就表現涉及的知識與技能的模式或理論，一方面也發展能描述上述知識與技能的試題。設計的選擇在這個步驟，測驗的編製者必須選擇觀測(observation)與測量設計，而選擇的標準必須以步驟一的實質理論為基礎，且所建構的試題必須能預測受試者做答所使用的，以及已經藉由理論判別出的特定知識、技能與其他特徵。建構測量的程序即為讓測量設計操作化。測驗管理測驗管理包括測驗內容的每個部分：試題的形式、反應的種類、計分的工具、施測的環境等。. 19.

(36) 表 2-6 步驟四. 步驟五. 發展以心理學為導向的認知診斷測驗之五個編製步驟（續）反應計分這個步驟的目標是根據受試者的反應組型，給予某個數值，並將其反應組型與實質理論所建構的策略或錯誤規則相聯結。設計修正設計修正是一個蒐集支持模式或理論的過程，即透過證據的蒐集，可以獲知理論是被支持或被挑戰的。在這個步驟，測驗施測的結果將用來修正實質理論的架構。. 資料來源：Nichols (1994); 修改自涂金堂（2003：69）。. DiBello、Roussos 及 Stout (2007) 也將 CDA 的實行歷程概念化為六個主要部分： 1.. 描述評量的目標。. 2.. 描述所欲診斷的潛在屬性的模型（屬性空間）。. 3.. 發展與分析評量裡的作業（例如測驗題）。. 4.. 詳述將成就表現連接至潛在屬性的心理計量模型。. 5.. 選擇估計模型與評鑑結果的統計方法。. 6.. 發展對受試者、教師與他人報導評量結果的系統。. 其中「屬性」一詞在 CDA 的相關研究中，依據脈絡的不同可以是技能、認知歷程、知識狀態與知識表徵 (de la Torre, 2009b; Lee, de la Torre, & Park, 2011)。前述提及，CDA 結合了認知科學與心理計量學。而在幾十年的發展下，心理計量學家陸續發表了至少十餘種能用於 CDA 的心理計量模型 (Rupp, et al., 2010)，亦即認知診斷模型 (Cognitively diagnostic model, CDM)，如表 2-7 所示。CDM 扮演的重要角色就位於上述 Nichols (1994) 所提的步驟四，以及 DiBello 等人(2007)主張的歷程 4 與 5。 DiBello 等人指出，心理計量模型本身為透過受試者具有之屬性與試題特徵（試題參數）而指出特定試題反應的數學函數，而在其提到的歷程 5 中，將會估計模型的試題參數與受試者母群體參數，隨後將受試者透過屬性來分類。以二元分類為例，即是會針對每位受試者估計各個屬性是否精熟。. 20.

(37) 表 2-7. 認知診斷模型分類潛在預測變數二元. 多元. 二元. 反應變數多元. RSM AHM DINA HO-DINA MS-DINA NIDA BIN MCLCM Full-MCRUM Reduced-MCRUM. BIN MCLCM Full-MCRUM Reduced-MCRUM. DINO NIDO BIN MCLCM C-RUM. BIN MCLCM C-RUM. GDM H-GDM LCDM G-DINA. GDM H-GDM LCDM G-DINA. RSM AHM BIN MCLCM Full-MCRUM Reduced-MCRUM. BIN MCLCM Full-MCRUM Reduced-MCRUM. BIN MCLCM C-RUM GDM H-GDM LCDM G-DINA. BIN MCLCM C-RUM GDM H-GDM LCDM G-DINA. 模型類型. 非補償的 1. 21. 補償的 1. 非補償的. 補償的.

(38) 表 2-7. 認知診斷模型分類（續）. 註：RSM, rule-space method; AHM, attribute hierarchy method; BIN, Bayesian inference network; DINA, deterministic inputs, noisy “and” gate; HO-DINA, higher-order DINA; MS-DINA, multistrategy DINA; G-DINA, generalized DINA; DINO, deterministic inputs, noisy “or” gate; NIDA, noisy inputs, deterministic “and” gate; NIDO, noisy inputs, deterministic “or” gate; GDM, general diagnostic model; HGDM, hierarchical GDM; MCLCM, multiple classification latent class models; RUM, reparametrized unified model/fusion model; C-RUM, compensatory RUM; NC-RUM, non-compensatory RUM; full NC-RUM, NC-RUM with continuous latent interaction term; reduced NC-RUM, NC-RUM without latent interaction term; RERUM, randon-effects RUM; LCDM, log-linear cognitive diagnosis model. 1. 「非補償的」與「補償的」兩類模型的界定將於第 30 頁詳細說明之。. 資料來源：出自 Rupp 等人(2010: 98)。. 参、DINA 模型在眾多模型中，Dibello、Roussos 與 Stout (2007)回顧並整理了能適用於二元計分試題，且大多需使用 Q 矩陣 (Tatsuoka, 1983) 的許多模型，如表 2-8 所示。其中單維度的 IRT 與 LLTM 等模型雖通常不列入 CDM 範疇，但基於突顯模型間異同或說明模型發展緣由等因素，Dibello 等人仍然將其納入文章架構中討論，包含在如表 2-8 般的相關表格中一併呈現其模型特徵。此外，在 2001 年 Junker 與 Sijtsma 賦予表中的模型 RLCM 新的名稱「DINA 模型」，以突顯該模型的重要特徵，因此 RLCM 與本研究使用的 DINA 為同一模型。 Dibello 等人(2007)在其文獻中介紹了 Q 矩陣後，提出了一個涵蓋表 2-7 中所有模型的一般化模型，再針對包含 RLCM 在內的各個模型一一詳述與比較。以下茲整理其與相關文獻的內容，依其流程介紹 Q 矩陣、一般化的模型、RLCM 模型與「DINA 模型」名稱的意義，並進一步比較 DINA 與其他模型的相關特徵，最後說明應用 DINA 模型之相關研究與工具。. 22.

(39) 表 2-8. 認知診斷模型列表. 模型縮寫. 模型名稱. 參考文獻. 1PL 2PL 3PL DINO GLTM HYBRID LLTM MCLCM-C. One-parameter logistic Two-parameter logistic Three-parameter logistic Deterministic-Input Noisy-Or General component latent trait HYBRID Linear logistic test Compensatory MCLCM (multiple classification latent class) MCLCM-D Disjunctive MCLCM MIRT-C Compensatory multidimensional IRT MIRT-NC Noncompensatory MIRT MLTM Multicomponent latent trait RLCM Restricted latent class RUM Reparameterized unified cognitive/psychometric. Rasch (1961) Birnbaum (1968) Birnbaum (1968) Templin and Henson (2006) Embretson (1985, 1997) Gitomer and Yamamoto (1991) Fischer (1983) Maris (1999) Maris (1999) Reckase and McKinley (1991) Sympson (1977) Whitely (1980), Embretson (1997) Haertel (1984, 1990) DiBello et al. (1995) Hartz (2002), Hartz and Roussos (2005). 資料來源：出自 DiBello 等人 (2007: 997)。. 一、Q 矩陣包含本研究所使用的 DINA 模型在內，Q 矩陣是許多 CDM 所需的工具，能夠指出評量的每一個題目各自所測量的屬性。以 Henson 與 Templin (2007) 所舉的數學測驗試題為例來說明，假設有三道數學試題如下： 1. 2  3  1 2. 4 / 2 3. (4  2)  3 其中正確解答每個題目各自所需的四則運算不盡相同，其 Q 矩陣可以表示如表 2-9：. 23.

(40) 表 2-9. 試題 Q 矩陣示例. 2  3 1 4/2 (4  2)  3. 加. 減. 乘. 除. 1 0. 1 0. 0 0. 0 1. 1. 0. 1. 0. 資料來源：出自 Henson & Templin (2007: 4). Q 矩陣的列為題目，行則為屬性，而第 i 行、第 j 行的值則指出了正確解答第 i 題是否需要第 j 個屬性。以表 2-9 而言，1 代表需要，0 則代表不需要，例如試題「 2  3  1 」所需的屬性為加法與減法。需注意的是，依據研究者的需要，Q 矩陣的元也可採用多元計分來表達題目與所測量的屬性間的關係(de la Torre, 2009a)。. 二、部分 CDM 的一般化模型 DiBello 等人 (2007)發展的一般化模型係放寬決定性認知診斷模型 (deterministic cognitive diagnostic model) 的部份假設而來。根據 DiBello 等人的說明，決定性的認知診斷模型如下所述：假設有 J 題測驗題與 K 個屬性，而 Q 為 J  K 的 Q 矩陣，且. 1 若試題j需要屬性k q jk   0 其他情形. (1). 再假設  i  ( i1 ,  i 2 , ,  iK ) 代表受試者在每個屬性各自的精熟狀態，其中. 1 若受試者i精熟屬性k 0 其他情形.  ik  . (2). 最後假設答對一個試題需精熟該題所需的全部屬性，且 1 若受試者i答對試題j X ij   0 其他情形 24. (3).

(41) 那麼一個受試者正確答對一個試題的機率便可由下列決定性模型 (deterministic model) 決定： K. P ( X ij  1  i )    ik. q jk. k 1. 1 若 i 在試題j所需的所有屬性皆為1  0 其他情形. 此決定性模型事實上還隱含關於應用屬性的假設，即若一位受試者精熟某個屬性，則此人在需要該屬性的試題上成功執行該屬性的機率為 1；反之若此人未精熟，則模型假設其成功執行的機率為 0。但實際上受試者答對試題與否會受到其他因素的影響，Dibello 等人(2007)對此列出了過去文獻曾提出的四個因素(DiBello, et al., 1995)： 1. 策略：受試者可能使用不同於 Q 矩陣中假設的解題策略。 2. 完備性：當試題需要 Q 矩陣所列以外的其他屬性時，此時的 Q 矩陣對於該題便是不完備的。 3. 正向性：即使受試者精熟某個屬性，有時仍會無法正確的執行該屬性；反之即使受試者未精熟，有時仍會正確執行該屬性。上述現象即為缺乏完美的正向性。事實上人為定義的屬性是可分割的，因此任何精熟屬性的定義都會缺乏完美的正向性。針對此這特性，有些模型採用連續型的變數來呈現屬性精熟的程度；有些雖仍以二元變數表達屬性精熟的情形，但是放寬相關的機率值，亦即允許精熟某個屬性的受試者成功執行該屬性的機率小於 1，而未精熟的受試者成功執行的機率大於 0。 4. 失誤：學生可能會犯下隨機性的錯誤。. 考慮上述因素後，Dibello 等人提出的一般化模型如下：. vj. P ( X ij  1  i )  (1- ps ) [ P( Slj  i ) P (Clj Slj , i ) P( X ij  1 Slj , Clj , i )] l 1. 25. (4).

(42) 其中 v j  試題 j 的解題策略數。. Slj  [針對試題 j 的 vi 種策略中，受試者使用了第 l 個策略]。.  i  受試者 i 的屬性精熟的向量。 Clj  [針對試題 j 的策略 l ，受試者成功執行了所有的認知成份]。 ps  隨機失誤的機率。 P( X ij  1 Slj , Clj , i ) 的意涵為具有屬性精熟的向量 i 的受試者 i 使用試題 j 的第 l 個策略，且成功在該題執行該策略所需所有屬性的情況下，還能夠執行其他所有該題必要但 Q 矩陣漏了指出的屬性之機率。. 三、RLCM 模型根據 DiBello 等人的相關說明，RLCM 的部份假設與結構可整理如下： 1. 只允許每個試題考慮一種解題策略。 2. 接受一個試題會受到多種屬性的影響。 3. 輸入模型的 Q 矩陣具完備性。 4. 受試者犯下隨機失誤的機率是 0。 5. 以二元向量表示受試者 i 的屬性精熟情形因此等同於將(4)式設定以下限制：. v j  1 ； P( Slj  i )  1 ； P ( X ij  1 Slj , Clj , i )  1 ； ps  0 ； i   i  ( i1 ,  i 2 , ,  iK ) 其中  i 與  ik 之定義承自(2)式。所以 RLCM 模型的試題反應函數架構為：. P ( X ij  1  i )  P( X ij  1  i )  P(C1 j S1 j ,  i ) 接著定義ij 如下： K. ij    ik k 1. 26. q jk. (5).

(43) 其中 q jk 的定義承(1)式。因此ij 的意義為第 i 個受試者是否精熟第 j 題試題所需的所有屬性，若有則其值為 1，無則為 0。進一步地，DiBello 等人指出 RLCM 引進了值介於 0 與 1 之間的兩個參數以處理缺乏完美的正向性的現象，其定義與意義如下：.  j  P( X ij  1 ij  1) ； rj  P( X ij  1 ij  0) 即  j 代表受試者在精熟第 j 題試題所需的所有屬性時，答對該題的機率； rj 代表受試者在未精熟第 j 題試題所需的所有屬性時，答對該題的機率。最後，RLCM 的試題反應函數為 . P ( X ij  1  i )  P(C1 j S1 j ,  i )   j ij rj. 1ij. .. (6). 亦即(6)式呈現了受試者 i 在具備二元的屬性精熟向量  i  { ik } 時，答對第 j 題試題的機率。在 1977 年，Macready 與 Dayton(1977)首先發展了較(6)式狹義的機率模型，該模型多出的假設為所有分析的試題皆測量同樣的屬性，因此模型僅用於將受試者分為精熟與未精熟所有試題測量屬性的兩類 (DiBello, et al., 2007)。十餘年後可視為該模型的推廣，允許在各試題測量不同屬性而在各試題恰含兩個分類參數  j 與 rj 的 RLCM 才由 Haertel. (1989) 所發表。. 四、DINA 模型檢視上述 RLCM 的結構，式(5)中受試者 i 的潛在反應 ij 具有以下特質： 1. 具有決定性輸入(deterministic inputs)  ik. q jk. 。. 2. 為二元函數，而只有在所有二元輸入值皆為 1 時，其函數值才為 1。因此 Junker 與 Sijtsma(2001)以“deterministic inputs”與“ ‘and’ gate”兩詞分別描述上述特徵。此外他們引入失誤(slip)參數 s j 與猜測(guess)參數 g j ，其定義如下：. 27.