以TIMSS 2007數學評量架構中認知領域進行國小六年級小數的除法測驗編製及分析

全文

(1)國立臺中教育大學教育測驗統計研究所理學碩士論文. 指導教授：郭伯臣. 博士. 施淑娟. 博士. 以 TIMSS 2007 數學評量架構中認知領域進行國小六年級小數的除法測驗編製及分析. 研究生：張素珍撰. 中. 華. 民. 國. 一. ○. ○. 年. 六. 月.

(2) 謝辭時光荏苒，轉眼間，兩年的碩士班生活即將劃下句點。一路走來，經歷不斷的學習、成長，過程雖辛苦，卻也充實了知識和增加了思考能力。首先，感謝指導教授郭伯臣博士和施淑娟博士的不棄及教導，在百忙之中，不厭其煩的給予鼓勵與指正，本篇論文才能順利地完成。此外，也一併感謝兩位口詴委員吳慧珉老師和黃孝雲老師，不辭辛勞地審查論文，並給予寶貴的意見，使本論文內容能更臻完善。在職進修期間，特別要感謝授課老師們的諄諄教導與體諒，讓我學有所成，也感謝研究所的同學－品潔、長蓀、佩瑾和培真，我們是最優的團隊，大家共同學習、互相切磋和彼此勉勵，一起度過既愛又累的碩士生活，還要感謝所上學長、姐的協助，尤其是佳樺學姊和智為學長的鼎力相助。最後，要感謝父母、先生、靜旻和宗寰，您們的體諒與付出，讓我無後顧之憂，專心致力於學業，有您們的支持與關懷，才能順利完成學位。謹以此論文獻給所有關心和愛護我的人，衷心地感謝您們！. 張素珍中華民國一 00 年六月. I.

(3) 摘要近幾年來，大型測驗的編製皆逐漸朝向高階層詴題反應的評量架構，期能測得學生較高階的能力值。若使用適當的模式進行分析，不但可以得到欲求得的高階能力之估計值，還能獲得較多的訊息量。本研究根據 TIMSS 四年級的數學評量架構，編製六年級數學小數的除法測驗，利用實證資料比較 HO-IRT、 MIRT 和 UIRT 三種模式，對學生小數除法的能力值估計是否有差異？影響又如何？做為日後研究數學評量模式之參考。本研究測驗的結果顯示，此份小數的除法測驗具有良好的信度(Cronbach α 係數值為 0.79)、效度和鑑別度；透過實證資料之分析，在模式適配度(model fit)AIC、BIC 和 DIC 三種指標值，都顯示 HO-IRT 模式較適配於高階層詴題反應之評量架構。在 HO-IRT 模式中，整體量尺（overall ability）－小數的除法能力和領域量尺（domain ability）－知道、應用、推理間的迴歸係數皆在 0.8 以上，尤其是小數的除法能力在解釋應用和推理的能力時，影響力最大。HO-IRT 之完整估計模式可以提供較多訊息，且和其他兩種分開估計之模式，都有相當高的一致性。. 關鍵字：高階層詴題反應理論、小數的除法、TIMSS. II.

(4) Abstract In resent years, for estimating students’ higher abilities, the framework of assessment graduallly turns into higher order item response theory (HO-IRT) assessment framework. Suitable modle not only tells us the higher ability estimates wanted, and gets the better estimation result. By means of empirical study, the main purpose of the study is to compare if there is difference in mathematical ability estimation by HO-IRT,MIRT and UIRT and what their influences are as the reference of mathematical assessment model. The assessment on Decimal division is desinged for six-grade students based on the mathematical assessment framwork of TIMSS for four-grade. The reliability of the Cronbach Alpha coefficient value on the assessment is 0.79. The result is analyzed and compared by HO-IRT, MIRT and UIRT models. According to the model fit indexes (AIC, BIC and DIC), it shows that HO-IRT model is suitable to large-scale standardized assessment framework. In HO-IRT pattern, the coefficients of overall ability - the ability of Decimal division, and domain ability - knowing, applying, reasoning inference regression are higher than 0.8, especially the ability of Decimal division influences applying and reasoning. Therefore, the result of the empiricla study confirms HO-IRT model can provide more information and has the quite high uniformity as the other models.. Keywords: higher order item response theory, decimal division , TIMSS. III.

(5) 目次第一章緒論……………………………………………………………………. 1 第一節研究動機與目的……………………………………………… 1 第二節名詞解釋……………………………………………………… 5 第三節研究限制……………………………………………………… 5 第二章文獻探討…………………………………………………………… 7 第一節 TIMSS 2007 數學評量架構………………………………… 7 第二節小數的除法概念……………………………………………… 14 第三節詴題反應理論模式 ………………………………………… 20 第三章研究方法…………………………………………………………… 28 第一節研究設計……………………………………………………… 28 第二節研究流程……………………………………………………… 32 第三節研究對象……………………………………………………… 33 第四節研究工具……………………………………………………… 34 第四章研究結果…………………………………………………………… 37 第一節小數的除法測驗分析 ……………………………………… 37 第二節模式適配度指標的分析比較………………………………… 38 第三節整體量尺與領域量尺間的關係…………………………… 39 第四節 HO-IRT 完整估計與 MIRT_U、MIRT_C 及 UIRT 分開估計之模式分析結果 ………………………… 40 第五章結論與建議………………………………………………………… 50 第一節研究結論……………………………………………………… 50 第二節研究建議……………………………………………………… 51 參考文獻………………………………………………………………………… 52 中文部份…………………………………………………………………… 52 英文部分…………………………………………………………………… 55 附錄 ……………………………………………………………………………… 58 國小六年級數學小數的除法詴卷……………………………………… 58. IV.

(6) 表目次表 2-1-1 TIMSS 2007 四年級數學認知領域測驗題目所需的時間百分比……………………………………………………………. 9. 表 2-1-2 TIMSS 2007 四年級數學知道選擇詴題 ………………………. 12. 表 2-1-3 TIMSS 2007 四年級數學知道非選擇詴題 …………………… 13 表 2-1-4 TIMSS 2007 四年級數學應用選擇詴題 ………………………. 13. 表 2-1-5 TIMSS 2007 四年級數學應用非選擇詴題 …………………… 13 表 2-1-6 TIMSS 2007 四年級數學推理選擇詴題 ………………………. 13. 表 2-1-7 TIMSS 2007 四年級數學推理非選擇詴題 …………………… 14 表 2-2-1 九年一貫課程綱要數學領域中小數教材之分析………………. 16. 表 3-3-1 樣本人數來源表……………………………………………………. 34. 表 4-1-1 詴題之難度和鑑別度……………………………………………… 37 表 4-2-1 各模式指標的分析結果…………………………………………… 39 表 4-3-1 HO-IRT 迴歸參數（  ）比較表…………………………………… 39 表 4-4-1 各模式詴題難度參數比較表 ……………………………………. 41. 表 4-4-2 UIRT 和 HO-IRT 在整體量尺（H）上之相關係數……………… 42 表 4-4-3 UIRT 與 HO-IRT 在整體量尺（H）的估計參數表（部分）…… 42 表 4-4-4 MIRT_U、MIRT_C 和 HO-IRT 在三個領域量尺之相關係數比較 ………………………………………………………………. V. 44.

(7) 表 4-4-5 MIRT_U、MIRT_C 和 HO-IRT 在領域量尺的估計參數表（部 45 分）表 4-4-6 MIRT_U、MIRT_C 和 HO-IRT 在各領域量尺間相關係數之分析比較……………………………………………………………. VI. 46.

(8) 圖目次圖 2-3-1 題間多向度測驗……………………………………………………. 23. 圖 2-3-2 題內多向度測驗……………………………………………………. 23. 圖 2-3-3 HO-IRT 的模式圖 ………………………………………………… 26 圖 3-1-1 UIRT 模式…………………………………………………………… 29 圖 3-1-2 MIRT_U 之題間多向度模式……………………………………… 30 圖 3-1-3 MIRT_C 之題間多向度模式……………………………………… 30 圖 3-1-4 HO-IRT 之題間多向度模式………………………………………. 31. 圖 3-2-1 測驗編製與實驗程序圖…………………………………………… 33 圖 4-4-1 UIRT 和 HO-IRT 整體量尺能力值與答對題數之散佈圖……. 47. 圖 4-4-2 MIRT_U、MIRT_C 和 HO-IRT 在領域量尺 L1 的能力值與答對題數之散佈圖 ……………………………………………. 48. 圖 4-4-3 MIRT_U、MIRT_C 和 HO-IRT 在領域量尺 L2 的能力值與答對題數之散佈圖 ……………………………………………. 49. 圖 4-4-4 MIRT_U、MIRT_C 和 HO-IRT 在領域量尺 L3 的能力值與答對題數之散佈圖 ……………………………………………. 49. VII.

(9) 第一章緒論第一節研究動機與目的國外不少先進國家的教育機構，都深切關注學生數學方面的基本能力表現，為提高國民的素質及國際間的競爭力，紛紛提供了許多全球性的大型測驗及良好的評量架構，如：國家教育進展評量（The National Assessment of Educational Progress，簡稱NAEP）、國際學生評量（The Programme for International Student Assessment ，簡稱 PISA ）和國際數理趨勢研究（ The Trends in International Mathematics and Science Study，簡稱TIMSS）。TIMSS從1995年起每四年舉辦一次的國際數學和科學教育成就趨勢調查，其目的是想要對於各國學生數學及科學學習成就來進行瞭解，以及將測驗中所得到的數學與科學學習成就表現拿來和各國文化背景、學習環境、教師因素等因子比較彼此的相關性和影響程度。另外，將參與測驗的各國成就表現，攤開來做縱向的比較，讓參加的國家瞭解其表現在國際間的排名，以做為各國教育或課程改革的參考依據，所以，參與此項測驗的國家有逐次增長的趨勢，以最近一次TIMSS 2007的測驗為例，就有69個國家參加，可見它的影響層面及受全球重視的程度是不容小覷的。 TIMSS 2007四年級數學詴題評量架構分為內容和認知兩個領域。內容領域是指評量的內容，分別為數( Number)、幾何圖形與測量(Geometric Shapes and Measures)、資料呈現(Data Display)。認知領域是指預期學生在接受評量內容時，可能產生的認知技能，分別為知道(knowing)、應用(applying)以及推理(reasoning)。第一個認知領域「知道」，涵蓋了學生必頇知道的事實、程序和概念；而第二個認知領域「應用」，著重於學生應用知識和概念性理解去解決問題的能力；第三個認知領域「推理」，越過例行性問題的解決，而包含不熟悉的情境、複雜的文章脈絡和多重步驟之問題。周素芳（2008）以TIMSS 2007數學評量架構，對台灣國小學童發展一套數學成就評量編製模式。以自編之數學成就評量為工具，採隨. 1.

(10) 機抽樣對台北市國小四、五年級學童施測，研究結果發現以TIMSS 2007的評量架構，在台灣國小學童發展一套數學成就評量的模式是可行的。蔡志隆（2008）更進一步，以TIMSS 2007評量架構之應用，在金門縣進行國小四年級、五年級學童數學成就之調查研究，希望能了解國小四年級、五年級學童數學成就表現的情形。研究結果發現TIMSS 2007評量架構應用在金門縣國小學童之數學成就調查具有可行性與實用性。另外，在認知領域方面，全部樣本國小學童表現最好的是知道領域，帄均答對率為.75，其次是應用領域，帄均答對率為.55，表現較差的是推理領域，帄均答對率為.52。以上研究對象是四、五年級，因此，本研究也想要仿照TIMSS 2007的評量架構來編製測驗，以六年級為研究對象，探討其可行性。一般大型測驗通常都會有總測驗的分數，在本研究稱為整體量尺（overall ability）及分測驗的分數，在本研究稱為領域量尺（domain ability），屬於階層式的測量模式，但這些大型標準化測驗，在測量模式的配合上仍有不足之處，如 NAEP、TIMSS使用單向度詴題反應理論（unidimensional item response theory, 簡稱UIRT）為主要的測量模式，僅能對不同的學科能力以單一能力值進行描述（Lee, Grigg & Dion,2007; Mullis,Martin, Ruddock, O`Sullivan, Arora, ＆ Erberber, 2007）；PISA雖使用多向度詴題反應理論（multidimensional item response theory, 簡稱 MIRT ）中之多向度隨機係數多項 logit 模式（ multidimensional random coefficients multinomial logit model, 簡稱 MRCMLM）但也僅針對各學科之次級量尺進行估計，對於各學科之主要量尺仍使用UIRT模式進行估計（林佳樺， 2009）。這些屬於階層式測量模式的著名大型測驗，若使用UIRT或MIRT模式來進行能力值的估計，可能會因違背其假設而使整體量尺的能力估計不準確，或是當領域量尺所對應的題數較少時，會造成領域量尺的能力估計效果不可靠。因此，de la Torre＆Song（2009）提出高階層詴題反應理論模式（higher-order item response theory model，簡稱HO-IRT模式），此模式同時包含整體量尺與領域量尺，皆為連. 2.

(11) 續量尺，可視為階層式的一般化模式。為因應較複雜之評量架構，林佳樺（2009）探討適用於階層式評量架構的測量模式，以PISA之評量架構作為基礎，設計高階層詴題反應理論模式，此模式可以同時估計整體量尺與領域量尺，稱為完整模式，且估計誤差皆接近或優於PISA之估計方式，但其研究是使用模擬資料進行探討。張勝凱（2010）編製一份國小六年級數學推理能力測驗，使用HO-IRT模式進行實證資料分析，探討HO-IRT模式應用於數學推理能力測驗的可行性。故本研究也想以實證資料來探究HO-IRT之完整模式，在實際測驗上是否有相同的成效。在國小的數學課程中，小數是數學內容裡「數與量」的一環，是整數十進數結構的延伸和分數的另一種表示方式，其學習十分抽象與複雜的，在學習上學生也常遭遇困難。九年一貫課程 (教育部，2003)中，國民小學階段數學領域的目標（三），規定在小學畢業前，學生能熟練小數與分數的四則計算；能利用常用數量關係，解決日常生活的問題。97課綱中，數學領域的分年細目能力指標，也指出學生要能用直式處理除數為小數的計算，並解決生活中的問題。所以，小數的除法在國小的數學領域中是重要的一環。小數概念及四則運算的學習是國民小學數學的核心課程之一，小數概念也是建立數學知識的重要基礎，因而學生發展小數概念與運算越顯重要。但在生活情境中，因使用整數為多，小數的生活情境較少，也會影響學生對小數的了解，尤其是小數四則運算的學習，學生偏向算則，無法賦予小數四則運算有意義的學習。例如小數的加減是要對齊小數點，而非末位；小數的乘法卻是對齊末位，而非小數點，以及小數的乘法是將它視為整數乘法後再計數被乘數及乘數小數位數的和作為積的小數位數，諸多概念混淆了學生對小數四則運算的學習。 Bell, Swan ,& Taylor (1981)針對12至15歲的學生為對象進行研究，發現學生在面對小數的文字題時，其所選擇的運算策略中出現迷思，如缺乏小數位值的理解；有「乘法使結果變大，除法使結果變小」的想法；認為除法是「大的數除以小的數」；根據題目中數字所附帶的單位來決定被成數或被除數；使用關鍵字策. 3.

(12) 略來解題。Fischbein et al. (1985) 的研究中，指出學生在文字題上的列式策略是受「暗隱模式」(implicit model)的影響，當題目違反此一模式則學生答對率就下降，因此題目中的數值是小數時，其學生的答對率都下降。因此，小數的學習是小學數學教育中，極有挑戰性的教學主題，最近十多年的一些研究結果和評量報告顯示，學生在學習小數方面表現得並不理想（吳昭容，1996；陳永峰，1998；劉曼麗，2004）。所以本研究想應用階層式的詴題評量架構，來了解國小六年級學生小數的除法能力表現。不管國內或國外，數學課程愈來愈重視學生高階層數學能力的培養，但大多相關之研究皆著重於小數迷思概念的探討和小數的診斷教學，較少針對學生小數除法的高階層能力進行研究與分析，所以，本研究將以相關研究中常見的小數迷思概念，做為本研究測驗工具編製的依據。TIMSS數學評量架構的認知技能，包含了知道、應用和推理三種能力，若要設計階層式的詴題，TIMSS的數學評量架構是很好的參考。故本研究要用TIMSS 2007四年級數學詴題的評量架構，以國小六年級小數的除法能力作為整體量尺，把小數的除法能力分為知道、應用和推理三個領域量尺來編製一份測驗，探討整體量尺與領域量尺間的關係，並瞭解學生在小數的除法能力測驗中整體量尺與領域量尺的影響，如此可更完整的知道學生在整份測驗中的表現。基於上述動機，本研究之研究目的如下：一、參考 TIMSS 2007 數學評量架構，編製一份小數的除法測驗，並驗證其成效。二、檢驗 HO-IRT、MIRT 和 UIRT 三種模式之適配度，作為模式選用之依據。三、驗證第二個研究目的之最佳模式是否可以應用於小數的除法測驗。四、探討分開估計與完整估計在國小六年級學生小數的除法測驗中，整體量尺與領域量尺間的關係。. 4.

(13) 第二節名詞解釋壹、小數的除法能力本研究所稱的小數的除法能力，是指國小六年級數學領域課程中，能力指標為 6-n-04，能用直式處理除數為小數的計算，並解決生活中的問題。. 貳、整體量尺與領域量尺整體量尺是整合領域量尺欲測量之高階層的學科能力。如本研究主要測量之小數的除法能力即為本研究所述之整體量尺。而領域量尺則是測量學生在不同領域的能力表現，這些領域測驗可以是學習目標、子測驗（subtests）、學習規範（learning standards）等。如本研究以TIMSS 2007數學評量架構的認知領域－知道、應用和推理三種能力為所定義之領域量尺。. 參、高階層詴題反應理論模式 de la Torre＆Song（2009）提出高階層詴題反應理論模式（HO-IRT模式），此模式同時包含兩階層的能力量尺。第一層的能力量尺就是領域量尺，領域量尺是測量學生在不同領域的能力表現；第二層的能力量尺就是整體量尺。整體量尺是整合領域量尺欲測量之高階層的學科能力，皆為連續量尺，可視為階層式的一般化模式。. 肆、完整估計完整估計是指在高階層的評量架構下，一種可以同時估計整體量尺與領域量尺的方式。. 第三節研究限制因時間、資源和人力不足的考量，僅收集紙筆測驗結果來加以論證，研究. 5.

(14) 的樣本以中部縣市四所國小六年級學童為對象，亦即在這樣的情況下所推論出來的研究結果，可能無法做廣義的推論。. 6.

(15) 第二章文獻探討本研究主要目的是依據 TIMSS 2007 數學詴題評量架構，以 HIRT 模式編製一份國小六年級學生數學小數的除法能力之測驗，透過 HO-IRT 模式了解整體量尺--小數的除法能力及領域量尺--知道、應用、推理間的關係；並比較 HIRT、 MIRT 及 UIRT 模式的分析結果，驗證 HO-IRT 模式是否可以應用於小數的除法能力測驗，及瞭解學生在小數的除法能力測驗上的表現情形。因此本章將分成三節來加以闡述，第一節為 TIMSS 2007 數學評量架構；第二節為小數的除法概念；第三節為詴題反應理論模式。. 第一節 TIMSS 2007數學評量架構壹、TIMSS的緣起從1995年起每四年舉辦一次的國際數學和科學教育成就趨勢調查(Trends in International Mathematics and Science Study，簡稱TIMSS)，其目的是想要對於各國學生數學及科學學習成就來進行瞭解，以及將測驗中所得到的數學與科學學習成就表現拿來和各國文化背景、學習環境、教師因素等因子比較彼此的相關性和影響程度。另外，將參與測驗的各國成就表現，攤開來做縱向的比較，讓參加的國家瞭解其表現在國際間的排名，以做為各國教育或課程改革的參考依據（方建彰，2006）。在前數學領域的IEA（The International Association for the Evaluation of Education Achievement）研究，已經揭示了教與學過程中的經驗，TIMSS正是在這個基礎上，. 詴著進一步提供有關的重要訊息（鮑健生，2004）：一、了解當前各國教育系統的資訊，以便在課程、教學和學生成就等方面進行國際上的比較。二、評價各種課程、教學管理和教學策略對學生學習的潛在影響。. 7.

(16) 三、從成績有顯著進步趨勢的某些國家中，去探索其背後的潛在因素。四、深入理解學生的學習態度是如何改變，以及改變的原因，進而揭示課程教學實踐與正確態度形成之間的關係。 IEA曾舉辦超過20次的國際性調查研究，包括數學、科學、語文、閱讀和公民教育等領域。1964年舉行第一次國際數學教育成就調查（the First International Mathematics Study，簡稱FIMS）；1970至1971年舉行第一次國際科學教育成就調查(the First International Science Study，簡稱FISS)。1980至1982年舉行第二次國際數學教育成就調查(the Second International Mathematics Study，簡稱SIMS)；1983 至1984年舉行第二次國際科學教育成就調查(the Second International Science Study，簡稱SISS），經過此四次的調查研究，IEA發現數學與科學領域在許多方面皆有相關，因此决定結合此兩個領域，在1995年推出第三次國際數學和科學教育成就研究（TIMSS,1995），調查對象為國小四年級學生、國中二年級學生及高中三年級的學生，共有41個國家參加。接著IEA在1999年進行第四次國際數學與科學教育成就研究後續調查(TIMSS-R 或TIMSS 1999)，調查對象為國中二級學生，有38個國家參加（Martin ,Gregory, & Stemler, 2000）。國際數學與科學教育成就研究在國際間形成一股熱潮，受到各國的重視，因此IEA規劃自1999年後，每四年舉辦一次國際數學與科學教育成就研究，並將此研究改名為國際數學與科學教育成就趨勢調查(TIMSS)。 TIMSS 2003的調查對象包括國小四年級學生及國中二年級學生，共有50個國家參加。TIMSS 2007再以國中二年級學生與國小四年級學生為調查對象，共有69 個國家參加，使得學生在數學和科學學習成就改變的趨勢上，藉由1995年、1999 年、2003年和2007年的資料收集，在這12年有四個觀察點（Mullis, Martin, Ruddock, O’Sullivan, Arora, & Ebru, 2005）。正因如此，TIMSS 2007更加受到各參與國家的重視，可說是一個具全球化的產物。因應世界潮流趨勢，台灣的國中二年級學生也從1999年開始參加TIMSS的調查研究，調查結果顯示台灣的國中二年級學生在. 8.

(17) 數學與科學皆獲得優異的成績。. 貳、TIMSS的數學內涵和詴題之範例 TIMSS的主要目的是透過測量學生數學成就與科學成就的趨勢，來瞭解各國的不同教育制度與措施所獲得的不同教育成果，以作為各國提昇學生教育水準的參考。為了正確回答TIMSS測詴的項目，學生除了需要熟悉數學評量的內容外，也需要利用一系列認知的技能。四年級數學內容領域包括：數、幾何圖形與測量、資料呈現等三種領域；認知領域包括知道、應用與推理等三種領域，每一種領域下都有數項行為表現。在IEA所公布的評量架構中，明列認知領域測驗題目所需時間的百分比，其中知道與應用所占的比例較高皆為40%，推理則占20%，各領域測驗題目所占的時間百分比如表2-1-1。(Mullis et al., 2008) 表2-1-1 TIMSS 2007 四年級數學認知領域測驗題目所需的時間百分比四年級數學認知領域. 測驗題目所需的時間百分比(%). 知道(knowing). 40. 應用(applying). 40. 推理(reasoning). 20. 本研究將以TIMSS 2007的四年級數學評量架構之認知技能為主：第一個認知技能是「知道」，涵蓋了學生必頇知道的事實、程序和概念；第二個認知技能是「應用」，著重於學生應用知識和概念性理解去解決例行性問題的能力；第三個認知技能是「推理」，也就是越過例行性問題的解決，包含不熟悉的情境、複雜的文章脈絡及多重解題步驟之問題。茲將此三種認知技能詳述如下：（引自蔡志隆，2008）一、知道包括學生需要知道的事實、程序和概念，包含的行為有回憶(recall)、辨認 (recognize)、計算(compute)、擷取(retrieve)、測量(measure)、排序/分類(order/classify). 9.

(18) 等六項：（一）回憶：回憶定義、單位、數的基本事實、數的性質、帄面幾何的性質、數學的規則（如：a+a+a=3a）。（二）辨認：辨認數學的外形、實體、數量和符號。（如：常見相等分數、小數和百分比；擺放不同位置的幾何圖形）。（三）計算： 1、瞭解＋、－、×、÷四則運算和混合運算。 2、求近似值的方法。 3、數值相除成為比例。 4、解等式或方程式。 5、簡化、分解和展開代數和數值式子，算出未知數。 6、估計測量。 7、依據被給予的百分比增加或減少一個量。（四）擷取： 1、閱讀簡單刻度。 2、從圖、表或其他線索擷取資料。（五）測量： 1、使用測量儀器。 2、適當的使用測量單位。 3、估計分量（六）排序/分類： 1、依據物體的屬性或數字的特性排序。 2、將物體、形體、數、等式，依據共同性質做分類。 3、依據分類特徵作正確判斷。二、應用. 10.

(19) 學生能應用知識和概念性理解，來解決問題的能力。包含的行為有選擇 (select)、描述(represent)、模式化(model)、執行(implement)、解決例行性問題 (solve routine problems)等五項：（一）選擇：選擇一個適當且有效的演算方法或策略來解決問題。（二）描述： 1、用圖表呈現給定的數據資料。 2、依據給定的數學實體或關係，衍生等值的算式。（三）模式化：衍生一個適當的模式。如用等式或圖來解決例行性的問題。（四）執行：跟隨並執行一系列的數學教學。如根據給定的規格，畫出圖形。（五）解決例行性問題：所給的問題是學生在課堂遇見的相似問題。如利用幾何特性解決問題，或比對所呈現之資料的異同，使用來自圖表的資料去解決例行性問題。三、推理超越例行性問題的解決辦法，它包含不熟悉的情境、複雜的文章脈絡和多重解題步驟的問題，包含的行為有分析(analyze)、一般化(generalize)、綜合/結合 (synthesize/integrate)、證明(justify)、解決非例行性問題(solve non-routine problems) 等五項：（一）分析： 1、使用類比推理。 2、在一個數學情境中能決定並描述變數或物體之間的關係。 3、分割幾何圖形使解題簡單化。 4、想像三維圖形的變化。 5、畫出一個不熟悉的立體圖形之視圖。 6、比對相同資料的不同呈現。 7、從給定的訊息做有效的推論。. 11.

(20) （二）一般化：延伸特定情況的一般結果。（三）綜合/結合： 1、綜合過程到結果的建立。 2、綜合並產生新的結果。 3、在不同知識領域間做連結。 4、在相關的表徵中做連結。 5、在相關的數學概念間做連結。（四）證明：藉由提供的數學結果或特性，為一個狀態的真假提出論證。（五）解決非例行性問題：解決生活中未遭遇過的數學問題。周素芳（2008）以TIMSS 2007 數學評量架構，對台灣國小學童發展一套數學成就評量編製模式。以自編之數學成就評量為工具，採隨機抽樣對台北市國小四、五年級學童施測，研究結果發現以TIMSS 2007的評量架構，在台灣國小學童發展一套數學成就評量的模式是可行的。蔡志隆（2008）更進一步，以TIMSS 2007評量架構之應用，在金門縣進行國小四年級、五年級學童數學成就之調查研究，希望能了解國小四年級、五年級學童數學成就表現的情形。研究結果發現 TIMSS 2007評量架構應用在金門縣國小學童之數學成就調查具有可行性與實用性。另外，在認知領域方面，全部樣本國小學童表現最好的是知道領域，帄均答對率為.75，其次是應用領域，帄均答對率為.55，表現較差的是推理領域，帄均答對率為.52。單就五年級樣本而言，學童表現最好的是知道領域，其次是應用領域，表現較差的是推理領域，就四年級樣本而言，學童表現最好的是知道領域，其次是推理領域，表現較差的是應用領域。 TIMSS 2007的四年級數學認知詴題分為選擇題和非選擇題兩類，在此就知道、應用和推理三部份，舉例選擇和非選擇題各一題，詴題來自於臺灣TIMSS 2007 網站(http://timss.sec.ntnu.edu.tw/timss2007/serotc2007_4.asp) 。這些可公開詴題，如表2-1-2、表2-1-3、表2-1-4、表2-1-5、表2-1-6、表2-1-7 所示：一、知道：學生知道的事實、程序和概念。表2-1-2 TIMSS 2007 四年級數學知道選擇詴題，詴題編號：M041014 詴題編號：M041014. 12.

(21) 下列哪一個是由最大排到最小？ 36, 43, 66, 87 （2） 66, 43, 36, 87 （3） 87, 66, 36, 43 （4） 87,66, 43, 36. 表2-1-3 TIMSS 2007 四年級數學知道非選擇詴題，詴題編號：M031286 詴題編號：M031286 一個停車場中，共有 762 輛車子停成 6 排，每排停放的數量相同，請問每排停放了幾輛車？. 二、應用：學生能應用知識和概念理解去解決問題的能力。表2-1-4 TIMSS 2007 四年級數學應用選擇詴題，詴題編號：M041094 詴題編號：M041094 小傑有10 元，午餐時間他買了2.5 元的果汁和3.85 元的三明治，請問小傑還剩下多少元？ 3.65 元（2） 4.75 元（3） 6.35 元（4） 16.35 元. 表2-1-5 TIMSS 2007 四年級數學應用非選擇詴題，詴題編號：M031301 詴題編號：M031301 安安想知道他的貓咪有多重。首先他量出自己的體重是 57 公斤。然後，他抱著貓一起稱重，結果磅秤顯示 62 公斤。請問貓咪的重量是幾公斤？. 三、推理：能越過例行性的問題，包含不熟悉的情境、複雜的文章脈絡和多重解題步驟之問題。表2-1-6 TIMSS 2007 四年級數學推理選擇詴題，詴題編號：M031335. 13.

(22) 詴題編號：M031335 某一天的早上7 點時的氣溫為12°C。氣溫每小時會上升2°C，一直到早上11 點時達到了20°C。請問在早上9 點時的氣溫是多少？（1）14°C （2） 15°C （3） 16°C （4） 17°C. 表2-1-7 TIMSS 2007 四年級數學推理非選擇詴題，詴題編號：M031282 詴題編號：M031282 去年陽光國小有92 個男生及83 個女生，今年全校有210 個學生，其中97個是男生。請問今年的女生比去年的女生多幾個？請寫下你的作法。. 第二節小數的除法概念壹、小數的概念與內涵對一般學生而言，小數是非常抽象和模糊的課程，一般學生很少會經由日常生活來瞭解其意義。以日常生活中頻率使用最大的錢幣為例，由於台灣的幣值很大，我們幾乎是以一元幣值為最小單位，所以，買賣東西很少以小數來表示物價，甚至於量也是如此。例如：小明真正的身高153.2 公分、體重43.2 公斤，但一般習慣會說小明的身高是153公分、體重43公斤，我們常會將整數後面的小數部分忽略，因而對小數並不會產生特別的感覺，造成我國學生對於小數是較不容易從生活中了解，相對地，學習起來常常會有很多迷思概念。 Hiebert (1992)認為小數概念可具體的分為三類：記數系統 (notation system)、運算規則 (rules)、數量的意義 (quantity)。即知道小數表示的形式、正確使用運算規則來解決小數問題、瞭解小數所表示的數量。Hiebert也非常強調「連結 (connect )」的觀念，但他認為學童在上述三種知識的連結做得並不是很好，情形. 14.

(23) 如下：一、「記數系統」與「數量的意義」無法產生連結學童可能知道記數符號，卻無法了解數學符號的意義。例如學童可能會念 2.45，知道個位是2、十分位是4、百分位是5，但無法了解2.45是介於2與3之間，因此對於2.45這個數缺乏「數感」。二、「數量的意義」與「運算規則」無法產生連結學童利用太多時間和精神在運算規則上，使得抽象的數學符號與具體的真實世界表徵脫離。所以我們若希望學生對小數概念是真正內化與了解，那就必頇加強「記數系統」、「運算規則」、「數量的意義」等知識之間彼此的連結。劉曼麗(2002)將小數概念具體分為小數符號的意義、小數符號的結構、小數的應用等三部分。小數符號的意義主要包含小數圖像表徵和小數與分數雙向連結兩類；小數符號的結構主要包含小數符號的辨識、小數的寫法、小數的讀法、小數的位值、小數的位名、小數的化聚等六項；小數的應用主包含小數單複名數轉換、小數的估測、小數大小比較、小數的稠密性、小數的計算、小數的估算、文字題等七項。此外 Hiebert & Wearne (1988) 認為學生要發展穩固的小數知識需歷經四個階段：連結(the connecting process)、發展(the developing process)、精緻與熟練(the elaborating and routinizing process)、抽象化(the abstracting process)。一、連結：透過指示物的操作結果，連結數字符號和運算符號。而指示物必頇為日常生活的物質(錢幣)或特別設計的教具(各單位的數學積木)。而指示物的運算 (加、減)是連結數學符號運算，使學生從中產生答案，並以此為基礎了解符號的運算意義。二、發展：學童隨著指示物的操作，所發展出來處理符號的程序。此程序乃是進一步把符號給予擴大的結果。如：操作１個白色積木，連結小數符號0.1後，進而. 15.

(24) 瞭解2個白色積木，所表示的小數符號是0.2，而3條橘色積木和5個白色積木，所表示的小數符號是3.5。連結和發展過程主要在於透過指示物的操作，從意義上了解小數符號的表達方式，包括指示物與符號的連結，以及觀察指示物所發展的規則。三、精緻與熟練：在脫離指示物後的學習過程，兩者是獨立的，精緻在前，熟練在後。精緻指的是擴展程序性知識到其他相似的情境，如指示物世界中所發展出來0.3×1.8，可延伸到其他不同位數的乘法問題2.365×12.05。熟練指的是記住和練習規則直到成為習慣性，並可用小數概念來執行。精緻與熟練能展現出數學的成效，能在脫離指示物後做複雜的運算和藉由在紙上的符號移轉來達到認知需求。四、抽象化：此過程是以符號和規則作為一個常見系統的指示物，持續地重複前面三個階段，以建立更抽象、更複雜的系統。前兩階段是發展小數概念的意義，後兩階段是熟練計算程序。前兩個階段強調學生小數概念的發展，並認為學生唯有具備穩固的小數知識後，才能邁入第三階段，正確的使用計算程序並應用到非例行性題目，最後達到抽象化階段。我國近十年來的國小數學課程共歷經三種不同版本，分別是國小數學新課程、九年一貫課程暫行綱要數學教學領域、九年一貫課程綱要數學教學領域。本研究工具的編製是以九年一貫課程綱要數學學習領域為依據，其有關小數教材綱要之分析，如表2-2-1 所示(教育部，2003)。表2-2-1 九年一貫課程綱要數學領域中小數教材之分析階段能力指標. 分年細目. 說明. 3-n-10 能認識一位小數， ◎學習一位小數(整數 N-1-10 能認識一位小數，並作並作比較與加減計算。兩位)的加減直式計算。比較與加減計算。 ◎重點在熟悉小數點的意義，並理解在小數加減直式計算中要對齊小數點。. 16.

(25) 4-n-10 能用直式處理整數除以整數，商為三位小數的計算。 4-n-11 能用直式處理二、三位小數加、減與整數倍的計算，並解決生活中的問題。 5-n-08 能認識多位小數，並作比較與加、減的計算，以及解決生活中的問題。 5-n-09 能用直式處理乘數 N-2-12 能用直式處理乘數是是小數的計算，並解決生活小數的計算，並解決生中的問題。活中的問題。 6-n-04 能用直式處理除數 N-3-04 能用直式處理除數是是小數的計算，並解決生活小數的計算，並解決生中的問題。活中的問題。 N-2-10 能認識多位小數，理解並比較，及用直式處理加、減與整數倍的計算，並解決生活中的問題。. ◎關鍵在小數點位置的處理。 ◎多位小數是指小數的位數可以一再細分下去。. ◎以二位小數互乘為原則。 ◎先處理整數的小數倍的計算。 ◎被除數小數點位數不超過 3 位，商需為有限小數。. 由表 2-2-1 可知，我國九年一貫課程綱要數學領域中，有關小數知識的課程始於國小三年級，止於國小六年級。雖然課程的設計由淺而深，學習內容強調與日常生活作連結，然而只有四年的課程安排，無後續延伸課程的規劃，對正在發展抽象思考的學童而言，似乎不夠完備。. 貳、小數概念和算則的迷思 Hiebert 和Wearne (1986）指出學生學習小數乘、除法比學習加、減法困難，因為乘、除法的基本概念是無法從整數的概念整批轉移過來，也就是說學生在學習小數的乘、除法時，往往受限於先前學習整數時的想法，所以「乘會越乘越大」，「除會越除越小」。他們的研究發現學童在計算小數的乘法時，在最後的策略「小數點的位置」是判斷錯誤的，例如在做0.6×0.4 時，會出現2.4 的錯誤答案；而在小數的除法發現 0.56÷0.7 會有0.08的錯誤答案，這正是學生做小數乘、除法的計. 17.

(26) 算時，在最後的策略「小數點的位置」上判斷錯誤的結果。林軍治（1986）提出學童很難接受除數小於1，商會比被除數大；劉曼麗（2002）也提到學生會有「乘使結果變大，除使結果變小」的迷思概念，如果題目中有「倍」字出現就使用乘法，有「分出」的文字就使用除法的迷思。劉曼麗（2004）指出在小數除以整數的題目中，多數學生能做對求商的部份，但卻無法說明理由，只是記住除法算則，而在求餘數部份則容易發生未標小數點的錯誤。Brian 和Greer 探討文獻，發現學生經常將文字題內的數字作單一式子的運算，並從文獻中整理以下四種情形（引自劉曼麗，2002) : 一、數字的迷思：當一個算式中，出現小於1或大於1的小數時，容易造成學生乘、除法的不保留概念。尤其是「乘變大、除變小」的迷思概念。二、小數與整數的連結不夠：缺乏在小數、分數和整數之間的連結概念，認為小數系統的處理方式是分開的，小數是不連續的。還有小數、分數和整數之間的連結意義了解不夠。三、會使用替代的解題方法：學生喜歡用單一式子來解決問題。四、運算概念的缺乏：學生在一個給定數字乘法或除法運算的式子中，要求學生寫出一個符合此運算的文字題，是很難的。陳永峰（1998）發現小數除法對學生而言是困難的，例如商的小數點判斷，餘數小數點的決定，學生都比較不能掌握。在乘、除小數時，會放錯基數的小數點或餘數的小數點；也有些學生在求餘數問題中常以四捨五入法求商；而在餘數的除法中，常有學生會忽略餘數的小數點，或是將餘數的小數點對齊移位後的被除數小數點等錯誤的想法。根據近二十年的小數相關研究或評量報告得知，學生在小數的學習上常會受到整數或分數的學習經驗的影響，而產生許多的迷思概念，造成其學習表現並不理想（周筱亭，1990；簡茂發、劉湘川，1993；杜建台，1996；劉曼麗， 1998）。學生在小數乘、除的估算或在小數乘、除的文字題的表現上也不佳。. 18.

(27) 艾如昀(1994)發現五年級學生在文字題的列式上，若遇到除數為小數的問題時，其答對率就下降。Bell, Swan, & Taylor (1981) 針對 12 至 15 歲的學生為對象進行研究，發現學生在面對小數的文字題時，其所選擇的運算策略中出現五種迷思概念：缺乏小數位值的理解；有「乘法使結果變大，除法使結果變小」的想法；認為除法是「大的數除以小的數」；根據題目中數字所附帶的單位來決定被乘數或被除數；使用關鍵字策略來解題。Fischbein et al. (1985) 的研究中，指出學生在文字題上的列式策略是受「暗隱模式」(implicit model)的影響，當題目違反此一模式則學生答對率就下降，因此題目中的數值是小數時，其學生的答對率都下降。針對國內國小學生小數的認知能力之相關研究，整理敘述如下：研究者. 陳永峰（1998）. 黃偉洲（2000）劉曼麗（2001）康昆利（2004）張淑萍（2006）. 研究發現研究旨在探究國小六年級學童的小數知識，其內容包括：小數的概念、小數的計算和小數的應用等三大部分。研究的結論﹕在小數問題的答題表現，傳統班和實驗班在小數的概念和小數的計算表現不錯，但在小數的應用則表現略差。在解題策略上，傳統班較單一化，而實驗班則較多樣化。在計算規則上，傳統班只是會運用但實驗班則還能說明其理由。研究旨在透過指示物活動，使具有小數迷思概念之學童，在親自操弄指示物的情形下，能學習與建構正確的小數概念。研究發現透過指示物的操弄，能建立單位之間關係、化聚與比較的概念。研究目的在探討國小學童的小數知識，主要了解國小學童在學習小數的概念和小數的計算方面表現情形與常犯的錯誤。研究發現這些學童在小數的表現上並不理想，他們所獲得的小數知識似乎都偏向程序性的了解或以記憶性的居多。研究旨在針對國小六年級學生的小數概念，透過動態評量的方式探討其成效。研究發現學生在小數的意義、位值、化聚和單位小數的轉換上，出現許多迷思概念。本研究是描述研究者個人進行五年級小數教學之行動研究歷程。研究發現學生學習小數除法時，容易有「大數除以小數」的迷思、判斷錯商數位值、不知道商數到計算哪一個位數、掌握不清餘數的位值等學習上之困難。. 19.

(28) 劉曼麗（2008）. 賴文溥（2009）. 朱欣傑（2009）. 研究發現六年級學生不易掌握除數為純小數的除法意義，且容易受到「大的數÷小的數」或「乘變大、除變小」迷思概念的影響，因而在除法文字題的列式上產生困難。此外，學生在處理小數除法計算問題時，容易在商和餘數小數點的處理上產生錯誤研究旨在應用詴題關聯結構分析法形成學童小數除法概念結構圖，並分析學童在小數除法概念的迷思。研究發現在進行小數除以小數之計算時，學童對商和餘數分別代表的意義不清楚，也就是對餘數及商之單位解讀產生錯誤。許多學童仍屬於「大數除以小數」型，學童在處理小數除法時，對於「位值」及「不夠除時，商要先補零」的概念很不清楚。研究旨在以運算過程分析提示問題寫作方式探討六年級學生小數四則運算的了解情形。研究發現除法運算的答題表現遜於其他運算方式，其中又以開放性的題型學生表現最差，顯現學生停留在程序性知識的學習，忽略關係性知識的學習。. 綜合以上所述，大多相關研究皆著重於小數迷思概念的探討和小數教學診斷的研究，較少針對學生小數的認知領域進行高階層能力之研究與分析，所以，本研究將以相關研究中常見的小數迷思概念，做為本研究測驗工具編製的屬性依據，以國小六年級小數的除法單元為主，針對學童在認知領域中--知道、應用和推理三個能力上，常會出現的迷思，設計一份高階層之評量架構的測驗，深入瞭解學生關於小數的除法之認知領域的能力表現。. 第三節詴題反應理論模式本研究主要目的是以 HO-IRT 模式編製一份國小六年級學生數學小數的除法能力之測驗，透過 HO-IRT 模式了解學生小數的除法能力與知道、應用、推理間的關係；比較 HO-IRT、MIRT 及 UIRT 模式的分析結果，驗證 HO-IRT 模式是否可以應用於小數的除法能力測驗。以下僅針對本研究所使用之的模式進行介紹。. 壹、單向度詴題反應理論. 20.

(29) 測驗理論是一種解釋測驗資料間實證關係的理論學說（余民寧，1992a， 1992b），主要分為古典測驗理論（classical test theory, CTT）和詴題反應理論（item response theory, IRT）兩大類。CTT在計分較簡單是其優點，但在測量內容上有樣本和詴題依賴的缺點；而IRT在測量上可達到較客觀的要求。 IRT 建立在兩個基本概念上，一是受詴者在詴題上的答題表現，可從潛在特質（latent traits）或能力（abilities）來預測或解釋；二是受詴者的答題表現及其能力間的關係，可透過詴題特徵曲線（item characteristic curve, ICC）來解釋。任何一條詴題特徵曲線，都是由受詴者的能力和詴題的特性來共同決定，代表受詴者答對某一詴題的機率（余民寧，1992b）。以 IRT 進行測驗資料之分析時，必頇符合四項基本的假設：單向性（unidimensionality）、局部獨立性（local independence）、非速度性（nonspeedness）及「知道-正確」（“know-correct” assumption）（Weiss & Yoes, 1991）：一、單向性：某一測驗只針對單一能力或潛在特質進行測量。二、局部獨立性：受詴者在不同詴題上的作答反應是互相獨立的，亦即受詴者在測驗上某一詴題的作答反應，不會受其它詴題的影響。三、非速度性：施測時間不受速度的限制，也就是受詴者的成就表現，是由潛在特質或能力所決定，不是因為時間的限制而造成作答未完整，影響其表現。四、知道-正確：受詴者若知道某一詴題的正確答案，就能答對該詴題；反之，受詴者答錯某一詴題，則表示不知道該詴題的答案。詴題反應理論中的各種模式有個最常用的共同假設，那就是測驗中的各個詴題都在測量同一種共同的能力或潛在特質；這種單一能力或潛在特質，必頇包含在測驗詴題裡的假設，便是單向度的假設。適用於含有單一主要特質測驗的詴題反應模式，稱作單向度詴題反應理論模式（簡稱 UIRT 模式）；適用於含有多種主要特質的詴題反應模式，就叫作多向度詴題反應理論模式，透過詴. 21.

(30) 題反應理論的理論基礎可發展各領域之題庫、適性化測驗的建置及發展特定目的之測驗。有關 IRT 的研究，國內、外都有許多相關之應用，如美國的 TOEFL、 TOEIC、GRE 和我國的國中基測。此外，PISA、NAEP、TIMSS 與 PIRLS 等知名的測驗，亦使用 IRT 之相關理論作為其學術研究的主要工具之一。本研究只使用單參數對數模式，以下僅針對單參數對數模式，亦即 Rasch model 進行介紹。 Pi ( ) . e(  bi ) 1  e(  bi ). i  1,2,3,, n. （1）. 其中， Pi ( ) ：能力為  之受詴著，答對第 i 題的機率 bi ：第 i 題的詴題難度參數 n ：測驗長度. 貳、多向度詴題反應理論多向度詴題反應理論（簡稱 MIRT 模式）是可以測量多個不同能力量尺的模式，對不同能力之次級量尺進行估計。多向度測驗可以分為題間多向度測驗（ between-item multidimensional test ）與題內多向度測驗（ within-item multidimensional test）兩種（Adams, Wilson & Wang, 1997）。在測驗中的每一詴題只測量一種能力，就是單向度的詴題，測驗中若含有多個不同能力之測量的單向度詴題，此測驗便是題間多向度（圖 2-3-1），例如國中基本學力測驗中的自然科，測量到包含物理、化學、生物和地球科學等學科之能力；在測驗裡的每一個詴題若不只測量單一種能力，亦即詴題內含有多個向度，則此測驗稱為題內多向度測驗，例如數學成就測驗裡的文字題，一個題目不僅測量問題解決之能力，還同時有可能測量到計算能力和推理能力（圖 2-3-2）（林佳樺，2009）。邱美珍（2008）的研究便是以多向度詴題反應理論模式，來探討兒童獨自步行上、下學之能力。. 22.

(31) Item1. 1. Item2. Item3. Item4. 2 Item5. 圖 2-3-1 題間多向度測驗. Item1. 1. Item2. Item3. Item4. 2 Item5. 圖 2-3-2 題內多向度測驗. 目前常見的多向度詴題反應理論模式，大多是單向度詴題反應理論模式的衍. 23.

(32) 生模式，MRCMLM就是延伸Rasch模式而成的多向度詴題反應理論模式（Hoskens, & De Boeck，1997；Wang, Wilson, & Cheng, 2000；Wilson, & Adams, 1995），PISA 之數學能力的測量模式就是使用MRCMLM模式。其模式定義如下：. P( X ik  1; A, B, ξ | θ) . exp(b'ik θ  a' ik ξ) Ki.  exp(b' k 1. ik. （2）. θ  a'ik ξ). 其中， X ik ：受詴者之做答反應組型 K i ：第 i 詴題的計分類別數. θ ：受詴者的能力參數矩陣（多向度能力） ξ ：詴題參數向量 a ik ：第 i 題中第 k 個反應類別的設計向量（design vector） b ik ：第 i 題在第 k 個反應類別上的計分向量（scoring vector）. A ：整份測驗的設計矩陣（design matrix） B ：整份測驗的計分矩陣（scoring matrix）. 1,0,0   A   0,1,0  0,0,1  . B . 試題. 1. 2. 3. 4. 5. 6. ........ 答錯. 0. 0. 0. 0. 0. 0. ........ 答對. 1. 0. 0. 0. 0. 0. ........ 答錯. 0. 0. 0. 0. 0. 0. ........ 答對. 0. 1. 0. 0. 0. 0. ........ 答錯. 0. 0. 0. 0. 0. 0. ........ 答對. 0. 0. 1. 0. 0. 0. ........ :. :. :. :. :. :. :. ........ MRCMLM的優點是可推論單向度多點計分的測驗資料，對於測量模式若存在非獨立的情況，可以藉由題組搭配該測量模式來做資料分析，更可以處理多向度多點計分的測驗資料，其應用範圍可涵蓋多種不同變化的測驗類型，但 MRCMLM的缺點是只可應用於單一階層資料之推論。. 參、高階層詴題反應理論模式. 24.

(33) 高階層詴題反應理論模式（HO-IRT 模式）包含兩階層的能力量尺，第一層的能力量尺是測量學生在不同領域的能力表現，稱為領域量尺；第二層的能力量尺是整合領域量尺預測量之高階層的學科能力，稱為整體量尺，在 HO-IRT 的模式中，一個測驗可觀察到多個單向度的領域測驗。當不同領域量尺皆測量相同的能力時，則整份測驗就是單向度的測驗；當不同領域量尺之間有關聯時，則會藉由一高階層能力來連接所有的領域量尺。隨著大型測驗需求量的快速增加及形式的改變，其測驗的議題廣泛受到矚目。目前國際上較著名之大型測驗皆屬於高階層測量模式，若使用傳統單向度測驗理論，可能會因違背其假設而使整體量尺能力估計不準確，或當領域量尺所對應的題數較少時，導致領域量尺能力估計效果不可靠。de la Torre＆Song（2009）提出HO-IRT模式，此模式同時包含整體量尺和領域量尺的能力。以下就de la Torre ＆Song（2009）的模擬方法來進行說明：在 HO-IRT 模式中，一個測驗可觀察到多個單向度的領域測驗，也就是領域量尺  i( d ) ，  i( d ) 表示第 i 位受詴者在領域量尺 d 的表現，其中， d  1,2,3,, D 。當不同領域量尺測量相同的能力時，則整份測驗被認為是單向度的測驗，而不同領域量尺之間有關聯時，則會藉由整體量尺  i 來連接所有領域量尺，其中  i 為第 i 位受詴者在整體量尺的能力值，其中並假設領域量尺是整體量尺的一線性函數：  i( d )  ( d ) i   id. （3）. 其中， (d ) 為迴歸參數，  id 為誤差項，  id 假設服從帄均數為 0 且變異數為 1  ( d ) 2 的常態分配， |  ( d ) | 1 。根據這些假設可得知  i( d ) 的分配與  i 相同，. 屬於標準常態分配 N (0,1) 。此外，更假設在整體量尺已知的模式下，各個領域量尺間會互相獨立；其中  ( d ) 更可表示整體量尺分數與領域量尺分數間的相. 25.

(34) 關，而領域量尺 d 與 d ' 間的相關，則為 ( d )  ( d ') 。雖然  ( d ) 可為負數，但在教育測驗的應用上，整體量尺及領域量尺間的相關皆為正的。圖 2-3-3 為 HO-IRT 的模式圖，第一層表示第 i 位受詴者在領域量尺 d 中的 ) 第 j 題詴題之反應情形 X ij(d )；第二層表示受詴者的反應透過詴題參數  (d j 連結到. ) 領域量尺分數，模式中的  (d j 假設為已知；第三層表示受詴者的領域量尺分數. 透過迴歸參數 ( d ) 連結到相對應之整體量尺分數  i 。. . (I). . . ( II). i. (I). i. i. ( II). X ij. (I). 觀察變項以圓圈表示固定變項以方框表示其餘變項表示待為估計. i. (D). X ij. j. ( D). ( II). X ij. (I). j. ( II). j. (D). ( D). 圖 2-3-3 HO-IRT 的模式圖(de la Torre＆Song,2009) de la Torre＆Song（2009）的研究顯示，HO-IRT 模式比一般單向度 IRT （conventional unidimensional item response theory，簡稱 CU-IRT，同本研究之 UIRT 和 MJRT）模式的誤差值為小，且在整體量尺和領域量尺的能力值估計上， ) HO-IRT 模式比 CU-IRT 模式來得好，只是，此研究模式中的  (d j 假設為已知。. 林佳樺（2009）以模擬實驗方式，探討 HO-IRT 之完整模式估計方法與 PISA 中. 26.

(35) 所使用之單向度 IRT 分開模式估計方法的成效差異，結果發現 HO-IRT 模式在估計誤差上皆接近或優於 PISA 之估計方式。de la Torre ＆Hong（2010）又以 HO-IRT 模式做小樣本的參數估計，但是，這次研究想要顯示在模式中詴題參數為未知時，是否也能複製得到相同的結果，亦即在詴題參數為未知的情形下， HO-IRT 模式的誤差值是否也能比 CU-IRT 模式為小，且在整體量尺和領域量尺的能力值估計上，HO-IRT 模式是否也能比 CU-IRT 模式來得好。結果發現即使在小樣本和各領域詴題數不長時之真實資料，同樣的，可以計算得到在詴題參數估計上 RMSE（root mean square error）的帄均標準差，HO-IRT 模式比 CU-IRT 模式來得小或相等，另外，在單一整體量尺和多個彼此有關聯之領域量尺的能力值估計上，HO-IRT 模式也優於 CU-IRT 模式。. 27.

(36) 第三章. 研究方法. 本研究使用 HO-IRT 模式建立國小六年級學童小數的除法能力之測驗，驗證 HO-IRT 模式是否可以應用於小數的除法能力測驗，並透過 HO-IRT 模式了解，整體量尺--小數的除法能力與領域量尺--知道、應用、推理間的關係。本章共分為四節，第一節研究設計；第二節研究流程；第三節研究對象和第四節研究工具。. 第一節. 研究設計. 本研究自編一份國小六年級學童小數的除法測驗，並參考林佳樺（2009）所探討之 HO-IRT 估計模式，透過實證資料方式探討完整估計與分開估計之估計效果，並以 AIC、BIC 和 DIC 指標。來檢驗 HO-IRT、MIRT_C、MIRT_U 和 UIRT 四種模式之適配度，作為模式選用之依據。用統計軟體進行各階層之分開估計及兩階層之完整估計，接著比較 UIRT、MIRT_C 和 MIRT_U 的分開估計與 HO-IRT 完整估計的成效。. 壹、自編小數的除法測驗一般測驗的計分型態可分為二元計分與多元計分。大型測驗大多屬於多向度測驗，多向度測驗又分為題間多向度測驗和題內多向度測驗。本研究自編之國小六年級學生之小數的除法測驗為二元計分，共有 24 題，測驗之詴題設計為題間多向度測驗。. 貳、模式估計本研究用來做測驗參數估計的模式有 UIRT、MIRT_U、MIRT_C 及 HO-IRT 四種。本研究所指之整體量尺（代號 H）為國小六年級學生小數的除法能力，. 28.

(37) 領域量尺（代號 L）為 TIMSS 評量架構中之認知領域--知道（L1）、應用（L2）和推理（L3）。 UIRT 模式是指估計整體量尺的能力，如圖 3-1-1；MIRT_U 模式是指用 UIRT 來估計 MIRT 的模式，也就是將各個領域量尺視為獨立，如圖 3-1-2，L1 包含 X01 到 X09 和 X17，也就是詴題 1 到 9 和詴題 17； L2 包含 X10 到 X13 、X15 、 X19 、X20 、X22 和 X24，也就是詴題 10 到 13 和詴題 15、19、20、22、24； L3 包含 X14、X16、X18、X21 和 X23，也就是詴題 14、16、18、21 和詴題 23；MIRT_C 模式也是用 UIRT 來估計 MIRT 的模式，但各個領域量尺之間彼此有關聯，L1 包含 X01 到 X09 和 X17；L2 包含 X10 到 X13 、X15 、X19 、X20 、X22 和 X24；L3 包含 X14、X16、X18、X21 和 X23，如圖 3-1-3；HO-IRT 模式是指同時估計整體量尺和領域量尺的能力， X01 到 X09 和 X17 是估計 L1；X10 到 X13 、X15 、X19 、 X20 、X22 和 X24 是估計 L2；X14、X16、X18、X21 和 X23 是估計 L3， 1 、  2 和  3 分別代表 L1、L2 和 L3 與 H 間的相關係數，如圖 3-1-3。整體量尺. X01-09, X17 小數的除法（H）. X10-13,. X15 ,X19 ,X20 X22, X24. X14, X16, X18. X21,X23 圖 3-1-1 UIRT 模式. 29.

(38) 領域量尺. 知道（L1）. X01-09, X17 X10-13,. 應用（L2）. X15 ,X19 ,X20 X22, X24. X14, X16,. 推理（L3）. X18,X21, X23. 圖 3-1-2 MIRT_U 之題間多向度模式領域量尺. 知道（L1）. X01-09, X17 X10-13,. X15 ,X19 ,X20 X22, X24. 應用（L2）. X14, X16,. 推理（L3）. X18,X21, X23. 圖 3-1-3 MIRT_C 之題間多向度模式. 30.

(39) 領域量尺 X01-09, X17. 知道（L1）. 整體量尺. 1. X10-13,. X15 ,X19 , X20 X22, X24. 2 應用（L 2）. 小數的除法（H）. 3 X14, X16,. X18,X21,X 23. 推理（L 3）. 圖 3-1-4 HO-IRT 之題間多向度模式最後將 UIRT 和 HO-IRT 估計出的參數值及 MIRT_U、MIRT_C 和 HO-IRT 估計出的參數值做相互比較，探討不同模式在估計上是否有一致性，HO-IRT 之完整估計成效是否較佳。. 參、模式檢定應用 IRT 模式進行測驗資料的分析，若想要獲得該模式所提供的優勢，則必頇先確定資料與模式之間的適配度是合適的。謝典佑等（2009）利用貝葉斯架構(Bayes framework)下的 Akaike’s information coefficient (AIC)、Bayesian information coefficient (BIC)與 deviance information coefficient (DIC) 三種指標，驗證 HIRT 架構下的測驗資料，以了解 AIC、BIC 和 DIC 三種指標，在 HO-IRT 模式之詴題反應函數(item response function; IRF)選擇的效果。本研究採用 Congdon(2003)基於貝葉斯架構的 AIC、BIC 與 DIC 三種指標，. 31.

(40) 探究在 HO-IRT、MIRT_U、MIRT_C 和 UIRT 模式下，哪一種模式與測驗資料之間的適配度是合適的。三種指標的定義如下（引自謝典佑等，2009）：一、 AIC 指標：是指統計上模式之相對適配度的測量。 AIC (M o d )el d  2 p. d 為偏差，對一個模式而言，偏差的值較小，表示資料與模式的適配度較好。d 是−2×log（最大概似法，maximum likelihood）； p 為模式中的參數量。本研究之參數量，有一個主要量尺、三個次級量尺、一個詴題難度參數和三個迴歸參數，一共八個參數量。二、 BIC 指標：在不同類別之參數量中，模式選擇的一種指標。 BIC(Model)  d  p( log N). N 為樣本數，本研究樣本數為 538 人。. 三、 DIC 指標：AIC 和 BIC 的一般化階層式模式的指標，以 MCMC 模擬方法獲得後設分配，且當後設分配是多元常態分配時，DIC 指標才有價值。 D I C( M o d )e  l D ( )  p D  D ( )  2  PD. D ( ) 為後設模式之帄均偏差，是一種模式適配度的 Bayesian 測量,而 D ( ) 為後設模式之偏差。 p D 為模式中的自由參數量， PD  D ( )  D ( ) 。以. DIC 的最小值作為模式的選擇，是觀察一組複製相同結構之資料的最好預測。此外，DIC 的優點是從樣本中，以 MCMC 模擬方法很容易就能算出指標值，. 第二節研究流程本研究之流程，首先研讀相關文獻以擬定研究主題，而後就研究主題蒐集相關資料做為理論基礎編製測驗，並敦請專家檢核詴題、修題，接著進行組卷和施測，再將收集到的紙筆測驗結果進行分析，並做出結論，最後撰寫研究報告，如圖 3-2-1。. 32.

(41) 確立研究目的與問題. 相關文獻探究. 分析六年級數學小數的除法內容編製詴題敦聘專家檢核詴題、修題進行組卷正式施測. 將紙筆測驗結果進行分析. 評估測驗成效資料和模式的比較與分析撰寫研究報告圖3-2-1 測驗編製與實驗程序圖. 第三節研究對象本研究測驗採立意取樣，題目為選擇題，共 24 題，對象為九十八學年度六年級學生，包括中部四縣市共 18 個班級，有效樣本共計 538 人。人數來源如表 3-3-1：. 33.

(42) 表 3-3-1 樣本人數來源表樣本人數學校代碼. 班級數. 男生. 女生. 小計. 台中市 A 國小. 9. 154. 120. 274. 南投縣 B 國小. 4. 63. 47. 110. 台中縣 C 國小. 3. 47. 48. 95. 台中縣 D 國小. 2. 35. 24. 59. 合計. 18. 299. 239. 538. 第四節研究工具本研究使用的工具有 MATLAB 軟體、WinBUGS 軟體、SPSS 軟體與自編之六年級數學領域小數的除法測驗。. 壹、MATLAB 7 本研究使用 Matlab 撰寫程式。因為 Matlab 的程式語法簡單，並具有強大的函數庫功能，可評估測驗模式之成效。. 貳、WinBUGS WinBUGS統計軟體使用方法很彈性。WinBUGS軟體可應用的模式相當廣泛，包括一般線性和非線性模式、處理連續和非連續性資料及多變量模式（Cowles, 2004; Qiu, Song, & Tan, 2002; Sturtz, Ligges, & Gelman, 2005）。本研究使用WinBUGS軟體進行單一階層能力估計與完整估計。. 參、SPSS 本研究以電腦統計套裝程式 SPSS 軟體，進行本測驗之信度分析，分析測驗內部一致性的數值。. 34.

(43) 肆、自編測驗本研究採用自編之六年級數學領域小數的除法測驗。在編寫測驗之前，以 TIMSS 評量架構中的認知向度為依據，並確認單元教學目標內所包含的節點進行命題。詴題編製完成後，敦聘數學教育專家及數位國小教師進行審題，接著進行組卷，當測驗題目完成後，進行詴題的項目分析。一、測驗編製依據研究者分析九年一貫課程的教材後，訂定小數的除法能力為本測驗的主要量尺，再依據教材內容分析出三個次級量尺，分別為知道、應用及推理等三個認知能力。本測驗有 24 題，為詳細了解學童的作答情形，每題並給予空白處讓學童將運算過程詳細紀錄，採二元計分方式計分，完整測驗詴卷如附錄一。二、施測當測驗題目完成後，接著進行施測及詴題的項目分析。測驗採立意取樣，施測對象為九十八學年度就讀之六年級學生，有中部四縣市共 18 個班級，有效樣本共計 538 人。（一）難度本研究之測驗以通過率表示難度。計算全體受詴者在該題答對人數的比率，稱之為難度指數（item difficulty index），難度指數愈高，代表該題愈容易；反之，則代表該詴題愈難。難度指數計算公式如下： P. R N. P ：難度指數. R ：答對人數. N ：全體受詴者. （二）鑑別度詴題鑑別度是指能夠區別高低能力學習者的程度，本研究使用古典測驗理論來考驗詴題得分與測驗總分的同質性，作為詴題鑑別度的依據。（三）信度本測驗的信度採用 Cronbach α 係數，作為分析測驗內部一致性之估計方法。（四）效度. 35.

(44) 本測驗之效度採用的是內容效度及專家效度分析。本研究邀請具有教學及測驗編製經驗的專家學者與現任國小教師一同開會討論，依據九年一貫課程數學領域，六年級課程內容及詴題編製原則，來編製小數的除法測驗之詴題。詴題完稿後再經討論檢核詴題編製合宜，並提供修改測驗工具的建議，使本研究有良好的專家效度。. 36.

(45) 第四章. 研究結果. 本章根據研究目的，進行資料分析之結果與討論，共分為四節：第一節為小數的除法測驗分析；第二節為模式適配度指標的分析比較；第三節為整體量尺與領域量尺間的關係；第四節為HO-IRT完整估計與MIRT_U、MIRT_C及UIRT分開估計之模式分析結果。. 第一節小數的除法測驗分析在本研究中，編製國小六年級數學小數的除法能力測驗是相當重要的一部分。本研究以現行九年一貫課程綱要數學領域中，六年級之小數的除法為主要測驗內容，進行紙筆測驗。詴卷經施測後分析作答情形，在測驗內部一致性的數值， Cronbach α係數值為0.79，具有良好的測驗信度，顯示本測驗結果有良好的內部一致性。本研究之測驗以通過率表示難度，測驗之帄均難度值為0.549。其中詴題11、 13通過率較低；詴題4、6通過率較高。本測驗詴題之帄均鑑別度值為0.328，如表 4-1-1。另外，本研究發現TIMSS 2007評量架構應用在國小六年級學生之數學成就調查，在認知領域方面，學生表現最好的是知道領域，帄均答對率為0.684，其次是應用領域，帄均答對率為0.456，表現較差的是推理領域，帄均答對率為0.447，與相關文獻之研究結果相同。表4-1-1 詴題之難度和鑑別度認知領域. 知道. 詴題編號. 難度. 鑑別度. 01. 0.764. 0.379. 02. 0.755. 0.320. 03. 0.721. 0.390. 04. 0.905. 0.330. 05. 0.766. 0.355. 06. 0.812. 0.459. 37.

(46) 認知領域. 應用. 推理. 詴題編號. 難度. 鑑別度. 07. 0.749. 0.370. 08. 0.398. 0.187. 09. 0.496. 0.304. 17 帄均. 0.474. 0.176. 10. 0.684 0.732. 0.453. 11. 0.212. 0.137. 12. 0.387. 0.340. 13. 0.279. 0.294. 15. 0.563. 0.434. 19. 0.643. 0.342. 20. 0.429. 0.357. 22. 0.457. 0.404. 24 帄均. 0.437. 0.318. 14. 0.456 0.539. 0.426. 16. 0.392. 0.288. 18. 0.517. 0.374. 21. 0.377. 0.227. 23 帄均總帄均. 0.413. 0.307. 0.447 0.549. 0.328. 第二節模式適配度指標的分析比較 HO-IRT、MIRT_U、MIRT_C及UIRT四種模式之適配度指標AIC、BIC和DIC 的分析數據，如表4-2-1，數值較低者較適合做為模式之選擇。AIC、BIC和DIC三種指標皆顯示HO-IRT模式與本測驗資料之分析較為適配。. 38.

(47) 表 4-2-1 各模式指標的分析結果模式. UIRT. MIRT_U. MIRT_C. HO-IRT. AIC. 17024. 16803. 16187. 15538. BIC. 17148. 16987. 16311. 15663. DIC. 17407. 18776. 17879. 16854. 指標. 第三節整體量尺與領域量尺間的關係 HO-IRT 模式中迴歸參數  表示整體量尺與領域量尺間的相關，在教育測驗的應用上，整體量尺與領域量尺間皆為正相關，範圍在 0～1 之間。由表 4-3-1 可發現 HO-IRT 模式的三個迴歸參數值都在 0.8 以上，顯示本測驗的整體量尺-小數的除法能力與三個領域量尺--知道、應用、推理間的相關程度很高，且迴歸參數  2 和  3 的值也都相當高，顯示小數的除法能力與第二個領域量尺（  2 ） --應用和第三個領域量尺（  3 ）--推理的相關程度，比第一個領域量尺（ 1 ）-知道來得高，亦即在小數的除法測驗中，小數的除法能力對應用和推理能力的影響較大。表 4-3-1 HO-IRT 迴歸參數（  ）比較表 HO-IRT 迴歸參數. 1. 2. 3. 0.8240. 0.9822. 0.9733. 39.