基於DINA模式之電腦化適性動態評量-以國小四年級整數四則運算為例

(1)

國立臺中教育大學教育測驗統計研究所碩士論文

指導教授：郭伯臣博士

基於 DINA

模式之電腦化適性動態評量-以國小四年級整數四則運算為例

研究生：王曉瑜撰

中

華

民

國

一

○ 三

年

一

月

(2)

(3)

謝辭

首先非常感謝我的指導教授郭伯臣教授，以及給予我許多重要建議的口試委員：施淑娟教授與吳慧珉老師，使得這篇論文能夠順利完成。感謝郭伯臣教授，感謝您這兩年半來的辛苦，若沒有您悉心地指導論文方向、專業地給予各種指導與回饋，以及對我全力的支持，這篇論文絕對無法順利完成；學生萬分感激。感謝施淑娟教授，感謝您給我很多學習的機會，也在每週一早上的開會讓我有更多想法以及不一樣的面向思考，豐富了整篇論文的內涵。感謝吳慧珉老師，每次與您相處，總是能從您身上感受到專業教育人員的細膩且愛心的氣質，且您的課程，讓我學習到很充實的認知診斷知識，對我的論文以及我的人生，都有著莫大的幫助。接著，感謝俊華學長、育隆學長、彥鈞學長、鴻鈞學長、俊彥學長、宗恩學長、曉珊學姐，在學術研究上不厭其煩的解決我的困擾，更給予我學術上諸多的建議與照顧，以及感謝敏嫻學姐，替我處理很多我不熟悉的行政流程問題。還有測統所的所有教授們、助理人員們，感謝你們的費心！當然，一定少不了感謝測統所的同學以及學弟妹們，感謝你們陪伴我度過許多敲著鍵盤的分分秒秒，以及聚餐、出遊玩的快樂時光。還要感謝永遠支持我的家人，你們總是能無時無刻給我力量，讓我在黑暗中總能尋得光芒、在寒冷中也能感到暖洋洋。我愛你們！短短兩年半的時間，在測統所的日子，就如同一張大畫布一般畫滿喜怒哀樂、酸甜苦辣的回憶。在這些日子裡，有太多太多我生命中的貴人，給予我非常寶貴的一盞明燈！我會用一輩子珍惜這兩年來所構築的一切、一切。最後感謝所有參與了我生命的人。不管你們現在在何方，都祝福你們平安健康，謝謝你們。王曉瑜謹誌於國立臺中教育大學教育測驗統計研究所中華民國一百零三年一月

(4)

(5)

I

中文摘要

隨著時代的進步，測驗已不再看試題對與錯，更著重於了解學生所欠缺的認知概念，使每位學生都能擁有更完善的學習環境，因此認知診斷便能彌補傳統測驗之不足；對於補救教學上，教師會因人數過多，導致無法在測驗上立即給予提示或教學，因此本研究建置認知診斷能結合電腦適性化動態評量之系統，進而將測驗達到省時且省力之效果。本研究旨在建置一個「基於DINA模式之電腦化適性動態評量」系統，在不同終止條件下進行補救教學，而後探討其前後測是否有差異並比較不同終止條件是否均能省題。本研究以台中市國小五年級七個班級為研究對象，並以班級為單位分成三組實驗組，而此三組學生的測驗方式一致，其差異在於終止條件的不同，而終止條件界定是依據 Huebner (2010) 所研究之結果、本研究模擬結果以及無終止條件值，以下為本研究的分組方式：第一組無終止條件，因此學生需完成整份測驗，無法節省試題；第二組的終止條件為較高的屬性通過門檻值，在此設定下學生必須完成大部分的試題；第三組的終止條件為較低的屬性通過門檻值，在此設定下學生只須完成較少的試題。經研究分析後，將其結果摘要敘述如下：一、本研究模擬不同Q矩陣在不同終止條件下的平均屬性辨識率以及省題率，其結果是較低的屬性通過門檻值的省題率為最佳。二、本研究所建置的「基於DINA模式之電腦化適性動態評量」系統能依據學生測驗結果分析概念屬性的有無，立即給予學生提示，進而能使測驗縮短時間並使學生有效的自我學習。三、使用基於DINA模式之電腦化適性動態評量系統進行補救教學，在前後測的共變數分析上，顯示不同適性動態評量終止條件下，其教學成績

(6)

II

皆具顯著的進步，且三組間的適性補救教學成效皆無明顯差異，而在有設定終止條件的組別仍能達到節省試題、縮短施測時間之功效。

關鍵字：認知診斷、以DINA模式之電腦化適性測驗、電腦化動態評量、整數四則運算

(7)

III

Abstract

Advance of the times, test do not look correct answers and wrong answers, test more students need to understand the concept of cognitive attributes

missing, so that every student can have a better learning environment, therefore, the diagnosis of cognitive tests will be able to compensate for the lack of traditional. But in remedial teaching, teachers unable to immediately student teaching or teaching tips. So this research can combine to build

cognitive diagnostic assessment of dynamically adaptive computer system, so that Test be done to save time and labor-saving effect.

The research outline is to build a "dynamic based on computerized adaptive assessment DINA model" system, remedial teaching conditions in different termination conditions. Finally, to explore whether the differences in the pre-test and post-test and compare the results of different termination condition with or without saving test.

This research seven fifth grade class in Taichung City as research object, and the class as a unit divided into three experimental groups , this three groups of students the same test methods, the termination condition is defined based on the results Huebner (2010) research, the simulation results of this research and no termination condition values, the following is a research grouping:the first group had no termination condition, so students need to complete the entire test, unable to save items; the second set of conditions for termination by the higher threshold attribute, in this setting, students must complete most of the items;the third set of conditions for the termination of the property by the lower threshold, in this setting, students need only to complete fewer items.

The study analysis, a summary description of the results is as follows: 1.Simulation of this study attribute of different Q matrix recognition rate and the average savings rate of the number of items in different conditions of termination of his attribute by the result is a lower threshold of the number of questions was saving the best.

2. This research built"Computerized adaptive dynamic assessment model based DINA" system, based on student test results can be analyzed with or without this concept attribute, immediately give students prompts, can shorten the test time and allow students to learn effective self.

3.Use "DINA mode computerized adaptive dynamic assessment system" remedial teaching, on ANCOVA pretest and posttest the front, showing

different adaptive dynamic assessment termination conditions, its performance has a significant improvement of teaching, and these three groups of adaptive

(8)

IV

remedial teaching effectiveness are not significantly different, there are settings in the termination condition groups, items can achieve savings and shorten the time of effectiveness of Surveying.

Keywords:

Cognitive Diagnosis,DINA model in computerized adaptive testing, Computerized dynamic assessment, Integer Arithmetic

(9)

V

目錄

中文摘要...I Abstract ... III 目錄...V 表目錄...VII 圖目錄...IX 第一章緒論...1 第一節研究動機...1 第二節研究目的...3 第三節名詞釋義...4 第二章文獻探討...5 第一節整數四則運算...5 第二節電腦化動態評量...8 第三節電腦化適性測驗...13 第四節電腦化適性診斷測驗之選題法...22 第五節終止條件...25 第三章研究方法...27 第一節研究流程...27 第二節系統架構與設計...31 第三節建立選題方法...35 第四節資料分析...40 第五節研究對象...42 第六節研究工具...42 第四章研究結果...47 第一節系統建置成果...47 第二節適性動態評量補救教學成效分析...54

(10)

VI 第三節以DINA模式之PWKL選題法省題率分析...60 第五章結論與建議...61 第一節結論...61 第二節建議...62 參考文獻...63 中文部份...63 英文部份...67 附錄A：整數四則運算單元前測試題試卷...71 附錄B：整數四則運算單元動態評量試題...75 附錄C：整數四則運算單元後測試題試卷...79 附錄D：學生實際施測情形...83

(11)

VII

表目錄

表2-1 四則運算例子...6 表2-2 教育部訂定五大能力指標...7 表2-3 102年康軒四年級第二學期數學領域之教學計劃表...7 表2-4 本研究者與專業教師共同設計之概念屬性...8 表2-5 Q矩陣...15 表2-6 整數四則的認知屬性...16 表2-7 整數四則的選擇題………...……...17 表2-8 整數四則選擇題例題之Q矩陣...17 表2-9 學生的認知屬性狀態...17 表2-10 學生的認知屬性狀態...19 表2-11 試題的認知屬性狀態...19 表3-1 不同平均屬性在不同的終止條件的試題參數...36 表3-2 不同Q矩陣在不同終止條件的平均屬性辨識率與省題率...37 表3-3 猜測與粗心參數...38 表3-4 實證資料在模擬中平均屬性辨識率與省題率…...39 表3-5 資料分析方法...41 表3-6 Q矩陣...43 表3-7 信度統計量...44 表3-8 項目整體統計量...44 表4-1 成對樣本統計量表...55 表4-2 成對樣本檢定表...55 表4-3 成對樣本統計量表...56 表4-4 成對樣本檢定表...56 表4-5 成對樣本統計量表...57

(12)

VIII

表4-6 成對樣本檢定表...58

表4-7 學生前測成績組內迴歸係數同質性檢定摘要表...59

表4-8 共變數分析檢定摘要表(N=138)...60

(13)

IX

圖目錄

圖3-1 研究流程圖...30 圖3-2 適性動態評量流程設計...33 圖3-3 基於DINA模式之電腦化適性動態評量補救教學系統...35 圖4-1 以DINA為基礎之適性動態評量系統登入介面...47 圖4-2 單元管理介面...48 圖4-3 上傳題目及答案介面...49 圖4-4 編修及觀看試題介面...49 圖4-5 編修及觀看試題介面...50 圖4-6 試卷分配介面...50 圖4-7 選擇試卷介面...51 圖4-8 施測題目介面...52 圖4-9 第一層提示介面...52 圖4-10 第二層提示介面...52 圖4-11 正確解答介面...53 圖4-12 學生個別測驗結果查詢介面...53 圖4-13 診斷報告介面...54

(14)

(15)

1

第一章緒論

本研究旨在建置一個「基於DINA模式之電腦化適性動態評量」系統，並分析不同終止條件進行補救教學的前後測是否有差異且比較不同終止條件是否有其省題之效果。本章說明研究動機與目的，並對本研究所提及之相關名詞加以定義與解釋。

第一節研究動機

測驗乃是老師用來了解學生學習狀況的一種方式。然而，隨著時代的進步，測驗將不再是單純測驗對錯，而是能了解學生的能力以及他所欠缺的知識概念屬性，因此美國在 2000 年提出「把每一位學生帶上來」法案就是希望學習普遍化，不遺漏任何一位學習較落後的學生，了解學習者自身欠缺的概念屬性，爾後補救教學 (白曉珊、楊智為、郭伯臣、陳俊華，2012) 。目前估計受試者能力模式是以試題反應理論為主軸，估計學生潛在能力，但僅能了解學生能力在團體中的排序，而無法了解學生是否精熟題目之概念屬性，為了解決前者的缺失，爾後發展出認知診斷模式 (Embretson, 1990; Marshall, 1990； Mislevy, 1993; Lohman & Ippel, 1993; Snow & Lohman, 1993；余民寧，2009) 。認知診斷模式 (cognitive diagnosis models, CDMs) ，用在判斷受試者技能屬性與錯誤類型的心理計量學模式，根據受試者是否精熟試題所需之概念屬性而形成答對機率的模式 (江鴻鈞，2012) ，也就是說，認知診斷模式可用於協助教師進行個別化的診斷，也可以提供能力較佳的學生自我學習的方向與目標。

(16)

2

然而，在眾多認知診斷模式中，又以 DINA 模式 (Deterministic Inputs, Noisy“and”Gate Model) 最為簡單也最常見，DINA 模式假設受試者答對試題的機率，會受到粗心 (slip) 及猜測 (guess) 兩個參數影響，學生作答反應會受到此兩種因素所影響 (江鴻鈞，2012) 。

為了使測驗達到適性化的目的，因此選題的選題法則變為極其重要的課題。一般而言，選題法是以學生之試題反應來作為下一個試題的選擇依據；目前常見的選題法有以下幾種：Xu, Chang and Douglas (2003) 提出 KL 法，其理念是基於 Kullback-Leibler 訊息；SHE 法則是基於 Shannon Entropy；而 Cheng (2009) 提出基於 Kullback-Leibler 訊息的後驗加權 KL 法 (Posterior-weighted KL information, PWKL) 還有最後一種則是合併 KL 訊息與潛在狀態間的距離法 (Hybrid KL, HKL) 。最後，Xu, Chang and Douglas (2003) 發現 SHE 法較 KL 法為佳，不過 Cheng (2009) 則發現 PWKL 法與 HKL 法又比 SHE 法還要好，而 PWKL 法與 HKL 法則是伯仲之間，而 PWKL 法選到的試題會有較佳的認知概念屬性區辨率 (Xu, Chang, & Douglas, 2003；Cheng , 2009) ，故選 PWKL 做為選題之方法。雖然認知診斷模式能瞭解學生所欠缺或精熟概念屬性，但因學生人數太多，老師無法針對每一位學生的概念屬性瞭若指掌，因此結合電腦化之動態評量，可使學生藉由做答題目後時直接給予補救教學，節省教師課後輔導之時間，進而達到省時省力之效果。動態評量最早於1979年由Feuerstein改良自「靜態評量」開始使用。所謂動態是有兩層意義，其一是評量學生動態認知歷程與確定認知能力的變化情形，著重評量學習歷程與認知改變的情形；其二則著重評量者與學生間的互動關係，強調評量與教學結合 (Haywood & Brown,

1990) ，進而衍生為採取「測驗－提示－再測驗－再提示」方式，但傳統的動態評量施測所耗的時間較長，且需一對一的實施測驗，相當耗費人力及資源，因此將動態評量結合電腦化，使學生在作答錯誤時，可立即給予提示，並循序漸

(17)

3 進之方式引導學生，因此測驗的方式就會變為「選題－測驗－提示－再測驗－再提示－終止題示－再選題」，此方式可使學生發現錯誤的概念屬性，進而導正觀念，不僅縮短測驗時間且客觀。研究針對國小數學教材「數與計算」階段來進行探討，首先四則運算兩步驟文字題是國小第一、二階段學生在「數與計算」的學習重點，期望二年級學生能解決兩步驟問題 (加、減與乘，不含併式) ，並運用在具體情境中；三年級學生能在具體情境中，解決兩步驟問題 (加、減與除，不含併式) ；在第二階段四年級學童能熟練整數加、減、乘、除的直式計算，能在具體情境中，解決兩步驟問題，並學習併式的記法 (包括連乘、連除、乘除混合) ；五年級學生能在具體情境中，解決三步驟問題，能熟練整數四則混合計算及整數四則運算兩步驟文字題的性質，來簡化計算 (教育部，2003) 。由此得知，四年級兩步驟問題是延伸二、三年級的單步驟問題，且又連貫著五、六年級之後的三步驟問題，因此在國小學習「數與計算」中，是介在中樞的位置且佔有舉足輕重之地位，相當重要 (徐偉民、林潔慧，2010) ，因此研究是以認知診斷之 DINA 模式結合動態評量建置一個電腦化適性補救教學系統，而測驗內容則是以國小四年級整數四則運算為例。

第二節研究目的

本研究主要目的為建置一個電腦化適性補救教學系統，當中的模式是以認知診斷的 DINA 模式，藉由 PWKL 之選題法選題，再結合動態評量給予提示，達到學生學習成效進而縮短補救教學時間。因此，本研究主要目的有以下幾點：壹、結合漸進提示動態評量之電腦適性化測驗，使測驗能立即給予學生提示並縮

(18)

4 短測驗時間且依學生測驗結果的有無之概念屬性，給予學生自我學習，達到補救教學之目的。貳、探討不同認知診斷適性動態評量終止條件下，其前後測成績是否有差異。參、探討基於DINA模式之電腦化適性動態評量系統進行補救教學是否有其省題之效果。

第三節名詞解釋

壹、以DINA模式之電腦化適性測驗認知診斷模式是根據受試者是否精熟試題所需之概念屬性而形成答對機率的一種模式，本研究是使用認知診斷中的DINA (Deterministic Inputs, Noisy “and” Gate Model) 模式。此模式會依據受試者前一試題的作答反應來決定下一個要呈現給受試者作答的試題順序，因此有著「因材施測」的名稱，本研究是藉由認知診斷的電腦化適性測驗欲了解每位學生對於概念屬性的學習程度，以便教師做為補救教學之考量。貳、電腦化適性測驗之終止條件終止條件意指當學生的作答反應達到某一值ε時，即終止測驗。本研究分為三組不同之終止條件值，此終止條件是依據 Huebner (2010) 所研究之結果、本研究模擬結果以及無終止條件值。參、電腦化動態評量電腦化動態評量是指受試者在電腦上施測，若有不懂或者不理解的地方，可馬上由電腦上所給的提示知道該錯誤及不懂的地方，本研究採取的是「選題－測驗－提示－再測驗－再提示－終止題示－再選題」的方式。

(19)

5

第二章文獻探討

本研究是基於DINA模式且結合電腦化適性動態評量，探討國小五年級學童在整數四則運算的補救教學上其應用成效。故本章將針對整數四則運算、電腦化動態評量、電腦化適性測驗以及電腦化適性診斷測驗之選題法等主題加以探討。

第一節整數四則運算

「整數四則運算」在國小「數與計算」中占有中樞之位置且是四年級數學課程中較為基礎的單元之一 (徐偉民、林潔慧，2010) ，因此國小整數四則運算課程對於學生來說是一個非常重要的學習單元，當數學式子在進行併式時，其產生使用運算規約需求：剛開始會先形成由左向右算的共識，當試題難度越來越高且步驟變為繁瑣時，就會出現運順序發生混淆，於是產生用括號來區分運算順序的共識；而試題難度更加複雜，例如使用相同或不同的括號數越來越多時，為了減少括號的使用次數與種類，因此發展出先乘除後加減的方法。由此可知，學生最先得到由左至右的共識，再來運用括號區別運算順序的方式，最後為了省掉括號的使用進而產生先乘除後加減的共識 (蔣治邦、謝堅、陳竹村、林昭珍、吳淑娟，2002) 。學生在學習整數四則是必需循序漸進瞭解整數四則其規則，而後不再依賴由左而右的運算習慣，但大多數的學生在解情境題時，常出現問題的問題都在於情境列式沒有依循整數四則的規則，導致列式錯誤答案正確，諸多研究指出，學生在整數四則運算單元常出現的問題之ㄧ是「誤用運算順序的約定」 (劉

(20)

6 天民，1993；方建良，2003；吳惠貞，2006；陳國雄，2006；洪志峰，2007；沈明勳、左太政、劉嘉茹，2009；古欣怡、林碧珍，2011) ，以下表2-1將舉例說明。表2-1 四則運算例子 例題一「牛奶糖一盒5元，餅乾一盒20元，各買兩盒，共需要幾元？」錯誤列式一 5＋20×2=70 錯誤列式二 5＋20×2=50 綜合上述，學生會依情境求解，但卻列出表2-1的錯誤列式一；相同的，學生不明瞭整數四則的規則，單純在計算題解題時，也會發生錯誤，例如表2-1的錯誤列式二，也就是說，學生會直接由左而右計算，得到錯誤答案50， (康軒事業股份有限公司[康軒國小中年級數學知識+]，2009) ，對此沈明勳、左太政與劉嘉茹歸究原因，極其可能與「括號先敎」形成學生弱化先乘除後加減有關，也就是說，學生只專注括號部份要先算，卻常忽略括號前後的運算，以及先乘除後加減的規則 (劉天民，1993；古欣怡、林碧珍，2011) ，且對於整數四則運算目前課程安排的步驟不多，學生只需使用括號就可以解決大部分的問題，即便教完由左算到右及先乘除後加減，學生仍然沒使用這兩項規則來精簡括號的需求 (謝如山，2003；古欣怡、林碧珍，2011) 。括號的相關法則可分為五個階段，第零層次是認識先乘除後加減的法則，瞭解運算時必需遵守先乘除後加減，再由左而右的規則。而層次一，則是知道括號代表要先做的意義，最後則為括號相關法則，其包含結合律、分配律的應用等等 (謝如山，2003；古欣怡、林碧珍，2011) 。本研究針對上述法則與根據教育部訂定五大能力指標，分別為表2-2：

(21)

7 表2-2 教育部訂定五大能力指標 (教育部，2008) 編碼分段能力指標 N-2-03 能熟練整數加、減的直式計算。 N-2-05 能理解乘、除直式計算。 N-2-06 能在具體情境中，解決兩步驟問題 (含除法步驟)。 N-2-07 能做整數四則混合運算，理解併式，並解決生活中的問題。 A-2-02 能在具體情境中，理解乘法結合律，並運用於簡化計算。而後本研究再參考康軒文教集團其四年級團隊設計出102年四年級第二學期數學領域之教學計畫表，此教學計畫表為五大能力指標之分年細目，如表2-3：表2-3 102年康軒版本四年級第二學期數學領域之教學計畫表 (康軒文教集團，2012) 編碼分年細目 4-n-03 能在具體情境中，解決兩步驟問題，並學習併式的記法 (包括連乘、連除、乘除混合) 。 4-n-04 能作整數四則混合計算 (兩步驟) 。 4-a-01 能在具體情境中，理解乘法結合律、先乘再除與先除再乘的結果相同，也理解連除兩數相當於除以此兩數之積。最後再由本研究者與數學教師共同設計出概念屬性，如表2-4：

(22)

8 表2-4 本研究者與專業教師共同設計之概念屬性 編碼概念屬性 A01 能理解橫式計算方式是由左而右計算。 A02 能清楚括號內的算式必須先運算。 A03 能運用乘法結合律讓計算過程簡化。 A04 熟練先乘除後加減的運算規則。 A05 能理解題意，並列成一個算式。 A06 能理解連除兩數相當於除以此兩數之積。

第二節電腦化動態評量

壹、動態評量的發展歷史

此發展歷史可回溯到1920年代Dearborn、Buckingnam and Penros等學者對於傳統靜態測驗假設的批判以及智力與學習之關係的研究，就發展歷史源流 (Lidz, 1987；吳德虎，1999) ，可分為以下三大階段：一、基礎理論萌芽階段 (1927~1961) ：此時期著重於「學習能力」與「智力」兩者間的關係，經由Vygotsky提倡社會與文化的認知發展理論與學者對於傳統測驗定義的批判，因此奠定出動態評量研究的理論基礎。二、奠定研究模式階段 (1964~1987) ：此階段由於研究取向有所差異，因此諸多學者紛紛提出不同的研究模式，並針對不同的對象進行動態評量的相關實徵研究。

(23)

9 量相關文獻有系統的編輯成冊。

貳、動態評量的定義

早年傳統評量的方式是以靜態評量為主，但因傳統靜態評量較難發現學生的錯誤類型以及學習的潛能，因此Feuerstein (1979) 首次使用動態評量， Feuerstein認為動態評量不在評量以往既有的知識、經驗或者技巧，而著重於評量成長、改變以及學習預備度，因此動態評量最為重要的涵義是學習歷程或認知改變的評量。此外，透過互動歷程來增加評量者與學習者之間的互動性，進而探索、評估以及發展學習者其個體的學習潛能 (Lidz, 1991) ，簡單來說，教師藉由評量學生的潛能發展水準，以便了解學生在問題情境中能力發展的情況，進而提供決定教學方式有益的訊息 (吳德虎，1999；李淑華，1999) 。

參、動態評量的特性

動態評量又稱協助式評量，即在測驗進行當中，給予學生教學上提示、線索及協助，進而取得學生「最大可能操作水準」之訊息 (邱上真，1996) 。Lidz (1991) 認為動態評量最重要的兩大特色，其一為主動性 (activity) 意指評量者與學習者皆為主動；其二為可變性 (modifiability) 意指評量結果是有彈性空間的 (黃淑津、鄭麗玉，2004) ，因此在評量學習過程中，試圖在評量程序內同時包含教學的介入 (Haywood , Brown , & Wingenfeld, 1990) 。

綜合多位學者的觀點 (Feuerstein, 1979；Lidz, 1987；Ferretiti & Butterfield, 1992；Haywood & Wingenfield, 1992；Tzuriel, 1992；Swanson, 1996；林麗容， 1995；古明峰，1997；簡月梅，1998；莊明貞，1999；朱經明、蔡玉瑟， 2000；余其俊，2000；李坤崇，2002；何俊青，2002；楊景淵，2002a) ，總結出動態評量具有以下幾個特性：

(一) 評量的重點是在於認知、學習、思考和問題解決的歷程而非學習最後成果。

(24)

10 動態評量其目的不僅是要達到評估學生「目前」所表現的水準，且試圖了解學生是「如何」達到目前的水準，更要使學生「可能」可以達到之水準。 (二) 評量並非是同儕間的能力比較，而是更著重於學生個別學習歷程的自我確認與評量。動態評量最主要是在幫助學生自我了解學習上的困難，藉由易懂的解題策略而獲取成功經驗，進而等化學生之間不利的經驗差異。 (三)評量著重於概念化的認知歷程，並用引導之方式教學或學習。學生的認知歷程是經由動態評量所發展出的漸進系統方式，來配置試題，因此能提供有效的概念引導。 (四) 評量之過程為「測驗→教學→測驗」或至少是「教學→測驗」的程序。傳統評量大都為定點定時的評量，但此方式只能在當下看出學生學習效果，無法評量長時間學習之效果，因此評量能否考量評量時間的連續性，則變為相當重要。而動態評量目的是透過評量方式，方便了解學生學習上之困擾，適時的給予協助與指導，使學生的操作水準提高，其優點是能橫跨多個時間點，並偵測到學生在學習上之變化，因此動態評量是一種結合教學與診斷的評量。 (五) 評量是掌握有無影響或刺激個體行為和學習反應的情境與條件。教師在與學生互動時，可使用簡單回饋、指引學生在解題前與後，說出解題步驟或原則…等方式，更能有效掌握影響學生個體學習的情境及條件。 (六) 藉由評量方式，找出影響個體行為表現或有效學習的阻礙因素。評量重點是在於學生的可改變性，因此基於「能力是可塑造的」假設，且透過動態評量之方式，是可有效找出影響個體學習的因素，並改善影響學習因素的方法，進而提供發展介入方案的有效訊息。綜合以上特性，本研究較著重概念化的認知歷程，且藉由漸進提示的方式來引導學生作答，使評量有「測驗→教學→測驗」之評量歷程。

(25)

11

肆、動態評量的模式

綜合諸多學者對於動態評量的實施模式 (周天賜，1998；Sternberg & Grigorenko, 2002；李坤崇，2006) ，總結可大致分為以下六種模式： (一) 心理計量模式 (psychometric approach) 由Embretson (1987) 所提倡，此模式著重於認知的可變性，以「空間推理測驗」為訓練材料，在訓練階段採用標準化的方式介入，使學生透過具體操作來增進空間處理的技巧，採用「前測 ─訓練─後測」的方式來評估受試者的能力，目的在於適當的心理計量模式，可測量認知的改變，對學生特定能力能有較佳的估計；評量重點則是透過訓練後，希望能評估學生最大的學習能力。 (二) 漸進提示評量模式 (Graduated Promoting Assessment)

Campione與Brown在1987年提倡，主要是受Vygotsky對於個體的學習、發展及近側發展區理論有所影響。評量重點為測量學生欲達到某一特定標準時，所需要的教學提示量，藉由區辨學習潛能的差異並用來預測未來的表現；計分部分則是依提示量來計算：學生所需的提示量越多，表示其能力越低。

(三) 學習潛能評量模式或中介評量 (Learning Potential Assessment, LPAD) Feuerstein (1987) 將智力界定為個體運用先前學習經驗來適應新情境的能力，並認為個體認知缺陷主要導因是缺乏適當的中介學習經驗 (mediated

learningexperience) ，因此在施測的過程中，觀察學生對於達到精熟所需提供多少的介入才能造成認知的改變 (Feuersteinet al, 1985)。

(四) 測量極限評量 (Testing the Limits Assessment)

此模式是由Carlson & Wiedl (1979) 所提倡，其主張用人格與智力因素去解釋訓練中個體訊息處理的差異，並將「介入」直接安排在測驗的情境過程中。透過標準化評量、說明選擇原因、指導與說明、簡單回饋對錯、提供精緻回饋以及綜合上述的放聲思考和提供精緻回饋等六種施測情境的操弄方式，也就是

(26)

12

所謂的標準化介入，以此來進行研究，最後經由標準化介入與實施後測分數，以了解學生實際智力後，便能分析學生人格因素與測驗情境交互作用下，不同施測情境介入其最佳表現與介入策略的有效性。

(五) 連續評量模式 (Continuum of Assessment model)

Burns, Vye and Bransford (1987) 結合Feuerstein的學習潛能評量設計以及 Campione & Brown的漸進提示評量而形成的評量模式，其模式認為適當的中介學習經驗對認知的發展而言是相當重要的，故採取「前測─訓練─在側─訓練─後測」的程序，並主張對不同程度的學生分階段且實施不同的評量。 (六) 「測驗－訓練－測驗」 (Test－Train－Test Assessment) 模式 Budoff(1974)將智力界定為「從經驗中獲取有益的能力」，因此主張智力並非固定不變，而是本身具有可訓練性及可朔性，其著重於協助學生了解評量的需求，學生能透過訓練之方式，將訓練之內容融會貫通且吸收為自身能力，最後反映於評量結果中。

伍、電腦化動態評量

電腦化測驗有著節省時間、人力之優勢，倘若將電腦化測驗與動態評量做一個結合，這不僅能使中介程序標準化，且還能因學習者不同的測驗成果而獲得不同的中介提示，並藉由提示方式提升其學習潛能，進而有效提升學習者的學習動機。許多研究顯示，電腦化動態評量在數學領域可強化學生概念、提升學習者的思考能力，具有教學效益 (Embretson , 1987；林素微，1996；許家驊、邱上真、張新仁，2003；劉琪玲、謝哲仁，2003；陳立玲，2002；許慧禎，2002；許家驊，2008；黃珊紋，2012) 。本研究將採取電腦化之方式結合漸進提示評量模式，由於此模示可在學生作答錯誤時給立即給予學生所需要的教學提示，且此教學提示會因學生答錯的次數給予不同深度之提示，因此採結合漸進提示評量模式將能因學生之能力不

(27)

13

同而給予不同的提示。

第三節電腦化適性測驗

壹、以知識結構為基礎之電腦化適性測驗

「以知識結構為基礎之適性化測驗系統 (Knowledge Structure based Adaptive Test, KSAT)」是依據學生知識結構而設計的適性施測系統，其可由不同學生的作答情形而給予適合學生本身程度之相關試題，藉此能省去大量的試題並準確分析學生有哪些待加強的概念，且透過此系統能將學生課堂後的評量數位化及網路化提升學習效率，進而達到「因材施測」及「因材施教」之目的 (郭伯臣、謝友振、張峻豪、蔡坤穎，2005；劉清源，2010) 。以下為建置各知識結構之方法與功能如下 (劉育隆、曾筱倩、郭伯臣，2006) ： (一) 建立專家知識結構及命題專家知識結構是指經由專業且豐富教學經驗的國小教師群，編製各單元知識結構草案，再共同使用知識結構檢核表，建立較客觀的知識結構。建立完畢後，再依據此方式命題，並以電腦化適性診斷測驗之檢核表檢核試題，檢核完畢後進行組卷以利紙筆測驗之進行。 (二) 進行預試且分析所蒐集的資料並建立學生結構預試完畢後，收集考卷並將所有學生的作答反應匯入電腦，分析整份試卷的信度，以及分析每一個試題其古典測驗理論及試題反應理論的難度、鑑別度、猜測度，以提供審題、修題之參考。最後使用 OT 演算法之方式，分析出選題策略的相關矩陣，建立出適當的學生知識結構，以便系統準確出題，進而縮短施測時間。

(28)

14 (三) 建立補救教學之結構補救教學其目的在於彌補學生不足之處，因此 KSAT 是以學生知識結構為基礎再融合專家知識結構的教學流程與邏輯概念，最後發展出一套適合進行補救教學之結構，此結構能比專家認定的結構更為貼近學生實際學習後的結果，也比學生知識結構更有系統的學習，因此將這兩種結構結合在一起，則稱為補救教學結構。 (四) 將題目建置於題庫及系統將所有題目統整後建至進 KSAT 的題庫系統中，再把專家結構、學生結構、補救教學結構也匯進 KSAT 系統裡，即可開始使用 KSAT 電腦適性測驗診斷系統，KSAT 將以學生知識結構作為選題策略，找出學生的迷思概念與解題迷思。雖然以知識結構為基礎之適性測驗雖能夠排序受試者在團體中之序位，但這樣的方式並不能了解受試者是否精熟概念屬性之程度，因此 Nichols (1994) 提出將認知科學 (cognitive science) 與心裡計量學 (psychometrics) 結合的測驗診斷方法稱為認知診斷模式 (cognitive diagnosis models, CDMs) ，綜合上述論點，本研究是以認知診斷做為基礎之動態評量電腦化適性測驗，此模式在下一個章節會詳細說明。

貳、以認知診斷為基礎之電腦化適性測驗

最初是由美國在2001年落實No Child Left Behind Act教育法案，其不希望讓任一孩子落後，因此美國開始要求必須提供給學生測驗診斷結果，且此結果必須能清楚地讓教師、家長、學生瞭解學生在每一個學科中有哪些概念屬性是精熟，有哪些概念屬性是需要再加強的 (Cheng, 2009) 。因此認為認知診斷模式 (cognitive diagnosis models, CDMs) 是可以使用在判斷受試者優勢與劣勢的心理計量學模式，根據學生是否精熟試題所需之概念屬性而形成答對機率的模式 (卓

(29)

15

淑瑜，2011) 。為了達到診斷之目的，大部分的認知診斷模式都需要建立一個由學科專家定義的Q矩陣，而這Q矩陣則是試題與認知屬性的關係，也就是關聯矩陣 (incidence matrix) (Tatsuoka, 1985) ，其結構是由數值0與1所組成，表示試卷中的試題所測量的特定概念屬性，如有J個試題與K個概念屬性，則Q矩陣的大小為J × K，𝑞_𝑗_𝑘代表要解決第𝑗個試題是否需具備概念屬性𝑘，若需要則𝑞_𝑗_𝑘為1，反之則為0，其公式 (2) 定義如下： 𝑞𝑗𝑘 = { 1 第 j 題需要第 k 個認知屬性 0 其他 (2) 舉例來說，假設Q矩陣的設計為一個3 × 4的矩陣，表示如表2-5：表2-5 Q矩陣 屬性題號 A1 A2 A3 A4 第一題 0 1 0 0 第二題 1 0 1 0 第三題 1 0 0 1 此矩陣代表著，第一題需要第2個認知屬性，而第二題需要第1個與第3個認知屬性，最後的第三題則是需要第1個與第4個認知屬性。因此必需先清楚定義試題和概念屬性之間的關係推估學生具備或缺乏哪些認知屬性，進而瞭解學生的學習狀況，給予補救之教學 (de la Torre, 2008) 。編製認知診斷測驗時，首先需要確定評量的認知屬性，再將認知屬性組合成試題，每道試題至少必須包含一個認知屬性，最後，在編製過程裡，並非任意的組合成試題，還必需考量認知屬性的相似程度與難易程度，此外，認知診斷模式可以用來診斷受試者是否具備測驗所需的認知概念，其認知診斷模式是利用

(30)

16 一個潛在向量𝛂_𝑖 = (α_𝑖1, α_𝑖2, … , α_𝑖𝑘) 來表示受試者是否精熟每一個認知概念，其中α_𝑖𝑘 = 1表示第i位受試者精熟第k個認知概念，α_𝑖𝑘 = 0則表示未精熟第𝑘個認知概念，其公式 (3) 概念屬性如下 (Tatsuoka, 1985；涂金堂，2003) ： 𝑞_𝑖𝑘 = {1 受試者i精熟第 k 認知屬性 0受試者i不精熟第 k 認知屬性 (3) 以下以本研究試題及學生其整數四則之認知診斷Q矩陣為例：表2-6為整數四則的認知屬性，表2-7為測驗學生是否具備整數四則的認知屬性而設計的題目，表2-8為整數四則範例題之Q矩陣，由表2-8可知，解此題目需具備認知屬性1，最後表2-9為學生是否精熟每一個認知概念，精熟則為1，反之則為0。表 2-6 整數四則的認知屬性 認知屬性敘述 A1 能理解橫式計算方式是由左而右計算。 A2 能清楚括號內的算式必須先運算。 A3 能運用乘法結合律讓計算過程簡化。 A4 能熟練先乘除後加減的運算規則。 A5 能理解題意，並列成一個算式。 A6 能理解連除兩數相當於除以此兩數之積。

(31)

17 表2-7 整數四則的選擇題 題目一答案一 18.「糖果工廠今天生產5000顆巧克力,每10顆裝成一袋,每5袋裝成一箱,共可裝成多少箱? 」下列哪一個算式是正確的？  5000÷(10×5)  5000×10×5  5000÷(10＋5)  5000÷10×5 表2-8 整數四則選擇題例題之Q 矩陣 屬性試題 A1 A2 A3 A4 A5 A6 例題一 0 1 0 0 1 1 表2-9 學生的認知屬性狀態 屬性試題 A1 A2 A3 A4 A5 A6 學生1 0 0 0 0 0 1 學生2 0 1 0 0 1 0 學生3 0 1 0 0 0 0

而本研究是以認知診斷模式之 DINA 為基礎，而 DINA 系列又分為 DINA、 G-DINA、HO-DINA 三種模式，以下將詳細說明此三種模式。

(32)

18 一、DINA模式 DINA 模式是假設學生具備試題所需具有之認知概念屬性時，在理想狀態下就代表會答對該題，也就是𝛸𝑗＝１；反之，缺乏任一個需要的概念屬性時，則會答錯試題，也就是𝛸𝑗＝０，然而實際上答對機率是會受到粗心 (slipping) 與猜測 (guessing) 兩參數所影響，因此 DINA 模式之試題反應模式公式 (4) (5) 如下 (卓淑瑜，2011；白曉珊、楊智為、郭伯臣、陳俊華，2012；楊智為、郭伯臣、吳慧珉、江鴻鈞，2012) ： 𝛲(𝛸_𝑖𝑗= 1|𝛼,𝑠, g) = (1𝑠𝑗) 𝜂_𝑖𝑗 g_𝑗(1𝜂𝑖𝑗) ₍₄₎ 其中， 𝜂_𝑖_𝑗= ∏ 𝛼𝑞_𝑖𝑘𝑗𝑘 𝛫 𝑘=1 (5) 𝜂𝑖𝑗：表示學生i是否完全精熟試題𝑗所需具備的認知屬性，完全具備其值為 1，反之，缺少一個以上所需的認知屬性其值為0。 𝛼𝑖𝑘：表示學生𝑖是否具備認知屬性𝑘，具備該屬性其值為1，反之為0。 𝑞𝑗𝑘：表示此試題𝑗是否需要認知屬性𝑘需要該屬性其值為1，反之為0。 𝑠𝑗：表示學生完全精熟此試題所需的認知屬性卻因為粗心，而答錯此題的機率。 g𝑗：表示學生缺少一個以上試題所需的認知屬性卻因為猜測而答對此題的機率。以下為本研究之學生的認知屬性狀態表 2-10、表 2-11 為例且說明之：

(33)

19 表2-10 學生的認知屬性狀態 屬性試題 A1 A2 A3 A4 A5 A6 學生1 1 1 1 1 1 1 學生2 0 1 1 1 1 1 學生3 1 1 0 0 0 0 表2-11 試題的認知屬性狀態 屬性試題 A1 A2 A3 A4 A5 A6 學生1 1 1 1 1 1 1 假設給定試題參數𝑠1 = 0.05、g1 = 0.05，今有三名學生，其具備的認知屬性如表3-1所表示，可知學生1具備解題所需的六個認知屬性，因此其𝜂₁₁ = 1，受試者2與受試者3都缺少一個以上的認知屬性，所以其𝜂11= 𝜂11 = 0，則三位受試者的答對機率分別計算 (6) (7) (8) 如下： 𝛲(𝛸11= 1|𝛼1，𝑠1，g1) = (1𝑠1)𝜂11g1𝜂11 = (10.05)1(0.05)11= 10.05 = 0.95 (6) 𝛲(𝛸₂₁ = 1|𝛼₂，𝑠₁，g₁) = (1𝑠₁)𝜂21g1𝜂21= (10.05)0(0.05)10= 0.05 = 0.05 (7) 𝛲(𝛸31 = 1|𝛼3，𝑠1，g1) = (1𝑠1)𝜂31g1𝜂31= (10.05)0(0.05)10= 0.05 = 0.05 (8) 由此得知，在 DINA 模式下，學生倘若答對此題，但卻缺少一個以上答題所需的認知屬性時，則屬於猜測的情況。綜合上述，DINA 模式僅涉及粗心及猜測兩種參數，是一種簡單且容易了解的模式，且具有極好的模式適配度，因此目前已應用在許多測驗方面 (de la Torre

(34)

20 & Douglas, 2004) 。二、G-DINA模式 DINA模式是著重於探討將學生分成兩種群體其不同答題反應的情形，若學生缺乏某一個或多個概念屬性時，此時答對機率則皆屬猜測作答，但以DINA的分類方式下，完全不會任何概念屬性的某一學生與可能缺乏某些概念屬性的另一個學生，其答對機率將會被視為相同，且此發生機率在一般情境中較為少見，因此de la Torre (2011) 提出以DINA模式為基礎的一般化模型，稱為

(generalized deterministic inputs, noisy “and” gate, G-DINA) 模式，此模式對於學生在分類群體時，會細分為2𝑘∗ 𝑗個組別，𝑘 𝑗∗為試題所測量的最大概念屬性數，但區別試題的組別數量各不相同，因此測量其概念屬性數越多，認知狀態包含的組型就越多 (楊智為、卓淑瑜、郭伯臣、陳亭宇，2011) ，以下為G-DINA模式之公式 (9) 如下： 𝛲(𝛼𝑖𝑗∗) = 𝛿𝑗0+ ∑ 𝛿𝑗𝑘𝛼𝑖𝑘 𝑘_𝑗∗ 𝑘=1 + ∑ ∑ 𝛿_𝑗𝑘𝑘′𝛼_𝑖𝑘𝛼_𝑖𝑘′+ ⋯ + 𝛿_{𝑗12…𝑘} 𝑗 ∗∏ 𝛼_𝑖𝑘 𝑘_𝑗∗ 𝑘=1 𝑘_𝑗∗1 (9) 𝑘_𝑗∗ 𝑘′_>𝑘 其中， 𝛿𝑗0：第𝑗題試題的截距。 𝛿𝑗𝑘：對𝛼𝑘的主要影響。 𝛿𝑗𝑘𝑘′：對𝛼𝑘與𝛼𝑘′交互的影響。 𝛿𝑗12…𝑘_𝑗∗：由𝛼𝑘到𝛼𝑘′的交互影響。由上述參數得知，此參數在模式上各有不同的意義，𝛿0為答對機率的底線，簡單來說，就是此時的答對機率是不具備任何所需的概念屬性；𝛿_𝑘為影響答對機率在精熟𝛼𝑘單一概念屬性的時候；𝛿𝑘𝑘′為1階層的交互作用效果，也就是影響答對機率的同時須具備𝛼_𝑘及𝛼_𝑘′；同理可證，𝛿_𝑗_12…𝑘_𝑗∗為影響答對機率其精熟

(35)

21 全部所需的概念屬性，且影響程度比其他項次更加顯著。假設該題以測量2個概念屬性的試題其Q矩陣(1,1)為例，而學生可能有的認知狀態為{(0,0),(1,0),(0,1),(1,1)}，在DINA模式中，只分為{{(0,0),(1,0),(0,1)}及 {(1,1)}兩種群體的學生，而在G-DINA模式中，將會對上述4種認知狀態各別計算答對機率，因此學生的認知狀態若不同，則答對機率可能會有所不同 (楊智為、卓淑瑜、郭伯臣、陳亭宇，2011) 。三、HO-DINA模式 de la Torre與Douglus (2004) 為了間接觀察學生其認知狀態與能力間之關係，且減少DINA模式在估計學生認知屬性計算上的負擔，因此提出 (higher-order deterministic inputs, noisy “and” gate, HO-DINA) 模式，假設元素𝜃_𝑖條件為獨立，且在給定高階的潛在特質𝜃𝑖狀態下，其學生認知屬性分布與精熟屬性的機率公式(10)表示如下： 𝛲(𝛼_𝑖|𝜃_𝑖) = ∏ 𝛲(𝛼_𝑖𝑘 = 1|𝜃_𝑖) = 𝑘 𝑘=1 ∏ { exp[l. 7𝜆1(𝜃𝑖𝜆0𝑘)] l + exp[l. 7𝜆1(𝜃𝑖𝜆0𝑘)]} (10) 𝑘 𝑘=1 IRT的雙參數對數模式與此模式之公式極為雷同，差別在於𝜆0𝑘為認知屬性難度參數，𝜆₁為認知屬性鑑別度參數，且第k個認知屬性會因𝜆_0𝑘愈高則愈難精熟 (de la Torre & Lee, 2010) 。Leighton, Gierl and Hunka (2004) 也發現在估計學生認知屬性時，是可避免不必要的屬性組合之數，如此一來，則可合理的將階層式架構加進認知屬性中 (卓淑瑜，2011) 。

綜合上述三種模式，其中又以 DINA 模式最為簡單也最為常見，因此本研究是以 DINA 模式為基礎，而其餘的兩種可在未來做為其他研究之考量。

(36)

22

第四節電腦化適性診斷測驗之選題法

壹、基於 Kullback-Leiber 訊息之 KL 法

基於Kullback-Leiber訊息法是在計算兩種機率分布之間的距離 (Cover & Thomas, 1991)，公式 (11) 如下：

𝐷[𝑓, 𝑔] = 𝐸_𝑓[𝑙𝑜𝑔𝑓(𝑥)

𝑔(𝑥)] (11)

其中，𝑓(𝑥)及g(𝑥)為兩種機率分布。一般而言，𝑓(𝑥)為一種精準的理論分布，簡單來說，就是資料的真實分布，而g(𝑥)則為一種概似的理論分布。在統計上若𝑓(𝑥)與g(𝑥)兩者的機率分布愈大，則代表愈容易被辨識 (Henson & Douglas, 2005) 。 KL法在認知診斷電腦化適性測驗中，是在計算學生當前的估計潛在認知概念屬性組型𝛼̂與其他認知概念屬性組型𝛼_𝑐，其兩者機率分布𝑈_𝑗之間的距離和，換言之，就是計算𝑃(𝑈_𝑗 = 𝑥|𝛼̂)與𝑃(𝑈_𝑗 = 𝑥|𝛼_𝑐)兩者之間的訊息量 (Xu al, 2003) ，公式 (12) 如下： 𝛫𝐿𝑗(𝛼̂) = ∑ ∑ 𝑙𝑜𝑔 ( 𝛲(𝑈𝑗 = 𝑥|𝛼̂) 𝛲(𝑈_𝑗 = 𝑥|𝛼_𝑐)) 1 𝑥=1 2𝑘 𝑐=1 𝛲(𝑈𝑗 = 𝑥|𝛼̂) (12) 𝛼̂：為學生完成n1題試題後所估計之潛在認知概念屬性組型。 𝛼_𝑐：為所有可能的認知概念屬性組型，𝑐 = 1,2, … , 2𝑘_{，K為概念屬性數。} 𝑈𝑗：為學生在第𝑗題的作答反應，𝑈𝑗 = 1為答對，𝑈𝑗 = 0為答錯。此總和代表受試者在第𝑗題中，目前估計之潛在認知概念屬性組型𝛼̂與其他認知概念屬性組型𝛼𝑐之間的距離分布。而第𝑗題的𝛫𝐿𝑗(𝛼̂)愈大，則愈能辨別𝛼̂與其他認知概念屬性組型𝛼_𝑐，故選取𝛫𝐿𝑗(𝛼̂)值最大的試題做為選下一題的準則

(37)

23

(Tatsuoka & Ferguson, 2003；江鴻鈞，2012) 。

貳、基於 Shannon Entropy 的 SHE 法

Shannon entropy是結合機率分布與不確定性的一種測量方法，其離散機率分布P定義公式 (13) 如下： 𝐻(𝑃) = ∑𝑛_𝑖=1𝑝_𝑖𝑙𝑜𝑔_𝑏𝑝_𝑖 (13) 其中 𝛲= (p1,p2,…,pn) 且 p𝑖= Prob(𝛸 = 𝑥𝑖) 𝐻(𝑃)為凹面且非負的一種函數。當𝐻(𝑃) = 0時，則𝑃最為集中，換言之，當其中一個𝑝𝑖 = 1且其餘的𝑝𝑖 = 0時，𝑗就不等於𝑖；若𝐻(𝑃)為最大時，所有的𝑝𝑖 幾乎皆相同，也就是𝑝_𝑖 =1 𝑛，∀𝑖=1,2,…,𝑛。假設在認知診斷適性測驗中，其先驗機率的設定公式 (14) 如下： 𝑃𝑟(𝛼_𝑐) = 𝜋_0𝑐 (14) 其中 ∑ 𝜋_0𝑐 2𝑘 𝑐=1 = 1 ，𝜋_0𝑐 ≥ 0，∀_𝑐= 1,2, … , 2𝑘_，_{𝛫為屬性數}_。假設如之前所述之演算法其設定方式，目前已做𝑛1 個試題，以𝑆𝑛1表示，W 則為整個題庫，而題庫中剩餘的題目則定義為𝑅_𝑛 = 𝑊\𝑆_𝑛1，做完𝑛1題之後，其觀察的後驗分布表示公式 (15) 如下： 𝜋_𝑛−1(𝛼_𝑐) ∝ 𝜋_0𝑐∙ 𝐿(𝑢𝑛1|𝛼_𝑐) (15) 計算Shannon entropy之期望值， 𝑆𝐻𝐸𝑗(𝜋𝑛) = ∑ 𝐻 1 𝑥=0 (𝜋𝑛|𝑢𝑛1, 𝑈𝑗 = 𝑥) ∙ 𝛲(𝑈𝑗 = 𝑥)|𝑢𝑛1) 最後，從Ｒ 𝑛中挑選第𝑗題是為選擇第𝑛題之標準，其中最小為𝑆𝐻𝐸𝑗(𝜋𝑛)，憑藉

(38)

24

著𝑆𝐻𝐸法所挑選出來的試題，其能將潛在認知狀態的後驗分布之不確定性降至最小。實際上，若對數的基底為𝑏，其結果並不影響試題的選擇，它改變的只有測量Shannon entropy的單位 (COVER & Thomas, 1991；卓淑瑜，2011) 。

參、合併 Kullback-Leibler 訊息與潛在狀態間的距離法

Henson與Douglas (2005) 認為一個試題「若能區辨好相雷同的潛在認知狀態的話，這樣一來，更能將不相雷同的潛在認知狀態區辨好」。因此，Cheng (2009) 認為合併Kullback-Leibler訊息與潛在狀態間的距離法 (Hybrid KL, HKL) ，便能提供潛在認知狀態更多的權重使其更接近當前的估計值。歐式距離是一種一般化的測量距離，公式 (16) 如下： 𝑑(𝛼̂, 𝛼_𝑐) = √∑𝑘_𝑘=1(𝛼̂_𝑘𝛼_𝑐𝑘)2 (16) 再次給予加權在KL法的每一個元素中，並提供當前估計的潛在認知𝛼與其他潛在認知狀態𝛼_𝑐的距離倒數，如此一來，便能得到一個混合指標 (江鴻鈞， 2012) ，即為 (HKL)，其公式 (17) 如下： 𝐻𝛫𝐿𝑗(𝛼̂) = ∑ (∑ log ( 𝑃(𝑈𝑗 = 𝑢|𝛼̂) 𝑃(𝑈_𝑗 = 𝑢|𝛼_𝑐)) 1 𝑥=0 𝛲(𝑈𝑗 = 𝑢|𝛼̂) ∙ 𝜋𝑛1(𝛼𝑐) ∙ 1 𝑑(𝛼_𝑐, 𝛼̂)) 2𝑘 𝑐=1 (17)

肆、基於Kullback-Leibler訊息之後驗加權KL法

對於Kullback-Leiber訊息之KL法其基本假設為每一個潛在認知概念屬性組型，在所有的選題𝛼_𝑐(𝑐 = 1,2, … , 2𝑘_{)皆為一致，換言之，每個潛在認知概念屬性} 組型其存在機率為相同。但這並不符合現實情況。而後，Cheng (2009) 改良KL 法並提出基於Kullback-Leibler訊息之後驗加權KL法 (posterior-weighted KL, PWKL) ，意指將每種潛在認知概念屬性組型其後驗分布作為權重並加進在KL

(39)

25 法中，方便區辨不同的認知概念屬性組型 (江鴻鈞，2012) ，PWKL法公式 (18) 如下： 𝛲𝑊𝐾𝐿_𝑗(𝛼̂) = ∑ (∑ log (𝛲(𝑈𝑗 = 𝑢|𝛼̂) 𝛲(𝑈𝑗 = 𝑢|𝛼𝑐) ) 1 𝑥=0 𝛲(𝑈_𝑗 = 𝑢|𝛼̂) ∙ 𝜋_𝑛1(𝛼_𝑐)) 2𝑘 𝑐=1 = ∑ (∑ 𝑙𝑜𝑔 (𝑃(𝑈𝑗 = 𝑢|𝛼̂) 𝑃(𝑈_𝑗 = 𝑢|𝛼_𝑐)) 1 𝑥=0 𝑃(𝑈𝑗 = 𝑢|𝛼̂) ∙ 𝜋0(𝛼𝑐)𝐿(𝑢(𝑛1)|𝛼𝑐)) 2𝑘 𝑐=1 (18) 𝑢(𝑛1)_{：為學生完成了𝑛1題試題其作答反應。} 𝜋₀(𝛼_𝑐)：為𝛼_𝑐之先驗分布。 𝐿(𝑢(𝑛1)_|𝛼 𝑐)：為概似函數。 HKL法和PWKL法其兩者指標之間差異是在於，若其他潛在認知狀態接近𝛼̂ 且其他條件相等時，PWKL法選到的試題會有較佳的區別，因此選擇PWKL做為選題之方法。

第五節終止條件

Huebner (2010) 認為最大概似估計法 (Maximum Likelihood, ML) 是在計算學生目前的作答反應𝔦在全部的潛在認知概念屬性組型α_c的發生機率，而當潛在的後驗分佈發生機率達到0.8，也就是大於八成以上的發生機率已經相當高，故可停止測驗。潛在的後驗分佈公式 (19) 如下 (Huebner, 2010) ： P(𝛼_𝜄|𝑈_𝑖) = P(U𝑖|𝛼𝜄)P(𝛼𝜄) ∑𝐿 P(𝑈_𝑖|𝛼_𝑐)P(𝛼_𝑐) 𝑐=1 (19)

(40)

26 𝑈_𝑖：表示學生𝑖的作答反應。 α_ι：潛在認知概念屬性α_c組型可能發生的組型。 P(𝑈_𝑖|α_c)P(α_c)：表示學生𝑖的目前作答反應的發生機率。 ∑L P(𝑈_𝑖|α_c)P(α_c) c=1 ：所有可能發生潛在認知概念屬性αc組型的機率在學生目前的作答反應之連加。

(41)

27

第三章研究方法

本研究主要目的是建置以認知診斷為基礎的電腦適性化動態提示測驗補救教學系統，進而提高國小五年級學生在數學領域之學習效果。依據本研究之目的與相關文獻探討所得的結果，本章分為研究架構、系統架構與設計、建立選題方法、資料分析方法、研究對象及研究工具等六個部分來做說明。

第一節研究流程

壹、研究流程

本研究流程共分為九個步驟，以下如圖3-1所示。一、確定研究主題與單元並蒐集相關文獻確定電腦化適性測驗、認知診斷、選題策略、動態評量以及國小四年級第二學期整數四則運算之單元，再來蒐集相關文獻。二、分析學生須具備之認知概念屬性，並建立整數四則運算之單元相關認知概念屬性與 Q 矩陣，再根據 Q 矩陣編製測驗試題，設計預試試題測驗卷本研究是根據教育部訂定國小四年級數學五大能力指標以及康軒文教集團設計國小四年級數學領域教學計畫表之分年細目而編製試卷，最後再由本研究者與多位數學教師共同設計出國小四年級第二學期數學之整數四則運算單元裡的概念屬性，且依據其概念屬性編製預試測驗卷。三、進行第一次紙筆測驗預試根據步驟二之試卷進行第一次紙筆測驗預試，試題共有18題，題型為計算題，時間為一節課，預試完畢後將試卷收回並建檔以供分析。

(42)

28 四、找出錯誤率高的答案並進行第二次紙筆測驗預試將第一次紙筆測驗預試的試卷回收建檔後，分析受試者其作答情形，且找出每題錯誤率最高之答案，並將其答案製作成選擇題錯誤之選項，而後進行第二次紙筆測驗預試，試題共有18題，題型為選擇兼計算題，時間為一節課，預試完畢後將試卷收回並建檔以供分析。五、估計試題參數 (猜測、粗心機率) 並依據學生技能屬性以及題目技能屬性，編製補救教學回饋提示本研究將第二次紙筆測驗預試完畢後將 228 份學生的作答反應輸入電腦中，利用 OX 軟體分析受試者其作答情形反應，並找出預試之猜測與粗心機率且依據學生技能屬性以及題目技能屬性，編製補救教學回饋提示，使學生在測驗過程中能給予立即性之協助，進而提升學生的學習潛能。六、模擬 Q 矩陣在不同終止條件下，省題率與平均屬性辨識率本研究使用Matlab進行模擬樣本資料的產生，此樣本資料分為兩種，其一為模擬資料，也就是Q矩陣分為每題平均1.2個、1.8個、2.4個、3.6個等四種不同的屬性個數，之後再由Matlab隨機產生50筆且人數為1000人、題庫為300 題、slip與guess上下限皆為0.05~0.25之間的作答反應；其二為實徵資料，也就是52名學童為研究對象並採紙筆測驗方式進行施測，最後再分別設0.7、 0.75、0.8、0.85、0.9等五種終止條件，其目的是瞭解每題平均不同個數之屬性與不同終止條件下，其平均屬性辨識率與省題率之結果。七、建置基於DINA模式之電腦化適性動態評量系統將所有試題匯入基於 DINA 模式之電腦化適性動態評量系統的題庫中，再把以 DINA 模式之 PWKL 選題法其終止條件值為 1、0.8、0.7 也匯入系統，即可使開始使用以認知診斷為基礎之適性動態評量系統，且以此三種選題方法作為選題策略，進行適性動態評量補救教學。八、探討基於DINA模式之電腦化適性動態評量在不同終止條件下，其補救教學

(43)

29 的學習成效，以下分為三組進行分組補救： (一) 第一組「終止條件值設為1」，也就是無終止條件之狀態。 (二) 第二組「終止條件值設為0.8」，本研究依據Huebner (2010) 所研究之結果而將終止條件值設為0.8。 (三) 第三組「終止條件值設為0.7」，由本研究模擬得知，模擬後之結果其最佳終止條件值為0.7，因此將終止條件設為0.7 首先進行紙筆測驗前測，施測完畢後，三組分別為第一組、第二組、第三組，進行電腦化適性動態評量作為補救教學；動態評量補救教學後，再進行紙筆測驗後測。九、探討基於 DINA 模式之電腦化適性動態評量在不同終止條件下，其省題率之差異，最後撰寫研究報告。

(44)

30

貳、研究流程圖

本研究流程圖為如圖 3-1 所表示。 圖 3-1 研究流程圖 確定研究主題與單元蒐集「整數四則運算」單元相關能力指標之文獻分析須具備之子技能，並建立 Q 矩陣依據 Q 矩陣編製測驗試題，設計預試試題測驗卷第一次紙筆測驗預試(計算題) 找出錯誤類型前測(紙筆測驗) 建置基於 DINA 模式之電腦化適性動態評量系統第一組終止條件設為１第二組終止條件設為 0.8 後測(紙筆測驗) 撰寫研究報告第二次紙筆測驗預試(選擇題) 估計試題參數(猜測、粗心機率) 第三組終止條件設為 0.7 模擬不同 Q 矩陣在不同終止條件下，省題率與平均屬性辨識電腦化適性動態評量分組教學

(45)

31

第二節系統架構與設計

壹、系統架構

本研究參考 (李婕婷，2013) 採用主從式架構做為建置基於DINA模式之電腦化適性動態評量系統。

一、作業系統：Microsoft Windows Server XP

Microsoft Windows Server XP，目前是最普遍也最方便管理的作業系統。二、伺服器軟體：WAMP5即是Windos Apache Mysql PHP的縮寫

簡單來說就是在window作業系統上，使用PHP程式語言並結合MySQL資料庫、Apache Web網路伺服器模組等三種程式，封包成一個安裝伺服器軟體。三、後端資料庫伺服器：MySQL 5.6.12 MySQL 5.6.12為高效能的資料庫，且版本可在多種平台上使用，常用來執行程序與存放題庫、使用者資料、測驗結果等。四、網頁伺服器軟體：Apache 2.4.4 Apache 2.4.4能支援多種網頁語言且為免費軟體。五、網頁伺服器端之程式語言：PHP PHP 為互動式程式語言之一，能在多種平台上執行，且編寫容易進入門檻不高，因此使用PHP來與資料庫進行連結且發展各項模組功能程式，進而完成系統模組功能之需求。六、程式編輯軟體：PSPad PSPad一款操作容易且功能齊全的免費編輯軟體。此編輯軟體既可當作純文字文件輸入軟體又可編寫程式，其使用之彈性與便利性是頗佳的。七、語法產生器：HTML

(46)

32 使用者經由HTML登入系統，也就是透過網頁瀏覽器進入系統畫面，而此系統之使用權限也會因使用者類型不同而有所不同。

貳、電腦化適性動態評量流程

一、學生輸入帳號密碼登入系統。二、選擇版本及單元後，點選選擇完畢送出。三、系統隨機選擇題庫裡的試題作為第一題。四、當X學生試題未經提示就答對時，則依據X學生完成的n − 1題試題之作答反應進行下一題之選題，而選題是以X學生其認知概念屬性為基底，再估計不同認知概念屬性之平均鑑別指數，最後給予最接近之試題進行作答；倘若答錯，則判斷該試題是否還有回饋可提供給X學生，有則給予X學生回饋並再次作答，無則直接給予X學生完整的教學解題過程，並依據X學生完成的 n − 1題試題之作答反應進行下一題之選題。五、當X學生其估計值的標準誤差之後驗分佈達到終止條件所分別設定ε值時，即可結束測驗。其步驟如圖3-2。

(47)

33 圖3-2 適性動態評量流程設計 受試者再作答開始測驗系統隨機選擇題庫裡的試題作為第一題受試者作答是否答對有無提示完整教學 _系統提示是否答對估計值的標準誤差之後驗分佈是否為 0.7 結束測驗依據n − 1題試題之作答反應進行之選題系統選擇n − 1題試題之作答反應進行下一題題庫是否否是否是是否

(48)

34

參、系統模組設計

本研究所設計之系統模組及使用者與資料庫其關係圖是參考曾彥鈞、劉育隆、郭伯臣 (2006) 與丁境蔚 (2009) 以及李婕婷 (2013) 如以下圖 3-3 所表示，包括題庫維護模組、動態評量模組、帳號管理模組、試卷分配模組、成績查詢模組等。以下將對各模組分別進行說明。一、題庫維護模組管理者可進行題庫的新增、修改或刪除，包括建立單元、上傳選擇模式方法 (第一組、第二組、第三組) 、建立試卷及試題。二、帳號管理模組管理者在新增帳號時能一次匯入多筆使用者資料，亦或是針對個別使用者進行新增、修改或刪除之選擇，而且還可查詢資料庫中所有使用者的帳號，以便管理者做彈性修改。三、試卷分配模組本系統其試卷分配是以班級為單位，因此管理者需先選擇欲施測之班級，再選擇欲施測之試卷及選題策略，便能將試卷分配至指定之班級。四、動態評量模組學生在適性動態評量補救教學時，此系統會依據試卷分配設定之選題策略進行適性選題，並依照選題方式與學生之作答反應，給予受試者最適當的試題，最後在動態評量結束時，將學生的作答歷程一併存回資料庫中。五、成績查詢模組管理者能透過成績查詢模組，查詢所有學生的作答歷程；而學生亦可經由此模組，進行查詢個人歷來成績。

(49)

35 圖3-3 圖3-3 基於DINA模式之電腦化適性動態評量補救教學系統

第三節建立選題方法

壹、模擬資料

本研究使用Matlab進行模擬樣本資料的產生，以DINA模式之PWKL選題方法進行估計終止條件估計其屬性的平均屬性辨識率，並探討估計終止條件的準確性與穩定性。本模擬研究的Q矩陣是參考Cheng與Chang (2007) 以及Cheng (2009) 其實驗設計來產生模擬之試題題庫，其題庫之Q矩陣認知屬性概念數 A=6，與本研究之實徵屬性概念數相同，因此使用之，並設定每個試題有20%的機率測量到每個認知屬性概念，也就是說每題的平均測量到6×20%=1.2個認知概念數，此設定方式能確保每個認知屬性概念在題庫中被測量到的數量是相同的。為了更清楚瞭解各選題法在不同Q矩陣設計下之效果，故本研究根據上述設資料庫系統模組使用者題庫維護模組帳號管理模組試卷分配模組動態評量模組成績查詢模組管理學生題庫資料帳號資料試卷資料選題資料測驗成績

(50)

36 定平均認知屬性概念數為1.2個外，另加上卓淑瑜 (2011) 之實驗設計3.6個，共兩種Q矩陣設計，最後再分別設0.7、0.75、0.8、0.85、0.9等五種終止條件，是為了瞭解每題平均不同個數之屬性與不同終止條件下，其平均屬性辨識率與省題率之結果，整理如表3-1 表 3-1 不同平均屬性在不同的終止條件的試題參數 Q 矩陣每題平均屬性 1.2 1.8 2.4 3.6 題庫 300 300 300 300 人數 1000 1000 1000 1000 guess 0.05~0.25 0.05~0.25 0.05~0.25 0.05~0.25 slip 0.05~0.25 0.05~0.25 0.05~0.25 0.05~0.25 測驗題數 18 18 18 18 終止條件值 0.70 0.70 0.70 0.70 0.75 0.75 0.75 0.75 0.80 0.80 0.80 0.80 0.85 0.85 0.85 0.85 0.90 0.90 0.90 0.90 研究結果發現，在 DINA 模式下，不同 Q 矩陣在不同終止條件其平均屬性辨識率與省題率，如表 3-2：

(51)

37 表 3-2 不同 Q 矩陣在不同終止條件的平均屬性辨識率與省題率 Q 矩陣每題平均屬性終止條件值 guess=0.05~0.25 slip=0.05~0.25 ACCR 省題率 1.2 0.70 95.1% 54.9% 0.75 96.0% 49.6% 0.80 96.9% 43.8% 0.85 97.8% 37.5% 0.90 98.6% 30.7% 1.8 0.70 95.2% 52.3% 0.75 96.1% 47.7% 0.80 96.9% 42.6% 0.85 97.8% 36.9% 0.90 98.5% 30.7% 2.4 0.70 95.1% 51.7% 0.75 96.0% 47.3% 0.80 96.9% 42.3% 0.85 97.7% 36.8% 0.90 98.5% 30.8%

(52)

38 表 3-2 不同 Q 矩陣在不同終止條件的平均屬性辨識率與省題率(續) Q 矩陣每題平均屬性終止條件值 guess=0.05~0.25 slip=0.05~0.25 ACCR 省題率 3.6 0.70 95.0% 46.7% 0.75 95.9% 42.2% 0.80 96.7% 37.2% 0.85 97.5% 31.7% 0.90 98.2% 25.7%

貳、實徵資料

本研究以台中市五年級2班，共52名學童為研究的實徵對象，採紙筆測驗方式進行施測，其單元為教育部頒定國小數學教材「數與計算」中，四年級第二學期「整數四則運算」為例，而試卷題目則是由本研究者與數學教師共同命題，猜測與粗心參數皆由OX分析軟體跑出之結果如表3-3。表3-3 猜測與粗心參數 試題 g s 試題 g s Item1 0.5643 0.0001 Item10 0.0001 0.0322 Item2 0.5643 0.0001 Item11 0.6193 0.1202 Item3 0.0001 0.0273 Item12 0.5709 0.1384 Item4 0.0001 0.0182 Item13 0.4883 0.1009 Item5 0.2946 0.0026 Item14 0.2784 0.0902 Item6 0.1511 0.0787 Item15 0.5951 0.0452 Item7 0.2433 0.0822 Item16 0.1453 0.0902 Item8 0.0349 0.1302 Item17 0.0695 0.0675 Item9 0.0568 0.1020 Item18 0.1805 0.0069

(53)

39 研究結果發現，在 DINA 模式下，國小數學整數四則運算實證資料在模擬中其平均屬性辨識率與省題率，發現當終止條件值在 0.7 時，其可節省 30%之試題，因此可將此數據寫入程式，作為「基於 DINA 模式之電腦化適性動態評量補救教學系統」之終止條件，如表 3-4：表 3-4 實證資料在模擬中平均屬性辨識率與省題率 實徵資料終止條件值 ACCR 省題率 5 年級 2 個班共 52 人 0.70 97.4% 30.2% 0.75 98.1% 4.2% 0.80 98.1% 0.1% 0.85 98.1% 0.1% 0.90 97.8% 0.1%

参、評估準則

本研究使用平均屬性辨識率 (average correct classification rates, ACCR) 作為評估標準。平均屬性辨識率意指模擬產生之受試者其認知組型與經由模擬適性測驗所產生之估計受試者之概念屬性組型，其兩者之間差異多少 (江鴻鈞， 2012) ，而模擬資料與實徵資料皆用平均屬性。平均屬性辨識率 (20) 如下： (20) N：受試者總人數。 K：Q矩陣認知概念屬性數。 α_ik：受試者ｉ其模擬認知概念屬性，當α_ik = 1時表受試者ｉ精熟認知概念屬性

(54)

40 k，而α_ik = 0則相反。 αij ̂：受試者經由模擬適性測驗所產生之估計概念屬性組型，當時表示α̂ = 1時表ij 示受試者ｉ精熟認知概念屬性ｉ，α̂ = 0則相反。 ij 三、節省題數率本研究使用節省題數率作為模擬資料之評估標準。省題率意指受試者的平均作答題數佔總題數的百分之多少。省題率計算公式 (21) 下：省題率＝（總題數－平均施測題數）÷ 總題數 (21)

第四節資料分析

本研究主要是對學生在國小四年級「整數四則運算」單元，建立「基於 DINA模式之電腦化適性動態評量補救教學系統」，並依照不同的選題方法進行電腦化適性動態評量補救教學，觀察學生補救前後之差異、分析適性選題之省題率，研究架構如表3-5所示，其中分析方法及各變項說明如下：

壹、電腦化適性動態評量補救教學成效分析

一、控制變項 (一) 學生年級：實驗學生皆為102學年度國小五年級學童。 (二) 實施測驗時間：紙筆前測一節課 (40分鐘) 電腦化適性動態評量一節課 (40 分鐘) ，紙筆後測一節課 (40分鐘) 。 (三) 版本、單元以及教材內容：皆為康軒版數學科四年級第二學期整數四則運算單元。二、固定因子 (自變項) 本研究將學生分成三組研究實驗組，三組學生的測驗方式一致，其差異在