國立臺中教育大學教育測驗統計研究所碩士論文
指導教授:郭伯臣 博士
基於 DINA
模式之電腦化適性動態評量-以國小四年級整數四則運算為例
研究生:王曉瑜 撰
中
華
民
國
一
○
三
年
一
月
謝辭
首 先 非 常 感 謝 我 的 指 導 教 授 郭 伯 臣 教 授 , 以 及 給 予 我 許 多 重 要 建 議 的 口 試 委 員 : 施 淑 娟 教 授 與 吳 慧 珉 老 師 , 使 得 這 篇 論 文 能 夠 順 利 完 成 。 感 謝 郭 伯 臣 教 授 , 感 謝 您 這 兩 年 半 來 的 辛 苦 , 若 沒 有 您 悉 心 地 指 導 論 文 方 向 、 專 業 地 給 予 各 種 指 導 與 回 饋 , 以 及 對 我 全 力 的 支 持 , 這 篇 論 文 絕 對 無 法 順 利 完 成 ; 學 生 萬 分 感 激 。 感 謝 施 淑 娟 教 授 , 感 謝 您 給 我 很 多 學 習 的 機 會 , 也 在 每 週 一 早 上 的 開 會 讓 我 有 更 多 想 法 以 及 不 一 樣 的 面 向 思 考 , 豐 富 了 整 篇 論 文 的 內 涵 。 感 謝 吳 慧 珉 老 師 , 每 次 與 您 相 處 , 總 是 能 從 您 身 上 感 受 到 專 業 教 育 人 員 的 細 膩 且 愛 心 的 氣 質 , 且 您 的 課 程 , 讓 我 學 習 到 很 充 實 的 認 知 診 斷 知 識 , 對 我 的 論 文 以 及 我 的 人 生 , 都 有 著 莫 大 的 幫 助 。 接 著 , 感 謝 俊 華 學 長 、 育 隆 學 長 、 彥 鈞 學 長 、 鴻 鈞 學 長 、 俊 彥 學 長 、 宗 恩 學 長 、 曉 珊 學 姐 , 在 學 術 研 究 上 不 厭 其 煩 的 解 決 我 的 困 擾 , 更 給 予 我 學 術 上 諸 多 的 建 議 與 照 顧 , 以 及 感 謝 敏 嫻 學 姐 , 替 我 處 理 很 多 我 不 熟 悉 的 行 政 流 程 問 題 。 還 有 測 統 所 的 所 有 教 授 們 、 助 理 人 員 們 , 感 謝 你 們 的 費 心 ! 當 然 , 一 定 少 不 了 感 謝 測 統 所 的 同 學 以 及 學 弟 妹 們 , 感 謝 你 們 陪 伴 我 度 過 許 多 敲 著 鍵 盤 的 分 分 秒 秒 , 以 及 聚 餐 、 出 遊 玩 的 快 樂 時 光 。 還 要 感 謝 永 遠 支 持 我 的 家 人 , 你 們 總 是 能 無 時 無 刻 給 我 力 量 , 讓 我 在 黑 暗 中 總 能 尋 得 光 芒 、 在 寒 冷 中 也 能 感 到 暖 洋 洋 。 我 愛 你 們 ! 短 短 兩 年 半 的 時 間 , 在 測 統 所 的 日 子 , 就 如 同 一 張 大 畫 布 一 般 畫 滿 喜 怒 哀 樂 、 酸 甜 苦 辣 的 回 憶 。 在 這 些 日 子 裡 , 有 太 多 太 多 我 生 命 中 的 貴 人 , 給 予 我 非 常 寶 貴 的 一 盞 明 燈 ! 我 會 用 一 輩 子 珍 惜 這 兩 年 來 所 構 築 的 一 切 、 一 切 。 最 後 感 謝 所 有 參 與 了 我 生 命 的 人 。 不 管 你 們 現 在 在 何 方 , 都 祝 福 你 們 平 安 健 康 , 謝 謝 你 們 。 王 曉 瑜 謹 誌 於 國 立 臺 中 教 育 大 學 教 育 測 驗 統 計 研 究 所 中 華 民 國 一 百 零 三 年 一 月I
中文摘要
隨著時代的進步,測驗已不再看試題對與錯,更著重於了解學生所 欠缺的認知概念,使每位學生都能擁有更完善的學習環境,因此認知診 斷便能彌補傳統測驗之不足;對於補救教學上,教師會因人數過多,導 致無法在測驗上立即給予提示或教學,因此本研究建置認知診斷能結合 電腦適性化動態評量之系統,進而將測驗達到省時且省力之效果。 本研究旨在建置一個「基於DINA模式之電腦化適性動態評量」系 統,在不同終止條件下進行補救教學,而後探討其前後測是否有差異並 比較不同終止條件是否均能省題。 本研究以台中市國小五年級七個班級為研究對象,並以班級為單位分成 三組實驗組,而此三組學生的測驗方式一致,其差異在於終止條件的不 同,而終止條件界定是依據 Huebner (2010) 所研究之結果、本研究模擬 結果以及無終止條件值,以下為本研究的分組方式:第一組無終止條 件,因此學生需完成整份測驗,無法節省試題;第二組的終止條件為較 高的屬性通過門檻值,在此設定下學生必須完成大部分的試題;第三組 的終止條件為較低的屬性通過門檻值,在此設定下學生只須完成較少的 試題。 經研究分析後,將其結果摘要敘述如下: 一、本研究模擬不同Q矩陣在不同終止條件下的平均屬性辨識率以及省題 率,其結果是較低的屬性通過門檻值的省題率為最佳。 二、本研究所建置的「基於DINA模式之電腦化適性動態評量」系統能依 據學生測驗結果分析概念屬性的有無,立即給予學生提示,進而能使測 驗縮短時間並使學生有效的自我學習。 三、使用基於DINA模式之電腦化適性動態評量系統進行補救教學,在前 後測的共變數分析上,顯示不同適性動態評量終止條件下,其教學成績II
皆具顯著的進步,且三組間的適性補救教學成效皆無明顯差異,而在有 設定終止條件的組別仍能達到節省試題、縮短施測時間之功效。
關鍵字:認知診斷、以DINA模式之電腦化適性測驗、電腦化動態評量、 整數四則運算
III
Abstract
Advance of the times, test do not look correct answers and wrong answers, test more students need to understand the concept of cognitive attributes
missing, so that every student can have a better learning environment, therefore, the diagnosis of cognitive tests will be able to compensate for the lack of traditional. But in remedial teaching, teachers unable to immediately student teaching or teaching tips. So this research can combine to build
cognitive diagnostic assessment of dynamically adaptive computer system, so that Test be done to save time and labor-saving effect.
The research outline is to build a "dynamic based on computerized adaptive assessment DINA model" system, remedial teaching conditions in different termination conditions. Finally, to explore whether the differences in the pre-test and post-test and compare the results of different termination condition with or without saving test.
This research seven fifth grade class in Taichung City as research object, and the class as a unit divided into three experimental groups , this three groups of students the same test methods, the termination condition is defined based on the results Huebner (2010) research, the simulation results of this research and no termination condition values, the following is a research grouping:the first group had no termination condition, so students need to complete the entire test, unable to save items; the second set of conditions for termination by the higher threshold attribute, in this setting, students must complete most of the items;the third set of conditions for the termination of the property by the lower threshold, in this setting, students need only to complete fewer items.
The study analysis, a summary description of the results is as follows: 1.Simulation of this study attribute of different Q matrix recognition rate and the average savings rate of the number of items in different conditions of termination of his attribute by the result is a lower threshold of the number of questions was saving the best.
2. This research built"Computerized adaptive dynamic assessment model based DINA" system, based on student test results can be analyzed with or without this concept attribute, immediately give students prompts, can shorten the test time and allow students to learn effective self.
3.Use "DINA mode computerized adaptive dynamic assessment system" remedial teaching, on ANCOVA pretest and posttest the front, showing
different adaptive dynamic assessment termination conditions, its performance has a significant improvement of teaching, and these three groups of adaptive
IV
remedial teaching effectiveness are not significantly different, there are settings in the termination condition groups, items can achieve savings and shorten the time of effectiveness of Surveying.
Keywords:
Cognitive Diagnosis,DINA model in computerized adaptive testing, Computerized dynamic assessment, Integer Arithmetic
V
目錄
中文摘要...I Abstract ... III 目錄...V 表目錄...VII 圖目錄...IX 第一章 緒論...1 第一節 研究動機...1 第二節 研究目的...3 第三節 名詞釋義...4 第二章 文獻探討...5 第一節 整數四則運算...5 第二節 電腦化動態評量...8 第三節 電腦化適性測驗...13 第四節 電腦化適性診斷測驗之選題法...22 第五節 終止條件...25 第三章 研究方法...27 第一節 研究流程...27 第二節 系統架構與設計...31 第三節 建立選題方法...35 第四節 資料分析...40 第五節 研究對象...42 第六節 研究工具...42 第四章 研究結果...47 第一節 系統建置成果...47 第二節 適性動態評量補救教學成效分析...54VI 第三節 以DINA模式之PWKL選題法省題率分析...60 第五章 結論與建議...61 第一節 結論...61 第二節 建議...62 參考文獻...63 中文部份...63 英文部份...67 附錄A:整數四則運算單元前測試題試卷...71 附錄B:整數四則運算單元動態評量試題...75 附錄C:整數四則運算單元後測試題試卷...79 附錄D:學生實際施測情形...83
VII
表目錄
表2-1 四則運算例子...6 表2-2 教育部訂定五大能力指標...7 表2-3 102年康軒四年級第二學期數學領域之教學計劃表...7 表2-4 本研究者與專業教師共同設計之概念屬性...8 表2-5 Q矩陣...15 表2-6 整數四則的認知屬性...16 表2-7 整數四則的選擇題………...……...17 表2-8 整數四則選擇題例題之Q矩陣...17 表2-9 學生的認知屬性狀態...17 表2-10 學生的認知屬性狀態...19 表2-11 試題的認知屬性狀態...19 表3-1 不同平均屬性在不同的終止條件的試題參數...36 表3-2 不同Q矩陣在不同終止條件的平均屬性辨識率與省題率...37 表3-3 猜測與粗心參數...38 表3-4 實證資料在模擬中平均屬性辨識率與省題率…...39 表3-5 資料分析方法...41 表3-6 Q矩陣...43 表3-7 信度統計量...44 表3-8 項目整體統計量...44 表4-1 成對樣本統計量表...55 表4-2 成對樣本檢定表...55 表4-3 成對樣本統計量表...56 表4-4 成對樣本檢定表...56 表4-5 成對樣本統計量表...57VIII
表4-6 成對樣本檢定表...58
表4-7 學生前測成績組內迴歸係數同質性檢定摘要表...59
表4-8 共變數分析檢定摘要表(N=138)...60
IX
圖目錄
圖3-1 研究流程圖...30 圖3-2 適性動態評量流程設計...33 圖3-3 基於DINA模式之電腦化適性動態評量補救教學系統...35 圖4-1 以DINA為基礎之適性動態評量系統登入介面...47 圖4-2 單元管理介面...48 圖4-3 上傳題目及答案介面...49 圖4-4 編修及觀看試題介面...49 圖4-5 編修及觀看試題介面...50 圖4-6 試卷分配介面...50 圖4-7 選擇試卷介面...51 圖4-8 施測題目介面...52 圖4-9 第一層提示介面...52 圖4-10 第二層提示介面...52 圖4-11 正確解答介面...53 圖4-12 學生個別測驗結果查詢介面...53 圖4-13 診斷報告介面...541
第一章 緒論
本研究旨在建置一個「基於DINA模式之電腦化適性動態評量」系統,並分 析不同終止條件進行補救教學的前後測是否有差異且比較不同終止條件是否有 其省題之效果。本章說明研究動機與目的,並對本研究所提及之相關名詞加以 定義與解釋。第一節 研究動機
測驗乃是老師用來了解學生學習狀況的一種方式。然而,隨著時代的進步, 測驗將不再是單純測驗對錯,而是能了解學生的能力以及他所欠缺的知識概念屬 性,因此美國在 2000 年提出「把每一位學生帶上來」法案就是希望學習普遍化, 不遺漏任何一位學習較落後的學生,了解學習者自身欠缺的概念屬性,爾後補救 教學 (白曉珊、楊智為、郭伯臣、陳俊華,2012) 。 目前估計受試者能力模式是以試題反應理論為主軸,估計學生潛在能力,但 僅能了解學生能力在團體中的排序,而無法了解學生是否精熟題目之概念屬性, 為了解決前者的缺失,爾後發展出認知診斷模式 (Embretson, 1990; Marshall, 1990; Mislevy, 1993; Lohman & Ippel, 1993; Snow & Lohman, 1993;余民寧,2009) 。認 知診斷模式 (cognitive diagnosis models, CDMs) ,用在判斷受試者技能屬性與錯 誤類型的心理計量學模式,根據受試者是否精熟試題所需之概念屬性而形成答對 機率的模式 (江鴻鈞,2012) ,也就是說,認知診斷模式可用於協助教師進行個 別化的診斷,也可以提供能力較佳的學生自我學習的方向與目標。2
然 而 , 在 眾 多 認 知診 斷 模 式 中 , 又 以 DINA 模 式 (Deterministic Inputs, Noisy“and”Gate Model) 最為簡單也最常見,DINA 模式假設受試者答對試題的機 率,會受到粗心 (slip) 及猜測 (guess) 兩個參數影響,學生作答反應會受到此兩 種因素所影響 (江鴻鈞,2012) 。
為了使測驗達到適性化的目的,因此選題的選題法則變為極其重要的課 題。一般而言,選題法是以學生之試題反應來作為下一個試題的選擇依據;目 前常見的選題法有以下幾種:Xu, Chang and Douglas (2003) 提出 KL 法,其理念 是基於 Kullback-Leibler 訊息;SHE 法則是基於 Shannon Entropy;而 Cheng (2009) 提出基於 Kullback-Leibler 訊息的後驗加權 KL 法 (Posterior-weighted KL information, PWKL) 還有最後一種則是合併 KL 訊息與潛在狀態間的距離法 (Hybrid KL, HKL) 。最後,Xu, Chang and Douglas (2003) 發現 SHE 法較 KL 法 為佳,不過 Cheng (2009) 則發現 PWKL 法與 HKL 法又比 SHE 法還要好,而 PWKL 法與 HKL 法則是伯仲之間,而 PWKL 法選到的試題會有較佳的認知概 念屬性區辨率 (Xu, Chang, & Douglas, 2003;Cheng , 2009) ,故選 PWKL 做為 選題之方法。 雖然認知診斷模式能瞭解學生所欠缺或精熟概念屬性,但因學生人數太 多,老師無法針對每一位學生的概念屬性瞭若指掌,因此結合電腦化之動態評 量,可使學生藉由做答題目後時直接給予補救教學,節省教師課後輔導之時 間,進而達到省時省力之效果。動態評量最早於1979年由Feuerstein改良自「靜 態評量」開始使用。所謂動態是有兩層意義,其一是評量學生動態認知歷程與 確定認知能力的變化情形,著重評量學習歷程與認知改變的情形;其二則著重 評量者與學生間的互動關係,強調評量與教學結合 (Haywood & Brown,
1990) ,進而衍生為採取「測驗-提示-再測驗-再提示」方式,但傳統的動態 評量施測所耗的時間較長,且需一對一的實施測驗,相當耗費人力及資源,因 此將動態評量結合電腦化,使學生在作答錯誤時,可立即給予提示,並循序漸
3 進之方式引導學生,因此測驗的方式就會變為「選題-測驗-提示-再測驗- 再提示-終止題示-再選題」,此方式可使學生發現錯誤的概念屬性,進而導 正觀念,不僅縮短測驗時間且客觀。 研究針對國小數學教材「數與計算」階段來進行探討,首先四則運算兩步 驟文字題是國小第一、二階段學生在「數與計算」的學習重點,期望二年級學 生能解決兩步驟問題 (加、減與乘,不含併式) ,並運用在具體情境中;三年級 學生能在具體情境中,解決兩步驟問題 (加、減與除,不含併式) ;在第二階段 四年級學童能熟練整數加、減、乘、除的直式計算,能在具體情境中,解決兩 步驟問題,並學習併式的記法 (包括連乘、連除、乘除混合) ;五年級學生能在 具體情境中,解決三步驟問題,能熟練整數四則混合計算及整數四則運算兩步 驟文字題的性質,來簡化計算 (教育部,2003) 。由此得知,四年級兩步驟問題 是延伸二、三年級的單步驟問題,且又連貫著五、六年級之後的三步驟問題, 因此在國小學習「數與計算」中,是介在中樞的位置且佔有舉足輕重之地位, 相當重要 (徐偉民、林潔慧,2010) ,因此研究是以認知診斷之 DINA 模式結合 動態評量建置一個電腦化適性補救教學系統,而測驗內容則是以國小四年級整 數四則運算為例。
第二節 研究目的
本研究主要目的為建置一個電腦化適性補救教學系統,當中的模式是以認 知診斷的 DINA 模式,藉由 PWKL 之選題法選題,再結合動態評量給予提示, 達到學生學習成效進而縮短補救教學時間。 因此,本研究主要目的有以下幾點: 壹、結合漸進提示動態評量之電腦適性化測驗,使測驗能立即給予學生提示並縮4 短測驗時間且依學生測驗結果的有無之概念屬性,給予學生自我學 習,達 到補救教學之目的。 貳、探討不同認知診斷適性動態評量終止條件下,其前後測成績是否有差異。 參、探討基於DINA模式之電腦化適性動態評量系統進行補救教學是否有其 省題之效果。
第三節 名詞解釋
壹、以DINA模式之電腦化適性測驗 認知診斷模式是根據受試者是否精熟試題所需之概念屬性而形成答對機率 的一種模式,本研究是使用認知診斷中的DINA (Deterministic Inputs, Noisy “and” Gate Model) 模式。此模式會依據受試者前一試題的作答反應來決定下一個要呈 現給受試者作答的試題順序,因此有著「因材施測」的名稱,本研究是藉由認 知診斷的電腦化適性測驗欲了解每位學生對於概念屬性的學習程度,以便教師 做為補救教學之考量。 貳、電腦化適性測驗之終止條件 終止條件意指當學生的作答反應達到某一值ε時,即終止測驗。本研究分為 三組不同之終止條件值,此終止條件是依據 Huebner (2010) 所研究之結果、本 研究模擬結果以及無終止條件值。 參、電腦化動態評量 電腦化動態評量是指受試者在電腦上施測,若有不懂或者不理解的地方, 可馬上由電腦上所給的提示知道該錯誤及不懂的地方,本研究採取的是「選題 -測驗-提示-再測驗-再提示-終止題示-再選題」的方式。5
第二章 文獻探討
本研究是基於DINA模式且結合電腦化適性動態評量,探討國小五年級學童 在整數四則運算的補救教學上其應用成效。故本章將針對整數四則運算、電腦 化動態評量、電腦化適性測驗以及電腦化適性診斷測驗之選題法等主題加以探 討。第一節 整數四則運算
「整數四則運算」在國小「數與計算」中占有中樞之位置且是四年級數學 課程中較為基礎的單元之一 (徐偉民、林潔慧,2010) ,因此國小整數四則運算 課程對於學生來說是一個非常重要的學習單元,當數學式子在進行併式時,其 產生使用運算規約需求:剛開始會先形成由左向右算的共識,當試題難度越來 越高且步驟變為繁瑣時,就會出現運順序發生混淆,於是產生用括號來區分運 算順序的共識;而試題難度更加複雜,例如使用相同或不同的括號數越來越多 時,為了減少括號的使用次數與種類,因此發展出先乘除後加減的方法。由此 可知,學生最先得到由左至右的共識,再來運用括號區別運算順序的方式,最 後為了省掉括號的使用進而產生先乘除後加減的共識 (蔣治邦、謝堅、陳竹村、 林昭珍、吳淑娟,2002) 。 學生在學習整數四則是必需循序漸進瞭解整數四則其規則,而後不再依賴 由左而右的運算習慣,但大多數的學生在解情境題時,常出現問題的問題都在 於情境列式沒有依循整數四則的規則,導致列式錯誤答案正確,諸多研究指 出,學生在整數四則運算單元常出現的問題之ㄧ是「誤用運算順序的約定」 (劉6 天民,1993;方建良,2003;吳惠貞,2006;陳國雄,2006;洪志峰,2007; 沈明勳、左太政、劉嘉茹,2009;古欣怡、林碧珍,2011) ,以下表2-1將舉例 說明。 表2-1 四則運算例子 例題一 「牛奶糖一盒5元,餅乾一盒20元,各買兩盒,共需要幾元?」 錯誤列式一 5+20×2=70 錯誤列式二 5+20×2=50 綜合上述,學生會依情境求解,但卻列出表2-1的錯誤列式一;相同的,學 生不明瞭整數四則的規則,單純在計算題解題時,也會發生錯誤,例如表2-1的 錯誤列式二,也就是說,學生會直接由左而右計算,得到錯誤答案50, (康軒事 業股份有限公司[康軒國小中年級數學知識+],2009) ,對此沈明勳、左太政與 劉嘉茹歸究原因,極其可能與「括號先敎」形成學生弱化先乘除後加減有關, 也就是說,學生只專注括號部份要先算,卻常忽略括號前後的運算,以及先乘 除後加減的規則 (劉天民,1993;古欣怡、林碧珍,2011) ,且對於整數四則運 算目前課程安排的步驟不多,學生只需使用括號就可以解決大部分的問題,即 便教完由左算到右及先乘除後加減,學生仍然沒使用這兩項規則來精簡括號的 需求 (謝如山,2003;古欣怡、林碧珍,2011) 。 括號的相關法則可分為五個階段,第零層次是認識先乘除後加減的法則, 瞭解運算時必需遵守先乘除後加減,再由左而右的規則。而層次一,則是知道 括號代表要先做的意義,最後則為括號相關法則,其包含結合律、分配律的應 用等等 (謝如山,2003;古欣怡、林碧珍,2011) 。 本研究針對上述法則與根據教育部訂定五大能力指標,分別為表2-2:
7 表2-2 教育部訂定五大能力指標 (教育部,2008) 編碼 分段能力指標 N-2-03 能熟練整數加、減的直式計算。 N-2-05 能理解乘、除直式計算。 N-2-06 能在具體情境中,解決兩步驟問題 (含除法步驟)。 N-2-07 能做整數四則混合運算,理解併式,並解決生活中的問 題。 A-2-02 能在具體情境中,理解乘法結合律,並運用於簡化計算。 而後本研究再參考康軒文教集團其四年級團隊設計出102年四年級第二學期 數學領域之教學計畫表,此教學計畫表為五大能力指標之分年細目,如表2-3: 表2-3 102年康軒版本四年級第二學期數學領域之教學計畫表 (康軒文教集團,2012) 編碼 分年細目 4-n-03 能在具體情境中,解決兩步驟問題,並學習併式的記法 (包 括連乘、連除、乘除混合) 。 4-n-04 能作整數四則混合計算 (兩步驟) 。 4-a-01 能在具體情境中,理解乘法結合律、先乘再除與先除再乘 的結果相同,也理解連除兩數相當於除以此兩數之積。 最後再由本研究者與數學教師共同設計出概念屬性,如表2-4:
8 表2-4 本研究者與專業教師共同設計之概念屬性 編碼 概念屬性 A01 能理解橫式計算方式是由左而右計算。 A02 能清楚括號內的算式必須先運算。 A03 能運用乘法結合律讓計算過程簡化。 A04 熟練先乘除後加減的運算規則。 A05 能理解題意,並列成一個算式。 A06 能理解連除兩數相當於除以此兩數之積。
第二節 電腦化動態評量
壹、動態評量的發展歷史
此發展歷史可回溯到1920年代Dearborn、Buckingnam and Penros等學者對於 傳統靜態測驗假設的批判以及智力與學習之關係的研究,就發展歷史源流 (Lidz, 1987;吳德虎,1999) ,可分為以下三大階段: 一、基礎理論萌芽階段 (1927~1961) :此時期著重於「學習能力」與「智力」 兩者間的關係,經由Vygotsky提倡社會與文化的認知發展理論與學者對於傳統測 驗定義的批判,因此奠定出動態評量研究的理論基礎。 二、奠定研究模式階段 (1964~1987) :此階段由於研究取向有所差異,因此諸 多學者紛紛提出不同的研究模式,並針對不同的對象進行動態評量的相關實徵 研究。
9 量相關文獻有系統的編輯成冊。
貳、動態評量的定義
早年傳統評量的方式是以靜態評量為主,但因傳統靜態評量較難發現學生 的錯誤類型以及學習的潛能,因此Feuerstein (1979) 首次使用動態評量, Feuerstein認為動態評量不在評量以往既有的知識、經驗或者技巧,而著重於評 量成長、改變以及學習預備度,因此動態評量最為重要的涵義是學習歷程或認 知改變的評量。此外,透過互動歷程來增加評量者與學習者之間的互動性,進 而探索、評估以及發展學習者其個體的學習潛能 (Lidz, 1991) ,簡單來說,教 師藉由評量學生的潛能發展水準,以便了解學生在問題情境中能力發展的情 況,進而提供決定教學方式有益的訊息 (吳德虎,1999;李淑華,1999) 。參、動態評量的特性
動態評量又稱協助式評量,即在測驗進行當中,給予學生教學上提示、線 索及協助,進而取得學生「最大可能操作水準」之訊息 (邱上真,1996) 。Lidz (1991) 認為動態評量最重要的兩大特色,其一為主動性 (activity) 意指評量者與 學習者皆為主動;其二為可變性 (modifiability) 意指評量結果是有彈性空間的 (黃淑津、鄭麗玉,2004) ,因此在評量學習過程中,試圖在評量程序內同時包 含教學的介入 (Haywood , Brown , & Wingenfeld, 1990) 。綜合多位學者的觀點 (Feuerstein, 1979;Lidz, 1987;Ferretiti & Butterfield, 1992;Haywood & Wingenfield, 1992;Tzuriel, 1992;Swanson, 1996;林麗容, 1995;古明峰,1997;簡月梅,1998;莊明貞,1999;朱經明、蔡玉瑟, 2000;余其俊,2000;李坤崇,2002;何俊青,2002;楊景淵,2002a) ,總結 出動態評量具有以下幾個特性:
(一) 評量的重點是在於認知、學習、思考和問題解決的歷程而非學習最後成 果。
10 動態評量其目的不僅是要達到評估學生「目前」所表現的水準,且試圖了 解學生是「如何」達到目前的水準,更要使學生「可能」可以達到之水準。 (二) 評量並非是同儕間的能力比較,而是更著重於學生個別學習歷程的自我確 認與評量。 動態評量最主要是在幫助學生自我了解學習上的困難,藉由易懂的解題策 略而獲取成功經驗,進而等化學生之間不利的經驗差異。 (三)評量著重於概念化的認知歷程,並用引導之方式教學或學習。 學生的認知歷程是經由動態評量所發展出的漸進系統方式,來配置試題, 因此能提供有效的概念引導。 (四) 評量之過程為「測驗→教學→測驗」或至少是「教學→測驗」的程序。 傳統評量大都為定點定時的評量,但此方式只能在當下看出學生學習效 果,無法評量長時間學習之效果,因此評量能否考量評量時間的連續性,則變 為相當重要。而動態評量目的是透過評量方式,方便了解學生學習上之困擾, 適時的給予協助與指導,使學生的操作水準提高,其優點是能橫跨多個時間 點,並偵測到學生在學習上之變化,因此動態評量是一種結合教學與診斷的評 量。 (五) 評量是掌握有無影響或刺激個體行為和學習反應的情境與條件。 教師在與學生互動時,可使用簡單回饋、指引學生在解題前與後,說出解 題步驟或原則…等方式,更能有效掌握影響學生個體學習的情境及條件。 (六) 藉由評量方式,找出影響個體行為表現或有效學習的阻礙因素。 評量重點是在於學生的可改變性,因此基於「能力是可塑造的」假設,且 透過動態評量之方式,是可有效找出影響個體學習的因素,並改善影響學習因 素的方法,進而提供發展介入方案的有效訊息。 綜合以上特性,本研究較著重概念化的認知歷程,且藉由漸進提示的方式 來引導學生作答,使評量有「測驗→教學→測驗」之評量歷程。
11
肆、動態評量的模式
綜合諸多學者對於動態評量的實施模式 (周天賜,1998;Sternberg & Grigorenko, 2002;李坤崇,2006) ,總結可大致分為以下六種模式: (一) 心理計量模式 (psychometric approach) 由Embretson (1987) 所提倡,此模式著重於認知的可變性,以「空間推理測 驗」為訓練材料,在訓練階段採用標準化的方式介入,使學生透過具體操作來 增進空間處理的技巧,採用「前測 ─訓練─後測」的方式來評估受試者的能 力,目的在於適當的心理計量模式,可測量認知的改變,對學生特定能力能有 較佳的估計;評量重點則是透過訓練後,希望能評估學生最大的學習能力。 (二) 漸進提示評量模式 (Graduated Promoting Assessment)Campione與Brown在1987年提倡,主要是受Vygotsky對於個體的學習、發展 及近側發展區理論有所影響。評量重點為測量學生欲達到某一特定標準時,所 需要的教學提示量,藉由區辨學習潛能的差異並用來預測未來的表現;計分部 分則是依提示量來計算:學生所需的提示量越多,表示其能力越低。
(三) 學習潛能評量模式或中介評量 (Learning Potential Assessment, LPAD) Feuerstein (1987) 將智力界定為個體運用先前學習經驗來適應新情境的能 力,並認為個體認知缺陷主要導因是缺乏適當的中介學習經驗 (mediated
learningexperience) ,因此在施測的過程中,觀察學生對於達到精熟所需提供多 少的介入才能造成認知的改變 (Feuersteinet al, 1985)。
(四) 測量極限評量 (Testing the Limits Assessment)
此模式是由Carlson & Wiedl (1979) 所提倡,其主張用人格與智力因素去解 釋訓練中個體訊息處理的差異,並將「介入」直接安排在測驗的情境過程中。 透過標準化評量、說明選擇原因、指導與說明、簡單回饋對錯、提供精緻回饋 以及綜合上述的放聲思考和提供精緻回饋等六種施測情境的操弄方式,也就是
12
所謂的標準化介入,以此來進行研究,最後經由標準化介入與實施後測分數, 以了解學生實際智力後,便能分析學生人格因素與測驗情境交互作用下,不同 施測情境介入其最佳表現與介入策略的有效性。
(五) 連續評量模式 (Continuum of Assessment model)
Burns, Vye and Bransford (1987) 結合Feuerstein的學習潛能評量設計以及 Campione & Brown的漸進提示評量而形成的評量模式,其模式認為適當的中介 學習經驗對認知的發展而言是相當重要的,故採取「前測─訓練─在側─訓練─後 測」的程序,並主張對不同程度的學生分階段且實施不同的評量。 (六) 「測驗-訓練-測驗」 (Test-Train-Test Assessment) 模式 Budoff(1974)將智力界定為「從經驗中獲取有益的能力」,因此主張智力並 非固定不變,而是本身具有可訓練性及可朔性,其著重於協助學生了解評量的 需求,學生能透過訓練之方式,將訓練之內容融會貫通且吸收為自身能力,最 後反映於評量結果中。
伍、電腦化動態評量
電腦化測驗有著節省時間、人力之優勢,倘若將電腦化測驗與動態評量做 一個結合,這不僅能使中介程序標準化,且還能因學習者不同的測驗成果而獲 得不同的中介提示,並藉由提示方式提升其學習潛能,進而有效提升學習者的 學習動機。許多研究顯示,電腦化動態評量在數學領域可強化學生概念、提升 學習者的思考能力,具有教學效益 (Embretson , 1987;林素微,1996;許家 驊、邱上真、張新仁,2003;劉琪玲、謝哲仁,2003;陳立玲,2002;許慧 禎,2002;許家驊,2008;黃珊紋,2012) 。 本研究將採取電腦化之方式結合漸進提示評量模式,由於此模示可在學生 作答錯誤時給立即給予學生所需要的教學提示,且此教學提示會因學生答錯的 次數給予不同深度之提示,因此採結合漸進提示評量模式將能因學生之能力不13
同而給予不同的提示。
第三節 電腦化適性測驗
壹、以知識結構為基礎之電腦化適性測驗
「以知識結構為基礎之適性化測驗系統 (Knowledge Structure based Adaptive Test, KSAT)」是依據學生知識結構而設計的適性施測系統,其可由不同學生的 作答情形而給予適合學生本身程度之相關試題,藉此能省去大量的試題並準確 分析學生有哪些待加強的概念,且透過此系統能將學生課堂後的評量數位化及 網路化提升學習效率,進而達到「因材施測」及「因材施教」之目的 (郭伯臣、 謝友振、張峻豪、蔡坤穎,2005;劉清源,2010) 。以下為建置各知識結構之方 法與功能如下 (劉育隆、曾筱倩、郭伯臣,2006) : (一) 建立專家知識結構及命題 專家知識結構是指經由專業且豐富教學經驗的國小教師群,編製各單元知 識結構草案,再共同使用知識結構檢核表,建立較客觀的知識結構。建立完畢 後,再依據此方式命題,並以電腦化適性診斷測驗之檢核表檢核試題,檢核完 畢後進行組卷以利紙筆測驗之進行。 (二) 進行預試且分析所蒐集的資料並建立學生結構 預試完畢後,收集考卷並將所有學生的作答反應匯入電腦,分析整份試卷 的信度,以及分析每一個試題其古典測驗理論及試題反應理論的難度、鑑別 度、猜測度,以提供審題、修題之參考。最後使用 OT 演算法之方式,分析出選 題策略的相關矩陣,建立出適當的學生知識結構,以便系統準確出題,進而縮 短施測時間。
14 (三) 建立補救教學之結構 補救教學其目的在於彌補學生不足之處,因此 KSAT 是以學生知識結構為 基礎再融合專家知識結構的教學流程與邏輯概念,最後發展出一套適合進行補 救教學之結構,此結構能比專家認定的結構更為貼近學生實際學習後的結果, 也比學生知識結構更有系統的學習,因此將這兩種結構結合在一起,則稱為補 救教學結構。 (四) 將題目建置於題庫及系統 將所有題目統整後建至進 KSAT 的題庫系統中,再把專家結構、學生結 構、補救教學結構也匯進 KSAT 系統裡,即可開始使用 KSAT 電腦適性測驗診 斷系統,KSAT 將以學生知識結構作為選題策略,找出學生的迷思概念與解題迷 思。 雖然以知識結構為基礎之適性測驗雖能夠排序受試者在團體中之序位,但 這樣的方式並不能了解受試者是否精熟概念屬性之程度,因此 Nichols (1994) 提 出將認知科學 (cognitive science) 與心裡計量學 (psychometrics) 結合的測驗診 斷方法稱為認知診斷模式 (cognitive diagnosis models, CDMs) ,綜合上述論點, 本研究是以認知診斷做為基礎之動態評量電腦化適性測驗,此模式在下一個章 節會詳細說明。
貳、以認知診斷為基礎之電腦化適性測驗
最初是由美國在2001年落實No Child Left Behind Act教育法案,其不希望讓 任一孩子落後,因此美國開始要求必須提供給學生測驗診斷結果,且此結果必 須能清楚地讓教師、家長、學生瞭解學生在每一個學科中有哪些概念屬性是精 熟,有哪些概念屬性是需要再加強的 (Cheng, 2009) 。因此認為認知診斷模式 (cognitive diagnosis models, CDMs) 是可以使用在判斷受試者優勢與劣勢的心理 計量學模式,根據學生是否精熟試題所需之概念屬性而形成答對機率的模式 (卓
15
淑瑜,2011) 。為了達到診斷之目的,大部分的認知診斷模式都需要建立一個由 學科專家定義的Q矩陣,而這Q矩陣則是試題與認知屬性的關係,也就是關聯矩 陣 (incidence matrix) (Tatsuoka, 1985) ,其結構是由數值0與1所組成,表示試 卷中的試題所測量的特定概念屬性,如有J個試題與K個概念屬性,則Q矩陣的大 小為J × K,𝑞𝑗𝑘代表要解決第𝑗個試題是否需具備概念屬性𝑘,若需要則𝑞𝑗𝑘為1, 反之則為0,其公式 (2) 定義如下: 𝑞𝑗𝑘 = { 1 第 j 題需要第 k 個認知屬性 0 其他 (2) 舉例來說,假設Q矩陣的設計為一個3 × 4的矩陣,表示如表2-5: 表2-5 Q矩陣 屬性 題號 A1 A2 A3 A4 第一題 0 1 0 0 第二題 1 0 1 0 第三題 1 0 0 1 此矩陣代表著,第一題需要第2個認知屬性,而第二題需要第1個與第3個認 知屬性,最後的第三題則是需要第1個與第4個認知屬性。 因此必需先清楚定義試題和概念屬性之間的關係推估學生具備或缺乏哪些 認知屬性,進而瞭解學生的學習狀況,給予補救之教學 (de la Torre, 2008) 。編 製認知診斷測驗時,首先需要確定評量的認知屬性,再將認知屬性組合成試 題,每道試題至少必須包含一個認知屬性,最後,在編製過程裡,並非任意的 組合成試題,還必需考量認知屬性的相似程度與難易程度,此外,認知診斷模 式可以用來診斷受試者是否具備測驗所需的認知概念,其認知診斷模式是利用
16 一個潛在向量𝛂𝑖 = (α𝑖1, α𝑖2, … , α𝑖𝑘) 來表示受試者是否精熟每一個認知概念,其 中α𝑖𝑘 = 1表示第i位受試者精熟第k個認知概念,α𝑖𝑘 = 0則表示未精熟第𝑘個認知 概念,其公式 (3) 概念屬性如下 (Tatsuoka, 1985;涂金堂,2003) : 𝑞𝑖𝑘 = {1 受試者i精熟第 k 認知屬性 0受試者i不精熟第 k 認知屬性 (3) 以下以本研究試題及學生其整數四則之認知診斷Q矩陣為例: 表2-6為整數四則的認知屬性,表2-7為測驗學生是否具備整數四則的認知屬 性而設計的題目,表2-8為整數四則範例題之Q矩陣,由表2-8可知,解此題目需 具備認知屬性1,最後表2-9為學生是否精熟每一個認知概念,精熟則為1,反之 則為0。 表 2-6 整數四則的認知屬性 認知屬性 敘述 A1 能理解橫式計算方式是由左而右計算。 A2 能清楚括號內的算式必須先運算。 A3 能運用乘法結合律讓計算過程簡化。 A4 能熟練先乘除後加減的運算規則。 A5 能理解題意,並列成一個算式。 A6 能理解連除兩數相當於除以此兩數之積。
17 表2-7 整數四則的選擇題 題目一 答案一 18.「糖果工廠今天生產5000顆巧克力,每10顆裝成一 袋,每5袋裝成一箱,共可裝成多少箱? 」下列哪一個 算式是正確的? 5000÷(10×5) 5000×10×5 5000÷(10+5) 5000÷10×5 表2-8 整數四則選擇題例題之Q 矩陣 屬性 試題 A1 A2 A3 A4 A5 A6 例題一 0 1 0 0 1 1 表2-9 學生的認知屬性狀態 屬性 試題 A1 A2 A3 A4 A5 A6 學生1 0 0 0 0 0 1 學生2 0 1 0 0 1 0 學生3 0 1 0 0 0 0
而本研究是以認知診斷模式之 DINA 為基礎,而 DINA 系列又分為 DINA、 G-DINA、HO-DINA 三種模式,以下將詳細說明此三種模式。
18 一、DINA模式 DINA 模式是假設學生具備試題所需具有之認知概念屬性時,在理想狀態下 就代表會答對該題,也就是𝛸𝑗=1;反之,缺乏任一個需要的概念屬性時,則會 答錯試題,也就是𝛸𝑗=0,然而實際上答對機率是會受到粗心 (slipping) 與猜測 (guessing) 兩參數所影響,因此 DINA 模式之試題反應模式公式 (4) (5) 如下 (卓淑瑜,2011;白曉珊、楊智為、郭伯臣、陳俊華,2012;楊智為、郭伯臣、 吳慧珉、江鴻鈞,2012) : 𝛲(𝛸𝑖𝑗= 1|𝛼,𝑠, g) = (1𝑠𝑗) 𝜂𝑖𝑗 g𝑗(1𝜂𝑖𝑗) (4) 其中, 𝜂𝑖𝑗= ∏ 𝛼𝑞𝑖𝑘𝑗𝑘 𝛫 𝑘=1 (5) 𝜂𝑖𝑗:表示學生i是否完全精熟試題𝑗所需具備的認知屬性,完全具備其值為 1,反之,缺少一個以上所需的認知屬性其值為0。 𝛼𝑖𝑘:表示學生𝑖是否具備認知屬性𝑘,具備該屬性其值為1,反之為0。 𝑞𝑗𝑘:表示此試題𝑗是否需要認知屬性𝑘需要該屬性其值為1,反之為0。 𝑠𝑗:表示學生完全精熟此試題所需的認知屬性卻因為粗心,而答錯此題的機 率。 g𝑗:表示學生缺少一個以上試題所需的認知屬性卻因為猜測而答對此題的 機率。 以下為本研究之學生的認知屬性狀態表 2-10、表 2-11 為例且說明之:
19 表2-10 學生的認知屬性狀態 屬性 試題 A1 A2 A3 A4 A5 A6 學生1 1 1 1 1 1 1 學生2 0 1 1 1 1 1 學生3 1 1 0 0 0 0 表2-11 試題的認知屬性狀態 屬性 試題 A1 A2 A3 A4 A5 A6 學生1 1 1 1 1 1 1 假設給定試題參數𝑠1 = 0.05、g1 = 0.05,今有三名學生,其具備的認知屬 性如表3-1所表示,可知學生1具備解題所需的六個認知屬性,因此其𝜂11 = 1, 受試者2與受試者3都缺少一個以上的認知屬性,所以其𝜂11= 𝜂11 = 0,則三位受 試者的答對機率分別計算 (6) (7) (8) 如下: 𝛲(𝛸11= 1|𝛼1,𝑠1,g1) = (1𝑠1)𝜂11g1𝜂11 = (10.05)1(0.05)11= 10.05 = 0.95 (6) 𝛲(𝛸21 = 1|𝛼2,𝑠1,g1) = (1𝑠1)𝜂21g1𝜂21= (10.05)0(0.05)10= 0.05 = 0.05 (7) 𝛲(𝛸31 = 1|𝛼3,𝑠1,g1) = (1𝑠1)𝜂31g1𝜂31= (10.05)0(0.05)10= 0.05 = 0.05 (8) 由此得知,在 DINA 模式下,學生倘若答對此題,但卻缺少一個以上答題所 需的認知屬性時,則屬於猜測的情況。 綜合上述,DINA 模式僅涉及粗心及猜測兩種參數,是一種簡單且容易了解 的模式,且具有極好的模式適配度,因此目前已應用在許多測驗方面 (de la Torre
20 & Douglas, 2004) 。 二、G-DINA模式 DINA模式是著重於探討將學生分成兩種群體其不同答題反應的情形,若學 生缺乏某一個或多個概念屬性時,此時答對機率則皆屬猜測作答,但以DINA的 分類方式下,完全不會任何概念屬性的某一學生與可能缺乏某些概念屬性的另 一個學生,其答對機率將會被視為相同,且此發生機率在一般情境中較為少 見,因此de la Torre (2011) 提出以DINA模式為基礎的一般化模型,稱為
(generalized deterministic inputs, noisy “and” gate, G-DINA) 模式,此模式對於學 生在分類群體時,會細分為2𝑘∗ 𝑗個組別,𝑘 𝑗∗為試題所測量的最大概念屬性數,但 區別試題的組別數量各不相同,因此測量其概念屬性數越多,認知狀態包含的 組型就越多 (楊智為、卓淑瑜、郭伯臣、陳亭宇,2011) ,以下為G-DINA模式 之公式 (9) 如下: 𝛲(𝛼𝑖𝑗∗) = 𝛿𝑗0+ ∑ 𝛿𝑗𝑘𝛼𝑖𝑘 𝑘𝑗∗ 𝑘=1 + ∑ ∑ 𝛿𝑗𝑘𝑘′𝛼𝑖𝑘𝛼𝑖𝑘′+ ⋯ + 𝛿𝑗12…𝑘 𝑗 ∗∏ 𝛼𝑖𝑘 𝑘𝑗∗ 𝑘=1 𝑘𝑗∗1 (9) 𝑘𝑗∗ 𝑘′>𝑘 其中, 𝛿𝑗0:第𝑗題試題的截距。 𝛿𝑗𝑘:對𝛼𝑘的主要影響。 𝛿𝑗𝑘𝑘′:對𝛼𝑘與𝛼𝑘′交互的影響。 𝛿𝑗12…𝑘𝑗∗:由𝛼𝑘到𝛼𝑘′的交互影響。 由上述參數得知,此參數在模式上各有不同的意義,𝛿0為答對機率的底 線,簡單來說,就是此時的答對機率是不具備任何所需的概念屬性;𝛿𝑘為影響 答對機率在精熟𝛼𝑘單一概念屬性的時候;𝛿𝑘𝑘′為1階層的交互作用效果,也就是 影響答對機率的同時須具備𝛼𝑘及𝛼𝑘′;同理可證,𝛿𝑗12…𝑘𝑗∗為影響答對機率其精熟
21 全部所需的概念屬性,且影響程度比其他項次更加顯著。 假設該題以測量2個概念屬性的試題其Q矩陣(1,1)為例,而學生可能有的認 知狀態為{(0,0),(1,0),(0,1),(1,1)},在DINA模式中,只分為{{(0,0),(1,0),(0,1)}及 {(1,1)}兩種群體的學生,而在G-DINA模式中,將會對上述4種認知狀態各別計 算答對機率,因此學生的認知狀態若不同,則答對機率可能會有所不同 (楊智 為、卓淑瑜、郭伯臣、陳亭宇,2011) 。 三、HO-DINA模式 de la Torre與Douglus (2004) 為了間接觀察學生其認知狀態與能力間之關 係,且減少DINA模式在估計學生認知屬性計算上的負擔,因此提出 (higher-order deterministic inputs, noisy “and” gate, HO-DINA) 模式,假設元素𝜃𝑖條件為獨 立,且在給定高階的潛在特質𝜃𝑖狀態下,其學生認知屬性分布與精熟屬性的機率 公式(10)表示如下: 𝛲(𝛼𝑖|𝜃𝑖) = ∏ 𝛲(𝛼𝑖𝑘 = 1|𝜃𝑖) = 𝑘 𝑘=1 ∏ { exp[l. 7𝜆1(𝜃𝑖𝜆0𝑘)] l + exp[l. 7𝜆1(𝜃𝑖𝜆0𝑘)]} (10) 𝑘 𝑘=1 IRT的雙參數對數模式與此模式之公式極為雷同,差別在於𝜆0𝑘為認知屬性 難度參數,𝜆1為認知屬性鑑別度參數,且第k個認知屬性會因𝜆0𝑘愈高則愈難精熟 (de la Torre & Lee, 2010) 。Leighton, Gierl and Hunka (2004) 也發現在估計學生 認知屬性時,是可避免不必要的屬性組合之數,如此一來,則可合理的將階層 式架構加進認知屬性中 (卓淑瑜,2011) 。
綜合上述三種模式,其中又以 DINA 模式最為簡單也最為常見,因此本研究 是以 DINA 模式為基礎,而其餘的兩種可在未來做為其他研究之考量。
22
第四節 電腦化適性診斷測驗之選題法
壹、基於 Kullback-Leiber 訊息之 KL 法
基於Kullback-Leiber訊息法是在計算兩種機率分布之間的距離 (Cover & Thomas, 1991),公式 (11) 如下:
𝐷[𝑓, 𝑔] = 𝐸𝑓[𝑙𝑜𝑔𝑓(𝑥)
𝑔(𝑥)] (11)
其中,𝑓(𝑥)及g(𝑥)為兩種機率分布。一般而言,𝑓(𝑥)為一種精準的理論分 布,簡單來說,就是資料的真實分布,而g(𝑥)則為一種概似的理論分布。在統計 上若𝑓(𝑥)與g(𝑥)兩者的機率分布愈大,則代表愈容易被辨識 (Henson & Douglas, 2005) 。 KL法在認知診斷電腦化適性測驗中,是在計算學生當前的估計潛在認知概 念屬性組型𝛼̂與其他認知概念屬性組型𝛼𝑐,其兩者機率分布𝑈𝑗之間的距離和,換 言之,就是計算𝑃(𝑈𝑗 = 𝑥|𝛼̂)與𝑃(𝑈𝑗 = 𝑥|𝛼𝑐)兩者之間的訊息量 (Xu al, 2003) , 公式 (12) 如下: 𝛫𝐿𝑗(𝛼̂) = ∑ ∑ 𝑙𝑜𝑔 ( 𝛲(𝑈𝑗 = 𝑥|𝛼̂) 𝛲(𝑈𝑗 = 𝑥|𝛼𝑐)) 1 𝑥=1 2𝑘 𝑐=1 𝛲(𝑈𝑗 = 𝑥|𝛼̂) (12) 𝛼̂:為學生完成n1題試題後所估計之潛在認知概念屬性組型。 𝛼𝑐:為所有可能的認知概念屬性組型,𝑐 = 1,2, … , 2𝑘,K為概念屬性數。 𝑈𝑗:為學生在第𝑗題的作答反應,𝑈𝑗 = 1為答對,𝑈𝑗 = 0為答錯。 此總和代表受試者在第𝑗題中,目前估計之潛在認知概念屬性組型𝛼̂與其他 認知概念屬性組型𝛼𝑐之間的距離分布。而第𝑗題的𝛫𝐿𝑗(𝛼̂)愈大,則愈能辨別𝛼̂與 其他認知概念屬性組型𝛼𝑐,故選取𝛫𝐿𝑗(𝛼̂)值最大的試題做為選下一題的準則
23
(Tatsuoka & Ferguson, 2003;江鴻鈞,2012) 。
貳、基於 Shannon Entropy 的 SHE 法
Shannon entropy是結合機率分布與不確定性的一種測量方法,其離散機率分 布P定義公式 (13) 如下: 𝐻(𝑃) = ∑𝑛𝑖=1𝑝𝑖𝑙𝑜𝑔𝑏𝑝𝑖 (13) 其中 𝛲= (p1,p2,…,pn) 且 p𝑖= Prob(𝛸 = 𝑥𝑖) 𝐻(𝑃)為凹面且非負的一種函數。當𝐻(𝑃) = 0時,則𝑃最為集中,換言之, 當其中一個𝑝𝑖 = 1且其餘的𝑝𝑖 = 0時,𝑗就不等於𝑖;若𝐻(𝑃)為最大時,所有的𝑝𝑖 幾乎皆相同,也就是𝑝𝑖 =1 𝑛,∀𝑖=1,2,…,𝑛。假設在認知診斷適性測驗中,其先驗 機率的設定公式 (14) 如下: 𝑃𝑟(𝛼𝑐) = 𝜋0𝑐 (14) 其中 ∑ 𝜋0𝑐 2𝑘 𝑐=1 = 1 ,𝜋0𝑐 ≥ 0,∀𝑐= 1,2, … , 2𝑘,𝛫為屬性數。 假設如之前所述之演算法其設定方式,目前已做𝑛1 個試題,以𝑆𝑛1表示,W 則為整個題庫,而題庫中剩餘的題目則定義為𝑅𝑛 = 𝑊\𝑆𝑛1,做完𝑛1題之後, 其觀察的後驗分布表示公式 (15) 如下: 𝜋𝑛−1(𝛼𝑐) ∝ 𝜋0𝑐∙ 𝐿(𝑢𝑛1|𝛼𝑐) (15) 計算Shannon entropy之期望值, 𝑆𝐻𝐸𝑗(𝜋𝑛) = ∑ 𝐻 1 𝑥=0 (𝜋𝑛|𝑢𝑛1, 𝑈𝑗 = 𝑥) ∙ 𝛲(𝑈𝑗 = 𝑥)|𝑢𝑛1) 最後,從R 𝑛中挑選第𝑗題是為選擇第𝑛題之標準,其中最小為𝑆𝐻𝐸𝑗(𝜋𝑛),憑藉
24
著𝑆𝐻𝐸法所挑選出來的試題,其能將潛在認知狀態的後驗分布之不確定性降至 最小。實際上,若對數的基底為𝑏,其結果並不影響試題的選擇,它改變的只有 測量Shannon entropy的單位 (COVER & Thomas, 1991;卓淑瑜,2011) 。
參、合併 Kullback-Leibler 訊息與潛在狀態間的距離法
Henson與Douglas (2005) 認為一個試題「若能區辨好相雷同的潛在認知狀態 的話,這樣一來,更能將不相雷同的潛在認知狀態區辨好」。因此,Cheng (2009) 認為合併Kullback-Leibler訊息與潛在狀態間的距離法 (Hybrid KL, HKL) ,便能提供潛在認知狀態更多的權重使其更接近當前的估計值。歐式距離 是一種一般化的測量距離,公式 (16) 如下: 𝑑(𝛼̂, 𝛼𝑐) = √∑𝑘𝑘=1(𝛼̂𝑘𝛼𝑐𝑘)2 (16) 再次給予加權在KL法的每一個元素中,並提供當前估計的潛在認知𝛼與其 他潛在認知狀態𝛼𝑐的距離倒數,如此一來,便能得到一個混合指標 (江鴻鈞, 2012) ,即為 (HKL),其公式 (17) 如下: 𝐻𝛫𝐿𝑗(𝛼̂) = ∑ (∑ log ( 𝑃(𝑈𝑗 = 𝑢|𝛼̂) 𝑃(𝑈𝑗 = 𝑢|𝛼𝑐)) 1 𝑥=0 𝛲(𝑈𝑗 = 𝑢|𝛼̂) ∙ 𝜋𝑛1(𝛼𝑐) ∙ 1 𝑑(𝛼𝑐, 𝛼̂)) 2𝑘 𝑐=1 (17)肆、基於Kullback-Leibler訊息之後驗加權KL法
對於Kullback-Leiber訊息之KL法其基本假設為每一個潛在認知概念屬性組 型,在所有的選題𝛼𝑐(𝑐 = 1,2, … , 2𝑘)皆為一致,換言之,每個潛在認知概念屬性 組型其存在機率為相同。但這並不符合現實情況。而後,Cheng (2009) 改良KL 法並提出基於Kullback-Leibler訊息之後驗加權KL法 (posterior-weighted KL, PWKL) ,意指將每種潛在認知概念屬性組型其後驗分布作為權重並加進在KL25 法中,方便區辨不同的認知概念屬性組型 (江鴻鈞,2012) ,PWKL法公式 (18) 如下: 𝛲𝑊𝐾𝐿𝑗(𝛼̂) = ∑ (∑ log (𝛲(𝑈𝑗 = 𝑢|𝛼̂) 𝛲(𝑈𝑗 = 𝑢|𝛼𝑐) ) 1 𝑥=0 𝛲(𝑈𝑗 = 𝑢|𝛼̂) ∙ 𝜋𝑛1(𝛼𝑐)) 2𝑘 𝑐=1 = ∑ (∑ 𝑙𝑜𝑔 (𝑃(𝑈𝑗 = 𝑢|𝛼̂) 𝑃(𝑈𝑗 = 𝑢|𝛼𝑐)) 1 𝑥=0 𝑃(𝑈𝑗 = 𝑢|𝛼̂) ∙ 𝜋0(𝛼𝑐)𝐿(𝑢(𝑛1)|𝛼𝑐)) 2𝑘 𝑐=1 (18) 𝑢(𝑛1):為學生完成了𝑛1題試題其作答反應。 𝜋0(𝛼𝑐):為𝛼𝑐之先驗分布。 𝐿(𝑢(𝑛1)|𝛼 𝑐):為概似函數。 HKL法和PWKL法其兩者指標之間差異是在於,若其他潛在認知狀態接近𝛼̂ 且其他條件相等時,PWKL法選到的試題會有較佳的區別,因此選擇PWKL做為 選題之方法。
第五節 終止條件
Huebner (2010) 認為最大概似估計法 (Maximum Likelihood, ML) 是在計算 學生目前的作答反應𝔦在全部的潛在認知概念屬性組型αc的發生機率,而當潛在 的後驗分佈發生機率達到0.8,也就是大於八成以上的發生機率已經相當高,故 可停止測驗。潛在的後驗分佈公式 (19) 如下 (Huebner, 2010) : P(𝛼𝜄|𝑈𝑖) = P(U𝑖|𝛼𝜄)P(𝛼𝜄) ∑𝐿 P(𝑈𝑖|𝛼𝑐)P(𝛼𝑐) 𝑐=1 (19)
26 𝑈𝑖:表示學生𝑖的作答反應。 αι:潛在認知概念屬性αc組型可能發生的組型。 P(𝑈𝑖|αc)P(αc):表示學生𝑖的目前作答反應的發生機率。 ∑L P(𝑈𝑖|αc)P(αc) c=1 :所有可能發生潛在認知概念屬性αc組型的機率在學生目前 的作答反應之連加。
27
第三章 研究方法
本研究主要目的是建置以認知診斷為基礎的電腦適性化動態提示測驗補救 教學系統,進而提高國小五年級學生在數學領域之學習效果。依據本研究之目 的與相關文獻探討所得的結果,本章分為研究架構、系統架構與設計、建立選 題方法、資料分析方法、研究對象及研究工具等六個部分來做說明。第一節 研究流程
壹、研究流程
本研究流程共分為九個步驟,以下如圖3-1所示。 一、確定研究主題與單元並蒐集相關文獻 確定電腦化適性測驗、認知診斷、選題策略、動態評量以及國小四年級第 二學期整數四則運算之單元,再來蒐集相關文獻。 二、分析學生須具備之認知概念屬性,並建立整數四則運算之單元相關認知概 念屬性與 Q 矩陣,再根據 Q 矩陣編製測驗試題,設計預試試題測驗卷 本研究是根據教育部訂定國小四年級數學五大能力指標以及康軒文教集團 設計國小四年級數學領域教學計畫表之分年細目而編製試卷,最後再由本 研究者與多位數學教師共同設計出國小四年級第二學期數學之整數四則運 算單元裡的概念屬性,且依據其概念屬性編製預試測驗卷。 三、進行第一次紙筆測驗預試 根據步驟二之試卷進行第一次紙筆測驗預試,試題共有18題,題型為計算 題,時間為一節課,預試完畢後將試卷收回並建檔以供分析。28 四、找出錯誤率高的答案並進行第二次紙筆測驗預試 將第一次紙筆測驗預試的試卷回收建檔後,分析受試者其作答情形,且找 出每題錯誤率最高之答案,並將其答案製作成選擇題錯誤之選項,而後進 行第二次紙筆測驗預試,試題共有18題,題型為選擇兼計算題,時間為一 節課,預試完畢後將試卷收回並建檔以供分析。 五、估計試題參數 (猜測、粗心機率) 並依據學生技能屬性以及題目技能屬性, 編製補救教學回饋提示 本研究將第二次紙筆測驗預試完畢後將 228 份學生的作答反應輸入電腦 中,利用 OX 軟體分析受試者其作答情形反應,並找出預試之猜測與粗心 機率且依據學生技能屬性以及題目技能屬性,編製補救教學回饋提示,使 學生在測驗過程中能給予立即性之協助,進而提升學生的學習潛能。 六、模擬 Q 矩陣在不同終止條件下,省題率與平均屬性辨識率 本研究使用Matlab進行模擬樣本資料的產生,此樣本資料分為兩種,其一為 模擬資料,也就是Q矩陣分為每題平均1.2個、1.8個、2.4個、3.6個等四種不 同的屬性個數,之後再由Matlab隨機產生50筆且人數為1000人、題庫為300 題、slip與guess上下限皆為0.05~0.25之間的作答反應;其二為實徵資料,也 就是52名學童為研究對象並採紙筆測驗方式進行施測,最後再分別設0.7、 0.75、0.8、0.85、0.9等五種終止條件,其目的是瞭解每題平均不同個數之 屬性與不同終止條件下,其平均屬性辨識率與省題率之結果。 七、建置基於DINA模式之電腦化適性動態評量系統 將所有試題匯入基於 DINA 模式之電腦化適性動態評量系統的題庫中,再 把以 DINA 模式之 PWKL 選題法其終止條件值為 1、0.8、0.7 也匯入系統, 即可使開始使用以認知診斷為基礎之適性動態評量系統,且以此三種選題 方法作為選題策略,進行適性動態評量補救教學。 八、探討基於DINA模式之電腦化適性動態評量在不同終止條件下,其補救教學
29 的學習成效,以下分為三組進行分組補救: (一) 第一組「終止條件值設為1」,也就是無終止條件之狀態。 (二) 第二組「終止條件值設為0.8」,本研究依據Huebner (2010) 所研究之結果 而將終止條件值設為0.8。 (三) 第三組「終止條件值設為0.7」,由本研究模擬得知,模擬後之結果其最佳 終止條件值為0.7,因此將終止條件設為0.7 首先進行紙筆測驗前測,施測完畢後,三組分別為第一組、第二組、第三 組,進行電腦化適性動態評量作為補救教學;動態評量補救教學後,再進 行紙筆測驗後測。 九、探討基於 DINA 模式之電腦化適性動態評量在不同終止條件下,其省題率 之差異,最後撰寫研究報告。
30
貳、研究流程圖
本研究流程圖為如圖 3-1 所表示。 圖 3-1 研究流程圖 確定研究主題與單元 蒐集「整數四則運算」單元相關能力指標之文獻 分析須具備之子技能,並建立 Q 矩陣 依據 Q 矩陣編製測驗試題,設計預試試題測驗卷 第一次紙筆測驗預試(計算題) 找出錯誤類型 前測(紙筆測驗) 建置基於 DINA 模式之電腦化適性動態評量系統 第一組 終止條件設為1 第二組 終止條件設為 0.8 後測(紙筆測驗) 撰寫研究報告 第二次紙筆測驗預試(選擇題) 估計試題參數(猜測、粗心機率) 第三組 終止條件設為 0.7 模擬不同 Q 矩陣在不同終止條件下,省題率與平均屬性辨識 電腦化適性動態評量 分組教學31
第二節 系統架構與設計
壹、系統架構
本研究參考 (李婕婷,2013) 採用主從式架構做為建置基於DINA模式之電 腦化適性動態評量系統。
一、作業系統:Microsoft Windows Server XP
Microsoft Windows Server XP,目前是最普遍也最方便管理的作業系統。 二、伺服器軟體:WAMP5即是Windos Apache Mysql PHP的縮寫
簡單來說就是在window作業系統上,使用PHP程式語言並結合MySQL資料 庫、Apache Web網路伺服器模組等三種程式,封包成一個安裝伺服器軟 體。 三、後端資料庫伺服器:MySQL 5.6.12 MySQL 5.6.12為高效能的資料庫,且版本可在多種平台上使用,常用來執 行程序與存放題庫、使用者資料、測驗結果等。 四、網頁伺服器軟體:Apache 2.4.4 Apache 2.4.4能支援多種網頁語言且為免費軟體。 五、網頁伺服器端之程式語言:PHP PHP 為互動式程式語言之一,能在多種平台上執行,且編寫容易進入門檻 不高,因此使用PHP來與資料庫進行連結且發展各項模組功能程式,進而完 成系統模組功能之需求。 六、程式編輯軟體:PSPad PSPad一款操作容易且功能齊全的免費編輯軟體。此編輯軟體既可當作純文 字文件輸入軟體又可編寫程式,其使用之彈性與便利性是頗佳的。 七、語法產生器:HTML
32 使用者經由HTML登入系統,也就是透過網頁瀏覽器進入系統畫面,而此系 統之使用權限也會因使用者類型不同而有所不同。
貳、電腦化適性動態評量流程
一、學生輸入帳號密碼登入系統。 二、選擇版本及單元後,點選選擇完畢送出。 三、系統隨機選擇題庫裡的試題作為第一題。 四、當X學生試題未經提示就答對時,則依據X學生完成的n − 1題試題之作答反 應進行下一題之選題,而選題是以X學生其認知概念屬性為基底,再估計不 同認知概念屬性之平均鑑別指數,最後給予最接近之試題進行作答;倘若 答錯,則判斷該試題是否還有回饋可提供給X學生,有則給予X學生回饋並 再次作答,無則直接給予X學生完整的教學解題過程,並依據X學生完成的 n − 1題試題之作答反應進行下一題之選題。 五、當X學生其估計值的標準誤差之後驗分佈達到終止條件所分別設定ε值時, 即可結束測驗。其步驟如圖3-2。33 圖3-2 適性動態評量流程設計 受試者再作答 開始測驗 系統隨機選擇題庫裡 的試題作為第一題 受試者作答 是否答對 有無提示 完整教學 系統提示 是否答對 估計值的標準誤差之後驗分佈 是否為 0.7 結束測驗 依據n − 1題試題 之作答反應 進行之選題 系統選擇n − 1題試題 之作答反應進行下一題 題庫 是 否 否 是 否 是 是 否
34
參、系統模組設計
本研究所設計之系統模組及使用者與資料庫其關係圖是參考曾彥鈞、劉育 隆、郭伯臣 (2006) 與丁境蔚 (2009) 以及李婕婷 (2013) 如以下圖 3-3 所表示, 包括題庫維護模組、動態評量模組、帳號管理模組、試卷分配模組、成績查詢 模組等。以下將對各模組分別進行說明。 一、題庫維護模組 管理者可進行題庫的新增、修改或刪除,包括建立單元、上傳選擇模式方 法 (第一組、第二組、第三組) 、建立試卷及試題。 二、帳號管理模組 管理者在新增帳號時能一次匯入多筆使用者資料,亦或是針對個別使用者 進行新增、修改或刪除之選擇,而且還可查詢資料庫中所有使用者的帳號,以 便管理者做彈性修改。 三、試卷分配模組 本系統其試卷分配是以班級為單位,因此管理者需先選擇欲施測之班級, 再選擇欲施測之試卷及選題策略,便能將試卷分配至指定之班級。 四、動態評量模組 學生在適性動態評量補救教學時,此系統會依據試卷分配設定之選題策略 進行適性選題,並依照選題方式與學生之作答反應,給予受試者最適當的試 題,最後在動態評量結束時,將學生的作答歷程一併存回資料庫中。 五、成績查詢模組 管理者能透過成績查詢模組,查詢所有學生的作答歷程;而學生亦可經由 此模組,進行查詢個人歷來成績。35 圖3-3 圖3-3 基於DINA模式之電腦化適性動態評量補救教學系統
第三節 建立選題方法
壹、模擬資料
本研究使用Matlab進行模擬樣本資料的產生,以DINA模式之PWKL選題方 法進行估計終止條件估計其屬性的平均屬性辨識率,並探討估計終止條件的準 確性與穩定性。本模擬研究的Q矩陣是參考Cheng與Chang (2007) 以及Cheng (2009) 其實驗設計來產生模擬之試題題庫,其題庫之Q矩陣認知屬性概念數 A=6,與本研究之實徵屬性概念數相同,因此使用之,並設定每個試題有20%的 機率測量到每個認知屬性概念,也就是說每題的平均測量到6×20%=1.2個認知概 念數,此設定方式能確保每個認知屬性概念在題庫中被測量到的數量是相同 的。為了更清楚瞭解各選題法在不同Q矩陣設計下之效果,故本研究根據上述設 資料庫 系統模組 使用者 題庫維護模組 帳號管理模組 試卷分配模組 動態評量模組 成績查詢模組 管理 學生 題庫資料 帳號資料 試卷資料 選題資料 測驗成績36 定平均認知屬性概念數為1.2個外,另加上卓淑瑜 (2011) 之實驗設計3.6個,共 兩種Q矩陣設計,最後再分別設0.7、0.75、0.8、0.85、0.9等五種終止條件,是 為了瞭解每題平均不同個數之屬性與不同終止條件下,其平均屬性辨識率與省 題率之結果,整理如表3-1 表 3-1 不同平均屬性在不同的終止條件的試題參數 Q 矩陣每題 平均屬性 1.2 1.8 2.4 3.6 題庫 300 300 300 300 人數 1000 1000 1000 1000 guess 0.05~0.25 0.05~0.25 0.05~0.25 0.05~0.25 slip 0.05~0.25 0.05~0.25 0.05~0.25 0.05~0.25 測驗題數 18 18 18 18 終止條件值 0.70 0.70 0.70 0.70 0.75 0.75 0.75 0.75 0.80 0.80 0.80 0.80 0.85 0.85 0.85 0.85 0.90 0.90 0.90 0.90 研究結果發現,在 DINA 模式下,不同 Q 矩陣在不同終止條件其平均屬性 辨識率與省題率,如表 3-2:
37 表 3-2 不同 Q 矩陣在不同終止條件的平均屬性辨識率與省題率 Q 矩陣每題 平均屬性 終止條件值 guess=0.05~0.25 slip=0.05~0.25 ACCR 省題率 1.2 0.70 95.1% 54.9% 0.75 96.0% 49.6% 0.80 96.9% 43.8% 0.85 97.8% 37.5% 0.90 98.6% 30.7% 1.8 0.70 95.2% 52.3% 0.75 96.1% 47.7% 0.80 96.9% 42.6% 0.85 97.8% 36.9% 0.90 98.5% 30.7% 2.4 0.70 95.1% 51.7% 0.75 96.0% 47.3% 0.80 96.9% 42.3% 0.85 97.7% 36.8% 0.90 98.5% 30.8%
38 表 3-2 不同 Q 矩陣在不同終止條件的平均屬性辨識率與省題率(續) Q 矩陣每題 平均屬性 終止條件值 guess=0.05~0.25 slip=0.05~0.25 ACCR 省題率 3.6 0.70 95.0% 46.7% 0.75 95.9% 42.2% 0.80 96.7% 37.2% 0.85 97.5% 31.7% 0.90 98.2% 25.7%
貳、實徵資料
本研究以台中市五年級2班,共52名學童為研究的實徵對象,採紙筆測驗方 式進行施測,其單元為教育部頒定國小數學教材「數與計算」中,四年級第二 學期「整數四則運算」為例,而試卷題目則是由本研究者與數學教師共同命 題,猜測與粗心參數皆由OX分析軟體跑出之結果如表3-3。 表3-3 猜測與粗心參數 試題 g s 試題 g s Item1 0.5643 0.0001 Item10 0.0001 0.0322 Item2 0.5643 0.0001 Item11 0.6193 0.1202 Item3 0.0001 0.0273 Item12 0.5709 0.1384 Item4 0.0001 0.0182 Item13 0.4883 0.1009 Item5 0.2946 0.0026 Item14 0.2784 0.0902 Item6 0.1511 0.0787 Item15 0.5951 0.0452 Item7 0.2433 0.0822 Item16 0.1453 0.0902 Item8 0.0349 0.1302 Item17 0.0695 0.0675 Item9 0.0568 0.1020 Item18 0.1805 0.006939 研究結果發現,在 DINA 模式下,國小數學整數四則運算實證資料在模擬 中其平均屬性辨識率與省題率,發現當終止條件值在 0.7 時,其可節省 30%之試 題,因此可將此數據寫入程式,作為「基於 DINA 模式之電腦化適性動態評量 補救教學系統」之終止條件,如表 3-4: 表 3-4 實證資料在模擬中平均屬性辨識率與省題率 實徵資料 終止條件值 ACCR 省題率 5 年級 2 個班 共 52 人 0.70 97.4% 30.2% 0.75 98.1% 4.2% 0.80 98.1% 0.1% 0.85 98.1% 0.1% 0.90 97.8% 0.1%
参、評估準則
本研究使用平均屬性辨識率 (average correct classification rates, ACCR) 作為 評估標準。平均屬性辨識率意指模擬產生之受試者其認知組型與經由模擬適性 測驗所產生之估計受試者之概念屬性組型,其兩者之間差異多少 (江鴻鈞, 2012) ,而模擬資料與實徵資料皆用平均屬性。平均屬性辨識率 (20) 如下: (20) N:受試者總人數。 K:Q矩陣認知概念屬性數。 αik:受試者i其模擬認知概念屬性,當αik = 1時表受試者i精熟認知概念屬性
40 k,而αik = 0則相反。 αij ̂:受試者經由模擬適性測驗所產生之估計概念屬性組型,當時表示α̂ = 1時表ij 示受試者i精熟認知概念屬性i,α̂ = 0則相反。 ij 三、節省題數率 本研究使用節省題數率作為模擬資料之評估標準。省題率意指受試者的平 均作答題數佔總題數的百分之多少。省題率計算公式 (21) 下: 省題率=(總題數-平均施測題數)÷ 總題數 (21)