以貝氏網路為基礎的適性測驗電腦化的可行性評估-以國小數學科診斷測驗為例

(1)

國立台中教育大學數學教育研究所

理學碩士論文

指導教授 : 郭伯臣博士

以貝氏網路為基礎的適性測驗電腦

化的可行性評估

-以國小數學科診斷測驗為例

研究生 : 林垣圻撰

中華民國九十五年一月

(2)

誌謝

本論文能夠完成，要感謝許多人在學習上，研究方法上，生活上，給予小弟相當多的協助。首先，最感謝的是指導教授郭教授伯臣先生。由於您的悉心指教，時時給予激勵，提供創新的想法，引導我按步就班達成目標，此論文才能夠如期完成。其次，要感謝的是劉教授湘川先生。由於您在關於貝氏網路理論上的講解，讓我很快的了解怎麼去使用這樣的理論基礎來作此研究，因此實作線上學習診斷系統的程式時，才能順順利利的完成。另外，也感謝這次口試委員，劉湘川教授、曾教授在論文上提供意見與指教，讓我學習到更多知識，並且改正許多錯誤的寫法。此外，仍感謝台中市上石國小蘇校長哲賢先生，允許我能利用上班時間公假外出進修，讓我能安心上課、研究，不耽誤學習研究工作。感謝雅菱、俊儀和實驗室貝氏網路組的同學們，在研究的路上的互相提攜與相互幫助，讓我在研究這條路上，倍感溫馨。最後，則感謝父母親大人的教養，僅以今日的成就獻給你們。林垣圻 94.12.28

(3)

摘要

在現今的電腦化適性測驗實作中,我們沒看到有利用貝式網路作為推論基礎所實作的線上學習診斷方式；因此，我們希望能作出這樣的系統，並評估它的可行性，所以我們用根據不同學生的作答反應，給予不同題目作答的選題方式，實地的建構出一個實體的線上學習診斷系統，讓學生可以透過網際網路，在不同的時空下，隨時隨地的上網診斷以了解自己的學習成效。這樣的作法，可以改變了以往的學習診斷方式，也符合現代人對 速度和時間的要求的。 貝氏網路是人工智慧方面相當熱門的領域，它在醫學、工程方面應用相當廣泛，近來也被應用在教育方面。因此，我們將其優點應用到電腦化適性測驗，利用貝氏網路的推論能力，來診斷學生的錯誤類型、及擁有的技能。本研究以國小四年級數學科「面積」單元為例，利用試題證據訓練貝氏網路，選用ＡＯ*演算法來作為選題策略，建構試題結構，以建立實體的電腦線上診斷系統，來分析了解一.實體的線上學習診斷系統是否可行? 二.適性選題的診斷在實體線上學習診斷系統上，是否具有功效?所以我們收集學生實際在線上作答的情況，以貝式網路作為分析的工具，討論其正確率，作為實體線上診斷是否可行的參考。關鍵字:貝氏網路，電腦化適性測驗，ＡＯ*演算法。

(4)

Abstract

In implementing computerized adaptive testing today , we have not seen the utilization of Bayesian Networks as the foundation for learning diagnose on-line , Hence , we would like to build a system , and assess its feasibility , the system provides different answering choices according to the answer of different students , it will build a real learning diagnose on-line system which enables students to understand their own studying performance through the internet network , under different time and space . Such a practice , would change the way of study and diagnose used in the past , and satisfy people's need in terms of speed and time .

Bayesian Networks is a widely used in the up-to-date artificial intelligence field . it is not only rewarded for prediction and examination on educational teaching but also it has been extensively applied in the fields of medicine and engineering. With the help of technology development of computerized adaptive testing , researchers now can diagnose the types of mistakes and skills of examinees through implementing the advantage of inference abilities .

This paper probes into the mathematic unit of square measure of grade 4, using the evidence of test questions to train Bayesian Networks , and uses AO* Algorithms as strategy of selecting items to construct question structures that provides to implement the real learning diagnose on-line system . By using system to analyze the following questions ; First , is the real learning diagnose on-line system feasible? Second, does adaptive selecting item on real learning diagnose on-line system have any efficiency ? So we collected the situation of students answered items , using Bayesian Networks as tools of analyzing ,

(5)

discussing its correct rate , and doing the entity whether real learning diagnose on-line system is a feasible reference or not .

Key word: Bayesian Networks , Computerized Adaptive Testing , AO* Algorithms.

(6)

目錄

摘要 ………Ⅰ Abstract Abstract Abstract Abstract ………Ⅱ 目錄 ………Ⅳ 表目錄 ………Ⅵ 圖目錄 ………Ⅶ 第一章緒論第一節研究動機………1 第二節研究目的………3 第三節論文架構………4 第四節名詞解釋………5 第五節研究範圍與限制………7 第二章文獻探討第一節貝氏網路………8 第二節貝氏網路在教育測驗上的應用………12 第三節電腦適性化測驗理論………16 第四節以貝氏網路為基礎適性化測驗選題策略………19 第三章研究方法第一節研究流程與設計………25 第二節研究工具………41 第四章研究成果第一節選題數不同的適性選題分類正確率的比較………42

(7)

第二節使用固定試題數和 18 題全做的比較 ………46 第三節使用演算停止閥值方式和 18 題全做的比較 ………47 第五章結論與建議第一節結論………48 第二節建議………50 參考文獻中文部分………51 英文部分………52 附錄一施測試題………53 附錄二面積貝氏網路二元計分分類決斷值之辨識率…………54

(8)

表目錄

表 4-1-1 選題數和分類正確率總平均值的關係………36 表 4-1-2 不同選題數的各個分類正確率值的接近度比較………37 表 4-2-1 不同固定選題數和專家判定的分類正確率關係………40 表 4-3-1 完整試題數、不等試題數和專家判定的分類正確率關係……41

(9)

圖目錄

圖 2-1-1 多節點貝氏網路結構圖………10 圖 2-2-1 概念評量架構的原則設計圖………12 圖 2-4-1 試題結構圖………17 圖 3-1-1 .奇數座號(固定試題長度方式)診斷之系統流程圖 ………24 圖 3-1-2 .偶數座號(stop criterion 方式)診斷之系統流程圖………26 圖 3-1-3 線上實測操作步驟一 ………27 圖 3-1-4 線上實測操作步驟二 ………28 圖 3-1-5 線上實測操作步驟三 ………29 圖 3-1-6 線上實測操作步驟四 ………30 圖 3-1-7 線上實測操作步驟五 ………31 圖 3-1-8 線上實測操作步驟六 ………32 圖 3-1-9 線上實測操作步驟七 ………33 圖 4-1-1 分類正確率總平均值和選題數的關係 ………37 圖 4-1-2 不同選題數的各個分類正確率值之間的接近情況 ………38

(10)

第一章緒論

第一節研究動機

資訊社會中，人們最在乎的是時間、速度和成效，因此建置一套線上學習診斷系統，並利用電腦和網際網路的特性，來突破時空的限制，透過診斷系統的診斷，讓學習者很快的了解自己在學習上的成效，是一個急需要的工作。以往在國小數學教學上，教學者爲了瞭解學生學習該單元的迷思所在，以利教師進行後續的補救教學或改進教學方法，多半是以質的分析方式為主，例如：對個別學生進行訪談、原案分析等等的方式。這類方式雖然可以比較深入地了解學生的想法及其錯誤在哪裡，但是會因個案的不同而有不同的處理方式，且非常耗時耗力，對於教學工作繁重的國小教師而言，上述方式不太容易在實際教學中實行。因此我們希望實作一套這樣的診斷系統，協助教師快速有效的診斷出學生的學習狀況，作為其補救教學及改進教學方法的依據。貝氏網路近年來相當熱門的應用在一些專業領域上，舉凡是資訊科學的人工智慧，醫學的疾病診斷，體育的足球得分預測，都能利用貝氏網路來達成。就其應用的領域的特性來看，和教育環境中學生錯誤類型的診斷，和其有非常相似之處，都有不確定性的因素成分，以及變項多的特性，所以應用貝氏網路於教育測驗上是有其可行性。而且，國外也有測驗機構，用此方式於教育測驗上。因此，我們才以貝氏網路為分析工具。我們使用之前(李俊儀，許雅菱，施淑娟，郭伯臣，許天維，民 94) 的研究，針對國小數學面積單元，建立一個以「錯誤類型」和「技能」為診斷單位，將學童的實際作答反應樣本分成訓練和測試樣本，訓練樣本用來訓練貝氏網路，而測試樣本則用來測試其達到的正確率，透過貝氏網路

(11)

預測並且診斷學童具有的錯誤概念和技能，找出最佳分類決斷值，做較接近真實的分類及診斷，以此分類決斷值用在以貝氏網路為基礎的電腦化適性測驗的分類判斷標準。再根據研究者之前的研究(李俊儀，林垣圻，郭伯臣，民 94)，以執行的速度來看，我們選用 AO*演算法作為電腦化適性測驗的選題策略，建構出試題結構，作為實作電腦化適性測驗線上學習診斷系統的試題選擇依據，比較學生在適性化選題下的作答情形和非適性化選題下作答情形之間的分類正確率，希望有高診斷正確率。

(12)

第二節研究目的

基於上述的動機，本研究探討以貝氏網路為基礎的電腦化適性測驗，是否適合建立線上學習診斷系統。要達成這樣的目標，研究的目的如下﹕ 一、比較固定試題數的適性選題時，選題數的不同，對分類正確率的影響。二、選擇全部試題皆作的方式，線上實作後，經過貝式網路推論結果和專家判定比較的分類正確率。三、選擇固定試題數的適性選題時，分類正確率最高的選題數，線上實作後，經過貝式網路推論結果和專家判定比較的分類正確率。四、選擇固定試題數的適性選題時，各別的分類正確率值的最接近的選題數，線上實作後，經過貝式網路推論結果和專家判定比較的分類正確率。五、比較適性選題時，使用演算停止閥值選題方式，線上實作後，經過貝式網路推論結果和專家判定比較的分類正確率。

(13)

第三節論文架構

本篇論文分成五個章節，分析以貝氏網路為基礎的電腦化適性測驗所建立的線上學習診斷系統的可行性，第一章部分，說明進行這個研究的動機，研究目的，整篇論文的架構。第二章部分，就貝氏網路理論，貝氏網路如何應用在教育測驗上，電腦化適性測驗，選題策略等，進行理論和技術的探討研究。第三章部分，說明研究的方向，如何進行研究的步驟，研究的硬體設備，軟體等。第四章部分，針對研究的目的，經模擬實驗之後的結果，提出探討、評析。第五章部分，就模擬實驗後的結果，提出討論，並對未來研究方向及改善做出建議。

(14)

第四節名詞解釋

針對本研究常見的名詞，釋義如下﹕

一、貝氏網路

貝氏網路是機率圖形模式，變項代表是一個事件，各個變項之間，用有向箭頭連結，形成貝氏網路圖﹔在給定證據之後，利用貝氏定理的先驗機率和聯合機率，推論後驗機率，了解事件發生的機率有多大。

二、電腦化適性測驗

電腦化適性測驗是一種電腦化的測驗，電腦依受試者的作答反應從題庫中依管制題目的規則，選出受試者要作答的下一題，因此，不同受試者的作答題目情況不一樣，卻能達成一定範圍的診斷正確率，不會因作答題數少或作答題目的不同，而診斷的正確率降低。

三、分類決斷值

由於經貝氏網路推論所得的後驗機率，是分布在 0 和 1 之間的小數，所以我們選定一個純小數值做為決斷值，用來決定技能或錯誤類型的有無，決斷值以上便認定該機率值足以使該事件具有這樣的性質，也就是有，之下則認定該機率值不足以使該事件具有這樣的性質，也就是沒有。

四、動態分類決斷值

經貝氏網路推論所得的技能或錯誤類型的後驗機率，分別選定各自的分類決斷值，用來決定技能或錯誤類型的有無，此分類決斷值的集合稱為動態分類決斷值。

五、AO*演算法

(15)

依試題的期望亂度(expected entropy)決定下一步要使用那一試題施測。每次從施測過後，剩下的試題中，找出期望亂度(expected entropy) 最小的試題，作為下一題施測題目。

六、演算停止閥值(stop criterion)

透過 AO*演算法或它種演算法來建構試題結構後，我們依試題結構樹的路徑，將路徑節點上的試題依序以 1 題、2 題、3 題…..方式進入貝氏網路推論得到技能和錯誤類型的後驗機率平均值，之後選定一個純小數值，當前後次推論結果的後驗機率平均值差的絕對值小於此值時，我們就停止不再將試題送入貝式網路推論，並將在此路徑的此點以下的節點都去除，最後我們將得到一個路徑不等長的試題結構樹，這也可以稱為不等選題數的試題結構樹。

(16)

第五節研究範圍與限制

本研究基於個人的體力與時間，研究樣本僅以彰化縣，台中市，南投縣之國小四年級學童為主，共抽取 573 名作為施測樣本，因此，貝氏網路中錯誤類型變項與先驗分布之設定，可能會受到取樣的影響，造成結果推論上的限制。以數學科面積單元為範圍，當作貝氏網路的訓練和測試樣本，因此，所建構的貝氏網路，技能和錯誤類型，以及試題皆和該單元有關，提供的電腦適性化測驗以該單元為限，無法作為其他單元甚至其他年級類似單元的測驗平台。本研究將學生實際線上作答試題的資料，先委請專家(包括一位師院教授，以及二位專家教師)進行原案分析的方式，來建立所有受試者錯誤類型的效標，再由其他參與過相關研究，並受過診斷評量專業訓練的國小教師複閱，透過相互校正，提高校標的準確度。其中，專家效標部分會涉及分析者主觀的判斷，容易發生分類上的爭議。未來若要擴及其他單元，必須蒐集其他單元學生的作答反應資料，再就其錯誤類型和技能，以及試題，建構其貝氏網路結構圖，再施以訓練，以獲得訓練好的貝式網路推論程式，這是貝氏網路的限制。

(17)

第二章文獻探討

第一節貝氏網路

一、簡介

本研究中，使用貝氏網路作為分類推論的工具，首先，介紹貝氏網路。貝氏網路是機率圖形模式，可將教育測驗領域中不確定性，組合成模型（Vomlel, 2004）。使用圖形模式的優點是，它能很容易而且清楚的表達變數之間因果關係，藉由機率來表達關係的強度，也可作為未來推論的工具。貝氏網路是一個應用十分廣泛的工具，特別是人工智慧系統、電腦化科學、決策學、工程學。因為貝氏網路是以非循環有向圖 (Directed Acyclic Graph, DAG) 為基礎，應用其變數之間的因果關係，與其相互影響的機率，所以，貝氏網路也叫做貝氏信念網路(Bayesian Belief Networks)、信念網路(Belief Networks)、因果關係網路(Casual Networks)、機率網路(Probabilistic Networks)或者為知識地圖(Knowledge Map)(蘇俊和，民 91)。

貝氏網路將量化和質化的知識編成有意義的符號，量化的知識用條件機率表 (Condition Probability Table, CPT)表示，質化的使用有向性非循環圖編碼。有向性非循環圖暗示變數(X )i i∈V之間某些條件獨立關係（Vomlel, 2004）。

貝氏網路結構圖是非循環有向圖(Directed Acyclic Graph)所構成。所謂非循環就是無有向閉路、無有向迴路及自我迴路之圖形稱為「非循環圖(acyclic graph)」。有向圖形是由頂點(vertex)的集合。V ={v₁,v₂,...,v_n}和有向邊(directed

edge)的集合E={e→₁,e→₂,...,e→_m}所組成，簡寫成G(V,E)，令G =G(V,E)(劉湘川，民

(18)

個完整的貝氏網路結構圖，包含二個部分，分別是節點(Node)(就是頂點)，及有向邊。在貝氏網路中，節點對應於有限範圍中的任意的變數，例如：本研究中，節點代表技能，錯誤類型，試題，在貝氏網路結構中，節點間的連結，用有向邊連結，而有向邊的有無即代表其節點之間的關係，是否為條件相依或條件獨立的情形﹔節點連結表示條件相依有向圖頂點之關係可藉「親屬關係」來表示。親屬關係包含;親代(parents), 子代(children)，後代(descendants pasts)，祖先(ancestors)，配偶(spouses)。若 X→Y 則稱「X 為 Y 之親代」且稱「Y 為 X 之子代」。

二、貝氏定理

貝氏網路根據貝氏定理建立的，在本節內對貝氏定理簡介，貝氏定理是: P(B) P(B|A)P(A) P(A|B)= 條件機率P(B|A)表示給予A的條件之下，B發生的機率。機率P(A)和機率P(B) 表示A和 B各自發生的機率。P(B|A)，P(B)和 P(A)在研究中是先用訓練的資料求得。在多節點的貝氏網路中，令U =(X1,X2,...,Xn)為所有變數的範圍，其聯合機率 ) ,..., , (X1 X2 Xn P 為P(U)，P(U)可以從貝氏網路的條件機率中被明確的求出，只要在 U 中條件獨立依然成立，聯合機率分佈P(U)即為所有的條件機率的乘積，其數學式子如下(Lee, 2003)： ) ,..., , ( ) (U P X1 X2 Xn P =

(19)

∏

= − = n i i i X X X X P 1 1 2 1, ,..., ) | (

∏

= = n i i i pa X X P 1 )) ( | ( )) ( | ( ) ,..., , | (Xi X1 X2 Xi 1 P Xi pa Xi P ₋ = 在此 pa(X_i)為X_i的父節點。圖 2-1-1 多節點貝氏網路結構的例子。X1 是 X3 的父節點，有條件機率 P(X3|X1)。X3和 X4是 X5的父節點，所以條件機率是 P(X5|X3,X4)。貝氏網路全部節點的聯合機率則為 ) 4 , 3 | 5 ( ) 2 | 4 ( ) 2 ( ) 1 | 3 ( ) 1 ( ) , , , , (X1 X2 X3 X4 X5 PX PX X PX P X X PX X X P = 因此，若已知觀測節點 X5，可以依貝氏定理推論，求其餘節點發生的條件機率，如下: ) ( ) , , , , ( ) | , , , ( 5 5 4 3 2 1 5 4 3 2 1 X P X X X X X P X X X X X P = 圖 2-1-1 多節點貝氏網路結構圖 X1 X2 X4 X3 X5

(20)

三、建立貝氏網路模型的步驟

總結以上的觀念，要建立貝氏網路來作推論，必須取得研究資料樣本後，先根據資料及學科專業知識的分析，建立一個完整的貝氏網路結構模型、再根據資料來進行推論。建立模型的過程分成以下三個步驟： (一) 設定模型中，節點的機率對問題中，計算所有可觀測節點和未觀測節點的先驗機率及條件機率分布。這模型中節點的連結，要符合該領域資料群體特性及專業知識。 (二) 以觀測到的資料當證據以觀測的資料當證據，透過貝氏網路推論，獲得所感興趣的未觀測節點後驗分布。 (三) 評估後驗機率的正確率將模型填入這些資料適合嗎？這後驗機率對建立模型中所要知道的節點推論是否正確？根據以上三個步驟的檢視後，取得一個完整而且最合適的貝氏網路模型，將可根據此貝氏網路模型來進行推論。

(21)

第二節貝氏網路在教育測驗上的應用

教育評量專家常常能確認哪一個技能能解決什麼樣的試題，以及這些技能的哪一個形式(pattern)產生較佳的期望效果。要將貝氏網路應用教育測驗上，必須要事先定義，在模型中所使用的技能，錯誤類型，試題庫。例如：令Y ={Y₁,....Y_k} 代表受測的技能、能力、及迷思概念的集合。X =

{

X₁,...,X_m

}

代表試題的集合。明確的定義技能，以及哪些錯誤類型和試題之間，有哪些關聯。

根據許雅菱(民 94)文中提到 Mislevy, Almond & Lukas(2003)所提出的 (Evidence-Centered Design，ECD) (如圖 2-2-1)架構所定義的模型，將技能，錯誤類型，試題關聯畫出有向性樹狀模型，模型中每個技能，錯誤類型，試題用獨立的節點代表。

圖 2-2-1 概念評量架構的原則設計物件圖(引自 Mislevy, Almond & Lukas,2003) 以下對 ECD 架構做個簡介，以方便未來在應用上，觀念的釐清。ECD 架構從獨立範圍和評量目的，初始分析為起始，綜述應用評量著重於二個部分。概念評量架構(Conceptual Assessment Framework，CAF)，以及評量傳送系統的

Four-Process 結構。在 CAF 模式中的物件，可以說滿足任何特別的評量，一般被組合模式證據模式作業模式呈現模式學生模式學生模式特徵值證據

(22)

描述成為特定評量目的所設計。

茲將概念評量架構的四個模式(Mislevy,Almond & Lukas,2003)說明如下：

一、學生模式

定義一個或多個變數，包含的知識、技能以及我們想要測的能力。簡單的學生模式，明確指出學生在那些領域的作業，能正確回答。較複雜的模式，則可以說明，學生具有那幾種知識，或是不同作業結合的程度或種類。學生模式的變數，將是圖形模式變數子集，在作業上所累積的證據。圖2-2-2 測驗的學生模式圖(引自 Mislev et al.，2003) 左邊的圖為機率分布，單一能力變數用表示。在受試者開始接受測驗時，學生的機率分佈狀態是不可知的。必須隨時根據其行為來更新其狀態。當知道學生在試題的反應，然後，會視學生模式中有幾個變數，每一個代表某些方面的知識、技能或能力。由這些變數知道，學生知識如何明確被說明；雖不能直接觀察；但可以以所知的機率分佈來解釋；並從評量中，藉由直接地更新機率分佈，進而更新知識。

二、證據模式

證據模式是從給定某個作業，從學生的作答反應抽取證據，進而更新學生模式變數，以進行潛在變項的推論。證據模式包含二部分，分別為證據規則(Evidence Rules)及測量模式(Measurement Model)﹔在評量參數中，分別扮演不同的角色。證據規則(Evidence Rules)說明，如何從受試者的作答反應中，來概述可觀察變數。這些可觀察變數，都是工作的主要輸出成果，提供雙重資訊，可用來更

(23)

新學生模式，變數及資訊的工作信念，並可提供工作不同層次的回饋。在一可操作的評量中，證據規則引導著反應分數的過程。重要的是證據規則為定義及概述工作內可觀察變數中所蘊含的證據。在研究中，可觀察變數結合每一個試題，無論其是否被正確作答。藉由這樣的規則，其值被用來比較學生的反應正確與否。測量模式(Measurement Model)，提供有關學生模式變數及可觀察變數的連結資訊。在可操作的評量中，測量模式引導總結評分的程序。包含學生模式變數方面，作業的累積及同化(synthesis)。

三、作業模式

描述各種試題的特徵、試題內容與每一項作業的關聯，也包含了受試者特徵與作業間之連結(施淑娟，民93)。在證據模式中，需要的證據種類。其模式呈現受試者本質的描述以及收集到對作業模式所反應的成果。作業模式變數包含描述作業的特質，與呈現本質的特徵與作業成果有何關聯。作業模式描述某個種類的試題。在作業模式和試題型態之間有一些一致處。不同試題型式將要求不同的作業模式，因為不同變數集需要描述不同的刺激及呈現的形式，在模組化試題參數或控制試題的選擇時，不同特徵也許是重要的。為滿足證據模式的觀點，作業模式以CAT方式來呈現試題。在貝氏網路的研究中，作業模式的決定是一件很重要的事情，包含要測的內容、其內容的難易度等等，都必須先行定義出來，成為作業模式的變數。

四、組合模式

組合模式描述學生模式、證據模式及作業模式如何一起運作以構成心理計量學為主的評量。目的在於描述如何準確地測出每個學生模式變數，及強制描述作業如何恰當且穩定地反應出被測範圍的廣度及差異性。簡單的說，組合模式是將所有已知的資料組成測驗，其形式可能為CAT，主要端視所要測得的能力，如CAT 所要求的是要達到某種程度的精準度﹔要測幾題？決定之後再組卷施測 (許雅

(24)

菱，民94)。

Vomlel(2003) 在學生模式下，用聯合機率分佈 P(YYYY)定義技能之間關係，使用 Almond & Mislevy(1999) 的方法，定義問題的所有機率模式為貝氏網路

( , ) ( ) ( | ) j j j X P P P X Y χ ∈ = ⋅

∏

Y X YYYY 。在任何時間點上，學生 t 在知識或技能的熟練度，用機率分布表示。事先機率分布 Pr(Yt)，是基於這些技能在所感興趣的母體中的分布。研究者感興趣的是 ) X | Pr(Yt t 的的推論，X的的 t ={Xt,1,...,Xt,M}是從學生在 M 個作答的反應中採集，學生模式變數Y_t純粹是潛在的；觀測和學生模式變數的關係，是需要推論的。假設有一些收集的資料，對於從資料中建立貝氏網路模式的結構化學習，這方法是有用的。主要的目的為預測是否缺乏或呈現技能Y，Y可能是用不同模式所測出的分數，可以用在已知D的條件下，模型P對數概似值(Conditional Logistic Likelihood，CLL)來呈現： 1 ( | ) log ( | ) n i i i CLL P D P y x = =

∑

根據上述，本研究將嘗試採用此種圖形模型的教育評量，來進行學生具有某種面積錯誤類型機率之推論，並進行了解，將此種方法，應用於診斷學生錯誤類型的正確率。

(25)

第三節電腦化適性測驗理論

電腦化適性測驗是最近發展，一種應用電腦的測驗理論，何謂電腦化適性測驗理論，Vomlel(2004)提出解釋，自動依循個別受測者的程度去測驗，稱為適性測驗，在每次一個問題反應之後，電腦系統基於前一個問題的回答，選擇下一題，因為這方法需要電腦作測驗管理，它常常被稱作電腦化適性測驗(Computerized Adaptive Testing，CAT)。當測驗試題的難易度能夠適合受試者能力程度時，這種測驗試題所測量到的受試者能力最為精確。測驗的最理想的施測狀況是:能夠針對每位受試者不同的能力程度，來提供適合個別情況的測驗方式(何明鏡，劉湘川，郭伯臣，民 93)。

大部分 CAT 的理論基礎是試題反應理論(Item Response Theory, IRT; Hildreth, 1989)，從圖形模型(GM)的觀點來看。GM 提供有關知識與技能多方面推論的方法，並且從複雜成績中萃取資料。簡單地合併變數對所有變化來源是很少成功。因此，研究者必須仔細地分析這問題的結構和本質，建立更有效率的模型。研究者有規律地使用複雜的策略去處理 IRT 模型以外，許多變化性的資源。有關的變數可能扮演許多角色，沒有在操作上的 IRT 模型中出現。例如：在有效性研究，組合測驗，以及建構和模型化工作。這些技術一部分由 GM 觀點描述，並且，如何延伸到更複雜的估計情況。 (Almond & Mislevy，1999)

當工作是作學生的等第分類，其效果更有用。假如，需要測驗出有關學生更多的資訊，在多維 IRT，數個變數被用來表示一個學生，就有問題了，因為有兩項限制：假定，在無嚴重違反 IRT 條件機率下，工作使用，工作範圍有限；對處理多樣的知識或技能方面的能力有限。(Almond & Mislevy，1999)

為了想仔細了解學生所犯的錯誤類型或所具有的技能，本研究採用貝氏網路為電腦化適性測驗。貝氏網路被認為是多維 IRT 的一般化。它有兩個基本優點；

(26)

的透視。

(二) 學生模式是能將技能之間的相依性模型化。因此，在保有原來精確度之下，本質上，能縮短適性測驗時間。(Vomlel，2004)

Almond & Mislevy (1999) 提出在 CAT 使用圖形模式，基本觀點是將複雜貝氏網路作為 CAT 的用途，分解成學生模式和較小的證據模式集合。每個技能Y_i及每個問題X_j是代表任意變數有限集合值Y_i和Xj。使用 YYYY 來表示多維任意變數 ) ,..., (Y1 Yk 。ＸＸ代表多維任意變數ＸＸ (X1,...,Xm)。Almond 和 Mislevy 的模式由學生模式 P(YYYY)，每個問題Xj ∈χ的證據模式 ( |Y ) j j X P 所組成對於。Yj代表可能的多維變數 ) Y (Yl∈ j ，在此 ⊆Y j Y 。基本假設是從Y 的技能，只有直接關聯到問題j Xj。在機率模式下，在已知多維變數 j Y 的狀態，問題Xj是獨立於技能 j Y Yl∈Y\ ( j Y 在Yl的狀態下) 。學生模式描述學生的知識，技能之間關係用隨機變數 Y1,Y2,…,Yk測量技能，

有關學生知識用機率分布 P(YYYY)=P(Y1,Y2,…,Yk) 表示。

證據模式 m=1,2…,M 對應到一個觀測 Xm。假設，每個觀測和其他的觀測，其

他技能在給予隨機變數集合Y_m ⊆Y 的技能是條件獨立。

CAT 的目標-為每位受試者建構最佳化的測驗-利用資訊函數的值 (information function ) 亂度(entropy)形成。

一個機率分布P(YYYY)的 Entropy H(P(YYYY)) 被定義成

∑

∈ = ⋅ = − = Y y y P y P P H( (Y)) (Y ) log( (Y ))

(27)

最佳化測驗指組成測驗的每個試題，經由選擇的試題作答情形和給予的試題過去的反應之後，是學生模式機率分布的 Entropy 最小期望值。(Vomlel, 2002)

(28)

第四節以貝氏網路為基礎的適性測驗選題策略

本研究中貝氏網路是作為在電腦適性化測驗中的推論工具，根據(Vomlel， 2004) [20]提出的方法作為選題策略，首先，利用機率模型建立選題的策略。二，做策略的分解，建立搜尋演算法。三，以動態規劃法，建立最佳試題結構。四，介紹啟發式(heuristic)方法，提高試題選題速度，在 AO*的選題策略下，建立最佳試題結構。以下為其詳細說明﹕

一、用機率模型建立策略

在試題選題中策略(strategy)描述為了達成所要的目標，使用者應該執行哪些步驟。例如：步驟(step)：可能是使用者做了一個可以看到的行為，或使用者回答了一個問題。因為這步驟是不確定的，因此每個步驟必須依前一步所有可能組合的結果，來描述使用者下一步應該做的。因此，每個策略能用方向樹(directed tree)表示。樹的節點有兩種型態：一種是可能性節點(chance node)，另一種是終點節點 (terminal node)，每個可能性節點對應著策略的一個步驟。終點節點是樹的葉，即策略的結束，一個過程(session)對應樹(tree)上的一條路徑(path)，即一連串的步驟，從樹(tree)的根開始以及在終點節點結束。在圖 2-4-1 中兩個問題組成的適性測驗。橢圓形表示可能性節點，菱形表示終點節點，每個可能性節點(chance node) 標示著對應步驟，每一個邊的出現來自可能性節點 (chance node)，用對應節點的輸出標示。策略用樹表示：假如，對第一個問題X1的回答是正確，則第二個問題就是X ，否則第二個問題選₃ X₂。

(29)

圖 2-4-1 試題結構圖在預定題數的問題被回答完之後，或者受測學生的相關資訊，已達到所要目標，適性測驗就結束測驗。定義測驗的技能_Y={Y₁,...Y_k}和試題庫_X={X₁,...,X_m}，用 YYYY 表示多變數(Y₁,...,Y_k)，y=(y₁,...,y_k)表示 Y 的狀態，學生模式描述學生的技能，能力迷失概念之間的關係，有關學生的知識，使用聯合機率分布 P(YYYY)=P(Y₁,...,Y_k)表示， S 表示全部可能測驗策略的集合。每個主考人都希望在測驗結束時，能測出有關學生的資訊最多。讓這希望成真的方法是，在測驗結束時，機率分布P(Y1,...Yk) 的 Shannon 亂度(entropy) 最小化。P(Y₁,...,Y_k)的亂度定義；

∑

= = ⋅ = = − = k y y k k k k y PY y Y y Y y Y P P H ,..., 1 1 1 1 1 ) ,..., ( log ) ,..., ( )) ( ( Y 在給予收集的證據之下，計算測驗策略 s 終點節點的條件機率P(Y₁,...,Yk |el)的亂度H(P(Y₁,...,Yk |el))。對每個策略s∈S，評估函數(evaluation function)的期望值(expected value)

∑

∈ ⋅ = ) ( 1,..., |e )) ( ( ) (e (s) s L k Y Y P H P EH l l l X1=1 X3=1 X1=0 X2=0 X1=0 X2=1 X1=1 X3=0 X1 X3 X2

(30)

目標是找到一個測驗策略s∈S，期望亂度EH(s)最小，稱這樣的策略為稱最佳

策略，用s*表示。

二、策略分解找出最佳策略

藉由選題策略s的分解，描述搜尋演算法，對於動態規劃法(dynamic

programming)和一個可接受的嘗試錯誤函數(admissible heuristic function)，在搜尋最佳策略的過程裡，提供最佳的建構試題結構的方法。設s'代表一個策略，是可接受策略(admissible strategy)s 的子策略和策略s 有相同的根ϑ，但是s' ≠s，稱s'是一個未完成策略(incomplete strategy)，假如 v是策略 s 的節點，用 v s→ 表示，有節點v的s其子策略，用s當它的根， ) ( ) (s L s L →v ⊂ ，接下來做策略s的分解。從策略s'的葉集合L(s')，使用節點r，得到一組策略{s→r,r∈L(s')}_每個策略 r s→ 來自L(s')一個節點作為根，注意 ( ) ( ) ) ' ( L s L s r s L r = → ∈

U

。策略s的葉，定義其條件期望亂度值 )) e | ( ( ) (el H PY l EH = 在 s上證據e_n，連結到非葉(non-leaf)節點n的子節點ch(n)集合，定義遞迴

條件期望亂度(conditional expected entropy recursively)為

) (e ) e | (e ) e | (s ) ( m n ch m n m n H P H E =

∑

⋅ ∈ 三

、

建構試題結構

(31)

依 Vomlel (2004)動態規劃法的選題策略，可以容易地建立搜尋演算法。這演算法第一次評估所有可能策略的全部葉l )) e | ,..., ( ( ) (el ₁ k l H H P Y Y E* = 然後向上進行，所以在每個可能性節點(chance node)n它計算 ) (e ) e | (e ) (e ) ( m H n ch m n m n H P E E* =

∑

⋅ * ∈ 並且在每個結論(decision)(OR)節點n它選擇最小E_H的子節點 ) (e min ) (e ) (n H m ch m n H E E* * ∈ = 在根節點結束， * (φ) H E 是從所有可能策略，期望亂度的最小值。假如這決定

(decision)節點的最佳子節點(the best children)被儲存，最佳化策略 *

s 能被容

易地向上追蹤。 (二) *

AO 演算法

試著避免延伸搜尋，透過可接受的啟發函數(admissible heuristic function) 推動，執行從上到下的啟發式搜尋(heuristic search)。輔助定理 1. P(A,B)是機率分布，定義在笛卡兒乘積，多維離散變數A和B和

∑

= = = =b _aP A a B b B P( ) ( , )可能值，則H(P(A,B))≥H(P(B)) 回想

_U

) ' (s (s ) (s) r r L L L ∈ → ₌ _，因此，

∑

∈_L_(s'₎ ∈_L(s→r₎

(e

)

=

1

r r l

P

lr 和 ) ' ( ), (e s P l_r lr ∈L ,lr∈L( ')s 是機率分布在s的葉(leaves)。如此，我們能在整個策略 s 的葉上，定義機率分布的亂度(entropy)，用兩個等式的方法

∑

∈ ∈ ∈ → ⋅ − = ⋅ − = (s) (s') (s ) ) (e log ) (e ) (e log ) (e )) (e ( L L L l l l l l l l r r r r r P P P P P H 已經定義機率分布在整個策略s'的亂度，也是適當的。

(32)

∑

∈ ⋅ − = ) (s' ) (e log ) (e )) (e ( L r r r r P P P H 輔助定理 2：設s'是不完全的策率，u_r是策略s→r的葉數，r∈L(s')，則 L(s') ( (e )) ( (e ))_r (e ) log_r _r r H P H P P u ∈ − ≤

_∑

⋅ l 定理 1：假定一個不完全策略s'，在每個葉r∈L(s')有亂度 H(P(Y |e_r))。則對任何策略s∈S的期望亂度，策略s'是它的子策略，則以下成立

∑

∈ ⋅ − ≥ ) ' ( L ) log )) e | ( ( ( ) (e (s) s r r r r H P H P Y u E 假定可接受的策略S的集合由有n個問題的全部測驗策略組成，假如每個問題有兩個可能結果，則每次測驗策略對應一個有 n u=2 個葉的樹，搜尋之前用定理

1，期望亂度(expected entropy)的最佳值(optimal value)由

(s ) ( ( )) log 2n H E * ≥H P Y − =EH(s )≥ H(P(Y))−nlog2 * _所限制。這在適性測驗(adaptive testing)提供亂度(entropy)很自然的解釋。假如有關學生的知識用機率分布P(Y)的亂度(entropy) H(P(Y))表示，則我們需要至少 2 log )) ( (PY H 問題，每個問題有兩個答案;針對學生的知識狀態去產生精準資訊。定理 1 在一個不完全策略的葉r∈L(s')，給予機率分布 ( |e ) r Y P l ，自然導致在EH(s) 較低邊界。對不完全策略s'，我們定義

∑

∈ − ⋅ = ) (s' ) log )) | ( ( ( ) ( ) (s' L r r r r H P e H P Y e u E 定理 1 的結果是;EH(s')是可允許的啟發(admissible heuristics)。我們可以在 * AO 演算法使用啟發EH(s')。這演算法的每一步驟，選擇一個策略s'，從全部所有盡可能展開的策略中有最小的值。展開一個非展開的節點，從選擇的策略s'節點的子節點，設定E_H(e_n)=E_H(e_n)的值並且利用遞迴公式

∑

∈ ⋅ = ) (s' ) (e ) (e (s) L r r H r H P E E ，我們重新計算 n的全部子孫節點的值。這演算法能用在[25]描述的類似方法進行，一個 * AO 演算法被使用在搜尋疑

(33)

難排解策略，將一個裝置的補償期望價值最小化，唯一的差別是可允許的啟發 (admissible heuristics)。使用可允許的啟發(admissible heuristics)保證第一次展開的完全策略是最佳的策略。根據研究者之前的研究發現，在試題數少的時候，空間複雜度較小，使用動態規劃法時間上是可行的；若當試題數多時，空間複雜度變大，則採用 * AO 演算法，較快得到試題結構的結果;因此，本研究在建構試題結構時，採用 * AO 演算法。

(34)

第三章研究方法

第一節研究流大體與步驟使用本研究所貝式網路程式是根據李俊儀、跟前雅菱,施行淑娟、郭伯臣、跟前天維(2005)目標研究國小四年級國小生'面積'單原資本料地方訓練完成目標。此貝氏網路架構圖如圖 3-1-1、其各部份的說明如下︰試題編號:此單元使用的試題為經教學實務專家和學者共同研究製作出來的。試題共有 18 題，分別用來診斷學生各項的錯誤類型，以 item 來表示。錯誤類型:經專家多年教學經驗和學者的研擬判斷，認為學生在此單元常會發生的迷失概念類型，以 bug 來表示。學生技能:經專家多年教學經驗和學者的研擬判斷，認為學生在此單元應學會這些技能，才能完整解決此單元的問題，以 skill 來表示。此測驗的編製架構如表 3-1-1 所示，每一題之成分分析亦如表 3-1-1 表 3-1-1 面積測驗題型編製架構(引自許雅菱民 94) 面積內容題號面積內容題號文字計算題 4、5、9、10、13、12 點數 1、8、15 單位換算 6、7、14、16、18 圖形題 2、3、11、17 目的在於診斷學生在本單元可能犯的五種錯誤類型與概念缺失，因此選擇題中每一個選項都是四年級學童實際可能發生的錯誤。經過評量傳送模式所組成的測驗，每個試題所涉及的錯誤類型成分如表 3-1-2，從此表中可看出此份測驗中的每個試題所涉及的錯誤類型相當平均，受

(35)

試者完成作答將利用貝氏網路來診斷本單元中所蘊涵的技能及錯誤類型。表 3-1-2 「面積」單元測驗試題涉及錯誤類型成分(引自許雅菱民 94) 面積單元試題錯誤類型成分面積單元試題錯誤類型成分面積單元試題錯誤類型成分面積單元試題錯誤類型成分計數錯誤乘法計算錯誤數學文字題的轉換錯誤單位換算公式應用錯誤 Item1 ˇ ˇ ˇ Item2 ˇ ˇ Item3 ˇ ˇ Item4 ˇ ˇ ˇ Item5 ˇ ˇ Item6 ˇ ˇ ˇ Item7 ˇ ˇ Item8 ˇ ˇ Item9 ˇ ˇ ˇ Item10 ˇ ˇ Item11 ˇ Item12 ˇ ˇ Item13 ˇ ˇ ˇ Item14 ˇ ˇ Item15 ˇ ˇ Item16 ˇ ˇ Item17 ˇ ˇ Item18 ˇ ˇ

(36)

乘法計算文字題列式了解公式單位關係計數錯誤乘法計算錯誤文字題不懂題意使用錯誤計算單位換算公式應用錯誤 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 點算試題編號錯誤類型學生技能圖 3-1-1 面積錯誤類型貝氏網路

(37)

為達成研究目的，本研究依如下流程，逐步實施。

一、使用

* AO

演算法建構試題結構

根據研究者之前的研究，當試題數多時，空間複雜度變大，因此，我們選用 * AO 演算法選題數從選 1 題、選 2 題、一直做到選 17 題，使用動態分類決斷值(許雅菱，民 94)分別計算其推論後的分類正確率的大小，選擇 skill 和 bug 的分類正確率總平均最高的及 skill 和 bug 的各別分類正確率之間的值較接近的選題數，來建構試題結構。

二、建置線上學習診斷系統

在 windows server 2003 的作業系統及 sql server 2000 資料庫下，使用貝式網路程式作為推論引擎，採 asp 的程式語法，實作奇數座號-固定試題長度方式和偶數座號-stop criterion 方式的線上學習診斷系統之系統流程圖，分別如圖 3-1-1 和圖 3-1-2。將固定 15 題的試題結構樹放入 SQL 資料庫中開始帳號和密碼驗證給定第一題試題

(38)

將試題題號及作答情形存入檔案中是否 N=15 題? 答對? 從資料庫中選下一題作答從資料庫中選下一題作答將試題題號及作答情形存入檔案中將試題題號及作答情形存入檔案中從題庫資料庫中選出剩下的 3 題來作 NO YES YES NO

(39)

圖 3-1-2 .奇數座號(固定試題長度方式)診斷之系統流程圖結束呼叫貝氏網路程式進行推論開始將 stop criterion 方式的試題結構放入資料帳號和密碼驗證給定第一題試題顯示推論結果

(40)

是否已到停止符號? 答對? 將試題題號及作答情形存入檔案中從資料庫中選下一題作答從資料庫中選下一題作答將試題題號及作答情形存入檔案中 NO YES YES NO 從題庫資料庫中選出剩下的題目來作將試題題號及作答情形存入檔案中

(41)

圖 3-1-3 .偶數座號(stop criterion 方式)診斷之系統流程圖

三、線上收集資料

以彰化縣，台中縣市，南投縣之國小四年級學童為主，將學童分為奇數座號和偶數座號，奇數座號的同學做以選擇固定試題數的適性選題，使用分類正確率最高的選題數所建立的試題結構及 18 題試題全做方式；偶數座號的同學做以適性選題，使用演算停止閥值的方式所建立的試題結構及 18 題試題全做的方式。線上實測操作步驟如圖 3-1-4、圖 3-1-5、圖 3-1-6、圖 3-1-7、圖 3-1-8、圖 3-1-9、圖 3-1-10。結束顯示推論結果呼叫貝氏網路程式進行推論

(42)

步驟一:首頁

(43)

步驟二:系統會將試題結構樹中的試題編號讀入變數中，以加快系統的執行速度。

(44)

步驟三:登入使用者的帳號和密碼

(45)

步驟四:給定第一題開始施測

(46)

步驟五:依序依學生作答反應，給定試題施測。

(47)

步驟六:做完試題結構樹中的試題後，開始作答剩下的試題。

(48)

步驟七:將作答試題編號和作答情形，匯入貝氏網路程式中推論後，輸出結果。

圖 3-1-10 線上實測操作步驟七

步驟八:從輸出結果中，可看出推論後的後驗機率及經分類決斷值決斷後所呈現的有無狀態，使學生得以立即得到診斷結果的資料。

(49)

至於座號(固定試題長度方式)診斷的操作流程和偶數座號(stop criterion 方式)的步驟相同。

四、進行推論結果和專家判定的比較

將奇數座號的同學所做的固定試題數的適性選題及 18 題試題全做的作答情形，分別透過訓練好的貝式網路推論，使用動態分類決斷值(許雅菱，民 94)後和經過專家判定的結果做比較；將偶數座號的同學所做的使用演算停止閥值方式的適性選題及 18 題試題全做的作答情形，分別透過訓練好的貝式網路推論，使用動態分類決斷值(許雅菱，民 94)後和經過專家判定的結果做比較。

(50)

第二節研究工具

一、Matlab 軟體

本研究使用 Matlab 6.5 版，進行 *

AO 演算法程式撰寫，並與 Bayes Net

Toolbox for Matlab 結合成一完整的程式。

二、貝氏網路工具箱

本研究使用 Murphy（2004）所撰寫的貝氏網路工具箱，作為撰寫貝氏網路程式所需的函數，此工具箱的優點為免費提供原始程式碼並可供修改及擴充，並附有詳細使用說明容易上手；其缺點是尚未建立完整的使用者介面，使用者必須具有專業的撰寫程式能力才能嫻熟使用。

三、SQL Server 2000 資料庫及 IIS6.0 網站架設系統

使用 SQL Server 2000 資料庫做為存放試題內容及試題結構狀況之用；IIS6.0 網站架設系統做為執行線上學習診斷系統 asp 程式之用。

四、硬體設備

本研究所使用的電腦硬體規格如下﹕中央處理機使用 Pentium 4 (R)2.8G，動態隨機記憶體 512 M。

(51)

第四章研究成果

依據第三章的研究方法，分別於各節探討研究結果如后﹔

第一節選題數不同的適性選題分類正確率的比較

研究者利用 * AO 演算法，引用許雅菱(民 94)研究使用之學生作答情形的資料，從選 1 題、選 2 題、一直做到選 17 題，分別建立試題結構後，進行推論及分類正確率的判定。比較結果發現，skill 和 bug 的分類正確率總平均值最高落在選 8 題試題時﹔而 skill 和 bug 各別的分類正確率之間的值較接近的選題數落在選 15 題試題時，分別如表 4-1-1，圖 4-1-1 及表 4-1-2，圖 4-1-2，標記部分為最佳的選題數處。表 4-1-1 選題數和分類正確率總平均值的關係選題數 1 2 3 4 5 6 7 8 總平均值 0.7183 0.7672 0.8053 0.8221 0.871 0.871 0.871 0.8725 9 10 11 12 13 14 15 16 17 0.8702 0.8695 0.8588 0.855 0.8458 0.8473 0.8611 0.8603 0.8626

(52)

圖 4-1-1 分類正確率總平均值和選題數的關係

表 4-1-2 不同選題數的各個分類正確率值的接近度比較

Skill1 Skill2 Skill3 Skill4 Skill5 Bug1 Bug2 Bug3 Bug4 Bug5 最大間隔差

1 0.7252 0.4657 0.7786 0.6412 0.6412 0.7252 0.8931 0.916 0.4809 0.916 0.43511 2 0.7786 0.4657 0.7786 0.7939 0.6412 0.7786 0.8931 0.916 0.7099 0.916 0.31298 3 0.9008 0.4657 0.7786 0.855 0.6412 0.9008 0.8931 0.916 0.7863 0.916 0.43511 4 0.9008 0.4657 0.7786 0.8931 0.6412 0.9008 0.8931 0.916 0.916 0.916 0.43511 5 0.9008 0.9237 0.7786 0.8779 0.6412 0.9008 0.8931 0.916 0.9618 0.916 0.25954 6 0.9008 0.9237 0.7786 0.8779 0.6412 0.9008 0.8931 0.916 0.9618 0.916 0.25954 7 0.9008 0.9237 0.7786 0.8779 0.6412 0.9008 0.8931 0.916 0.9618 0.916 0.25954 8 0.9008 0.9237 0.7786 0.8626 0.6641 0.9008 0.8931 0.916 0.9771 0.9084 0.23664 9 0.9084 0.9237 0.7786 0.8626 0.6641 0.9008 0.8855 0.9084 0.9695 0.9008 0.23664

skill & bug 正確率的平均值

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95 1 3

5 7 9 11

13

15

17

選題數正確率 skill 平均值總平均值 bug 平均值選題數類型

(53)

10 0.9237 0.9237 0.7786 0.8626 0.6641 0.9084 0.8779 0.9008 0.9618 0.8931 0.24428 11 0.9237 0.9313 0.7786 0.855 0.6641 0.8855 0.855 0.8779 0.9466 0.8702 0.22138 12 0.9237 0.9313 0.7786 0.855 0.6641 0.8779 0.8473 0.8702 0.9389 0.8626 0.21374 13 0.9389 0.9237 0.7786 0.8473 0.6641 0.8702 0.8244 0.8473 0.9237 0.8397 0.20611 14 0.9542 0.9237 0.7786 0.8473 0.6641 0.8779 0.8168 0.8626 0.916 0.8321 0.21374 15 0.9618 0.9237 0.7786 0.8473 0.7405 0.8855 0.8168 0.9008 0.916 0.8397 0.14504 16 0.9695 0.9237 0.7786 0.8473 0.7328 0.8855 0.8092 0.9084 0.9084 0.8397 0.15268 17 0.9771 0.916 0.7786 0.8397 0.7328 0.8931 0.8092 0.916 0.916 0.8473 0.16031 圖 4-1-2 不同選題數的各個分類正確率值之間的接近情況另外由圖 4-1-2 也可以看出所有 skill 和 bug 都要達到六成以上，則選 skill_bug 正確率圖

0.4

0.5

0.6

0.7

0.8

0.9

1

3

5

7

9

11

13

15

17

選題數正確率 skill1 skill2 skill3 skill4 skill5 bug1 bug2 bug3 bug4 bug5

(54)

(55)

第二節使用固定試題數和 18 題全做的比較

依照第一節研究的結果選定選題數 8 題和 15 題方式，建立固定長的試題結構後，請奇數座號的學生透過網際網路，進行實際的線上學習診斷測驗，並進行完整的 18 題測驗，然後收集學生的作答情況，利用之前訓練好的貝式網路程式，進行推論及專家的判定。結果發現，實作 18 題試題經過推論後和專家判定的比較結果，skill 和 bug 的分類正確率皆達到約 7 成以上﹔另外發現選題數 8 題和選題數 15 題的 skill 和 bug 總平均分類正確率都比 18 題全做的總平均分類正確率來得低﹔而選題數 8 題的 skill 和 bug 總平均分類正確率則比選題數 15 題來的高；因此可得 18 題全做和選題數 8 題、選題數 15 題的 skill 及 bug 總的平均分類正確率的高低排列，依序為 18 題全做大於選題數 8 題大於選題數 15 題。以上結論，如表 4-2-1，標記部分為 skill 和 bug 總平均分類正確率處。表 4-2-1 不同固定選題數和專家判定的分類正確率關係 Sk1 Sk2 Sk3 Sk4 Sk5 Skill Average 18 題全做 0.7882 0.7986 0.9583 0.9236 0.9444 0.8826 選 15 題 0.7535 0.7986 0.9444 0.875 0.9028 0.8548 選 8 題 0.809 0.7986 0.9271 0.8576 0.8542 0.8439

Bug1 Bug2 Bug3 Bug4 Bug5 Bug Average Total Average 0.7882 0.7569 1 0.875 0.9688 0.8778 0.8802 0.75 0.7639 0.9826 0.8472 0.9479 0.8583 0.8566 0.809 0.875 0.9826 0.809 0.9479 0.8847 0.867 類型試題數

(56)

第三節使用演算停止閥值方式和 18 題全做的比較

使用 * AO 演算法，選題數 17 題，透過演算停止閥值(閥值設為 0.01)的方式建立路徑不等長的試題結構，請偶數座號的學生透過網際網路，進行實際的線上學習診斷測驗，並進行完整的 18 題測驗，然後收集學生的作答情況，利用之前訓練好的貝式網路程式，進行推論及專家的判定。此使用演算停止閥值的方式，根據研究者之前的研究發現，學生平均作答題數為 5 題，且 skill 平均分類正確率和 bug 平均分類正確率及總平均分類正確率都比 18 題全做的來得低﹔另外也從演算停止閥值的適性選題方式推論後和專家判定比較中，得到的分類正確率中發現 skill4 和 bug4 的分類正確率皆小於 7 成，僅達到 6 成多，其餘則多達到 7 成以上。以上結論，如表 4-3-1，標記部分為 skill 和 bug 平均分類正確率及總平均分類正確率處。表 4-3-1 完整試題數、不等試題數和專家判定的分類正確率關係 Sk1 Sk2 Sk3 Sk4 Sk5 Skill Average 18 題全做 0.8281 0.7684 0.9368 0.9298 0.9509 0.8828 演算停止閥值的方式 0.8526 1 0.9509 0.6807 0.814 0.8597

Bug1 Bug2 Bug3 Bug4 Bug5

Bug Average Total Average 0.8175 0.807 1 0.8526 0.9684 0.8891 0.886 0.8421 0.7018 0.9719 0.6807 0.9439 0.8281 0.8439 類型試題數

(57)

第五章結論與建議

第一節結論

根據本研究之實驗，研究者得到幾點結論，說明如下一、固定長度的試題結構樹中，選題數必須至少選五題以上，則所有的 skill 和 bug 的分類正確率才會都高於 6 成以上，比一般有無猜測機率的 5 成為高，此結論說明如果要使用此結構樹做為適性選題的依據，則選題數必須至少 5 題以上，線上實作系統方為可行。

二、選用 skill 和 bug 的分類正確率總平均值最高落在選 8 題試題時﹔和 skill 以及和 bug 各別的分類正確率之間的值較接近的選題數落在選 15 題試題時的兩種方式進行實際線上施測的分析比較，結果選題數 8 題方式仍比選題數 15 題方式的分類正確率的總平均值來得高，顯然各別的分類正確率之間的值較接近的這種狀況並不會使實務上的線上測驗的結果的分類正確率提升。三、經學生線上實測全部 18 題試題所得作答的情況資料，透過訓練過的貝式網路的推論後和專家所判定的結果做比較，得知 skill 和 bug 的分類正確率皆高於 5 成以上，接近 7 成 5 以上，顯示實作的線上學習診斷系統，具有其可行性。四、固定選題數 8 題、選題數 15 題和演算停止閥值方式的適性選題線上診斷結果發現和專家判定的結果比較，得到 skill 和 bug 各別分類正確率皆高於 5 成以上，達到 6 成 8 以上﹔顯示實作降低題數的適性選題試題結構之線上學習診斷系統，具有其可行性。五、經學生線上實測適性選題之固定選題數 8 題、選題數 15 題和演算停止閥值方式後的推論和專家判定做比較，所得的 skill 平均分類正確率和 bug 平均分類正確率都比 18 題全做的分類正確率來得低，可見 18 題全做，比降低題

(58)

數的適性選題的診斷效果來得好。六、依平均作題數來看，固定選題數 8 題、選題數 15 題和演算停止閥值方式 skill 和 bug 分類正確率的總平均分別為 8 成 6、8 成 5、8 成 4 左右，正確率相當接近，但演算停止閥值方式平均卻只使用 5 題，使用的試題數遠比其他二者少，可見演算停止閥值方式的適性選題的診斷效果來得比較好。七、使用演算停止閥值的適性選題方式所建構的試題結構，經線上實測結果的推論分析和專家判定做比較時發現，雖然它的 skill 平均分類正確率和 bug 平均分類正確率都高於 7 成﹔但在 skill4 和 bug4 的分類正確率僅達 6 成多左右，有偏低的情形，顯示此種方法建立適性選題的方式還有提升分類正確率的空間。

(59)

參考文獻

中文部分

何明鏡，劉湘川，郭伯臣(民 93)。以知識結構為主的適性診斷測驗系統之研究-以高階語言 C++之算術邏輯運算及輸入輸出函數為例。網路學習評量系統。網路學習理論與應用學術研討會。新竹，交通大學。李俊儀，許雅菱，施淑娟，郭伯臣，許天維(民 94)。貝氏網路在錯誤類型分類之應用-以國小四年級學童「面積」單元為例。人工智慧理論與應用。銘傳大學 2005 國際學術研討會。桃園，銘傳大學。施淑娟(民 94)。應用貝氏網路進行國小五年級「小數」單元學習診斷之研究。國立台灣師範大學教育心理與輔導研究所博士論文計畫，未出版，台北市。許雅菱(民 94)。貝氏網路在教育測驗分析上的應用。台中師範學院測驗統計研究所碩士論文，未出版，台中市。劉湘川(民93a)。解釋結構建模(ISM)分析法簡介。劉湘川彙編(民 93b)。貝氏網路機率模式。國立台中師範學院九十三學年度第二學期。「貝氏統計理論」教學講義。蘇俊和(民 91)。貝氏網路的建構與學習機制之研究-以航太產業績效管理為例。東海大學碩士論文，未出版，台中市。

(60)

英文部分

Almond,R.G., Mislevy, Robert J. (1999). Graphical models and computerized adaptive testing. Applied Psychological Measurement,23(3):223-237.

Almond,R. G., Dibello, L., Jenkins, F., Senturk, D., Mislevy, R. J., Steinberg, L. S., and Yan, D. (2001). Models for Conditional Probability Tables in Educational Assessment. In Proceedings of the 2001 Conference on AI and Statistics. Society for Artificial Intelligence and Statistics

http://www.ai.mit.edu/conference /aistats2001/files/almond46.ps.

Hambleton, R. K. and Swaminathan, H. (1985). Item response theorey:Principles and

applications. Boston,MA:Kluwer-Nijhoff.

Johnsonbaugh, R. and Schaefer, M. (2004).Dynamic programming ,algorithms,P.323. Lee, J.(2003).Diagnosis of bugs in multi-column subtraction using Bayesian networks.

Unpublished ph.D., Columbia University.

Mislevy, Robert J., Almond, Russell G., Lukas, Janice F.(2003).A Brief Introduction to Evidence-Centered Design.

Vomlel, J.(2002). Evidence Propagation in Bayesian Networks for Computerized Adaptive Testing .Aalborg University .http://www.cs.auc.dk/~jirka

Vomlel, J.(2003).Bayesian Networks in Educational Testing Testing.http://utia.cas.cz/vomlel/.

Vomlel, J.(2004). Building adaptive tests using Bayesian networks. Kybernetika –Volume 40(2004),Number 3,p.333-348

(61)

附錄一施測試題

(62)

附錄二面積貝氏網路二元計分分類決斷值之辨識率

(引自許雅菱，民 94) 分類決斷值辨識率 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 b 1 81.54% 78.46% 86.92% 79.23% 82.31% 82.31% 80.77% 89.23% 87.69% b 2 65.39% 76.15% 90.77% 90.00% 81.54% 84.62% 93.08% 83.85% 88.46% b 3 63.85% 67.69% 69.23% 65.39% 68.46% 66.92% 55.39% 65.39% 55.39% b 4 84.62% 83.08% 87.69% 81.54% 90.00% 83.85% 82.31% 82.31% 80.00% b 5 66.15% 80.00% 90.00% 87.69% 82.31% 82.31% 91.54% 83.08% 85.39% 平均 72.31% 77.08% *84.92% 80.77% 80.92% 80.00% 80.62% 80.77% 79.39% sk 1 81.54% 73.08% 76.15% 70.00% 75.39% 77.69% 72.31% 69.08% 73.08% sk 2 68.54% 71.54% 75.39% 71.54% 81.54% 78.46% 60.77% 75.39% 77.69% sk 3 72.31% 73.08% 73.85% 75.39% 70.00% 83.85% 69.85% 73.08% 63.85% sk 4 80.77% 83.08% 84.62% 76.15% 93.85% 80.77% 92.31% 80.62% 91.54% sk 5 66.77% 70.15% 73.85% 70.77% 75.39% 71.54% 70.39% 78.08% 70.00% 平均 73.99% 74.19% 76.77% 72.77% *79.23% 78.46% 73.13% 75.25% 75.23% *表示最高的平均辨識率；著色部分代表在同一決斷值下不同的錯誤類型與子技能的最高辨識率處，選出這些分類決斷值形成一個集合，稱為動態分類決斷值。