• 沒有找到結果。

利用試題反應建立學生學習歷程模型的一些經驗

N/A
N/A
Protected

Academic year: 2022

Share "利用試題反應建立學生學習歷程模型的一些經驗"

Copied!
8
0
0

加載中.... (立即查看全文)

全文

(1)

利用試題反應建立學生學習歷程模型的一些經驗

劉昭麟

政治大學資訊科學系 [email protected]

摘要

高品質的學生模型有助於提高教學輔助系統所提 供的協助的品質,是建構智慧型教學系統的重要核 心元件。一般而言,我們可以請有經驗的教師直接 提供模型。儘管如此,有一些特殊的問題,即使是 有經驗的教師也不能確定模型的所有細節。本研究 探討利用人工智慧技術,協助教師確認學生模型中 無法直接觀測的子結構。我們以貝氏網路建構學生 模型,利用模擬的學生答題資料,來猜測學生學習 綜合觀念的學習歷程。實驗數據顯示,雖然學生的 答題資料只能間接反應學生的能力,更不能忠實地 反應學生的學習歷程,但是透過適當的技術,我們 仍然有相當好的機會,可以利用這一些間接的證據 協助教師找到學生學習歷程的模型。

關鍵詞:學生模型、適性化測驗、智慧型教學系統、

貝氏網路、機器學習

一 緒論

因材施教是教學活動中一個重要的目標,專業教師 透過與學生的互動和相關的專業知識,能夠判斷學 生需要協助的地方,並且進行必要的導引。在智慧 型教學輔助系統中,我們需要能夠把這裡所謂的相 關專業知識,儲存在一個軟體系統可以運用的模型 中。建構智慧型教學輔助系統時,如果能夠得到高 品質的學生學習模型和教師教學模型,則有助於提 高整體系統的效用。

一個專業教師的養成需要歷經多年的教育和 實務的體驗,因此專業教師在教學活動中角色,並 不易完全由電腦軟體來取代。另一方面,學生的學 習狀態或者需要輔導的問題與源由,也常常是因人 而異和因時而易。因此要建構一個完整的學生模型 或者教師模型都不是一件輕而易舉的工作。

在這一篇短文中,我們專注於探討如何利用計 算技術來猜測學生學習綜合觀念 (composite con- cepts)的學習歷程[19],進而討論利用機器學習技術 來建構應用問題所需的模型的一些原則問題。經驗 顯示學生的外顯行為並不一定忠實反映其內在的 學習和成就狀態。最常在文獻[9,11]中被提到的現 象是,學生在答題的時候有時會因為不小心而答錯 (通稱為 slip)、有時會因為運氣好而答對(通稱為 guess),不管是哪一種意外狀況,學生的答題反應 都不必然反應他的能力。因此本文採用貝氏網路 (Bayesian networks)[6,14]作為表示學習相關模型 的計算工具,來捕捉這一些不確定的關係。

綜合觀念是一個需要學生整合兩個以上的基

本觀念或者相對比較基本的綜合觀念而成的觀 念。例如進行異分母分數的加法的標準程序,是要 能夠通分,然後把分子部分相加。要進行通分則需 要先瞭解公倍數的概念,而要瞭解公倍數的概念,

當然是要先建構倍數的概念。因此,倍數、公倍數、

通分和同分母分數的加法這一些都是進行異分母 分數加法的基本概念。然而,學生是否直接整合基 本概念來習得綜合觀念卻是一個值得探索的問題。

我們以 cA、cB、cC 和 cD 分別來代表前面所 說的倍數、公倍數、通分和同分母分數的加法四個 基本概念;並且以 dABCD 來代表異分母加法這一 個綜合觀念。則我們可以想像到至少兩種學習 dABCD 的方式,一個像是直接整合 cA、cB、cCcD 成為 dABCD;另一個則是先把 cA 和 cB 整 合成為一個叫做 dAB 的綜合觀念,然後再把 dAB、

cC 和 cD 結合成 dABCD。

學生是用哪一種方式學到上述的 dABCD 呢?

在回答這一問題之前,我們可能想要先思考兩個相 關的問題。前面這一個問題的解答對於電腦輔助是 否有實質的助益呢?專業教師是否能夠提供足夠 精細的模型來分辨上述或者其他可以想像得到的 學習歷程呢?

一個計算模型如果過於繁雜,以致於即使我們 知道一些相關變數的狀態,也沒有相對配套的教學 措施,則知道與不知道這一些變數對於教學活動的 意義就不是非常顯著。因此,學生模型和教師模型 的精確度與複雜度,有其實用面的考量。在綜合觀 念的精細模型的需求方面, Carmona 等學者的經驗 顯示,在一個多層次的貝氏網路中,如果所用的學 生模型可以反應先備知識與高階知識之間的關 係,則我們可以更有效率地進行適性化測驗[1]。

基於這一個經驗,我們至少可以相信建構先備知識 與較高階知識之間的關係的模型在實用上是值得 的。

關於專業教師是否能夠就其專業上之經驗與 知識,提供足夠精細的模型,顯然是因人而異也因 問題複雜度而異。在電腦輔助教學相關的應用之 中,許多案例都是由專業人員提供模型的架構,然 後利用統計技術來求得模型所需的參數,例如在以 試題反應理論[16]為基礎和以貝氏網路[12]為基礎 的測驗機制的發展都有這樣的經驗。所以,專業人 員可以提供一些有用的模型是有事跡可證而不需 加以懷疑的。

儘管專業教師在提供學習相關的模型方面佔

有不可或缺的重要角色,專業教師是否能夠提供一

個足夠精細的模型,卻是尚且未有定論的一個議

題。因此,在利用統計和機器學習技術學習系統參

數之外,也有少數的研究者企圖利用機器學習技術

建構跟教學活動相關的模型。Vomlel[17]利用學習

(2)

貝氏網路的技術,先從學生答題資料中找到大略的

貝氏網路的結構,然後參考專家所提供關於如何處 理潛在變數(hidden variables)的原則,再將先前所 得的模型加以改進。Desmarais[4]等學者則是認為 考慮貝氏網路中潛在變數會使得學習貝氏網路的 複雜度過高,所以只有考慮試題與試題之間的網路 結構,因此這一研究工作所建構的是所謂的『題間 知識結構』(item-to-item knowledge structures)。

從貝氏網路的學習技術的角度[5,7,13]來看,

以學生的答題反應來猜測學生如何習得綜合觀念 時,如果我們已經明確定義了代表觀念的節點,則 我們沒有尋找潛在變數的必要。在這一種情形之 下,我們雖然不能直接蒐集任何潛在變數的數值,

但是明確地知道貝氏網路中有哪些代表觀念的節 點

。然而,在不能直接蒐集任何潛在變數的數值 的情形之下,要猜測這一些潛在變數之間的結構 [10,19],不管從理論的角度[5,13]或者從實務的角 度[4,17]來看,都是一個極具挑戰性的問題,也是 Desmarais 放棄考慮潛在變數轉而只考慮題間知識 結構的一個重要原因[4]。

當專業教師可以提供學生學習綜合觀念的模 型時,智慧型教學系統的建構者就可以直接將之納 入系統之中。然而,當專業教師一時無法提供相關 的模型時,我們是否就應該直接訴諸於機器學習技 術來建構學生模型?上面所簡述的經驗顯示,直接 依賴機器學習技術目前也不能提供簡單的答案。

因此,本文探討一個折衷方案的可行性。我們 以專業教師所提供的資訊,配合機器學習技術,來 協助專業教師從一些可能的候選模型中挑選出最 好的學生模型。這一個方法介於完全依賴專業教師 的知識與完全依賴機器學習的技術之間,以機器學 習技術協助專業教師鑑別個別模型來尋找最好的 模型。我們以模擬的學生答題資料來檢驗這一個想 法的可行性,實驗數據顯示在專業教師所提供的教 學相關資訊距離學生真實的學習狀態足夠相似 時,機器學習技術確實能夠協助專業教師找到比較 精細的學生模型;而在專業教師所提供的資訊的導 引之下,我們也不會面對學理中學習任意貝氏網路 的計算複雜度的問題。

本文第二節進一步說明與本研究相關的背景 知識與相關定義。第三節簡報我們模擬學生的答題 資料的方法。第四節簡要分析本研究問題的難度的 一些相關議題。第五節提出應用機器學習技術來猜 測學生學習歷程的方法。第六節詳細討論實驗的程 序、結果與相關分析。第七節則進行綜合討論。

二 相關背景與定義

在這一節中,我們以比較正式的方式配合貝氏網路 來定義我們所要解決的問題。令

Ci

代表問題中第

i

個觀念,

Ii

代表我們用來測驗學生是否習得

Ci

的 試題集合。假定某一測驗中,教師施測的題目牽涉 了 γ 個觀念;我們以 Ψ = { C

1

,C

2

, L , C

γ

} 來代表這 一些觀念的集合。這一些觀念中有一些可能是基本 觀念,有一些則是學生直接或者間接地融合基本觀

因此,這一些變數是不可觀測的(unobservable)變數,

而不是完全的潛藏(unknown)變數。

念所成的綜合觀念。以緒論裡面所提到的範例來舉 例,cA、cB、cC 和 cD 是一些基本觀念,而 dABCD 則是一個綜合觀念。學生可能是直接整合 cA、cB、

cC 和 cD 這四個基本觀念為 dABCD;不過也可能 是先把基本觀念中整合成 dAB,最後才整合 dAB、

cC 和 cD 成 dABCD。依據我們的定義,dAB 仍然 是綜合觀念。然而,當我們在探討學生學習 dABCD 的學習歷程時,如果學生是整合 dAB、cC 和 cD 成dABCD 的話,我們會特別稱呼 dAB、cC 和 cDdABCD 的親代觀念。一個綜合觀念是由它的親 代觀念直接組合而成,親代觀念本身則可以是基本 觀念或者是綜合觀念。

利用學生的試題反應來判定學生的學習歷 程,就是不直接詢問學生自我所意識到的學習歷 程,而只靠學生在考試中的答題表現來探測學生的 學習歷程。因此,我們的系統的輸入資料,就是學 生對於目前所探索的集合

Ψ

中的觀念的試題的答 題資料;輸出資料則是系統所猜測的學習歷程模型 的類別。

二.甲 以貝氏網路表示學生學習歷程

我們可以用貝氏網路中個別的節點(node)來代表 學生是否擁有個別的觀念和學生答覆個別的題目 的對錯,由於答題的正確與否和學生是否具備相關 的觀念有直接的關連,因此我們可以從代表觀念的 節點拉一個連結(link)到代表測驗該觀念的試題的 節點。依照前面對於親代觀念的定義,我們還需要 從代表親代觀念的節點拉一條連結到代表其所從 出的綜合觀念的節點。

圖一是依 據這一些原則 所繪製的一個 簡化的貝氏網 路,這一個網 路 代 表 dABCD 的 親 代 觀 念 是

dAB、cC 和 cD 的信念。為了不讓圖形過度複雜,

本圖假設每一觀念只有兩個直接相關的試題,同時 也沒有畫出測驗 cB 和 cC 兩個觀念的試題。在本 篇論文中,我們假設所有代表觀念的節點都只有兩 個可能的狀態: 具備觀念和不具備觀念。同時我們 也假設所有代表試題反應的節點也是只有兩個可 能的狀態:答對與答錯。

圖二是反 應 學 生 學 習 dABCD 的 另 一種方式。跟 圖一的網路結 構所表示的信 念不一樣,圖

二這一個模型是表示學生把所有的基本觀念直接 融合為 dABCD。因此,在這一個模型所反應的信 念之下,dABCD 的親代觀念完全是基本觀念。

二.乙 以 Q 矩陣表示學生能力類型

學生的試題反應跟學生的能力有關,因此在我們的

cA cB cC cD

dAB dABCD

iA1 iA2

iD1 iD2

iABCD2 iABCD1

iAB1 iAB2

圖一:一個簡化的學生模型

dABCD iABCD2 iABCD1

cA cB cC cD

圖二:直接融合基本觀念的模型

(3)

模型中,也必須考慮不同能力的學生的類別的影

響。我們借用 Tatsuoka[15]用以表示試題與答題所 需的觀念的關連性的 Q 矩陣,來表示不同學生類 別的能力[9]。表一是一個只有包含兩種學生能力 類型的 Q 矩陣,表格的欄標題表示能力的類別,

列標題則是學生的類別編號。為了行文方便,我們 重複使用觀念的名稱作為能力的名稱。如果一個能 力的名稱是一個基本觀念的名稱的話,則相對欄位 為一的時候,代表該類別的學生具備該基本觀念,

否則就不具備該基本能力。如果一個能力的名稱是 一個綜合觀念的名稱的話,則相對欄位為一的時 候,該類別的學生具有整合出該綜合觀念的能力。

然而,這裡需要特別點出的是,具有整合綜合觀念 的能力,不必然代表該類學生一定具有該綜合觀念 的能力,這還要看該類別學生是否具有所需的親代 觀念的能力。

以表一為例,第一個類型的學生是全能類型的 學生,具有所有能力。第二個類型的學生則缺乏 cA 的能力,而且無法整合 dBC 的親代觀念成為 dBC。第二類的學生雖然能夠整合 dAB 的親代觀念 成為 dAB;但是因為這一類學生缺乏 cA,所以這 一個 Q 矩陣間接表示了第二類學生缺乏 dAB 的能 力。

我們雖然可以利用 Q 矩陣的內容直接推論出 某一類別的學生是否具備只牽涉到兩個基本觀念 的綜合觀念的能力,但是我們並不能從 Q 矩陣來 推斷某一類別的學生是否具備牽涉到三個或者更 多基本觀念的綜合觀念的能力。

以上的討論,容易讓讀者誤以為學生的類別與 其能力有決定性的關係,就如本文作者在[9]中所 說明的一樣,我們引用一個控制變數,讓 Q 矩陣 所表示的只是類別中典型學生的表現,個別學生仍 然有機會展現不同於典型學生的表現。在本文中,

我 們 以 β 這 一 個 變 數 來 取 代 [9] 中 所 討 論 的 groupSlip 和 groupGuess 兩個變數。

三 模擬器簡介

我們沿用[9]所討論的模擬器,給定一個 Q 矩陣、

一個貝氏網路結構和一些控制變數,我們就可以利 用我們的模擬器產生學生的答題反應。這一個模擬 器依據 Q 矩陣的限制,以 noisy-and 的模型[14]為 貝 氏 網 路 中 的 觀 念 節 點 建 構 條 件 機 率 表 (conditional probability tables)。依照第二節的說 明,我們的貝氏網路的節點分成三大類:代表是否 具備觀念的節點、代表答題正確與否的節點和代表 學生所屬類型的節點。

就如第二節所提到的,我們利用 β 引入個別學 生的表現跟學生類別中典型學生的表現有可能有 所差異的機制。 β 的數值愈大,則個別學生有愈高 的機會偏離典型學生的表現。

建構代表試題反應的條件機率表的時候,我們 利用 α 這一個變數來引入緒論中曾經提到的 slip

guess 發生的機率。α 的數值愈大,則學生答題 的時候發生 slip 和 guess 的機會就愈大。

我們的模擬器可以模擬多種可能的學生類型 的分佈,目前我們是採用均等分佈(uniform dis- tribution)。如果實驗需要的話,我們也可以輕易地 採用其他的學生類型分佈。

為所給定的貝氏網路的每一個節點產生了所 對應的條件機率表之後,我們就可以利用蒙地卡羅 法(Monte-Carlo method)為每一個學生類型產生所 需要的學生答題反應。這一個模擬器產生模擬資料 的細節請參見[9]的討論。

四 問題難度的分析

假定我們所要探討問題是一個牽涉 λ 個基本觀念 的綜合觀念的學習歷程。為了簡化問題,我們進一 步假設任何綜合觀念的親代觀念都不會牽涉任何 相同的基本觀念。舉例來說,在我們現階段的研究 中,dABCD 的親代觀念不可以是 dABC 和 dCD,

因為這兩個觀念同時牽涉到 cC。

基於這一個假設,因為這一個綜合觀念的親代 觀念可以有兩個、三個…甚至 λ 個。以一個箱子當 作一個親代觀念,所以一個綜合觀念的學習歷程的 可能個數,就是把 λ 個基本觀念分派到兩個、三 個…甚至 λ 個箱子,使得每一個箱子都至少有一個 基本觀念的總個數。這一個總數跟第二類 Stirling 數[8]有密切的關係。下面的公式(1)顯示,這一個 總數會隨著 λ 的增大而迅速地增大,因此我們所面 臨的可能的答案的數量是極大的。

∑ ∑

=

= ⎟⎟

⎜⎜

⎛ ⎟⎟⎠ −

⎜⎜ ⎞

− ⎛

=

Ω

λ

λ λ

2 1

0

) ( ) 1 1 ( ) (

i i j

j i j

j i

i

(1)

圖三是 λ

=4

時的一個可能的學習歷程,為了 讓圖形維持基本的可讀性,這一個圖形結構沒有畫 任何代表試題的節點。利用公式(1)計算 dABCD 所 有的可能學習歷程時,所得的結果是 14。但是這 一個數字僅僅只有考慮 dABCD 的學習歷程的數 目,並沒有考慮其他牽涉到三個基本觀念的綜合觀 念的學習歷程的可能個數。如果我們應用公式(1) 來計算的話,一個牽涉到三個基本觀念的綜合觀念 的學習歷程的可能個數是 6 個。因為圖三有四個牽 涉到三個基本觀念的綜合觀念,所以依照這一些推 算,如果我們沒有先探討那些只有牽涉三個基本觀 念的綜合觀念的學習歷程,就直接研究牽涉四個基 本觀念的綜合觀念的學習歷程的話,我們會直接面 對總共 18144(=

Ω4(3)×Ω(4)=64×14

)種可能的結 構。以公式(1)的符號來定義的話,當我們直接處 理牽涉到 λ 個基本觀念的綜合觀念時,我們將面對

group

dABCD

dAB dAC dAD dBC dBD dCD

cA cB cC cD

dACD

dABD dBCD

dABC

圖三:一個 λ

=4

的可能結構 ABC~D 表一:只包含兩個學生類型的 Q 矩陣

cA cB cC dAB dAC dBC dABC g1

1 1 1 1 1 1 1

g2

0 1 1 1 1 0 1

(4)

公式(2)所代表的這一個極大數量的候選結構。

( )

∏ Ω

=

⎟⎟

⎜⎜

λ λ

3

( )

k

k

k

(2)

除了學習綜合觀念的可能的方法的總數很大 之外,我們所面臨的可能學生類型的數量也是極 大。利用 λ 個基本觀念可以組合出來的所有的基本 觀念和綜合觀念的總數有

(2λ−1)

種。以 φ 代表這 一個總數。在假設學生的學習狀態只能是會某種觀 念或者不會的情形之下,我們最多可以有

2φ

種的 學生類型。再以 κ 代表

2φ

。除非我們所使用的 Q 矩陣包含這所有的 κ 種的學生類型;否則,如果我 們要選擇一部份的學生類型來進行實驗,則我們就 面臨了如何從這 κ 種的學生類型選出一個子集合 來進行實驗的問題,這時候,我們就會有

(2κ −1)

種 可選用的 Q 矩陣。總而言之,在研究一個牽涉到 λ 個基本觀念的綜合觀念時,下面的公式(3)提供我 們所有可能的 Q 矩陣的總數。即使 λ 只不過是 4,

我們也面對高達

(232768−1)

種不同的 Q 矩陣。

1

22(2λ1)

(3) 在實務上,並非所有公式(1)的貝氏網路結構 和公式(3)的 Q 矩陣都能夠得到專業教師的認可,

因此上面的分析其實僅僅是資訊科學中所謂最壞 狀況的分析而已。然而,這一分析確實也讓我們窺 知問題的規模和可能的難度。

五 分類器的設計

基於第四節關於公式(2)的分析,我們應該先確認 所牽涉的基本觀念的數目比較少的綜合觀念的學 習歷程,然後逐步探討更加高階的綜合觀念的學習 歷程。這樣我們所面對的可能的結構的總數,就是 公式(1)的數目,雖然這一個總數仍然是隨著 λ 的 增大而快速增大,但是還是比直接面對公式(2)所 代表的總數要好得多。

為了簡化文字,我們將以特殊的符號來表示一 個個可能的貝氏網路結構。以圖三為例,在研究 dABCD 的學習歷程時,假定我們已經確認了所有 只有牽涉到三個基本觀念的綜合觀念的學習歷 程,所以我們只要針對學習 dABCD 的 14 種方式 即可,圖三就是其中的一種。同時,因為這一個結 構中,dABCD 的親代觀念是 dABC 和 cD;所以我 們用 ABC~D 這一個簡單的符號來代表這一個結 構。應用同樣的規則,我們以 AB~C~D 和 A~B~C~D 分別代表圖一和圖二的結構。

要從公式 (1)所表達的數量的可能網路結構 中,找出最足以代表學生學習歷程的結構,除了直 接由專業教師提供或者是全部由機器學習技術代 勞之外,這一篇論文所要探討的是一個折衷方案:

由專業教師提出幾個可能的候選結構,然後由機器 學習技術來評比這一些候選結構。

五.甲 引入與估計互見資訊

再以圖三的結構作為討論的例子,如果我們知道結 構中的節點的狀態(state),則剛剛所陳述的問題的 重點,其實只要透過檢驗各個節點的條件獨立

(conditionally independent)關係是否成立,就有一個 解決的方案。然而,圖三裡面的節點代表的都是潛 在變數,我們實際上不能直接得到這一些節點的狀 態,我們所能夠蒐集的資訊是學生的答題表現。由 於圖三的結構並沒有畫出這一些代表答題反應的 節點,所以我們可以再參考圖一的結構。因為考慮 了前面說明過的 slip 和 guess,代表觀念能力的節 點和代表答題反應的節點之間是一個機率分佈;所 以雖然我們可以用學生的答題反應來推測學生的 能力,但是由於這樣的機率關係,我們並不能用試 題節點間的條件獨立關係成立與否,來確認觀念節 點間的條件獨立關係是否成立[10]。

觀察圖一、圖二和圖三的結構,我們可以發 現,在直覺上學生學習的歷程應該會影響答題對錯 的關連性。比較直接相關的觀念的試題的對錯、比 起相對關連性較弱的觀念的試題的對錯,應該有比 較高的關連性。基於這一個觀點,如果正確的結構 是圖三的話,則學生回答關於 dABCD 的試題的對 錯,應該跟學生回答關於 dABC 和 cD 的試題的對 錯有比較密切的關係,而跟學生回答關於 dAB、 cCcD 的試題的對錯的關係比較弱。

我 們利用資訊 理論裡面的 互見訊息 (mutual information)[3],即公式(4)的

MI(X;Y)

,作為量測 X 和 Y 這兩群機率變數之間的關連性,公式裡面的

X)

Y)

分別代表 X 和 Y 兩群機率變數各自所有可 能的數值。

∑ ∑

∈ ∈ = =

=

= =

=

=

X

x Y X x Y y

y Y x y X

Y x X Y X MI

)y ) Pr( )Pr( )

) , ln Pr(

) , Pr(

)

; (

(4)

舉例來說,如果

MI(cA,cB,cC,cD;dABCD)

大 於

MI(dABC,cD;dABCD)

的話,則表示 cA、cB、

cC 和 cD 四者跟 dABCD 有比較直接的關係,因此 相較之下,會認定學生的答題表現比較支持圖二所 代表的學習歷程。

然而,就如我們剛剛已經討論過的,我們並沒 有學生們會或者不會相關觀念的資料,我們只有學 生的答題反應。所以,雖然學生的答題反應並不必 然反應他們的能力,但是我們也只能利用他們的答 題反應去猜測他們的能力。

假定某一次的測驗中,每一個觀念都有 n 道直 接相關的試題,則學生答對關於某一觀念的試題的 比例就有 0、1/n、2/n、…、和 1 總共(n+1)種可能。

我們可以用全體學生對於某一觀念的試題的答對 比例的分佈來暫代全體學生在這一觀念的能力的 分佈。我們當然也可利用學生對於某一些觀念組合 的答題反應,來估計學生對於那一些觀念組合的能 力的聯合機率分佈(joint probability distribution),公 式(5)是一個簡單的範例。

測學生總數

的試題學生數 2

1 和 答對

) / 2 ,

/ 1 Pr(

題關於 題關於

cA dAB

n dBC n cA

=

=

=

(5)

跟所有以估計的機率作為推理核心資訊的系

統一樣,我們也需要處理零機率的問題,目前我們

是把所有機率變數的基本狀態的出現次數先加上

一個很小的量(目前是用 0.001),作為我們平緩

(5)

(smoothing)機率分佈的方法。

有了估計個別觀念和觀念組合的能力的機率 分佈情形的方法,我們就可以套用互見資訊的定 義,來計算可以用來評比不同貝氏網路結構所需的 分數。以 λ 是 4 的問題來說,我們需要為所有 14 種可能的學習歷程,計算一個分數,作為評比的基 礎。

五.乙 機器學習技術

然而,在進行一些小規模的實驗之後,我們發現,

雖然互見資訊的效果不錯[19],不過有一些時候代 表不同學習歷程的分數有一些時候並沒有很大的 差距,這時候互見資訊的大小的可靠度就變得不 高。因此,除了原始的互見資訊的資料之外,我們 還建議找出所有基本的互見資訊的最大值、次大值 和平均值,把所有基本的互見資訊除以最大值,當 作決策時的特徵項目(features)。此外,把最大值除 以最小值和最大值除以平均值也是兩個可能有用 的特徵項目。

以研究 dABCD 的學習歷程為例,我們需要計 算 14 個基本的互見資訊,把這 14 個互見資訊除以 最大值之後,我們會得到另外 14 個新的特徵,最 後再把最大值除以次大值,並且把最大值除以平均 值。所以我們一共會產生 30 個可以用以評比不同 結構的特徵項目。

我們可以蒐集受測學生的答題反應,然後利 用上述這一些有用的特徵來評比不同結構,從中選 出一個最適當的。然而,經驗[10,19]顯示,這樣的 作法雖然有其優點,但是當學生的外在表現與其內 在能力的關連性相對不高的時候,直接利用這一些 特徵項目來猜測學生的學習歷程的效果並不盡理 想。以第二節所說明的詞彙來說明,當我們用比較 大的 α 和 β 來產生學生答題反應的模擬資料時,

並且用上述的特徵項目來猜測產生這一些模擬資 料的學習歷程時,所得的效果並不好。

本文所討論的方法,是假設我們有資訊來源讓 我們可以預先找出幾個可能的學習歷程,配合一個 選定的 Q 矩陣,來產生學生的答題反應。由於在 這一階段是我們選擇特定的學習歷程來產生這一 些答題反應,所以我們可以把已知的學習歷程類別 當作是訓練資料的類別標籤(class labels),配合所 產 生 的 答 題 反 應 當 作 是 監 督 式 學 習 (supervised learning)的訓練資料,來產生一些分類器,最後再 以這一些分類器來猜測真實的學生的學習歷程的 類別。在這一個理念之下,我們可以採用支持向量 機(support vector machines)、類神經網路(artificial neural networks)或者其他可用的機器學習技術來 建構我們的分類器。在下一節中,我們採用支持向 量機作為猜測學生學習歷程的分類器。

六 實驗程序、結果與分析

由於我們並沒有蒐集真實的學生的答題資料,因此 我們全部都是採用模擬的學生資料進行實驗。在一 組實驗中,我們需要兩組貝氏網路,其中有一組只 有一個貝氏網路,是用來代表學生真正的學習歷 程,我們用這一個貝氏網路來產生測試分類器的學 生答題資料。另一組的貝氏網路包含多個貝氏網

路,分別代表我們所猜測的學習歷程,我們利用這 一組貝氏網路分別產生許多組的學生答題資料,配 合所選定的 Q 矩陣,以第三節所描述的模擬器產 生模擬的學生資料,然後應用第五節所描述的原則 訓練我們的分類器。我們以訓練所得的分類器來猜 測產生測試資料時所用的貝氏網路的結構,同時記 錄和分析正確的比例。

在目前的實驗中,我們假設所有學生都是採用 同一個學習歷程來學綜合觀念的。這樣一來,我們 的實驗只要找出最有可能的學習歷程即可,可以簡 化實驗的設計和分析。當然,這樣的假設不是絕對 必要的,如果我們認為不同學生可能用不同的方式 學習某一綜合觀念的話,則我們可以讓我們的系統 找出前幾名最有可能的結構即可。

六.甲 實驗所用的貝氏網路結構

我們進行四組實驗,分別假設學生的學習類型是 A~BCD 、AB~CD、A~BC~D 和 A~B~C~D。除了 dABCD 有這四個可能的結構之外,我們假設所有 其他綜合觀念的親代觀念都是基本觀念。從親代觀 念的個數與組合上,這四個可能的答案分別代表四 大類不同的情況。dABCD 的親代觀念有兩個時,

有兩類情況,也就是兩個親代觀念分別牽涉一個和 三個基本觀念,或者是兩個親代觀念都牽涉兩個基 本觀念。dABCD 的親代觀念有三個時,只有一類 情況,只能有一個親代觀念牽涉到兩個基本觀念,

另外兩個都必須是基本觀念。dABCD 的親代觀念 有四個時,則每一個親代觀念都必須是基本觀念。

我們暫時假設依據專業資訊所猜測的貝氏網 路結構群,總是能夠包含正確的結構。為了能夠同 時比較正確結構對於實驗結果的影響,我們就假設 依 據 專 業 資 訊 所 猜 測 的 貝 氏 網 路 結 構 群 是 {A~BCD,AB~CD,A~BC~D,A~B~C~D}。所以不 管實驗時真正的答案是上一段落所列的哪一個,全 部都屬於這一個集合。

六.乙 實驗所用的 Q 矩陣

我們在第三節所討論的模擬器,除了需要貝氏網路 的結構之外,還需要再提供關於學生類型的 Q 矩 陣。在我們完全依賴模擬資料所進行的實驗中,觀 念上需要兩個 Q 矩陣:第一個 Q 矩陣代表依照某 種專業資訊所猜測的學生能力類型,第二個 Q 矩 陣則是代表真實學生的類型。如果專業資訊是完全 可靠的話,則這兩個矩陣就會相近甚至相同。在目 前的實驗中,我們暫時假設這兩個矩陣是完全相同 的。當然,在真實的研究中,即使是基於專業資訊 所臆測的 Q 矩陣也不一定能夠精確掌握學生的類 型。這一部份的不確定性,部分可以由第三節解釋 過的控制變因 β 來模擬。但是,比較嚴格的考驗是 真的以兩個不同的 Q 矩陣來進行實驗,這一部份 作者已經嘗試過,不過由於論文篇幅的關係,不能 在這一篇短文中報告結果。

下一頁上的表二是本文所採用的 Q 矩陣。它 的格式跟表一的格式類似,最左邊的欄位是學生類 型的編號,其他欄位代表基本能力的有無和是否具 備產出綜合觀念的綜合能力。這一個 Q 矩陣跟[10]

一文所使用的 Q 矩陣完全一樣,不過本文與[10]

(6)

所用的貝氏網路的結構並不相同,所以實驗結果可

以相互比較。

表二中 16 類的學生類型都具備基本能力,而 且有能力整合學習 dABCD 的親代觀念的能力,所 以都可以遂行 A~B~C~D 這一種學習模式。其中,

i 是奇數的 gi 類別,都是可以運用 A~BCD 的學習 模式。類別 g1、g2、g4、g6、g8、g10、g11、g12、

g14 和 g16 可以運用 AB~CD 的模式。類別 g1、g3、

g9 和 g13 可以運用 A~BC~D 的模式。

從觀念的類別來分析表二的設定的話,上面已 經提到所有學生類別都具備基本能力,而且有能力 整合學習 dABCD 的親代觀念的能力。如果我們的 目標是要找尋學生學習 dABCD 的方式的話,模擬 一些至少有機會能夠學會 dABCD 的學生的表現應 該是合理的。dABC、dABD、dABD 和 dBCD 這四 個牽涉到三個基本觀念的綜合觀念,總共可以有 16 種不同的能力組合,這也是表二包含 16 類學生 的主要原因。由於組合數量的原因,表二並沒有能 夠包含所有牽涉到兩個基本觀念的綜合觀念的所 有能力組合,因為那將需要 64 個類別,我們任選 了 16 種方式來設定這一些能力的組合。

我們在第四節曾經討論過 Q 矩陣的數量的問 題,Q 矩陣的選擇必然會影響實驗的結果,除了上 面所說,個別學生類型可以支持所要試驗的學習歷 程之外,我們還有其他方式來分析 Q 矩陣的影響,

作者將於近日發表關於這一些比較深入的議題的 討論。

除了透過控制變因 β 的輔助,來產生一些學生 類別的不確定性之外,我們還利用控制變因 α 來模 擬學生答題時發生 slip 和 guess 的機率。在我們的 實驗中, α 和 β 這兩個控制變因會分別被設定為 0.05、0.10、0.15、0.20、0.25 和 0.30 這六個不同 的值。在文獻中,尚未看到有討論 slip 和 guess 發 生機率超過 0.3 的必要。在我們的模擬器中 α 和 β 的大小是發生「異常」表現的機率的上限。發生異 常的確實機率是透過一個亂數產生器所設定,而這 一個亂數產生器以均等的機會提供[0,1]這一個區 間之內的任何實數。所謂「異常」表現是指發生

slip、guess 或者整體表現不像所屬類別的典型學生 這一些情形。

六.丙 基礎流程

圖四提供實驗基礎流程的簡圖。特徵產生器利用第 五節所說明的方法,依據一萬個學生答題的平均狀 況來估計代表觀念的節點的狀態,然後計算所需要 的互見資訊和特徵。在我們的實驗中,我們假定學 生針對每一個觀念都回答了三道試題,以第二節的 詞彙來說的話,對測試範圍之內所有的觀念,我們 都假設

Ii =3

。我們會針對每一個可能的結構,也 就是 A~BCD、AB~CD、A~BC~D 和 A~B~C~D,執 行圖四的流程;每一個結構都會執行 600 次。針對 任一特定 α 和 β 的組合,我們有 2400 筆案例,我 們從每一結構的 600 個案例裡面任選 500 筆案例當 作訓練資料,以剩下的 100 筆作為測試資料。

這裡所說的訓練資料,就是第五.乙節所討論 到的利用專業資訊所直接提供或者所產生的學生 答題表現。測試資料則是指該小節所說的真實的學 生答題反應。

我們使用 LIBSVM[2] 作為實踐支持向量機的 工具,我們使用 c-SVC 型態的支持向量機,採用 radial basis 核心函數(kernel)。以下所有以支持向 量機所產生的實驗結果,都是先以訓練資料自我測 試,找出在 0.1、0.2、…、1.9 之間最好的 C 和 γ 兩個參數的組合。在比較了總共 361 種組合之後,

我們找出一個最好的組合之後,再用這一個組合來 猜測產生真正的測試資料的貝氏網路結構。

表二:實驗所採用的 Q 矩陣

cA cB cC cD dAB dAC dAD dBC dBD dCD dABC dABD dACD dBCD dABCD

g1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

g2

1 1 1 1 1 0 0 0 0 1 1 1 1 0 1

g3

1 1 1 1 0 1 0 1 0 1 1 1 0 1 1

g4

1 1 1 1 1 0 0 0 0 1 1 1 0 0 1

g5

1 1 1 1 1 0 1 0 1 0 1 0 1 1 1

g6

1 1 1 1 1 0 0 0 0 1 1 0 1 0 1

g7

1 1 1 1 1 1 1 0 0 0 1 0 0 1 1

g8

1 1 1 1 1 0 0 0 0 1 1 0 0 0 1

g9

1 1 1 1 0 0 0 1 1 1 0 1 1 1 1

g10

1 1 1 1 1 0 0 0 0 1 0 1 1 0 1

g11

1 1 1 1 1 1 0 0 1 1 0 1 0 1 1

g12

1 1 1 1 1 0 0 0 0 1 0 1 0 0 1

g13

1 1 1 1 0 0 1 1 0 0 0 0 1 1 1

g14

1 1 1 1 1 0 0 0 0 1 0 0 1 0 1

g15

1 1 1 1 0 0 0 0 1 1 0 0 0 1 1

g16

1 1 1 1 1 0 0 0 0 1 0 0 0 0 1

網路結構 等參數

Q α β

一萬個學生的 答題反應

模擬器

30 個特徵 特徵產生器

圖四:實驗的基礎流程

(7)

六.丁 基本分析

我們先用一個簡單的程序分析一下所要使用的原 始資料。我們先用第五.甲節所說明的方法,以所 產生的資料中的互見資訊的大小,來猜測產生各筆 資料所使用的貝氏網路結構。經過一個簡單的程 序,我們可以計算在不同的 α 和 β 的組合下,總 共 2400 筆中,直接以互見資訊來猜測原始結構的 正確率(accuracy)。我們直接比較代表 14 種不同結 構的互見資訊的大小,以最大的互見資訊所代表的 結構當作我們所猜測的結構,然後檢視所猜測的結 構是否就是原本用以產生該筆資料的結構。

圖五的縱軸是 正確率的大小,橫 軸是控制變因 α 的 值,圖例則是控制 變因 β 的值。我們 可以輕易地由圖五 的曲線發現,如果 只有依賴第五.甲節 所陳述的方式,以 估測的互見資訊來 猜測正確的結構並 不容易達到很好的 效果。在所測試的 範圍之內,隨著控 制變因的組合的變 化,最好的效果接 近九成,而最壞的時候則低到接近只有兩成五。

這裡的兩成五並非因為我們系統是從四個已 知類別中隨意猜測而得的。實際上我們的系統是比 較 14 種結構的相對可能性,所以如果是隨意亂猜 的話,最壞的正確率可以低到一成以下。這裡的兩 成五是因為 A~B~C~D 是一個競爭力非常強的候選 結構,在 α 和 β 兩個控制變因都很大的時候,我 們的系統常常會猜測學習歷程是 A~B~C~D。所以 在真實答案真的是 A~B~C~D 的時候,我們的系統 都還是會猜對這 600 筆測試案例的類別,因此表現 出接近兩成五的結果。

六.戊 實驗結果與分析

圖六的左圖是我們執行第六.丙小節所描述的程序

所得的實驗結果。圖六裡面兩個圖的縱軸、橫軸和 圖例的意義跟圖五都是一樣的。

比較圖五和圖六的左圖的曲線,我們發現,當 我們可以利用專業知識限縮可能的結構的範圍的 時候,機器學習技術確實可以大幅提高找到潛藏的 學習模型的機會。儘管在 α 和 β 兩個控制變因都 很大的時候,我們的系統的表現仍然是相對的不 好,不過比起上一小節所做的基本分析來說,利用 機器學習技術已經大幅提高了猜到正確學習歷程 的比例。

除了大幅提高整體的正確率之外,透過限縮可 能的答案的範圍,圖六的曲線的趨勢也比較規則 化,正確率大都隨著 α 和 β 兩個控制變因的變大 而降低。

以上的實驗中,我們選定了 A~BCD、AB~CD、

A~BC~D 和 A~B~C~D 作為可能的答案的集合。如 果我們加入 A~B~CD,並且重複同樣的實驗程序,

我們得到圖六的右圖這一個結果。比較圖六的兩個 圖形,我們觀察到增加可能的答案的範圍對於我們 的系統的影響。

除了以正確率來量測實驗結果之外,我們也可 以用精確率(precision)與召回率(recall)所組合而成 的 F 分數(F measure) [18]來量測實驗結果。由於我 們現在的可能答案有四類,所以可以為四個類別分 別計算精確率和召回率,並且分別計算四個精確率 和四個召回率的平均值,最後賦予平均精確率和平 均召回率相同的權重來計算 F 分數。結果顯示,對 於我們所執行過的實驗來說,使用正確率和 F 分數 來量測實驗結果並沒有顯著的不同。以繪製圖六左 圖的數據作為分母,以同一實驗結果所計算出的 F 分數作為分子來比較兩者的差異,我們所得的 36 組比例中最小的是 1.0000,最大的則是 1.0015。F 分數雖然都大於正確率,但是兩者差異極小。

七 討論

本研究的主要目的是要檢驗我們是否能夠利用基 於專業經驗所提供的資訊,來協助我們從極大數量 的可能答案中找到潛在變數之間的關連性。這一個 觀念可以應用到許多領域;在本文中,我們以找尋 無法直接觀測的學習歷程為例,實驗結果顯示本研 究所欲驗證的研究法是可行的。

在這樣的短文中,其實有許多問題是無法仔細 交代清楚的。首先,一個以模擬方式所得的結論是 否意味著未來以真實的數據從事研究時,我們會得 到相同的結論?跟大部分工程技術的研究一樣,模 擬系統所採用的模型必然都簡化了現實世界中的 某一些狀況,因此模擬系統所得的結論確實是需要 接受進一步檢驗的。不過,模擬系統的結果和經驗 應該可以提供設計未來的實驗的參考。

前面幾個小節所報告的實驗設計和結果,還有 許多其他面向需要進一步檢驗。比較本文和[10]所 報告的結果,我們可以看到不同的答案集合對於實 驗結果的影響。 Q 矩陣的設定直接影響了所產生的 貝氏網路所採用的機率分佈,因此必然影響實驗的 結果。因此如何選定 Q 矩陣當然是一個需要討論 的議題。

此外,基於專業資訊所猜測的可能答案和真實

0.70 0.75 0.80 0.85 0.90 0.95 1.00

0.05 0.10 0.15 0.20 0.25 0.30 控制變因 α

正確率

0.05 0.10 0.15 0.20 0.25 0.30

0.70 0.75 0.80 0.85 0.90 0.95 1.00

0.05 0.10 0.15 0.20 0.25 0.30 控制變因 α

正確率

0.05 0.10 0.15 0.20 0.25 0.30

圖六:找出正確結構的比例隨控制變因而異

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0.05 0.10 0.15 0.20 0.25 0.30 控制變因 α

正確率

0.05 0.10 0.15 0.20 0.25 0.30

圖五:實驗資料的基本分析

(8)

的學生的能力狀態,兩者是否真的如第六.甲節和

第六.乙節所假設的一樣:兩者是完美的吻合?如 果我們所猜測的可能答案的集合沒有包含學生真 正的學習模式,則監督式學習法當然是派不上用場 了。不過,我們相信專業資訊應該可以提供合理的 猜測,不讓這樣極端的情形發生。相對而言,要猜 到正確的 Q 矩陣就比較不容易。如果訓練支持向 量機時所用的 Q 矩陣不能夠合理反應真實的學生 能力,對於研究結果又會有怎樣的影響?本文作者 將另文討論以上這一些問題。

以本文所應用的範圍來說,以機器學習法找尋 學生學習歷程確實有一個很難解的難題。我們所賴 以進行分類的依據是來自於一個學生群體所表現 的行為的統計數據,所以如果學生群體的人數不 多,則所得的統計數據是否可靠,將是一個很大的 挑戰。一個極端的難題是,本文所討論的方法恐怕 很難用來找出那一些具有獨特學習方式的學生的 學習歷程。

致謝

本 研 究 承 蒙 國 科 會 NSC-94-2213-E-004-008 和 NSC-95-2213-E-004-013 研究計畫的持續資助與教 育部頂尖大學計畫之部分補助,謹此致謝。

參考文獻

1. C. Carmona, E. Millán, J. L. Pérez-de-la-Cruz, M.

Trella, and R. Conejo, Introducing prerequisite rela- tions in a multi-layered Bayesian student model, Proc.

of the 10th Int’l Conf. on User Modeling, 347−356,

2005

2. C.-C. Chang and C.-J. Lin, LIBSVM: A library for support vector machines, 2001, http://www.csie.ntu.edu.tw/~cjlin/libsvm

3. T. M. Cover and J. A. Thomas, Elements of Informa-

tion Theory, John Wiley & Sons, 1990

4. M. C. Desmarais, P. Meshkinfam, and M. Gagnon, Learned student models with item to item knowledge structures, User Modeling and User-Adapted Interac-

tion 16(5), 403−434, 2006

5. D. Heckerman, A tutorial on learning with Bayesian networks, in [7], 301−354, 1999

6. F. V. Jensen and T. D. Nielsen, Bayesian Networks and

Decision Graphs, Springer, 2007

7. M. I. Jordan, ed., Learning in Graphical Models, The MIT Press, 1999

8. D. E. Knuth, The Art of Computer Programming: Fun-

damental Algorithms, p. 73, Addison-Wesley, 1973

9. C.-L. Liu, Using mutual information for adaptive item

comparison and student assessment, J. of Educational

Technology & Society 8(4), 100−119, 2005

10. C.-L. Liu, Learning students’ learning patterns with support vector machines, Lecture Notes in Computer

Science 3488, 601−611, 2006

11. E. Millán and J. L. Pérez-de-la-Cruz, A Bayesian diag- nostic algorithm for student modeling and its evaluation,

User Modeling and User-Adapted Interaction 12(2-3),

281−330, 2002

12. R. J. Mislevy, R. G. Almond, D. Yan, and L. S.

Steinberg, Bayes nets in educational assessment: Where

do the numbers come from?, Proc. of the 15th Conf. on

Uncertainty in Artificial Intelligence, 437−446, 1999

13. R. E. Neapolitan, Learning Bayesian Networks, Pren-

tice Hall, 2003

14. J. Pearl, Probabilistic Reasoning in Intelligent Systems:

Networks of Plausible Inference, Morgan Kaufmann,

1988

15. K. K. Tatsuoka, Rule space: An approach for dealing with misconceptions based on item response theory, J.

of Educational Measurement 20, 345−354, 1983

16. W. J. van der Linden and R. K. Hambleton, eds., Hand-

book of Modern Item Response Theory, Springer, 1997

17. J. Vomlel, Bayesian networks in educational testing,

Int’l J. of Uncertainty, Fuzziness and Knowledge-Based Systems 12(Supplement 1), 83−100, 2004

18. I. H. Witten and E. Frank, Data Mining: Practical Ma-

chine Learning Tools and Techniques, Elsevier, 2005

19. 王鈺婷及劉昭麟,從答題表現探討綜合觀念學習歷

程的模擬分析,

第九屆人工智慧與應用研討會論文 集

,CD-ROM,2004

參考文獻

相關文件

亮亮水果行欲將 348 顆芒果分裝成禮盒,若每個禮盒最多裝 12 顆芒果且每盒芒果數一樣多,則 至少需要多少個禮盒?. 一個面積為

整數數量乘以分數, 理解為將整數(例如: 9個) 數量按分母(例如: 3)均分, 並按分子(例如: 1) 取多少份,

進行 18 以內的加法和減法口算 學生須透過口算解主要以圖像闡述的應用 題,並以橫式作記錄。.. 加法和減法的直式在學習單位 1N4

把作法用乘法算式記下來,並把算式中

研究不同的、新的教學方法/模式 試教行動 Æ 分享經驗 Æ

在【逐步解析 1】中,共需要輸入 2 個答案,為了避免「後面 輸入的答案(數學分數)」取代「前面的答案(國文分數)」,我 們要利用 2 個不同的變數來區別兩者,並以變數

Wi-Fi 定位即利用無線網路來傳遞信號,根據各種網路參數和算法可以找出使用

接下來的 FDTD 疊代運算將是整個計算的核心,也是運算量最大 的部分,在這中間,如何利用光波導的性質以及傳播常數等特徵參量