• 沒有找到結果。

挖掘關聯法則

在文檔中 中 華 大 學 碩 士 論 文 (頁 33-40)

第三章、 研究方法

3.3 挖掘關聯法則

關聯式法則是用來發掘物項之間彼此的關聯性,找出由於某些事件的發生 而引起另外一些事件的發生的規則,非常適合來幫助我們發覺出學習者常犯的學 習錯誤概念之間的關聯性,找出哪些錯誤概念的發生會導致另外一些錯誤概念的 發生規則,以針對未來有可能發生錯誤的概念進行預防教學,減少錯誤發生的機 率。由於我們的受測者都是大學生,至少都具備基礎的英語程度,所以我們並沒 有先給予教材瀏覽,而直接作試題評量進行測驗。

在第一階段法則挖掘,試題設計是以英語介係詞階層式概念圖(圖 3.1)為 設計基礎,一個概念一個試題,共有 40 個概念所以有 40 題試題。然後參考 各英語文法書籍、參考書和教科書(汪永棋,1998;陳琉琍,1994;賀立民,

1994;廖曄嵐,1993;蘇生豪,1993),配合我們所欲表達的介係詞概念用法 設計介係詞試題。

記錄作答資料,儲存在資料庫中。每個題目代表一個概念,即每個題目代 表一個物項(item)。每位受測者完整的作答記錄為一筆物項集合(itemset)。利用 Apriori 演算法,針對答錯的題項進行資料挖掘,找出介係詞錯誤概念的關聯法

則。

以下我們利用簡單的例子,來看 Apriori 演算法的處理過程:若資料庫中有 四筆作答記錄,每筆作答記錄都具有不同的 SID,而 item 代表題項,共有五題

(1~5)。提取答錯的記錄,整理如下所示:

表 3.3-1:提取答錯的記錄格式 SID Items

1 1,3,4 2 2,3,5 3 1,2,3,5 4 2,5

利用圖3.3,可以很清楚的看到Apriori演算法的運作過程,它先以所有作答錯 誤的題目當成第一階段的候選物項集合(Candidate Itemset),若是大於或等於 使用者自訂的最小支持度(min-support ),在此設定最小支持度為0.5,即物項 出現次數須為兩次(4*0.5=2),才可成為第一階段的強物項集合(Large

Itemsets),從圖3.3可知有1、2、3、5四個物項符合限制;接著,進入第二階 段循環,候選物項集的產生是由上一階段的強物項集合做排列組合,一共產 生了{1,2}、{1,3}、{1,5}、{2,3}、{2,5}、{3,5}六個候選物項集C2;依此類 推,經過不斷的排列組合及資料庫存取,直到不再產生出新的候選物項集合 為止,將可在最後產生{2,3,5}的強物項組合L3。

圖 3.3:Apriori 演算法產生候選集合及強物項集合

在法則建立階段,是指強物項集合(Large itemsets)已經產生之後,要如 何將物項與物項之間的關聯以法則的形式表現出來,而在此部份,我們利用 Agrawal 等學者的 Support-Confidence 架構來建構出關聯式法則(Agrawal et al, 1993; Agrawal and Srikant, 1994; Zaki et al, 1996)。

將關聯法則整個流程內容做一詳細定義:

假設I = {i1,i2,..,im},表示各題項的集合,每一題項為一介係詞概念。並設D 爲每一筆作答錯誤題項的紀錄集合,且每筆作答錯誤題項的紀錄T所包含的就是 一群錯誤題項的集合,一個錯誤題項即代表一個錯誤概念,且所有在T出現的題

項都是可以被I所涵蓋的。而在一般的關聯式法則表示上,設定X和Y都是一群作 答錯誤題項的集合,而X和Y所包含的題項都是可以在I中所找到,但X∩Y必須 爲Ø,如此將可以設定一法則格式為X=>Y,X為法則的前項(antecedent),Y為法 則的後項(consequent)。

各題項的集合I = {i1,i2,..,im},m=40

每一筆作答錯誤題項紀錄的集合D = {t1,t2,…,tn},ti ∩ I (1<= i <=n)

設定

X 和 Y 都是一群錯誤題項的集合 且 X ∩ I,Y ∩ I,X∩Y = Ø

則可得一法則:X=>Y

為了進一步說明關聯法則的正確度和支持度,引入了可信度(Confidence Level) 和支持度(Support Level)兩個概念。

支持度(Support Level):S = (X∪Y) / D

表示用這條規則可以推出百分之幾的目標,即這一原因對於這一結果的重要 程度。代表實驗因子也就是資料物項集合(Data Itemsets)在資料庫中所佔有 的比例(s%),若佔的比例較高,則顯示此物項集合應是一個值得重視的討論 要項。例如:答錯第 1、2 題佔總資料庫的比例為 70%。

可信度(Confidence Level):C = (X∪Y) / X

表示這條規則的正確程度,代表被實驗的因子在主要因子中所佔有的條件比 例程度,例如若要探討答錯第 1 題的人是否會同時答錯第 2 題,可能會發現 答錯第 1 題的人裡頭有 90%會同時答錯第 2 題,這就代表兩因子之間的信賴 程度,可信度愈高代表法則愈正確。

支持度 s%大於或等於使用者自訂的最小支持度 (min-support);可信度 c%

大於或等於使用者自訂的最小可信度(min-confidence)。若是符合以上兩種限制門 檻將可以被視爲較好的關聯式法則。法則前項(antecedent)、法則後項(consequent) 可由一個或多個物項條件組成,當法則前項全部為真時,法則後項也為真。法則 後項一般為單一物項條件,單一物項條件會比多個物項條件來得好,尤其是在預 測購物商品物項方面。法則後項為單一物項條件時預測的效果會比法則後項為多 個物項條件的預測效果好(Berson,et al,2000),因為當我們作預測時,會對法則後 項比較在意,若是法則後項為多個物項所組成時,會增加我們做決策的困難度和 複雜性,另一方面當在相同支持度(support)的物項集合中,法則後項為多個物項 條件時,一般來說其法則的可信度(confidence)相對於法則後項為單一物項條件的 法則可信度來的低,可信度代表此法則的正確程度,可信度愈高代表法則愈正確 愈值得採信。

根據前面例子所產生的強物項{2,3,5},排列組合後所可能產生的法則 為:2->3,5、3->2,5、5->2,3、2,3->5、2,5->3、3,5->2,六個法則。再一一計 算此六個法則的可信度,是否達到使用者自訂的最小可信度,假設我們設定最

小可信度為 0.8,若符合門檻,即表示此關聯法則是較好的法則,可信度愈高代 表法則的正確度愈高,假設有 2,3->5、2,5->3、5->2,3 三條法則符合最小可信度。

2,3->5、2,5->3 此兩條法則,表示在第 2、3、5 題集合中,當第 2&3 題同時 出錯時,會有第 5 題跟著出錯的現象;而當第 2&5 題同時出錯時,會有第 3 題 跟著出錯的現象。再來看 5->2,3 此法則,表示當第 5 題出錯時,會有第 2&3 題 跟著同時出錯的現象。接著再將題號比照英語介係詞階層式概念表格(表 3.3-2),

即可得知 2、3、5 分屬哪個概念。如表 3.3-3 所示:

表 3.3-2:英語介係詞階層式概念對照題號表格 Level

0

Level 1

Level 2 Level 3 對照題號

at 24 in 33 on 15 towards 28

與接觸物相關

to 37 into 26 Out of 31

inside 39 方向 動作的目的

outside 22 next to 7

具附近性質

near 40 at 14 in 4 介係詞 位置 與接觸物相關

on 23

表 3.3-2:英語介係詞階層式概念對照題號表格(續) Level

0

Level 1

Level 2 Level 3 對照題號

after 16 by 18 before 8

前後順序

in 25 at 6 in 35

某一特定時間

on 19 after 38 since 20

持續

from 2 for 21

in 9 時間 一段時間

during 32 to 11 in 13

與接觸物相關

on 36 from 17

off 1 Away from 29

距離和方位 與相對位置有關

Out of 12

from 10 of 27 by 3

材料變化與表示方法

with 34 besides 30 介係詞 修飾語 與語意相關

except 5

表 3.3-3:第 2、3 和 5 題概念對照表 題號 介係詞階層式概念

2 時間_持續_from

3 修飾語_材料變化與表示方法_by 5 修飾語_與語意相關_except

R2

R1

R1:2,3->5 表示,

2、3﹝時間_持續_from & 修飾語_材料變化與表示方法_by﹞的概念 與 5﹝修飾 語_與語意相關_except﹞的概念彼此間有關聯性。表示當﹝時間_持續_from &

修飾語_材料變化與表示方法_by﹞的概念同時發生錯誤時,會引起﹝修飾語_與 語意相關_except﹞的概念出錯,其發生的機率有八成以上。

R2:5->2,3 表示,

5﹝修飾語_與語意相關_except﹞的概念 與 2、3﹝時間_持續_from & 修飾語_

材料變化與表示方法_by﹞的概念彼此間有關聯性。表示當﹝修飾語_與語意相關

_except﹞的概念發生錯誤時,會引起﹝時間_持續_from & 修飾語_材料變化與 表示方法_by﹞的概念同時出錯,其發生的機率有八成以上。

在文檔中 中 華 大 學 碩 士 論 文 (頁 33-40)

相關文件