挖掘關聯法則

第三章、研究方法

3.3 挖掘關聯法則

關聯式法則是用來發掘物項之間彼此的關聯性，找出由於某些事件的發生而引起另外一些事件的發生的規則，非常適合來幫助我們發覺出學習者常犯的學習錯誤概念之間的關聯性，找出哪些錯誤概念的發生會導致另外一些錯誤概念的發生規則，以針對未來有可能發生錯誤的概念進行預防教學，減少錯誤發生的機率。由於我們的受測者都是大學生，至少都具備基礎的英語程度，所以我們並沒有先給予教材瀏覽，而直接作試題評量進行測驗。

在第一階段法則挖掘，試題設計是以英語介係詞階層式概念圖(圖 3.1)為設計基礎，一個概念一個試題，共有 40 個概念所以有 40 題試題。然後參考各英語文法書籍、參考書和教科書(汪永棋，1998；陳琉琍，1994；賀立民，

1994；廖曄嵐，1993；蘇生豪，1993)，配合我們所欲表達的介係詞概念用法設計介係詞試題。

記錄作答資料，儲存在資料庫中。每個題目代表一個概念，即每個題目代表一個物項(item)。每位受測者完整的作答記錄為一筆物項集合(itemset)。利用 Apriori 演算法，針對答錯的題項進行資料挖掘，找出介係詞錯誤概念的關聯法

則。

以下我們利用簡單的例子，來看 Apriori 演算法的處理過程：若資料庫中有四筆作答記錄，每筆作答記錄都具有不同的 SID，而 item 代表題項，共有五題

(1~5)。提取答錯的記錄，整理如下所示：

表 3.3-1：提取答錯的記錄格式 SID Items

1 1,3,4 2 2,3,5 3 1,2,3,5 4 2,5

利用圖3.3，可以很清楚的看到Apriori演算法的運作過程，它先以所有作答錯誤的題目當成第一階段的候選物項集合(Candidate Itemset)，若是大於或等於使用者自訂的最小支持度(min-support )，在此設定最小支持度為0.5，即物項出現次數須為兩次(4*0.5=2)，才可成為第一階段的強物項集合(Large

Itemsets)，從圖3.3可知有1、2、3、5四個物項符合限制；接著，進入第二階段循環，候選物項集的產生是由上一階段的強物項集合做排列組合，一共產生了{1,2}、{1,3}、{1,5}、{2,3}、{2,5}、{3,5}六個候選物項集C2；依此類推，經過不斷的排列組合及資料庫存取，直到不再產生出新的候選物項集合為止，將可在最後產生{2,3,5}的強物項組合L3。

圖 3.3：Apriori 演算法產生候選集合及強物項集合

在法則建立階段，是指強物項集合(Large itemsets)已經產生之後，要如何將物項與物項之間的關聯以法則的形式表現出來，而在此部份，我們利用 Agrawal 等學者的 Support-Confidence 架構來建構出關聯式法則(Agrawal et al, 1993; Agrawal and Srikant, 1994; Zaki et al, 1996)。

將關聯法則整個流程內容做一詳細定義：

假設I = {i1,i2,..,im}，表示各題項的集合，每一題項為一介係詞概念。並設D 爲每一筆作答錯誤題項的紀錄集合，且每筆作答錯誤題項的紀錄T所包含的就是 一群錯誤題項的集合，一個錯誤題項即代表一個錯誤概念，且所有在T出現的題

項都是可以被I所涵蓋的。而在一般的關聯式法則表示上，設定X和Y都是一群作 答錯誤題項的集合，而X和Y所包含的題項都是可以在I中所找到，但X∩Y必須 爲Ø，如此將可以設定一法則格式為X=>Y，X為法則的前項(antecedent)，Y為法則的後項(consequent)。

各題項的集合I = {i₁,i2,..,im}，m=40

每一筆作答錯誤題項紀錄的集合D = {t₁,t₂,…,t_n}，t_i ∩ I (1<= i <=n)

設定

X 和 Y 都是一群錯誤題項的集合 且 X ∩ I，Y ∩ I，X∩Y = Ø

則可得一法則：X=>Y

為了進一步說明關聯法則的正確度和支持度，引入了可信度(Confidence Level) 和支持度(Support Level)兩個概念。

支持度(Support Level)：S = (X∪Y) / D

表示用這條規則可以推出百分之幾的目標，即這一原因對於這一結果的重要程度。代表實驗因子也就是資料物項集合(Data Itemsets)在資料庫中所佔有的比例(s%)，若佔的比例較高，則顯示此物項集合應是一個值得重視的討論要項。例如：答錯第 1、2 題佔總資料庫的比例為 70%。

可信度(Confidence Level)：C = (X∪Y) / X

表示這條規則的正確程度，代表被實驗的因子在主要因子中所佔有的條件比例程度，例如若要探討答錯第 1 題的人是否會同時答錯第 2 題，可能會發現答錯第 1 題的人裡頭有 90%會同時答錯第 2 題，這就代表兩因子之間的信賴程度，可信度愈高代表法則愈正確。

支持度 s%大於或等於使用者自訂的最小支持度 (min-support)；可信度 c%

大於或等於使用者自訂的最小可信度(min-confidence)。若是符合以上兩種限制門檻將可以被視爲較好的關聯式法則。法則前項(antecedent)、法則後項(consequent) 可由一個或多個物項條件組成，當法則前項全部為真時，法則後項也為真。法則後項一般為單一物項條件，單一物項條件會比多個物項條件來得好，尤其是在預測購物商品物項方面。法則後項為單一物項條件時預測的效果會比法則後項為多個物項條件的預測效果好(Berson,et al,2000)，因為當我們作預測時，會對法則後項比較在意，若是法則後項為多個物項所組成時，會增加我們做決策的困難度和複雜性，另一方面當在相同支持度(support)的物項集合中，法則後項為多個物項條件時，一般來說其法則的可信度(confidence)相對於法則後項為單一物項條件的法則可信度來的低，可信度代表此法則的正確程度，可信度愈高代表法則愈正確愈值得採信。

根據前面例子所產生的強物項{2,3,5}，排列組合後所可能產生的法則為：2->3,5、3->2,5、5->2,3、2,3->5、2,5->3、3,5->2，六個法則。再一一計算此六個法則的可信度，是否達到使用者自訂的最小可信度，假設我們設定最

小可信度為 0.8，若符合門檻，即表示此關聯法則是較好的法則，可信度愈高代表法則的正確度愈高，假設有 2,3->5、2,5->3、5->2,3 三條法則符合最小可信度。

2,3->5、2,5->3 此兩條法則，表示在第 2、3、5 題集合中，當第 2&3 題同時出錯時，會有第 5 題跟著出錯的現象；而當第 2&5 題同時出錯時，會有第 3 題跟著出錯的現象。再來看 5->2,3 此法則，表示當第 5 題出錯時，會有第 2&3 題跟著同時出錯的現象。接著再將題號比照英語介係詞階層式概念表格(表 3.3-2)，

即可得知 2、3、5 分屬哪個概念。如表 3.3-3 所示：

表 3.3-2：英語介係詞階層式概念對照題號表格 Level

Level 1

Level 2 Level 3 對照題號

at 24 in 33 on 15 towards 28

與接觸物相關

to 37 into 26 Out of 31

inside 39 方向動作的目的

outside 22 next to 7

具附近性質

near 40 at 14 in 4 介係詞位置與接觸物相關

on 23

表 3.3-2：英語介係詞階層式概念對照題號表格(續) Level

Level 1

Level 2 Level 3 對照題號

after 16 by 18 before 8

前後順序

in 25 at 6 in 35

某一特定時間

on 19 after 38 since 20

持續

from 2 for 21

in 9 時間一段時間

during 32 to 11 in 13

與接觸物相關

on 36 from 17

off 1 Away from 29

距離和方位與相對位置有關

Out of 12

from 10 of 27 by 3

材料變化與表示方法

with 34 besides 30 介係詞修飾語與語意相關

except 5

表 3.3-3：第 2、3 和 5 題概念對照表題號介係詞階層式概念

2 時間_持續_from

3 修飾語_材料變化與表示方法_by 5 修飾語_與語意相關_except

R1：2,3->5 表示，

2、3﹝時間_持續_from & 修飾語_材料變化與表示方法_by﹞的概念與 5﹝修飾 語_與語意相關_except﹞的概念彼此間有關聯性。表示當﹝時間_持續_from &

修飾語_材料變化與表示方法_by﹞的概念同時發生錯誤時，會引起﹝修飾語_與語意相關_except﹞的概念出錯，其發生的機率有八成以上。

R2：5->2,3 表示，

5﹝修飾語_與語意相關_except﹞的概念與 2、3﹝時間_持續_from & 修飾語_

材料變化與表示方法_by﹞的概念彼此間有關聯性。表示當﹝修飾語_與語意相關

_except﹞的概念發生錯誤時，會引起﹝時間_持續_from & 修飾語_材料變化與 表示方法_by﹞的概念同時出錯，其發生的機率有八成以上。

在文檔中中華大學碩士論文 (頁 33-40)

第三章、 研究方法

3.3 挖掘關聯法則

第三章、研究方法