第二章 文獻探討
第五節 關聯規則
則中最經典的例子為啤酒與尿布規則(Berry and Linoff, 1997);探勘關聯規則的 演算法也是在上述的需求之下所產生出來的探勘方法(鐘明璇,2002)。
在探勘關聯規則的領域中,主要方法可以分為兩大類:(1)Apriori-like 的方 法產生 Candidate Set,並找出符合最小支持度的大項目集合(Large Itemsets),再 依據大項目期和產生關聯規則;(2)使用 Non Apriori-like 的方法找出大項目集合 (鐘明璇,2002)。
Apriori-like 的方法是以 Apriori 演算法為基礎所發展的相關方法,Apriori 演算法也是關聯規則探勘技術中,最早被提出且運作穩健的演算法。Apriori-like 的方法的特點是第一次的 Candidate Set(C1)是直接掃過一次資料庫而得到,而第 C𝑘(k>1)次產生方式都包含了兩個主要步驟:首先合併產生 Candidate Set,另一 則是將這些項目集合中,含有不是前一次作業的大項目集合者去除,再對所留 下來的 Candidate Set,計算支持度,去除不滿足最小支持度的項目集合後則得 到最後的大項目集合(鐘明璇,2002)。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
5.1 關聯規則的種類
關聯規則大致上可以分成以下三類(Han and Kamber, 2006) (鐘明璇,2002,頁 22):
1. 以屬性值的型態為基礎:
如果所關注的只是項目是否出現,為 Boolean Association Rule,例如『牛 奶=>麵包(Support=2%,Confidence=60%)』就是這類關聯規則。如果對 於項目的單位數也有所關注,則為 Association Rule with Repeated Items,
例如『牛奶 2 單位=>麵包 3 單位(support=2%,confidence=60%)』就是 這 類 關 聯 規 則 。 若 所 要 描 述 的 規 則 其 項 目 是 一 個 數 值 , 則 為 Quantitative Association Rule。這種關聯規則的可能性太多,所以必頇 把數量值切割成不同的區間(可以事先切好,或根據資料分布情況來 切割,或根據語意、模糊函數、資訊含量等不同方式切割),才有辦法 產生關聯規則。
2. 以規則中包涵的維度為基礎:
若在關聯規則中的項目或屬性只參照單一維度時,稱為 Single
Dimensional Association Rule,例如將『牛奶=>麵包』的關聯規則寫成
『購買(X, "牛奶")=>購買(X, "麵包")』,則其注重的是『購買』,這個維 度。如果關聯規則中的項目或是屬性參照兩個以上的維度時,則稱為 Multidimensional Association Rule,例如年齡(X, "40…45")^收入(X, "7 萬…8 萬")=>購買(X,海外基金)這個關聯規則中的例子,便包含了年齡、
收入及購買三個維度。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
21
3. 以規則中所涵蓋的抽象層級為基礎:
如果在關聯規則中的項目或屬性可以屬於不同的概念層級,如『年齡 (X, "中年")=>購買(X, "瑞穗鮮奶"』("中年"對於年齡而言屬於較高及概 念),但瑞穗鮮奶對於購買項目而言屬於較低層級概念),則稱這類規 則為 Multilevel Association Rule。反之沒有參照到不同層級的項目或屬 性規則,則稱為 Single-level Association Rule。
5.2 關聯規則的評估指標
關聯規則的評估指標,大多是以最小支持度和最小信賴度為主。最小支持 度是用來界定一個規則必頇涵蓋得最少資料數目;而小信賴度則代表這個規則 的預測強度,關聯規則的支持度和最小信賴度可用來評估該規則是否成立,當 探勘出的規則滿足使用者訂定的最小支持度和信賴度的門檻時,這個規則才算 成立(王美淳,2003)。其公式如下:
Support(A => B) = P(A ∪ B) ··· (公式 5)
Confidence(A => B) =support(A=>B)
support(A) ··· (公式 6)
除此之外尚有許多學者提出其他具有不同特性和用途的評估指標,但大多 仍以 Support 和 Confidence 為基礎衍生而來(鍾明璇,2002) 。