• 沒有找到結果。

第二章 文獻探討

第五節 關聯規則

則中最經典的例子為啤酒與尿布規則(Berry and Linoff, 1997);探勘關聯規則的 演算法也是在上述的需求之下所產生出來的探勘方法(鐘明璇,2002)。

在探勘關聯規則的領域中,主要方法可以分為兩大類:(1)Apriori-like 的方 法產生 Candidate Set,並找出符合最小支持度的大項目集合(Large Itemsets),再 依據大項目期和產生關聯規則;(2)使用 Non Apriori-like 的方法找出大項目集合 (鐘明璇,2002)。

Apriori-like 的方法是以 Apriori 演算法為基礎所發展的相關方法,Apriori 演算法也是關聯規則探勘技術中,最早被提出且運作穩健的演算法。Apriori-like 的方法的特點是第一次的 Candidate Set(C1)是直接掃過一次資料庫而得到,而第 C𝑘(k>1)次產生方式都包含了兩個主要步驟:首先合併產生 Candidate Set,另一 則是將這些項目集合中,含有不是前一次作業的大項目集合者去除,再對所留 下來的 Candidate Set,計算支持度,去除不滿足最小支持度的項目集合後則得 到最後的大項目集合(鐘明璇,2002)。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

5.1 關聯規則的種類

關聯規則大致上可以分成以下三類(Han and Kamber, 2006) (鐘明璇,2002,頁 22):

1. 以屬性值的型態為基礎:

如果所關注的只是項目是否出現,為 Boolean Association Rule,例如『牛 奶=>麵包(Support=2%,Confidence=60%)』就是這類關聯規則。如果對 於項目的單位數也有所關注,則為 Association Rule with Repeated Items,

例如『牛奶 2 單位=>麵包 3 單位(support=2%,confidence=60%)』就是 這 類 關 聯 規 則 。 若 所 要 描 述 的 規 則 其 項 目 是 一 個 數 值 , 則 為 Quantitative Association Rule。這種關聯規則的可能性太多,所以必頇 把數量值切割成不同的區間(可以事先切好,或根據資料分布情況來 切割,或根據語意、模糊函數、資訊含量等不同方式切割),才有辦法 產生關聯規則。

2. 以規則中包涵的維度為基礎:

若在關聯規則中的項目或屬性只參照單一維度時,稱為 Single

Dimensional Association Rule,例如將『牛奶=>麵包』的關聯規則寫成

『購買(X, "牛奶")=>購買(X, "麵包")』,則其注重的是『購買』,這個維 度。如果關聯規則中的項目或是屬性參照兩個以上的維度時,則稱為 Multidimensional Association Rule,例如年齡(X, "40…45")^收入(X, "7 萬…8 萬")=>購買(X,海外基金)這個關聯規則中的例子,便包含了年齡、

收入及購買三個維度。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

21

3. 以規則中所涵蓋的抽象層級為基礎:

如果在關聯規則中的項目或屬性可以屬於不同的概念層級,如『年齡 (X, "中年")=>購買(X, "瑞穗鮮奶"』("中年"對於年齡而言屬於較高及概 念),但瑞穗鮮奶對於購買項目而言屬於較低層級概念),則稱這類規 則為 Multilevel Association Rule。反之沒有參照到不同層級的項目或屬 性規則,則稱為 Single-level Association Rule。

5.2 關聯規則的評估指標

關聯規則的評估指標,大多是以最小支持度和最小信賴度為主。最小支持 度是用來界定一個規則必頇涵蓋得最少資料數目;而小信賴度則代表這個規則 的預測強度,關聯規則的支持度和最小信賴度可用來評估該規則是否成立,當 探勘出的規則滿足使用者訂定的最小支持度和信賴度的門檻時,這個規則才算 成立(王美淳,2003)。其公式如下:

Support(A => B) = P(A ∪ B) ··· (公式 5)

Confidence(A => B) =support(A=>B)

support(A) ··· (公式 6)

除此之外尚有許多學者提出其他具有不同特性和用途的評估指標,但大多 仍以 Support 和 Confidence 為基礎衍生而來(鍾明璇,2002) 。

相關文件