關聯規則

第二章文獻探討

第五節關聯規則

則中最經典的例子為啤酒與尿布規則(Berry and Linoff, 1997)；探勘關聯規則的演算法也是在上述的需求之下所產生出來的探勘方法(鐘明璇，2002)。

在探勘關聯規則的領域中，主要方法可以分為兩大類：(1)Apriori-like 的方法產生 Candidate Set，並找出符合最小支持度的大項目集合(Large Itemsets)，再依據大項目期和產生關聯規則；(2)使用 Non Apriori-like 的方法找出大項目集合 (鐘明璇，2002)。

Apriori-like 的方法是以 Apriori 演算法為基礎所發展的相關方法，Apriori 演算法也是關聯規則探勘技術中，最早被提出且運作穩健的演算法。Apriori-like 的方法的特點是第一次的 Candidate Set(C₁)是直接掃過一次資料庫而得到，而第 C_𝑘(k>1)次產生方式都包含了兩個主要步驟：首先合併產生 Candidate Set，另一則是將這些項目集合中，含有不是前一次作業的大項目集合者去除，再對所留下來的 Candidate Set，計算支持度，去除不滿足最小支持度的項目集合後則得到最後的大項目集合(鐘明璇，2002)。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

5.1 關聯規則的種類

關聯規則大致上可以分成以下三類(Han and Kamber, 2006) (鐘明璇，2002，頁 22)：

1. 以屬性值的型態為基礎：

如果所關注的只是項目是否出現，為 Boolean Association Rule，例如『牛奶=>麵包(Support=2%,Confidence=60%)』就是這類關聯規則。如果對於項目的單位數也有所關注，則為 Association Rule with Repeated Items，

例如『牛奶 2 單位=>麵包 3 單位(support=2%,confidence=60%)』就是這類關聯規則。若所要描述的規則其項目是一個數值，則為 Quantitative Association Rule。這種關聯規則的可能性太多，所以必頇把數量值切割成不同的區間（可以事先切好，或根據資料分布情況來切割，或根據語意、模糊函數、資訊含量等不同方式切割），才有辦法產生關聯規則。

2. 以規則中包涵的維度為基礎：

若在關聯規則中的項目或屬性只參照單一維度時，稱為 Single

Dimensional Association Rule，例如將『牛奶=>麵包』的關聯規則寫成

『購買(X, "牛奶")=>購買(X, "麵包")』，則其注重的是『購買』，這個維度。如果關聯規則中的項目或是屬性參照兩個以上的維度時，則稱為 Multidimensional Association Rule，例如年齡(X, "40…45")^收入(X, "7 萬…8 萬")=>購買(X,海外基金)這個關聯規則中的例子，便包含了年齡、

收入及購買三個維度。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

3. 以規則中所涵蓋的抽象層級為基礎：

如果在關聯規則中的項目或屬性可以屬於不同的概念層級，如『年齡 (X, "中年")=>購買(X, "瑞穗鮮奶"』("中年"對於年齡而言屬於較高及概念)，但瑞穗鮮奶對於購買項目而言屬於較低層級概念)，則稱這類規則為 Multilevel Association Rule。反之沒有參照到不同層級的項目或屬性規則，則稱為 Single-level Association Rule。

5.2 關聯規則的評估指標

關聯規則的評估指標，大多是以最小支持度和最小信賴度為主。最小支持度是用來界定一個規則必頇涵蓋得最少資料數目；而小信賴度則代表這個規則的預測強度，關聯規則的支持度和最小信賴度可用來評估該規則是否成立，當探勘出的規則滿足使用者訂定的最小支持度和信賴度的門檻時，這個規則才算成立(王美淳，2003)。其公式如下：

Support(A => B) = P(A ∪ B) ··· (公式 5)

Confidence(A => B) =support(A=>B)

support(A) ··· (公式 6)

除此之外尚有許多學者提出其他具有不同特性和用途的評估指標，但大多仍以 Support 和 Confidence 為基礎衍生而來(鍾明璇，2002) 。

‧

在文檔中應用文件探勘技術於概念股股價共同移動之研究 - 政大學術集成 (頁 26-29)

第二章 文獻探討

第五節 關聯規則

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

第二章文獻探討

第五節關聯規則

立政治大學

立政治大學