• 沒有找到結果。

第二章 文獻探討

第四節 資料採礦

三 關聯法則

j

j

i x c

n x 1

Zi*:新分群之各平均值,i=1, 2,…, K

ni、ci:各分群中之資料筆數,ni 是屬於集群 Cj 的資料向量數之一。

步驟四:當 Zi*=Zi,i=1, 2,…, K 即停止,否則繼續回到步驟二重新計算。

除非在步驟四結束,否則資料會持續處理到預先設定的疊代數量才結束。

兩階段集群法(Two-Step method)第一階段以華德法(Ward’s method)做分群,決定 群組個數 k,第二階段再以 K-means 進行集群,移動各群組內的個體,但要保持全部 群組仍有 k 個(陳順宇,2005)。

三 關聯法則

關聯法則(Association Rules)是由 Agrawal 等幾位學者於 1990 年代 所提出的一種 資料探勘的方法,目的是希望從一群龐大的交易資料項及屬性間,找出彼此間有關聯 之規則,這些規則能有效地揭示未知的關係,並提供預測和決策的結果(林湘霖,2012)。

關聯法則(Association Rule)演算法是資料探勘上常應用的手法之一,主要是用於分析 大量交易資料(Transaction Data),目的是減少潛在且雜亂無章的數據,從中找出各項 目之間的關聯性,使之成為易於觀察理解的關鍵靜態數據(侯翔齡,2012)。

Agrawal 提出其定義如下,令 I =

{

1, i2 , i3 ,...im

}

為一群項目的集合(Items),D 是 所有交易紀錄(Transaction)T 的集合,T 在 I 中任意項目的子集合,每筆交易為 I 之非 空子集合,且有一對應之唯一 ID。項目的集合稱為項目集合(Itemset),此項目集合所 包含的項目之個數為此項目集合的長度,若長度為 K,則稱此項目集合為 k-項目集合 (k-itemset)。Support(X)為每個項目集合 X ⊂ I ,是衡量於 D 中之統計重要性之度量單 位,即 D 中包含 X 的交易所占的比例。

關聯法則的形式定義為 X Y,其中 X、Y ⊂ I,且 X ∩ Y = 0 。X 稱為前因項 目集合(Antecedent Itemset),而 Y 則稱為後果項目集合(Consequent Itemset)。每一條 關聯法則都有支援度(Support)與信心度(Confidence)這兩個參數,用來判斷所找出的 關聯法則是否有意義,而一個強關聯的規則,其支援度與信心度通常都很高,但是支 援度和信心度高的關聯不一定代表其有很高的關聯性,因此我們必須檢視提昇值(Lift) 是否大於 1。

A. 信心度(Confidence):

信心水準顧名思義就是到底這條規則的準確度有多少,從條件機率的公式看 來,等於在 A 的條件下發生 B 的可能性,因此公式可以利用下式表示:

Conf(X → Y) =項目集合 X 與 Y 同時在資料庫中出現的總次數 2𝑎項目集合 X 在資料庫中出現的總次數 B. 支援度(Support):

信心水準高固然表示規則具有高準確度,但是否值得轉化為行銷組合呢?所以還 要參考支持度。支持度指的就是符合這條規則的交易次數。支持度的公式如下:

Sup(X) = 項目集合 X 在資料庫中出現的總次數 資料庫中的總交易筆數

C. 提昇值(Lift):

為減少支持度與可靠度兩指標造成的偏誤,要考慮相關性(correlation),進行相 關分析(correlation analysis),即所為的增益值(Wang et al., 2004)。

當 Lift 值>1, 則 A 與 B 間有正向關係 當 Lift 值=1, 則 A 與 B 間沒有關係 當 Lift 值<1, 則 A 與 B 間為負向關係

Apriori 演算法為關聯法則中最具代表性的演算法之一,以由 Agrawal et al. (1994) 提出的,之後所提出的關聯規則演算法大都有其延伸,步驟如下:

1. k=2,找出在(k-1)-項目集合時,有通過支持度的所有(k-1)-項目集合。

2. 從所有(k-1)-項目集合裡找出有 k-2 個項目相同的兩個集合,並由相同 的 k-2 個集合與其他相異的 2 個項目組成 k-項目集合。

3. 檢視在所有(k-1)-項目集合裡,是否有 k-項目集合所能包含的所有(k-1)-項目集合的子集合,若有全部包含,進行步驟 4;若無,則刪除 k-項目 集合重新進行步驟 2 找出新的 k-項目集合。

4. 驗證 k-項目集合在所有資料筆數中的支持度是否大於最低支持度,若有 超過,則進行第 5 步驟;若沒有超過,則刪除 k-項目集合重新進行步驟 2 找 出新的 k-項目集合。

5. 計算 k-集合項目內所包含的關聯法則的信心度,若信心度有超越門檻值,

則關聯法則成立。

6. 重複步驟 2 到步驟 5,直到沒有新的 k-項目集合為止。

7. 當 k-項目集合還有大項目集合時,回到步驟 2 進行(k+1)-項目集合的下 一輪運算。