關聯法則

第二章文獻探討

第四節資料採礦

三關聯法則

i x c

n x 1

Zi*：新分群之各平均值，i=1， 2，…， K

ni、ci：各分群中之資料筆數，ni 是屬於集群 Cj 的資料向量數之一。

步驟四：當 Zi*=Zi，^i=1， 2，…， K 即停止，否則繼續回到步驟二重新計算。

除非在步驟四結束，否則資料會持續處理到預先設定的疊代數量才結束。

兩階段集群法(Two-Step method)第一階段以華德法(Ward’s method)做分群，決定群組個數 k，第二階段再以 K-means 進行集群，移動各群組內的個體，但要保持全部群組仍有 k 個(陳順宇，2005)。

三關聯法則

關聯法則(Association Rules)是由 Agrawal 等幾位學者於 1990 年代所提出的一種資料探勘的方法，目的是希望從一群龐大的交易資料項及屬性間，找出彼此間有關聯之規則，這些規則能有效地揭示未知的關係，並提供預測和決策的結果(林湘霖，2012)。

關聯法則(Association Rule)演算法是資料探勘上常應用的手法之一，主要是用於分析大量交易資料(Transaction Data)，目的是減少潛在且雜亂無章的數據，從中找出各項目之間的關聯性，使之成為易於觀察理解的關鍵靜態數據(侯翔齡，2012)。

Agrawal 提出其定義如下，令 I =

{

¹， i² ， i³ ，...i^m

}

為一群項目的集合(Items)，D 是所有交易紀錄(Transaction)T 的集合，T 在 I 中任意項目的子集合，每筆交易為 I 之非空子集合，且有一對應之唯一 ID。項目的集合稱為項目集合(Itemset)，此項目集合所包含的項目之個數為此項目集合的長度，若長度為 K，則稱此項目集合為 k-項目集合 (k-itemset)。Support(X)為每個項目集合 X ⊂ I ，是衡量於 D 中之統計重要性之度量單 位，即 D 中包含 X 的交易所占的比例。

關聯法則的形式定義為 X Y，其中 X、Y ⊂ I，且 X ∩ Y = 0 。X 稱為前因項目集合(Antecedent Itemset)，而 Y 則稱為後果項目集合(Consequent Itemset)。每一條關聯法則都有支援度(Support)與信心度(Confidence)這兩個參數，用來判斷所找出的關聯法則是否有意義，而一個強關聯的規則，其支援度與信心度通常都很高，但是支援度和信心度高的關聯不一定代表其有很高的關聯性，因此我們必須檢視提昇值(Lift) 是否大於 1。

A. 信心度(Confidence)：

信心水準顧名思義就是到底這條規則的準確度有多少，從條件機率的公式看來，等於在 A 的條件下發生 B 的可能性，因此公式可以利用下式表示：

Conf(X → Y) =項目集合 X 與 Y 同時在資料庫中出現的總次數 2𝑎項目集合 X 在資料庫中出現的總次數 B. 支援度(Support)：

信心水準高固然表示規則具有高準確度，但是否值得轉化為行銷組合呢？所以還要參考支持度。支持度指的就是符合這條規則的交易次數。支持度的公式如下：

Sup(X) = 項目集合 X 在資料庫中出現的總次數資料庫中的總交易筆數

C. 提昇值(Lift)：

為減少支持度與可靠度兩指標造成的偏誤，要考慮相關性（correlation），進行相關分析（correlation analysis），即所為的增益值（Wang et al., 2004）。

當 Lift 值＞1，則 A 與 B 間有正向關係當 Lift 值＝1，則 A 與 B 間沒有關係當 Lift 值＜1，則 A 與 B 間為負向關係

Apriori 演算法為關聯法則中最具代表性的演算法之一，以由 Agrawal et al. (1994) 提出的，之後所提出的關聯規則演算法大都有其延伸，步驟如下：

1. k=2，找出在(k-1)-項目集合時，有通過支持度的所有(k-1)-項目集合。

2. 從所有(k-1)-項目集合裡找出有 k-2 個項目相同的兩個集合，並由相同的 k-2 個集合與其他相異的 2 個項目組成 k-項目集合。

3. 檢視在所有(k-1)-項目集合裡，是否有 k-項目集合所能包含的所有(k-1)-項目集合的子集合，若有全部包含，進行步驟 4；若無，則刪除 k-項目集合重新進行步驟 2 找出新的 k-項目集合。

4. 驗證 k-項目集合在所有資料筆數中的支持度是否大於最低支持度，若有超過，則進行第 5 步驟；若沒有超過，則刪除 k-項目集合重新進行步驟 2 找出新的 k-項目集合。

5. 計算 k-集合項目內所包含的關聯法則的信心度，若信心度有超越門檻值，

則關聯法則成立。

6. 重複步驟 2 到步驟 5，直到沒有新的 k-項目集合為止。

7. 當 k-項目集合還有大項目集合時，回到步驟 2 進行(k+1)-項目集合的下一輪運算。

在文檔中資料採礦應用於職業軍人之智慧型手機使用行為分析 (頁 37-41)

第二章 文獻探討

第四節 資料採礦

三 關聯法則

{

}

第二章文獻探討

第四節資料採礦

三關聯法則