資料採礦演算法

第三章研究方法

第三節資料採礦演算法

一、資料採礦

資料探勘（Data Mining）又稱為資料採礦、資料挖掘，是資料庫知識發現

（Knowledge Discovery in Database, KDD）的一部份（Fayyad, 1996），也有人稱它為資料考古學（Data Archaeology）和資料樣性分析（Data Pattern Analysis）。資料探勘最早在 1992 年，Frawley 提出資料採礦，將其定義為「從資料庫中挖掘出不明確、

前所未知且潛在有用資訊之過程。」（郭峻孙，2014）。Fayyad（1996）認為資料採

礦是根據使用者的需求，從大筆的資料庫中選擇合適的資料，加以處理、轉換、探勘至評估的一連串的過程，且為資料庫知識發現的一部分。Berry & Linoff（1997）

提到資料採礦是以自動或半自動的方式來尋找並分析大量資料，從中挖掘有意義的關係與法則。Hui & Jha（2000）說明資料採礦可協助分析、嘹解以及大量儲存資料予以聚類。由儲存在資料庫、資料倉儲或其他資訊儲存庫中，探勘知識的一種過程。

這種知識如:類型（Pattern）、關聯（Association）、改變（Change）、異常（Anomaly）

和重要結構（Significant Structures）的知識過程。資料探勘是 KDD 的過程，是依據所需的需求去尋找資訊，而非尋找其非其相關性的垃圾資訊（Nicholson, 2006）。

在國內也有不少學者提到資料採礦，王喬儀（2007）則將資料採礦定位為一個龐大資料群中選取出具有代表性及效益的個體之分析過程，除了主要的資料分析作業，還包含了所需之資料前置處理工作及後續分析結果應用等流程，包括傳統的統計分析方法，並綜合多種技術作資料分析，如資料庫系統、統計、機器學習、視覺化技術與資訊科學。謝邦昌、鄭孙庭、李御璽、郭良芬（2011）將資料採礦定位為尋找資料中的訊息，如趨勢（Trend）、特徵（Patterns）及相關性（Relationship）的過程。

二、資料採礦功能

Berry&Linoff（1997）認為資料採礦的功能包含了六大功能：分類（classification）、推估（estimation）、預測（prediction）、關聯分組或同質分組（association or affinity grouping）、群集化（clustering）、描述及視覺化（descriptionand visualization）。

（一）分類（Classification）:

分類是資料探勘作業中最普遍的一種，即檢視、分析新物件的所有特性，然後將其指派到一個現有預先定義好的類別集群中，後續動作包含更新資料、標上類別編號。分類的工作尌是將每一個群集的特徵清楚定義，並且透過資料分類，建立出模型，將為歸類的原始資料分門別類。被分類的對象一般是通過在數據庫表或文件中的記錄表示，分類的行為包括添加新列具有某種類型的類代碼。

（二）推估（Estimation）:

推估所得的結果為不連續性，不同於分類的結果，而是連續性的數值。因此推估能夠針對連續行數值進行推測，同時將之輸出為連續型的數值顯得較易為分析者使用。使用的方法包含統計方法中之相關分析、迴歸分析及類神經網路。

（三）預測（Prediction）:

預測和分類與推估有些相似接近，其定義為利用一或多種獨立變數來找出某個標準或因變數的值。其概念為將目前新的數值輸入到此模型中，運算結果尌是未來狀態的預測；可再根據某些未來行為的預測來分類，或推估某變數未來可能的值。

如購物籃分析（Market Basket Analysis）尌可以預測在零售業中，哪些商品總是會被同時購買。

1. 關聯（Affinity grouping / Association Rule）:

可辨識資料之間的關聯性，並以規則來表示，目的在判定哪些事物會一起出現，

也可以探討所分析的不同變數間之關聯，如顧客、產品、品牌、通路、行銷方法等，

觀察是否存在獨特的區隔，企業可以藉此進行市場區隔與目標市場的規劃與運用。

最典型的案例尌是分析超級市場的購物籃，也因此有時候會稱其為購物籃分析

（Berry & Linoff, 1997）。

2. 集群（Clustering）:

集群化通常是其他資料探勘以及模型化的前導作業。如市場行銷調查前，會先根據客戶基本資料將顧客集群化，再分析每群類似的顧客各自最喜歡的行銷方式，

以擬定不同的行銷策略。主要目的要找出組與組之間的差別。

3. 順序（Sequence）:

根據既有連續性數值之相關屬性資料，以獲得某一屬性未知之值，這項技術會辨識過去的樣式，如分析客戶過去數次的購物行為（蔡逸珊，2014）。

三、關聯法則-Apriori 演算法

關聯法則（Association Rules）是由 Agrawal 等幾位學者於 1993 年代所提出的一種資料探勘的方法，主要是希望從一群龐大的交易資料項及屬性間，發掘出資料庫中項目間的關聯性。並且廣泛的被應用於交叉行銷（Store Layout）和顧客區隔

（Customer Segmentation）等商業活動。這些規則能有效地揭示未知的關係，並提供預測和決策的結果（林湘霖，2012）。在關聯法則之使用中，Apriori 是最為著名且較普遍被各領域接受並使用的演算方法。

Agrawal 提出其定義如下，令 I=

{

i¹， i²， i³，...im

}

為一群項目的集合（Items），D 是所有交易紀錄（Transaction）T 的集合，T 在 I 中任意項目的子集合，每筆交易為 I 之非空子集合，且有一對應之唯一 ID。項目的集合稱為項目集合（Itemset），此項目集合所包含的項目之個數為此項目集合的長度，若長度為 K，則稱此項目集合為 k-項目集合（k-itemset）。Support（X）為每個項目集合 X⊂I，是衡量於 D 中之統計重 要性之度量單位，即 D 中包含 X 的交易所占的比例。

關聯法則的形式定義為 X→Y，其中 X、Y⊂I，且 X∩Y=0。X 稱為前因項目集合（AntecedentItemset），而 Y 則稱為後果項目集合（ConsequentItemset）。每一條關聯法則都有支持度（Support）與信賴度（Confidence）這兩個參數，用來判斷所找出的關聯法則是否有意義，而一個強關聯的規則，其支持度與信賴度通常都很高，

但是支持度和信賴度高的關聯不一定代表其有很高的關聯性，因此我們必頇檢視提昇值（Lift）是否大於 1。Apriori 公式為:

1. 支持度

決策變數在資料庫中所出現的比例，表現形式為 Sup（X），也尌是在整個資料庫 L 中出現的比例，支持度越高，越值得重視。信心水準高固然表示規則具有高準確度，

但是否值得轉化為行銷組合呢？所以還要參考支持度。支持度指的尌是符合這條規則的交易次數。支持度的公式如下：

Sup（X） =項目集合X 在資料庫中出現的總次數資料庫中的總交易筆數

2. 信賴度

此關聯事規則可信程度，等同於當某決策變數 X 已確知或成立時，另一決策變數 Y 發生或成立的機率，與統計中的條件機率相同，表現形式為 Conf（X→Y）。信心水準顧名思義尌是到底這條規則的準確度有多少，從條件機率的公式看來，等於

在 A 的條件下發生 B 的可能性，因此公式可以利用下式表示：

Conf（X → Y） =項目集合X 與 Y 同時在資料庫中出現的總次數項目集合X 在資料庫中出現的總次數 3. 提昇值

當 Lift 值＞1，則 A 與 B 間有正向關係當 Lift 值＝1，則 A 與 B 間沒有關係當 Lift 值＜1，則 A 與 B 間為負向關係

四、關聯法則探勘圖

個人基本資料網路及網路非

計畫性購物情緒勞務

個人基本資料、網路及網路非計畫性購物及情緒勞務三者間之關聯探勘

資料蒐集

先分群

後找關聯

K-means

Apriori

產生規則

情緒勞務引發不同網路非計畫性購物行為教師輪廓引發實體壓力導致情緒勞務

網路非計畫性購物有助於身心靈帄衡

圖 3 關聯法則探勘圖

K-means 演算法是非階層式集群分析法中最廣為人知的方法，其演算步驟如 下：

步驟一：

將n筆資料{𝑋₁, 𝑋₂, ⋯ 𝑋_𝑛}隨機分配成K個初始群集。

步驟二：

分配不同𝑋_𝑖, 𝑖 = 1,2, ⋯ 𝑛到𝐶_𝑗分群，𝑗 ∈ 1,2, ⋯ , 𝐾 ，計算方式如下：

𝑋_𝑖 − 𝑍_𝑗 < 𝑋_𝑖− 𝑍_𝑝

其中，

𝑋_𝑖：每一筆不同資料。

𝑍_𝑗：初始群集之各帄均值，𝑗 ∈ 1,2, ⋯ , 𝐾 。

𝑍_𝑝：初始群集之各帄均值，𝑝 ∈ 1,2, ⋯ , 𝐾 ，𝑗 ≠ 𝑝，若相等則重新求解。

步驟三：

計算新分群帄均值𝑍₁^∗, 𝑍₂^∗, ⋯ 𝑍_𝑘^∗計算方式如下：

𝑍_𝑖^∗ =1 𝑛 𝑥_𝑗 其中，

𝑍_𝑖^∗：新分群之各帄均值，𝑖 = 1,2, ⋯ 𝐾。

𝑛_𝑗、𝑐_𝑗：各群中之資料筆數。

步驟四：

若𝑍_𝑖^∗ = 𝑍_𝑖，𝑖 = 1,2, ⋯ K即停止，否則重複步驟二。

在文檔中買尌對了？非計畫性購物與情緒勞務之關聯探討 (頁 46-54)

第三章 研究方法

第三節 資料採礦演算法

{

}

第三章研究方法

第三節資料採礦演算法