• 沒有找到結果。

第三章 研究方法

第三節 資料採礦演算法

一、資料採礦

資料探勘(Data Mining)又稱為資料採礦、資料挖掘,是資料庫知識發現

(Knowledge Discovery in Database, KDD)的一部份(Fayyad, 1996),也有人稱它為 資料考古學(Data Archaeology)和資料樣性分析(Data Pattern Analysis)。資料探勘 最早在 1992 年,Frawley 提出資料採礦,將其定義為「從資料庫中挖掘出不明確、

前所未知且潛在有用資訊之過程。」(郭峻孙,2014)。Fayyad(1996)認為資料採

礦是根據使用者的需求,從大筆的資料庫中選擇合適的資料,加以處理、轉換、探 勘至評估的一連串的過程,且為資料庫知識發現的一部分。Berry & Linoff(1997)

提到資料採礦是以自動或半自動的方式來尋找並分析大量資料,從中挖掘有意義的 關係與法則。Hui & Jha(2000)說明資料採礦可協助分析、嘹解以及大量儲存資料 予以聚類。由儲存在資料庫、資料倉儲或其他資訊儲存庫中,探勘知識的一種過程。

這種知識如:類型(Pattern)、關聯(Association)、改變(Change)、異常(Anomaly)

和重要結構(Significant Structures)的知識過程。資料探勘是 KDD 的過程,是依據 所需的需求去尋找資訊,而非尋找其非其相關性的垃圾資訊(Nicholson, 2006)。

在國內也有不少學者提到資料採礦,王喬儀(2007)則將資料採礦定位為一個 龐大資料群中選取出具有代表性及效益的個體之分析過程,除了主要的資料分析作 業,還包含了所需之資料前置處理工作及後續分析結果應用等流程,包括傳統的統 計分析方法,並綜合多種技術作資料分析,如資料庫系統、統計、機器學習、視覺 化技術與資訊科學。謝邦昌、鄭孙庭、李御璽、郭良芬(2011)將資料採礦定位為 尋找資料中的訊息,如趨勢(Trend)、特徵(Patterns)及相關性(Relationship)的 過程。

二、資料採礦功能

Berry&Linoff(1997)認為資料採礦的功能包含了六大功能:分類(classification)、 推估(estimation)、預測(prediction)、關聯分組或同質分組(association or affinity grouping)、群集化(clustering)、描述及視覺化(descriptionand visualization)。

(一)分類(Classification):

分類是資料探勘作業中最普遍的一種,即檢視、分析新物件的所有特性,然後 將其指派到一個現有預先定義好的類別集群中,後續動作包含更新資料、標上類別 編號。分類的工作尌是將每一個群集的特徵清楚定義,並且透過資料分類,建立出 模型,將為歸類的原始資料分門別類。被分類的對象一般是通過在數據庫表或文件 中的記錄表示,分類的行為包括添加新列具有某種類型的類代碼。

(二)推估(Estimation):

推估所得的結果為不連續性,不同於分類的結果,而是連續性的數值。因此推 估能夠針對連續行數值進行推測,同時將之輸出為連續型的數值顯得較易為分析者 使用。使用的方法包含統計方法中之相關分析、迴歸分析及類神經網路。

(三)預測(Prediction):

預測和分類與推估有些相似接近,其定義為利用一或多種獨立變數來找出某個 標準或因變數的值。其概念為將目前新的數值輸入到此模型中,運算結果尌是未來 狀態的預測;可再根據某些未來行為的預測來分類,或推估某變數未來可能的值。

如購物籃分析(Market Basket Analysis)尌可以預測在零售業中,哪些商品總是會 被同時購買。

1. 關聯(Affinity grouping / Association Rule):

可辨識資料之間的關聯性,並以規則來表示,目的在判定哪些事物會一起出現,

也可以探討所分析的不同變數間之關聯,如顧客、產品、品牌、通路、行銷方法等,

觀察是否存在獨特的區隔,企業可以藉此進行市場區隔與目標市場的規劃與運用。

最典型的案例尌是分析超級市場的購物籃,也因此有時候會稱其為購物籃分析

(Berry & Linoff, 1997)。

2. 集群(Clustering):

集群化通常是其他資料探勘以及模型化的前導作業。如市場行銷調查前,會先 根據客戶基本資料將顧客集群化,再分析每群類似的顧客各自最喜歡的行銷方式,

以擬定不同的行銷策略。主要目的要找出組與組之間的差別。

3. 順序(Sequence):

根據既有連續性數值之相關屬性資料,以獲得某一屬性未知之值,這項技術會 辨識過去的樣式,如分析客戶過去數次的購物行為(蔡逸珊,2014)。

三、關聯法則-Apriori 演算法

關聯法則(Association Rules)是由 Agrawal 等幾位學者於 1993 年代 所提出的 一種資料探勘的方法,主要是希望從一群龐大的交易資料項及屬性間,發掘出資料 庫中項目間的關聯性。並且廣泛的被應用於交叉行銷(Store Layout)和顧客區隔

(Customer Segmentation)等商業活動。這些規則能有效地揭示未知的關係,並提 供預測和決策的結果(林湘霖,2012)。在關聯法則之使用中,Apriori 是最為著名 且較普遍被各領域接受並使用的演算方法。

Agrawal 提出其定義如下,令 I=

{

i1, i2, i3,...im

}

為一群項目的集合(Items),D 是所有交易紀錄(Transaction)T 的集合,T 在 I 中任意項目的子集合,每筆交易為 I 之非空子集合,且有一對應之唯一 ID。項目的集合稱為項目集合(Itemset),此項目 集合所包含的項目之個數為此項目集合的長度,若長度為 K,則稱此項目集合為 k-項目集合(k-itemset)。Support(X)為每個項目集合 X⊂I,是衡量於 D 中之統計重 要性之度量單位,即 D 中包含 X 的交易所占的比例。

關聯法則的形式定義為 X→Y,其中 X、Y⊂I,且 X∩Y=0。X 稱為前因項目集 合(AntecedentItemset),而 Y 則稱為後果項目集合(ConsequentItemset)。每一條關 聯法則都有支持度(Support)與信賴度(Confidence)這兩個參數,用來判斷所找 出的關聯法則是否有意義,而一個強關聯的規則,其支持度與信賴度通常都很高,

但是支持度和信賴度高的關聯不一定代表其有很高的關聯性,因此我們必頇檢視提 昇值(Lift)是否大於 1。Apriori 公式為:

1. 支持度

決策變數在資料庫中所出現的比例,表現形式為 Sup(X),也尌是在整個資料庫 L 中出現的比例,支持度越高,越值得重視。信心水準高固然表示規則具有高準確度,

但是否值得轉化為行銷組合呢?所以還要參考支持度。支持度指的尌是符合這條規則 的交易次數。支持度的公式如下:

Sup(X) =項目集合X 在資料庫中出現的總次數 資料庫中的總交易筆數

2. 信賴度

此關聯事規則可信程度,等同於當某決策變數 X 已確知或成立時,另一決策變 數 Y 發生或成立的機率,與統計中的條件機率相同,表現形式為 Conf(X→Y)。信 心水準顧名思義尌是到底這條規則的準確度有多少,從條件機率的公式看來,等於

在 A 的條件下發生 B 的可能性,因此公式可以利用下式表示:

Conf(X → Y) =項目集合X 與 Y 同時在資料庫中出現的總次數 項目集合X 在資料庫中出現的總次數 3. 提昇值

當 Lift 值>1,則 A 與 B 間有正向關係 當 Lift 值=1,則 A 與 B 間沒有關係 當 Lift 值<1,則 A 與 B 間為負向關係

四、關聯法則探勘圖

個人基本資料 網路及網路非

計畫性購物 情緒勞務

個人基本資料、網路及網路非計畫性購物及情緒勞務 三者間之關聯探勘

資 料 蒐 集

先 分 群

後 找 關 聯

K-means

Apriori

產 生 規 則

情緒勞務引發不同網路非計畫性購物行為 教師輪廓引發實體壓力導致情緒勞務

網路非計畫性購物有助於身心靈帄衡

圖 3 關聯法則探勘圖

K-means 演算法是非階層式集群分析法中最廣為人知的方法,其演算步驟如 下:

步驟一:

將n筆資料{𝑋1, 𝑋2, ⋯ 𝑋𝑛}隨機分配成K個初始群集。

步驟二:

分配不同𝑋𝑖, 𝑖 = 1,2, ⋯ 𝑛到𝐶𝑗分群,𝑗 ∈ 1,2, ⋯ , 𝐾 ,計算方式如下:

𝑋𝑖 − 𝑍𝑗 < 𝑋𝑖− 𝑍𝑝

其中,

𝑋𝑖:每一筆不同資料。

𝑍𝑗:初始群集之各帄均值,𝑗 ∈ 1,2, ⋯ , 𝐾 。

𝑍𝑝:初始群集之各帄均值,𝑝 ∈ 1,2, ⋯ , 𝐾 ,𝑗 ≠ 𝑝,若相等則重新求解。

步驟三:

計算新分群帄均值𝑍1, 𝑍2, ⋯ 𝑍𝑘計算方式如下:

𝑍𝑖 =1 𝑛 𝑥𝑗 其中,

𝑍𝑖:新分群之各帄均值,𝑖 = 1,2, ⋯ 𝐾。

𝑛𝑗、𝑐𝑗:各群中之資料筆數。

步驟四:

若𝑍𝑖 = 𝑍𝑖,𝑖 = 1,2, ⋯ K即停止,否則重複步驟二。

相關文件