資料採礦

第三章研究設計

第三節資料採礦

資料採礦在過去經常被應用於解決各種商業及非商業問題，從資料中採礦出有用的資訊與知識，進而做出判斷，以輔肋未來進行預測及決策，因此廣被企業所接受。

資料採礦（Data mining）技術，即是從即從大量的、有雜訊的與模糊的資料庫中萃取出隱含的、有規律的、事先未知的且有用的資訊（Frawley et al., 1992；

張云濤、龔玲，2007; 黃一家，2011），是由強大的統計、人工智慧、機器學習和資料庫研究基礎而成（Mikut and Reischl, 2001）。

Fayyad et al.（1996）「資料探勘」是從資料庫中挖掘出不明確、前所未知以及潛在有用的資訊過程。Fayyad 同時區分出資料庫中之知識發掘流程（KDD process）

與資料探勘之不同：知識發掘流程指自資料庫中選擇合適資料、資料處理、資料轉換、資料探勘至結果評估之一連串過程，而就狹義定義而言，資料探勘（Data Mining）只是知識發掘流程中的一個核心步驟。

(一) 資料採礦功能

Elmasri and Navathe（2000）將較常在資料採礦的實際應用功能方面，分成下列幾項：

1.分類模式（Classification）：是指將資料依據事先定義的特徵或屬性，將未歸類的資料進行分類的工作，或根據已知的分類資料的屬性變異來進行運算，得到一定規則後，再將未知資料帶入規則以得到最後的分類結果。

2.集群模式（Cluster）：集群模式是根據資料本身的特性來將資料進行分組的一個程序。在經過不斷的修正過程後，集群的特性將會在群組本身的特徵上顯現出來；換而言之，集群的目的就是要將群組間的差異識別出來，並進一步的指出個別群組間的相似性。所以事實上集群模式與分類模式是不同的，其差異在於分析之前不需要先定義好要如何分類，所以分析者並不會知道要以何種方式或規則來進行分類集群。

3.迴歸模式（Regression）：回歸模式乃是在了解及建立預測變數（X）與準則變數（Y）之間的關係。主要是針對現有資料進行運算，並且利用預測變數的數值來預測準則變數的結果來建立預測模型。

4.時間數列分析（Time-Series Forecasting）：時間數列分析與回歸模式的功能很像，回歸模式它是用現有的數值來預測未來的數值；時間數列分析在於它所分析的數值都與時間有關。時間數列分析可以處理有關時間的一些特性，譬如時間的階層性（例如每個月 9 個或 10 個休息日）、季節性、節日、及其他的一些特別因素。

5.關聯式分析（Association）：關聯式分析是在找出在某一事件或是資料中同時出現的東西。關聯式分析主要是要找出下面這樣的資訊：如果 dataA 是某一事件的一部份，則 data B 同時出現在該事件中的機率有 X %。主要著重點在於關聯性可信度（Support-Confidence）的架構。

6.順序分析（Sequence Discovery）：順序分析模式是針對資料的順序關係進行採礦，例如：時間上的順序、行為上的順序等，主要是希望能找出趨勢或順序上的分析資訊。

(二) 資料採礦流程

李建億、蔡芳遠(2004)把資料採礦流程整理了四個階段，流程如下：

第一階段：資料整合與修正 ─ 想要從龐大的資料庫發掘知識，首先必須先將許多錯誤、遺失、重複、不一致性及不完整的資料刪除，並依目的做適當的資料選擇。經過處理的資料將會被放入資料倉儲（data warehouse）中，若無資料倉儲的設計，可以直接和第二階段合併處理。

第二階段：資料選擇與轉換 ─ 從資料庫中選取對於資料探勘有關的欄位或資料，並進行資料格式的轉換或衍生變數的設計。

第三階段：樣式粹取 ─ 根據第二階段處理之後所產生的資料，選擇適當的探勘方法進行樣式粹取，至此才能進入真正的核心工作 ─ 資料探勘。所得到的樣式若是不感興趣則可以再從前兩個階段進行資料處理；若已產生有興趣的樣式，則可進一步評估或展示。

第四階段：評估和展示 ─ 接下來以領域知識為基礎，將探勘所得到的資訊或樣式加以測試與檢驗，並嘗試解釋與評估所發掘的樣式，是否能符合原先的期望，

若所得結果並不理想，則可以從第一階段到第三階段再次處理。若結果令人滿意，

則將探勘出來的資訊或樣式以最簡單的圖表方式呈現出來，以利提供決策支授之用。

(三) Apriori 關聯法則

廖述賢、溫志皓（2009）資料採礦與商業智慧一書中提到在資料採礦的領域中，關聯性法則(association rule)是最常被使用的一種方法。關聯性法則在於找出資料庫中資料彼此間的相關聯性，這種方法現已經普遍運用於各領域中。此外，在

關聯性法則之使用中，Apriori 是最為著名且廣泛運用的演算法。

Apriori 關聯性法則的產生由兩個參數來決定：支持度(support)及信賴度

(confidence)。支持度的定義為決策變數在資料庫中所出現的比例，表現形式為 Sup，

支持度越高，越值得重視，支持度介於 0%和 100%之間。信賴度的定義為此關聯性法則可信的程度，表現形式為 Conf，信賴度度介於 0%和 100%之間。

一般而言，關聯性法則的支持度及信賴度度皆必須分別大於使用者訂定的最低限制，才能依此判定其為有意義的關聯性法則。為減少僅憑藉此兩項指標可能造成之偏誤，因此，應該要再考量相關性(correlation)，進行相關分析(correlation analysis)，此處所提到相關分析，即為提昇值，提昇值表現形式為 Lift。

信賴度(Confidence)：

信賴水準顧名思義就是到底這條規則的準確度有多少，從條件機率的公式看來，等於在 A 的條件下發生 B 的可能性，因此公式可以利用下式表示：

Conf(X → Y) =項目集合X 與 Y 同時在資料庫中出現的總次數 2𝑎項目集合 X 在資料庫中出現的總次數支援度(Support)：

信心水準高固然表示規則具有高準確度，但是否值得轉化為行銷組合呢？所以還要參考支持度。支持度指的就是符合這條規則的交易次數。支持度的公式如下：

Sup(X) =項目集合X 在資料庫中出現的總次數資料庫中的總交易筆數

提昇值(Lift)：

為減少支持度與可靠度兩指標造成的偏誤，要考慮相關性（correlation），進行相關分析（correlation analysis），即所為的增益值（Wang et al., 2004）。

當 Lift 值＞1，則 A 與 B 間有正向關係當 Lift 值＝1，則 A 與 B 間沒有關係當 Lift 值＜1，則 A 與 B 間為負向關係

Apriori 關聯性法則步驟流程：

1.定義最小支持度(Min-Sup)和最小信賴度(Min-Conf)

2.Apriori 演算法使用候選項目集合的觀念，若候選項目集合之支持度大於最小支持度，則該候選集合項目為高頻集合項目。

3.由資料庫讀取所有數據，求出候選 C1 的支持度，再找出高頻項目集合 L1，並利用這些高頻向目集合找出候選 C2。

4.再 SCAN 資料庫，得出 C2 的支持度後，找出高頻 L2，再利用這些高頻 L2 結合找出候選 C3。

5.重複步驟 3-4，直到不能產生新的候選項目集合為止。

根據上面相關研究本研究整理 Apriori 關聯法則步驟如圖 5：

資料庫整合

定義Min-sup及Min-conf

SCAN資料庫

是否產生候選項目集合

產生候選項目集合的支持度

找出高頻項目集合

結束

YES

圖 5 Apriori 關聯性法則步驟流程(資料來源：本研究整理)

在文檔中資料採礦應用於陸客來台購物行程消費行為分析研究 (頁 46-53)

第三章 研究設計

第三節 資料採礦