資料採礦

第二章文獻回顧

第二節資料採礦

Frawley, Piatetsky-Shapiro, and Matheus (1992)

資料挖礦是一個非常重要的過程，在於從資料庫中挖掘出未發現、隱含的資訊。

Grupe and Mehdi Owrang (1995) 資料採礦是從現存資料庫中挖掘出以前尚未得知的事實與未發現的新關係。

Fayyad, Piatetsky-Shapiro, and Smyth (1996)

知識挖掘的其中一個步驟之一，透過選取適當資料，進行資料處理，並從中挖掘出特徵及模式。

McCluskey and Anand (1999) 資料採礦是正在發展中的技術，結合機器學習、統計學、

演算法及數學等，在大量資料中，利用半自動化的流程挖掘未知有用的知識。

Berry and Linoff (2004) 為了要發現出資料中蘊含的有意義的模式或規則，而必須從大量資料之中以自動或是半自動的方式來探索和分析資料

資料來源:本研究整理

二、資料採礦的流程

對於定義有一定了解之後，我們要講述關於資料採礦的流程。跨產業資料探勘標準作業程序(Cross Industry Process for Data Mining, CRISP-DM)是一套被業界廣泛使用的流程，主要是由幾家為在歐美的公司在1996 年聯合發展而成，

例如: NCR Corporation (美國和丹麥)、DaimlerChrysler AG (德國)…等等，其

9 (2004)、Ahmed (2004)、Giraud-Carrier and Povel (2003)及簡禎富、許嘉裕

(2018)所提出的概念，將問題區分為四種:

(1)分類(classification):

觀察大量資料分析特性，得出規則後建立分類的模式。常用的方法有決策樹及類神經網路。

(2)預測(prediction):

利用過去的資料進行分析，針對特定對象觀察過去的現象，以預測未來的行為。常見的方法有迴歸分析、時間序列分析及類神經網路。

(3)集群(clustering):

根據資料間的相似度，將資料分為不同的群體，以相似程度近的分為同一群，造成組間差異大、組內差異小，而分群並沒有明確的事前定義。

常見的技術為K-means 法。

(4)關聯(Association):

透過分析資料找到同一時間內發生的事件，進而了解資料庫中存在的規則產生關聯。常見的技術為購物籃分析，最常聽到的例子就是啤酒與尿布，藉由顧客的交易資料，挖掘出顧客購買之商品之間的關聯性，設計出適當的商品組合或者以此規則改善商品之陳列。

四、資料採礦的應用

Ling and Li (1998)在研究中證明了，資料採礦是直效行銷領域中，最有效的工具之一，與傳統的行銷手段相比，資料採礦能夠為零售業、銀行或者保險公司帶來更大的利益。以零售業為例，Chen et al. (2012)利用集群分析及決策樹的方法，對禮品店交易資料進行分析，最後找出五個群組並分別為其定義，並挑出其中一個群組再利用決策樹進行細分。Hosseini, Maleki, and Gholamian (2010)則利用集群分析的 K-means 法結合 RFM，開發出一個新的方法增進企業

的顧客關係管理；以服飾業為例，Wu, Chang, and Lo (2009)也採用 K-means 法結合RFM 分析服飾商的顧客，生成六個群組，並且給予六個群組不同的建議。

以銀行業為例，葉子維 (2018)利用決策樹與隨機森林並結合 RFM 模型分析出行動銀行使用者的特性，最後發現隨機森林的整體準確率最高，並且依據分析結果提供行銷的建議。

第三節集群分析

在文檔中資料探勘應用之研究:零售業的RFM分析架構 (頁 14-17)

第二章 文獻回顧

第二節 資料採礦

二、資料採礦的流程

四、資料採礦的應用

第三節 集群分析

第二章文獻回顧

第二節資料採礦

第三節集群分析