第二章 文獻回顧
第二節 資料採礦
Frawley, Piatetsky-Shapiro, and Matheus (1992)
資料挖礦是一個非常重要的過程,在於從資料庫中挖掘 出未發現、隱含的資訊。
Grupe and Mehdi Owrang (1995) 資料採礦是從現存資料庫中挖掘出以前尚未得知的事 實與未發現的新關係。
Fayyad, Piatetsky-Shapiro, and Smyth (1996)
知識挖掘的其中一個步驟之一,透過選取適當資料,進 行資料處理,並從中挖掘出特徵及模式。
McCluskey and Anand (1999) 資料採礦是正在發展中的技術,結合機器學習、統計學、
演算法及數學等,在大量資料中,利用半自動化的流程 挖掘未知有用的知識。
Berry and Linoff (2004) 為了要發現出資料中蘊含的有意義的模式或規則,而必 須從大量資料之中以自動或是半自動的方式來探索和 分析資料
資料來源:本研究整理
二、資料採礦的流程
對於定義有一定了解之後,我們要講述關於資料採礦的流程。跨產業資料探 勘標準作業程序(Cross Industry Process for Data Mining, CRISP-DM)是一套 被業界廣泛使用的流程,主要是由幾家為在歐美的公司在1996 年聯合發展而成,
例如: NCR Corporation (美國和丹麥)、DaimlerChrysler AG (德國)…等等,其
9 (2004)、Ahmed (2004)、Giraud-Carrier and Povel (2003)及簡禎富、許嘉裕
10
(2018)所提出的概念,將問題區分為四種:
(1)分類(classification):
觀察大量資料分析特性,得出規則後建立分類的模式。常用的方法有決 策樹及類神經網路。
(2)預測(prediction):
利用過去的資料進行分析,針對特定對象觀察過去的現象,以預測未來 的行為。常見的方法有迴歸分析、時間序列分析及類神經網路。
(3)集群(clustering):
根據資料間的相似度,將資料分為不同的群體,以相似程度近的分為同 一群,造成組間差異大、組內差異小,而分群並沒有明確的事前定義。
常見的技術為K-means 法。
(4)關聯(Association):
透過分析資料找到同一時間內發生的事件,進而了解資料庫中存在的規 則產生關聯。常見的技術為購物籃分析,最常聽到的例子就是啤酒與尿 布,藉由顧客的交易資料,挖掘出顧客購買之商品之間的關聯性,設計 出適當的商品組合或者以此規則改善商品之陳列。
四、資料採礦的應用
Ling and Li (1998)在研究中證明了,資料採礦是直效行銷領域中,最有效 的工具之一,與傳統的行銷手段相比,資料採礦能夠為零售業、銀行或者保險公 司帶來更大的利益。以零售業為例,Chen et al. (2012)利用集群分析及決策樹 的方法,對禮品店交易資料進行分析,最後找出五個群組並分別為其定義,並挑 出其中一個群組再利用決策樹進行細分。Hosseini, Maleki, and Gholamian (2010)則利用集群分析的 K-means 法結合 RFM,開發出一個新的方法增進企業
11
的顧客關係管理;以服飾業為例,Wu, Chang, and Lo (2009)也採用 K-means 法結合RFM 分析服飾商的顧客,生成六個群組,並且給予六個群組不同的建議。
以銀行業為例,葉子維 (2018)利用決策樹與隨機森林並結合 RFM 模型分析出 行動銀行使用者的特性,最後發現隨機森林的整體準確率最高,並且依據分析結 果提供行銷的建議。