資料探勘應用之研究:零售業的RFM分析架構

全文

(1)國立臺灣師範大學管理學院全球經營與策略研究所碩士論文 Graduate Institute of Global Business and Strategy College of Management National Taiwan Normal University Master Thesis. 資料探勘應用之研究:零售業的 RFM 分析架構 A study of data mining application: RFM analytical framework of a retailer. 郭瀚揚 KUO, HAN YANG. 指導教授:周世玉博士 Advisor: CHOU, SHIHYU Ph.D 中華民國 108 年 7 月. July, 2019.

(2) 摘要在資料庫行銷領域中，RFM 模型一直是一個很重要的角色，他能提供一個簡單的框架去量化顧客。隨著時代的演進，RFM 模型結合資料採礦能使企業對於顧客的分析更透徹，不論是用於對顧客進行分群或是分析顧客價值。本研究使用公開平台的交易資料進行分析，以真實零售商之交易資料分析該企業的顧客，嘗試以 RFM 模型結合資料採礦的方法，對客戶進行分群，最後建立預測模型並驗證其預測力，同時本研究也著重在資料前處理的描寫。本研究以二階段集群分析結合 RFM 指標將顧客分成四群，並且將分群後的結果作為目標變數，以決策樹分析與判別分析建立預測模型，最後發現判別分析之預測率較好，但決策樹擁有較易解釋的規則。. 關鍵字:RFM、資料採礦、集群分析、判別分析、決策樹分析. I.

(3) ABSTRACT In the field of database marketing, the Recency, Frequency, Monetary model has always played an important role, it provides a simple framework to quantify customers. With the evolution of the technology, the RFM model combined with data mining enables companies to analyze customers more thoroughly, whether it is used to segment customers or analyze customer value. This study uses the transaction data of the open data platform, and analyzes the customers of the retailer's transaction data. It attempts to combine the data mining method with the RFM model, and then builds the predicting model and verifies its predictability. This study also focuses on the process of data preprocessing. In this study, the two-phase cluster analysis combined with the RFM index divides the customers into four groups, and the results of the grouping are used as the target variables. The prediction model is established by decision tree analysis and discriminant analysis. Finally, the prediction rate of the discriminant analysis is better, but the decision tree is easier to explain. Keywords: RFM, Data mining, Cluster analysis, Discriminant analysis, Decision tree analysis. II.

(4) 目錄摘要 ...................................................................................................................... I ABSTRACT......................................................................................................... II 目錄 .................................................................................................................... III 圖目錄................................................................................................................. IV 表目錄.................................................................................................................. V 第一章緒論 ........................................................................................................ 1 第一節研究背景與動機 .......................................................................................... 1 第二節研究目的與問題 .......................................................................................... 3 第三節論文結構 ...................................................................................................... 4 第二章文獻回顧 ................................................................................................. 5 第一節 RFM 模型 .................................................................................................... 5 第二節資料採礦 ...................................................................................................... 8 第三節集群分析 .................................................................................................... 11 第四節決策樹分析 ................................................................................................ 12 第五節判別分析 .................................................................................................... 13 第三章研究方法 ................................................................................................14 第一節研究設計 .................................................................................................... 14 第二節資料來源及變數說明 ................................................................................ 16 第三節分析方法 .................................................................................................... 18 第四章實證分析 ................................................................................................26 第一節資料前處理 ................................................................................................ 26 第三節集群分析 .................................................................................................... 36 第四節建立預測模型 ............................................................................................ 40 第五章結論與建議 ............................................................................................48 第一節研究發現 .................................................................................................... 48 第二節研究結論 .................................................................................................... 49 第三節研究限制與建議 ........................................................................................ 49 參考文獻 .............................................................................................................51. III.

(5) 圖目錄圖圖圖圖圖圖. 2-1 3-1 3-1 4-1 4-2 4-3. 五等分法示意圖 ............................................... 6 研究流程 .................................................... 15 分群過程示意圖 .............................................. 21 階層式集群分析樹狀圖 ........................................ 36 資料的分布 .................................................. 38 決策樹結果 .................................................. 41. 圖 4-4 判別分析地域圖 .............................................. 46. IV.

(6) 表目錄表表表表表表. 2-1 資料探勘之定義 ............................................................................................... 8 3-1 變數說明 ........................................................................................................ 17 3-2 原始資料檔前五筆資料 ................................................................................ 17 3-3 決策樹比較 .................................................................................................... 24 4-1 同筆交易之不同商品 .................................................................................... 27 4-2 顧客 12348 之所有交易 ................................................................................ 29. 表表表表表. 4-3 4-4 4-5 4-6 4-7. 表表表表. 4-8 前六位顧客之 RFM 指標 .............................................................................. 32 4-9 RFM 敘述統計 ............................................................................................... 33 4-10 刪除離群值之 RFM 敘述統計 .................................................................... 34 4-11 RFM 三指標之人數比例分布 ...................................................................... 35. 表表表表表表表表. 4-12 4-13 4-14 4-15 4-16 4-17 4-18 4-19. 整合顧客 12348 之交易收入 ........................................................................ 30 生成消費金額 ................................................................................................ 30 顧客 12348 之三筆交易 ................................................................................ 31 生成消費頻率 ................................................................................................ 31 顧客 12348 之交易間隔天數 ........................................................................ 32. 階層式集群分析報表 .................................................................................. 37 四個群組的 RFM ......................................................................................... 38 決策樹混淆矩陣(%) .................................................................................... 43 群組平均值的相等性檢定 .......................................................................... 44 特徵值 .......................................................................................................... 45 函數顯著性檢定 .......................................................................................... 45 判別函數係數 .............................................................................................. 45 判別分析混淆矩陣(%) ................................................................................ 47. V.

(7) 第一章緒論第一節研究背景與動機 RFM(Recency, Frequency and Frequency)模型在傳統資料庫行銷中一直扮演著很重要的角色，因為 RFM 模型可以用來衡量顧客價值與顧客的獲利能力 (Hughes, 1994)，而這個模型提供一個簡單的框架來量化顧客，使用方便而且可以快速的實行(Kahan, 1998)，其量化方式就是將顧客三個指標的分數排序後分成五等分，即可簡單的得到顧客的分組，而這三個指標分別為:Recency 代表顧客最近的一次消費，天數愈少表示顧客上一次回購的時間愈近；Frequency 為消費頻率，代表顧客消費的次數；而 Monetary 則代表消費金額，數值愈大表示顧客對於企業的消費金額愈高，利用這三個指標為對顧客進行分類，管理者和決策者都能夠輕易的理解(Marcus, 1998)。然而如前述所提到，傳統的 RFM 模型使用的是等間距的方法將顧客分群，將三個指標依序分成五等分，總共能獲得5 × 5 × 5，總共125個群組，這種方法不但不適用於所有的情形，全部以等間距更有可能犧牲資訊，沒辦法真實的展現數據的全貌(徐火志、劉敦仁，2005)。在資訊科技不斷進步的現代，電腦運算的能力，伴隨著大量的數據，改變了現今人們應用資料的方式。資料採礦便在此時隨之蓬勃發展，企業可以利用資料採礦從數據中挖掘各種以前無法得知的規則，轉化成對企業有價值的資訊，進而做出適當的決策，因此對於現代的企業來說，已經成為一項不可或缺的競爭優勢。每天面對顧客的零售業或是現今的電子商務業者，累積了大量的顧客交易資料，如果只是累積了這麼龐大的資料卻不善加利用非常可惜。相反地，這些資料可以根據不同目的進行探索，我們可以說大數據分析以及其應用已經改變我們的生活。以零售業為例，維持與舊顧客的良好關係非常重要。對於企業來說，開發一個新顧客的成本是遠高於維持舊客戶成本的五倍(Kotler & Dubois, 1991)。企業的資源有限，如何有效的分配資源，以便打造良好的顧客關係便是一件重要的事。 1.

(8) 企業應該有效的行銷且減少顧客流失，此時發掘顧客的消費行為與需求就是企業提升競爭力的重要方法(Malthouse & Blattberg, 2005)。但許多企業的行銷活動常常會將所有客戶視為同一個體，對不同的客戶都施以相同的行銷手段，與資料庫行銷的理念背道而馳(Kahan, 1998)。而直效行銷中的 RFM 模型幫助企業根據顧客過去的購買行為去了解顧客，其中一個關鍵就是對於顧客分群，讓企業決定是否要對這些顧客進行後續的互動(Miglautsch, 2000)。如前面提到，傳統的 RFM 的分群方法是將 RFM 三個指標以等間距的方式對顧客分類，但是這樣的方法並不適用於每個情形(徐火志、劉敦仁，2005)。因此開始研究出許多不同的模型針對不同產業適時的將 RFM 三個指標賦予權重，像是 Khajvand, Zolfaghar, Ashoori, and Alizadeh (2011)利用層級分析法計算出藥妝店所屬的 RFM 指標的權重，進而計算顧客的終身價值，為其提出更有效的行銷策略；或者是將 RFM 模型結合資料採礦，這樣的概念已廣為大家接受，像是 Chen, Sain, and Guo (2012)利用集群分析代替傳統的五等分法，為企業提供更精準的顧客分群方法。企業的資源是有限的，應該要針對不同的顧客群有效分配資源，企業擁有這麼多寶貴的交易資料，就如同尚未發掘的寶藏一樣，要從資料中生成資訊進而轉換成價值，資料前處理占了一席之地，而過去的研究多半著重在如何呈現 RFM 分析結合資料採礦的結果，較少描述 RFM 三個指標如何生成，本研究欲使用開放資料平台上之顧客交易資料，將展現如何從資料原始的變數生成 RFM 三個指標，並且以 RFM 模型為基礎結合資料採礦的方法，建立預測模型，如此企業能以此套完整的資料分析流程，對於顧客進行更好的管理。. 2.

(9) 第二節研究目的與問題想要對顧客進行分類可以透過收集兩種類型的資料，一種是具有顧客特徵的資料，另一種則是顧客的行為變數(Kotler, 2009)，顧客的特徵一般包含地理特徵、人口特徵以及心理特徵；顧客的行為則包含顧客對產品的使用率、態度以及對企業的忠誠度，而 RFM 就是一種基於顧客的行為分析模型，去觀察顧客對產品以及品牌的態度，以資料庫中的數據對於顧客進行預測。本研究將藉由公開網站上的真實交易資料，透過顧客的交易紀錄萃取出 RFM 三個指標，描述消費者的輪廓，並且提出一個以 RFM 分析為基礎的模型，並結合資料採礦方法對於顧客進行分群，對於各群組進行描述，最後建立預測模型掌握顧客的改變，因此本研究的問題為如何將顧客的消費資料達到充分的利用? 如何以 RFM 指標評估顧客價值?如何有效區分顧客，進而達到預測的結果? 為了解決上述之問題，本研究將採用以下幾種資料採礦方法，有多變量分析中的集群分析與判別分析，以及決策樹分析。其中，以集群分析對於顧客進行分群，最後以決策樹分析及判別分析對顧客進行預測，本研究的目的歸納如下: (1)確立二階段集群分析應用在 RFM 模型的程序與效能。 (2)搭配決策樹與判別分析兩個不同的方法進行預測，並且以此檢視二階段集群分析的成效。. 3.

(10) 第三節論文結構本論文一共分為五個章節，第一章為緒論，一共分為三節，介紹研究動機、研究目的以及研究流程；第二章為文獻回顧，將針對 RFM 分析及其應用、資料採礦的方法以及過去如何將資料採礦應用在 RFM 上的方法進行介紹及文獻回顧；第三章為研究方法，藉由顧客的交易提出以 RFM 分析為基礎的模型，並介紹研究中使用的不同資料採礦方法；第四章為實證分析，資料的前處理以及基本敘述統計，還有實際進行資料分析的過程將在本章一一說明；第五章則為結論，將針對第四章所得到的結果做出結論，並且提出未來可行的策略及其商業應用。. 4.

(11) 第二章文獻回顧本章首先對於 RFM 模型相關文獻進行回顧，再進一步探討資料採礦以及資料採礦結合 RFM 模型的相關文獻。. 第一節 RFM 模型一、RFM 之定義無論是傳統的零售業者或是現在的電商，每天的交易都會產生許多資料，當我們面對這麼多雜亂的交易資料，如何從中分析找出對企業有貢獻的客戶非常重要，而 RFM 模型則是最常被用來分析顧客，找出對企業具有貢獻及忠誠度的方法，該模型被應用在許多不同的領域，例如電腦安全(Kim, Im, & Park, 2010)、汽車工業(Chan, 2008)。RFM 是一個歷史悠久的模型，在直效行銷領域中已經使用超過 30 年(Hughes, 1996)，其概念最早由 Cullinan (1977)提出，隨著資料庫系統逐漸成熟，從 1990 年以後開始被眾多學者廣為討論，Bult and Wansbeek (1995)為 RFM 提出了基本的定義(1)R 為 Recency，表示最近一次消費，代表消費者上次購買的時間。(2)F 為 Frequency，表示消費頻率，代表顧客於企業消費的次數。(3)M 為 Monetary，表示消費金額，指的是顧客於企業所消費的總金額，一般認為最近一次消費是最重要的指標，但是有研究發現 RFM 指標的重要性會隨著不同的產業以及產品的性質而有所不同(Lumsden, Beldona, & Morrison, 2008)，而其應用在資料庫的行銷時也被證明非常有用(Blattberg, Kim, & Neslin, 2008)。建構一個 RFM 模型的流程如下，將資料庫中的資料按照 RFM 三個指標進行排序，接著將排序後的資料分成五個相同的區間，前 20%的資料編碼為 5，下一個 20%為 4，以此類推，最後將資料庫中每個顧客的 RFM 指標用 5 到 1 做排序，以此為顧客進行分類，其中 555 表示為最佳顧客群，111 為最差顧客群(Hughes, 5.

(12) 1996; Kahan, 1998)，其示意圖如圖 2-1。. 顧客. 5. 5. 5. 4. 4. 4. 3. 3. 3. 2. 2. 2. 1. 1. 1. R. F. M. 顧客群組:555. 圖 2-1 五等分法示意圖最後本研究根據 Wei, Lin, and Wu (2010)及前述提到之學者所提出之定義，本篇將以上定義結合並說明本篇研究如何選取 RFM 三個指標: (1)最近一次消費最近一次消費一般被認為是三項中最重要的一項指標，代表的是最近一次的消費，在本篇研究中，在本篇研究中將選取最近一次消費與我們選定的分析日之間的間隔天數為 R 值，當 R 值愈小表示間隔時間愈短，顧客與企業較為密切，則該顧客再次上門購物的機率愈高。 (2)消費頻率消費頻率指的是在一段時間中，消費者於企業消費的次數。在本篇研究中將選取各個消費者在該年度於企業消費的筆數為 F 值，當 F 值愈大時表示顧客經常於企業消費，對於企業的忠誠度相對高於 F 值小的消費者，也就表示再次回購的機率愈高。 (3)消費金額消費金額指的是一段時間中，消費者在企業所消費的總金額。本篇研究中將選取各個消費者在該年度於企業所消費的總金額為 M 值，當 M 值愈大時，表示 6.

(13) 該消費者為企業製造愈多的營收。. 二、RFM 之應用 RFM 可以讓企業了解顧客過去的行為，根據 RFM 知道那些顧客是未來可以持續聯絡的，因此很常被應用在資料庫行銷，是開發行銷策略的工具之一，最常被使用的情況就是對於特定顧客的銷售計劃，像是利用電子郵件行銷或促銷信等等，進而提高回應率(Sohrabi & Khanlari, 2007)。除了用來行銷顧客之外，RFM 也有其他應用，有些研究將 RFM 模型用來計算顧客終身價值(CLV)，Liu and Shih (2005)開發了一種新的推薦方法，利用集群、關聯法則等技術與決策方法結合，並且應用了 RFM 模型評估顧客的 CLV。不同產業應用 RFM 進行分析的案例也不少，Lumsden et al. (2008)利用 RFM 模型於旅遊業進行分析，根據旅行社會員購買的動機辨別會員價值；在金融業方面，Hsieh (2004)則是利用類神經網路的技術分析銀行的信用卡顧客，以顧客的還款行為與 RFM 指標作為評分依據去預測未來潛在有用的顧客；在汽車業方面，Chan (2008)將對顧客的定位及顧客的區隔結合，利用顧客終生價值還有辨別顧客行為的 RFM 為依據分析 Nissan 的銷售，結果發現相較於隨機選擇顧客行銷，利用以上方法選擇有價值的顧客成效更好。. 三、RFM 之限制 RFM 是為了找出有價值的顧客而誕生的方法，因此比較關注最佳顧客，反而忽略評分較低的顧客，例如分數為 1-1-1 的顧客群(Wei et al., 2010)，而邱宏彬、蘇建源 (2004)也提到，五等分法將顧客分成 125 群，但是當交易紀錄或實際顧客人數較少時，這樣的方法反而因為人數未達規模有失精準，因此本研究將會以集群分析代替原來五等分的分群方式，更精準的描述顧客。. 7.

(14) 第二節資料採礦一、資料採礦的定義廣義上來說，資料採礦可以說是從資料庫中發掘知識的步驟之一，也就是一般所說的知識發現(KDD)，而其目的便是從資料庫中挖掘資料，利用不同的演算法去萃取資料的特徵以及模式，最後成為資訊的一個過程。眾多學者對於資料採礦的定義如表 2-1:. 表 2-1 資料探勘之定義學者. 定義. Frawley, Piatetsky-Shapiro, and. 資料挖礦是一個非常重要的過程，在於從資料庫中挖掘. Matheus (1992). 出未發現、隱含的資訊。. Grupe and Mehdi Owrang (1995) 資料採礦是從現存資料庫中挖掘出以前尚未得知的事實與未發現的新關係。 Fayyad, Piatetsky-Shapiro, and. 知識挖掘的其中一個步驟之一，透過選取適當資料，進. Smyth (1996). 行資料處理，並從中挖掘出特徵及模式。. McCluskey and Anand (1999). 資料採礦是正在發展中的技術，結合機器學習、統計學、演算法及數學等，在大量資料中，利用半自動化的流程挖掘未知有用的知識。. Berry and Linoff (2004). 為了要發現出資料中蘊含的有意義的模式或規則，而必須從大量資料之中以自動或是半自動的方式來探索和分析資料. 資料來源:本研究整理. 二、資料採礦的流程對於定義有一定了解之後，我們要講述關於資料採礦的流程。跨產業資料探勘標準作業程序(Cross Industry Process for Data Mining, CRISP-DM)是一套被業界廣泛使用的流程，主要是由幾家為在歐美的公司在 1996 年聯合發展而成，例如: NCR Corporation (美國和丹麥)、DaimlerChrysler AG (德國)…等等，其 8.

(15) 流程主要分為六項:(1)了解企業需求、(2)了解資料特性、(3)準備資料、(4)設計模型、(5)評估還有(6)建置；在大數據分析與資料挖礦(簡禎富、許嘉裕, 2018) 當中，則將資料採礦的分析架構定義為以下四大階段: (1)問題定義與架構: 為了提升挖礦效率，必須清楚的了解與問題相關的背景知識，並清楚定義欲解決的問題，再依據問題定義與專業知識挑選適當挖礦工具進行挖掘。 (2)資料準備: 雖然大量的資訊可以增加挖掘出資訊的機會，但也容易產生出更多無用的資訊及雜訊，進而影響資料處理的結果正確程度，資料處理的技術則包含資料清理、資料整合、資料轉換及資料化約。 (3)建立資料採礦模式: 選擇適合的資料採礦工具來建立模型，不同的技術會有不同的特性及要求，適合處理的資料型態也不盡相同，因此也可能需要混合不同技術達成目標。 (4)結果解釋與評估: 挖掘結果對於企業運用是否有幫助，以及是否有達到預期效果需要經過再三的討論，才能讓研究更加完整，而最後評估是否繼續使用模型，建立決策機制及系統。. 三、資料採礦的問題類型依照分析資料的目的可以將問題分為描述性與預測性。描述性是希望藉由分析資料去發現隱藏在資料背後的相關或趨勢；預測性則是希望能以過去的資料建立一個模型用來對未來預測，雖然問題的類型不同，本研究結合 Berry and Linoff (2004)、Ahmed (2004)、Giraud-Carrier and Povel (2003)及簡禎富、許嘉裕 9.

(16) (2018)所提出的概念，將問題區分為四種:. (1)分類(classification): 觀察大量資料分析特性，得出規則後建立分類的模式。常用的方法有決策樹及類神經網路。 (2)預測(prediction): 利用過去的資料進行分析，針對特定對象觀察過去的現象，以預測未來的行為。常見的方法有迴歸分析、時間序列分析及類神經網路。 (3)集群(clustering): 根據資料間的相似度，將資料分為不同的群體，以相似程度近的分為同一群，造成組間差異大、組內差異小，而分群並沒有明確的事前定義。常見的技術為 K-means 法。 (4)關聯(Association): 透過分析資料找到同一時間內發生的事件，進而了解資料庫中存在的規則產生關聯。常見的技術為購物籃分析，最常聽到的例子就是啤酒與尿布，藉由顧客的交易資料，挖掘出顧客購買之商品之間的關聯性，設計出適當的商品組合或者以此規則改善商品之陳列。. 四、資料採礦的應用 Ling and Li (1998)在研究中證明了，資料採礦是直效行銷領域中，最有效的工具之一，與傳統的行銷手段相比，資料採礦能夠為零售業、銀行或者保險公司帶來更大的利益。以零售業為例，Chen et al. (2012)利用集群分析及決策樹的方法，對禮品店交易資料進行分析，最後找出五個群組並分別為其定義，並挑出其中一個群組再利用決策樹進行細分。Hosseini, Maleki, and Gholamian (2010)則利用集群分析的 K-means 法結合 RFM，開發出一個新的方法增進企業 10.

(17) 的顧客關係管理；以服飾業為例，Wu, Chang, and Lo (2009)也採用 K-means 法結合 RFM 分析服飾商的顧客，生成六個群組，並且給予六個群組不同的建議。以銀行業為例，葉子維 (2018)利用決策樹與隨機森林並結合 RFM 模型分析出行動銀行使用者的特性，最後發現隨機森林的整體準確率最高，並且依據分析結果提供行銷的建議。. 第三節集群分析一、集群分析非監督式學習假定資料集的變數是沒有標籤的，意即變數並沒有被區分為自變數以及應變數，而集群分析就是一種非監督式學習(Wil, 2016)，集群分析是一種從資料庫中將不同目標基於類似的條件歸類成同一群組的一種方法，而且假設無法事先知道集群的資訊，Berkhin (2006)整理了集群分析處理資料時的特性，其中包含: (1)可以處理高維度的數據。 (2)能夠找出不規則形狀的群組。 (3)可以處理異常值。 (4)結果具有較好的解釋性。. 而進行集群分析的首要條件就是確認每筆資料的鄰近性，以達成每個群組之內具有高相似性，不同群組之間則是呈現高度相異性。集群分析分成階層式集群分析與非階層式集群分析，階層式集群分析又分成凝聚(由下而上)和分裂(由上而下)兩種方法，凝聚是從各個資料點開始合併；分裂則是將資料視為一個群，接著把該群逐漸分裂成適當的小群組，達到分群標準後就會停止(Jain & Dubes, 1988; Jain, Murty, & Flynn, 1999)。而非階層式集群分析則是一種利用疊代優化的方法，透過不斷重新分群，相較於階層式的分群不會再去重新檢查已建構的 11.

(18) 集群，非階層可以獲得較精準的集群(Berkhin, 2006)。. 二、集群分析於 RFM 之應用相較於傳統 RFM 將指標分成五等分，近代的研究在分析時則會用集群分析的方式，將 RFM 的變量考慮進去，如 Hosseini et al. (2010)利用 K-means 法結合加權 RFM 模型，改善企業在顧客關係管理的績效；Wu et al. (2009)則是利用 K-means 法與 RFM 模型對台灣服裝業的客戶數據庫進行分析，最終找出對企業高利潤的客戶並鞏固其忠誠度。然而 K-means 法會受到初始選擇之群心以及異常值的影響，而結合了階層式集群分析與 K-means 法的二階段集群分析卻可以解決這個缺點(B. Chen, Tai, Harrison, & Pan, 2005)，因此本篇研究將採二階段集群分析作為分群的方法。. 第四節決策樹分析決策樹在處理分類的問題時，是一種很有效的方法，運用像樹一樣有節點、樹葉等的結構，產生令人較易了解的規則，因此一直是一個受歡迎的資料採礦技術。Moran & Bui(2002)指出決策樹分析是一種監督式的演算法，欲分類的變數由分析者選定，再使用其他變數作為分類的條件，最後整理為結構化的知識。因此，決策樹可以說是十分適合用來資料分析的工具，也是目前分類法中最具有代表性的演算法(簡禎富、許嘉裕，2018)。在處理資料方面，決策樹可以處理連續型也可以處理類別型的變數，面對大型的資料集也能處理，當變數眾多時，決策數也能建構。決策樹的演算法一般分為 CART 與 CHAID 二種，CART 的目標變數可以是連續型或者類別型變數，他是一種二元分割的方法，在每個節點將資料分為兩個子集合；CHAID 則是只限在處理類別變數，連續變數則須拆成數個區間，而分割方式是利用卡方檢定來檢驗變數對於資料的分隔是否有顯著差異。 12.

(19) 因為其容易了解與操作的特性，決策樹被應用在許多領域，以金融業為例，施正宏(2004)將決策樹分析結合總體經濟指標與個股的財報，用來預測未來的台股走勢，並且了解決策樹方法是否能運用在找出股價的報酬率。在資通信產業，幀(2005)則利用決策樹找出消費性產品用戶的採購習性，並且開發如何行銷顧客的手法，以增加顧客忠誠度與再次購賣的意願。而製造業方面，蔡智政(2002)則是以決策樹演算法來分析影響製程的高低良率，並且輔以視覺化的技術來了解決策樹的結果。姚志成(2004)則是利用決策樹進行預測，觀察血液的各項指數，找出關鍵的變數，並經由決策樹來進行脂肪肝的預測。. 第五節判別分析判別分析是一種利用準則變數來判斷分類的方法，通常準則為事先訂定已知的分類，其基本的目的就是用來估計準則變數與預測變數之間的關係(黃俊英, 2000)。為了達到這個目的，必須找出可以最佳分辨出多群的變數，然後利用變數推導出一個新的判別函數，最後以此函數做為判別新資料點應該做為哪一群的準則(呂金河，2005)。而判別分析也是利用投影的概念，導出一個新軸使得資料點在新軸上的投影對集群有最大的差別，此時的新軸就稱為線性判別函數，而資料點的投影則稱為判別計分。線性判別函數的概念則是在 1936 年被提出的，Fisher (1936)將其應用在花卉的分類上，以花卉的各種特徵做為預測變數來做判別。隨著判別分析發展至今，其應用也非常廣泛，陶冶與馬健 (2005)利用判別分析與集群分析對中小企業的營利以及成長進行分析，最後找出其分類特點，有效的為投資人投資中小企業提供借鏡；廖少威等人(2005)利用判別分析探討水質汙染的問題，並且就分析結果提供相同性質之環境在管理上的建議。. 13.

(20) 第三章研究方法本章一共分為三個小節，分別為研究設計、資料來源及變數說明及分析方法，第一節將說明本篇研究之設計，如何對資料進行萃取，挑選出 RFM 值並且建立模型以及後續如何使用資料採礦進行分析的過程，接著第二節我們將針對本次欲探討的零售業資料進行介紹，說明其來源及內容，最後一節則是說明本篇研究中所應用到的資料採礦方法，並且進行詳細的介紹。. 第一節研究設計根據本研究之研究目的，我們必須從顧客的交易資料中，萃取出我們需要的變數 R、F、M，在後面的資料採礦時，將會是我們重要的分組依據，以下為本研究之研究流程:. 14.

(21) UCI 資料集. 資料前處理. 取得 RFM 值. 對 RFM 值進行調整. 以 RFM 值進行分. 評估各群組並賦予解釋. 將分群結果以決策樹分析. 將分群結果以判別分析. 建立模型. 建立模型. 比較模型結果. 提出結論及建議. 圖 3-1 研究流程. 15.

(22) 第二節資料來源及變數說明本篇研究主要是討論零售業或電商如何利用顧客的消費資料，建立一套可預測的模型，因此我們將利用公開在 UCI 資料庫的禮品店交易資料進行分析，以下將介紹此筆交易資料之來源與相關研究。. 一、資料來源與介紹本研究使用的資料為公開在 UCI 機器學習資料庫的交易資料，這是一間在英國的零售商，主要以販賣禮品為主，此資料集紀錄了從 2010 年 12 月 1 日至 2011 年 12 月 9 日這段時間所發生的所有交易資料。此資料集總共有 541909 筆資料，經過整合還有扣掉取消的交易後，總共有 22061 筆交易紀錄，如同表 3-1 所示，本資料總共有 8 個變數，分別為 InvoiceNo, StockCode, Description, Quantity, InvoiceDate, UnitPrice, CustomerID and Country，而表 3-2 為節錄真實數據中的前五筆資料。比較可惜的是，運用 RFM 分析必須針對不同顧客 ID 給予適當的值，但本資料中有一些交易資料是沒有顧客的 ID 的，因此我們必須從現有的 4372 位顧客中建立模型，如何將資料進行處理的過程將在第四章一一進行描述。此筆資料是由 Chen et al.(2012)所提供，其研究以該零售商為個案，以數據結合資料採礦的技術，幫助企業更了解客戶，最後提出一套以消費者為中心的行銷建議。. 16.

(23) 表 3-1 變數說明變數名稱. 屬性. 發票號碼(InvoiceNo). 變數說明. 名目變數. 發票號碼，總共由 6 位數字組成，每筆交易資料都有一個唯一的發票號碼，如果發票號碼前面有”c”表示交易取消。. 商品編號(StockCode). 名目變數. 產品的編號，由 5 位數字組成，每一個產品都有唯一的產品編號。. 商品描述(Description). 名目變數. 產品的名稱及敘述。. 購買數量(Quantity). 數值變數. 購買的數量，指的是每筆交易中，某產品的交易量。. 交易時間(InvoiceDate). 數值變數. 交易時間，紀錄交易發生當下的日期與時間。. 商品單價(UnitPrice). 數值變數. 產品的單價。. 顧客編號(CustomerID). 名目變數. 顧客編號，由 5 位數字組成，每個顧客有唯一的編號. 交易地區(Country). 名目變數. 紀錄顧客所在的國家。. 表 3-2 原始資料檔前五筆資料發票號碼. 產品編號. 產品描述. 數量發票日期. 536365. 85123A. WHITE…. 6. 536365. 71053. WHITE…. 6. 536365. 84406B. CREAM…. 8. 536365. 84029G. KNITTED …. 6. 536365. 84029E. RED…. 6. 2010/12/1 08:26 2010/12/1 08:26 2010/12/1 08:26 2010/12/1 08:26 2010/12/1 08:26. 17. 單價(英鎊) 顧客編國家號 17850 United 2.55 Kingdom 17850 United 3.39 Kingdom 17850 United 2.75 Kingdom 17850 United 3.39 Kingdom 17850 United 3.39 Kingdom.

(24) 第三節分析方法本小節將介紹此次研究所使用之軟體，以及使用的方法，並且說明選擇的原因。. 一、分析工具本研究使用 SAS EG 以及 R 來做為分析的工具。. 二、分析方法 (一) RFM 分析從處理好的資料集中，根據第二章所描述之 RFM 的定義，以最近一次消費與選定的分析日之間隔天數為 R 值，以各個消費者在 2011 年於企業消費的次數為 F 值，以消費者在該年度於企業所消費的總金額為 M 值。有別於以往 RFM 將三個指標分為五個等分，給予消費者 111 至 555 的分數，本篇研究將 RFM 的原始數值分別標準化，並且使用標準化後的分數進行分群，目的是為了減少變數間尺度相差較大的問題。。. (二) 集群分析集群分析是一種將資料分為不同群體的方法，利用資料的相似度分群，使得不同群體之間差異程度大，而同群體內的差異小。集群分析可以用來將顧客分群，用途相當廣泛，而進行集群分析主要有四個階段: (1)資料準備與變數選取: 根據分析的問題以及資料的類型，選擇適當的分群演算法，然後從資料集裡面，選出要分析的變數做為分群的特徵。 (2)計算相似度: 選取完演算法後，開始進行分群，而怎麼決定群組的依據就是計算 18.

(25) 相似度，其中評估相似度的方法又有依照距離及相關係數兩種，必須依照資料特性及選擇的演算法選擇適當的方法。以距離衡量相似度時，距離越小則表示相似度越高，以下將介紹衡量距離的方式: 1.歐式距離: 歐式距離是常用的衡量距離方式，指的是空間中兩資料點的幾何距離，以下為歐式距離的計算方式: 令𝐷(𝑦1 ,𝑦2) 為兩點之歐式距離，則𝐷(𝑦1 ,𝑦2) = √∑𝑝𝑗=1(𝑥1𝑗 − 𝑥2𝑗 )2 2.曼哈頓距離: 曼哈頓距離也是一種常用的衡量距離方式，又稱城市街道距離，指的是資料點之間差距的絕對值之和，以下為曼哈頓距離的計算方式: 令𝐷(𝑦1 ,𝑦2) 為兩點之曼哈頓距離，則𝐷(𝑦1 ,𝑦2) = ∑𝑃𝑗=1|𝑥1𝑗 − 𝑥2𝑗 | 3.乘冪距離: 乘冪距離則可視為上述兩者的通式，當參數n = 1時，就是曼哈頓距離，當參數n = 2時，就是歐式距離，以下為乘冪距離之公式: 𝑛. 令𝐷(𝑦1 ,𝑦2) 為兩點之乘冪距離，則𝐷(𝑦1 ,𝑦2) = [∑𝑃𝑗=1|𝑥1𝑗 − 𝑥2𝑗 | ]. 1⁄ 𝑛. ,n ∈ N. 4.加權距離: 變數之間可能會有重要性不同的情況發生，此時就需要給予變數權重𝑤𝑗，以測量加權後的距離，其中所有的權重相加會等於 1，且當權重全部相同時，此時加權距離等於歐式距離，以下為加權距離之公式: 令𝐷(𝑦1 ,𝑦2) 為兩點之加權距離，則𝐷(𝑦1 ,𝑦2) = √∑𝑝𝑗=1 𝑤𝑗 (𝑥1𝑗 − 𝑥2𝑗 ). 2. 5.標準化距離: 如果資料中欲計算距離之資料點在不同維度的尺度或衡量的單位不同，可能會導致尺度較大的變數影響最後計算距離的結果，若是想解決這種狀況，則必須對變數進行標準化，藉此將不同維度轉換到一個可以衡量的標準，避免發生差異太大的問題。 19.

(26) (3)分群的演算法: 演算法是集群分析中最關鍵的階段，演算法根據分群的方式不同，有些可能需要自行選擇群數，而常見集群分析的演算法一般分為階層式集群分析與非階層式集群分析或稱分割式集群分析，以下將介紹兩種集群分析的演算法。為了使分群的結果更精準，我們將採用混和兩種方法的二階段集群分析。. 1.階層式集群分析: 階層式集群分析可以分為凝聚(agglomerative)與分裂(divisive)兩種方法，通常凝聚的方法會比分裂更常被使用(Kantardzic，2003)，因此本篇將採取凝聚法進行分群。以這種分群方法所產生出來的結果會呈現為樹狀圖的樣子，相近的節點就是相似度較高的資料，而描述相似度可以透過選用不同的方法來衡量，其中以下幾個方式較為常見:. 最小距離: 𝐷𝑚𝑖𝑛 (𝐶𝑖 , 𝐶𝑗 ) =. min. 𝑎∈𝐶𝑖 ,𝑏∈𝐶𝑗. 𝐷(𝑎,𝑏). 最大距離: 𝐷𝑚𝑎𝑥 (𝐶𝑖 , 𝐶𝑗 ) =. max 𝐷(𝑎,𝑏). 𝑎∈𝐶𝑖 ,𝑏∈𝐶𝑗. 平均距離: 𝐷𝑎𝑣𝑒𝑟𝑎𝑔𝑒 (𝐶𝑖 , 𝐶𝑗 ) =. 1 ∑ ∑ 𝐷(𝑎,𝑏) 𝑛𝑖 𝑛𝑗 𝑎𝜖𝐶𝑖 𝑏𝜖𝐶𝑗. 中心值距離: 𝐷𝑐𝑒𝑛𝑡𝑟𝑜𝑖𝑑 (𝐶𝑖 , 𝐶𝑗 ) = 𝐷(𝑚𝑖 ,𝑚𝑗 ). 20.

(27) 2.非階層式集群分析先選擇數個不同的起始值並賦予一個集群，接著在各階段分群過程中，將原有的集群予以打散，並重新形成新的集群，概念就是將所有的資料點依據選取的分組特徵，分到指定的 K 個群組，而且每個資料點只會分到一個集群，而在這個方法中，衡量相似度的依據則是以平方誤差為指標，當每群平方誤差達最小時，再考慮 K 個集群，總變異為最小，分群便會停止。一般來說常見的方法為 K-means 法，其判斷準則為每個資料點與集群之中心(平均值)的變異平方和最小，則該中心為集群的中心，其公式如下: 𝐾. 𝑛𝑘. E = ∑ ∑(𝑋𝑖𝑙 − 𝑚𝑙 )𝑇 (𝑋𝑖𝑙 − 𝑚𝑙 ) 𝑙=1 𝑖=1. 其中，𝑚𝑙 為集群𝐶𝑙 的平均值，E 為總距離變異平方。以下圖 3-1 為 K-means 法分群的過程示意圖:. 圖 3-2 分群過程示意圖註:(a)初始隨機給定兩群心，將資料點分成兩群(b)重新計算集群的中心(c)集群不再更動資料來源:Wil (2016). 然而，群心的選擇會造成後續分群結果不同，如果初始的中心資料點不夠分散，將會造成較差的結果(簡禎富、許嘉裕，2018)。K-means 法需要事先決 21.

(28) 定群數，所以集群通常透過反覆演算，取得適當的群數，然而結合了階層式的分群方法，可以先決定出一個適當的分群數目，再用 K-means 法將資料精準分群(Sharma, 1995)。所以本研究將採用二階段的分群方法，以取得一個適合的群數。. (三)決策樹分析決策樹在資料採礦中是常見的分類方法，分類方式是由上而下生成樹狀圖，隨著決策樹的成長將資料分割成不同的集合。因為其樹狀結構，決策樹有明顯的規則，每個分枝代表不同的測試結果，每個節點則代表不同分類的標記，因此能清楚的告知分析者哪個變數較為重要，分析者也能輕易從圖形中發現結果。在進行分類時，每個節點如何進行分裂是一個關鍵，通常會希望藉由某種標準來達到節點內的資料點大部分都屬於同一類別，意即使結點內的純度愈高。以下將介紹執行決策樹時常用的分枝準則: (1)資訊增益(Information Gain): 資訊的增量為根據不同訊息的機率，衡量不同條件下的資訊量。若資料帶來的各種訊息機率一致，則稱獲得資訊量為最大；反之則資訊量最小。如式 3.4 所示，N為資料集中所有樣本，每個類別的資料個數定義為𝑋∙𝑗，則各類別出現的機率為𝑝𝑗 = 𝑥∙𝑗 ⁄𝑁，從資訊理論則可得到各類別的資訊為− log 2 𝑝𝑗 ，因此各類別𝐶1 ,𝐶2 …,𝐶𝑘 的資訊總和 Info(D)為: Info(D) = −. 𝑥∙1 𝑥∙1 𝑥∙2 𝑥∙2 𝑥∙𝑘 𝑥∙𝑘 log 2 − log 2 − ⋯− log 2 𝑁 𝑁 𝑁 𝑁 𝑁 𝑁 𝑘. = − ∑ 𝑝𝑗 × log 2 𝑝𝑗 𝑗=1. 而Info(D)又稱為熵(entropy)，用以衡量資料的離散程度，當熵值為 1， 22.

(29) 表示分類的訊息雜亂度愈高。 (2)Gini 係數(Gini Index): Gini 係數則是為了衡量集合中所有類別的不純度，如下列公式所示: 𝑘. Gini(D) = 1 − ∑ 𝑝𝑗 2 𝑗=1. Gini 係數可以用來判斷某屬性是否適合作為分枝的依據，以計算下列公式所得數值為例，該數值即為屬性 A 的不純度，當不純度愈小表示該屬性愈適合作為分枝屬性。 𝐺𝑖𝑛𝑖𝐴 (𝐷) =. 𝑥∙1 𝑥∙2 𝑥∙𝑙 𝐺𝑖𝑛𝑖(𝐴1 ) + 𝐺𝑖𝑛𝑖(𝐴2 ) + ⋯ + 𝐺𝑖𝑛𝑖(𝐴𝑙 ) 𝑁 𝑁 𝑁. (3)資訊增益比(Gain Ratio): 前面所提到的資訊增益會選擇能降低資訊雜亂度的變數，但亂度只考慮到分類錯誤的比率，沒有考慮到屬性本身的訊息。而資訊增益比會考慮候選屬性本身所攜帶的訊息，並將其轉換至決策樹上，透過計算資訊增益與分枝屬性的資訊量之比值找出最適合的分枝屬性。如下列 2 式所示: GR(A) =. 𝐺𝑎𝑖𝑛(𝐴) 𝑆𝑝𝑙𝑖𝑡 𝐼𝑛𝑓𝑜(𝐴). 其中 𝑆𝑝𝑙𝑖𝑡 𝐼𝑛𝑓𝑜(𝐴) = −. 𝑥𝑖∙ 𝑥𝑖∙ log 2 ( ) 𝑁 𝑁. 決策樹分析是一種監督式學習法，然而隨著資料的不同特性，也會採用不同的演算法，得到的樹狀結構也會有所不同。根據目標變數的尺度還能將樹種分為分類樹或迴歸樹，分類樹的目標變數型態為類別變數，而迴歸樹則是連續變數。常見的演算法有三種，其整理如下表 3-2:. 23.

(30) 表 3-3 決策樹比較 C4.5/C5.0. CART. 演算法處理資料型態連續型資料分枝方式. CHAID. 離散、連續. 離散、連續. 離散. 2枝. 不受限制. 無法處理. 分枝. 類別型相依變數. Gini 分散度指標. 資訊增益比. 卡方檢定. 準則. 連續型相依變數. 變異數縮減. 變異數縮減. 卡方檢定或 F 檢定. 分枝. 類別型獨立變數. 二元分枝. 多元分枝. 多元分枝. 方法. 連續型獨立變數. 二元分枝. 二元分枝. 多元分枝(轉換類別變數). 修剪方法. 成本複雜性修剪. 基於錯誤的修剪. 無. 資料來源:簡禎富、許嘉裕 (2018). (四)判別分析判別分析是在已知的情形下，已原有的分類建立一個判別的標準，當有新的資料時，就能以該標準將新的資料分配至特定的集群中。此方法便呼應了集群分析後的結果，在分類結果已知的情況下，再利用顧客的 RFM 指標進行預測，此時就必須估計區別函數，區別函數的數目決定於群體的數目(g)以及預測變數(m) 的數目，其規則如下:. 若g − 1 < m，則區別函數最多為g − 1個若g − 1 ≥ m，則區別函數最多為. m個. 在本篇研究中，採用多群判別，先利用 ANOVA 的 F 檢定，檢定單變量在g 個群的平均值是否存在顯著差異，意即檢定𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑔 ，若拒絕虛無假說代表變數有判別的能力，接著便能評估判別函數。假設判別函數為: 𝑍1 = 𝑊11 𝑋1 + 𝑊12 𝑋2 + ⋯ + 𝑊1𝑚 𝑋𝑚. 其中𝑊𝑖𝑗 為第j個變數在第i個判別函數的權重，而判別函數之權重的估計則要使:. 24.

(31) λ1 =. 𝑍1 的組間平方和𝑆𝑆𝑏 𝑍1 的組內平方和𝑆𝑆𝑤. 為最大，其餘以此類推。. 最後就能對資料進行分類，以推導之判別函數將空間分割成g個互斥的區域，接著就能將觀察值歸到該群。. 25.

(32) 第四章實證分析本章一共分為三個部分，第一部分將介紹資料處理的過程，本研究在此清楚的將各個處理的步驟以及原因呈現，並且整理出最後分析的資料檔。第二部分將檢視整理後的資料型態以及敘述統計，並對於資料進行調整。第三部分將正式進入數據分析的步驟，順序分別為集群分析以及後續建模。. 第一節資料前處理在此小節中，從資料檔選出要進行分析的變數，並對於資料進行清理，最後從中清理出 371764 筆欲分析的資料，總共是 4220 位顧客在該年度所產生的 17136 筆交易，以下將記錄資料清理以及新增變數的過程。. 一、變數篩選進行 RFM 分析所需要之三個指標:最近一次消費(R)、消費頻率(F)以及消費金額(M)，無法直接觀察而得，必須由原始變數轉換而來，因此需根據指標挑選適合變數。 (1)最近一次消費:此指標指的是最近一次消費日與選定分析日之間隔天數，與時間相關的變數，在此資料檔中便是「交易日期」。 (2)消費頻率:此指標指的是顧客來店消費的次數，可以利用不同消費者所持有之發票數量，計算消費次數，因此從資料檔中選擇「顧客 ID」以及「發票號碼」。 (3)消費金額:此指標指的是顧客該年度在商店中消費的總金額，而各項商品的收入必須由商品的單價及售出的數量計算而得，因此從資料檔中選擇「單 26.

(33) 價」及「數量」。綜合以上之條件，本研究將從原始資料檔中選擇「發票號碼」、「產品編號」、「數量」、「交易日期」、「單價」與「顧客編號」六個變數以進行後續的分析。. 二、資料清理本階段的目的在於，將原始資料中，將有遺漏值或是取消交易的資料進行清理。藉由以下三個步驟，將原始的 541909 筆資料以顧客和交易為依據整理後，資料檔中一共有 4220 位顧客所產生之 17136 筆交易，總共 371764 筆資料。. (1) 發票號碼之處理在原始資料中一共有 541909 筆消費紀錄，每個發票號碼則代表一次交易，每筆交易可能含有數筆不同的消費紀錄，而不同的消費紀錄代表的則是不同的商品，以發票號碼 536366 為例，此筆交易總共消費了兩個商品，其顯示方式如表 4-1: 表 4-1 發票 536366 中所有商品發票號碼. 產品描述. 數量. 交易日期. 單價. 顧客 ID. 536366. HAND WARMER UNION JACK. 6. 01DEC2010. 1.85. 17850. 536366. HAND WARMER RED POLKA DOT. 6. 01DEC2010. 1.85. 17850. 資料來源:本研究整理. 經過整合消費紀錄後，發現在此資料中總共有 25900 筆不同的發票號碼也就是交易次數，其中分為交易成功以及交易取消的紀錄，分別為 22061 筆成功以及 3839 筆交易取消的紀錄，本研究將選取交易成功的紀錄來進行後續分析。. 27.

(34) (2)顧客 ID 之處理經過第一部份針對發票號碼的處理之後，總共剩下532618筆消費紀錄，一共22061筆交易。接著本研究將在剩下的資料中，針對顧客之 ID 進行處理，因為 RFM 分析是一種針對顧客分析的模型，因此將以顧客的 ID 作為分析的依據。在 532618 筆消費紀錄中，一共有134694筆資料沒有記錄顧客的 ID，而這些遺漏值由於無法辨認是哪個顧客，所以沒有辦法進行補值，本研究予以刪除。此時欲分析的資料檔共剩下 397924 筆消費紀錄，進一步對 397924 筆消費紀錄分析之後，發現交易紀錄由 4339 位顧客所組成，這些顧客將成為後續 RFM 分析之重要基礎。. (3)交易時間之處理資料檔所涵蓋之時間為 2010 年 12 月 1 日至 2011 年 12 月 9 日，而本研究所設定之分析時間為 2011 年，因此將 2010 年的資料刪除後，資料檔剩餘 371764 筆消費紀錄。經過以上三個資料清理的步驟之後，研究所需之資料已呈現一個大致的雛形，此時總共還剩下 17136 筆交易，而篩選過後的顧客總共還剩 4220 位，接下來將進入變數轉換的步驟。. 三、變數轉換與新增到目前為止，本研究所需 RFM 分析之資料檔尚未整理完成，必須從資料清理步驟中所清理出的資料檔再進一步生成 R、F、M 三個變數。. 28.

(35) (1)生成新變數-收入 RFM 分析中所需的消費金額，指的就是顧客在一段時間內於企業中消費的總金額，而在生成消費金額前，必須先計算出每筆訂單所帶來的收入。接著將不同訂單之收入依照不同顧客 ID 加總，最後才能得到各個顧客所累積的消費金額。首先本研究將原始之變數「單價」與「數量」相乘，得出新的變數為「收入」，代表每筆交易資料所賺取的收入，如下表 4-2 所示:. 表 4-2 顧客 12348 之所有交易顧客 ID. 發票號碼. 交易日期. 單價. 數量. 收入. 12348. 548955. 05APR2011. 1.25. 72. 90. 12348. 548955. 05APR2011. 1.25. 96. 120. 12348. 548955. 05APR2011. 1.25. 80. 100. 12348. 548955. 05APR2011. 40. 1. 40. 12348. 548955. 05APR2011. 0.85. 20. 17. 12348. 568172. 25SEP2011. 1.25. 96. 120. 12348. 568172. 25SEP2011. 1.25. 120. 150. 12348. 568172. 25SEP2011. 40. 1. 40. 資料來源:本研究整理. 以表 4-2 為例，顧客 12348 在此商店共進行了兩筆交易，發票號碼分別為 548955 以及 568172，兩次交易分別買了五樣商品以及三樣商品，每一樣商品所獲得的收入，由每樣商品的單價與售出之數量相乘而得，後續將由此變數再延伸出「消費金額」。. 29.

(36) (2)生成新變數-消費金額計算出各項商品所獲得的收入之後，接下來便需要將這些收入加總，最後得到每個顧客之消費金額。在此階段，首先利用 SAS EG 的查詢產生器，以發票號碼為分組依據，將前一步驟中各項商品的收入加總，經過此步驟之後，其結果以下表所示: 表 4-3 整合顧客 12348 之交易收入顧客 ID. 發票號碼. 交易日期. 每筆交易收入. 12348. 548955. 05APR2011. 367. 12348. 568172. 25SEP2011. 310. 資料來源:本研究整理. 以表 4-3 為例，顧客12348有兩筆交易分別為548955以及568172，經過加總之後，兩筆交易的收入分別為367元以及310元。由此可知，每位顧客在此商店可能都會有數筆不等的交易，而要得到顧客的消費金額的最後一個步驟則是，把每個顧客的交易收入整合成為一筆紀錄，此筆紀錄就是 RFM 分析所需的消費金額，在此發現有一位顧客之消費金額為零，因此資料一共剩下 4219 位顧客，結果如下表 4-4 所示:. 表 4-4 生成消費金額顧客 ID. 發票號碼. 交易日期. 消費金額. 12346. 548955. 05APR2011. 77183.6. 12347. 549222. 07APR2011. 3598.21. 12348. 568172. 25SEP2011. 904.44. 資料來源:本研究整理. 30.

(37) (3)生成新變數-消費頻率在前一步驟計算消費金額時可以發現，4219 位顧客總共消費了 17136 次，而消費頻率代表的就是顧客在一段時間內消費的次數，因此可以藉由計算每一個顧客所持有不同發票個數來得到消費頻率，結果如下表 4-5 所示:. 表 4-5 顧客 12348 之三筆交易顧客 ID. 發票號碼. 交易日期. 每筆交易收入. 12348. 548955. 05APR2011. 367. 12348. 568172. 25SEP2011. 310. 12348. 541998. 25JAN2011. 227.44. 資料來源:本研究整理. 以表 4-5 為例，顧客 12348 在此資料檔中，一共有三筆交易，因此其消費頻率為 3，透過上述方法，最後就能得到每一位顧客之消費頻率，各顧客之消費頻率如下表所示:. 表 4-6 生成消費頻率顧客 ID. 交易日期. 12346. 05APR2011. 12347. 07APR2011. 3598.21. 6. 12348. 25SEP2011. 904.44. 3. 消費金額 77183.6. 資料來源:本研究整理. 31. 消費頻率 1.

(38) (4)生成新變數-最近一次消費最近一次消費代表的是，顧客最近一次來店消費與選定分析日之間隔天數，間隔天數越小表示該名顧客與企業較密切，其計算方式為利用 SAS 之函式 DATDIF 計算出顧客交易日期與選定分析日之間隔天數，本研究選定該年度的最後一天:2011/12/31 為分析日，其計算結果如下:. 表 4-7 顧客 12348 之交易間隔天數顧客 ID. 交易日期. 間隔天數. 12348. 25SEP2011. 97. 12348. 05APR2011. 270. 12348. 25JAN2011. 340. 資料來源:本研究整理. 如上表所示，間隔天數越小表示前一次消費的時間越近，而每位顧客交易之最小間隔天數即是 RFM 分析中的最近一次消費。經過最後這一個步驟，RFM 分析中的三個變數已經全數求得，下表 4-8 為節錄自資料檔中，前六位顧客之 RFM 數值大小:. 表 4-8 前六位顧客之 RFM 指標顧客 ID. 最近一次消費. 消費頻率. 消費金額. 12346. 347. 1. 77183.60. 12347. 24. 6. 3598.21. 12348. 97. 3. 904.44. 12349. 40. 1. 1757.55. 12350. 332. 1. 334.40. 12352. 58. 8. 2506.04. 資料來源:本研究整理. 32.

(39) 第二節 RFM 指標敘述統計經過資料前處理之後，原始的零售資料檔已經整理成 4219 位顧客 RFM 指標之資料。而敘述統計的目的在於將資料經過整理之後，透過敘述統計描述事實，以下為 RFM 資料檔之敘述統計:. 表 4-9 RFM 敘述統計變數. 平均值. 標準差. 最小值. 最大值. 最近一次消費(天). 106.33. 90.08. 22. 361. 消費頻率(次). 4.06. 7.11. 1. 188. 消費金額(元). 1975.99. 8669.60. 3.75. 271614.14. N=4219 資料來源:本研究整理. 從敘述性統計中可以了解，顧客平均在 106 天前進行最近一次消費，每位顧客平均會消費四次，平均消費的金額為 1975.99 元。三個變數的尺度相差極大，而且皆有離群值，其中以消費金額離群值最多，離群值會對於後續的集群分析造成影響，因此在此階段剃除資料內的離群值。根據第三與第一四分位數加減 1.5 倍四分位距後，將大於上界與小於下界的離群值剔除，經過這一個步驟之後，一共還剩下 3508 筆資料。除了離群值的問題之外，「最近一次消費」這個變數隨著數值愈大，對於企業的貢獻愈小，與另外兩個變數不同，可能會造成判讀上較為不易。所以在此階段將「最近一次消費」同取負號，進而達成三個變數判讀的方向一致，經過兩個步驟的調整之後，三個變數的敘述統計結果如下:. 33.

(40) 表 4-10 刪除離群值之 RFM 敘述統計變數. 平均值. 標準差. 最小值. 最大值. −105.04. 80.14. −316. −22. 消費頻率(次). 2.57. 1.80. 1. 8. 消費金額(元). 826.73. 749.75. 3.75. 3567.14. 最近一次消費(天). N=3508 資料來源:本研究整理. 刪除離群值之後，「最近一次消費」的平均值為-105.04，表示顧客平均在 105 天前消費，最近一次消費的顧客在 22 天前消費，而有顧客在 316 天前消費後就沒有再消費過了；「消費頻率」的平均值為 2.57，表示每位顧客平均於企業消費 2.57 次，最頻繁消費的顧客在此年度於企業消費了 8 次；「消費金額」的平均值為 826.73，表示顧客的平均消費金額，值得一提的是，經過刪除離群值之後，消費金額的標準差由 8669.6 下降為 749.75，表示「消費金額」的差異已經不那麼大了。再來，本研究將三個指標依照區間進行分類，如表 4-11 所示，可以更了解顧客的樣貌，由下列的三張表可以發現，在所有顧客中，有將近一半的人最近一次消費的時間是在一個月至三個月內，而僅有約 10%的顧客層在一個月以內消費；從消費頻率來看，有四分之一的顧客於店內消費的次數高於四次，除此之外有約 39%的顧客於此年度僅消費一次；消費金額方面，金額在 1000 元下的顧客佔了約 70%，而消費超過 1000 元的顧客則占了 30%。對於顧客資料有更進一步的了解之後，接下來將進入下一小節的集群分析。. 34.

(41) 表 4-11 RFM 三指標之人數比例分布最近一次消費(Recency). 人數占比. 一個月以內. 10.78%. 一個月至三個月. 47.78%. 三個月至半年. 21.75%. 半年至一年. 19.69%. 總和. 100%. 消費頻率(Frequency). 人數占比. 1. 38.45%. 2. 22.32%. 3. 13.8%. 4 以上. 25.43%. 總和. 100%. 消費金額(Monetary). 人數占比. 300 以內. 26.65%. 300~500. 18.7%. 500~1000. 24.86%. 1000 以上. 29.79%. 總和. 100%. 資料來源:本研究整理. 35.

(42) 第三節集群分析在開始本小節的分群之前，仍有一件事情需要處理，三個變數之間的尺度差異大，因此需要先對三個變數進行標準化，接著才開始進行集群分析。集群分析分為階層式以及非階層式的集群分析，本研究將利用階層式的集群分析先決定分群的數目，再使用非階層式集群的 K 值法進行更精準的分群。. 一、標準化即使剔除了離群值，「消費金額」仍然存在著尺度較大的問題，尤其明顯的與「消費頻率」相差較多，因此進行集群分析前，先針對變數進行標準化，藉此排除資料因為尺度不同可能造成的影響。. 二、階層式集群分析首先利用 R 之中的套件 rattle 進行階層式集群分析，並且畫出樹狀圖，其中計算距離的方式為利用歐基里得直線距離，並且使用華德法為分群的依據，以下為樹狀圖:. 圖 4-1 階層式集群分析樹狀圖 36.

(43) 同時在 SAS EG 也進行一次階層式的集群分析，計算距離的方式以及分群的依據與 rattle 中的方式一樣，此階段的目的是根據輸出的報表與樹狀圖比對後決定分群數目，下表 4-12 為 SAS EG 輸出之報表:. 表 4-12 階層式集群分析報表集群數目. 𝑅2. 連結的集群. 6. CL25. CL12. 0.77. 5. CL9. CL7. 0.75. 4. CL6. CL11. 0.71. 3. CL5. CL13. 0.63. 2. CL3. CL8. 0.39. 1. CL2. CL4. 0. 資料來源:本研究整理. 觀察報表之後可以發現，隨著集群數目愈多，𝑅 2 也會跟著增加，然而當集群超過 4 群之後，𝑅 2 已經沒有明顯的增長，因此本研究認為分為 4 群應該是較為適當的分群數目。. 三、非階層式集群分析經過前一階段的輔助後，本研究將分群群數訂為 4 群，接著利用非階層式的 K 值法進行第二階段的分群，本階段將使用 SAS EG 進行分群，以下為分群的結果:. 37.

(44) 表 4-13 四個群組的 RFM 集群. 人數. 最近一次消費平均值. 消費頻率平均值. 消費金額平均值. 1. 1411. −69.63. 1.55. 415.59. 2. 838. −67.24. 3.70. 1168.37. 3. 441. −54.83. 5.82. 2309.71. 4. 818. −231.95. 1.41. 386.93. 資料來源:本研究整理. 圖 4-2 資料的分布資料來源:本研究整理. 四、分群結果由表 4-13 觀察分類的結果，首先由人數來觀察，第一群的顧客人數最多，其次是第二與第四群的顧客，最少顧客的是第三群。接著從三個指標來觀察，最近一次消費的分類結果較近，除了第四群顧客最近一次消費的天數遠大於其他顧客之外，另外三群的消費天數都較接近。其中以第三群顧客的天數最短，表示第三群的顧客在較短的時間內曾於店內消費，可以判斷這群客人較有可能再次回購；而第四群的顧客平均在 231 天前消費，明顯的遠高於另外三群顧客，可以判斷這群顧客很久以前消費過後便沒再回購。 38.

(45) 第二個是消費頻率的分類結果，第三群的顧客平均消費了 5.82 次，平均 2 個月就消費一次，消費的頻率遠高於其他三群。其次才是第二群的 3.7 次，第一與第四群平均僅消費 1.5 次，表示這兩群顧客甚少於店內消費，因此不是企業的主力客群。最後是消費金額的分類結果，同樣的第三群顧客的消費金額遠高於另外三群，平均消費高達 2309 元，表示這群顧客平均的購買力是所有顧客中最高的；第二群的顧客平均消費金額則是 1168 元，雖然是第三群的一半，但值得一提的是，因為第二群顧客的人數為第三群的兩倍。相比之下發現，在消費的總金額方面，兩群顧客對於企業的貢獻其實是差不多的。根據以上對於分類結果的觀察，本研究在此為四個群命名並給予意義。首先是第一群，這群顧客的人數最多，最近曾於店內消費，但消費的次數與消費金額並不大，表示這群顧客較有可能是新的顧客，對於企業尚未建立信心，企業可以適時的給予優惠讓這群顧客回到店內消費，因此本研究將這群顧客命名為新進顧客群。第二群顧客最近一次消費的平均天數與第一群接近，表示這群顧客與第一群於店內消費的時間接近，但是消費頻率是第一群的兩倍，消費金額約是第一群的三倍，表示這群顧客雖然上次消費的時間與第一群差不多，但是更常於店內消費，金額也更高，表示這群顧客比第一群顧客更為穩定，企業可以穩定的培養顧客的忠誠度，因此將其命名為機會顧客群。第三群顧客雖然人數最少，但是所有指標都是最好的，最常在店內消費，平均消費的金額也是最高的，因此本研究將其命名為忠誠顧客群。最後是第四群顧客，所有的指標皆是最差的，其中最近消費的天數在 231 天前，表示這群顧客已經很久沒有來店內消費了。可能是因為價格或是其他因素，導致企業沒辦法留住顧客，導致這群人就像睡著了一樣，必須執行適當的策略，才能將其喚醒，因此本研究將其命名為沉睡顧客群。. 39.

(46) 第四節建立預測模型顧客有許多種樣貌，前一節的集群分析就是為了在眾多顧客中找出不同型態的群體，然後將他們一一歸類。經過分析後，本研究將顧客分為四個群體。由於顧客的消費行為並非一成不變的，在顧客重新消費時對於他們進行預測可以幫助企業更了解顧客的變化。對顧客產生了新的標籤之後，就可以利用這些資料建立一個預測的模型。在此小節中，本研究利用決策樹以及判別分析建立預測模型，並且比較兩模型的預測率。. 一、決策樹分析本研究使用 R 中的 Rattle 進行決策樹的分析，而在 Rattle 中使用的的套件為 Rpart，使用的決策樹種為 CART。在建立模型前，先將資料以 70/30 的方式進行切割，70%為訓練資料，30%則用來進行測試，而進行分析時必須考慮到 CP 值的選擇，CP 值決定的是樹的複雜程度，CP 值愈小則樹的生長會愈複雜，預測愈精準，但可能會造成過度配適的問題，因此 CP 值必須適當挑選，本研究分別以預設的 CP=0.01，以及 CP=0.005、CP=0.05 進行生長，其中前兩個會使得決策樹過於複雜，因此本研究選擇以 CP=0.05 作為模型複雜度的基準，最終獲得的決策樹如下:. 40.

(47) 圖 4-3 決策樹結果資料來源:本研究整理. 41.

(48) 決策樹一共產生五條規則，其規則如下: (1)當消費金額大於等於 1205，消費頻率小於 5 次，則顧客為第二群。 (2)當消費金額大於等於 1205，消費頻率大於等於 5 次，則顧客為第三群。由此兩條規則可以發現，第二群與第三群的顧客僅需消費金額與消費頻率兩個變數就能分類出來，而且能夠以消費頻率最為區分兩個群組的依據，也與分群的結果相呼應，第二與第三群顧客對於企業貢獻的總和差不多，主要差異在於第三群平均消費接近的案群的兩倍。. (3)當消費金額小於 1205，最近一次消費天數小於 63 天，則顧客為第一群。 (4)當消費金額小於 1205，最近一次消費天數大於 63 天，消費頻率大於 2 次，且最近一次消費天數大於 126 天，則顧客為第四群。 (6) 當消費金額小於 1205，最近一次消費天數小於 63 天，且消費頻率小於 2 次，則顧客也為第四群。由這三條規則能夠發現，第一群顧客同樣能由消費金額與最近一次消費兩個變數分類出來，而第四群則擁有兩條規則，在此可以判斷決策樹模型對於第四群顧客有較豐富的規則可以解釋。. 42.

(49) 建立模型後，需要對模型進行評估，本研究使用的方式是混淆矩陣。此方式是機器學習中，用來評估分類方法的準確率的工具，使用方式是以訓練資料訓練模型後，再將模型套用在測試資料上。在此小節中，訓練資料為 70%，測試資料為 30%，其產生的混淆矩陣如下:. 表 4-14 決策樹混淆矩陣 1. 2. 3. 4. 錯誤率(%). 1. 1275. 130. 0. 5. 9.6. 2. 87. 639. 69. 43. 23.7. 3. 7. 66. 354. 14. 19.7. 4. 2. 0. 0. 816. 0.2. 實際. 預測. 資料來源:本研究整理. 根據混淆矩陣來判斷這個模型，主對角線就是預測正確的資料點，而評估模型的其中一個方式就是計算其準確率，在此模型中期整體的準確率約為 88%。然而仔細去看每個群組的分類錯誤率可以發現，決策樹模型在分類最有貢獻的前兩個群組時，錯誤率是遠高於其他兩組的。而第四組的錯誤率僅有 0.2%，因此決策樹在分類第四組的表現特別好，也正好能呼應決策樹的樹狀圖對於第四組有較多的描述。. 43.

(50) 二、判別分析本階段使用的是線性判別分析進行預測模型的建立，而使用判別分析前必須先針對資料進行檢定，確認變數間具有顯著差異。如以下表 4-4-2 所示，檢定三個變數的平均值之後，存在顯著的差異。. 表 4-15 群組平均值的相等性檢定 Wilks’Lambda(λ). F 檢定. 分子自由度. 分母自由度. 顯著性. 最近一次消費(R). 0.234. 3822.8. 3. 3504. . 000. 消費頻率(F). 0.270. 3151.7. 3. 3504. . 000. 消費金額(M). 0.257. 3376.8. 3. 3504. . 000. 資料來源:本研究整理. 檢定過後，即可進行下一步的分析，而本次判別分析一共產生出三條判別函數，如表 4-16 所示，第一條函數所能解釋的變異總共有 74.2%，第二條則有 25.6%，前兩條能解釋的變異即佔了 99.8%，第三條僅有 0.2%，而表 4-17 則可以知道，這三條函數皆是顯著的。這三條函數的係數如表 4-18 所示，以此三條函數將能為資料進行分類，將資料分為四群，而圖 4-4 的地域圖更能清楚的看出函數將資料分類的情況，以下為三條函數的形式: 𝑌1 = (−2.18) + 0.01 ∗ 𝑅 + 0.66 ∗ 𝐹 + 0.002 ∗ 𝑀 𝑌2 = 4.26 + 0.024 ∗ 𝑅 − 0.453 ∗ 𝐹 − 0.001 ∗ 𝑀 𝑌3 = (−0.546) − 0.001 ∗ 𝑅 + 0.74 ∗ 𝐹 − 0.002 ∗ 𝑀. 44.

(51) 表 4-16 特徵值函數. 特徵值. 解釋變異比例(%). 累積解釋比例(%). 相關性. 1. 6.97. 74.2. 74.2. 0.94. 2. 2.41. 25.6. 99.8. 0.84. 3. 0.02. 0.2. 100.0. 0.13. 資料來源:本研究整理. 表 4-17 函數顯著性檢定函數檢定. Wilks’Lamda(λ). 卡方檢定. 自由度. 顯著性. 1至3. . 036. 11627.817. 9. . 000. 2至3. . 289. 4354.799. 4. . 000. 3. . 982. 63.243. 1. . 000. 資料來源:本研究整理. 表 4-18 判別函數係數函數 1. 2. 3. R. 0.010. 0.024. −0.001. F. 0.660. −0.453. 0.740. M. 0.002. −0.001. −0.002. 常數. −2.180. 4.260. −0.546. 資料來源:本研究整理. 45.

(52) 圖 4-4 判別分析地域圖. 46.

(53) 同樣的，判別分析也需要透過混淆矩陣來判斷模型的好壞，表 4-19 為判別分析之混淆矩陣:. 表 4-19 判別分析混淆矩陣(%) 1. 2. 3. 4. 錯誤率(%). 1. 1395. 9. 0. 7. 1.1. 2. 2. 826. 9. 1. 1.4. 3. 0. 3. 438. 0. 0.6. 4. 16. 3. 0. 799. 2.3. 實際. 預測. 資料來源:本研究整理. 透過矩陣判斷模型之好壞，在此處同樣由計算準確度來進行評估，其整體的準確度為 98.59%。同樣的再去觀察各群組的分類錯誤率可以發現，在決策樹中有較差預測率的第二與第三群顧客，在此模型中的預測率得到了很好的改善，其中第三群的預測錯誤率僅有 0.6%。反而第四群的顧客在此預測率較差。描述過兩個模型之後，兩個模型有著不太一樣的地方，以模型整體的準確度來說，判別分析是最好的，整體模型的準確率高達 98%，決策樹的模型準確度其實也不差，仍有 88.13%，會造成判別分析預測率較好的原因可能是，判別分析使用的資訊較為豐富，使用主成分的方法將所有資訊都進入模型分析，屬於傳統的多變量方法。然而決策樹則是依據便樹的重要性逐一篩選，進而達到組內同質性較高的亂度最低的結果，雖然好懂卻也相對犧牲資訊。因此在數學上來說，判別分析用了所有的資訊進而達到預測率較好的情況。然而在各群組的預測錯誤率中，決策樹在預測第四組的準確率最好，判別分析則是在預測第三群的準確率最好，兩個模型可以說是各有應用的地方。. 47.

(54) 第五章結論與建議. 第一節研究發現本研究利用 RFM 分析結合資料採礦，產生一個對於顧客資料的應用架構，並且以更為清楚的描述。將最近一次消費(R)、消費頻率(F)以及消費金額(M)三個指標如何產生的過程鉅細靡遺的呈現，相較於最後分析的結果，更在乎的是資料前處理的過程。從選擇變數開始，到資料清理的過程，先將資料進行初步的整理後，才能利用這些資料將進一步生成研究所需的變數，最後將原本 541909 筆資料彙整成 3508 位顧客之 RFM 指標。後續分析方面，為了使企業能夠更了解自己的顧客，本研究以 RFM 指標作為分群依據，結合集群分析將顧客分類。最後將顧客分為四類，分別為大眾顧客群、穩定貢獻群、最有價值群與失聯顧客群，企業將能夠依照此種方法來評估不同群體，進一步執行決策。建立模型方面，企業必須隨時掌握顧客的改變，因此建立一個良好的模型，隨時預測顧客的動向，對於企業會是一件很有幫助的事。本研究以顧客的 RFM 指標作為變數，並分別以決策樹和判別分析進行建模。結果發現決策樹的準確度為88.13%，而判別分析的準確度為98.59%，單純以模型的準確度來做為判斷時，判別分析的準確度是遠高於決策樹的。如果單純追求準確度，判別分析會是一個不錯的選擇。但另一方面，雖然決策樹的準確度較低，決策樹能提供解釋的規則，因此解釋的能力會比判別分析來的好。. 48.

(55) 第二節研究結論本研究以二階段的集群分析將顧客進行了適當的分群，並且使用兩個方法對於顧客進行預測，進而達成了研究的兩個目的:確立二階段集群分析的程序以及檢視分群的效能。決策樹與判別分析兩個模型各有優缺點。決策樹能夠提供提供一個簡單易懂的法則，而且很好操作，因為不需要太多統計假設的前提，就可以知道變數間的重要性。儘管犧牲了一些準確率，但是換來了更多意義，能夠簡單的用其產生的規則對他人進行解釋。判別分析的優點則是，他採用了全部的資料，並且進行了精準的參數估計，因此他的準確率會較好，但是相較於決策樹來說，他的判別函數解釋不易。. 第三節研究限制與建議本研究所使用之資料來自網路上之公開資料平台，其來源為零售業者之銷售資料。雖然資料量很大，但是有一部分資料為非會員之消費紀錄，因此在 RFM 模型中無法被列入計算，一部分的資料也因此被浪費掉。而受限於資料中，並沒有其他的人口統計或心理特徵的變數，所以未能將 RFM 模型更加擴大，以結合其他變數進行分析。此外本研究所著重的重點在於顧客的 RFM 模型，包含 RFM 模型的建立到後續結合資料採礦方法進行顧客的預測，但沒有針對分群後的顧客提供進一步的分析。建議後續的研究者可以進一步利用本研究建構的分群方法以及預測模型，將顧客分群之後再透過關聯規則分析去分析不同群組內的顧客之購買模式，研究出適合的商品組合為企業帶來更大的利益。在顧客關係管理中，衡量顧客的價值其中一個方法就是使用 RFM 模型，但是本研究在建置 RFM 的模型時，並未考量到要將顧客價值納入，無法計算顧客的終身價值，因此後續研究者也能朝向這個方向繼續研究。最後一個方向則是，後續研究者能藉由新舊方法的結合，去證明傳統 49.

(56) 五等分的方法所衡量出來的好顧客，在與結合集群分析的新 RFM 所得到的好顧客比較過後，這兩群人是否會是同一群人？. 50.