• 沒有找到結果。

第四章 實證分析

第一節 資料前處理

在此小節中,從資料檔選出要進行分析的變數,並對於資料進行清理,最後 從中清理出 371764 筆欲分析的資料,總共是 4220 位顧客在該年度所產生的 17136 筆交易,以下將記錄資料清理以及新增變數的過程。

一、變數篩選

進行 RFM 分析所需要之三個指標:最近一次消費(R)、消費頻率(F)以及消 費金額(M),無法直接觀察而得,必須由原始變數轉換而來,因此需根據指標挑 選適合變數。

(1)最近一次消費:此指標指的是最近一次消費日與選定分析日之間隔天數,

與時間相關的變數,在此資料檔中便是「交易日期」。

(2)消費頻率:此指標指的是顧客來店消費的次數,可以利用不同消費者所持 有之發票數量,計算消費次數,因此從資料檔中選擇「顧客ID」以及「發票 號碼」。

(3)消費金額:此指標指的是顧客該年度在商店中消費的總金額,而各項商品 的收入必須由商品的單價及售出的數量計算而得,因此從資料檔中選擇「單

27

價」及「數量」。

綜合以上之條件,本研究將從原始資料檔中選擇「發票號碼」、「產品編號」、「數 量」、「交易日期」、「單價」與「顧客編號」六個變數以進行後續的分析。

二、資料清理

本階段的目的在於,將原始資料中,將有遺漏值或是取消交易的資料進行清 理。藉由以下三個步驟,將原始的541909 筆資料以顧客和交易為依據整理後,

資料檔中一共有4220 位顧客所產生之 17136 筆交易,總共 371764 筆資料。

(1) 發票號碼之處理

在原始資料中一共有541909 筆消費紀錄,每個發票號碼則代表一次交易,

每筆交易可能含有數筆不同的消費紀錄,而不同的消費紀錄代表的則是不同的商 品,以發票號碼536366 為例,此筆交易總共消費了兩個商品,其顯示方式如表 4-1:

表 4-1 發票 536366 中所有商品

發票號碼 產品描述 數量 交易日期 單價 顧客ID

536366 HAND WARMER UNION JACK 6 01DEC2010 1.85 17850 536366 HAND WARMER RED POLKA DOT 6 01DEC2010 1.85 17850 資料來源:本研究整理

經過整合消費紀錄後,發現在此資料中總共有25900 筆不同的發票號碼也就 是交易次數,其中分為交易成功以及交易取消的紀錄,分別為22061 筆成功以及 3839 筆交易取消的紀錄,本研究將選取交易成功的紀錄來進行後續分析。

28

(2)顧客 ID 之處理

經過第一部份針對發票號碼的處理之後,總共剩下532618筆消費紀錄,一 共22061筆交易。接著本研究將在剩下的資料中,針對顧客之 ID 進行處理,因 為RFM 分析是一種針對顧客分析的模型,因此將以顧客的 ID 作為分析的依據。

在532618 筆消費紀錄中,一共有134694筆資料沒有記錄顧客的 ID,而這些遺漏 值由於無法辨認是哪個顧客,所以沒有辦法進行補值,本研究予以刪除。此時欲 分析的資料檔共剩下 397924 筆消費紀錄,進一步對 397924 筆消費紀錄分析之 後,發現交易紀錄由4339 位顧客所組成,這些顧客將成為後續 RFM 分析之重要 基礎。

(3)交易時間之處理

資料檔所涵蓋之時間為2010 年 12 月 1 日至 2011 年 12 月 9 日,而本研究所 設定之分析時間為 2011 年,因此將 2010 年的資料刪除後,資料檔剩餘 371764 筆消費紀錄。經過以上三個資料清理的步驟之後,研究所需之資料已呈現一個大 致的雛形,此時總共還剩下17136 筆交易,而篩選過後的顧客總共還剩 4220 位,

接下來將進入變數轉換的步驟。

三、變數轉換與新增

到目前為止,本研究所需RFM 分析之資料檔尚未整理完成,必須從資料清 理步驟中所清理出的資料檔再進一步生成R、F、M 三個變數。

29

(1)生成新變數-收入

RFM 分析中所需的消費金額,指的就是顧客在一段時間內於企業中消費的 總金額,而在生成消費金額前,必須先計算出每筆訂單所帶來的收入。接著將不 同訂單之收入依照不同顧客ID 加總,最後才能得到各個顧客所累積的消費金額。

首先本研究將原始之變數「單價」與「數量」相乘,得出新的變數為「收入」, 代表每筆交易資料所賺取的收入,如下表4-2 所示:

表 4-2 顧客 12348 之所有交易

顧客ID 發票號碼 交易日期 單價 數量 收入

12348 548955 05APR2011 1.25 72 90 12348 548955 05APR2011 1.25 96 120 12348 548955 05APR2011 1.25 80 100 12348 548955 05APR2011 40 1 40 12348 548955 05APR2011 0.85 20 17 12348 568172 25SEP2011 1.25 96 120

12348 568172 25SEP2011 1.25 120 150

12348 568172 25SEP2011 40 1 40 資料來源:本研究整理

以表 4-2 為例,顧客 12348 在此商店共進行了兩筆交易,發票號碼分別為 548955 以及 568172,兩次交易分別買了五樣商品以及三樣商品,每一樣商品所 獲得的收入,由每樣商品的單價與售出之數量相乘而得,後續將由此變數再延伸 出「消費金額」。

30

(2)生成新變數-消費金額

計算出各項商品所獲得的收入之後,接下來便需要將這些收入加總,最後得 到每個顧客之消費金額。在此階段,首先利用SAS EG 的查詢產生器,以發票號 碼為分組依據,將前一步驟中各項商品的收入加總,經過此步驟之後,其結果以 下表所示:

表 4-3 整合顧客 12348 之交易收入

顧客ID 發票號碼 交易日期 每筆交易收入

12348 548955 05APR2011 367

12348 568172 25SEP2011 310

資料來源:本研究整理

以表 4-3 為例,顧客12348有兩筆交易分別為548955以及568172,經過加 總之後,兩筆交易的收入分別為367元以及310元。由此可知,每位顧客在此商店 可能都會有數筆不等的交易,而要得到顧客的消費金額的最後一個步驟則是,把 每個顧客的交易收入整合成為一筆紀錄,此筆紀錄就是RFM 分析所需的消費金 額,在此發現有一位顧客之消費金額為零,因此資料一共剩下 4219 位顧客,結 果如下表4-4 所示:

表 4-4 生成消費金額

顧客ID 發票號碼 交易日期 消費金額

12346 548955 05APR2011 77183.6 12347 549222 07APR2011 3598.21

12348 568172 25SEP2011 904.44

資料來源:本研究整理

31

(3)生成新變數-消費頻率

在前一步驟計算消費金額時可以發現,4219 位顧客總共消費了 17136 次,

而消費頻率代表的就是顧客在一段時間內消費的次數,因此可以藉由計算每一個 顧客所持有不同發票個數來得到消費頻率,結果如下表4-5 所示:

表 4-5 顧客 12348 之三筆交易

顧客ID 發票號碼 交易日期 每筆交易收入

12348 548955 05APR2011 367

12348 568172 25SEP2011 310

12348 541998 25JAN2011 227.44

資料來源:本研究整理

以表4-5 為例,顧客 12348 在此資料檔中,一共有三筆交易,因此其消費頻 率為3,透過上述方法,最後就能得到每一位顧客之消費頻率,各顧客之消費頻 率如下表所示:

表 4-6 生成消費頻率

顧客ID 交易日期 消費金額 消費頻率

12346 05APR2011 77183.6 1

12347 07APR2011 3598.21 6

12348 25SEP2011 904.44 3

資料來源:本研究整理

32

33

第二節 RFM 指標敘述統計

經過資料前處理之後,原始的零售資料檔已經整理成 4219 位顧客 RFM 指 標之資料。而敘述統計的目的在於將資料經過整理之後,透過敘述統計描述事實,

以下為RFM 資料檔之敘述統計:

表 4-9 RFM 敘述統計

變數 平均值 標準差 最小值 最大值

最近一次消費(天) 106.33 90.08 22 361

消費頻率(次) 4.06 7.11 1 188 消費金額(元) 1975.99 8669.60 3.75 271614.14 N=4219

資料來源:本研究整理

從敘述性統計中可以了解,顧客平均在106 天前進行最近一次消費,每位 顧客平均會消費四次,平均消費的金額為1975.99 元。三個變數的尺度相差極 大,而且皆有離群值,其中以消費金額離群值最多,離群值會對於後續的集群 分析造成影響,因此在此階段剃除資料內的離群值。根據第三與第一四分位數 加減1.5 倍四分位距後,將大於上界與小於下界的離群值剔除,經過這一個步 驟之後,一共還剩下3508 筆資料。除了離群值的問題之外,「最近一次消費」

這個變數隨著數值愈大,對於企業的貢獻愈小,與另外兩個變數不同,可能會 造成判讀上較為不易。所以在此階段將「最近一次消費」同取負號,進而達成 三個變數判讀的方向一致,經過兩個步驟的調整之後,三個變數的敘述統計結 果如下:

34

表 4-10 刪除離群值之 RFM 敘述統計

變數 平均值 標準差 最小值 最大值

最近一次消費(天) −105.04 80.14 −316 −22 消費頻率(次) 2.57 1.80 1 8 消費金額(元) 826.73 749.75 3.75 3567.14 N=3508

資料來源:本研究整理

刪除離群值之後,「最近一次消費」的平均值為-105.04,表示顧客平均在 105 天前消費,最近一次消費的顧客在 22 天前消費,而有顧客在 316 天前消費 後就沒有再消費過了;「消費頻率」的平均值為2.57,表示每位顧客平均於企業 消費2.57 次,最頻繁消費的顧客在此年度於企業消費了 8 次;「消費金額」的 平均值為826.73,表示顧客的平均消費金額,值得一提的是,經過刪除離群值 之後,消費金額的標準差由8669.6 下降為 749.75,表示「消費金額」的差異已 經不那麼大了。

再來,本研究將三個指標依照區間進行分類,如表 4-11 所示,可以更了解 顧客的樣貌,由下列的三張表可以發現,在所有顧客中,有將近一半的人最近 一次消費的時間是在一個月至三個月內,而僅有約10%的顧客層在一個月以內 消費;從消費頻率來看,有四分之一的顧客於店內消費的次數高於四次,除此 之外有約39%的顧客於此年度僅消費一次;消費金額方面,金額在 1000 元下的 顧客佔了約70%,而消費超過 1000 元的顧客則占了 30%。對於顧客資料有更 進一步的了解之後,接下來將進入下一小節的集群分析。

35

表 4-11 RFM 三指標之人數比例分布

最近一次消費(Recency) 人數占比

一個月以內 10.78%

一個月至三個月 47.78%

三個月至半年 21.75%

半年至一年 19.69%

總和 100%

消費頻率(Frequency) 人數占比

1 38.45%

2 22.32%

3 13.8%

4 以上 25.43%

總和 100%

消費金額(Monetary) 人數占比

300 以內 26.65%

300~500 18.7%

500~1000 24.86%

1000 以上 29.79%

總和 100%

資料來源:本研究整理

36

第三節 集群分析

在開始本小節的分群之前,仍有一件事情需要處理,三個變數之間的尺度差 異大,因此需要先對三個變數進行標準化,接著才開始進行集群分析。集群分析 分為階層式以及非階層式的集群分析,本研究將利用階層式的集群分析先決定分 群的數目,再使用非階層式集群的K 值法進行更精準的分群。

一、標準化

即使剔除了離群值,「消費金額」仍然存在著尺度較大的問題,尤其明顯的 與「消費頻率」相差較多,因此進行集群分析前,先針對變數進行標準化,藉此 排除資料因為尺度不同可能造成的影響。

二、階層式集群分析

首先利用R 之中的套件 rattle 進行階層式集群分析,並且畫出樹狀圖,其中 計算距離的方式為利用歐基里得直線距離,並且使用華德法為分群的依據,以下 為樹狀圖:

圖 4-1 階層式集群分析樹狀圖

37

同時在 SAS EG 也進行一次階層式的集群分析,計算距離的方式以及分群

同時在 SAS EG 也進行一次階層式的集群分析,計算距離的方式以及分群

相關文件