分析方法

第三章研究方法

第三節分析方法

本小節將介紹此次研究所使用之軟體，以及使用的方法，並且說明選擇的原因。

一、分析工具

本研究使用SAS EG 以及 R 來做為分析的工具。

二、分析方法 (一) RFM 分析

從處理好的資料集中，根據第二章所描述之RFM 的定義，以最近一次消費與選定的分析日之間隔天數為R 值，以各個消費者在 2011 年於企業消費的次數為F 值，以消費者在該年度於企業所消費的總金額為 M 值。有別於以往 RFM 將三個指標分為五個等分，給予消費者111 至 555 的分數，本篇研究將 RFM 的原始數值分別標準化，並且使用標準化後的分數進行分群，目的是為了減少變數間尺度相差較大的問題。。

(二) 集群分析

集群分析是一種將資料分為不同群體的方法，利用資料的相似度分群，使得不同群體之間差異程度大，而同群體內的差異小。集群分析可以用來將顧客分群，

用途相當廣泛，而進行集群分析主要有四個階段:

(1)資料準備與變數選取:

根據分析的問題以及資料的類型，選擇適當的分群演算法，然後從資料集裡面，選出要分析的變數做為分群的特徵。

(2)計算相似度:

選取完演算法後，開始進行分群，而怎麼決定群組的依據就是計算

階層式集群分析可以分為凝聚(agglomerative)與分裂(divisive)兩種方法，通常凝聚的方法會比分裂更常被使用(Kantardzic，2003)，因

2.非階層式集群分析

先選擇數個不同的起始值並賦予一個集群，接著在各階段分群過程中，將原有的集群予以打散，並重新形成新的集群，概念就是將所有的資料點依據選取的分組特徵，分到指定的 K 個群組，而且每個資料點只會分到一個集群，而在這個方法中，衡量相似度的依據則是以平方誤差為指標，當每群平方誤差達最小時，再考慮 K 個集群，總變異為最小，分群便會停止。

一般來說常見的方法為 K-means 法，其判斷準則為每個資料點與集群之中心(平均值)的變異平方和最小，則該中心為集群的中心，其公式如下:

E = ∑ ∑(𝑋_𝑖𝑙− 𝑚_𝑙)^𝑇(𝑋_𝑖𝑙− 𝑚_𝑙)

𝑛_𝑘

𝑖=1 𝐾

𝑙=1

其中，𝑚_𝑙為集群𝐶_𝑙的平均值，E 為總距離變異平方。以下圖 3-1 為K-means 法分群的過程示意圖:

圖 3-2 分群過程示意圖

註:(a)初始隨機給定兩群心，將資料點分成兩群(b)重新計算集群的中心(c)集群不再更動

資料來源:Wil (2016)

然而，群心的選擇會造成後續分群結果不同，如果初始的中心資料點不夠分散，將會造成較差的結果(簡禎富、許嘉裕，2018)。K-means 法需要事先決

(1)資訊增益(Information Gain):

資訊的增量為根據不同訊息的機率，衡量不同條件下的資訊量。若資料

表示分類的訊息雜亂度愈高。

(2)Gini 係數(Gini Index):

Gini 係數則是為了衡量集合中所有類別的不純度，如下列公式所示: (3)資訊增益比(Gain Ratio):

前面所提到的資訊增益會選擇能降低資訊雜亂度的變數，但亂度只考

λ ₁ = ^𝑍

¹^{的組間平方和}

^𝑆𝑆

^𝑏

𝑍

₁的組內平方和

𝑆𝑆

_𝑤 為最大，其餘以此類推。

最後就能對資料進行分類，以推導之判別函數將空間分割成g個互斥的區域，接著就能將觀察值歸到該群。

在文檔中資料探勘應用之研究:零售業的RFM分析架構 (頁 24-32)

第三章 研究方法

第三節 分析方法

一、 分析工具

二、 分析方法 (一) RFM 分析