• 沒有找到結果。

第三章 研究方法

第三節 分析方法

本小節將介紹此次研究所使用之軟體,以及使用的方法,並且說明選擇的原 因。

一、 分析工具

本研究使用SAS EG 以及 R 來做為分析的工具。

二、 分析方法 (一) RFM 分析

從處理好的資料集中,根據第二章所描述之RFM 的定義,以最近一次消費 與選定的分析日之間隔天數為R 值,以各個消費者在 2011 年於企業消費的次數 為F 值,以消費者在該年度於企業所消費的總金額為 M 值。有別於以往 RFM 將 三個指標分為五個等分,給予消費者111 至 555 的分數,本篇研究將 RFM 的原 始數值分別標準化,並且使用標準化後的分數進行分群,目的是為了減少變數間 尺度相差較大的問題。。

(二) 集群分析

集群分析是一種將資料分為不同群體的方法,利用資料的相似度分群,使得 不同群體之間差異程度大,而同群體內的差異小。集群分析可以用來將顧客分群,

用途相當廣泛,而進行集群分析主要有四個階段:

(1)資料準備與變數選取:

根據分析的問題以及資料的類型,選擇適當的分群演算法,然後從 資料集裡面,選出要分析的變數做為分群的特徵。

(2)計算相似度:

選取完演算法後,開始進行分群,而怎麼決定群組的依據就是計算

19

20

階層式集群分析可以分為凝聚(agglomerative)與分裂(divisive)兩 種方法,通常凝聚的方法會比分裂更常被使用(Kantardzic,2003),因

21

2.非階層式集群分析

先選擇數個不同的起始值並賦予一個集群,接著在各階段分群過 程中,將原有的集群予以打散,並重新形成新的集群,概念就是將所有 的資料點依據選取的分組特徵,分到指定的 K 個群組,而且每個資料 點只會分到一個集群,而在這個方法中,衡量相似度的依據則是以平方 誤差為指標,當每群平方誤差達最小時,再考慮 K 個集群,總變異為 最小,分群便會停止。

一般來說常見的方法為 K-means 法,其判斷準則為每個資料點與 集群之中心(平均值)的變異平方和最小,則該中心為集群的中心,其公 式如下:

E = ∑ ∑(𝑋𝑖𝑙− 𝑚𝑙)𝑇(𝑋𝑖𝑙− 𝑚𝑙)

𝑛𝑘

𝑖=1 𝐾

𝑙=1

其中,𝑚𝑙為集群𝐶𝑙的平均值,E 為總距離變異平方。以下圖 3-1 為K-means 法分群的過程示意圖:

圖 3-2 分群過程示意圖

註:(a)初始隨機給定兩群心,將資料點分成兩群(b)重新計算集群的中心(c)集群不再更動

資料來源:Wil (2016)

然而,群心的選擇會造成後續分群結果不同,如果初始的中心資料點不夠 分散,將會造成較差的結果(簡禎富、許嘉裕,2018)。K-means 法需要事先決

22

(1)資訊增益(Information Gain):

資訊的增量為根據不同訊息的機率,衡量不同條件下的資訊量。若資料

23

表示分類的訊息雜亂度愈高。

(2)Gini 係數(Gini Index):

Gini 係數則是為了衡量集合中所有類別的不純度,如下列公式所示: (3)資訊增益比(Gain Ratio):

前面所提到的資訊增益會選擇能降低資訊雜亂度的變數,但亂度只考

24

25

λ 1 = 𝑍

1的組間平方和

𝑆𝑆

𝑏

𝑍

1的組內平方和

𝑆𝑆

𝑤 為最大,其餘以此類推。

最後就能對資料進行分類,以推導之判別函數將空間分割成g個互斥的區域,接 著就能將觀察值歸到該群。

26

相關文件