第三章 研究方法
第三節 分析方法
本小節將介紹此次研究所使用之軟體,以及使用的方法,並且說明選擇的原 因。
一、 分析工具
本研究使用SAS EG 以及 R 來做為分析的工具。
二、 分析方法 (一) RFM 分析
從處理好的資料集中,根據第二章所描述之RFM 的定義,以最近一次消費 與選定的分析日之間隔天數為R 值,以各個消費者在 2011 年於企業消費的次數 為F 值,以消費者在該年度於企業所消費的總金額為 M 值。有別於以往 RFM 將 三個指標分為五個等分,給予消費者111 至 555 的分數,本篇研究將 RFM 的原 始數值分別標準化,並且使用標準化後的分數進行分群,目的是為了減少變數間 尺度相差較大的問題。。
(二) 集群分析
集群分析是一種將資料分為不同群體的方法,利用資料的相似度分群,使得 不同群體之間差異程度大,而同群體內的差異小。集群分析可以用來將顧客分群,
用途相當廣泛,而進行集群分析主要有四個階段:
(1)資料準備與變數選取:
根據分析的問題以及資料的類型,選擇適當的分群演算法,然後從 資料集裡面,選出要分析的變數做為分群的特徵。
(2)計算相似度:
選取完演算法後,開始進行分群,而怎麼決定群組的依據就是計算
19
20
階層式集群分析可以分為凝聚(agglomerative)與分裂(divisive)兩 種方法,通常凝聚的方法會比分裂更常被使用(Kantardzic,2003),因
21
2.非階層式集群分析
先選擇數個不同的起始值並賦予一個集群,接著在各階段分群過 程中,將原有的集群予以打散,並重新形成新的集群,概念就是將所有 的資料點依據選取的分組特徵,分到指定的 K 個群組,而且每個資料 點只會分到一個集群,而在這個方法中,衡量相似度的依據則是以平方 誤差為指標,當每群平方誤差達最小時,再考慮 K 個集群,總變異為 最小,分群便會停止。
一般來說常見的方法為 K-means 法,其判斷準則為每個資料點與 集群之中心(平均值)的變異平方和最小,則該中心為集群的中心,其公 式如下:
E = ∑ ∑(𝑋𝑖𝑙− 𝑚𝑙)𝑇(𝑋𝑖𝑙− 𝑚𝑙)
𝑛𝑘
𝑖=1 𝐾
𝑙=1
其中,𝑚𝑙為集群𝐶𝑙的平均值,E 為總距離變異平方。以下圖 3-1 為K-means 法分群的過程示意圖:
圖 3-2 分群過程示意圖
註:(a)初始隨機給定兩群心,將資料點分成兩群(b)重新計算集群的中心(c)集群不再更動
資料來源:Wil (2016)
然而,群心的選擇會造成後續分群結果不同,如果初始的中心資料點不夠 分散,將會造成較差的結果(簡禎富、許嘉裕,2018)。K-means 法需要事先決
22
(1)資訊增益(Information Gain):
資訊的增量為根據不同訊息的機率,衡量不同條件下的資訊量。若資料
23
表示分類的訊息雜亂度愈高。
(2)Gini 係數(Gini Index):
Gini 係數則是為了衡量集合中所有類別的不純度,如下列公式所示: (3)資訊增益比(Gain Ratio):
前面所提到的資訊增益會選擇能降低資訊雜亂度的變數,但亂度只考
24
25
λ 1 = 𝑍
1的組間平方和𝑆𝑆
𝑏𝑍
1的組內平方和𝑆𝑆
𝑤 為最大,其餘以此類推。最後就能對資料進行分類,以推導之判別函數將空間分割成g個互斥的區域,接 著就能將觀察值歸到該群。
26