第四章 實證分析
第四節 建立預測模型
顧客有許多種樣貌,前一節的集群分析就是為了在眾多顧客中找出不同型態 的群體,然後將他們一一歸類。經過分析後,本研究將顧客分為四個群體。由於 顧客的消費行為並非一成不變的,在顧客重新消費時對於他們進行預測可以幫助 企業更了解顧客的變化。對顧客產生了新的標籤之後,就可以利用這些資料建立 一個預測的模型。在此小節中,本研究利用決策樹以及判別分析建立預測模型,
並且比較兩模型的預測率。
一、決策樹分析
本研究使用R 中的 Rattle 進行決策樹的分析,而在 Rattle 中使用的的套件為 Rpart,使用的決策樹種為 CART。在建立模型前,先將資料以 70/30 的方式進行 切割,70%為訓練資料,30%則用來進行測試,而進行分析時必須考慮到 CP 值的 選擇,CP 值決定的是樹的複雜程度,CP 值愈小則樹的生長會愈複雜,預測愈精 準,但可能會造成過度配適的問題,因此CP 值必須適當挑選,本研究分別以預 設的 CP=0.01,以及 CP=0.005、CP=0.05 進行生長,其中前兩個會使得決策樹 過於複雜,因此本研究選擇以 CP=0.05 作為模型複雜度的基準,最終獲得的決 策樹如下:
41
圖 4-3 決策樹結果 資料來源:本研究整理
42
決策樹一共產生五條規則,其規則如下:
(1)當消費金額大於等於 1205,消費頻率小於 5 次,則顧客為第二群。
(2)當消費金額大於等於 1205,消費頻率大於等於 5 次,則顧客為第三群。
由此兩條規則可以發現,第二群與第三群的顧客僅需消費金額與消費頻率兩個變 數就能分類出來,而且能夠以消費頻率最為區分兩個群組的依據,也與分群的結 果相呼應,第二與第三群顧客對於企業貢獻的總和差不多,主要差異在於第三群 平均消費接近的案群的兩倍。
(3)當消費金額小於 1205,最近一次消費天數小於 63 天,則顧客為第一群。
(4)當消費金額小於 1205,最近一次消費天數大於 63 天,消費頻率大於 2 次,
且最近一次消費天數大於 126 天,則顧客為第四群。
(6) 當消費金額小於 1205,最近一次消費天數小於 63 天,且消費頻率小於 2 次,
則顧客也為第四群。
由這三條規則能夠發現,第一群顧客同樣能由消費金額與最近一次消費兩個變數 分類出來,而第四群則擁有兩條規則,在此可以判斷決策樹模型對於第四群顧客 有較豐富的規則可以解釋。
43
建立模型後,需要對模型進行評估,本研究使用的方式是混淆矩陣。此方式 是機器學習中,用來評估分類方法的準確率的工具,使用方式是以訓練資料訓練 模型後,再將模型套用在測試資料上。在此小節中,訓練資料為70%,測試資料 為30%,其產生的混淆矩陣如下:
表 4-14 決策樹混淆矩陣
實際 預測 1 2 3 4 錯誤率(%)
1 1275 130 0 5 9.6
2 87 639 69 43 23.7
3 7 66 354 14 19.7
4 2 0 0 816 0.2
資料來源:本研究整理
根據混淆矩陣來判斷這個模型,主對角線就是預測正確的資料點,而評估模型的 其中一個方式就是計算其準確率,在此模型中期整體的準確率約為 88%。然而仔 細去看每個群組的分類錯誤率可以發現,決策樹模型在分類最有貢獻的前兩個群 組時,錯誤率是遠高於其他兩組的。而第四組的錯誤率僅有 0.2%,因此決策樹在 分類第四組的表現特別好,也正好能呼應決策樹的樹狀圖對於第四組有較多的描 述。
44
二、判別分析
本階段使用的是線性判別分析進行預測模型的建立,而使用判別分析前必須 先針對資料進行檢定,確認變數間具有顯著差異。如以下表4-4-2 所示,檢定三 個變數的平均值之後,存在顯著的差異。
表 4-15 群組平均值的相等性檢定
Wilks’Lambda(λ) F 檢定 分子自由度 分母自由度 顯著性
最近一次消費(R) 0.234 3822.8 3 3504 . 000
消費頻率(F) 0.270 3151.7 3 3504 . 000
消費金額(M) 0.257 3376.8 3 3504 . 000
資料來源:本研究整理
檢定過後,即可進行下一步的分析,而本次判別分析一共產生出三條判別函 數,如表4-16 所示,第一條函數所能解釋的變異總共有 74.2%,第二條則有 25.6%,
前兩條能解釋的變異即佔了99.8%,第三條僅有 0.2%,而表 4-17 則可以知道,
這三條函數皆是顯著的。這三條函數的係數如表 4-18 所示,以此三條函數將能 為資料進行分類,將資料分為四群,而圖4-4 的地域圖更能清楚的看出函數將資 料分類的情況,以下為三條函數的形式:
𝑌1 = (−2.18) + 0.01 ∗ 𝑅 + 0.66 ∗ 𝐹 + 0.002 ∗ 𝑀 𝑌2 = 4.26 + 0.024 ∗ 𝑅 − 0.453 ∗ 𝐹 − 0.001 ∗ 𝑀 𝑌3 = (−0.546) − 0.001 ∗ 𝑅 + 0.74 ∗ 𝐹 − 0.002 ∗ 𝑀
45
表 4-16 特徵值
函數 特徵值 解釋變異比例(%) 累積解釋比例(%) 相關性
1 6.97 74.2 74.2 0.94
2 2.41 25.6 99.8 0.84
3 0.02 0.2 100.0 0.13
資料來源:本研究整理
表 4-17 函數顯著性檢定
函數檢定 Wilks’Lamda(λ) 卡方檢定 自由度 顯著性
1 至 3 . 036 11627.817 9 . 000
2 至 3 . 289 4354.799 4 . 000
3 . 982 63.243 1 . 000
資料來源:本研究整理
表 4-18 判別函數係數
函數
1 2 3
R 0.010 0.024 −0.001
F 0.660 −0.453 0.740
M 0.002 −0.001 −0.002
常數 −2.180 4.260 −0.546
資料來源:本研究整理
46
圖 4-4 判別分析地域圖
47
同樣的,判別分析也需要透過混淆矩陣來判斷模型的好壞,表 4-19 為判別分析 之混淆矩陣:
表 4-19 判別分析混淆矩陣(%)
實際 預測 1 2 3 4 錯誤率(%)
1 1395 9 0 7 1.1
2 2 826 9 1 1.4
3 0 3 438 0 0.6
4 16 3 0 799 2.3
資料來源:本研究整理
透過矩陣判斷模型之好壞,在此處同樣由計算準確度來進行評估,其整體的 準確度為 98.59%。同樣的再去觀察各群組的分類錯誤率可以發現,在決策樹中 有較差預測率的第二與第三群顧客,在此模型中的預測率得到了很好的改善,其 中第三群的預測錯誤率僅有 0.6%。反而第四群的顧客在此預測率較差。
描述過兩個模型之後,兩個模型有著不太一樣的地方,以模型整體的準確度 來說,判別分析是最好的,整體模型的準確率高達98%,決策樹的模型準確度其 實也不差,仍有88.13%,會造成判別分析預測率較好的原因可能是,判別分析使 用的資訊較為豐富,使用主成分的方法將所有資訊都進入模型分析,屬於傳統的 多變量方法。然而決策樹則是依據便樹的重要性逐一篩選,進而達到組內同質性 較高的亂度最低的結果,雖然好懂卻也相對犧牲資訊。因此在數學上來說,判別 分析用了所有的資訊進而達到預測率較好的情況。
然而在各群組的預測錯誤率中,決策樹在預測第四組的準確率最好,判別分 析則是在預測第三群的準確率最好,兩個模型可以說是各有應用的地方。
48