• 沒有找到結果。

第四章 實證分析

第四節 建立預測模型

顧客有許多種樣貌,前一節的集群分析就是為了在眾多顧客中找出不同型態 的群體,然後將他們一一歸類。經過分析後,本研究將顧客分為四個群體。由於 顧客的消費行為並非一成不變的,在顧客重新消費時對於他們進行預測可以幫助 企業更了解顧客的變化。對顧客產生了新的標籤之後,就可以利用這些資料建立 一個預測的模型。在此小節中,本研究利用決策樹以及判別分析建立預測模型,

並且比較兩模型的預測率。

一、決策樹分析

本研究使用R 中的 Rattle 進行決策樹的分析,而在 Rattle 中使用的的套件為 Rpart,使用的決策樹種為 CART。在建立模型前,先將資料以 70/30 的方式進行 切割,70%為訓練資料,30%則用來進行測試,而進行分析時必須考慮到 CP 值的 選擇,CP 值決定的是樹的複雜程度,CP 值愈小則樹的生長會愈複雜,預測愈精 準,但可能會造成過度配適的問題,因此CP 值必須適當挑選,本研究分別以預 設的 CP=0.01,以及 CP=0.005、CP=0.05 進行生長,其中前兩個會使得決策樹 過於複雜,因此本研究選擇以 CP=0.05 作為模型複雜度的基準,最終獲得的決 策樹如下:

41

圖 4-3 決策樹結果 資料來源:本研究整理

42

決策樹一共產生五條規則,其規則如下:

(1)當消費金額大於等於 1205,消費頻率小於 5 次,則顧客為第二群。

(2)當消費金額大於等於 1205,消費頻率大於等於 5 次,則顧客為第三群。

由此兩條規則可以發現,第二群與第三群的顧客僅需消費金額與消費頻率兩個變 數就能分類出來,而且能夠以消費頻率最為區分兩個群組的依據,也與分群的結 果相呼應,第二與第三群顧客對於企業貢獻的總和差不多,主要差異在於第三群 平均消費接近的案群的兩倍。

(3)當消費金額小於 1205,最近一次消費天數小於 63 天,則顧客為第一群。

(4)當消費金額小於 1205,最近一次消費天數大於 63 天,消費頻率大於 2 次,

且最近一次消費天數大於 126 天,則顧客為第四群。

(6) 當消費金額小於 1205,最近一次消費天數小於 63 天,且消費頻率小於 2 次,

則顧客也為第四群。

由這三條規則能夠發現,第一群顧客同樣能由消費金額與最近一次消費兩個變數 分類出來,而第四群則擁有兩條規則,在此可以判斷決策樹模型對於第四群顧客 有較豐富的規則可以解釋。

43

建立模型後,需要對模型進行評估,本研究使用的方式是混淆矩陣。此方式 是機器學習中,用來評估分類方法的準確率的工具,使用方式是以訓練資料訓練 模型後,再將模型套用在測試資料上。在此小節中,訓練資料為70%,測試資料 為30%,其產生的混淆矩陣如下:

表 4-14 決策樹混淆矩陣

實際 預測 1 2 3 4 錯誤率(%)

1 1275 130 0 5 9.6

2 87 639 69 43 23.7

3 7 66 354 14 19.7

4 2 0 0 816 0.2

資料來源:本研究整理

根據混淆矩陣來判斷這個模型,主對角線就是預測正確的資料點,而評估模型的 其中一個方式就是計算其準確率,在此模型中期整體的準確率約為 88%。然而仔 細去看每個群組的分類錯誤率可以發現,決策樹模型在分類最有貢獻的前兩個群 組時,錯誤率是遠高於其他兩組的。而第四組的錯誤率僅有 0.2%,因此決策樹在 分類第四組的表現特別好,也正好能呼應決策樹的樹狀圖對於第四組有較多的描 述。

44

二、判別分析

本階段使用的是線性判別分析進行預測模型的建立,而使用判別分析前必須 先針對資料進行檢定,確認變數間具有顯著差異。如以下表4-4-2 所示,檢定三 個變數的平均值之後,存在顯著的差異。

表 4-15 群組平均值的相等性檢定

Wilks’Lambda(λ) F 檢定 分子自由度 分母自由度 顯著性

最近一次消費(R) 0.234 3822.8 3 3504 . 000

消費頻率(F) 0.270 3151.7 3 3504 . 000

消費金額(M) 0.257 3376.8 3 3504 . 000

資料來源:本研究整理

檢定過後,即可進行下一步的分析,而本次判別分析一共產生出三條判別函 數,如表4-16 所示,第一條函數所能解釋的變異總共有 74.2%,第二條則有 25.6%,

前兩條能解釋的變異即佔了99.8%,第三條僅有 0.2%,而表 4-17 則可以知道,

這三條函數皆是顯著的。這三條函數的係數如表 4-18 所示,以此三條函數將能 為資料進行分類,將資料分為四群,而圖4-4 的地域圖更能清楚的看出函數將資 料分類的情況,以下為三條函數的形式:

𝑌1 = (−2.18) + 0.01 ∗ 𝑅 + 0.66 ∗ 𝐹 + 0.002 ∗ 𝑀 𝑌2 = 4.26 + 0.024 ∗ 𝑅 − 0.453 ∗ 𝐹 − 0.001 ∗ 𝑀 𝑌3 = (−0.546) − 0.001 ∗ 𝑅 + 0.74 ∗ 𝐹 − 0.002 ∗ 𝑀

45

表 4-16 特徵值

函數 特徵值 解釋變異比例(%) 累積解釋比例(%) 相關性

1 6.97 74.2 74.2 0.94

2 2.41 25.6 99.8 0.84

3 0.02 0.2 100.0 0.13

資料來源:本研究整理

表 4-17 函數顯著性檢定

函數檢定 Wilks’Lamda(λ) 卡方檢定 自由度 顯著性

1 至 3 . 036 11627.817 9 . 000

2 至 3 . 289 4354.799 4 . 000

3 . 982 63.243 1 . 000

資料來源:本研究整理

表 4-18 判別函數係數

函數

1 2 3

R 0.010 0.024 −0.001

F 0.660 −0.453 0.740

M 0.002 −0.001 −0.002

常數 −2.180 4.260 −0.546

資料來源:本研究整理

46

圖 4-4 判別分析地域圖

47

同樣的,判別分析也需要透過混淆矩陣來判斷模型的好壞,表 4-19 為判別分析 之混淆矩陣:

表 4-19 判別分析混淆矩陣(%)

實際 預測 1 2 3 4 錯誤率(%)

1 1395 9 0 7 1.1

2 2 826 9 1 1.4

3 0 3 438 0 0.6

4 16 3 0 799 2.3

資料來源:本研究整理

透過矩陣判斷模型之好壞,在此處同樣由計算準確度來進行評估,其整體的 準確度為 98.59%。同樣的再去觀察各群組的分類錯誤率可以發現,在決策樹中 有較差預測率的第二與第三群顧客,在此模型中的預測率得到了很好的改善,其 中第三群的預測錯誤率僅有 0.6%。反而第四群的顧客在此預測率較差。

描述過兩個模型之後,兩個模型有著不太一樣的地方,以模型整體的準確度 來說,判別分析是最好的,整體模型的準確率高達98%,決策樹的模型準確度其 實也不差,仍有88.13%,會造成判別分析預測率較好的原因可能是,判別分析使 用的資訊較為豐富,使用主成分的方法將所有資訊都進入模型分析,屬於傳統的 多變量方法。然而決策樹則是依據便樹的重要性逐一篩選,進而達到組內同質性 較高的亂度最低的結果,雖然好懂卻也相對犧牲資訊。因此在數學上來說,判別 分析用了所有的資訊進而達到預測率較好的情況。

然而在各群組的預測錯誤率中,決策樹在預測第四組的準確率最好,判別分 析則是在預測第三群的準確率最好,兩個模型可以說是各有應用的地方。

48

相關文件