建立預測模型

第四章實證分析

第四節建立預測模型

顧客有許多種樣貌，前一節的集群分析就是為了在眾多顧客中找出不同型態的群體，然後將他們一一歸類。經過分析後，本研究將顧客分為四個群體。由於顧客的消費行為並非一成不變的，在顧客重新消費時對於他們進行預測可以幫助企業更了解顧客的變化。對顧客產生了新的標籤之後，就可以利用這些資料建立一個預測的模型。在此小節中，本研究利用決策樹以及判別分析建立預測模型，

並且比較兩模型的預測率。

一、決策樹分析

本研究使用R 中的 Rattle 進行決策樹的分析，而在 Rattle 中使用的的套件為 Rpart，使用的決策樹種為 CART。在建立模型前，先將資料以 70/30 的方式進行切割，70%為訓練資料，30%則用來進行測試，而進行分析時必須考慮到 CP 值的選擇，CP 值決定的是樹的複雜程度，CP 值愈小則樹的生長會愈複雜，預測愈精準，但可能會造成過度配適的問題，因此CP 值必須適當挑選，本研究分別以預設的 CP=0.01，以及 CP=0.005、CP=0.05 進行生長，其中前兩個會使得決策樹過於複雜，因此本研究選擇以 CP=0.05 作為模型複雜度的基準，最終獲得的決策樹如下:

圖 4-3 決策樹結果資料來源:本研究整理

決策樹一共產生五條規則，其規則如下:

(1)當消費金額大於等於 1205，消費頻率小於 5 次，則顧客為第二群。

(2)當消費金額大於等於 1205，消費頻率大於等於 5 次，則顧客為第三群。

由此兩條規則可以發現，第二群與第三群的顧客僅需消費金額與消費頻率兩個變數就能分類出來，而且能夠以消費頻率最為區分兩個群組的依據，也與分群的結果相呼應，第二與第三群顧客對於企業貢獻的總和差不多，主要差異在於第三群平均消費接近的案群的兩倍。

(3)當消費金額小於 1205，最近一次消費天數小於 63 天，則顧客為第一群。

(4)當消費金額小於 1205，最近一次消費天數大於 63 天，消費頻率大於 2 次，

且最近一次消費天數大於 126 天，則顧客為第四群。

(6) 當消費金額小於 1205，最近一次消費天數小於 63 天，且消費頻率小於 2 次，

則顧客也為第四群。

由這三條規則能夠發現，第一群顧客同樣能由消費金額與最近一次消費兩個變數分類出來，而第四群則擁有兩條規則，在此可以判斷決策樹模型對於第四群顧客有較豐富的規則可以解釋。

建立模型後，需要對模型進行評估，本研究使用的方式是混淆矩陣。此方式是機器學習中，用來評估分類方法的準確率的工具，使用方式是以訓練資料訓練模型後，再將模型套用在測試資料上。在此小節中，訓練資料為70%，測試資料為30%，其產生的混淆矩陣如下:

表 4-14 決策樹混淆矩陣

實際預測 1 2 3 4 錯誤率(%)

1 1275 130 0 5 9.6

2 87 639 69 43 23.7

3 7 66 354 14 19.7

4 2 0 0 816 0.2

資料來源:本研究整理

根據混淆矩陣來判斷這個模型，主對角線就是預測正確的資料點，而評估模型的其中一個方式就是計算其準確率，在此模型中期整體的準確率約為 88%。然而仔細去看每個群組的分類錯誤率可以發現，決策樹模型在分類最有貢獻的前兩個群組時，錯誤率是遠高於其他兩組的。而第四組的錯誤率僅有 0.2%，因此決策樹在分類第四組的表現特別好，也正好能呼應決策樹的樹狀圖對於第四組有較多的描述。

二、判別分析

本階段使用的是線性判別分析進行預測模型的建立，而使用判別分析前必須先針對資料進行檢定，確認變數間具有顯著差異。如以下表4-4-2 所示，檢定三個變數的平均值之後，存在顯著的差異。

表 4-15 群組平均值的相等性檢定

Wilks’Lambda(λ) F 檢定分子自由度分母自由度顯著性

最近一次消費(R) 0.234 3822.8 3 3504 . 000

消費頻率(F) 0.270 3151.7 3 3504 . 000

消費金額(M) 0.257 3376.8 3 3504 . 000

資料來源:本研究整理

檢定過後，即可進行下一步的分析，而本次判別分析一共產生出三條判別函數，如表4-16 所示，第一條函數所能解釋的變異總共有 74.2%，第二條則有 25.6%，

前兩條能解釋的變異即佔了99.8%，第三條僅有 0.2%，而表 4-17 則可以知道，

這三條函數皆是顯著的。這三條函數的係數如表 4-18 所示，以此三條函數將能為資料進行分類，將資料分為四群，而圖4-4 的地域圖更能清楚的看出函數將資料分類的情況，以下為三條函數的形式:

𝑌₁ = (−2.18) + 0.01 ∗ 𝑅 + 0.66 ∗ 𝐹 + 0.002 ∗ 𝑀 𝑌₂ = 4.26 + 0.024 ∗ 𝑅 − 0.453 ∗ 𝐹 − 0.001 ∗ 𝑀 𝑌₃ = (−0.546) − 0.001 ∗ 𝑅 + 0.74 ∗ 𝐹 − 0.002 ∗ 𝑀

表 4-16 特徵值

函數特徵值解釋變異比例(%) 累積解釋比例(%) 相關性

1 6.97 74.2 74.2 0.94

2 2.41 25.6 99.8 0.84

3 0.02 0.2 100.0 0.13

資料來源:本研究整理

表 4-17 函數顯著性檢定

函數檢定 Wilks’Lamda(λ) 卡方檢定自由度顯著性

1 至 3 . 036 11627.817 9 . 000

2 至 3 . 289 4354.799 4 . 000

3 . 982 63.243 1 . 000

資料來源:本研究整理

表 4-18 判別函數係數

函數

1 2 3

R 0.010 0.024 −0.001

F 0.660 −0.453 0.740

M 0.002 −0.001 −0.002

常數 −2.180 4.260 −0.546

資料來源:本研究整理

圖 4-4 判別分析地域圖

同樣的，判別分析也需要透過混淆矩陣來判斷模型的好壞，表 4-19 為判別分析之混淆矩陣:

表 4-19 判別分析混淆矩陣(%)

實際預測 1 2 3 4 錯誤率(%)

1 1395 9 0 7 1.1

2 2 826 9 1 1.4

3 0 3 438 0 0.6

4 16 3 0 799 2.3

資料來源:本研究整理

透過矩陣判斷模型之好壞，在此處同樣由計算準確度來進行評估，其整體的準確度為 98.59%。同樣的再去觀察各群組的分類錯誤率可以發現，在決策樹中有較差預測率的第二與第三群顧客，在此模型中的預測率得到了很好的改善，其中第三群的預測錯誤率僅有 0.6%。反而第四群的顧客在此預測率較差。

描述過兩個模型之後，兩個模型有著不太一樣的地方，以模型整體的準確度來說，判別分析是最好的，整體模型的準確率高達98%，決策樹的模型準確度其實也不差，仍有88.13%，會造成判別分析預測率較好的原因可能是，判別分析使用的資訊較為豐富，使用主成分的方法將所有資訊都進入模型分析，屬於傳統的多變量方法。然而決策樹則是依據便樹的重要性逐一篩選，進而達到組內同質性較高的亂度最低的結果，雖然好懂卻也相對犧牲資訊。因此在數學上來說，判別分析用了所有的資訊進而達到預測率較好的情況。

然而在各群組的預測錯誤率中，決策樹在預測第四組的準確率最好，判別分析則是在預測第三群的準確率最好，兩個模型可以說是各有應用的地方。

在文檔中資料探勘應用之研究:零售業的RFM分析架構 (頁 46-54)

第四章 實證分析

第四節 建立預測模型

一、決策樹分析

二、判別分析

第四章實證分析

第四節建立預測模型