二、分類與迴歸樹

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

有一年自變數資料的模型 1 和模型 2 還來的高，符合自變數個數多模型解釋能力會較佳的概念。而從測試集的精確度來看，發現有無選取重要變數和不同年份變數資料對預測準確度並無明顯的區別。

接下來以分類與迴歸樹模型來預測客戶 100 年會不會購買主要商品拋棄式隱形眼鏡。和建立羅吉斯迴歸模型的變數和步驟相同，建立分類與迴歸數總共 4 個模型，型態如表 4-4-3：(註:樹狀圖顯示在附錄表 B-1 至 B-4。)

分類與迴歸樹模型 1 模型 2 模型 3 模型 4 年份變數資料 99 年資料 99 年資料 98、99 年資

料

98、99 年資料有無變數選取無變數選取有變數選取無變數選取有變數選取

表 4-4-3、四種分類與迴歸樹模型表

四個分類與迴歸樹模型估算變數的重要性如圖 4-4-9 至圖 4-4-12。其中，

橫軸為變數重要程度的比例，變數比例越高代表該變數越重要。

圖 4-4-10、CART 模型 2 變數重要程度圖

圖 4-4-11、CART 模型 3 變數重要程度圖圖 4-4-9、CART 模型 1 變數重要程度圖

圖 4-4-12、CART 模型 4 變數重要程度圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

由這四個圖可以看出 99 年購買拋棄式隱形眼鏡(商品 D3)的個數是最重要的變數，其次，99 購買藥水(商品 E1)和食品(F1)的個數也蠻重要。

表 4-4-3 的四個分類與迴歸樹模型搭配「有無事先使用平衡技巧」產生模型 5 至模型 8，建立共八個模型，其預測結果如圖 4-4-13 至圖 4-4-20：

圖 4-4-13、模型 1、99 年資料，無變數選取，無平衡圖 4-4-14、模型 2、99 年資料，有變數選取，無平衡

圖 4-4-15、模型 5、99 年資料，無變數選取，有平衡圖 4-4-16、模型 6、99 年資料，有變數選取，有平衡

圖 4-4-17、模型 3、98、99 年資料，無變數選取，無平衡

圖 4-4-19、模型 7、98、99 年資料，無變數選取，有平衡

圖 4-4-18、模型 4、98、99 年資料，有變數選取，無平衡

圖 4-4-20、模型 8、98、99 年資料，有變數選取，有平衡

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

分類與迴歸樹中沒使用平衡技巧的模型，和羅吉斯迴歸預測現象相同，在實際沒購買 D3(F)下預測沒購買 D3(F)的數量變少，在實際購買 D3(T)下預測購買 D3(T)的數量變多。舉例來說，圖 4-4-14 經過平衡後為圖 4-4-16，比較兩個圖發現在實際沒購買商品 D3(F)下預測沒購買商品 D3(F)的數量變多(31→41 人)，

在實際購買商品 D3(T)下預測購買商品 D3(T)的數量減少(112→108 人)。

分類與迴歸樹模型也選擇了無使用平衡技巧的模型 1 至模型 4 比較其準確度如表 4-4-4：

分類與迴歸樹模型 1 模型 2 模型 3 模型 4 年份變數資料 99 年資料 98、99 年資料

有無變數選取無有無有

重要變數 1 99 年購買 D3 個數重要變數 2 99 年購買 E1 個數重要變數 3 99 年購買 F1

個數

99 年購買 F1 個數

職業 98 年購買 B1 個數測試集準確率 0.8125 0.8125 0.8503 0.8503

表 4-4-4、分類與迴歸樹模型比較表

比較後發現以下三點：

一、使用 98、99 兩年資料比單一只有使用 99 年資料的模型測試集準確率高。

二、有無選取重要變數對預測準確度並無影響。

三、四個模型的最重要和次重要的變數都為 99 年購買 D3 個數和 99 年購買 E1 個數變數。

將分類與迴歸樹模型和羅吉斯迴歸模型做整體比較後發現，整體而言，分類樹與迴歸模型的測試集準確率比羅吉斯迴歸模型來得高。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中小林眼鏡客戶資料的統計分析 - 政大學術集成 (頁 41-44)

二、分類與迴歸樹

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y