國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
41
有一年自變數資料的模型 1 和模型 2 還來的高,符合自變數個數多模型解釋能力 會較佳的概念。而從測試集的精確度來看,發現有無選取重要變數和不同年份變 數資料對預測準確度並無明顯的區別。
二、分類與迴歸樹
接下來以分類與迴歸樹模型來預測客戶 100 年會不會購買主要商品拋棄式 隱形眼鏡。和建立羅吉斯迴歸模型的變數和步驟相同,建立分類與迴歸數總共 4 個模型,型態如表 4-4-3:(註:樹狀圖顯示在附錄表 B-1 至 B-4。)
分類與迴歸樹 模型 1 模型 2 模型 3 模型 4 年份變數資料 99 年資料 99 年資料 98、99 年資
料
98、99 年資 料 有無變數選取 無變數選取 有變數選取 無變數選取 有變數選取
表 4-4-3、四種分類與迴歸樹模型表
四個分類與迴歸樹模型估算變數的重要性如圖 4-4-9 至圖 4-4-12。其中,
橫軸為變數重要程度的比例,變數比例越高代表該變數越重要。
圖 4-4-10、CART 模型 2 變數重要程度圖
圖 4-4-11、CART 模型 3 變數重要程度圖 圖 4-4-9、CART 模型 1 變數重要程度圖
圖 4-4-12、CART 模型 4 變數重要程度圖
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
42
由這四個圖可以看出 99 年購買拋棄式隱形眼鏡(商品 D3)的個數是最重要的 變數,其次,99 購買藥水(商品 E1)和食品(F1)的個數也蠻重要。
表 4-4-3 的四個分類與迴歸樹模型搭配「有無事先使用平衡技巧」產生模型 5 至模型 8,建立共八個模型,其預測結果如圖 4-4-13 至圖 4-4-20:
圖 4-4-13、模型 1、99 年資料,無變數選取,無平衡 圖 4-4-14、模型 2、99 年資料,有變數選取,無平衡
圖 4-4-15、模型 5、99 年資料,無變數選取,有平衡 圖 4-4-16、模型 6、99 年資料,有變數選取,有平衡
圖 4-4-17、模型 3、98、99 年資料,無變數選取,無平衡
圖 4-4-19、模型 7、98、99 年資料,無變數選取,有平衡
圖 4-4-18、模型 4、98、99 年資料,有變數選取,無平衡
圖 4-4-20、模型 8、98、99 年資料,有變數選取,有平衡
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
43
分類與迴歸樹中沒使用平衡技巧的模型,和羅吉斯迴歸預測現象相同,在實 際沒購買 D3(F)下預測沒購買 D3(F)的數量變少,在實際購買 D3(T)下預測購買 D3(T)的數量變多。舉例來說,圖 4-4-14 經過平衡後為圖 4-4-16,比較兩個圖 發現在實際沒購買商品 D3(F)下預測沒購買商品 D3(F)的數量變多(31→41 人),
在實際購買商品 D3(T)下預測購買商品 D3(T)的數量減少(112→108 人)。
分類與迴歸樹模型也選擇了無使用平衡技巧的模型 1 至模型 4 比較其準確度 如表 4-4-4:
分類與迴歸樹 模型 1 模型 2 模型 3 模型 4 年份變數資料 99 年資料 98、99 年資料
有無變數選取 無 有 無 有
重要變數 1 99 年購買 D3 個數 重要變數 2 99 年購買 E1 個數 重要變數 3 99 年購買 F1
個數
99 年購買 F1 個數
職業 98 年購買 B1 個數 測試集準確率 0.8125 0.8125 0.8503 0.8503
表 4-4-4、分類與迴歸樹模型比較表
比較後發現以下三點:
一、使用 98、99 兩年資料比單一只有使用 99 年資料的模型測試集準確率高。
二、有無選取重要變數對預測準確度並無影響。
三、四個模型的最重要和次重要的變數都為 99 年購買 D3 個數和 99 年購買 E1 個數變數。
將分類與迴歸樹模型和羅吉斯迴歸模型做整體比較後發現,整體而言,分類 樹與迴歸模型的測試集準確率比羅吉斯迴歸模型來得高。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
44