• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

41

有一年自變數資料的模型 1 和模型 2 還來的高,符合自變數個數多模型解釋能力 會較佳的概念。而從測試集的精確度來看,發現有無選取重要變數和不同年份變 數資料對預測準確度並無明顯的區別。

二、分類與迴歸樹

接下來以分類與迴歸樹模型來預測客戶 100 年會不會購買主要商品拋棄式 隱形眼鏡。和建立羅吉斯迴歸模型的變數和步驟相同,建立分類與迴歸數總共 4 個模型,型態如表 4-4-3:(註:樹狀圖顯示在附錄表 B-1 至 B-4。)

分類與迴歸樹 模型 1 模型 2 模型 3 模型 4 年份變數資料 99 年資料 99 年資料 98、99 年資

98、99 年資 料 有無變數選取 無變數選取 有變數選取 無變數選取 有變數選取

表 4-4-3、四種分類與迴歸樹模型表

四個分類與迴歸樹模型估算變數的重要性如圖 4-4-9 至圖 4-4-12。其中,

橫軸為變數重要程度的比例,變數比例越高代表該變數越重要。

圖 4-4-10、CART 模型 2 變數重要程度圖

圖 4-4-11、CART 模型 3 變數重要程度圖 圖 4-4-9、CART 模型 1 變數重要程度圖

圖 4-4-12、CART 模型 4 變數重要程度圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

42

由這四個圖可以看出 99 年購買拋棄式隱形眼鏡(商品 D3)的個數是最重要的 變數,其次,99 購買藥水(商品 E1)和食品(F1)的個數也蠻重要。

表 4-4-3 的四個分類與迴歸樹模型搭配「有無事先使用平衡技巧」產生模型 5 至模型 8,建立共八個模型,其預測結果如圖 4-4-13 至圖 4-4-20:

圖 4-4-13、模型 1、99 年資料,無變數選取,無平衡 圖 4-4-14、模型 2、99 年資料,有變數選取,無平衡

圖 4-4-15、模型 5、99 年資料,無變數選取,有平衡 圖 4-4-16、模型 6、99 年資料,有變數選取,有平衡

圖 4-4-17、模型 3、98、99 年資料,無變數選取,無平衡

圖 4-4-19、模型 7、98、99 年資料,無變數選取,有平衡

圖 4-4-18、模型 4、98、99 年資料,有變數選取,無平衡

圖 4-4-20、模型 8、98、99 年資料,有變數選取,有平衡

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

43

分類與迴歸樹中沒使用平衡技巧的模型,和羅吉斯迴歸預測現象相同,在實 際沒購買 D3(F)下預測沒購買 D3(F)的數量變少,在實際購買 D3(T)下預測購買 D3(T)的數量變多。舉例來說,圖 4-4-14 經過平衡後為圖 4-4-16,比較兩個圖 發現在實際沒購買商品 D3(F)下預測沒購買商品 D3(F)的數量變多(31→41 人),

在實際購買商品 D3(T)下預測購買商品 D3(T)的數量減少(112→108 人)。

分類與迴歸樹模型也選擇了無使用平衡技巧的模型 1 至模型 4 比較其準確度 如表 4-4-4:

分類與迴歸樹 模型 1 模型 2 模型 3 模型 4 年份變數資料 99 年資料 98、99 年資料

有無變數選取 無 有 無 有

重要變數 1 99 年購買 D3 個數 重要變數 2 99 年購買 E1 個數 重要變數 3 99 年購買 F1

個數

99 年購買 F1 個數

職業 98 年購買 B1 個數 測試集準確率 0.8125 0.8125 0.8503 0.8503

表 4-4-4、分類與迴歸樹模型比較表

比較後發現以下三點:

一、使用 98、99 兩年資料比單一只有使用 99 年資料的模型測試集準確率高。

二、有無選取重要變數對預測準確度並無影響。

三、四個模型的最重要和次重要的變數都為 99 年購買 D3 個數和 99 年購買 E1 個數變數。

將分類與迴歸樹模型和羅吉斯迴歸模型做整體比較後發現,整體而言,分類 樹與迴歸模型的測試集準確率比羅吉斯迴歸模型來得高。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

44

相關文件