• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

37

3.壯年期(25~44 歲)的客戶 4.女性的客戶

5.彰化地區的客戶

6.教育程度為大專以上的客戶

經由調整規則支持度門檻值α大小整合現象如表 4-3-7:

α增加 規則顯現出總體客戶的規則,可用來對客戶進行主要行銷活動。

α減少 規則顯現出個體客戶的規則,可用來做為一對一的客戶行銷活動。

表 4-3-7、最小支持度比較表

第四節 預測分析

接下來預測小林眼鏡的未來潛在客戶,建立預測模型並進行模型評估,本研 究用羅吉斯迴歸模型和分類與回歸樹模型來做預測。本研究根據「年份變數資料」

和 clementine12 中「有無變數選取」兩種差別來建立模型:「年份變數資料」的 部分有兩種,用 99 年資料來預測 100 年以及用 98、99 年資料來預測 100 年;「有 無變數選取」的部分有兩種,建模前使用變數選取以及建模前未使用變數選取。

Clementine12 進行變數選取時根據以下五個指標,來選取重要變數:

1.遺漏值的限制最大百分比、2.在一個單一的類別記錄最大百分比、3.最大數量 的類別的記錄的百分比、4.最小變異係數、5.最低標準偏差

建模過程的第一個步驟為產生訓練集建立分類模型,第二個步驟為利用測試 集對分類模型準確率進行估計,在步驟一和步驟二之間,我們還需要探討是否使 用平衡的技巧來修正訓練集資料的不均勻性,所謂的平衡是指將訓練集中的稀有 事件的比例放大至與主要事件相同,做法是將稀有事件和主要事件的個數以 1:1 的比例抽出做為實際使用的訓練集用來建立模型。

本研究的小林眼鏡客戶資料中,沒購買拋棄式隱形眼鏡(商品 D3)的客戶數 量較少為稀有事件,有購買拋棄式隱形眼鏡的客戶數量較多為主要事件。舉例來 說,若用 99 年的資料來預測 100 年會不會購買主要商品拋棄式隱形眼鏡:99 年 原始銷售客戶資料共有 583 個客戶,取 70%為訓練集,取 30%為測試集,在訓練 集中購買商品 D3 的人數為 430 人(占 73.76%),沒購買商品 D3 在訓練集的人數 為 153 人(占 26.24%),為不平衡的現象,於是可以考慮使用平衡的技巧將訓練 集中有無購買商品 D3 的人數比例調至相同。

一、羅吉斯迴歸

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

39

圖 4-4-1 至圖 4-4-8 的最下方的分類矩陣,行(row)代表的為實際觀測值,

欄代表預測值,針對分類矩陣有幾個度量名詞介紹:

一、真陽(true positive ):實際正確被預測為正確的。

二、偽陽(false positive):實際不正確的被預測為正確的。

圖 4-4-1、模型 1、99 年資料,無變數選取,無平衡 圖 4-4-2、模型 2、99 年資料,有變數選取,無平衡

圖 4-4-3、模型 5、99 年資料,無變數選取,有平衡 圖 4-4-4、模型 6、99 年資料,有變數選取,有平衡

圖 4-4-5、模型 3、98、99 年資料,無變數選取,無平衡 圖 4-4-6、模型 4、98、99 年資料,有變數選取,無平衡

圖 4-4-7、模型 7、98、99 年資料,無變數選取,有平衡 圖 4-4-8、模型 8、98、99 年資料,有變數選取,有平衡

三、真陰(true negtive):實際不正確的被預測為不正確的。

四、偽陰(false negtive):實際正確的被預測為不正確的。

五、準確度(accuracy):用以衡量估計值準確可依賴的程度。準確度的計算:[真 陽(true positive )+ 真陰(true negtive)]÷全部值。舉例來說,圖 4-4-1 的分類矩陣中,真陽值為 110、偽陽值為 28、真陰值為 30、偽陰值為 8、準確度 個圖發現在實際沒購買商品 D3(F)下預測沒購買商品 D3(F)的數量變多(30→35),

在實際購買商品 D3(T)下預測購買商品 D3(T)的數量變少(110 人→101)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

41

有一年自變數資料的模型 1 和模型 2 還來的高,符合自變數個數多模型解釋能力 會較佳的概念。而從測試集的精確度來看,發現有無選取重要變數和不同年份變 數資料對預測準確度並無明顯的區別。

相關文件