一、羅吉斯迴歸 - 小林眼鏡客戶資料的統計分析

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.壯年期(25~44 歲)的客戶 4.女性的客戶

5.彰化地區的客戶

6.教育程度為大專以上的客戶

經由調整規則支持度門檻值α大小整合現象如表 4-3-7：

α增加規則顯現出總體客戶的規則，可用來對客戶進行主要行銷活動。

α減少規則顯現出個體客戶的規則，可用來做為一對一的客戶行銷活動。

表 4-3-7、最小支持度比較表

第四節預測分析

接下來預測小林眼鏡的未來潛在客戶，建立預測模型並進行模型評估，本研究用羅吉斯迴歸模型和分類與回歸樹模型來做預測。本研究根據「年份變數資料」

和 clementine12 中「有無變數選取」兩種差別來建立模型：「年份變數資料」的部分有兩種，用 99 年資料來預測 100 年以及用 98、99 年資料來預測 100 年；「有無變數選取」的部分有兩種，建模前使用變數選取以及建模前未使用變數選取。

Clementine12 進行變數選取時根據以下五個指標，來選取重要變數：

1.遺漏值的限制最大百分比、2.在一個單一的類別記錄最大百分比、3.最大數量的類別的記錄的百分比、4.最小變異係數、5.最低標準偏差

建模過程的第一個步驟為產生訓練集建立分類模型，第二個步驟為利用測試集對分類模型準確率進行估計，在步驟一和步驟二之間，我們還需要探討是否使用平衡的技巧來修正訓練集資料的不均勻性，所謂的平衡是指將訓練集中的稀有事件的比例放大至與主要事件相同，做法是將稀有事件和主要事件的個數以 1:1 的比例抽出做為實際使用的訓練集用來建立模型。

本研究的小林眼鏡客戶資料中，沒購買拋棄式隱形眼鏡(商品 D3)的客戶數量較少為稀有事件，有購買拋棄式隱形眼鏡的客戶數量較多為主要事件。舉例來說，若用 99 年的資料來預測 100 年會不會購買主要商品拋棄式隱形眼鏡：99 年原始銷售客戶資料共有 583 個客戶，取 70%為訓練集，取 30%為測試集，在訓練集中購買商品 D3 的人數為 430 人(占 73.76%)，沒購買商品 D3 在訓練集的人數為 153 人(占 26.24%)，為不平衡的現象，於是可以考慮使用平衡的技巧將訓練集中有無購買商品 D3 的人數比例調至相同。

一、羅吉斯迴歸

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4-4-1 至圖 4-4-8 的最下方的分類矩陣，行(row)代表的為實際觀測值，

欄代表預測值，針對分類矩陣有幾個度量名詞介紹：

一、真陽(true positive )：實際正確被預測為正確的。

二、偽陽(false positive)：實際不正確的被預測為正確的。

圖 4-4-1、模型 1、99 年資料，無變數選取，無平衡圖 4-4-2、模型 2、99 年資料，有變數選取，無平衡

圖 4-4-3、模型 5、99 年資料，無變數選取，有平衡圖 4-4-4、模型 6、99 年資料，有變數選取，有平衡

圖 4-4-5、模型 3、98、99 年資料，無變數選取，無平衡圖 4-4-6、模型 4、98、99 年資料，有變數選取，無平衡

圖 4-4-7、模型 7、98、99 年資料，無變數選取，有平衡圖 4-4-8、模型 8、98、99 年資料，有變數選取，有平衡

‧

三、真陰(true negtive)：實際不正確的被預測為不正確的。

四、偽陰(false negtive)：實際正確的被預測為不正確的。

五、準確度(accuracy)：用以衡量估計值準確可依賴的程度。準確度的計算：[真陽(true positive )+ 真陰(true negtive)]÷全部值。舉例來說，圖 4-4-1 的分類矩陣中，真陽值為 110、偽陽值為 28、真陰值為 30、偽陰值為 8、準確度個圖發現在實際沒購買商品 D3(F)下預測沒購買商品 D3(F)的數量變多(30→35)，

在實際購買商品 D3(T)下預測購買商品 D3(T)的數量變少(110 人→101)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

有一年自變數資料的模型 1 和模型 2 還來的高，符合自變數個數多模型解釋能力會較佳的概念。而從測試集的精確度來看，發現有無選取重要變數和不同年份變數資料對預測準確度並無明顯的區別。

在文檔中小林眼鏡客戶資料的統計分析 - 政大學術集成 (頁 37-41)

一、羅吉斯迴歸

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四節 預測分析