3 第三章 研究方法
3.6 建立資料探勘前準備
及促銷關係等,
,發展的完整的顧客潛在價值概念 係管
1、
2、產品面:找出潛在價值顧客之交叉銷售以及潛在購買 3、
資料探勘步驟都會以設立的目標來運作。
3.6.2
據資料探勘的目標,本研究選擇與目標相關的資料來做探勘,此步驟分為 z 此組織方面,該公司公有 12 個部們,公司各層級的員工總計 1155 人。
z 商店方面,商店總數為 24 家,分佈在美國、加拿大以及墨西哥等地,遍及 在美洲、南美洲、北美洲的西半部。
3.6 建立資料探勘前準備
建立資料探勘的步驟,本研究參考Hui & Jha(2000)所提出的流程,在資料探
:建立資料
本研究亦即遵循這幾個步驟來運作。
3.6.1 設立資料探勘目
本研究的資料探勘目標在於從資料庫中發掘能夠反映出顧客潛在價值的各 種因素,包括:交叉銷售、預期購買金額、數量、終身價值價以
並且將顧客潛在價值予以分群 ,以提出顧客關
理上的策略。因此,資料探勘目標為:
顧客面:找出具有潛在價值的顧客
行為
策略面:將潛在價值顧客做集群,並且與人口統計變數做交叉分析,以瞭解 顧客的特徵
接下來的
目標資料選擇
根
兩個部份,
(1) 資料表的 ,包括account, category,
y, customer, days-check, e_fact, ory_fact,_1
ion, region, res 1998,
tore, time_by_day, warehouse, warehouse_class,其中篩選 出與本研究相關的資料表,分別為customer, product, product_class, promotion , sale_fact_1997, Sale_fact_1998, time_by_day,以這些資料表來做為本研究的探 勘目標。
(2) 資料屬性的選擇:將資料表中的屬性與本研究探勘目標相關的資料篩選出 來,如下表3-2所示:
Table Attribu
一個是資料表的選擇,另一個是資料屬性的選擇。
選擇:本研究的原始資料庫中有許多資料表 currenc department, employee, expens
invent 997, inventory_fact_1998, position, product, product_class, promot erve_employee, salary, sales_fact_1997, sales_fact_
sales_fact_dec_1998, s
表3-2 各資料表所選擇的屬性
tes Dim
ldren, num_children_at_home, Education , Occupation, House
ension_P
Customer id, Age, Marital_status, Salary_income, Gender, Total_chi owner ,num_cars_owned, Date_accnt_opened
Dimension_P Product_class_id ,Product_id
Fact_Table Product_id, Time_id, Customer_id, Promotion_id, Store_id , Store_sales ,Store_cost
Dimension_T Time_id, The_date, The_month, The_year, quarter 資料來源:本研究整理
3.6.3 資料探勘資料表建立
經過篩選與資料探勘目標相關的資料之後,將這些資料設計成資料庫,本研 究將資料庫設計成星狀結構(Star Schema),如下圖 3-3 所示,其中銷售為事實資 料表,而顧客、產品、時間以及促銷為構面資料表,有些資料屬性是須透過資料 前處理的值,包括First_transaction_time,Latest_transaction_time,
Total_number_of_transaction xpected_amount 以及 Group_no,這些屬性皆是為了計算顧客終身價值分析以及找出顧客集群時所須的 資訊。
s,Expected_active_pro,E
圖3-3 本研究資料庫結構
前處理
(1)資料清理
資料清理的目的主要是為了處理遺漏值,移除錯誤的值以及不一致的值,以 免這些值影響分析結果的精確度;本研究在處理遺漏值、錯誤的值以及不一致 值方面,當屬性的值屬於名目資料則使用SQL 語言來找出來,使用的語言方 是以group by 以及計數的方式來找出這些值,以顧客資料表的 Age 以及 gender 性為例,SQL 語言如下所示:
ELECT Age, count (gender) as total FROM Dimension_C
則得
3.6.4 資料庫
避 的 式 屬 S
GROUP BY Age 到結果為:
表3-3 遺漏值偵測 來偵測,例如:store_sale 值皆在$0.5~$23.64 之間,若排序發現有低於或高 於此區間的值,亦即為錯誤或是不一致的值,若難以判斷時,則以迴歸分析來,
之後的
(2)資料刪除
由於本研究是資料庫是2 年,分別為 1997 及 1998
蓋這兩年的購買資料,若是有顧客在1997 年以及 1998 年之後才加入的,必須予
DELET FROM Demension_C
WHERE date_accnt_opened> 1997/1/1 (4)資料轉換
本研究資料轉換的值包括:birthdate, date_ d, store_cost, store_s time_id 等,轉換過程如下:
z 成1997 年 年齡,例如: 月1 號,會轉換成 20 來偵測,例如:store_sale 值皆在$0.5~$23.64 之間,若排序發現有低於或高 於此區間的值,亦即為錯誤或是不一致的值,若難以判斷時,則以迴歸分析來,
之後的
(2)資料刪除
由於本研究是資料庫是2 年,分別為 1997 及 1998
蓋這兩年的購買資料,若是有顧客在1997 年以及 1998 年之後才加入的,必須予
DELET FROM Demension_C
WHERE date_accnt_opened> 1997/1/1 (4)資料轉換
本研究資料轉換的值包括:birthdate, date_ d, store_cost, store_s time_id 等,轉換過程如下:
z 成1997 年 年齡,例如: 月1 號,會轉換成 20 推,並產生新的屬性值”age
:此為舉例,並非資料庫真實內容 由上表3
漏值,同理若要查gender 是否有遺漏值,則 group by gender,即可看是否有 遺漏值,以此類推;若要瞭解是否有值錯誤或是不一致,則亦可以找出,如最右 邊的表所示,發現111 是錯誤的值,其它的值以此類推來加以清理。
漏值,同理若要查gender 是否有遺漏值,則 group by gender,即可看是否有 遺漏值,以此類推;若要瞭解是否有值錯誤或是不一致,則亦可以找出,如最右
country total 20-29 1717 30-39 1205 40-49 7359
country total
1 20-29 1717 30-39 1204 40-49 7359
country total 20-29 1717 30-39 1204 40-49 7359
111 1
z opened 轉換成進入會員幾年 年1 月 1 號進入會員,
3 年,以此類 ,並產生新 o_accunt”。
z 顧客終身價值 因此Store_ cost 相減,得到新的屬
z SMC 模型時所要用的 T e_id 將原本 7 年 1
2 月轉換成 依此類推 ,日期與 的對應
情形如下表3-4 所示:
表3-4 本研究之時間與 T 值對應表 Date_accnt_ ,例如:1994
則入會員共 推 的屬性值”int
由於要計算 , sales 與 store_
性”profit”。
由於要計算各 值,因此Tim 199
月轉換成1, 2, 至1998 年 12 月 T 值
時間 T 值 時間 T 值
1997 年 1 月 1 1998 年 1 月 13 1997 年 2 月 2 1998 年 2 月 14 1997 年 3 月 3 1998 年 3 月 15 1997 年 4 月 4 1998 年 4 月 16 1997 年 5 月 5 1998 年 5 月 17 1997 年 6 月 6 1998 年 6 月 18 1997 年 7 月 7 1998 年 7 月 19 1997 年 8 月 8 1998 年 8 月 20 1997 年 9 月 9 1998 年 9 月 21 1997 年 10 月 10 1998 年 10 月 22 1997 年 11 月 11 1998 年 11 月 23 1997 年 12 月 12 1998 年 12 月 24 (5)資
個月 共有5 個月,屆時將會找出訓練集的潛在顧客模式來與驗證集做預 測,
資料 有4 售 、顧客 表、產
間 料
料表:此資料 以 8 年的 199
料分割
本研究以20/80 比例來將資料分為驗證集以及訓練集,因此訓練集共有 19
,驗證集
以驗證本研究的預測效果。