小林眼鏡客戶資料的統計分析 - 政大學術集成

全文

(1)國立政治大學統計研究所碩士論文. 指導教授：翁久幸博士. 立. 政治大. ‧ 國. 學. 小林眼鏡客戶資料的統計分析. Statistical analysis of customer data for. ‧ y. sit. io. n. al. er. Nat. Kobayashi glasses. Ch. engchi. i n U. v. 研究生：陳冠全撰. 中華民國一百零二年六月 1.

(2) 謝誌我最感謝的是我的指導老師，翁久幸老師，在今年正式開始寫作論文時，同年也為翁老師擔任政大統計系主任的第一年，縱使百般忙碌，每個禮拜還是空出兩天早上的寶貴時間來對我們進行論文的寫作教學和研究指導，不僅讓學生對於統計方面的運用更加熟悉，統計知識也增長許多，從懶散的個性變得積極、主動，從翁老師的指導下，我才瞭解到什麼是真正的研究生，對我來說，她是最認真最負責的老師，我十分的感謝她。再來我要感謝的是我最愛的家人，在碩士包含交換時期這三年的學習生涯中，不斷的鼓勵我完成學業，他們每個人對我支持的力量是我在台北一直努力認真下去的最大動力，我感謝他們，學生下定決心在就業之後要好好運用我所學，對社會發光發熱，並回饋我的家人，讓他們繼續為我感到驕傲。. 政治大我要感謝政大統計所 99 級的聖航、Bono、小胖、Mitch、強哥、小 J、幾月立歌釗榆等等所有同學們，有很深的緣分才能同窗兩年，大家都非常優秀，課堂上 ‧. ‧ 國. 學. 總是會互相幫助，論文寫作時，有問題都會互相解決，我愛他們，就算畢業，在職場上我們還是會持續的互相鼓勵，努力為社會作出貢獻，成為政大最優秀的校友。. er. io. sit. y. Nat. 我要感謝政大企管所的洪順慶老師和張愛華老師，在我修習企管所的課程時細心的講解和指導，感謝企管所的小朱、冠廷、timon、庭翊、相賢學長和品牌小組的大蕾、黎芸、小琪、小綠、筑鈞在行銷學程課的幫忙和指導，和對我在做論文時的鼓勵和打氣。. al. n. v i n Ch 我也想感謝大陸地區清華大學的劉文靜老師和經濟管理學院的榮哥、泰姐、 U i e h n c g 載潤、恩樂、羅哥、必超、依情、立菲、小爾、千惠、一峰、魏徵等等所有 MIM 班同學們，對我在清華的協助和照顧，讓我能很快的到圖書館尋找論文主題和搜索知識資料庫，在如此繁忙的課業中還不吝於指導我，我感謝他們。. 最後，我感謝熱心的張騰達學長，沒有他的幫助我就無法完成這篇研究論文，感謝中研院的陳定立老師和杜憶萍老師抽空前往學生的論文口試，感謝指導過我的所有政大老師、楊文敏助教和邱燕助教、感謝柏蒼哥、靜樺、Matt、橘子雄、展鼎、大盧、以翔、文采、冠丞、旗川、姿穎、友譯、教會的 sra 哥、冠廷、義原和政大吉他社庭慧、倫慈、詠涵、孟婷、禹彤和所有 GG53 和 54，謝謝你們陪伴我，我珍惜這些相處的時光，我很驕傲的說，我畢業於政大，我感謝政大。陳冠全謹於政大統計研究所民國一○二年 2.

(3) 摘要隨著科技越來越進步，現代人和電子科技產品日益接觸頻繁，從電視、電腦一直到智慧型手機，使得台灣的視力不良人口有攀升的趨勢，根據中華民國統計資訊網的 2013 年資料顯示，國小的視力不良率占了 49.36%，國中更占了 73.66%，視力不良率的提升造成了「眼鏡」此矯正產品的重要性越來越高，眼鏡消費人口逐漸提升，相對地也造成了眼鏡業的激烈競爭。本研究選擇了台灣眼鏡業知名品牌「小林眼鏡」來進行其客戶的研究，運用統計技術和資料採礦(Data mining) 的軟體「clementine 12.0」來進行挖掘客戶資訊的工具。本研究先分析小林眼鏡全部商品的銷售金額以及銷售次數的歷年趨勢，找出部分消費商品固定成長或減退的規律。再分析全部客戶的結構，利用基本的統計圖表呈現客戶特徵，並運用 RFM 分析法，R(Recently)為最近購買日，F(Frequency) 為購買頻率，M(Monetary Amount)為購買金額，從全部客戶中選出重要客戶，並分析重要客戶結構，也將重要客戶與所有客戶做比較的討論。. 立. 政治大. ‧. ‧ 國. 學. 本研究也針對選出的小林眼鏡重要客戶，運用關聯規則的先驗演算法 (Apiriori algorithm)挖掘出客戶特性和商品之間的規則，本研究找出重要客戶特性對商品「拋棄式隱形眼鏡」以及客戶特性對商品「藥水」的兩種購買關聯規則，此外，也間接探討先驗演算法中有無設定規則門檻值最小支持度α和最小信心度β所產生的區別。. sit. y. Nat. n. al. er. io. 接下來本研究使用兩個模型種類，羅吉斯迴歸和分類與迴歸樹，來進行對未來會購買拋棄式隱形眼鏡商品的客戶預測，針對「有無事先選取重要變數」和「年份變數資料」分別建立模型，計算模型測試集準確度發現：. Ch. engchi. i n U. v. 1. 多使用 98 年資料的羅吉斯模型解釋能力較佳，但對準確率沒有明顯區別。 2. 多使用 98 年資料的分類與迴歸樹模型準確率較佳。 3.「有無選取重要變數」對羅吉斯和分類與迴歸樹模型的準確率沒有明顯區別。 4.最重要和次重要的變數都為「99 年購買 D3 個數」和「99 年購買 E1 個數」。 5.分類樹與迴歸模型的準確率比羅吉斯迴歸模型高。本研究也探討是否在建立模型前對客戶資料使用平衡技巧時的差別，研究後發現，使用平衡技巧能預測出更多不會購買隱型眼鏡商品的客戶；不使用平衡技巧則預測出更多會購買隱型眼鏡的客戶。本研究將發現的所有客戶訊息提供給小林眼鏡作為參考，期許小林眼鏡企業能針對這些訊息創造出行銷策略，延長客戶的生命週期，使小林眼鏡永續經營。【關鍵字】小林眼鏡、資料採礦、關聯規則、羅吉斯迴歸、分類與決策樹 3.

(4) Abstract This thesis aims to explore valuable information from customer transaction data using statistics and data mining techniques. We consider a real dataset from the famous brand“kobayashi”company and use the data mining software“clementine12.0". First ,we obtain time series plots and some basic statistics of all the products.Next, we use RFM analysis to find the important customers, and compare their traits with all customers. Then, we apply Apriori algorithm to find association rules. Finally, we use logistic regression and CART (classification and regression tree) to build models that can predict the potential customers. We found that. 政治大 1.The logistic model with predictor variables from two years has better 立 prediction ability than that with predictor variables from just one year.. ‧. ‧ 國. 學. 2.There is not much difference in prediction ability with or without doing variables selection. 3.The most important and secondary important variables are “the number of buying D3 in 99 year”and“the number of buying E1 in 99 year”in the models. 4.The prediction accuracy of CART is higher than the logistic model.. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 【Key words】 kobayashi,data mining,association rule,logistic regression,classification and regression tree 4.

(5) 目錄第壹章緒論第一節研究背景和動機第二節研究目的第三節研究架構第貳章. 文獻探討. 第参章第一節第二節第三節第四節. 研究方法 RFM 分析法關聯規則分類方法 Clementine 12.0. 第肆章第一節第二節第三節第四節. 實證研究資料說明敘述統計與 RFM 分析關聯規則分析預測分析. 學 ‧. ‧ 國. 立. 政治大. n. er. io. al. sit. y. Nat. 第伍章結論與建議第一節結論第二節建議參考文獻附錄. Ch. engchi. 5. i n U. v.

(6) 圖目錄圖 1-1-1、國中小學視力不良率表圖 3-2-1、關聯規則定義圖圖 3-3-1、決策樹模型架構示意圖圖 3-4-1、clementine12.0 介面示意圖圖 4-2-1、商品銷售次數時間序列圖圖 4-2-2、商品銷售金額時間序列圖圖 4-2-3、其他商品銷售次數時間序列圖圖 4-2-4、其他商品銷售金額時間序列圖圖 4-2-5、商品銷售次數成長率時間序列圖圖 4-2-6、商品銷售金額成長率時間序列圖圖 4-2-7、其他商品銷售次數成長率時間序列圖圖 4-2-8、其他商品銷售金額成長率時間序列圖圖 4-2-9、RFM 滿分客戶圖圖 4-2-10、全部客戶地區次數圓餅圖圖 4-2-11、重要客戶地區人數圓餅圖圖 4-2-12、全部客戶年齡次數圓餅圖圖 4-2-13、重要客戶年齡人數圓餅圖圖 4-2-14、全部客戶性別次數圓餅圖圖 4-2-15、重要客戶性別人數圓餅圖圖 4-2-16、全部客戶教育程度次數圓餅圖圖 4-2-17、重要客戶教育程度人數圓餅圖圖 4-2-18、全部客戶職業次數圓餅圖圖 4-2-19、重要客戶職業人數圓餅圖圖 4-2-20、全部客戶取件日期次數圓餅圖圖 4-2-21、重要客戶取件日期次數圓餅圖圖 4-2-22、全部客戶銷售類別次數修正後圓餅圖圖 4-2-23、重要客戶銷售類別次數圓餅圖圖 4-3-1、六個類別的關聯規則圖圖 4-4-1、模型 1、99 年資料，無變數選取，無平衡圖 4-4-2、模型 2、99 年資料，有變數選取，無平衡圖 4-4-3、模型 5、99 年資料，無變數選取，有平衡圖 4-4-4、模型 6、99 年資料，有變數選取，有平衡圖 4-4-5、模型 3、98、99 年資料，無變數選取，無平衡圖 4-4-6、模型 4、98、99 年資料，有變數選取，無平衡圖 4-4-7、模型 7、98、99 年資料，無變數選取，有平衡圖 4-4-8、模型 8、98、99 年資料，有變數選取，有平衡. 立. 政治大. n. er. io. sit. y. ‧. ‧ 國. 學. Nat. al. Ch. engchi. 6. i n U. v.

(7) 圖 4-4-9、CART 模型 1 變數重要程度圖圖 4-4-10、CART 模型 2 變數重要程度圖圖 4-4-11、CART 模型 3 變數重要程度圖圖 4-4-12、CART 模型 4 變數重要程度圖圖 4-4-13、模型 1、99 年資料，無變數選取，無平衡圖 4-4-14、模型 2、99 年資料，有變數選取，無平衡圖 4-4-15、模型 5、99 年資料，無變數選取，有平衡圖 4-4-16、模型 6、99 年資料，有變數選取，有平衡圖 4-4-17、模型 3、98、99 年資料，無變數選取，無平衡圖 4-4-18、模型 4、98、99 年資料，有變數選取，無平衡圖 4-4-19、模型 7、98、99 年資料，無變數選取，有平衡圖 4-4-20、模型 8、98、99 年資料，有變數選取，有平衡. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 7. i n U. v.

(8) 表目錄表 3-2-1、關聯規則舉例說明表表 4-1-1、小林眼鏡公司狀況彙整表表 4-1-2、資料變數型態彙整表表 4-2-1、RFM 分群表表 4-2-2、地區比例比較表表 4-2-3、年齡比例比較表表 4-2-4、性別比例比較表表 4-2-5、教育程度比例比較表表 4-2-6、職業次數比例比較表表 4-2-7、取件日期次數比例比較表表 4-2-8、銷售類別次數比例比較表表 4-3-1、後項為銷售類別關聯規則表(α=0.3，β=0.6) 表 4-3-2、後項為整副遠視眼鏡(A1)關聯規則表(β=0.5) 表 4-3-3、後項為遠視用換片(B1)關聯規則表(β=0.5) 表 4-3-4、後項為食品(F1)關聯規則表(β=0.5) 表 4-3-5、後項為藥水(E1)關聯規則表(β=0.8) 表 4-3-6、除去拋棄式隱形眼鏡(D3)、後項為藥水(E1)關聯規則表(α=0.2，β =0.5) 表 4-3-7、最小支持度比較表表 4-4-1、四種羅吉斯迴歸模型表表 4-4-2、羅吉斯迴歸模型比較表表 4-4-3、四種分類與迴歸樹模型表表 4-4-4、分類與迴歸樹模型比較表. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 8. i n U. v.

(9) 第壹章緒論第一節研究背景與動機一、背景眼鏡的功能主要是矯正多種視力問題，最常有的問題像是近視、遠視、斜視、散光等等因姿勢不良或其他原因導致的視力衰壞，除了正規矯正眼鏡之外，還有其它特殊眼鏡提供著不同的功能，如護目鏡、太陽眼鏡、泳鏡等等。近年來台灣很多愛美或不習慣佩戴眼鏡的人，都選擇佩戴隱形眼鏡來矯正視力。使得隱形眼鏡越來越普及，儘管如此，眼鏡仍然是最普遍的矯正視力工具。. 政治大. 眼鏡算是民生用品，平均價錢不會很昂貴，一般消費者都有能力購買，加上眼鏡商品的造型多元，充滿時尚和設計感，深受年輕族群喜愛，使得眼鏡的是場需求量逐年增加，當然增加的主因是視力不良的人口增加，根據下圖 1-1-1 教育部統計結果能看出國小和國中學生的視力不良率逐年增加，此現象也造成了眼鏡業的激烈競爭。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 1-1-1、國中小學視力不良率表. 二、動機對台灣所有的企業來說，隨著科技發展迅速，電腦等科技產品使得客戶的資料取得和記錄已經不再是一件很困難的事情，企業如何能將「big data」變成有用的資訊，而不是只有存放不處理變成一個「big tomb」，已經是一個很重要的企業議題，近年來，資料採礦(Data mining)技術的增進和純熟，對處理龐大的資料更是很大的幫助，學生想在畢業進入就業市場前嘗試分析龐大資料庫，期許能增長處理大資料的經驗和技術能力，於是拜訪了小林眼鏡公司的副總張騰達學長，取得消費者的客戶購買資料，研究一篇完整的論文，期許能提出有用的建議和結論來幫助小林眼鏡企業對客戶做出有效的行銷策略，提高客戶忠誠度和客戶滿意度，讓小林眼鏡企業利潤增加，永續經營。 9.

(10) 第二節研究目的本研究先分析全部客戶的結構和特性，再運用 RFM 分析法找出重要客戶並探討和全部客戶的區別，再找出商品和重要客戶的購買關聯規則，建立羅吉斯迴歸模型和分類與迴歸樹模型並進行比較，選出最準確的模型來預測未來會購買拋棄式隱形眼鏡商品的客戶，歸類此研究的研究目的如下：一、瞭解全部客戶和重要客戶的結構與特性。二、找出重要客戶和商品的購買關聯規則。三、藉由模擬和比較找出最佳的預測配式模型。四、用最佳模型預測出會購買的潛在客戶。五、根據研究發現提出結論和建議，期許搭配有效的行銷策略，提高客戶忠誠度和滿意度。. 立. 政治大. ‧ 國. 學. 第三節研究架構. ‧. 首先探討本研究的背景和說明本研究的動機和目的，接著討論先前學者所研究類似於本研究的歷史文獻，並整合學者研究的看法和結論，再來針對本研究使用的統計方法加以說明，再來是實證的部分，進行探討客戶資料和建構預估模型，最後，針對本研究的結果提出結論給小林眼鏡公司，並提出需要改進和不足地方的建議。. n. er. io. sit. y. Nat. al. 第壹章. Ch. engchi. i n U. v. •研究背景與動機、研究目的、研究架構. 緒論第貳章文獻探討第参章. •RFM分析法、關聯規則、分類方法、clementine 12.0. 研究方法第肆章實證研究第伍章. •資料說明、敘述統計與RFM分析、關聯規則分析、預測分析 •結論、建議. 結論與建議. 10.

(11) 第貳章文獻探討本研究主要目的是探討消費者購買行為，並期望利用探討結果發展行銷策略留下舊有忠實客戶以及開發新的潛在客戶，在針對舊有客戶的研究中，將客戶價值化是個很重要的議題，Koch (1997)也指出，企業 80％的銷售利潤主要來自於 20％的顧客，但公司 80％的行銷費用卻耗在其餘 20％的銷售利潤上。因此能找出具有價值的顧客，對企業的獲利來說非常重要。對於客戶價值的研究，學者 Hughes(1994)提出RFM模型將客戶價值分成五等份，他認為RFM模型中的三個主要指標的重要性是一樣的，給予相同的權重，此模型至今為被後人做消費者行為研究最常應用的RFM模型，像是黃元直(2009)就是利用Hughes的RFM模型對保險業消費者的購買能力做區別研究。黃宇彤、陳罡熙(2009)利用於顧客價值分析之個案研究。何靖遠、賴宜楓(2012)結合此模型以及拍賣網站所提供評價資訊，建立線上再購行為影響因素的研究模型。除了Hughes的RFM模型之外，學者Stone (1995) 也提出了不同的RFM模型，他認為指標會隨著不同產業而有不同加權， Shaw(2001) 則是把R指標分成五等份、F指標和M指標都分成兩等份，提出不同RFM模型來區分客戶價值。. 立. 政治大. ‧ 國. 學. ‧. 針對企業與客戶的關係，客戶關係管理 CRM (customer relationship management)已經成為了一個很重要的管理議題，學者 Peppard (2000)認為所謂的客戶管理是目前許多公司善用現有顧客和潛在顧客的相關資訊去進行行銷策略，並且根據這些資訊來預測及回應顧客的需求。企業藉由好的客戶關係管理才能真正瞭解到如何從資料庫的客戶的歷史訊息去進行有效的資料庫行銷，學者劉玉萍(2000）針對客戶提出了四項重要策略：1.客戶的贏取：指企業需尋找及發掘有潛力的消費者，並設法將其吸引轉變成客戶；2.客戶的留住：企業需保留住客戶，讓其持續向企業交易而不會流失或轉移到其他企業；3.客戶的忠誠：指客戶對企業有高度的認同感、歸屬感、並願意對企業貢獻；4.客戶的獲利：指企業扣除用在客戶身上的行銷與管理成本後，客戶終身對企業所貢獻的利潤。可見客戶管理已經是被學者極為重視和探討的議題，而針對新舊客戶的價值，對於企業來說，留住舊客戶比開發新客戶的成本來的低，舊客戶的議題又更是需要重視，學者 Kalakota & Robinson (2001)的研究也提出了開發一位新客戶比維繫一位舊客戶需多花將近六倍的時間，所以本研究前半段都是針對舊有客戶進行分析。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 針對不同市場的客戶分析有很多方法，許多學者運用資料採礦的技術來作為分析的工具，楊梓貫(2006)應用資料採礦軟體 Microsoft SQL Server 2005 中的集群分析對消費者做 3G 手機的需求市場區隔，利用分群結果與基本客戶資料做交叉分析，再根據每群的特性提出適當的行銷策略和建議。李佳玲(2006)探討一般消費者對眼鏡產品的消費習性中，利用資料採礦中的 k-means 集群分析來區分消費者對眼鏡產品的消費傾向，再提出未來眼鏡業發展方向的可行建議。林秀玲 11.

(12) (2007)則針對汽車市場，運用資料採礦的決策樹分析和羅吉斯迴歸分析方法找出未來會再次購買同品牌汽車的客戶特性，進一步整合行銷策略，提升客戶再次購買的機會。陳雨農(2010)應用資料採礦技術去研究數位相機產業消費者的購買行為，建立了 C5.0、分類與迴歸樹、類神經網路和 K-means 集群分析共四種模型，從模型結果中找出數位相機在市場消費者的共通特性，依照這些特性擬訂不同的行銷手法。蔡依庭(2010)則運用資料採礦技術中決策樹、羅吉斯迴歸和類神經網路進行電影市場的模型建置，並區分電影市場客戶，針對不同貢獻程度族群的特性，作為行銷策略建議的依據。游涵茵(2010)針對信用卡市場，運用資料採礦技術的羅吉斯迴歸、C5.0、CHAID 和類神經網路去建立市場模型，評估模型後找出重要變數，並針對重要變數再給與發卡銀行行銷策略的建議。吳晢楷(2010) 針對台灣的機車製造商市場，運用資料採礦軟體 clementine 12.0 和資料採礦技術的 CHAID、類神經網路、羅吉斯迴歸和分類與迴歸樹去找出最適模性的重要變數，提供給企業做市場行銷。方國莉(2013)探討零售業客戶的消費行為和保險電話行銷成交的關聯性，利用資料採礦技術的羅吉斯迴歸模型，找出適合保險電話行銷的客戶資料，進而達到建立最佳成本效益人力配置。. 立. 政治大. ‧. ‧ 國. 學. 除了以上的學者之外，還有很多學者都運用著資料採礦的軟體和技術去研究客戶消費行為和商品與客戶的關聯，建立不同的模型去預測客戶特性，並建立一對一的行銷策略，從對於客戶和商品關聯的議題研究數量及資料採礦技術的熱門程度可知，如何處理客戶訊息會是未來學者繼續探討的目標方向，本研究亦是針對此議題而參考先前學者歷史文獻，針對小林眼鏡客戶來進行分析與討論。. n. er. io. sit. y. Nat. al. Ch. engchi. 12. i n U. v.

(13) 第參章研究方法第一節. RFM 分析法. RFM 分析法強調以客戶的消費行為做為分析模式。因此在 RFM 模型中每一個字母都是以客戶的消費行為來做相對應的關係： R (最近購買日)：最近一次的消費日期 F (購買頻率)：單位時間內的消費次數 M (購買金額)：單位時間內的消費金額針對 R、F、M 三個指標設定分數制度，給予每個客戶一個對應的綜合分數指標 RFM score 來作為客戶價值大小的判定。. 政治大. RFM 分析法常用來做為市場區隔的方法，目的是為了根據客戶的異質性需求而作出市場區隔，並進行一對一行銷維繫顧客忠誠度，RFM 分析法的模型有三種比較著名，分別為 Hughes(1994)、Stone(1989)和 Shaw et al.(2001)所提出。 Hughes 模型是 RFM 模型中最常被使用的，所以此研究就運用此模型並找出客戶價值最高的客戶群。. 立. ‧. ‧ 國. 學. 「Arthur Hughes 客戶五等分法」使用的分數制度是五等分法：. n. al. er. io. sit. y. Nat. R(最近購買日)：將客戶距離的天數分為5等分，距離分析時點天數最少(R最小) 的前20%客戶群前20%給予5分、20%~40%給予4分、40%~60%給予3分、60%~80%給予 2分、天數最多(R最大)的80%~100%客戶群給予1分。. Ch. i n U. v. F(購買頻率)：將客戶消費的總次數分為5等分，消費次數最多(F最大)的前20%. engchi. 客戶群給予5分、20%~40%給予4分、40%~60%給予3分、60%~80%給予2分、消費次數最少(F最小)的80%~100%客戶群給予1分。 M(購買金額)：將客戶消費的總金額分為5等分，消費金額最多(M最大)前20%給予 5分、20%~40%給予4分、40%~60%給予3分、60%~80%給予2分、消費金額最少(M最小)的80%~100%客戶群給予1分。對於眼鏡產業而言，三個指標該如何加權並無公定的認知標準。因為 Hughes 客戶五等分法為最多人使用，所以本研究延用此方法，對三個指標給予相同的權重，但本研究不同的地方是將客戶分為九等分而非五等分，原因是為了更細分而找出最重要的客戶，做法如下： R(最近購買日)：將客戶距離的天數分為9等分，距離上次購買紀錄時間越近的客戶群則會得到9分，最遠的客戶群會得到1分。 13.

(14) F(購買頻率)：將客戶消費的總次數分為 9 等分，購買最頻繁的客戶群會得到 9 分，最不頻繁的客戶群會得到 1 分。 M(購買金額)：將客戶消費的總次數分 9 等分，消費總金額最多的客戶群會得到 9 分，最少的客戶群會得到 1 分。最後再把這三個分數相加起來就為 RFM 分數，即能依據分數高低判斷客戶價值程度。舉例:本研究使用九等份，RFM 分數最高的客戶分數為 9+9+9=27 分，最低分則為 1+1+1=3 分。. 第二節關聯規則關聯規則(association rule)，簡稱「AR」，是資料採礦的一門技術，目的是從大型資料中找出變數間的相關習性。關聯規則由 Agrawal,Imielinski and Swami(1993)所提出。. 立. 政治大. ‧. ‧ 國. 學. 此技術常用在找出消費者的購買行為，常見的解決問題像是：消費者買了 A 物品後買 B 物品的機率有多大或是消費者是否常常一起購買 A 物品和 B 物品的銷售組合等等，藉由關聯規則分析消費者的消費型態，其中最經典的例子為-奶粉啤酒：全球最大的連鎖零售商沃爾瑪超市利用關聯規則分析發現買奶粉的消費者大多也會繼續選購啤酒的商品，於是市場把奶粉和啤酒這兩種潛在銷售商品組合放於同個銷售區，結果造成這兩件商品的銷售量大增。在這件利用關聯規則分析的銷售案例成功之後，大型商場開始重視關聯規則這門技術。. n. er. io. sit. y. Nat. al. v. 關聯規則有很多演算法，本研究使用的是最常被應用的 Apriori 法，此方法由 Agrawal and Srikant(1994)所提出，中文稱「先驗演算法」，採用自底向上的處理方法，即頻繁子集每次只擴展一個對象（該步驟被稱為候選集產生），並且候選集由數據進行檢驗。當不再產生符合條件的擴展對象時演算法終止。. Ch. engchi. i n U. 關聯規則的定義：令 I=﹛i1 ，i2 ， … in ﹜為 n 種物品或 n 種條件的集合， D=﹛t1 ，t 2 ， … t m ﹜ 為 m 筆交易的集合，在 D 中的每筆交易都有唯一對應的 ID，每筆交易都包含著 I 的子集合：D=﹛t1 ，t 2 ， … t m ﹜，t j ={Ij1 ，Ij2 ， … Ijk }. 14. I，如圖 3-2-1。.

(15) t1. Ij1. t2. m 筆交易. I. Ij2. I. Ijk. I. : : :. tm. 圖 3-2-1、關聯規則定義圖. 關聯規則是形如 X=>Y 的表達式，其中 X ,Y 是非空集合並且 X ,Y I (即 X、Y≠Φ)且 X、Y 不相交(X∩Y=Φ)，關聯規則“=>”左側的集合稱為前項，右側的集合稱為後項。(註:X 及 Y 集合可以表示物品的集合也可以表示條件或屬性的集合) 關聯規則有兩個基本的測度，是用來評估此關聯規則(X=>Y)是否合格，這兩個基本的測度分別為:支持度(degree of support)，符號為 Supp()和信心度(degree of confident)，符號為 Conf()。以下分別介紹集合支持度、關聯規則支持度和關聯規則信心度的定義：. 立. 政治大. ‧ 國. 學. 集合支持度定義：. ‧. 該物品或條件的集合支持度為在全部 m 筆交易次數中，包含該物品或條件的集合交易次數占有的比例。若 Supp(X)≥ 最小支持度值α，則可稱 X 集合為頻繁集合。. y. Nat. io. al. ∥X∥. sit. Supp(X)= =. – (公式 1.1). │T│. n. ∥ X ∥為包含 X 集合的交易次數，│T│為全部 m 筆交易次數。. 關聯規則支持度定義:. Ch. engchi. er. 舉例：X 集合的支持度為. i n U. v. 該關聯規則的支持度為在全部 m 筆交易次數中，前項集合以及後項集合同時存在的交易次數占有的比例。舉例：若關聯規則為 X=>Y，則關聯規則 X=>Y 的支持度為 Supp(X=>Y) = Supp(X∪Y) =. ∥X∪Y∥ │T│. – (公式 1.2). ∥ X ∪ Y ∥為同時包含 X 集合和 Y 集合的的交易次數，│T│為全部 m 筆交易次數。. (注:關聯規則 X=>Y 的支持度等同於 X∪Y 的支持度，公式 1.2 中的 Supp(X∪Y)用的是聯集的符號∪，指的是 X 集合和 Y 集合兩個集合同時存在，而非 X 集合或 Y 集合任一存在的意思，因為 supp()隨著集合增長而不具有包容性，所以用聯集的符號∪而非交集的符號∩。) 15.

(16) 關聯規則信心度定義：該關聯規則的信心度為在所有包含規則前項集合的交易次數中，前項集合以及後項集合同時存在的交易次數占有的比例。舉例：若關聯規則為 X=>Y，則關聯規則 X=>Y 的信心度為 Conf(X=>Y) =. ∥X∪Y∥ ∥X∥. ，∥ X ∪ Y ∥為同時包含 X 集合和 Y 集合的的交易次數 ∥ X ∥為包含 X 集合的交易次數. – (公式 1.3). 當關聯規則同時滿足兩個條件如下，則稱該關聯規則為合格的關聯規則： 1. 規則支持度≥設定的最小支持度門檻值α 2. 以及規則信心度滿≥設定的最小信心度門檻值β. 政治大舉例說明：預設最小支持度值α=0.2，最小信心度值β=0.5 立 1 0 1 0. 0 1 1 1. Milk. Nat. 0 1 0 0. y. 1 2 3 4. ‧ 國. cookie. ‧. beer. 學. transaction ID. io. sit. 表 3-2-1、關聯規則舉例說明表. n. al. er. 表 3-2-1 為 4 筆消費次數的消費紀錄，有三種消費食物，從左至右分別是啤酒、餅乾和牛奶，在相對應的食物欄下，數字為 0 代表沒購買其對應物品，數字為 1 代表有購買，例如第一筆的交易編號只購買了啤酒，而沒購買餅乾和牛奶。令 beer 為 X 集合，X 的支持度 Supp(X) 為在全部 4 筆交易次數中包含 beer 交易次數占有的比例。 Supp(X) =. ∥X∥. │T│. Ch. = 2/4=0.5 ，. engchi. i n U. v. ∥ X ∥為包含 X 集合的交易次數，X=beer │T│為全部 m 筆交易次數，m=4. 繼續令 beer 為 X 集合，且令 cookie 為 Y 集合，若關聯規則為 X=>Y(beer=>cookie)，先買啤酒後買餅乾，則此關聯規則 X=>Y 的支持度為： Supp(X=>Y) =. ∥X∪Y∥ │T│. = 1/4 = 0.25 ，. ∥ X ∪ Y ∥為同時包含 X 集合和 Y 集合的的交易次數， X=beer，Y=cookie. │T│為全部 m 筆交易次數，m=4. 16.

(17) 關聯規則 X=>Y 的信心度為： Conf(X=>Y) =. ∥X∪Y∥ ∥X∥. = 1/2=0.5，. ∥ X ∪ Y ∥為同時包含 X 集合和 Y 集合的的交易次數，X=beer，Y=cookie. ∥ X ∥為包含 X 集合的交易次數，X=beer. 關聯規則 X=>Y(beer=>cookie)的支持度為 0.25≥預設最小支持度值α=0.2 規則信心度為 0.5≥最小信心度值β=0.5，則稱此關聯規則(若買啤酒則買餅乾) 為合格的關聯規則。. 第三節分類方法. 政治大. 本研究用的分類方法是羅吉斯回歸與分類與迴歸樹兩種，建構模型的過程主要分成兩個步驟：. 立. ‧ 國. 學. 一、產生訓練集建立分類模型二、利用測試集對分類模型的準確率進行估計. ‧. 步驟一中的訓練集就是由某部分已知的歷史數據建立起的分類模型，分類模型代表著屬性和類別的關係(舉例來說：屬性為無鰭、產奶、無毒類別可能為哺乳類動物。)，分類的目的就是要能準確的對屬性進行類別的推測。而步驟二中的測試集為其它部分已知的歷史數據對於建立好的分類模型進行預測分類，產生後的結果與已知真正的分類結果進行比較，分類準確率為預測正確的正確測試集樣本個數占所有測試集樣本數的比例，是判斷分類模型好壞的一個重要指標. er. io. sit. y. Nat. al. n. v i n C h and regression 分類與迴歸樹(classification e n g c h i U tree)，簡稱「CART」，是由Breiman,Friedman,Stone and Olshen(1984)提出，又稱為決策樹，主要用來對新資料做出分類。決策樹模型架構如圖3-3-1：葉節點中部節點葉節點根部節點. 葉節點中部節點中部節點. 葉節點葉節點. 圖 3-3-1、決策樹模型架構示意圖. 17.

(18) 決策樹的結構分為三個部份：根部節點、中部節點和葉節點，決策樹的節點即為分類的準則，也就是給定的分類條件，只有條件符合和不符合兩種，所以輸出結果亦只有兩種，根部節點為一開始給的分類節點，中部節點為在獲得分類結果前的分類條件，最後的葉節點則為分類後所獲得的分類標記，節點和節點之間的連結線則稱為分支。. 第四節 Clementine 12.0 本研究使用的統計軟體:Clementine 12.0，由 SPSS 公司推出，主要用來提供資料採礦技術來分析資料，此軟體的使用者介面結合了多種規律的圖形，，透過滑鼠和連結螢幕上的功能節點來進行資料分析，使用技巧簡單易上手，可以進而設定模型參數來進行專家特性的資料分析，操作介面如圖 3-4-1：. 立. 政治大. ‧. ‧ 國. 學 er. io. sit. y. Nat. n. a圖l 3-4-1、clementine12.0 介面示意圖 v i n Ch engchi U 左半部的空白處為提供進行資料採礦工作的平台，而下欄有各種採礦的技術功能圖形，像是 classification、association、segmentation…等等工具。. 18.

(19) 第肆章實證研究第一節資料說明一、小林眼鏡歷史小林眼鏡公司為林皇志先生成立於 1980 年，起因為前一年桃園縣政府教育局委託林皇志先生於廣播中進行「學生視力保健」宣導，因此他深深體會到眼鏡店的專業技術對近視患者的重要性，於是成立小林眼鏡公司，後來林皇志先生因移民澳洲，遂於 1998 年將全數股權轉讓予現任董事長陳義展先生，現任總經理為朱慶忠先生。. 二、小林眼鏡現況. 立. 政治大. 小林眼鏡在 2012 年底已達到 227 家門市，全體員工達 900 多人，服務據點遍及台灣鄉鎮各地（包含澎湖離島地區），彙整小林眼鏡公司的資訊如表 4-1-1：. ‧ 國. 學. 公司名稱. 小林鐘錶眼鏡股份有限公司小林眼鏡. ‧. 品牌名稱. KOBAYASHI. 現任負責人. sit er. al. n. 成立時間. io. 成立人. y. Nat. 品牌 logo. 林皇志. i n Ch 1980 年 engchi U. v. 陳義展. 網址. www.kobayashi.com.tw. 經營理念. 經營現代化、技術專業化、服務親切化. 專業認證. 2008 年榮獲政府 GSP 優良服務認證 2008 年通過 ISO 9001 國際標準品質認證 2009 年獲得「行政院英語服務標章認證」 2013 年獲得 GSP 特優級企業認證標章大專視光系畢業人數 339 名，專業人數稱冠業界. 19.

(20) 小林眼鏡重要記事. 1994 年創造商品差異化，推出「扣立變」®兩用眼鏡 1995 年開發「星座眼鏡」商品，引爆年輕人新潮流行風，建立業界領導流行之地位。 1998 年強化「領導流行、物超所值」的品牌定位，推出「鈦聰明」眼鏡，將高科技的記憶金屬運用於眼鏡產品。 2000 年取得「哈利波特」眼鏡經銷權，與全球哈利波特熱潮同步流行 2003 年成為 NBA 眼鏡台灣區獨家總經銷 2005 年推出日系風格 NiKKEN® 雕花眼鏡 2006 年推出 NIKKEN 水鑽系列眼鏡 2010 年小林眼鏡智慧型商店正式啟動 2011 年首創『智慧配鏡 3D 模擬系統』，運用平板電腦，動態呈現鏡片功能特性，配鏡可以一目瞭然。. 政治大. 表 4-1-1、小林眼鏡公司狀況彙整表. 立. 三、小林眼鏡商品定位和經營理念. ‧ 國. 學. ‧. 小林眼鏡自創立以來，即本著「誠信、實在」的經營態度來服務顧客，且以三大理念「經營現代化、技術專業化、服務親切化」，做為企業經營的最高原則。小林眼鏡企業經常舉辦社會公益活動，幫助弱勢族群、清寒學生免費配鏡、協助社福團體及舉辦發票捐贈，在眼鏡業中樹立良好商譽及形象。小林眼鏡的商品定位是「年輕流行領導者」，經常為消費大眾創造流行風潮，歷年來成功的主題商品像是星座眼鏡、「哈利波特」眼鏡、運動品牌 NBA 運動眼鏡及 NiKKEN 日式雕花眼鏡等等。. n. er. io. sit. y. Nat. al. 四、資料屬性. Ch. engchi. i n U. v. 本研究的資料是由小林眼鏡副總經理張騰達學長提供，根據營業額、設立年份、代表性等等因素選取四家具有代表小林眼鏡公司的經營店面做為資料庫的來源，由北到南分別是：台北東湖店、桃園大湳店、彰化店以及高雄鳳山店。資料筆數分別為：台北東湖店 35107 筆、桃園大湳店 12420 筆、彰化店 27312 筆以及高雄鳳山店 24232 筆。此研究的總樣本取數共有 99071 筆交易次數，是由 37815 個客戶交易的總記錄次數，資料的交易記錄日期是從 97/1/1 至 101/4/29 約五年的交易資料，記錄登記的日期於取件時的日期作為登記。資料的收集是由四個門市的銷售人員在進行交易時給顧客填寫的基本資料表所獲得的訊息，資料的變數共取 9 個變數，在變數中為了方便性，針對幾個變數給予編號和代號，彙整變數型態如下表 4-1-2：客戶編號. 多碼數字編號記錄 20.

(21) 生日. 日期式 7 碼數字記錄 ex:0800923. 性別. 男、女. 地區. 台北東湖地區編號為 1、桃園大湳地區編號為 2、彰化地區編號為 3、高雄鳳山地區編號為 4. 教育程度. 教育程度為大專以上編號為 1、高中編號為 2、國中編號為 3、小學編號為 4、其他編號為 5。. 職業. 商業編號為 1、工礦編號為 2、農業編號為 3、公教編號為 4、軍警編號為 5、學生編號為 6、家管編號為 7、服務業編號為 8、其他編號為 9。. 取件日期. 日期式 7 碼數字記錄，從 97 年至 101 年. 銷售總額. 金額數字記錄，最大值為 65000 元，最小值為 0 元. 銷售類別. 整副遠視眼鏡代號為 A1、整副近視眼鏡代號為 A2、整副漸進眼鏡代號為 A3、整副兒控眼鏡代號為 A4、整副雙光眼鏡代號為 A5、遠視用換片代號為 B1、近視用換片代號為 B2、多焦換片代號為 B3、兒控換片代號為 B4、雙光換片代號為 B5、遠視用換框代號為 C1、近視用換框代號為 C2、太陽眼鏡代號為 C3、多焦換框代號為 C4、兒控換框代號為 C5、雙光換框代號為 C6、隱形遠視眼鏡代號為 D1、隱形近視眼鏡代號為 D2、拋棄式隱形眼鏡代號為 D3、藥水代號為 E1、食品代號為 F1、禮券代號為 Z1. 立. 政治大. ‧. ‧ 國. 學. Nat. sit. y. 表 4-1-2、資料變數型態彙整表. n. al. er. io. 在生日變數的部分，為了將連續型的生日記錄轉換成類別型記錄分析，所以依據客戶生日紀錄將客戶年齡分成四個年齡層：0-14 歲 (生日年份為 1999~2013) 為兒童期，15 歲至 24 歲(生日年份為 1989~1998)為青年期，25 歲至 44 歲(生日年份為 1969~1988)為壯年期，45 歲至 64 歲(生日年份為 1949~1968)為中年期， 65 歲以後 (生日年份為 1949 以前)的為老年期。. Ch. engchi. i n U. v. 第二節敘述統計與 RFM 分析一、敘述統計本研究先分析歷年銷售商品的次數和金額趨勢，資料選取共 4 年，從 97 年至 100 年，分析商品為主要商品共 10 種，商品代號分別為 A1、A2、A3、B1、C1、 C3、D1、D3、E1、F1，做出 97-100 年的「商品銷售次數時間序列圖」和「商品銷售金額時間序列圖」如圖 4-2-1 和圖 4-2-2：. 21.

(22) A1 D3 D3 A1. 圖 4-2-1、商品銷售次數時間序列圖. 圖 4-2-2、商品銷售金額時間序列圖. 從圖 4-2-1 和圖 4-2-2 看出雖然商品 D3(拋棄式隱形眼鏡)為銷售次數最大宗商品，但商品 A1(整副遠視眼鏡)銷售金額列全商品之冠，幾乎是商品 D3 銷售金額的兩倍，而兩種主要商品幾乎都呈現歷年成長的趨勢，可知此兩種商品銷售策略還算成功，小林眼鏡公司必須更針對這兩種商品去做出更有效的客製化行銷策略。將商品 D3 和 A1 排除，放大分析其他商品的時序圖如下：. 政治大. 立. ‧. ‧ 國. 學. n. al. D1. D1. Ch. A3. engchi. er. io. sit. y. Nat. E1. i n U A3. v. E1. F1. F1. 圖 4-2-3、其他商品銷售次數時間序列圖. 圖 4-2-4、其他商品銷售金額時間序列圖. 從圖 4-2-3 和 4-2-4 看出商品 A3(整副漸進眼鏡)、商品 E1(藥水)和商品 F1(食品)在銷售次數和金額兩部分都大幅呈現歷年成長，商品 E1(藥水)和商品 D3(拋棄式隱形眼鏡)相輔相成，可針對此兩種商品一起擬定行銷策略，而商品 D1(隱形遠視眼鏡)卻在兩方面都呈現歷年下降，必須針對此商品找出銷售問題進行補救措施。. 22.

(23) 繼續進分析商品銷售次數和金額的歷年成長率，將資料成長率為 1 做為基底，成長率則為當年資料筆數除以前一年的資料筆數而得，成長率大於 1 為正成長，反之則為負成長。舉例：A1 商品在 98 年的次數成長率=(98 年的資料筆數/97 年的資料筆數) = 4981/4486 = 1.11034329，表示此商品在 98 年成長了約 0.11 倍為正成長。分別做出 97-100 年的成長率時間序列圖如圖 4-2-5 和圖 4-2-6：. F1. F1. 立. 政治大圖 4-2-6、商品銷售金額成長率時間序列圖. ‧ 國. 學. 圖 4-2-5、商品銷售次數成長率時間序列圖. ‧. 從圖 4-2-5 和圖 4-2-6 和可以看出商品 F1(食品)在 98 年銷售次數和金額成長率居全商品之冠，次數成長率為 4.79 倍，金額成長率為 5.04 倍，其他商品在四年內成長率介於 0~2 倍之間，振幅不大。(註：小林眼鏡推出的食品為保健食品，主要為保. y. Nat. 養眼睛和修復視力而推出，總共有：葉黃素軟膠囊、葉黃素 ISO 軟膠囊、興視帶葉黃素、葉黃素. n. al. er. io. 原漾花草茶、薄荷花草茶和明漾黑醋栗軟糖 12 件食品商品。). sit. PS 軟膠囊、樟芝葉黃素（素食）膠囊、生命酵素、山桑子．黑豆精華錠劑、第二代明漾精華飲、. i n U. 同樣地將商品 F1 排除，分析其他商品的時序圖如下：. Ch. engchi. A3. v. A3. D1 D1. 圖 4-2-8、其他商品銷售金額成長率時間序列圖. 圖 4-2-7、其他商品銷售次數成長率時間序列圖. 從圖 4-2-7 和圖 4-2-8 可以看出只有商品 D1(隱形遠視眼鏡)在銷售次數及金額的成長率歷年呈現負成長，剛好呼應圖 4-2-3 和圖 4-2-4 中商品 D1 的銷售次數 23.

(24) 和金額成直線下降。而其他商品的銷售次數和金額幾乎都呈現正成長率，商品 A3(整副漸眼鏡)的成長率振幅最大。. 二、RFM 分析接下來進行 RFM 分析，先將所有客戶九等份並給每個客戶分別為 R、F、M 三種不同指標的分數，三個指標最高分為 9 分，最低分為 1 分，再針對 RFM 的三個指標分數對消費客戶作分群，共將客戶分成四群如下表 4-2-1：分群編號. 客戶個數. R 指標分數. F 指標分數. M 指標分數. 客戶特徵. 1 2 3 4. 4187 8415 8396 13073. ↑ ↑ ↓ ↓. ↑ ↓ ↓ ↓. ↑ ↑ ↑ ↓. 重要保持重要發展一般低價值. 政治大. 表 4-2-1、RFM 分群表. 立. ‧. ‧ 國. 學. 從客戶特徵為重要保持的客戶群中再選出 RFM 分數為滿分 27 分的客戶來做重要客戶，共有 614 名，如圖 4-2-9：. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4-2-9、RFM 滿分客戶圖. 將這 614 名重要客戶進行特徵分析並與全部客戶做為比較。原始資料的 9 個變數中排除「客戶編號」和「銷售總額」之外，只針對其他 7 種變數作出圓餅圖分析如圖 4-2-10 至 4-3-16。其中左邊的圓餅圖為全部客戶消費次數屬性，全部消費次數加總起來為 99071 筆，右邊的圓餅圖為重要客戶消費人數屬性，客戶人數加總起來為 614 筆)： 24.

(25) 全部客戶消費次數屬性. 重要客戶消費人數屬性. 一、地區：桃園. 彰化. 24%. 18%. 35%. 35107 筆(35%). 桃園大湳. 立 12420 筆(13%). 彰化. 重要客戶人數. 政治大 263 筆(43%). 增加 3%. 24232 筆(24%). 113 筆(18%). 表 4-2-2、地區比例比較表. 減少 6%. ‧. ‧ 國. 192 筆(31%). er. io. a中年期 v l C 老年期兒童期 i 青年期壯年期 n 1% 0% hengchi U. n 壯年期 2% 2%. 13%. 增加 8%. 27312 筆(28%). Nat. 青年期. 次數增加(減少)百分比減少 5%. (註：表格由上往下的次序相對應於圓餅圖順時鐘的類別次序). 兒童期. 重要客戶人數相對於全部消費. 46 筆(8%). 表 4-2-2 看出台北和彰化地區的重要客戶比例增加。. 二、年齡：. 14%. 31%. 52%. 中年期. 老年期. 19%. 66%. 圖 4-2-13、重要客戶年齡人數圓餅圖. 圖 4-2-12、全部客戶年齡次數圓餅圖. 年齡. 43%. 圖 4-2-11、重要客戶地區人數圓餅圖. 學. 高雄鳳山. 高雄. 8%. 全部消費次數. 台北東湖. 彰化. 31%. 13%. 圖 4-2-10、全部客戶地區次數圓餅圖. 地區. 桃園. y. 28%. 台北. 高雄. sit. 台北. 全部消費次數. 重要客戶人數. 重要客戶人數相對於全部消費次數增加(減少)百分比. 兒童期. 1847 筆(2%). 2 筆(0%). 減少 2%. 青年期. 28027 筆(31%). 107 筆(19%). 減少 12%. 壯年期. 47538 筆(52%). 373 筆(66%). 增加 14%. 25.

(26) 中年期. 11979 筆(13%). 81 筆(14%). 增加 1%. 老年期. 1529 筆(2%). 7 筆(1%). 減少 1%. 缺失值. 8151 筆. 44 筆表 4-2-3、年齡比例比較表. 表 4-2-3 看出壯年期和中年期兩個最具有高經濟和高消費能力的族群，在重要客戶消費群比例增加，15 至 24 歲主要職業為學生的青年期，比較沒有消費能力，對小林眼鏡企業的貢獻度在重要客戶中減少許多。三、性別：男. 女. 男. 31% 69%. 政治大. 圖 4-2-14、全部客戶性別次數圓餅圖. 全部消費次數. 78%. 圖 4-2-15、重要客戶性別人數圓餅圖. 重要客戶人數. 重要客戶人數相對於全部消. ‧. 性別. 22%. 學. ‧ 國. 立. 女. 費次數增加(減少)百分比. y. 減少 9%. 女性. 67898 筆(69%). 477 筆(78%). 增加 9%. 缺失值. 406 筆. 1筆. er. 136 筆(22%). io. 30767 筆(31%). sit. Nat. 男性. n. a l 表 4-2-4、性別比例比較表 i v n Ch U engchi 表 4-2-4 看出消費客戶男女比例相差甚大，女性在重要客戶消費群比例高達. 男性的 3 倍以上，可知小林眼鏡必須好好的針對女性市場來做行銷策略。四、教育程度： 1大專以上. 2高中. 5%. 13%. 3國中. 4小學. 5其他. 大專以上. 3% 8%. 高中. 國中. 國小. 其他. 18%. 4% 51%. 17%. 23%. 圖 4-2-16、全部客戶教育程度次數圓餅圖. 58%. 圖 4-2-17、重要客戶教育程度人數圓餅圖 26.

(27) 教育程度. 全部消費次數. 重要客戶人數. 重要客戶人數相對於全部消費次數增加(減少)百分比. 大專以上. 21786 筆(51%). 171 筆(58%). 增加 7%. 高中. 9907 筆(23%). 51 筆(17%). 減少 6%. 國中. 3554 筆(8%). 12 筆(4%). 減少 4%. 小學. 2667 筆(5%). 7 筆(3%). 減少 2%. 其它. 5587 筆(13%). 54 筆(18%). 增加 5%. 缺失值. 55570 筆. 319 筆. 表 4-2-5、教育程度比例比較表. 表 4-2-5 看出教育程度為大專以上的客戶在重要客戶消費群中比例提高。消費者主要族群為受到比較高的教育程度知識份子，年齡和學習時間的增加造成視力衰退和普遍教育程度的提高也能說明此現象。. 3農業 8服務業. 0% 4%. 2%. 4公教 9其他. 25%. 0% 0%. 16%. 37%. 2%. 27%. 5軍警. 5%. 1%. 圖 4-2-19、重要客戶職業人數圓餅圖. n. er. io. al. 3農業 8服務業. 24%. 圖 4-2-18、全部客戶職業次數圓餅圖. 職業. 2工礦 7家管. Nat. 3%. 2%. 1商業 6學生. ‧. 15%. 17%. 5軍警. sit. 20%. 立. 4公教 9其他. ‧ 國. 2工礦 7家管. 學. 1商業 6學生. y. 五、職業：. 政治大. Ch. 全部消費次數. i n U. 重要客戶人數. engchi. v. 重要客戶人數相對於全部消費次數增加(減少)百分比. 商業. 7542 筆(17%). 77 筆(25%). 增加 8%. 工礦. 1120 筆(2%). 1 筆(0%). 減少 2%. 農業. 41 筆(0%). 0 筆(0%). 不變. 公教. 1587 筆(4%). 16 筆(5%). 增加 1%. 軍警. 890 筆(2%). 4 筆(1%). 減少 1%. 學生. 16352 筆(37%). 82 筆(27%). 減少 10%. 家管. 1274 筆(3%). 6 筆(2%). 減少 1%. 服務業. 6463 筆(15%). 47 筆(16%). 增加 1%. 其它. 8888 筆(20%). 73 筆(24%). 增加 4%. 缺失值. 54914 筆. 308 筆. 表 4-2-6、職業次數比例比較表 27.

(28) 從表 4-2-6 可知商業占重要客戶的比例增加，和學生不分軒輊，兩種職業的消費次數超過小林眼鏡全部消費次數的一半。六、取件日期： 97年. 98年. 99年 8%. 100年. 101年. 97年. 98年. 99年. 21%. 19%. 32%. 25%. 23%. 圖 4-2-20、全部客戶取件日期次數圓餅圖. 取件日期. 全部消費取件日期次數. 立. 圖 4-2-21、重要客戶取件日期次數圓餅圖. 治政重要客戶取件日期次數大. 重要客戶取件次數相對於全部消. 1841 筆(14%). 減少 4% 減少 2%. 21196 筆(21%). 2546 筆(19%). 24485 筆(25%). 3190 筆(23%). 26672 筆(27%). 4320 筆(32%). 8376 筆(9%). 1657 筆(12%). 101 年. 增加 5%. Nat. 表 4-2-7、取件日期次數比例比較表. 增加 3%. y. 100 年. 減少 2%. sit. ‧ 國. 98 年. ‧. 18342 筆(18%). 費取件次數增加(減少)百分比. 學. 97 年 99 年. 101年. 12% 14%. 19%. 27%. 100年. er. io. 重要客戶取件日期次數比例相對於全部消費次數在歷年來有增加的趨勢。也就是離取件日愈近，重要客戶的比例會愈大，此現象足見最近購買日對 RFM 分析針對 Recency(最近購買日)指標選出的重要客戶有相當程度的影響。. n. al. Ch. engchi. i n U. v. 七、銷售類別：由於有些銷售類別的資料筆數很小,所以把 0%的資料去掉，於是去除了 12 個銷售類別留下 10 個類別，再做一次資料的銷售類別分配屬性和資料次數圓餅圖並和重要客戶銷售類別次數圓餅圖做比較： A1. A2. A3. B1. C1. C3. D1. D3. E1. A1. F1. 1% 10%. C1 2%. 20%. 2% 2%. 53%. B1. D3. 1% 3% 1%. E1. F1. 其他. 1% 2%. 15%. 5%. 2% 4%. D1. 75%. 1%. 圖 4-2-22、全部客戶銷售類別次數修正後圓餅圖. 28. 圖 4-2-23、重要客戶銷售類別次數圓餅圖.

(29) 銷售類別. 全部消費次數. 重要客戶消費次數. 重要客戶次數相對於全部消費次數增加(減少)百分比. A1 整副遠. 19862 筆(20%). 378 筆(3%). 減少 17%. B1 遠用換片. 5146 筆(5%). 153 筆(1%). 減少 4%. C1 遠用換框. 2280 筆(2%). 84 筆(1%). 減少 1%. D1 隱形遠. 3923 筆(4%). 257 筆(2%). 減少 2%. D3 拋棄式. 51081 筆(53%). 10161 筆(75%). 增加 23%. E1 藥水. 9745 筆(10%). 2072 筆(15%). 增加 5%. F1 食品. 1361 筆(1%). 336 筆(2%). 增加 1%. 其他. 4064 筆(5%). 113 筆(1%). 表 4-2-8、銷售類別次數比例比較表. 政治大. 表 4-2-8 可以對照圖 4-2-1 的商品銷售次數時間序列圖，商品 A1(整副遠視眼鏡)銷售次數歷年下降和商品 D3(拋棄式隱形眼鏡)銷售次數歷年和重要客戶次數相對於全部消費次數的變動方向一致，此現象足見購買次數對 RFM 分析針對對 Frequency (購買次數)指標選出的重要客戶有相當程度的影響。表中「其它」這個欄位代表消費次數小於 40 筆的銷售類別。. 立. ‧ 國. 學. ‧. 資料七個變數中的缺失值為客戶不想留下的資料或是亂寫無法判斷的資料，此研究對於有部分變數缺失的客戶資料沒有整筆刪除，因為在同筆有填寫的期它變數部分具有價值。上述的圓餅圖不呈現缺失值，只運用有效筆數呈現客戶的性質架構。. er. io. sit. y. Nat. 第三節關聯規則分析 a. n. iv l C n hengchi U 本研究想找出重要客戶屬性和購買銷售類別之間的關聯規則，使用關聯規則. 中的 Apriori 分析法，引入變數為：地區、年齡、性別、教育程度、職業和銷售類別總共 6 個變數，想知道前五個變數對銷售類別的關聯關係，先將 Apriori 演算法的前項最小支持度門檻值α設為 0.2，規則最小信心度門檻值β設為 0.5，由 clementine 算出的結果如圖 4-3-1：. 29 圖 4-3-1、六個類別的關聯規則圖.

(30) 圖 4-3-1 的第一欄 consequent 為關聯規則的後項，第二欄 antecedent 為關聯規則的前項，第三欄 Rule ID 是規則序號，第四欄 Support%為前項的支持度，第五欄 Confidence%是此關聯規則的信心度，第六欄 Rule Support%是關聯規則的支持度。例如第一排提供的資訊為：規則前項為地區在彰化(代號為 3)且出生年份為壯年期，規則後項是性別為女性，此關聯規則(彰化,壯年期=>女性)是第 19 條規則，前項的支持度為 23.676%，此關聯規則(彰化,壯年期=>女性)的信心度為 88.626%，此關聯規則(彰化,壯年期=>女性)的支持度為 20.983%，另外在圖 3-1 的右上方顯示小林眼鏡的 6 個變數跑出了 33 條關聯規則，關聯規則的上下順序是依據規則信心度的高低而排序的。 (註：以第一排的規則為例：前項的支持度=地區在彰化且出生年份為壯年期的支持度=地區在彰化且出生年份為壯年期銷售個數/總銷售個數=3209/13554=0.23676。規則的信心度=地區在彰化. 政治大. 且出生年份為壯年期的女性銷售個數/地區在彰化且出生年份為壯年期的銷售個數 =2844/3209=0.88626。規則的支持度=地區在彰化且出生年份為壯年期的女性銷售個數/總銷售個數=2844/13554=0.20983。). 立. ‧ 國. 學. 前項支持度. 規則信心度. y. 關聯規則. sit. Nat. 規則序號. ‧. 但是本研究有興趣的是後項為銷售類別的規則，將規則最小支持度門檻值α 提升至 0.3，規則最小信心度門檻值β提升至 0.6，從 33 條關聯規則揀選出 4 條關聯規則，規則如表 4-3-1：規則支持度. 0.42784. 30. 性別為女性,出生年份為壯年期 =>拋棄式隱形眼鏡. al. 0.46842. 0.78406 0.36727. U e n g c h i 0.58986. 0.78299 0.46186. n. Ch. 11. 出生年份為壯年期=>拋棄式隱形眼鏡. 16. 性別為女性=>拋棄式隱形眼鏡. er. 地區為台北=>拋棄式隱形眼鏡. io. 9. v ni. 0.79327. 0.79686 0.34093. 0.75446 0.59849. 表 4-3-1、後項為銷售類別關聯規則表(α=0.3，β=0.6). 從表 4-3-1 可以獲知商品拋棄式隱形眼鏡的購買規則客戶特徵為： 1. 台北地區的客戶 2. 壯年期(25~44 歲)的女性客戶 3. 壯年期(25~44 歲)的客戶 4. 女性的客戶設定規則最小門檻直只找出商品拋棄式隱形眼鏡的客戶特徵，是因為拋棄式隱形眼鏡在重要客戶的銷售類別中為大宗商品(75%)，所以比較容易滿足最小 30.

(31) 支持度，想進一步的去調查其餘商品的關聯規則，於是先不預設α，只預設 β為 0.5，找出了關聯規則後項為銷售商品整副遠視眼鏡有 3 條、遠視用換片有 11 條、藥水有 70 條、食品有 12 條後項為商品整副遠視眼鏡的 3 條關聯規則：規則序號. 關聯規則. 前項支持度. 規則信心度. 規則支持度. 196. 性別為男性,出生年份為兒童期 =>整副遠視眼鏡. 0.00074. 0.5. 0.00037. 197. 地區為台北,出生年份為兒童期 =>整副遠視眼鏡. 0.00074. 0.5. 0.00037. 1002. 性別為男性,地區為台北,出生年份為兒童期=>整副遠視眼鏡. 0.00074. 0.5. 0.00037. 政治大. 表 4-3-2、後項為整副遠視眼鏡(A1)關聯規則表(β=0.5). 立. ‧. ‧ 國. 學. 在表 4-3-2 發現了一個需要探討的地方，這 3 條規則不僅規則類似，而且前項支持度、規則信心度和規則支持度是相同的，深入調查後發現這 3 條規則是出自同一個客戶，編號為為 8209790122，其客戶屬性為:地區為台北、性別為男性、出生年份為兒童期，此客戶總共有 10 筆銷售紀錄，其中有 5 筆為銷售整副遠視眼鏡的紀錄，故規則信心度為 5/10=0.5。. y. Nat. sit. n. al. er. io. 這些少數筆資料的規則信心度都非常高，但卻因為規則支持度過小無法超過預設門檻值α而無法顯現出規則，也就是說發生的規則因為數量太少而被忽略，此現象也說明了 Apriori 方法的概念，先從子集合為頻繁集做為開始揀選的條件。同時，針對此個別客戶的規則，我們即可做一對一的客戶行銷，也就是對於客戶編號為 8209790122 的客戶個別進行整副遠視眼鏡的推銷，預計將會提升銷售成功的機會。. Ch. engchi. i n U. v. 後項為商品遠視用換片的 11 條關聯規則：規則序號. 關聯規則. 前項支持度. 規則信心度. 規則支持度. 1550. 地區為桃園,職業為服務業,出生年份為中年期=>遠視用換片. 0.00066. 0.667. 0.00044. 1553. 地區為桃園,教育程度為其他,出生年份為中年期=>遠視用換片. 0.00066. 0.667. 0.00044. 1557. 地區為桃園,出生年份為中年期,性別為男性=>遠視用換片. 0.00066. 0.667. 0.00044. 31.

(32) 職業為服務業, 教育程度為其他, 性別為男性=>遠視用換片. 0.00066. 0.667. 0.00044. 1569. 職業為服務業,出生年份為中年期, 性別為男性=>遠視用換片. 0.00066. 0.667. 0.00044. 3589. 地區為桃園,職業為服務業,教育程度為其他,出生年份為中年期=>遠視用換片. 0.00066. 0.667. 0.00044. 3591. 地區為桃園, 職業為服務業,教育程度為其他,性別為男性=>遠視用換片. 0.00066. 0.667. 0.00044. 3594. 地區為桃園,職業為服務業,出生年份為中年期,性別為男性=>遠視用換片. 0.00066. 0.667. 0.00044. 3602. 地區為桃園,教育程度為其他,出生年份為中年期,性別為男性=>遠視用換片. 政治 0.00066 大. 0.667. 0.00044. 3610. 職業為服務業,教育程度為其他,出生年份為中年期,性別為男性=>遠視用換片. 0.00066. 0.667. 0.00044. 5459. 地區為桃園,職業為服務業,教育程度為其他,出生年份為中年期,性別為男性 =>遠視用換片. 0.00066. 0.667. 0.00044. n. er. io. sit. y. Nat. al. ‧. ‧ 國. 立. 學. 1566. i n U. v. 表 4-3-3、後項為遠視用換片(B1)關聯規則表(β=0.5). Ch. engchi. 表 4-3-3 中的 11 條規則出自同一個客戶，編號為 5508460005，客戶屬性為: 地區為桃園、性別為男性、出生年份為中年期、職業為服務業，教育程度為其他，此客戶總共有 9 筆銷售紀錄，其中有 3 筆為整副遠視眼鏡的紀錄，6 筆為遠視用換片的紀錄，故規則信心度為 6/9 = 0.667。同樣的，可以對於客戶編號為 5508460005 的客戶個別進行遠視用換片的推銷，提升銷售成功機會。後項為商品食品的 12 條關聯規則：規則序號 358. 關聯規則性別為男性,出生年份為老年期 =>食品 32. 前項支持度. 規則信心度. 規則支持度. 0.00096. 0.923. 0.00089.

(33) 地區在桃園,性別為男性,出生年份為老年期=>食品. 0.00096. 0.923. 0.00089. 1910. 職業為商業,出生年份為中年期,地區為彰化=>食品. 0.0014. 0.842. 0.00118. 4072. 職業為商業,出生年份為中年期,地區為彰化,教育程度為大專以上=> 食品. 0.0014. 0.842. 0.00118. 4075. 職業為商業,出生年份為中年期,地區為彰化,性別為女性=>食品. 0.0014. 0.842. 0.00118. 5638. 職業為商業,出生年份為中年期,地區為彰化,教育程度為大專以上,性別為女性=>食品. 0.0014. 0.842. 0.00118. 1867. 地區為彰化,職業為服務業,出生年份為中年期=>食品. 0.75. 0.00155. 3998. 0.00207 政治大. 職業為服務業,教育程度為其他,出生年份為中年期,地區為彰化=>食品. 0.00207. 0.75. 0.00155. 4001. 職業為服務業,教育程度為其他,出生年份為中年期,性別為女性=>食品. 0.00207. 0.75. 0.00155. 4009. 職業為服務業,出生年份為中年期, 地區為彰化,性別為女性=>食品. 5609. 職業為服務業,教育程度為其他,出生年份為中年期,地區為彰化,性別為女性=>食品. n. engchi. 職業為服務業,教育程度為其他,出生年份為中年期=>食品. y. 0.75. 0.00155. 0.75. 0.00155. 0.568. 0.00155. sit. io. 1864. Ch. 0.00207 0.00207. er. Nat. al. ‧. ‧ 國. 立. 學. 1511. i n U. v. 0.00273. 表 4-3-4、後項為食品(F1)關聯規則表(β=0.5). 表 4-3-4 中的 12 條規則：序號為 358 和 1511 的關聯規則出自於同一個客戶，客戶編號為 55098，其客戶屬性為:地區為桃園、性別為男性、出生年份為老年期，此客戶總共有 13 筆銷售紀錄，其中有 1 筆為整副近視眼鏡，其他 12 筆為食物的紀錄，故規則信心度為 12/13 = 0.923。序號為 1910、4072、4075、5638 的關聯規則出自於同一個客戶，客戶編號為 2008280097，其客戶屬性為:地區為彰化、性別為女性、出生年份為中年期，職業為商業,教育程度為大專以上，此客戶總共有 19 筆銷售紀錄，其中有 1 33.

(34) 筆為遠視用換片，2 筆為整副近視眼鏡，其他 16 筆為食物的紀錄，故規則信心度為 16/19 = 0.842。序號為 1867、3998、4001、4009、5609 的關聯規則出自於兩個不同的客戶，第一個客戶編號為 2008410062，其客戶屬性為:地區為彰化、性別為女性、出生年份為中年期、職業為服務業,教育程度為其他,，此客戶總共有 19 筆銷售紀錄，其中有 2 筆整副近視眼鏡，其他 17 筆為食物的紀錄。第二個客戶編號為 2008450011，其客戶屬性和第一個客戶屬性相同，此客戶總共有 9 筆銷售紀錄，其中主要有 4 筆為食物的紀錄，故規則信心度為(17+4)/(19+9) = 21/28 = 0.75。序號為 1864 的關聯規則出自於三個不同的客戶，其中兩個客戶為構成規則 1867、3998、4001、4009、5609 的客戶，第三個客戶的編號為 5508460005，其客戶屬性為:出生年份為中年期、職業為服務業,教育程度為其他,，此客戶總共有 9 筆銷售紀錄，其中有 3 筆整副遠視眼鏡，其他 6 筆為食物的紀錄，故規則信心度為(17+4+0)/(19+9+9) = 21/37 = 0.568。. 立. 政治大. ‧ 國. 學. 根據這 12 條關聯規則，對於客戶編號為 55098、2008280097、2008410062 和 2008450011 這四名客戶可以進行一對一的食物行銷，提升銷售成功機會。. io. 2549. 出生年份為中年期,職業為商業,教育程度為其他=>藥水. 2567. 地區為台北 ,出生年份中年期,教育程度為其他=>藥水. 4891. 地區為台北,出生年份為中年期, 職業為商業,教育程度為其他=>藥. n. al. Ch. 規則支持度. 0.974. 0.00273. engchi. 0.974. 0.00273. 0.0028. 0.974. 0.00273. y. 規則信心度. 前項支持度. sit. 關聯規則. 0.0028. er. Nat. 規則序號. ‧. 後項為商品藥水的關聯規則有 70 條，將預設最小信心度門檻值β從 0.5 提高至 0.8 以縮減規則，縮至共有 15 條關聯規則：. iv n U0.0028. 水 4894. 性別為女性,出生年份中年期,職業為商業,教育程度為其他,=>藥水. 0.0028. 0.974. 0.00273. 4904. 地區為台北,性別為女性,職業為商業,教育程度為其他=>藥水. 0.0028. 0.974. 0.00273. 4929. 地區為台北,性別為女性,教育程度為其他,出生年份為中年期=>藥水. 0.0028. 0.974. 0.00273. 5949. 地區為台北,性別為女性,出生年份為中年期,職業為商業,教育程度為. 0.0028. 0.974. 0.00273. 34.

(35) 其他=>藥水 4939. 地區為台北,性別為女性,職業為其他,教育程度為其他=>藥水. 0.00273. 0.973. 0.00266. 4952. 地區為台北,教育程度為其他,出生年份為壯年期,性別為女性=>藥水. 0.00273. 0.973. 0.00266. 5973. 地區為台北,性別為女性,出生年份為壯年期,職業為其他,教育程度為其他=>藥水. 0.00273. 0.973. 0.00266. 4660. 地區為高雄,出生年份為中年期,職業為服務業,教育程度為大專以上 =>藥水. 0.00384. 0.846. 0.00325. 5859. 地區為高雄,出生年份為中年期,職業為服務業,教育程度為大專以上, 性別為女=>藥水. 0.00384. 0.846. 0.00325. 2370. 地區為高雄,出生年份為中年期,職業為服務業=>藥水. 0.00775. 0.8. 0.0062. 4662. 地區為高雄,出生年份為中年期,職業為服務業,性別為女性=>藥水. 0.00775. 0.8. 0.0062. 4751. 地區為高雄,性別為男性,職業為商業,教育程度為高中=>藥水. 0.00111. 0.8. 0.00089. 學 ‧. ‧ 國. 立. 政治大. Nat. sit. y. 表 4-3-5、後項為藥水(E1)關聯規則表(β=0.8). n. al. er. io. 深入調查表 4-3-5 內的 15 條規則：. i n U. v. 序號為 2549、2567、4891、4894、4904、4929、5949 的關聯規則出自於同一個客戶，客戶編號為 8208930124，客戶屬性為:地區為台北、性別為女性、出生年份為中年期、職業為商業、教育程度為其他，此客戶總共有 38 筆銷售紀錄，其中有 1 筆為遠視用框，其他 37 筆為藥水的紀錄，故規則信心度為 37/38 = 0.974。. Ch. engchi. 序號為 4939、4952、5973 的關聯規則出自於同一個客戶，客戶編號為 82087，客戶屬性為:地區為台北、性別為女性、出生年份為壯年期、職業為其他、教育程度為其他，此客戶總共有 37 筆銷售紀錄，其中有 1 筆為整副遠視眼鏡，其他 36 筆為藥水的紀錄，故規則信心度為 36/37 = 0.973。序號為 4660、5859 的關聯規則出自於兩個不同的客戶，第一個客戶編號 1609610024，客戶屬性為:地區為高雄、性別為女性、出生年份為中年期、職業為服務業、教育程度為大專以上，此客戶總共有 38 筆銷售紀錄，其中有 1 筆為食品，有 5 筆為隱形遠視眼鏡，其他 32 筆為藥水的紀錄；第二個客戶編號為 16094， 35.

(36) 客戶屬性和第一個客戶屬性相同，此客戶總共有 14 筆銷售紀錄，其中有 1 筆為整副漸進眼鏡，有 1 筆為食品，其他 12 筆為藥水的紀錄，故規則信心度為 (12+32)/(38+14) = 44/52 = 0.846。序號為 2370、4662 的關聯規則出自於三個不同的客戶，第一個和第二個客戶為規則序號 4660 和 5859 的客戶，第三個客戶編號為 1609660134，其客戶屬性為:地區為高雄、性別為女性、出生年份為中年期、職業為服務業、教育程度為高中，此客戶總共有 53 筆銷售紀錄，其中有 1 筆為整副遠視眼鏡，有 1 筆為食品，有 1 筆為遠視隱形眼鏡，有 10 筆為拋棄式隱形眼鏡，其他 40 筆為藥水，故規則信心度為(40+12+32)/(53+38+14) = 84/105 = 0.8。序號為 4751 的關聯規則出自於一個客戶，客戶編號為 1609410060，其客戶屬性為:地區為高雄、性別為男性、職業為商業、教育程度為高中，此客戶總共有 15 筆銷售紀錄，其中有 3 筆為拋棄式隱形眼鏡，其他 12 筆為藥水的紀錄，故規則信心度為 12/15 = 0.8。. 政治大. 立. ‧. ‧ 國. 學. 根據這 15 條關聯規則，對於客戶編號為 8208930124、82087、1609610024、 16094、1609660134 和 1609410060 這六名客戶可以進行一對一的藥水行銷，提升銷售成功機會。. n. al. er. io. sit. y. Nat. 主要銷售商品拋棄式隱形眼鏡占全部銷售商品次數很大的比例(75%)，會影響其他商品的比例，於是將商品為拋棄式隱形眼鏡的銷售紀錄排出，，預設規則最小支持度門檻值α為 0.2，規則最小信心度門檻值β為 0.5，找出了關聯規則後項為商品藥水有 6 條關聯規則如表 4-3-6：規則序號. 關聯規則. Ch. engchi. i n U. v. 規則支持度. 前項支持度. 規則信心度. 0.77807. 0.65455 0.50928. 19. 性別為女性=>藥水. 14. 出生年份為壯年期=>藥水. 0.51135. 0.63055 0.32243. 37. 性別為女性,出生年份為壯年期. 0.40407. 0.65646 0.26525. =>藥水 6. 地區為台北=>藥水. 0.34719. 0.63328 0.21986. 9. 地區為彰化=>藥水. 0.34453. 0.62361 0.21485. 12. 教育程度為大專以上=>藥水. 0.35426. 0.59983. 0.2125. 表 4-3-6、除去拋棄式隱形眼鏡(D3)、後項為藥水(E1)關聯規則表(α=0.2，β=0.5). 從表 4-3-6 可以獲知商品藥水的購買規則客戶特徵： 1.台北地區的客戶 2.壯年期(25~44 歲)的女性客戶 36.

(37) 3.壯年期(25~44 歲)的客戶 4.女性的客戶 5.彰化地區的客戶 6.教育程度為大專以上的客戶經由調整規則支持度門檻值α大小整合現象如表 4-3-7： α增加. 規則顯現出總體客戶的規則，可用來對客戶進行主要行銷活動。. α減少. 規則顯現出個體客戶的規則，可用來做為一對一的客戶行銷活動。表 4-3-7、最小支持度比較表. 第四節預測分析. 政治大. 接下來預測小林眼鏡的未來潛在客戶，建立預測模型並進行模型評估，本研究用羅吉斯迴歸模型和分類與回歸樹模型來做預測。本研究根據「年份變數資料」和 clementine12 中「有無變數選取」兩種差別來建立模型：「年份變數資料」的部分有兩種，用 99 年資料來預測 100 年以及用 98、99 年資料來預測 100 年；「有無變數選取」的部分有兩種，建模前使用變數選取以及建模前未使用變數選取。. 立. ‧ 國. 學. ‧. Clementine12 進行變數選取時根據以下五個指標，來選取重要變數： 1.遺漏值的限制最大百分比、2.在一個單一的類別記錄最大百分比、3.最大數量的類別的記錄的百分比、4.最小變異係數、5.最低標準偏差. sit. y. Nat. n. al. er. io. 建模過程的第一個步驟為產生訓練集建立分類模型，第二個步驟為利用測試集對分類模型準確率進行估計，在步驟一和步驟二之間，我們還需要探討是否使用平衡的技巧來修正訓練集資料的不均勻性，所謂的平衡是指將訓練集中的稀有事件的比例放大至與主要事件相同，做法是將稀有事件和主要事件的個數以 1:1 的比例抽出做為實際使用的訓練集用來建立模型。. Ch. engchi. i n U. v. 本研究的小林眼鏡客戶資料中，沒購買拋棄式隱形眼鏡(商品 D3)的客戶數量較少為稀有事件，有購買拋棄式隱形眼鏡的客戶數量較多為主要事件。舉例來說，若用 99 年的資料來預測 100 年會不會購買主要商品拋棄式隱形眼鏡：99 年原始銷售客戶資料共有 583 個客戶，取 70%為訓練集，取 30%為測試集，在訓練集中購買商品 D3 的人數為 430 人(占 73.76%)，沒購買商品 D3 在訓練集的人數為 153 人(占 26.24%)，為不平衡的現象，於是可以考慮使用平衡的技巧將訓練集中有無購買商品 D3 的人數比例調至相同。. 一、羅吉斯迴歸 37.

(38) 迴歸分析是描述一個應變數與一個或多個自變數之間的關係式，當我們的應變數為離散二元反應變數時，像是：失敗與成功，通常採用羅吉斯迴歸來進行分析，羅吉斯迴歸的模型： Y= f(x) = ln(. π(X). ) = β0 + β1 x1 + β2 x2 + ⋯ + βk xk. 1−π(X). π(X)為某事件成功的機率，π(X) = P(Y=1│X=x) =. 四個羅吉斯迴歸模型如表 4-4-1：. ef(x). 1+ef(x). ，ef(x) =. π(X) 1−π(X). , 稱為勝算比。. 羅吉斯迴歸. 模型 1. 模型 2. 模型 3. 模型 4. 年份變數資料. 99 年資料. 99 年資料. 98、99 年資料. 有無變數選取模型變數. 無變數選取. 有變數選取. 98、99 年資料無變數選取. 地區. 教育程度. 教育程度. 教育程度. 職業. 職業. 職業. 99 年買 A1 個數. 99 年買 C1 個數. 99 年買 A1 個數. 99 年買 D1 個數. 99 年買 B1 個數. 99 年買 D1 個數. 99 年買 B1 個數. 99 年買 D3 個數. 99 年買 C1 個數. 99 年買 D3 個數. 99 年買 C1 個數. 99 年買 E1 個數. 99 年買 D1 個數. 99 年購 E1 個數. 99 年買 D1 個數. 99 年買 F1 個數. 99 年買 D3 個數. 99 年買 F1 個數. 99 年買 D3 個數. 99 年買其他. 99 年購 E1 個數. 99 年買其他. 99 年買 E1 個數. 年齡. 99 年買 F1 個數. 98 年買 A1 個數. 99 年買其他. 98 年買 B1 個數. Nat. 99 年買 F1 個數. (共 9 個變數). er. io. 99 年買其他. y. 職業. sit. 立. ‧. 地區. 教育程度. ‧ 國. 政治大地區. 學. 地區. 有變數選取. a性別 l C 年齡 h. v n i 年齡. n. 性別. 98 年買 D1 個數. U98 年買 A1 個數 (共 13 個變數)e n g c h i. 98 年買 D3 個數. 98 年買 B1 個數. 98 年買 F1 個數. 98 年買 C1 個數. 98 年買其他. 98 年買 D1 個數. (共 16 個變數). 98 年買 E1 個數. 98 年買 D3 個數 98 年買 E1 個數 98 年買 F1 個數 98 年買其他 (共 21 個變數) 表 4-4-1、四種羅吉斯迴歸模型表 (註：產生羅吉斯迴歸模型在附錄 A1，產生統計匯整資料顯示在附錄表 A-1 至附錄表 A-16。). 表 4-4-1 的四個羅吉斯迴歸模型搭配「有無事先使用平衡技巧」產生模型 5 至模型 8，建立共八個模型，其預測結果如圖 4-4-1 至圖 4-4-8： 38.

(39) 圖 4-4-1、模型 1、99 年資料，無變數選取，無平衡. 立. 圖 4-4-2、模型 2、99 年資料，有變數選取，無平衡. 政治大. ‧. ‧ 國. 圖 4-4-4、模型 6、99 年資料，有變數選取，有平衡. 學. 圖 4-4-3、模型 5、99 年資料，無變數選取，有平衡. n. er. io. sit. y. Nat. al. Ch. 圖 4-4-5、模型 3、98、99 年資料，無變數選取，無平衡. i n U. v. 圖 4-4-6、模型 4、98、99 年資料，有變數選取，無平衡. engchi. 圖 4-4-7、模型 7、98、99 年資料，無變數選取，有平衡圖 4-4-8、模型 8、98、99 年資料，有變數選取，有平衡. 圖 4-4-1 至圖 4-4-8 的最下方的分類矩陣，行(row)代表的為實際觀測值，欄代表預測值，針對分類矩陣有幾個度量名詞介紹：一、真陽(true positive )：實際正確被預測為正確的。二、偽陽(false positive)：實際不正確的被預測為正確的。 39.

(40) 三、真陰(true negtive)：實際不正確的被預測為不正確的。四、偽陰(false negtive)：實際正確的被預測為不正確的。五、準確度(accuracy)：用以衡量估計值準確可依賴的程度。準確度的計算：[真陽(true positive )+ 真陰(true negtive)]÷全部值。舉例來說，圖 4-4-1 的分類矩陣中，真陽值為 110、偽陽值為 28、真陰值為 30、偽陰值為 8、準確度為 79.55%。主要事件和稀有事件為互斥的兩個事件，通常主要事件被視為正確的事件，稀有事件被視為不正確的事件，舉例來說，本研究有購買拋棄式隱形眼鏡的客戶視為正確事件的客戶，沒有購買拋棄式隱形眼鏡的客戶視為不正確的客戶，所以若使用平衡技巧將稀有事件的比例放大，則會突顯稀有事件而提高實際不正確的被預測為不正確的數量。. 政治大. 從圖 4-4-1 至圖 4-4-8 的 8 個圖中，將有無使用平衡技巧的上下圖兩兩進行比較，可觀察到此現象。舉例來說，圖 4-4-1 經過平衡後為圖 4-4-3，比較兩個圖發現在實際沒購買商品 D3(F)下預測沒購買商品 D3(F)的數量變多(30→35)，在實際購買商品 D3(T)下預測購買商品 D3(T)的數量變少(110 人→101)。. 立. ‧ 國. 學. ‧. 在做醫學研究的時候，病人為稀有事件，非病人為主要事件，焦點往往放在病人的事件，所以都會使用平衡技巧，藉由將稀有事件的比例放大，而增加更多實際上有病而也被預測出有病的病人數量，原因是這會比增加更多實際上沒病而被預測出沒病的非病人數量來的重要。. sit. y. Nat. n. al. er. io. 但是本研究主要焦點是放在主要事件上，也就是以會購買拋棄式隱形眼鏡的客戶為主，希望能增加更多實際上會購買商品 D3 而被預測會購買的客戶數量，因此選擇了沒有使用平衡技巧的模型 1、2、3、4 來做準確度的比較如表 4-4-2：羅吉斯迴歸. 模型 1. 年份變數資料. 99 年資料. 有無變數選取. Ch. e模型 n g2 c h i. i n U. v. 模型 3. 模型 4. 99 年資料. 98、99 年資料. 98、99 年資料. 無變數選取. 有變數選取. 無變數選取. 有變數選取. 變數個數. 13 個. 9個. 21 個. 16 個. Cox and Snell. 0.347. 0.319. 0.410. 0.405. 0.469. 0.429. 0.592. 0.584. 0.317. 0.282. 0.447. 0.439. 0.7955. 0.7386. 0.7891. 0.7959. R 平方值 Nagelkerke R 平方值 McFadden R 平方值測試集精確度. 表 4-4-2、羅吉斯迴歸模型比較表. 比較後發現，有多引進一年 98 年的模型 3 和模型 4 的三個 R 平方值都比只 40.