應用資料探勘技術於一對一行銷系統

全文

(1)應用資料探勘技術於一對一行銷系統于還莒財團法人資訊工業策進會中壢市五權里三十八之一號. 許清琦國立台灣大學資訊工程學系台北市羅斯福路四段一號. [email protected]. [email protected] 商家可以隨時存取。. 摘要. 二、提供一個方便的機制讓商家可以結合探勘結果採取後續的行銷計畫。. 本論文是應用資料探勘(Data mining)技術挖掘銷售資料庫中的頻繁型樣 (Frequent Pattern)、產生關聯規則(Association Rule)，予以儲存，結合一對一行銷 (One-to-One Marketing)系統，傳送一對一行銷訊息。. 本論文特別針對探勘所得的關聯規則設計了一個方便的推薦機制 (Recommendation System)，可以讓商家進行後續的行銷計畫。本系統主要由三大部分構成：一、資料探勘子系統二、客戶群管理子系統. 關鍵詞： Data Mining 、 Frequent Pattern 、 Association Rule、One-to-One Marketing. 三、一對一行銷通道管理子系統資料探勘子系統主要應用既有的演算法對商品銷售資料庫進行探勘，將得到的關聯規則予以儲存；客戶群管理子系統可以將具特定消費習慣的客戶分群管理；一對一行銷通道管理子系統則提供各種訊息發送的管道，使商家能對特定的客戶群發送專屬的一對一行銷訊息。. 一、前言資料探勘技術在企業上常被用來挖掘經營過程中比較不明顯的趨勢，利用此發現的趨勢，企業可以採取適當的措施，以提昇企業的經營績效。而行銷則是企業維持生存的重要活動。有別於大眾行銷之無差異化的做法，一對一行銷乃是刻意區別客戶群，對不同的客戶群進行不同的行銷活動[7.8,11]。. 二、關聯規則之探勘關聯規則就是商品銷售彼此之間的關聯性，例如「顧客買麵包時便會順便買牛奶」。. 本論文之主要目標乃在於應用資料探勘技術從企業歷史交易記錄的大型資料庫中，挖掘感興趣的關聯規則，發現銷售商品彼此之間的關聯度，並提供一套客戶群管理的機制，使企業得以運用探勘的結果建立不同類別的客戶群，並結合一套行銷的管道，讓企業得以對不同的客戶群發送不同的行銷訊息。. 關聯規則探勘的有趣之處在於，如果商家販售的商品項目很多，商品售出的關聯性並不是顯而易見的，透過資料探勘可以發現這些隱藏的規則。某些商品之間的關聯性比較直觀，可以生活經驗推論，例如上列麵包與牛奶的例子。這樣子的組合，通常是藉由探勘結果印證之前的推論，企業經理人可藉由精確的探勘統計數據作為決策的參考或向高階主管報告的依據。. 透過資料探勘等相關的勘測工具對企業的營運資料進行分析，再將具高代表性的分析結果應用至市場與顧客行為，企業即能調整業務流程，針對顧客實際需求進行一對一個人化服務。. 為了說明關聯規則的應用機制及其在電子商務經營上的意義，在此將一些與關聯規則有關的用詞再回顧一下[4]。. 現今資訊市場上已有許多資料探勘的工具 [3,6,10]可以有效得到各項所需的探勘結果，也仍普遍缺乏像下列一些重要的延伸應用機制：. 項目集 (Itemset) 就是商品項目所成的集合，一個集合所代表的就是某些特定商品的組合。. 一、將探勘結果以某一結構存檔，將來 -1-.

(2) 例如： {牛奶，花生}、{尿布，啤酒，小魚干}。. 別計算其信心度，信心度太低的關聯法則便沒有代表性。. 如果一個商家賣的商品項目有 5 樣，則其各種可能的商品項目組合共有 C(5,1) + C(5,2) + C(5,3) + C(5,4) + C(5,5) = 25 – 1 種，相當可觀。. 因此進行探勘的軟體通常可以由商家設定一個信心度的門檻值，此門檻值稱為最低信心度，軟體在探勘過程中便留下信心度達到最低門檻值的關聯規則供商家參考，信心度未達門檻值的關聯規則便直接捨去。. 支持度 (Support). 關聯度 (Correlation). 某項目集(商品項目組合)在所有交易中出現的頻率。. 關聯規則中推論命題彼此之間的關聯性。. 例如：被探勘的資料庫中有 10,000 筆交易，而這 10,000 筆交易中，有 3,000 筆交易被發現同時含有 {牛奶，花生}，則{牛奶，花生} 這個項目集的支持度為 3,000/10,000=30%。. 對於一關聯規則 LeftItemSet=>RightItemSet Correlation = Support(LeftItemSet∪ RightItemSet)/(Support(LeftItemSet)* Support(RightItemSet)). 支持度越高，表示這種組合過去被購買的頻率越高，其受歡迎的程度具有相當的代表性。. 若 Correlation > 1 則表示推論項目集彼此正向相關，若 Correlation = 1 則表示推論項目集彼此獨立，若 Correlation < 1 則表示推論項目集彼此反向相關。. 最低支持度(Min Support) 探勘過程中可能會發掘出各式組合的項目集，但是支持度太低(由商家根據經營型態自行認定 )的項目集不具代表性，因此進行探勘的軟體通常在探勘之前可以由商家設定一個支持度的門檻值，此門檻值即為最低支持度。軟體在探勘過程中便只挑出支持度達到最低支持度的項目集輸出供商家參考，支持度未達最低支持度的項目集便直接捨去不用。. 整個探勘的過程主要分為三個階段： 1.找出所有的頻繁項目集。 2.根據頻繁項目集產生關聯規則，並分別計算其信心度、關聯度。 3.儲存探勘獲得之關聯規則. 頻繁項目集(Frequent Itemset). 關聯規則的探勘的核心技術就是頻繁項目集的探勘，這在過去數年一直有許多相關的論文發表。. 達到最低支持度的項目集。在某些應用上，頻繁項目集又被稱為頻繁型樣 (Frequent Pattern)。. IBM 的 R. Agrawal在 1994 提出的 Apriori 演算法 [1]是這個領域的重要時點。這個演算法使用的主要概念就是藉由不斷地掃瞄資料庫的交易記錄，計算出各種可能的商品項目組合 (稱為候選型樣或候選項目集)的支持度，留下各個支持度達到門檻值的頻繁項目集。. 關聯規則 (Association Rule) 消費行為的因果推論關係。例如： <買尿布>就會<買啤酒>。如果純粹只從購買的商品項目推衍其關聯性的話，可以簡寫為：尿布 =>啤酒。. SFU 的 Han 教授於 2000 年發表 FP-tree 的做法 [5]，不需不斷地掃瞄資料庫，也不需產生候選項目集，算是重要的突破。. 信心度 (Confidence) 關聯規則推論的可靠程度。. 台大資工所的許清琦教授與曾繁鎮博士生於 2001 年又改進了一個更簡潔的 FP-list 的方法[12]，使其探勘的效能更好，本論文係應用此方法進行探勘。. 例如對於關聯規則「 A=>C」，我們要衡量買 A 的交易中同時又買 C 的的比例有多高，其計算方式就是. 每次探勘結果可能會得到許多頻繁型樣，採取 XML 的格式[2,9,13,14,15]儲存，其 Documnet Type Definiton(DTD)如下：. (買{A,C}的交易數)/(買{A}的交易數) 也可以寫為 ({A,C}的支持度 )/({A}支持度). <!DOCTYPE FPL [. 最低信心度(Min Confidence). <!ELEMENT FPL (FP, TotalCount,Threshold)>. 當我們獲致一組頻繁型樣的時候，要進一步去推衍各種可能的關聯規則的組合並分. <!ELEMENT FPL (SKU)+>. -2-.

(3) <!A LLIST FPL Count (CDATA) #REQUIRED>. </xsl:for-each>. <!ELEMENT SKU (#PCDATA)>. <TotalCount>. <!ELEMENT TotalCount (#PCDATA)>. <xsl:value-of select="//TotalCount"/>. <!ELEMENT Threshold (#PCDATA)>. </TotalCount>. ]>. <Threshold>. 每一組頻繁型樣存入一組 FP 標籤中， SKU 存頻繁型樣中商品項目的料號，屬性 Count 表此頻繁型樣的支持度，例如. <xsl:value-of select="//Threshold"/> </Threshold>. <FP Count="507">. </FPL>. <SKU>108</SKU>. </xsl:template>. <SKU>115</SKU>. </xsl:stylesheet>. </FP>. 以下是某一交易資料庫所得的結果. 表示此組頻繁型樣中含有兩項商品項目，其料號分別為 108 及 115，支持度為 507，就是在 507 筆交易中含有這個型樣。. <FPL> <FP Count="1468">. XML 中並另有兩個標籤存放探勘的總交易筆數及探勘時所設定的支持度門檻值。例如：. <SKU>115</SKU> </FP>. <TotalCount>6515</TotalCount>. <FP Count="1111">. <Threshold>500</Threshold>. <SKU>109</SKU>. 表示探勘的總交易筆數為 6515 筆，探勘者所設定的門檻為 500。. </FP> <FP Count="1013">. 系統並定義一個 XSLT[16]用來將頻繁型樣按其支持度遞減排序、同一組頻繁型樣內按料號遞增排序輸出：. <SKU>108</SKU> </FP>. <?xml version="1.0"?>. <FP Count="832">. <xsl:stylesheet xmlns:xsl="http://www.w3.org/TR/WDxsl">. <SKU>118</SKU> </FP>. <xsl:template match="/">. <FP Count="507">. <FPL>. <SKU>108</SKU>. <xsl:for-each select="//FP" order-by = "number(@Count)">. <SKU>115</SKU> </FP>. <FP>. <TotalCount>6515</TotalCount>. <xsl:attribute name="Count">. <Threshold>500</Threshold>. <xsl:value-of select="@Count"/>. </FPL>. </xsl:attribute>. 根據前面所得到的各組頻繁型樣，求出各組頻繁型樣所可能衍生的關聯規則，將各個規則存入一資料表中，資料表中含下列資料項。. <xsl:for-each select="SKU" order-by="+ ./text()"> <SKU><xsl:value-of/></SKU>. l 探勘序號(用以區分各次探勘). </xsl:for-each>. l 此規則所對應的頻繁型樣(XML). </FP>. l 支持度次數. -3-.

(4) l 支持度百分比. 二、一對一電子報. l 信心度百分比. 前者可以將促銷的訊息以一對一的方式存成 XML 的格式，結合電子商務的前台系統，消費者登入網站時便可以看到個人專屬的促銷訊息。. l 關聯度百分比. 將關聯規則存檔後即可進行應用。. 後者則是將促銷訊息以一對一客製化的方式主動以電子郵件發送給各個消費者，消費者收到的電子報訊息是專為個人量身訂做的資訊，不會因為資訊太多而影響消費者閱讀的意願。. 三、關聯規則之應用對於一條關聯規則的取捨，有三個重要的參數需要考慮： 1.支持度：支持度夠大，表示這條規則具有相當程度的代表性。 2.信心度：信心度夠大，表示此規則的因果關係夠強。. 關聯規則資料庫含有支持度、信心度、關聯度的關聯規則. 3.關聯度：關聯度要大於 1，表示是正向相關。. 定義消費群. 這三項參數都存在本系統的探勘結果中。只要將它們顯示出來，並提供各種排序方式，商家便可以很方便地挑出自認為有意義的規則做各項應用。. 消費群條件. 消費群條件資料庫. 像「A=>C」這樣的關聯規則，表示「買 A 的也會同時買 C」，這時商家可以有下列措施可以考慮：. 指定目標消費群. 擷取消費群資料. 一、商家可以考慮將兩樣商品綁在一起促銷，這種促銷方案可以提高消費者的購買意願。. 取得之目標消費群一對一行銷通道. 二、商家可以找出過去交易中，曾經買過 A 但尚未買 C 的消費群，直接對他們來促銷 C，這樣促銷成功的機會較大。. 消費者. 本系統提供一個介面，可以讓商家在檢視有興趣的關聯規則時進一步將與此關聯規則有關的客戶群定義出來，以作為未來進行促銷活動的對象，這樣的客戶群稱為消費群。. 消費者. 消費者. <圖 1>關聯規則之應用機制. 本系統建立兩個資料表來存放消費群的定義。. <圖 1>顯示本系統可以將關聯規則定義的消費群擷取出來，結合一對一行銷系統傳送一對一的行銷訊息。. 本系統另外設計了一個預存儲程序可以在需要的時候，執行此預存程序到客戶資料庫中擷取所定義的客戶群。. 模組化的結果，可以將客戶群的定義及一對一行銷通道做出區隔，以利系統之延展性。. 四、一對一行銷系統五、客戶群管理當有了促銷對象，便可以規劃行銷計畫，並透過各種管道進行一對一行銷。. 區隔客戶群可以說是一對一行銷的關鍵動作。區隔客戶群的核心思想在於每一個客戶的個人特質不同、喜好不同、對商家的貢獻度也不同，不應同等對待。. 本系統目前提供兩種行銷通道可茲應用：一、一對一好康報報. -4-.

(5) 因此區隔客戶群可以用各種不同的標準，可以根據客戶的重要性、貢獻度、潛在消費能力、過去的消費記錄、客戶本身的特質等來做區隔。. 屬性群。消費群的定義也可以由商家自行設定條件或在關聯規則產生時由系統向商家推薦變成消費群的定義儲存。. 本系統原先的構想僅係要設計一個方便彈性的機制將資料探勘所得的關聯規則予以轉化成可以進行商務促銷活動。然而多變的企業經營環境所需的是更具彈性的客戶群分類機制，因此本系統目前提供下列幾種方式以供商家區隔客戶群：. 六、結論與未來工作一對一行銷有別於傳統的大眾行銷，在企業電子化的過程中又可以結合各種不同的電子化行銷通道，以建立一對一行銷系統。. 一、根據客戶本身的特質作區分，稱為屬性群. 本系統應用資料探勘技術，挖掘商品交易的關聯規則後予以儲存，再將關聯規則轉換為消費群定義用以區分消費群，並可結合一對一好康報報及一對一電子報等行銷通道對客戶進行一對一行銷。. 二、根據客戶過去的消費記錄作區分，稱為消費群。消費群又分正向表列消費群(也就是曾經買過哪些商品 )及負向表列消費群(也就是不曾買過哪些商品 )。. 本系統未來預計將朝下列方向繼續增. 三、用戶自行挑選客戶組成客戶群。. 進。. 四、用戶自行以 SQL 指令定義客戶群 (給具 SQL 知識的用戶 )。. 一、行銷活動回饋分析機制行銷活動的效益通常是反應在營業額的提昇上，然而只是看整個營業額未免過於籠統，而一對一行銷最重要的理念就是找對的人賣對的商品或服務，因此要如何持續評估是否將對的訊息傳遞給了對的人，便是一件重要的課題，這將是本系統後續的努力方向。. 五、用戶根據上列各項條件組合成自己想要的複雜條件的客戶群，例如具有哪些屬性且曾購買過哪些商品的客戶。. 消費群. 組合. 二、客戶價值權重評量模型使用者自行定義. 使用者自行組合. 一對一行銷的重要精神之一就是要讓客戶覺得這個行銷活動好像是專門為自己量身訂做的；從商家的角度看，一對一行銷也就是要營造客戶的最高價值，長久保有高價值的客戶。然而客戶的價值要怎樣衡量呢？因此研製一個客戶價值量化的模型便成為客戶價值管理的重要課題，這也是本系統後續有興趣的主題。. 屬性群. 義. 資料探勘領域尚有許多有趣的方法，而行銷系統的延伸則為完整的顧客關係管理系統，一個永續經營的企業應該對其客戶及相關的銷售型樣永遠感興趣，而客戶區隔及分析正可配合其他的資料探勘的方法來達成。. 使用者自行定. 自關聯規則轉換. 三、結合其他資料探勘方法. 七、參考文獻 <圖 2>關聯規則之應用機制本系統最重要的特色就是可將資料探勘的結果輕易轉換為客戶群的定義，因此屬性群的定義可以由商家依自己的認定來設定目標客戶群的條件，也可由多維關聯規則的探勘的結果由系統自動轉換，由商家決定是否定義成 -5-. [1]. R. Agrawal and R. Srikant. “Fast Algorithms for Mining Association Rules in Large Databases ” Proc. of the 20th Int’l Conference on Very large Databases, pp.487-499, Santiago, Chile, Sep 1994. [2]. Patrick van Amstel, Pim van der Eijk, Evert.

(6) Haasdijk, David Kuilman. “An interchange format for cross-media personalized publishing” [3]. Knowledge Management: E-business & CRM applications”, Prentice-Hall, pp.23-34, 2001. J. Han. “DBMiner” http://db.cs.sfu.ca/DBMiner. [4]. J. Han and M. Kamber “Data Mining Concepts and Techniques ” Morgan Kaufmann Publisher, pp.229-230, 2000. [5]. J. Han, J. Pei, and Y. Yin. “Mining Frequent Patterns without Candidate Generation” Proc. of ACM SIGMOD, pp.1-12, Dallas, TX, May 2000. [6]. IBM. “Intelligent Miner” http://www-4.ibm.com/software/data/imine r. [7]. Jupiter Researcher and Advisory Services. http://www.jup.com. [8]. Graeme McCorkell “Direct and Database Marketing”, Chinese Version, pp.87-88, 2000. [9]. [11] Amrit Tiwana. “The Essential Guide to. [12] Fan-Chen. Tseng and Ching-Chi Hsu. “Creating Frequent Patterns with the Frequent Pattern Lis t”. Proc of Asia Pacific Conference of Data Mining and Knowledge Discovery, pp.376-386, Hong Kong, 2001. [13] US Navy. “MIL-PRF-87269”. http://navycals.dt.navy.mil/cals/calsstds.ht ml [14] World Wide Web Consortium. ''Document. Object Model (DOM) '' http://www.w3.org/DOM [15] World Wide Web Consortium. “Extensible. Markup Language (XML)” http://www.w3.org/XML [16] World Wide Web Consortium. “XSL. Transformations (XSLT)” http://www.w3.org/TR/xslt.html. Microsoft Official Curriculum. ''Building XML-Based Web Application''. [10] NCR. “Teradata”, http://www.teradata.com. -6-.

(7)