sEtkPP Subspace Clustering Algorithm and Target Market

(1)

部分維度群聚演算法與目標行銷

Subspace Clustering Algorithm and Target Market

陳榮昌 Chen, Rong-Chung 林育臣 Lin, Yu-Chen

朝陽科技大學資訊管理研究所朝陽科技大學資訊管理研究所 rcchen@mail.cyut.edu.tw s8914617@mail.cyut.edu.tw

Tel:(04)23323000-4275 Tel:(04)23323000-4161

摘要

本研究的目的在於對部份群聚演算法的研究並將其應用於目標行銷上。群聚技術可以從資料中找出其資料分佈、簡化資料的複雜性進而能夠了解並擷取資料背後所隱含的資訊，然而在許多的應用上，使用全部的屬性群聚反而不容易發現有效的群聚。

在本篇論文中，我們針對現有維度群聚演算法作一番探討及分析，發現若將全維度及部分維度群聚演算法配合使用，可以得到更多的資訊。我們特別舉目標行銷的應用為例，提出一個適當的演算法來幫助決策者從客戶交易的資料中找出潛在的行銷對象。

相信加入部分維度的群聚資訊，群聚演算法可以有更廣泛的應用。

關鍵字：群聚演算法、部份維度群聚演算法、目標行銷

壹、緒論

群聚技術（Clustering technology）在資料探勘（Data mining）領域中，是一項非常重要的技術，它可以在大量的資料中，找出資料的分布狀況並找到其隱藏的意義，例如當使用者面臨要分析處理龐大的資料時，往往無法輕易的獲知這些資料所代表的意義，而利用群聚技術可以先將這些資料分成若干個群聚，再針對不同的群聚加以分析，如此，便可以簡化使用者分析資料時的複雜性。

群聚技術發展至今有很長的一段時間，在這段期間內發展了許多不同類型的群聚技術，其大致上可以分為下面幾類 [1]：（1）將資料庫內的資料分為 K 群的切割式群聚演算法（ Partition clustering

algorithms），例如 K-means[2]、PAM[3]、

CLARA[3]、CLARANS[4]等。（2）將資料庫內的資料以樹狀架構整理的階層式群聚演算法（ Hierarchical clustering algorithms），例如 BIRCH[5]、CURE[6]、

ROCK[7]、CHAMELEON[8]等。（3）資料庫內的資料在分類時，將密度高於一個門檻值的『鄰居區域』(Neighborhood)聚集成一個群聚的密度基礎群聚演算法

（Density-based clustering algorithms），例如 DBSCAN[9]、OPTICS[10]等。（4）將資料空間量化成許許多多格子(Grid cells) 的格子基礎群聚演算法（ Grid-based clustering algorithms），其每一個格子內皆可以隱藏許多資訊，因而大量的減少群聚的時間。目前發展的方法有 STING[11]、

WaveCluster[12]等。

(2)

K-means是最典型的以重心基礎的切割式群聚演算法，它是以群聚的重心作為群聚的代表點（Representative object），但因為代表點不一定要是群聚中的一點，所以可以找到最佳的群聚。然而，此方法所得的群聚的品質很容易受到雜訊（Noise）

或是離群值（Outlier），另一種方法是以中心點作為代表點（如PAM演算法），這些群聚技術對於小型的資料集合（Data sets）

有著不錯的處理能力，但是隨著資料集合的增加，處理的效率也越來越差，所以，

通常處理大型資料庫是採用取樣的方式來解決（如CLARA演算法）。

DBSCAN演算法是利用密度觀念處理群聚問題的演算法，使用者需設定鄰居區域的半徑（Eps）及鄰居區域的資料點密度門檻值（MinPts）兩個參數，只要在半徑 Eps 鄰居區域內的資料點數大於門檻值 MinPts，則形成群聚，接著開始向外擴展群聚範圍，利用使用者所訂定參數所形成的鄰居區域，密度直接到達（ Directly density-reachable）或是藉由其他資料點，

密度間接到達（Density-reachable）可以包含到的資料點，分配到該群聚，以此方法，

直到所有的資料點分配完成為止。

在CHAMELE演算法中是以相對互相鏈結（Relative Interconnectivity, RI）與相對相似（Relative Closeness, RC）為基礎的階層式群聚演算法，它先以最近鄰居法

（K-nearest neighbor）將所有的資料聚集為一群聚，接著將群聚切割為若干的子群聚（Sub-clusters），最後以RI與RC為評估方法，將子群聚合併直到所訂定的群聚數目。STING的將資料空間切割成格子狀的演算法，其群聚是由上而下，利用廣度的搜尋，將格子內的群聚作合併。STING探索存在格子的統計資訊，然後群聚。

前面介紹的這些演算法都是利用全部

的屬性資料來計算，我們稱之為全維度的群聚演算法，在許多的應用上，使用全部的屬性群聚反而使問題複雜度增加，不容易發現有效的群聚。所以近年來有些學者 (Agrawal 等)開始提出部分維度的群聚演算法[13,15]，他們將資料投影到較低的維度(使用較少的資料屬性)然後求出該低維度資料空間的群聚，如此可以找到隱藏在部分維度間的群聚，增加一些有用的資訊。在我們的研究中，我們發現如果保留原來全維度群聚的結果，將他們與各部分維度群聚所得的結果作分析比較，可以得到更多有用的資訊。所以，我們就以目標行銷為例，提出一套新的演算法來幫助決策者找到潛在的行銷對象。

在以下的文章中，我們首先在第二節探討一些目前較有名的部分維度演算法，

然後在第三節提出我們的新演算法，並將其應用到目標行銷。

貳、部份維度群聚演算法

傳統的群聚演算法，對於處理大型的資料庫已有很顯著的效果，然而在真實資料庫中（如：大型賣場的顧客交易資料庫），一筆資料通常包含許多的屬性且資料點的分佈平均密度相當低，不容易形成群聚。以往所發展的群聚演算法如 PAM、

CLARA、DBSCAN、CHAMELE 與 STING 等都是針對所有的屬性維度進行群聚分析，因而有時無法有效地找出群聚。

Agrawal 等學者於 1998 年提出 CLIQUE 演算法[13]，其方法是使用投影

（Projection）的方式，將分佈在高維度空間的資料點投影至較低維度的空間上，並利用群聚具有分布密度稠密的特性，若是資料點在高維度的空間中形成群聚，將之投影至低維度空間，必定可以在某個較低的維度找到高的投影次數而形成群聚，以

(3)

此方式找出部分維度的群聚，這樣的方法稱為部分維度群聚演算法（ Subspaces clustering algorithms）。CLIQUE 演算法採用 Apriori 的方式[14]，首先將資料庫中所有的資料投影至一維的屬性空間上，計算投影次數（稱為 Coverage），若是 Coverage 高於次數門檻值者，稱為稠密單位（Dense units），接著合併兩個一維屬性稠密單位，

形成二維屬性空間的候選單位（Candidate units），再檢查二維空間的候選單位是否稠密單位，以此計算到最高維度為止，最後使用連通（Connected component）演算法，

將相鄰的稠密單元合併，而形成存在於部分維度的群聚。ENCLUS 以密度（Density）

[15]、投影次數（Coverage）與維度的相關性(Correlation of dimensions)來評估群聚性質，再以數學證明方式將三種評估方式轉成熵值（Entropy）的計算，應用於群聚分析的過程，並藉由熵值找出部分維度中較好的群聚。該研究認為當資料集合投影在某一維度呈現均勻分配時，則其中一特定資料點的投影位置不確定性高，所以熵值也會提高，若是資料集合投影在某一維度呈現密集的集中分布，則該特定資料點所在位置的不確定性降低，熵值也會降低，以上兩種演算法皆採用由下而上

（Bottom-up）合併的方式找出群聚結果。

在實務的資料庫中，資料包含許多的屬性，每個屬性之屬性值範圍亦相當廣，

故群聚演算法不易在全部屬性維度中發現群聚，也由於資料分佈的平均密度很低，

因而找到品質較差的群聚，無法提供使用者作分析使用，且找出全部維度的群聚對於使用者而言可用性較低，其群聚意義不大。然而在以往研究中發現，當資料點在高維度形成群聚時，投影至某一較低維度也會形成群聚，或是在高維度沒發現群聚，但將之投影至某一維度時可以找到群

聚，如圖一所示，假設有一個以年齡（Age）

與薪水（Salary）兩屬性所形成的二維資料空間，其資料集合在二維的空間中沒有發現群聚，但將其投影到薪水之維度時，

便可以發現 C’= 5 ≤ Salary ≤ 7 與 D’= 2 ≤ Salary ≤ 3 兩個群聚，也就是說利用部分維度的群聚演算法，可以找到隱藏在部分維度空間中的群聚，而這些群聚可能隱含更多的資訊與意義，以提供使用者分析使用。

圖一、隱藏在部分維度的群聚（資料來源[13]）

參、部分維度群聚演算法與應用 - 以目標行銷為例

由上節的描述中可知，若是資料點在高維度的空間中形成群聚，將之投影至較低維度空間，必定可以在某個(不一定每個) 較低的維度找到高的投影次數而形成群聚，故本研究利用此特性提出部份維度的群聚演算法，我們的演算法是採用由上而下(Top-down)的方式，首先我們針對全部 n 維度的資料進行群聚分析，並利用相似度評估式(1)進行評估，其中 T₁、T₂為資料庫內的兩筆資料紀錄，α值為相似度門檻值，α越高則群聚的群集性也越高。接著我們將資料投影到次一(n-1)維度，並以利用評估式（1），進行群聚分析，找出所有

(4)

n

c

n₋₁個 i 維度資料空間的群聚，比較該維度與較高維度所找出的群聚，並從中找出有用的資訊，重複以上的步驟，直到維度 1 為止，演算法描述如圖二所示。

1 0

2

,

1 2

1

≥ ≤ ≤

=

_T^T _∪^∩_T^T

α α

Sim

(1)

//資料庫資料有 n 維，i 代表目前的空間維度，

Cik為存在於 i 維度的群聚，其中 k 為群聚數 Begin

1：當維度=n，利用評估式(1)，找出所有存在於 n 維的群聚 Cnk。

For i=n-1 to 1 do Begin

2: 利用評估式(1)，找出所有

c

_iⁱ⁺¹個 i 維度資料空間的群聚{Di1, Di2, … , Dim}，其中 Dij

={Ci1, Ci2, … , Cik}，m=

c

_iⁱ⁺¹。

3：比較第 i 維度所有群聚與第 i+1 維度、第 i+2 維度、...、第 n 維度所有的群聚之差異。

4: 由步驟 3 所比較出的結果找出感興趣的法則。

End;

End.

圖二、部分維度群聚演算法

接下來我們將以目標行銷為應用來說明本研究所提出的部分維度群聚演算法。由於消費市場相當的廣泛，競爭亦相當激烈，

企業在擬定市場策略時，必須市場區隔加以分析，找出各區隔市場的特徵，在針對區隔市場內顧客的消費行為與特性加以描述與分析，確認其目標市場與目標顧客群，最後制定目標行銷的策略，如此，企業才能有效的運用企業資源，並取得競爭優勢。目標行銷之目的是在於能找出精準

的找出可行銷的目標顧客群，並依其顧客的需求設計產品加以行銷，所以企業必須從以往的顧客消費交易資料庫中來分析消費者的消費習慣、行為與特徵，根據分析結果再進行目標行銷，而群聚技術便是在資料庫中分析資料特性最常使用的工具之一，利用群聚技術，我們可以從交易資料庫中將大量的交易資料進行分群，接著再分析並解釋群聚所代表的意義，並藉由這些群聚的交易資料找到其所對應到的可行銷之對象。

在交易的資料庫中，產品種類繁多，

所以很難從全部維度的資料中，找出資料群聚，故在本研究中，欲利用部分維度群聚演算法來找尋部分維度中所隱藏的群聚並應用於目標行銷的過程上，以一個三 C 賣場的部分交易資料庫為例，如表一（其中交易項目 A 代表 PDA，B 為數位相機，

C 為 CDRW，D 為液晶顯示器，E 為全平面電視機，F 為高級音響，G 為 DVD 撥放器，H 為冷氣機，共 10 個維度）。

首先我們將表一內原始的部分交易資料轉換成交易資料範例表，如表二所示，

接著我們以本研究所提的演算法對所有維度資料進行群聚分析，並利用相似度評估式(1)進行評估，其中α值調整為 1，也就是當兩筆交易資料完全相同時，才歸類成同一個群聚，藉此加強群聚強度。經由群聚演算法針對全部維度進行群聚後，得到群聚一與群聚二兩個群聚，其中群聚一為交易代號 001、002、007、008、009 等五筆資料之集合，而群聚二則包含 003、

004、006 等三筆交易資料，如表三所示，

經過分析群聚內資料的特徵後，我們將群聚一內所對應的顧客解釋為”對新資訊科技產品有高度興趣的顧客”，群聚二則為”

對影音視訊產品有高度興趣之顧客”，雖然我們可以從全部維度所得的群聚結果找出

(5)

表一、交易記錄原始資料

表二、交易資料範例(包含 10 個維度，Yes 代表購買、No 代表未購買) Item

TID

A B C D E F G H

001 Yes Yes Yes Yes No No No No

003 No No No No Yes Yes Yes No

005 Yes Yes Yes No No No No No

010 Yes No Yes No No No Yes Yes

表三、利用全部維度群聚演算法分析結果(包含群聚一、群聚二) 群聚一

Item TID

A B C D E F G H

001 Yes Yes Yes Yes No No No No 002 Yes Yes Yes Yes No No No No 007 Yes Yes Yes Yes No No No No 008 Yes Yes Yes Yes No No No No 009 Yes Yes Yes Yes No No No No

TID Item TID Item TID Item TID Item

001 A 003 F 006 F 008 D

001 B 003 G 006 G 009 A

001 C 004 E 007 A 009 B

001 D 004 F 007 B 009 C

002 A 004 G 007 C 009 D

002 B 005 A 007 D 010 A

002 C 005 B 008 A 010 C

002 D 005 C 008 B 010 G

003 E 006 E 008 C 010 H

(6)

群聚二（表三）

Item TID

A B C D E F G H

各群聚之特性，但是我們並沒有足夠的資訊去找出可以繼續行銷的新目標客戶群，

所以在本研究中我們利用維度投影的方式找出存在於部分維度的群聚，進而找出新目標客戶群。以部分維度的群聚演算法針對資料庫繼續進行分析，首先將交易資料投影至較低一維度(9 維)，並任意組合 9 個維度，找出所有存在於該維度上的子群聚(Sub-cluster)，接著再將資料投影至更低一維，尋找存在於 8 維空間上的所有群聚，以此方法直到 1 維度，最後分析這些子群聚的意義與資訊。表四所表示的是存在與 CD 兩個維度上的子群聚一與二。

表四、存在於 CD 兩維度上的群聚子群聚一子群聚二

當我們找出所有部分維度的子群聚後，接下來必須針對所得到的結果進行分析。我們一範例來說明如何利用部分維度演算法所找出的子群聚找出可行銷之新的目標客戶群。首先我們將資料投影在 4 維空間上進行群聚，當維度組合為 A、B、C、D 時，

可以得到子群聚三（如表五所示），其包含

001、002、007、008、009 等五筆交易資料，而由這五筆交易資料我們可以得知顧客會同時購買 A、B、C、D 四項商品。接著，再對三維度進行分析，當資料投影至 B、C、D 等三維度時，則我們可以得到子群聚四，其中包含 001、002、007、008、

009 等五筆資料，由子群聚四可以得知顧客會同時購買 B、C、D 等三項產品，而當維度為 A、B、C 時得到子群聚五，並推得顧客會同時購買 A、B、C 等三項商品中皆有購買這三項商品，在以上的分析中，我們推理出的法則如下：

法則一：子群聚三的顧客會同時購買 A、

B、C、D 等四項商品。（交易項目 001、002、007、008、009）

法則二：子群聚四的顧客會同時購買 B、

C、D 等三項商品。（交易項目 001、002、007、008、009）

法則三：子群聚五的顧客會同時購買 A、

B、C 等三項商品。（交易項目 001、002、005、007、008、009）

經由以上的分析結果進行交叉比對，我們發現在法則三中的顧客皆同時購買 A、

B、C 等三種商品，又於法則一中得知除了交易項目 005 的顧客外，其他皆會繼續購買 D 商品，由此，我們可以推得出此顧客極有可能需要商品 D，故交易項目 005 所對應的顧客即為新的可進行行銷之對象。

Item TID

C D 001 Yes Yes 002 Yes Yes 007 Yes Yes 008 Yes Yes 009 Yes Yes

Ite m TID

C D

003 No No 004 No No 006 No No

(7)

表五、以部份維度群聚結果(例)

子群聚三子群聚四子群聚五

肆、結論

在本篇論文中，我們分析了許多部份維度的群聚演算法，並提出一種結合全維度與部分維度的群聚演算法，並將其應用於目標行銷上。我們提出了一種由上而下的部份維度群聚方法，先找出存在於全部維度空間上所有的群聚，並利用投影的方式，將資料投影至較低維度，找出群聚。

我們比較高維度與投影在子空間上的群聚，並從中找出感興趣的法則，此外，我們把本論文所提的部份維度群聚演算法應用於目標行銷上，此演算法不僅可以找出客戶的消費特徵與市場區隔，更可以由法則交互推演中，發現新的可行銷之目標顧客，進而提高目標行銷之成效。

參考文獻

[1] J. Han and M. Kamber(2000), “Data Mining: Concepts and Techniques”. Morgan Kaufmann.

[2] J. MacQueen(1967), “Some Methods for Classification and Analysis of Multivariate Observations”. In Proc. 5^th Berkeley Symp.

Math. Statistics, Prob. 1:281-297.

[3] L. Kaufman and P. J. Rousseeuw(1990),

“Finding Groups in Data: an Introduc tion to Cluster Analysis”. John Wiley & Sons.

[4] R. Ng and J. Han(1994), “ Efficient and Effective Clustering Method for Spatial Data Mining.” Int. Conf. Very Large Databases (VLDB’94), pages 144-155, Santiago, Chile.

[5] T. Zhang, R. Ramakrishnan, M.

Livny(1996), “BIRCH: An Efficient Data Clustering Method for Very Large Databases”. Int. Conf. Management of Data (SIGMOD’96), pages. 103-114.

[6] S. Guha, R. Rastogi, and K. Shim(1998),

“CURE: An efficient clustering algorithm for large databases”. Int. Conf. Management of Data (SIGMOD’98), pages 73-84, Seattle, WA.

[7] S. Guha, R. Rastogi, and K. Shim(1999),

“ROCK: A Robust Clustering Algorithm For Categorical Attribute”. Int. Conf. Data Engineering (ICDE’99), pages 512-521, Sydney, Australia.

[8] G. Karypis, E.-H. Han, and V.

Kumar(1999), “CHAMELEON: Hierar- chical Clustering Using Dynamic Modeling”.

IEEE COMPUTER, 32:68-75.

[9] M. Ester, H. -P. Kriegel, J. Sander, X.

Item TID

B C D

001 Yes Yes Yes 002 Yes Yes Yes 007 Yes Yes Yes 008 Yes Yes Yes 009 Yes Yes Yes

Item TID

A B C

001 Yes Yes Yes 002 Yes Yes Yes 005 Yes Yes Yes 007 Yes Yes Yes 008 Yes Yes Yes 009 Yes Yes Yes Item

TID

A B C D

001 Yes Yes Yes Yes 002 Yes Yes Yes Yes 007 Yes Yes Yes Yes 008 Yes Yes Yes Yes 009 Yes Yes Yes Yes

(8)

Xu(1996), “Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise”. Int. Conf.

Knowledge Discovery and Data Mining (KDD’96), pages 226-231, Portland, OR.

[10] M. Ankerst, M. Breunig, H.-P. Kriegel, and J. Sander(1999), “OPTICS: Ordering points to identify the clustering structure”.

Int. Conf. Management of Data (SIGMOD’99), pages 49-60, Philadelphia, PA.

[11] W. Wang, Yang, R. Muntz(1997),

“STING: A Statistical Information grid Approach to Spatial Data Mining”. Int. Conf.

Very Large Data Bases(VLDB’97), pages 186-195, Athens, Greece.

[12] G. Sheikholeslami, S. Chatterjee, and A.

Zhang(1998), “WaveCluster: A multi-resolution clustering approach for very large spatial databases”. Int. Conf. Very Large Databases (VLDB’98), pages 428-439, New York.

[13] R. Agrawal, J. Gehrke, D. Gunopulos, P.

Raghavan(1998), ”Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications”. Int. Conf.

Management of Data, 94-105, Seattle, Washington.

[14] R. Agrawal, H. Mannila, R. Srikant, H.

Toivonen, and A. I. Verkamo (1996), “Fast discovery of association rules”. In U.

Fayyad and et al, editors, Advances in Knowledge Discovery and Data Mining,chapter12, pages 307-328,AAAI/

MIT Press.

[15] C. H. Cheng, A. W. Fu, and Y.

Zhang(1999), ”Entropy-based subspace clustering for mining numerical data”. Int.

Conf. Knowledge Discovery and Data Mining(KDD’99), pages 84-93.

Abstract

The goal of our research is to study the subspace clustering algorithms and to apply the technique on the application of target market. The clustering technique is a useful technique for discovering data distributions, simplifying the complexity and retrieving the information behind underlying data. But, in some applications, the clustering algorithms do not work efficiently at full dimensions. In this paper, we find that the clustering algorithms will works well when combine with both the results at full dimensions and subspaces. We will take as example by applying this new algorithm to the application of target market. The algorithm analyze the consumer's consumption patterns for helping the decision makers to find the potential consumers and to select the better marketing strategies in order to succeed and survive in the competitive business environment.

Keywords: clustering algorithm, subspace clustering algorithm, target market.