• 沒有找到結果。

sEtkPP Subspace Clustering Algorithm and Target Market

N/A
N/A
Protected

Academic year: 2022

Share "sEtkPP Subspace Clustering Algorithm and Target Market"

Copied!
8
0
0

加載中.... (立即查看全文)

全文

(1)

部分維度群聚演算法與目標行銷

Subspace Clustering Algorithm and Target Market

陳榮昌 Chen, Rong-Chung 林育臣 Lin, Yu-Chen

朝陽科技大學資訊管理研究所 朝陽科技大學資訊管理研究所 rcchen@mail.cyut.edu.tw s8914617@mail.cyut.edu.tw

Tel:(04)23323000-4275 Tel:(04)23323000-4161

摘要

本研究的目的在於對部份群聚演算法的研究並將其應用於目標行銷上。群聚技術 可以從資料中找出其資料分佈、簡化資料的複雜性進而能夠了解並擷取資料背後所隱 含的資訊,然而在許多的應用上,使用全部的屬性群聚反而不容易發現有效的群聚。

在本篇論文中,我們針對現有維度群聚演算法作一番探討及分析,發現若將全維度及 部分維度群聚演算法配合使用,可以得到更多的資訊。我們特別舉目標行銷的應用為 例,提出一個適當的演算法來幫助決策者從客戶交易的資料中找出潛在的行銷對象。

相信加入部分維度的群聚資訊,群聚演算法可以有更廣泛的應用。

關鍵字:群聚演算法、部份維度群聚演算法、目標行銷

壹、緒論

群聚技術(Clustering technology)在 資料探勘(Data mining)領域中,是一項 非常重要的技術,它可以在大量的資料 中,找出資料的分布狀況並找到其隱藏的 意義,例如當使用者面臨要分析處理龐大 的資料時,往往無法輕易的獲知這些資料 所代表的意義,而利用群聚技術可以先將 這些資料分成若干個群聚,再針對不同的 群聚加以分析,如此,便可以簡化使用者 分析資料時的複雜性。

群聚技術發展至今有很長的一段時 間,在這段期間內發展了許多不同類型的 群聚技術,其大致上可以分為下面幾類 [1]:(1)將資料庫內的資料分為 K 群的切 割 式 群 聚 演 算 法 ( Partition clustering

algorithms),例如 K-means[2]、PAM[3]、

CLARA[3]、CLARANS[4]等。(2)將資料 庫內的資料以樹狀架構整理的階層式群聚 演 算 法 ( Hierarchical clustering algorithms),例如 BIRCH[5]、CURE[6]、

ROCK[7]、CHAMELEON[8]等。(3)資料 庫內的資料在分類時,將密度高於一個門 檻值的『鄰居區域』(Neighborhood)聚集成 一 個 群 聚 的 密 度 基 礎 群 聚 演 算 法

(Density-based clustering algorithms),例 如 DBSCAN[9]、OPTICS[10]等。(4)將 資料空間量化成許許多多格子(Grid cells) 的 格 子 基 礎 群 聚 演 算 法 ( Grid-based clustering algorithms),其每一個格子內皆 可以隱藏許多資訊,因而大量的減少群聚 的時間。目前發展的方法有 STING[11]、

WaveCluster[12]等。

(2)

K-means是最典型的以重心基礎的切 割式群聚演算法,它是以群聚的重心作為 群聚的代表點(Representative object),但 因為代表點不一定要是群聚中的一點,所 以可以找到最佳的群聚。然而,此方法所 得的群聚的品質很容易受到雜訊(Noise)

或是離群值(Outlier),另一種方法是以中 心點作為代表點(如PAM演算法),這些 群聚技術對於小型的資料集合(Data sets)

有著不錯的處理能力,但是隨著資料集合 的增加,處理的效率也越來越差,所以,

通常處理大型資料庫是採用取樣的方式來 解決(如CLARA演算法)。

DBSCAN演算法是利用密度觀念處理 群聚問題的演算法,使用者需設定鄰居區 域的半徑(Eps)及鄰居區域的資料點密度 門檻值(MinPts)兩個參數,只要在半徑 Eps 鄰 居 區 域 內 的 資 料 點 數 大 於 門 檻 值 MinPts,則形成群聚,接著開始向外擴展 群聚範圍,利用使用者所訂定參數所形成 的 鄰 居 區 域 , 密 度 直 接 到 達 ( Directly density-reachable)或是藉由其他資料點,

密度間接到達(Density-reachable)可以包 含到的資料點,分配到該群聚,以此方法,

直到所有的資料點分配完成為止。

在CHAMELE演算法中是以相對互相 鏈結(Relative Interconnectivity, RI)與相 對相似(Relative Closeness, RC)為基礎的 階層式群聚演算法,它先以最近鄰居法

(K-nearest neighbor)將所有的資料聚集 為一群聚,接著將群聚切割為若干的子群 聚(Sub-clusters),最後以RI與RC為評估 方法,將子群聚合併直到所訂定的群聚數 目。STING的將資料空間切割成格子狀的 演算法,其群聚是由上而下,利用廣度的 搜尋,將格子內的群聚作合併。STING探 索存在格子的統計資訊,然後群聚。

前面介紹的這些演算法都是利用全部

的屬性資料來計算,我們稱之為全維度的 群聚演算法,在許多的應用上,使用全部 的屬性群聚反而使問題複雜度增加,不容 易發現有效的群聚。所以近年來有些學者 (Agrawal 等)開始提出部分維度的群聚演 算法[13,15],他們將資料投影到較低的維 度(使用較少的資料屬性)然後求出該低維 度資料空間的群聚,如此可以找到隱藏在 部分維度間的群聚,增加一些有用的資 訊。在我們的研究中,我們發現如果保留 原來全維度群聚的結果,將他們與各部分 維度群聚所得的結果作分析比較,可以得 到更多有用的資訊。所以,我們就以目標 行銷為例,提出一套新的演算法來幫助決 策者找到潛在的行銷對象。

在以下的文章中,我們首先在第二節 探討一些目前較有名的部分維度演算法,

然後在第三節提出我們的新演算法,並將 其應用到目標行銷。

貳、部份維度群聚演算法

傳統的群聚演算法,對於處理大型的 資料庫已有很顯著的效果,然而在真實資 料庫中(如:大型賣場的顧客交易資料 庫),一筆資料通常包含許多的屬性且資料 點的分佈平均密度相當低,不容易形成群 聚。以往所發展的群聚演算法如 PAM、

CLARA、DBSCAN、CHAMELE 與 STING 等都是針對所有的屬性維度進行群聚分 析,因而有時無法有效地找出群聚。

Agrawal 等 學 者 於 1998 年 提 出 CLIQUE 演算法[13],其方法是使用投影

(Projection)的方式,將分佈在高維度空 間的資料點投影至較低維度的空間上,並 利用群聚具有分布密度稠密的特性,若是 資料點在高維度的空間中形成群聚,將之 投影至低維度空間,必定可以在某個較低 的維度找到高的投影次數而形成群聚,以

(3)

此方式找出部分維度的群聚,這樣的方法 稱 為 部 分 維 度 群 聚 演 算 法 ( Subspaces clustering algorithms)。CLIQUE 演算法採 用 Apriori 的方式[14],首先將資料庫中所 有的資料投影至一維的屬性空間上,計算 投影次數(稱為 Coverage),若是 Coverage 高於次數門檻值者,稱為稠密單位(Dense units),接著合併兩個一維屬性稠密單位,

形成二維屬性空間的候選單位(Candidate units),再檢查二維空間的候選單位是否稠 密單位,以此計算到最高維度為止,最後 使用連通(Connected component)演算法,

將相鄰的稠密單元合併,而形成存在於部 分維度的群聚。ENCLUS 以密度(Density)

[15]、投影次數(Coverage)與維度的相關 性(Correlation of dimensions)來評估群聚 性質,再以數學證明方式將三種評估方式 轉成熵值(Entropy)的計算,應用於群聚 分析的過程,並藉由熵值找出部分維度中 較好的群聚。該研究認為當資料集合投影 在某一維度呈現均勻分配時,則其中一特 定資料點的投影位置不確定性高,所以熵 值也會提高,若是資料集合投影在某一維 度呈現密集的集中分布,則該特定資料點 所在位置的不確定性降低,熵值也會降 低 , 以 上 兩 種 演 算 法 皆 採 用 由 下 而 上

(Bottom-up)合併的方式找出群聚結果。

在實務的資料庫中,資料包含許多的 屬性,每個屬性之屬性值範圍亦相當廣,

故群聚演算法不易在全部屬性維度中發現 群聚,也由於資料分佈的平均密度很低,

因而找到品質較差的群聚,無法提供使用 者作分析使用,且找出全部維度的群聚對 於使用者而言可用性較低,其群聚意義不 大。然而在以往研究中發現,當資料點在 高維度形成群聚時,投影至某一較低維度 也會形成群聚,或是在高維度沒發現群 聚,但將之投影至某一維度時可以找到群

聚,如圖一所示,假設有一個以年齡(Age)

與薪水(Salary)兩屬性所形成的二維資 料空間,其資料集合在二維的空間中沒有 發現群聚,但將其投影到薪水之維度時,

便可以發現 C’= 5 ≤ Salary ≤ 7 與 D’= 2 ≤ Salary ≤ 3 兩個群聚,也就是說利用部分維 度的群聚演算法,可以找到隱藏在部分維 度空間中的群聚,而這些群聚可能隱含更 多的資訊與意義,以提供使用者分析使用。

圖一、隱藏在部分維度的群聚(資料 來源[13])

參、部分維度群聚演算法與應用 - 以目標行銷為例

由上節的描述中可知,若是資料點在 高維度的空間中形成群聚,將之投影至較 低維度空間,必定可以在某個(不一定每個) 較低的維度找到高的投影次數而形成群 聚,故本研究利用此特性提出部份維度的 群聚演算法,我們的演算法是採用由上而 下(Top-down)的方式,首先我們針對全部 n 維度的資料進行群聚分析,並利用相似 度評估式(1)進行評估,其中 T1、T2為資料 庫內的兩筆資料紀錄,α值為相似度門檻 值,α越高則群聚的群集性也越高。接著 我們將資料投影到次一(n-1)維度,並以利 用評估式(1),進行群聚分析,找出所有

(4)

n

c

n1個 i 維度資料空間的群聚,比較該維 度與較高維度所找出的群聚,並從中找出 有用的資訊,重複以上的步驟,直到維度 1 為止,演算法描述如圖二所示。

1 0

2

,

1 2

1

≥ ≤ ≤

=

TT TT

α α

Sim

(1)

//資料庫資料有 n 維,i 代表目前的空間維度,

Cik為存在於 i 維度的群聚,其中 k 為群聚數 Begin

1:當維度=n,利用評估式(1),找出所有存在於 n 維的群聚 Cnk

For i=n-1 to 1 do Begin

2: 利用評估式(1),找出所有

c

ii+1個 i 維度資料 空間的群聚{Di1, Di2, … , Dim},其中 Dij

={Ci1, Ci2, … , Cik},m=

c

ii+1

3: 比較第 i 維度所有群聚與第 i+1 維度、第 i+2 維度、...、第 n 維度所有的群聚之差異。

4: 由步驟 3 所比較出的結果找出感興趣的法 則。

End;

End.

圖二、 部分維度群聚演算法

接下來我們將以目標行銷為應用來說明本 研究所提出的部分維度群聚演算法。由於 消費市場相當的廣泛,競爭亦相當激烈,

企業在擬定市場策略時,必須市場區隔加 以分析,找出各區隔市場的特徵,在針對 區隔市場內顧客的消費行為與特性加以描 述與分析,確認其目標市場與目標顧客 群,最後制定目標行銷的策略,如此,企 業才能有效的運用企業資源,並取得競爭 優勢。目標行銷之目的是在於能找出精準

的找出可行銷的目標顧客群,並依其顧客 的需求設計產品加以行銷,所以企業必須 從以往的顧客消費交易資料庫中來分析消 費者的消費習慣、行為與特徵,根據分析 結果再進行目標行銷,而群聚技術便是在 資料庫中分析資料特性最常使用的工具之 一,利用群聚技術,我們可以從交易資料 庫中將大量的交易資料進行分群,接著再 分析並解釋群聚所代表的意義,並藉由這 些群聚的交易資料找到其所對應到的可行 銷之對象。

在交易的資料庫中,產品種類繁多,

所以很難從全部維度的資料中,找出資料 群聚,故在本研究中,欲利用部分維度群 聚演算法來找尋部分維度中所隱藏的群聚 並應用於目標行銷的過程上,以一個三 C 賣場的部分交易資料庫為例,如表一(其 中交易項目 A 代表 PDA,B 為數位相機,

C 為 CDRW,D 為液晶顯示器,E 為全平 面電視機,F 為高級音響,G 為 DVD 撥放 器,H 為冷氣機,共 10 個維度)。

首先我們將表一內原始的部分交易資 料轉換成交易資料範例表,如表二所示,

接著我們以本研究所提的演算法對所有維 度資料進行群聚分析,並利用相似度評估 式(1)進行評估,其中α值調整為 1,也就 是當兩筆交易資料完全相同時,才歸類成 同一個群聚,藉此加強群聚強度。經由群 聚演算法針對全部維度進行群聚後,得到 群聚一與群聚二兩個群聚,其中群聚一為 交易代號 001、002、007、008、009 等五 筆資料之集合,而群聚二則包含 003、

004、006 等三筆交易資料,如表三所示,

經過分析群聚內資料的特徵後,我們將群 聚一內所對應的顧客解釋為”對新資訊科 技產品有高度興趣的顧客”,群聚二則為”

對影音視訊產品有高度興趣之顧客”,雖然 我們可以從全部維度所得的群聚結果找出

(5)

表一、交易記錄原始資料

表二、交易資料範例(包含 10 個維度,Yes 代表購買、No 代表未購買) Item

TID

A B C D E F G H

001 Yes Yes Yes Yes No No No No

002 Yes Yes Yes Yes No No No No

003 No No No No Yes Yes Yes No

004 No No No No Yes Yes Yes No

005 Yes Yes Yes No No No No No

006 No No No No Yes Yes Yes No

007 Yes Yes Yes Yes No No No No

008 Yes Yes Yes Yes No No No No

009 Yes Yes Yes Yes No No No No

010 Yes No Yes No No No Yes Yes

表三、利用全部維度群聚演算法分析結果(包含群聚一、群聚二) 群聚一

Item TID

A B C D E F G H

001 Yes Yes Yes Yes No No No No 002 Yes Yes Yes Yes No No No No 007 Yes Yes Yes Yes No No No No 008 Yes Yes Yes Yes No No No No 009 Yes Yes Yes Yes No No No No

TID Item TID Item TID Item TID Item

001 A 003 F 006 F 008 D

001 B 003 G 006 G 009 A

001 C 004 E 007 A 009 B

001 D 004 F 007 B 009 C

002 A 004 G 007 C 009 D

002 B 005 A 007 D 010 A

002 C 005 B 008 A 010 C

002 D 005 C 008 B 010 G

003 E 006 E 008 C 010 H

(6)

群聚二(表三)

Item TID

A B C D E F G H

003 No No No No Yes Yes Yes No

004 No No No No Yes Yes Yes No

006 No No No No Yes Yes Yes No

各群聚之特性,但是我們並沒有足夠的資 訊去找出可以繼續行銷的新目標客戶群,

所以在本研究中我們利用維度投影的方式 找出存在於部分維度的群聚,進而找出新 目標客戶群。以部分維度的群聚演算法針 對資料庫繼續進行分析,首先將交易資料 投影至較低一維度(9 維),並任意組合 9 個維度,找出所有存在於該維度上的子群 聚(Sub-cluster),接著再將資料投影至更低 一維,尋找存在於 8 維空間上的所有群 聚,以此方法直到 1 維度,最後分析這些 子群聚的意義與資訊。表四所表示的是存 在與 CD 兩個維度上的子群聚一與二。

表四、存在於 CD 兩維度上的群聚 子群聚一 子群聚二

當我們找出所有部分維度的子群聚後,接 下來必須針對所得到的結果進行分析。我 們一範例來說明如何利用部分維度演算法 所找出的子群聚找出可行銷之新的目標客 戶群。首先我們將資料投影在 4 維空間上 進行群聚,當維度組合為 A、B、C、D 時,

可以得到子群聚三(如表五所示),其包含

001、002、007、008、009 等五筆交易資 料,而由這五筆交易資料我們可以得知顧 客會同時購買 A、B、C、D 四項商品。接 著,再對三維度進行分析,當資料投影至 B、C、D 等三維度時,則我們可以得到子 群聚四,其中包含 001、002、007、008、

009 等五筆資料,由子群聚四可以得知顧 客會同時購買 B、C、D 等三項產品,而 當維度為 A、B、C 時得到子群聚五,並 推得顧客會同時購買 A、B、C 等三項商 品中皆有購買這三項商品,在以上的分析 中,我們推理出的法則如下:

法則一:子群聚三的顧客會同時購買 A、

B、C、D 等四項商品。(交易項 目 001、002、007、008、009)

法則二:子群聚四的顧客會同時購買 B、

C、D 等三項商品 。(交易項目 001、002、007、008、009)

法則三:子群聚五的顧客會同時購買 A、

B、C 等三項商品。(交易項目 001、002、005、007、008、009)

經由以上的分析結果進行交叉比對,我們 發現在法則三中的顧客皆同時購買 A、

B、C 等三種商品,又於法則一中得知除 了交易項目 005 的顧客外,其他皆會繼續 購買 D 商品,由此,我們可以推得出此顧 客極有可能需要商品 D,故交易項目 005 所對應的顧客即為新的可進行行銷之對 象。

Item TID

C D 001 Yes Yes 002 Yes Yes 007 Yes Yes 008 Yes Yes 009 Yes Yes

Ite m TID

C D

003 No No 004 No No 006 No No

(7)

表五、以部份維度群聚結果(例)

子群聚三 子群聚四 子群聚五

肆、結論

在本篇論文中,我們分析了許多部份 維度的群聚演算法,並提出一種結合全維 度與部分維度的群聚演算法,並將其應用 於目標行銷上。我們提出了一種由上而下 的部份維度群聚方法,先找出存在於全部 維度空間上所有的群聚,並利用投影的方 式,將資料投影至較低維度,找出群聚。

我們比較高維度與投影在子空間上的群 聚,並從中找出感興趣的法則,此外,我 們把本論文所提的部份維度群聚演算法應 用於目標行銷上,此演算法不僅可以找出 客戶的消費特徵與市場區隔,更可以由法 則交互推演中,發現新的可行銷之目標顧 客,進而提高目標行銷之成效。

參考文獻

[1] J. Han and M. Kamber(2000), “Data Mining: Concepts and Techniques”. Morgan Kaufmann.

[2] J. MacQueen(1967), “Some Methods for Classification and Analysis of Multivariate Observations”. In Proc. 5th Berkeley Symp.

Math. Statistics, Prob. 1:281-297.

[3] L. Kaufman and P. J. Rousseeuw(1990),

“Finding Groups in Data: an Introduc tion to Cluster Analysis”. John Wiley & Sons.

[4] R. Ng and J. Han(1994), “ Efficient and Effective Clustering Method for Spatial Data Mining.” Int. Conf. Very Large Databases (VLDB’94), pages 144-155, Santiago, Chile.

[5] T. Zhang, R. Ramakrishnan, M.

Livny(1996), “BIRCH: An Efficient Data Clustering Method for Very Large Databases”. Int. Conf. Management of Data (SIGMOD’96), pages. 103-114.

[6] S. Guha, R. Rastogi, and K. Shim(1998),

“CURE: An efficient clustering algorithm for large databases”. Int. Conf. Management of Data (SIGMOD’98), pages 73-84, Seattle, WA.

[7] S. Guha, R. Rastogi, and K. Shim(1999),

“ROCK: A Robust Clustering Algorithm For Categorical Attribute”. Int. Conf. Data Engineering (ICDE’99), pages 512-521, Sydney, Australia.

[8] G. Karypis, E.-H. Han, and V.

Kumar(1999), “CHAMELEON: Hierar- chical Clustering Using Dynamic Modeling”.

IEEE COMPUTER, 32:68-75.

[9] M. Ester, H. -P. Kriegel, J. Sander, X.

Item TID

B C D

001 Yes Yes Yes 002 Yes Yes Yes 007 Yes Yes Yes 008 Yes Yes Yes 009 Yes Yes Yes

Item TID

A B C

001 Yes Yes Yes 002 Yes Yes Yes 005 Yes Yes Yes 007 Yes Yes Yes 008 Yes Yes Yes 009 Yes Yes Yes Item

TID

A B C D

001 Yes Yes Yes Yes 002 Yes Yes Yes Yes 007 Yes Yes Yes Yes 008 Yes Yes Yes Yes 009 Yes Yes Yes Yes

(8)

Xu(1996), “Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise”. Int. Conf.

Knowledge Discovery and Data Mining (KDD’96), pages 226-231, Portland, OR.

[10] M. Ankerst, M. Breunig, H.-P. Kriegel, and J. Sander(1999), “OPTICS: Ordering points to identify the clustering structure”.

Int. Conf. Management of Data (SIGMOD’99), pages 49-60, Philadelphia, PA.

[11] W. Wang, Yang, R. Muntz(1997),

“STING: A Statistical Information grid Approach to Spatial Data Mining”. Int. Conf.

Very Large Data Bases(VLDB’97), pages 186-195, Athens, Greece.

[12] G. Sheikholeslami, S. Chatterjee, and A.

Zhang(1998), “WaveCluster: A multi-resolution clustering approach for very large spatial databases”. Int. Conf. Very Large Databases (VLDB’98), pages 428-439, New York.

[13] R. Agrawal, J. Gehrke, D. Gunopulos, P.

Raghavan(1998), ”Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications”. Int. Conf.

Management of Data, 94-105, Seattle, Washington.

[14] R. Agrawal, H. Mannila, R. Srikant, H.

Toivonen, and A. I. Verkamo (1996), “Fast discovery of association rules”. In U.

Fayyad and et al, editors, Advances in Knowledge Discovery and Data Mining,chapter12, pages 307-328,AAAI/

MIT Press.

[15] C. H. Cheng, A. W. Fu, and Y.

Zhang(1999), ”Entropy-based subspace clustering for mining numerical data”. Int.

Conf. Knowledge Discovery and Data Mining(KDD’99), pages 84-93.

Abstract

The goal of our research is to study the subspace clustering algorithms and to apply the technique on the application of target market. The clustering technique is a useful technique for discovering data distributions, simplifying the complexity and retrieving the information behind underlying data. But, in some applications, the clustering algorithms do not work efficiently at full dimensions. In this paper, we find that the clustering algorithms will works well when combine with both the results at full dimensions and subspaces. We will take as example by applying this new algorithm to the application of target market. The algorithm analyze the consumer's consumption patterns for helping the decision makers to find the potential consumers and to select the better marketing strategies in order to succeed and survive in the competitive business environment.

Keywords: clustering algorithm, subspace clustering algorithm, target market.

參考文獻

相關文件

The molal-freezing-point-depression constant (Kf) for ethanol is 1.99 °C/m. The density of the resulting solution is 0.974 g/mL.. 21) Which one of the following graphs shows the

 Promote project learning, mathematical modeling, and problem-based learning to strengthen the ability to integrate and apply knowledge and skills, and make. calculated

"Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values," Data Mining and Knowledge Discovery, Vol. “Density-Based Clustering in

The research proposes a data oriented approach for choosing the type of clustering algorithms and a new cluster validity index for choosing their input parameters.. The

Raghavan(1998), ”Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications”.. Zhang(1999), ”Entropy-based subspace clustering for mining

Courtesy: Ned Wright’s Cosmology Page Burles, Nolette & Turner, 1999?. Total Mass Density

The temperature angular power spectrum of the primary CMB from Planck, showing a precise measurement of seven acoustic peaks, that are well fit by a simple six-parameter

PROXIMAL POINT ALGORITHM FOR NONLINEAR COMPLEMENTARITY PROBLEM BASED ON THE GENERALIZED FISCHER-BURMEISTER MERIT FUNCTION.. Yu-Lin Chang and