資料串流環境之條件限制叢集分析

(1)

行政院國家科學委員會專題研究計畫成果報告

資料串流環境之條件限制叢集分析研究成果報告(精簡版)

計畫類別：個別型

計畫編號： NSC 96-2221-E-011-174-

執行期間： 96 年 08 月 01 日至 97 年 07 月 31 日執行單位：國立臺灣科技大學資訊工程系

計畫主持人：戴碧如

計畫參與人員：碩士班研究生-兼任助理人員：郭雅平碩士班研究生-兼任助理人員：林榮雄碩士班研究生-兼任助理人員：李昶毅碩士班研究生-兼任助理人員：林柏佑碩士班研究生-兼任助理人員：林楊澤碩士班研究生-兼任助理人員：姜弘霖

報告附件：出席國際會議研究心得報告及發表論文

處理方式：本計畫涉及專利或其他智慧財產權，2 年後可公開查詢

中華民國 97 年 10 月 31 日

(2)

行政院國家科學委員會補助專題研究計畫 ■ 成果報告

□期中進度報告資料串流環境之條件限制叢集分析

計畫類別：■ 個別型計畫 □ 整合型計畫

計畫編號：NSC 96－2221－E－011－174－

執行期間： 96 年 08 月 01 日至 97 年 07 月 31 日

計畫主持人：戴碧如共同主持人：

計畫參與人員：郭雅平、林榮雄、李昶毅、林柏佑、林楊澤、姜弘霖

成果報告類型(依經費核定清單規定繳交)：■精簡報告 □完整報告

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式：除產學合作研究計畫、提升產業技術及人才培育研究計畫、

列管計畫及下列情形者外，得立即公開查詢

■涉及專利或其他智慧財產權，□一年■二年後可公開查詢

執行單位：國立臺灣科技大學資訊工程系

(3)

中文摘要

近年來，由於各種應用中快速累積了大量資料，引發了許多資料串流環境之資料探勘技術的研究，資料串流應用所產生的資料，常常是非常大量且快速累積的，以致於無法儲存於有限的空間，也無法進行多次掃描，因此，資料的概算與演算法的可適性，成為資料探勘分析的重要因素。我們可以發現，在資料串流環境中，不同時間點執行探勘分析所得到的結果常常因為資料的改變而不盡相同，

對於資料探勘中的資料叢集分析技術而言，叢集的特性與成員也常隨著時間變化，因此，對連續匯入的資料串流進行叢集分析，可提供使用者觀察相似資料群集變化的途徑。

本計畫中，我們將先對資料串流管理系統的特性進行深入了解，之後根據資料串流環境的特性，利用有限的時間與空間資源，研發有效率的資料串流叢集分析演算法，最後，我們將進一步研究具條件限制之叢集分析技術，以提昇資料探勘技術在資料串流環境中之實用性。

由於資料探勘的研究常因應用領域而異，其中在探勘技術中加入各種條件限制是將應用領域之專業知識引入資料探勘分析考量中的一種方式，目前已有一些研究提出了具條件限制之叢集分析演算法，然而這些演算法的設計主要是針對靜態資料進行分析，而無法適用於資料串流環境。本計畫中，我們同時結合了條件限制與資料串流兩種概念，探討資料串流環境中的條件限制性資料叢集技術，提出有效的解決方案。

關鍵字：資料探勘，資料串流，資料叢集

(4)

英文摘要

In recent years, several mining capabilities have been explored for the data stream environment. For data stream applications, the volume of data is usually too huge to be stored on permanent devices or to be scanned thoroughly more than once.

It is hence recognized that both approximation and adaptivity are key ingredients for executing queries and performing mining tasks over rapid data streams. It is noted that in the data stream environment, the patterns generated at different time instances are different due to data evolution. As time progresses, the behavior and members of clusters usually change. Hence, clustering continuous data streams allows us to observe the changes of group behavior.

In this project, we will first investigate the properties of data stream management systems (DSMS). Then, according to the features of the data stream environment, we will develop efficient clustering algorithms under the condition of limited resources, such as the time and the space. Finally, to further enhance the practicability of mining techniques in the data stream environment, the problem of clustering with constraints is study.

Since data mining is an application dependent technology, the information involving domain knowledge is usually imposed on the mining systems as various constraints. Some algorithms have been proposed for clustering with constraints.

However, they are mainly designed for static data sets and are usually not able to work well in the data stream environment. In this project, these two concepts, which are the properties of constraints and data streams, are combined and considered at the same time to develop the constrained clustering algorithm for the data stream environment.

Keywords: data mining, data stream, data clustering

(5)

報告內容：

（一）前言

隨著電腦計算速度的不斷提高和網路技術的高度發展與普及，各種領域、各種應用中產生資料的速度愈來愈快，逐漸形成了一個新的資料環境，我們稱之為資料串流（Data Stream）[1, 2]，資料串流代表的是一個資料不斷快速地、連續地產生累積的環境，而日常生活中已有不少應用具有資料串流的存在，以下簡單列幾個資料串流的可能資料來源：

　商業與財經應用：包含交易資料、信用卡交易記錄、股價變動、新聞文件等等。

　電腦網路應用：包含網路監控與流量管理、網路安全偵測控管、封包串流、網路使用者連線資訊等等。

　網頁應用：包含網頁點擊串流、網頁瀏覽記錄等等。

　電信應用：包含電信通話記錄等等。

　工業應用：包含電力供應系統、製造業作業流程等等。

　感測、監控應用：包含視訊串流、環境感測記錄等等。

隨著電腦的普及與計算效率的提高，我們可以發現資料串流的普及性也將更提昇，因此，未來資料串流的管理和分析也會愈來愈受重視。

資料串流與傳統資料庫系統有下列幾項主要差異：傳統的資料庫系統中，資料是有限的，固定的（資料已完全存放於資料庫中），分析時，可直接從資料庫中將完整的資料取出來做分析；相對而言，資料串流環境中，資料是持續性地進入，所以是有順序性的，通常會是變動中的，而且資料產生的速度很快也很大量，由於這些特性，分析時資料還在不斷累積，我們沒有足夠的時間和空間對所有資料一起進行分析，但是使用者又希望可以很快得到分析的結果，因此對於資料探勘等等分析之演算法的設計是很大的挑戰。

（二） 研究目的

本計畫將利用有限的時間與空間資源之限制下，進行資料串流之叢集（clustering）

分析，此研究對於現今資料量龐大且快速產生累積的環境中極具重要性及實用性，我們以下列例子說明。以包含溫度、濕度、海洋表面風速等等測量值的海洋學資料為例，這些數值是連續不斷地記錄與回報，而且可能會隨著洋流、降雨、太陽輻射或其他因表而變化，因此，藉由對這些連續的資料串流進行叢集分析，我們可以觀察長、短期之氣候變化，例如數天內或數個月內的變化，或是數十年間之氣候轉變，以及觀測區域性之生態環境變遷等等這些隱含於連續資料串流中的重要訊息，提供海洋學家、氣象學家進行更深入的分析研究與建立未來趨勢預測模型之參考依據。

(6)

在資料串流環境中，由於資料的成長與變動，使得其隱含的規則（rules）或樣式

（patterns）將隨著探勘技術對資料進行分析的時間不同而有所差異，規則或樣式改變的頻率也隨著不同的應用領域而不盡相同，例如，鄰近的感測器（sensors）所產生的資料串流可能具有類似的資料特性，因此常常維持在同一個叢集中，叢集的分佈少有變動；

另一方面，若我們觀察股價記錄所產生的資料串流，會發現有些公司的股價變化在數週內都表現得很類似，可被視為同一個叢集，而之後就不再類似了，應被歸類為不同叢集，

因此叢集的分佈及成員可能常常變動。所以，我們希望設計更有彈性的叢集分析技術，

以支援並處理資料串流中會隨著時間變化的叢集特性。

另一方面，資料串流環境中，除了資料特性常隨著資料成長而變化之外，使用者的需求也是充滿不確定性，同一個時間，不同使用者可能會有不同的分析設定，而同一個使用者在不同時間也可能有不同的分析需求，因此除了需處理資料的變動性之外，我們也希望資料串流環境中的叢集演算法是可以隨著使用者需求彈性調整設定。

因此，為了達成上述目標，此計畫將致力於研究高效率之資料串流摘要與儲存機制，設計資料串流環境中的叢集演算法，以期處理高變動性之資料串流，並快速產生符合使用者需求之叢集分析成果。另外，為提升有限資源之運用效率，所設計之探勘演算法也將由過去資料中進行學習與調適，並根據所能使用之資源（包含執行時間與儲存空間資源）決定需記錄的串流資訊之解析度與執行叢集演算法之時機，以期利用最少資源，達到最佳之分析成效。

此外，在資料串流環境中，除了針對一般性之資料叢集技術進行研究，我們也將基於上述之研究，進一步延伸至應用導向議題，深入探討資料串流環境之條件性叢集技術。資料探勘技術所欲探尋之隱含資訊，常常是因應用而異，不同的應用領域與環境，

所希望尋找出的資訊也不盡相同，而這些資訊，常需要徵詢相關領域的專家，才能有所了解。因此，為了能夠充份利用所徵詢之相關領域知識，提供符合使用者所感興趣的訊息，我們也希望能夠針對應用領域的特性，設計合適的條件或限制，並在資料探勘分析中加入這些特殊條件或限制，以達到引入專家知識的功效。然而目前於探勘技術中加入限制或條件之研究，主要都是針對靜態資料進行研發[27-32]，所設計的演算法並未特別考慮資料快速匯入、且計算與儲存資源皆有限之資料串流環境，因此，若直接於資料串流環境中使用此類演算法，其資源運用與效率上的表現常常都是不符合需求的，因而，

此計畫也將針對資料串流環境的獨特性，研究適當且高效率之資料叢集技術，以藉由加入限制或條件的方式，順利於探勘技術引進專家知識。

（三） 文獻探討

近年來，針對資料串流環境進行資料探勘技術之研究引起了資料庫領域及資料探勘領域的高度重視[3-19]，包含資料的摘要與統計（summarization and statistics）[9, 21]、

(7)

資料選擇（data selection）[24]、變化偵測（change detection）[20, 22]、抽樣技術（sampling）

[23, 25]、高頻率樣式(frequent pattern)[7, 19, 22, 26]、關聯性法則（association rule）[6]、

叢集分析（data clustering，又稱資料分群）[3, 11, 13]、資料分類技術（data classification）

[10, 12]等等。

資料串流管理系統為近幾年來新興之研究領域，國外已有部分大型研究團隊投入相關研究，並針對不同之資料需求，規劃相對應之研究計畫，以進行長期之學術研究與建立資料串流管理系統。STREAM 為 Stanford 所建立的 general-purpose 資料串流管理系統 [33]，此計畫中提出了許多建立資料串流管理系統面臨之挑戰，並針對串流環境中之連續型查詢設計一套連續查詢語言（the CQL Continuous Query Language），且實作其中所需之各項功能與運算。COUGAR Device Database Project 為 Cornell 大學所提出[34]，針對具處理器、記憶體、通信能力之感測裝置及其他具運算能力的小型裝置，設計分散式之查詢執行技術，以降低資料傳輸量。而 Hancock 著重於從交易型資料串流中萃取演變特徵（稱為 signatures）之語言設計與最佳化[35]，並以電信產業資料驗證其效率及可行性。OpenCQ 是一個分散式之事件偵測連續查詢系統[36]，用戶可以指定該系統的資料及有興趣監控的事件，透過常設的查詢，每當更新達到指定門檻值就監測更新的影響並將結果回傳。Tapestry 是一個實驗性的郵件系統[37]，由 Xerox Palo Alto 的研究中心所開發。開發這個系統的動機是因為對於電子郵件的使用量增加，造成使用者收到大量的電子文件，而其中有很多是自己不感興趣的內容，此系統提出合作式的過濾機制，藉由我們對於閱讀文件後所做的回應，來幫助別人執行其郵件過濾，Tapestry 不同於一般的過濾系統，是在文件到達後才開始運算，而是對於整個資料庫重複地發出查詢，以快速觸發過濾機制。

（四） 研究方法

本計畫之第一年，著重於深入研究國外大型資料串流管理系統，分析資料串流管理系統之特性、功能、與其研究現況，以為後續二年串流環境中的探勘演算法之研究發展建立充分的理論基礎。基於上述的文獻探討，本計畫第二年的目標，將以第一年對於資料串流管理系統的研究成果為根基，針對資料探勘技術中之叢集分析（Clustering Analysis）技術進行深入研究，以研發符合資料串流環境特性之叢集分析演算法，並特別探討資源（執行時間與儲存空間）有限的情況下，如何設計有效率之探勘技術。

本計畫中之串流環境之資料叢集分析系統架構如圖一所示，隨著時間的推移，資料串流不斷匯入叢集分析系統，由於使用者的分析需求是多變的，在資料收集的階段並無法預測未來的探勘分析需求，因此，我們需要由叢集分析系統先進行線上資料維護

（Online Maintenance）的工作，以整合並儲存合適的資料摘要（Summary or Synopses），

當使用者提出叢集分析的需求時，一筆叢集分析查詢（Clustering Query）將會送達資料叢集分析系統，此查詢包含下列資訊：

(8)

圖一、串流環境之資料叢集分析系統架構

 Cluster number = k

 Window size = w

 Number of windows observed = p

由叢集分析的需求中，我們可以觀察到，當我們收集資料時，是所欲產生的叢集數量（Cluster Number）、分析的資料區間範圍大小（Window Size）、以及欲觀察的總時間範圍（Number of Windows Observed）都是未知的，這對資料收集將是一大挑戰。面對不確定的需求，收集資料與保存資料摘要時就必須兼顧所有可能的需求組合，因此，針對此特性，我們在線上資料維護（Online Maintenance）的階段，採取多解析度（Multiple Resolutions）的資料摘要架構（Summary Hierarchy），以儲存充分的資訊，因應未來使用者的分析需求。

（五） 結果與討論

本計畫執行至今，已完成第一年之預期進度，深入研究國外大型資料串流管理系

{S₁, S₂, S₄,…}, {S₃, S₉,…}

w₂

{S₁, S₄,…}, {S₂, S₃, S₇,…}

w₁

Clusters Window

Online maintenance Clustering query:

-Cluster number: k -Window size: w -Windows observed: p

Statistics

S₁ S₂

S₃

… S_n

0 10 20 30 40 50 60 70

0 5 10 15 Time

Value w₂ w₁

Current time

Clustering Results:

(9)

統，分析資料串流管理系統之特性、功能、與其研究現況，以為後續二年串流環境中的探勘演算法之研究發展建立充分的理論基礎。依據第一年所整理之資料串流管理系統之資料儲存與處理技術，第二年規劃之線上資料維護機制也開始著手設計，線上維護系統採多層次之資料摘要架構，對於最新之資料以較精確的方式儲存，而歷史資料根據其經過之時間長短，記錄不同程度之估計值，以符合資料串流環境中，較重視近期資料的特色，未來期望能持續此計畫之執行，完成串流環境之資料叢集分析系統。

參考文獻

[1] B. Babcock, S. Babu, M. Datar, R. Motwani and J. Widom. Models and Issues in Data Stream Systems”, PODS'02.

[2] S. Muthukrishnan, Data streams: algorithms and applications, Proceedings of the fourteenth annual ACM-SIAM symposium on Discrete algorithms, 2003

[3] S. Guha, N. Mishra, R. Motwani, and L. O'Callaghan. Clustering Data Streams, FOCS'00 [4] G. Hulten, L. Spencer and P. Domingos: Mining time-changing data streams. KDD 2001 [5] S. Madden, M. Shah, J. Hellerstein, V. Raman, Continuously Adaptive Continuous Queries over Streams, SIGMOD02

[6] G. Manku, R. Motwani. Approximate Frequency Counts over Data Streams, VLDB’02 [7] A. Metwally, D. Agrawal, and A. El Abbadi. Efficient Computation of Frequent and Top-k Elements in Data Streams. ICDT'05

[8] S. Viglas and J. Naughton, Rate-Based Query Optimization for Streaming Information Sources, SIGMOD’02

[9] Y. Zhu and D. Shasha. StatStream: Statistical Monitoring of Thousands of Data Streams in Real Time, VLDB’02

[10] H. Wang, W. Fan, P. S. Yu, and J. Han, Mining Concept-Drifting Data Streams using Ensemble Classifiers, KDD'03

[11] C. Aggarwal, J. Han, J. Wang, P. S. Yu. A Framework for Clustering Data Streams, VLDB'03

[12] C. C. Aggarwal, J. Han, J. Wang and P. S. Yu. On-Demand Classification of Evolving Data Streams, KDD'04

[13] C. Aggarwal, J. Han, J. Wang, and P. S. Yu. A Framework for Projected Clustering of High Dimensional Data Streams, VLDB'04

[14] S. Babu and J. Widom. Continuous Queries over Data Streams. SIGMOD Record, Sept.

2001

[15] Y. Chen, G. Dong, J. Han, B. W. Wah, and J. Wang. "Multi-Dimensional Regression Analysis of Time-Series Data Streams, VLDB'02

[16] P. Domingos and G. Hulten, “Mining high-speed data streams”, KDD'00

(10)

Queries over Data Streams, SIGMOD’02

[18] J. Gehrke, F. Korn, D. Srivastava. On computing correlated aggregates over continuous data streams. SIGMOD'01

[19] C. Giannella, J. Han, J. Pei, X. Yan and P.S. Yu. Mining frequent patterns in data streams at multiple time granularities, Kargupta, et al. (eds.), Next Generation Data Mining’04

[20] C. C. Aggarwal. On change diagnosis in evolving data streams. IEEE Trans. On Knowledge and Data Engineering, 17(5):587—600, 2005.

[21] A. Bulut and A. K. Singh. Swat: Hierarchical stream summarization in large networks. In Proc. of ICDE, pages 303—314, Mar. 2003.

[22] J. H. Chang and W. S. Lee. estWin: Adaptively Monitoring the Recent Change of Frequent Itemsets over Online Data Streams. In Proceedings of ACM CIKM, 2003.

[23] G. Cormode, S. Muthukrishnan, and I. Rozenbaum. Summarizing and Mining Inverse Distributions on Data Streams via Dynamic Inverse Sampling. In Proceedings of VLDB, 2005.

[24] W. Fan. Systematic data selection to mine concept-drifting data streams. In Proc. of ACM SIGKDD, pages 128—137, 2004.

[25] T. Johnson, S. Muthukrishnan, and I. Rozenbaum:. Sampling algorithms in a stream operator. In Proc. of ACM SIGMOD Conference, 2005.

[26] W.-G. Teng, M.-S. Chen, and P. S. Yu. A regression-based temporal pattern mining scheme for data streams. In Proc. of VLDB, Sep. 2003.

[27] A.K.H. Tung, J. Han, L. V. S. Lakshmanan, and R. T. Ng. Constraint-based clustering in large databases. In Proceedings of 2001 International Conference on Database Theory, Jan.

2001.

[28] P. S. Bradley, K. P. Bennett, and A. Demiriz. Constrained K-Means Clustering.

MSRTR-2000-65, Microsoft Research, May 2000.

[29] V. Estivill-Castro and I. Lee. Autoclust+: automatic clustering of point-data sets in the presence of obstacles. In Proc. of TSDM, pages 133—146, 2000.

[30] O. R. Zaïane, A. Foss, C.-H. Lee, and W.Wang. On data clustering analysis: Scalability, constraints, and validation. In PAKDD, pages 28—39, 2002.

[31] D. Klein, S. D. Kamvar, and C. Manning. From instance-level constraints to space-level constraints: Making the most of prior knowledge in data clustering. In Proceedings of the The Nineteenth International Conference on Machine Learning (ICML-2002), Sydney, Australia, 2002.

[32] C.-R. Lin and M.-S. Chen. On the optimal clustering of sequential data. In Proceedings of the 2nd SIAM International Conference on Data Mining, April 2002.

[33] The STREAM Group. STREAM: The Stanford Stream Data Manager (short overview paper) IEEE Data Engineering Bulletin, March 2003

[34] Johannes Gehrke and Praveen Seshadri, Querying the physical world. IEEE Personal

(11)

[35] Corinna Cortes , Kathleen Fisher , Daryl Pregibon , Anne Rogers, Hancock: a language for extracting signatures from data streams, Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, p.9-17, August 20-23, 2000, Boston, Massachusetts, United States

[36] Ling Liu and Calton Pu and Wei Tang. Continual queries for Internet scale event-driven information delivery. IEEE Transactions on Knowledge and Data Engineering, volume 11, pages 610—628, 1999}.

[37] D. Goldberg, D. Nichols, B. M. Oki and D. Terry, “Using collaborative filtering to weave an information tapestry,” Communications of the ACM, vol. 35, no. 12, pp.61-70, Dec. 1992.

計畫成果自評

本計畫執行至今，已完成第一年之預期進度，深入研究國外大型資料串流管理系統，分析資料串流管理系統之特性、功能、與其研究現況，以為後續二年串流環境中的探勘演算法之研究發展建立充分的理論基礎。依據第一年所整理之資料串流管理系統之資料儲存與處理技術，第二年規劃之線上資料維護機制也開始著手設計，然而此計畫只通過第一年之申請，未來期望能持續此計畫後續二年之執行，以完成串流環境之資料叢集分析系統。

(12)

出席國際學術會議心得報告

計畫編號 NSC 96-2221-E-011-174

計畫名稱資料串流環境之條件限制叢集分析出國人員姓名

服務機關及職稱

戴碧如

台灣科技大學資訊工程系助理教授會議時間地點九十七年五月二十日至五月二十三日

日本大阪

會議名稱 Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2008)

發表論文題目一、參加會議經過

Pacific-Asia Conference on Knowledge Discovery and Data Mining 為知識探索領域重要之國際會議，此會議論文涵蓋知識探索相關之學術研究成果及開發經驗，主要領域包括資料探勘、資料倉儲、機器學習、資料庫、統計學、知識庫系統及其他相關研究方向。

本次 PAKDD 2008 研討會的會期為九十七年五月二十日至五月二十三日，舉辦地點位於日本大阪的 Hotel Seagull。

本次會議第一天為四場 Workshops：Algorithms for Large-Scale Information Processing in Knowledge Discovery （ALSIP '08）、Workshop on Web Mining and Web-based Application

（WMWA '08）、Workshop on Data Mining for Decision Making and Risk Management

（DMDRM '08）、Workshop on Interactive Data Mining （IDM '08）。晚上的 Reception 中，

主持人首先介紹了一些關於本屆會議的主旨、目的和議程等相關訊息，而本次所蒐錄的範圍相當廣泛，Data Mining 的底層技術、Privacy and Protection、Web Search、Information Streams 等相關領域皆有所發表，而各個 Workshop 主持人亦針對其會議宗旨及收錄論文進行大略介紹。在 Reception 中，見到不少來自各國之學者，對於各種不同之研究方向進行經驗分享。

會議期間除了論文發表議程之外，另有三場 Tutorials，講題分別為：State-of-the-art in Data Stream Mining、Detecting Clusters in Moderate-to-High Dimensional Data Subspace Clustering, Pattern-based Clustering, and Correlation Clustering、Data Mining Techniques for Web Spam Detection。我參加了 State-of-the-art in Data Stream Mining 這場 Tutorial，主講人為 Prof. Joao Gama（來自 Laboratory of Artificial Intelligence and Decision Support, INESC-Porto, University of Porto, Portugal），Prof. Gama 首先介紹了資料串流（data stream）

的特性，由於現今許多資料來源皆具有大量、快速產生、連續性等等資料串流特性，包

(13)

勘技術，針對變化偵測（change detection）、分群技術（clustering）、分類技術

（classification）、高頻樣式（frequent patterns）、及時間序列分析（time series analysis）

等等傳統資料探勘技術，延伸至資料串流環境所面臨之問題、挑戰、與可行之解決方案進行探討，最後並匯整了一些待解問題與未來研究方向，提供與會者更廣拓之研究視野。

二、與會心得

本次會議有多篇資料串流相關論文發表，與本年度進行中之國科會計畫「資料串流環境之條件限制叢集分析」高度相關，此次會議中聆聽了多項相關研究成果，並與國際學者面對面進行學術交流，許多學者提出之技術與研究經驗都值得深思及借鏡，在此次的與會過程中真是獲益良多，也對於國科會計畫之順利執行有正面之影響。