• 沒有找到結果。

運用社群偵測技術在結構化P2P網路上建構發佈/訂閱系統之研究

N/A
N/A
Protected

Academic year: 2021

Share "運用社群偵測技術在結構化P2P網路上建構發佈/訂閱系統之研究"

Copied!
13
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 期末報告

運用社群偵測技術在結構化 P2P 網路上建構發佈/訂閱系統 之研究

計 畫 類 別 : 個別型

計 畫 編 號 : NSC 101-2221-E-011-147-

執 行 期 間 : 101 年 08 月 01 日至 102 年 07 月 31 日 執 行 單 位 : 國立臺灣科技大學資訊工程系

計 畫 主 持 人 : 陳秋華

計畫參與人員: 碩士班研究生-兼任助理人員:吳昱仁 碩士班研究生-兼任助理人員:董柏均 碩士班研究生-兼任助理人員:彭繼霆

報 告 附 件 : 出席國際會議研究心得報告及發表論文

公 開 資 訊 : 本計畫可公開查詢

中 華 民 國 102 年 11 月 08 日

(2)

中 文 摘 要 : 近年來線上社群系統像是 Facebook、Twitter、和 YouTube 蓬勃發展,帶動了在線上社群系統上社群偵測技術的研究。

從社群偵測技術中獲得啟發,我們探討如何應用這些技術在 發佈/訂閱系統的設計。由於具有相同興趣的使用者常對同類 型發佈的事件產生興趣,因此運用社群偵測技巧,將有相同 興趣的使用者分成一些社群,便可成為對發佈/訂閱系統的設 計中有效傳遞事件的基礎。

本計劃探討的議題有三。首先,我們研究藉助社群偵測 (community detection)技術能有效地發掘使用者間隱含的社 群關係的能力,將其運用於發佈/訂閱架構設計。社群結構偵 測技巧,可以幫助我們從社會人際網路中,形成人際間的分 群,可更有效改善現有 pub/sub 系統之效能。

第二,本計劃研究使用事件分群後批次處理(batch processing)策略,將發佈的相似事件收集成一個批次

(Batch)之後,再以資料廣播的方式傳遞。由於許多事件非常 熱門,滿足絕大多數的訂閱者,這些訂閱者均可同時以同一 封包傳遞,因此可以大幅降低網路資源的使用。

最後本計劃的第三個議題,為驗証及落實我們的想法,我們 將前兩項研究的結果建構在現有結構化網路上中具有代表性 的 pub/sub 系統上,探討訂閱分群及事件批次處理策略在加 入現有系統架構後,對其效能的影響。

中文關鍵詞: 社群偵測技術, 發佈/訂閱系統, 機器學習, 結構化網路 英 文 摘 要 :

英文關鍵詞: community detection, pub/sub system, machine learning, structured overlay networks

(3)

運用社群偵測技術在結構化 P2P 網路上建構發佈/訂閱系統之 研究

Exploiting Community Detection Technology for Pubish/Subscribe Systems Design on Structured P2P Networks

計畫編號:101-2221-E-011-147- 執行期限:101 年 8 月 1 日至 102 年 7 月 31 日 主持人:陳秋華 國立台灣科技大學資訊工程系

中文摘要

訂 閱 / 發 佈 系 統 (publish/subscribe services) [2,4,6,7,10,11,15,16,17],讓一個意欲發佈某事件(event) 的發佈者(publisher)發佈資訊,能輕鬆、有效率的將事 件傳送到訂閱者(subscriber)的手上。每一個事件,由 一組與此事件相關的屬性(attributes)集合而成,描述一 個 事 件 的 內 容 。 訂 閱 者 (Subscribers) 透 過 訂 閱 (subscriptions) ,來向訂閱/發佈系統記錄下他的喜好。

而 subscriptions 由述語(constraints)組成,供訂閱者在 眾多發佈的事件中,過濾出他感興趣的事件。

本計劃針對結構化 P2P 網路上的語義發佈/訂閱系 統(content-based publish/subscribe services)的相關議題 作深入研究。我們提出一些新的研究方向,改善現有 pub/sub 系統在訂閱(subscriptions)儲存及 event 傳遞之 成本。

本計劃之研究議題,包含以下三項

研究議題 1. 運用社群偵測的技巧為核心建構發佈/

訂閱系統的研究:本議題擬研究依網路節點訂閱 相似性,作為訂閱分群的方法,以克服Mirinae 等方法不適用於大量屬性數目的情況。我們使用 的技術是資料導向(data driven) 方式的節點興趣 表示法,及應用線上社群網絡研究中所提出的社 群偵測技巧[12]。

研究議題 2. 事件批次處理策略之研究(Event clustering):本計劃研究的事件批次處理策略,

可分為以下個方法: Window-based 事件批次處理 策略,非監督式事件分群(Unsupervsed clustering) 事件批次處理策略,Match-early事件批次處理策 略。

研究議題 3. 針對文獻中Ferry架構作適度的修改

及效能評估:我們比較兩大架構的效能及作適度 的修改,以增進其效能。包含發佈的事件如何收 集成一個Batch的策略,資料廣播的方法,及因 此造成事件傳遞的延遲。

計畫自評

本計畫的成果和原計畫的申請項目大致相同,計 畫中各子議題均已大致完成。本計畫所提及之各項成 果預期對於訂閱/發佈系統研究領域的架構設計,效能評 估等方面有很大的貢獻。本計畫結果除了在學術界提 供訂閱/發佈系統架構設計上的新解決方法外,對業界 也可提供相關問題上可更快更省空間的方式。經由本 計畫的研究與實作,讓參與的人員深入瞭解語意訂閱/

發佈系統的重要性,更促使參與人員體會到語意訂閱/

發佈系統等研究主題在學術及工業界的相互結合,如 此結合理論與實際應用,提昇參與人員今後之研發能 力進而提昇國家競爭力。

計劃主持人在本國科會計劃之支援下,針對相關之研 究工作,共發表了以下論文

A. Chyouhwa Chen, Po-Chung Tung, Wei-Chung Teng,” Exploiting Unsupervised Learning in Publish Subscribe System Design,”, International Symposium on Biometrics and Security Technologies (ISBAST), 2013

B. Chyouhwa Chen, Shi-Jinn Horng, and Kevin Chang, Improving Routing State Consistency and Reducing Overhead for Migration-based Load Balance Systems in Structured Overlay Networks, International Journal of Innovative Computing Information and Control, Volume 8, Issue 3, March, 2012

計畫緣由與結果

(4)

1. Introduction

近年來,社群媒體如臉書、部落格、Twitter、維 基百科、Flickr 和 YouTube 的蓬勃發展,不僅改變人 們在社會溝通和共享信息的方式,也直接改變人們的 互動。因為社群媒體中含有大量寶貴的個人資訊,社 群媒體的探勘已經成為一個重要的研究領域。而社群 媒體探勘研究其中重要一環是在研究找出有相似看法 和興趣的人群的社群結構。

圖 1 中顯示一個典型的從人們在社群媒體上互動 關係中所找出的社群結構。因此,本計劃的核心主題,

在 運 用 社 群 媒 體 探 勘 研 究 中 發 展 的 社 群 偵 測 技 術 [12,13],應用它於發佈/訂閱架構設計,來提昇發佈/訂 閱系統的效率。以改善訂閱(subscriptions)儲存的成本 以及 event 傳遞之成本及系統負載方面的表現。

本計畫探討運用社群偵測技術的系統架構,架構 如圖 2 所示。此架構之動作說明如下:1)系統計對所 有的訂閱分析其共通性,當訂閱者的共通性佔所有訂 閱者的比例超過一個比例時(如 40%,或 50%以上),則 為這些訂閱者建構一 multicast-tree,以利當共通事件 被發佈時,得以有效率的傳遞。2)除了使用 multicast- tree 以加速共通事件的傳遞外,每一事件發佈節點設 有一緩衝區,且採取等候一段時間的策略,使緩衝區 得以累積一些要發佈的事件的量,以利多個共通事件 得以利用同一個封包傳遞。圖中顯示一段時間後,節 點 A 累積了共 e1~e6 六個事件。3)節點 A 檢視其緩衝 區,發現{e2,e4,e6}屬於非常熱門的共通事件,網路上 有許多節點之訂閱均有可能被它們滿足,因此可批次 處理。4)節點 A 將{e2,e4,e6}包裝成一個封包,透過事 先建好的 multicast-tree 將這些事件送出,以達到減少 整體封包數量,及快速傳遞的優點。5)較不熱門的事 件{e1,e3,e5}則透過 Ferry 原有的機制傳遞,以避免它 們被誤傳到沒有訂閱它們的節點上。

圖1:社群偵測找出人們的社群結構

2. Proposed System

圖 2. The architecture of the System

本架構中之動作說明如下:

1. 系統計對所有的訂閱分析其共通性,當訂閱者的 共通性佔所有訂閱者的比例超過一個固定值時(如 40%,或50%以上),則為這些訂閱者建構一 multicast-tree,以利當共通事件被發佈時,得以有 效率的傳遞。

2. 除了使用multicast-tree以加速共通事件的傳遞外,

每一節點設有一緩衝區,且採取等候一段時間的 策略,使緩衝區得以累積一些要發佈的事件的量,

以利多個共通事件得以利用同一個封包傳遞。圖 中顯示一段時間後,節點A累積了共e1~e6六個事 件。

3. 節點A檢視其緩衝區,發現{e2,e4,e6}屬於非常熱 門的共通事件,網路上有許多節點之訂閱均有可 能被它們滿足。

4. 節點A將{e2,e4,e6}包裝成一個封包,透過事先建 好的multicast-tree將這些事件送出,以達到減少整 體封包數量,及快速傳遞的優點。

5. 較不熱門的事件{e1,e3,e5}則透過Ferry/Fleet原有的 機制傳遞,以避免它們被誤傳到沒有訂閱它們的 節點上。

3. Performance Evaluation

我們以下針對本計劃所提之研究議題之成果作一概述。

以下成果之實驗環境均依下表之參數為之。

Parameter name Default value

Number of subscription clusters 30 Event buffer window size on brokers 100

Number of RP nodes 7

Number of Medoids per subscription cluster 25

Workload Properties

Number of Attributes 10

Number of Subscriptions 50,000

Number of events 100,000

Distribution for attribute names/coefficient Zipf/1.0 Distribution of attribute Values/coefficient Zipf/1.0

(5)

研究議題成果 1. 運用社群偵測的技巧為核心建構發佈/

訂閱系統的研究

圖 3 顯示 k-means 演算法將訂閱分群的動作 。

圖 3: k-means 演算法將訂閱分群的動作

因系統中每一節點具備系統訂閱分群後各群組之資訊,

網路節點可將發佈的事件與已知的各訂閱群組之資訊,

作事件比對的工作後在傳送。圖 4 顯示系統之傳送事 件至訂閱者之正確率與訂閱群數量之關係,圖中可看 出訂閱群數量大於約 20 時,即有不錯的正確率。

圖 4:False Positive Ratio Performance versus Number of Subscription Clusters.

圖 5 顯示系統之傳送事件至訂閱者之正確率與代表每 一 訂 閱 群 所 需 medoid 量 之 關 係 。 圖 中 可 看 出 當 medoid 數量越高,正確率越高。但在 15 時以上時即有 不錯的正確率。

圖 5: False Positive Ratio Performance versus Number of Medoids for Subscription Cluster

研究議題成果 2. 事件批次處理策略之研究(Event

clustering)

圖 6 顯示我們 match-early 策略。當系統中每一節 點具備系統訂閱分群後的各群組之資訊,網路節點可 將發佈的事件與已知的各訂閱群組之資訊,作事件比 對的工作,以獲取事件滿足各群組之情形。當累積發 佈事件至一定的數量時,網路節點可選定事先建構之 資料廣播樹或群播樹,將熱門共通事件透過特別建構 的廣播/群播樹的方式傳遞。

由於一封包內包含多個事件,因此網路中總封包 的體傳輸數量會大幅減低。以 Ferry 系統為例(如圖 2 所示),{e1~e6}由發佈節點使用同一個封包傳輸給 RP 節點,由於 RP 節點儲存所負責的地址空間內的訂閱,

因此可以在執行訂閱比對後,將滿足的事件傳輸給所 負責的地址空間內的訂閱者,以大幅減低封包的總體 傳輸數量.

圖 6.系統中 Window-based 事件批次處理策略,從 發佈者傳遞至訂閱者的情形

圖 7 顯示系統封包的總體傳輸數量之結果。由圖 7 可知,使用特別建構的廣播/群播樹對提昇系統效能 有大幅改善。

圖 7. 封包的總體傳輸數量 vs window size.

研究議題成果 3. 針對文獻中Ferry架構作適度的修改 及效能評估

我們針對 Ferry 系統作適度的修改,並評估其在 subscription replica cost, Cumulative fraction of subscription replicas among nodes, Cumulative fraction of computation cost among nodes, 及 Average number of hops for event delivery 等方面效能。圖 7 中顯示系統對

(6)

Zipf 參數的韌性。由圖 7 中可知,當 Zipf 參數的值增 加時,系統總體正確性呈線性提高之趨勢。即使 Zipf 參數為 0,即訂閱完全無群聚性時,仍有 75%的正確 性。

圖 7. Performance of the System versus the Zipf Parameter

參考文獻

1. Marcos K. Aguilera, Robert E. Strom, Daniel C.

Sturman, Mark Astley, Tushar D. Chandra, Matching events in a content-based subscription system,

Proceedings of the eighteenth annual ACM symposium on Principles of distributed computing, 1999

2. R Baldoni, C Marchetti, A Virgillito, R Vitenberg, Content-Based Publish-Subscribe over Structured Overlay Networks, ICDCS 2005

3. Li, D. Cao, J. Lu, X. Chen, K., Efficient Range Query Processing in Peer-to-Peer Systems, IEEE Transactions on Knowledge and Data Engineering, 2009 4. A. Carzaniga, M.J. Rutherford, and A.L. Wolf, "A Routing Scheme for Content-Based Networking".

Proceedings of IEEE INFOCOM 2004. Hong Kong, China.

March, 2004

5. A. Carzaniga and A.L. Wolf, "A Benchmark Suite for Distributed Publish/Subscribe Systems". Technical Report CU-CS-927-02, Department of Computer Science, University of Colorado, April, 2002.

6. S. Castelli, Paolo Costa, Gian Pietro Picco, Large- Scale Content-Based Routing in a Multidimensional Space, , INFOCOM 08

7. Abhishek Gupta , Ozgur D. Sahin, Divyakant Agrawal, and Amr El Abbadi, Meghdoot: content-based publish/subscribe over P2P networks, Proceedings of the 5th ACM/IFIP/USENIX international conference on Middleware, 2004

8. D.S. Li, X.C. Lu, and J. Wu, FissionE: A Scalable Constant Degree and Low Congestion DHT Scheme Based on Kautz Graphs, Proc. IEEE INFOCOM, pp.

1677-1688, 2005

9. Li, D. Cao, J. Lu, X. Chen, K. Efficient Range Query Processing in Peer-to-Peer Systems, IEEE Transactions on Knowledge and Data Engineering, accpted 2009

10. S.C. Lo and Y. T. Chiu, "Design of Content-Based

Publish/Subscribe Systems over Structured Overlay Networks," IEICE Trans. on Information and Systems, vol.

E91-D, no.5, pp. 1504-1511, May 2008

11. Weixiong Rao, Lei Chen, Ada W. Fu, On Efficient Content Matching in Distributed Pub/Sub Systems, In the 28th Annual Conference of the IEEE Communications Society (INFOCOM), 2009

12. RSS, http://en.wikipedia.org/wiki/RSS_(file_format) 13. Lei Shi, Zhimin Gu, Lin Wei, and Yun Shi “An Applicative Study of Zipf’s Law on Web Cache,”

International Journal of Information Technology, Vol. 12 No.4 2006

14. Ion Stoica, Robert Morris, David Liben-Nowell, David R. Karger, M. Frans Kaashoek, Frank Dabek, Hari Balakrishnan, Chord: A Scalable Peer-to-peer Lookup Protocol for Internet Applications. IEEE/ACM Transactions on Networking, 2003

15. D. Tam, R. Azimi, and H.-A. Jacobsen. Building Content-Based Publish/Subscribe Systems with Distributed Hash Tables, In 1st Intl. Workshop on Databases, Information Systems, and P2P Computing (DBISP2P), Berlin, Germany, 2003

16. P. Triantafillou and I. Aekaterinidis, Content-Based Publish- Subscribe over Structured P2P Networks, Proc.

Third Int’l Workshop Distributed Event-Based Systems (DEBS ’04), pp. 104-109, May 2004.

17. Xiaoyu Yang, Yingwu Zhu, Yiming Hu, "A Large- scale and Decentralized Infrastructure for Content-based Publish/Subscribe Services," International Conference on Parallel Processing (ICPP 2007), 2007

18. Yingwu Zhu and Yiming Hu, Ferry A P2P-Based Architecture for Content-Based Publish/Subscribe Services, IEEE Transactions on Parallel and Distributed System, 2007; 18 (5)

19. Jonathan Ledlie and Margo Seltzer, Distributed, Secure Load Balancing with Skew, heterogeneity, and Churn, In Proceedings of IEEE INFOCOM 2005, March 2005

20. Yuzhe Tang, Shuigeng Zhou, Jianliang Xu."LIGHT:

A Query-Efficient yet Low-Maintenance Indexing Scheme over DHTs", IEEE Transactions on Knowledge and Data Engineering (TKDE), 2009

(7)

出席國際學術會議心得報告

計畫編號 國科會 NSC 101-2221-E-011-147-

計畫名稱 運用社群偵測技術在結構化 P2P 網路上建構發佈/訂閱系統 之研究

出國人員姓名 服務機關及職稱

陳秋華

台灣科技大學資工系/ 教授兼系主任 會議時間地點 Chengdu, Sichuan China, July 2-5, 2013

會議名稱 International Symposium on Biometrics and Security Technologies, 2013

一、 參加會議經過

2013年International Symposium on Biometrics and Security Technologies y於Chengdu, China召開,此會議是台科大與四川西南交通大學交流計劃之一環,本人為該會議之program chair。此次會議日期是從7月2日至7月5日止,共計四天。此會議內容包含以下各主題:

 Cloud Computing,,

 Fault Tolerant Computing,

 Biometrics Technologies

 Biometrics Performance Evaluation

 Information Security in Internet

 Biometrics Applications

 Special Sessions on Intelligent Multimedia Computing and Communication

(8)

二、 與會心得

(9)

台科大與四川交通大學交流促進了台灣學術界與四川西南交通大學及大陸學術界人士 的交流。除了參加會議並報告本人發表之論文外,我們也和四川西南交通大學之校方人員作 深入交流。其間拜會了信息科學與技術學院之院長, 副院長, 及系主任多人,對互相之研究 領域及教學系統的看法作廣泛意見的交換。

三、 建議事項

本人十分感謝國科會能提供補助讓本人能參與此次交流的機會,並且希望國科會能夠提 供更多支持此類學術活動及交流的機會,促進國內學術界之國際化。

四、 攜回資料

參加本次會議一共攜回下列資料:

1. 大會論文集光碟片一張

2. 未來一兩年各項研討會徵稿資料一套

(10)

國科會補助計畫衍生研發成果推廣資料表

日期:2013/10/31

國科會補助計畫

計畫名稱: 運用社群偵測技術在結構化P2P網路上建構發佈/訂閱系統之研究 計畫主持人: 陳秋華

計畫編號: 101-2221-E-011-147- 學門領域: 人工智慧與仿生計算

無研發成果推廣資料

(11)

101 年度專題研究計畫研究成果彙整表

計畫主持人:陳秋華 計畫編號:101-2221-E-011-147- 計畫名稱:運用社群偵測技術在結構化 P2P 網路上建構發佈/訂閱系統之研究

量化

成果項目 實際已達成

數(被接受 或已發表)

預期總達成 數(含實際已

達成數)

本計畫實 際貢獻百

分比

單位

備 註 質 化 說 明:如 數 個 計 畫 共 同 成 果、成 果 列 為 該 期 刊 之 封 面 故 事 ...

期刊論文 0 0 100%

研究報告/技術報告 0 0 100%

研討會論文 0 0 100%

論文著作 篇

專書 0 0 100%

申請中件數 0 0 100%

專利 已獲得件數 0 0 100% 件

件數 0 0 100% 件

技術移轉

權利金 0 0 100% 千元

碩士生 0 0 100%

博士生 0 0 100%

博士後研究員 0 0 100%

國內

參與計畫人力

(本國籍)

專任助理 0 0 100%

人次

期刊論文 0 0 100%

研究報告/技術報告 0 0 100%

研討會論文 1 1 100%

論文著作 篇

專書 0 0 100% 章/本

申請中件數 0 0 100%

專利 已獲得件數 0 0 100% 件

件數 0 0 100% 件

技術移轉

權利金 0 0 100% 千元

碩士生 0 0 100%

博士生 0 0 100%

博士後研究員 0 0 100%

國外

參與計畫人力

(外國籍)

專任助理 0 0 100%

人次

(12)

其他成果

(

無法以量化表達之成 果如辦理學術活動、獲 得獎項、重要國際合 作、研究成果國際影響 力及其他協助產業技 術發展之具體效益事 項等,請以文字敘述填 列。)

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程/模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動/競賽 0

研討會/工作坊 0

電子報、網站 0

目 計畫成果推廣之參與(閱聽)人數 0

(13)

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價 值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性) 、是否適 合在學術期刊發表或申請專利、主要發現或其他有關價值等,作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□未達成目標(請說明,以 100 字為限)

□實驗失敗

□因故實驗中斷

□其他原因 說明:

2. 研究成果在學術期刊發表或申請專利等情形:

論文:■已發表 □未發表之文稿 □撰寫中 □無 專利:□已獲得 □申請中 ■無

技轉:□已技轉 □洽談中 ■無 其他:(以 100 字為限)

We have published one conference paper with the support provided by the NSC for the research. Details of the paper is as follows: Chyouhwa Chen, Po-Chung Tung, Wei-Chung Teng,' Exploiting Unsupervised Learning in Publish Subscribe System Design,', International Symposium on Biometrics and Security Technologies (ISBAST), 2013

3. 請依學術成就、技術創新、社會影響等方面,評估研究成果之學術或應用價

值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)(以

500 字為限)

數據

圖 2 . The architecture of the System
圖 4: False Positive Ratio Performance versus Number of Subscription  Clusters.
圖 7.  Performance of the System versus the Zipf Parameter

參考文獻

相關文件

Menz-Ru Huang, Ruey-Gwo Chung, Tung-Shou Chen, Hsuan-Yi Cheng, Yung-Ching Lin (2007), “An Analysis of Government Subsidies Enterprise Training Based On CDC Algorithm,”

Huan Liu and Dan Orban, “Cloud MapReduce: a MapReduce Implementation on top of a Cloud Operating System,” IEEE/ACM International Symposium on Cluster, Cloud and

近年來,國內外已經有很多學術單位投入 3D 模型搜尋的研究,而且在網路 上也有好幾個系統提供人使用,例如台灣大學的 3D Model Retrieval

通常在研究賽格威這類之平衡系統時在於機構之設計是十分的昂貴,本論文

在專題中,我們建立兩套以景點為主的資訊系統,一套是運行在 Android AVD (Android Virtual Device) 模擬器上的資訊系統,另外是內嵌於 Facebook

機構督導:陳學瑋 督導 實習學生:

 神經系統 (nervous system) 由解剖構造與胚胎發育來源上可分為中樞神經系統 (central nervous system - CNS) 及周圍神經系統 (peripheral nervous system -

本研究以河川生態工法為案例探討對象,應用自行開發設計之網