• 沒有找到結果。

運用時間序列索引的技巧建構發佈/訂閱系統之研究

N/A
N/A
Protected

Academic year: 2021

Share "運用時間序列索引的技巧建構發佈/訂閱系統之研究"

Copied!
10
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

運用時間序列索引的技巧建構發佈/訂閱系統之研究 研究成果報告(精簡版)

計 畫 類 別 : 個別型

計 畫 編 號 : NSC 100-2221-E-011-123-

執 行 期 間 : 100 年 08 月 01 日至 101 年 07 月 31 日 執 行 單 位 : 國立臺灣科技大學資訊工程系

計 畫 主 持 人 : 陳秋華

計畫參與人員: 碩士班研究生-兼任助理人員:董柏均 碩士班研究生-兼任助理人員:吳昱仁 碩士班研究生-兼任助理人員:張又升

公 開 資 訊 : 本計畫可公開查詢

中 華 民 國 101 年 12 月 10 日

(2)

中 文 摘 要 : 本計劃針對結構化 P2P 網路上的語義發佈/訂閱系統

(content-based publish/subscribe services)的相關議題 作深入研究。我們提出一些新的研究方向,改善現有

pub/sub 系統在訂閱(subscriptions)儲存及 event 傳遞之成 本,並真正展現 P2P 網路應有的擴展性的特性。本計劃之研 究議題,包含以下三項:1. 研究議題 1. 運用資料探勘中時 間序列索引的技巧作為訂閱分群的研究:本計劃中探討二個 資料探勘中常見時間序列索引的技巧,作為訂閱分群的方 法:隨機抽樣及投影之訂閱分群方法,及運用資料探勘中時 間序列索引(Time-series indexing) [13]的技術,作為訂閱 分群的方法。2. 事件批次處理策略及 P2P 網路廣播樹建構演 算法之研究:本計劃研究的事件批次處理策略,依系統中網 路節點是否具備系統訂閱分群後的各群組之資訊,可分為以 下兩方法: Window-based 事件批次處理策略及 Match- early 事件批次處理策略。3. 針對 Fleet/Ferry 屬性值範圍 切割架構及 Mirinae/KEKYM 訂閱分群架構之比較及改進.

中文關鍵詞: 時間序列索引, 發佈/訂閱系統, 機器學習, 結構化網路 英 文 摘 要 : We have investigated three issues in the design of

content-based pub/sub systems. 1.We investigated the application of time series indexing techniques, developed in the data mining communication, in pub/sub system design. 2.We explored an event batching architecture for pub/sub systems in which similar events are discovered and delivered in a single batch to interested subscribers. 3.We explored the extension of two key pub/sub architectures,

Fleet/Ferry and Mirinae/KEKYM, to include the ideas investigated in the two research areas above and investigate their performance.

英文關鍵詞: time series indexing, pub/sub system, machine learning, structured overlay networks

(3)

運用時間序列索引的技巧建構發佈/訂閱系統之研究 Pubish/Subscribe Systems Design Based on Time Series

Indexing Techniques

計畫編號:100-2221-E-011-123- 執行期限:100 年 8 月 1 日至 101 年 7 月 31 日 主持人:陳秋華 國立台灣科技大學資訊工程系

中文摘要

訂 閱 / 發 佈 系 統 (publish/subscribe services) [2,4,6,7,10,11,15,16,17],讓一個意欲發佈某事件(event) 的發佈者(publisher)發佈資訊,能輕鬆、有效率的將事 件傳送到訂閱者(subscriber)的手上。每一個事件,由 一組與此事件相關的屬性(attributes)集合而成,描述一 個 事 件 的 內 容 。 訂 閱 者 (Subscribers) 透 過 訂 閱 (subscriptions) ,來向訂閱/發佈系統記錄下他的喜好。

而 subscriptions 由述語(constraints)組成,供訂閱者在 眾多發佈的事件中,過濾出他感興趣的事件。

本計劃針對結構化 P2P 網路上的語義發佈/訂閱系 統(content-based publish/subscribe services)的相關議題 作深入研究。我們提出一些新的研究方向,改善現有 pub/sub 系統在訂閱(subscriptions)儲存及 event 傳遞之 成本,並真正展現 P2P 網路應有的擴展性的特性。

本計劃之研究議題,包含以下三項

研究議題 1. 運用資料探勘中時間序列索引的技巧 作為訂閱分群的研究:本計劃中探討二個資料探 勘中常見時間序列索引的技巧,作為訂閱分群的 方法:隨機抽樣及投影之訂閱分群方法,及運用 資料探勘中時間序列索引(Time-series indexing) [13]的技術,作為訂閱分群的方法。

研究議題 2. 事件批次處理策略及P2P網路廣播樹 建構演算法之研究:本計劃研究的事件批次處理 策略,依系統中網路節點是否具備系統訂閱分群 後的各群組之資訊,可分為以下兩方法:

Window-based 事件批次處理策略及Match-early 事件批次處理策略。

研究議題 3. 針對Fleet/Ferry屬性值範圍切割架 構及Mirinae/KEKYM訂閱分群架構之比較及改 進:我們比較兩大架構的效能及作適度的修改,

以增進其效能。包含發佈的事件如何收集成一個

Batch的策略,資料廣播的方法,及因此造成事 件傳遞的延遲。

計畫自評

本計畫的成果和原計畫的申請項目大致相同,計 畫中各子議題均已大致完成。本計畫所提及之各項成 果預期對於訂閱/發佈系統研究領域的架構設計,效能評 估等方面有很大的貢獻。本計畫結果除了在學術界提 供訂閱/發佈系統架構設計上的新解決方法外,對業界 也可提供相關問題上可更快更省空間的方式。經由本 計畫的研究與實作,讓參與的人員深入瞭解語意訂閱/

發佈系統的重要性,更促使參與人員體會到語意訂閱/

發佈系統等研究主題在學術及工業界的相互結合,如 此結合理論與實際應用,提昇參與人員今後之研發能 力進而提昇國家競爭力。

計劃主持人在本國科會計劃之支援下,針對相關之研 究工作,共發表了以下論文

A. Chyouhwa Chen, Shi-Jinn Horng, and Kevin Chang, Improving Routing State Consistency and Reducing Overhead for Migration-based Load Balance Systems in Structured Overlay Networks, International Journal of Innovative Computing Information and Control, Volume 8, Issue 3, March, 2012

B. Chyouhwa Chen, Chia-Liang Tsai, and Shi-Jinn Horng, Exploiting Attribute Popularity Distribution Skew to Enhance the Performance of Peer to Peer Publish/Subscribe Systems, International Journal of Innovative Computing Information and Control, 7(7), July, 2011

C. Chyouhwa Chen, Shi-Jinn Horng, and Chin-Pin Huang, Locality sensitive hashing for sampling- based algorithms in association rule mining, Expert Systems with Applications, Volume 38, Issue 10, September, 2011

計畫緣由與結果

(4)

1. Introduction

現有結構化 P2P 網路上的語義發佈/訂閱系統系統有許 多問題:

事件比對演算法方面: Hybrid[10]、IIM[10]等存 在一些錯誤,且各系統均未深入比對演算法。

subscription安裝方面: 基於屬性值的對應方式能 將subscriptions更加平均得分散到所有節點上,但 可能因為範圍式屬性,導致大量的subscriptions複 製。即使使用類似IIM scheme的機制,但不作任 何修正的話,仍會造成當範圍式訂閱的數量佔所 有訂閱的比例很高時,subscription被複製的數量 仍會到達非常多的地步。

事件發佈、傳遞方面: Ferry[18]系統在事件發佈 時,發佈節點必須將event複製數份,然後所有的 RP節點均發送一個複本,因此造成Ferry在事件 發佈的成本較其他系統多出不少。而Baldoni[2]、

Hybrid、IIM並未運用類似Ferry之定址空間分割 機制,因此平均傳遞距離距離較長。

系統在儲存、計算、傳輸的工作負載處理方面:

Ferry系統中的RP節點,幾乎負起了整個系統在 儲存、計算、傳輸的工作負載,其他節點則無事 可作。此現象與P2P精神不合,亦限制了其擴展 性。而IIM由於大量的subscriptions複製,也會造 成少數節點負擔過多儲存、計算、傳輸的工作負 載的後果。

當subscriptions的分佈呈現曲斜時方面:熱門屬性 會對特定RN節點所帶來儲存、計算、傳輸的工 作的負載。

2. Proposed System

本 計 畫 提 出 一 個 新 的 系 統 架 構 , 改 善 了 訂 閱 (subscriptions)儲存的成本以及 event 傳遞之成本及系統 負載方面的表現。架構如圖 1 所示。

1. The architecture of the System

本架構中之動作說明如下:

1. 系統計對所有的訂閱分析其共通性,當訂閱者的 共通性佔所有訂閱者的比例超過一個固定值時(如 40%,或50%以上),則為這些訂閱者建構一

multicast-tree,以利當共通事件被發佈時,得以有 效率的傳遞。

2. 除了使用multicast-tree以加速共通事件的傳遞外,

每一節點設有一緩衝區,且採取等候一段時間的 策略,使緩衝區得以累積一些要發佈的事件的量,

以利多個共通事件得以利用同一個封包傳遞。圖 中顯示一段時間後,節點A累積了共e1~e6六個事 件。

3. 節點A檢視其緩衝區,發現{e2,e4,e6}屬於非常熱 門的共通事件,網路上有許多節點之訂閱均有可 能被它們滿足。

4. 節點A將{e2,e4,e6}包裝成一個封包,透過事先建 好的multicast-tree將這些事件送出,以達到減少整 體封包數量,及快速傳遞的優點。

5. 較不熱門的事件{e1,e3,e5}則透過Ferry/Fleet原有的 機制傳遞,以避免它們被誤傳到沒有訂閱它們的 節點上。

3. Performance Evaluation

我們以下針對本計劃所提之研究議題之初步成果作一 概述。

研究議題成果 1. 運用資料探勘中時間序列索引的技巧 作為訂閱分群的研究

我們將 1000 個產生的訂閱先以 200 個事件做比對練習 後,將其視為一時間序列,再透過 k-means 演算法分 群。圖 2 顯示 k-means 演算法分群的動作,圖 3 顯示 一個 1000 訂閱的集合經分群後典型的結果。如圖所示 在常態分部的興趣下,有一個大眾群組和其餘一些小 群組。

圖 2: 以 200 個事件做比對練習,再透過 k-means 演算 法分群之方法

(5)

圖 3:訂閱的集合經分群後典型的結果

因系統中每一節點具備系統訂閱分群後各群組之資訊,

網路節點可將發佈的事件與已知的各訂閱群組之資訊,

作事件比對的工作後在傳送。圖 4 顯示在事件群組內 一半的事件滿足訂閱群組內的訂閱後傳送。圖 5 顯示 其正確率,圖中比對的訂閱為各訂閱群中心最接近的 前幾筆,由此可看出當比對的 Sub 數量在 20 時,有不 錯的事件傳送量和正確率。

圖 4: 事件滿足的訂閱數量與比對訂閱數量的關係

圖 5: 正確率介於 0.9~0.88 之間

研究議題成果 2. 事件批次處理策略及P2P網路廣播樹 建構演算法之研究

觀察系統中前 20%熱門事件,在使用或不使用特 別建構的廣播/群播樹時,系統傳遞這些封包的數量的 影響,其結果如圖 6 所示。由圖 6 可知,使用特別建 構的廣播/群播樹對提昇系統效能有極大影響。

圖6: 傳送系統前20%熱門事件在使用及不使用特 別建構的廣播/群播樹時,系統傳遞封包的數量的統計

研究議題成果 3. 針對Fleet/Ferry屬性值範圍切割架構 及Mirinae/KEKYM訂閱分群架構之比較及改進 針 對 Fleet 系 統 在 subscription replica cost, Cumulative fraction of subscription replicas among nodes, Cumulative fraction of computation cost among nodes, 及 Average number of hops for event delivery 等方面, 與文 獻中其他重要系統作一比較。

由 圖 7 可 知 , Fleet 在 Cumulative fraction of subscription replica 方面,可以將 subscription 更平均地 分配給所有節點,因此可以達到負載平衡的目的。

圖 7. Cumulative fraction of subscription replicas among nodes

事件批次處理策略及 P2P 網路廣播樹建構演算法 之研究方面: 當系統中網路節點不具備系統訂閱分群後 的各群組之資訊時,網路節點累積發佈事件於緩衝區,

透過定量方式,將多個累積事件裝入同一封包,直接 透過原有機制一同比對及傳遞之處理。由於一封包內 包含多個事件,因此網路中總封包的體傳輸數量會大 幅減低。以 Ferry 系統為例(如圖 8 所示),{e1~e6}由發 佈節點使用同一個封包傳輸給 RP 節點,由於 RP 節點 儲存所負責的地址空間內的訂閱,因此可以在執行訂 閱比對後,將滿足的事件傳輸給所負責的地址空間內 的訂閱者,以大幅減低封包的總體傳輸數量.

0 200 400 600

1 3 5 7 9 11 subscriptions in each

cluster

(6)

圖 8. Ferry 系統中 Window-based 事件批次處理策 略,從發佈者傳遞至訂閱者的情形

圖 9 中 顯 示 , 統 計 Ferry 中 總 體 傳 輸 數 量 與 Window 大小的關係,由圖 9 中可知,當 window 大小 增加時,系統總體傳輸數量呈線性下降之趨勢,因此 Window-based 事件批次處理策有其有效性。

圖 9. 封包的總體傳輸數量 vs window size.

參考文獻

1. Marcos K. Aguilera, Robert E. Strom, Daniel C.

Sturman, Mark Astley, Tushar D. Chandra, Matching events in a content-based subscription system,

Proceedings of the eighteenth annual ACM symposium on Principles of distributed computing, 1999

2. R Baldoni, C Marchetti, A Virgillito, R Vitenberg, Content-Based Publish-Subscribe over Structured Overlay Networks, ICDCS 2005

3. Li, D. Cao, J. Lu, X. Chen, K., Efficient Range Query Processing in Peer-to-Peer Systems, IEEE Transactions on Knowledge and Data Engineering, 2009 4. A. Carzaniga, M.J. Rutherford, and A.L. Wolf, "A Routing Scheme for Content-Based Networking".

Proceedings of IEEE INFOCOM 2004. Hong Kong, China.

March, 2004

5. A. Carzaniga and A.L. Wolf, "A Benchmark Suite for Distributed Publish/Subscribe Systems". Technical Report CU-CS-927-02, Department of Computer Science, University of Colorado, April, 2002.

6. S. Castelli, Paolo Costa, Gian Pietro Picco, Large- Scale Content-Based Routing in a Multidimensional Space, , INFOCOM 08

7. Abhishek Gupta , Ozgur D. Sahin, Divyakant Agrawal, and Amr El Abbadi, Meghdoot: content-based publish/subscribe over P2P networks, Proceedings of the

5th ACM/IFIP/USENIX international conference on Middleware, 2004

8. D.S. Li, X.C. Lu, and J. Wu, FissionE: A Scalable Constant Degree and Low Congestion DHT Scheme Based on Kautz Graphs, Proc. IEEE INFOCOM, pp.

1677-1688, 2005

9. Li, D. Cao, J. Lu, X. Chen, K. Efficient Range Query Processing in Peer-to-Peer Systems, IEEE Transactions on Knowledge and Data Engineering, accpted 2009

10. S.C. Lo and Y. T. Chiu, "Design of Content-Based Publish/Subscribe Systems over Structured Overlay Networks," IEICE Trans. on Information and Systems, vol.

E91-D, no.5, pp. 1504-1511, May 2008

11. Weixiong Rao, Lei Chen, Ada W. Fu, On Efficient Content Matching in Distributed Pub/Sub Systems, In the 28th Annual Conference of the IEEE Communications Society (INFOCOM), 2009

12. RSS, http://en.wikipedia.org/wiki/RSS_(file_format) 13. Lei Shi, Zhimin Gu, Lin Wei, and Yun Shi “An Applicative Study of Zipf’s Law on Web Cache,”

International Journal of Information Technology, Vol. 12 No.4 2006

14. Ion Stoica, Robert Morris, David Liben-Nowell, David R. Karger, M. Frans Kaashoek, Frank Dabek, Hari Balakrishnan, Chord: A Scalable Peer-to-peer Lookup Protocol for Internet Applications. IEEE/ACM Transactions on Networking, 2003

15. D. Tam, R. Azimi, and H.-A. Jacobsen. Building Content-Based Publish/Subscribe Systems with Distributed Hash Tables, In 1st Intl. Workshop on Databases, Information Systems, and P2P Computing (DBISP2P), Berlin, Germany, 2003

16. P. Triantafillou and I. Aekaterinidis, Content-Based Publish- Subscribe over Structured P2P Networks, Proc.

Third Int’l Workshop Distributed Event-Based Systems (DEBS ’04), pp. 104-109, May 2004.

17. Xiaoyu Yang, Yingwu Zhu, Yiming Hu, "A Large- scale and Decentralized Infrastructure for Content-based Publish/Subscribe Services," International Conference on Parallel Processing (ICPP 2007), 2007

18. Yingwu Zhu and Yiming Hu, Ferry A P2P-Based Architecture for Content-Based Publish/Subscribe Services, IEEE Transactions on Parallel and Distributed System, 2007; 18 (5)

19. Jonathan Ledlie and Margo Seltzer, Distributed, Secure Load Balancing with Skew, heterogeneity, and Churn, In Proceedings of IEEE INFOCOM 2005, March 2005

20. Yuzhe Tang, Shuigeng Zhou, Jianliang Xu."LIGHT:

A Query-Efficient yet Low-Maintenance Indexing Scheme over DHTs", IEEE Transactions on Knowledge and Data Engineering (TKDE), 2009

(7)

國科會補助計畫衍生研發成果推廣資料表

日期:2012/12/10

國科會補助計畫

計畫名稱: 運用時間序列索引的技巧建構發佈/訂閱系統之研究 計畫主持人: 陳秋華

計畫編號: 100-2221-E-011-123- 學門領域: 人工智慧與仿生計算

無研發成果推廣資料

(8)

100 年度專題研究計畫研究成果彙整表

計畫主持人:陳秋華 計畫編號:100-2221-E-011-123- 計畫名稱:運用時間序列索引的技巧建構發佈/訂閱系統之研究

量化

成果項目 實際已達成

數(被接受 或已發表)

預期總達成 數(含實際已

達成數)

本計畫實 際貢獻百

分比

單位

備 註 質 化 說 明:如 數 個 計 畫 共 同 成 果、成 果 列 為 該 期 刊 之 封 面 故 事 ...

期刊論文 0 0 100%

研究報告/技術報告 0 0 100%

研討會論文 0 0 100%

論文著作 篇

專書 0 0 100%

申請中件數 0 0 100%

專利 已獲得件數 0 0 100% 件

件數 0 0 100% 件

技術移轉

權利金 0 0 100% 千元

碩士生 3 3 100%

博士生 0 0 100%

博士後研究員 0 0 100%

國內

參與計畫人力

(本國籍)

專任助理 0 0 100%

人次

期刊論文 3 3 100%

研究報告/技術報告 0 0 100%

研討會論文 0 0 100%

論文著作 篇

專書 0 0 100% 章/本

申請中件數 0 0 100%

專利 已獲得件數 0 0 100% 件

件數 0 0 100% 件

技術移轉

權利金 0 0 100% 千元

碩士生 0 0 100%

博士生 0 0 100%

博士後研究員 0 0 100%

國外

參與計畫人力

(外國籍)

專任助理 0 0 100%

人次

(9)

其他成果

(

無法以量化表達之成 果如辦理學術活動、獲 得獎項、重要國際合 作、研究成果國際影響 力及其他協助產業技 術發展之具體效益事 項等,請以文字敘述填 列。)

本計畫結果除了在學術界提供訂閱/發佈系統架構設計上的新解決方法外,對業 界也可提供相關問題上可更快更省空間的方式。經由本計畫的研究與實作,讓 參與的人員深入瞭解語意訂閱/發佈系統的重要性,更促使參與人員體會到語意 訂閱/發佈系統等研究主題在學術及工業界的相互結合,如此結合理論與實際應 用,提昇參與人員今後之研發能力進而提昇國家競爭力。

成果項目 量化 名稱或內容性質簡述

測驗工具(含質性與量性) 0

課程/模組 0

電腦及網路系統或工具 0

教材 0

舉辦之活動/競賽 0

研討會/工作坊 0

電子報、網站 0

目 計畫成果推廣之參與(閱聽)人數 0

(10)

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價 值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性) 、是否適 合在學術期刊發表或申請專利、主要發現或其他有關價值等,作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□未達成目標(請說明,以 100 字為限)

□實驗失敗

□因故實驗中斷

□其他原因 說明:

2. 研究成果在學術期刊發表或申請專利等情形:

論文:■已發表 □未發表之文稿 □撰寫中 □無 專利:□已獲得 □申請中 ■無

技轉:□已技轉 □洽談中 ■無 其他:(以 100 字為限)

已發表三篇論文, 2012 一篇, 2011 二篇. ''Improving Routing State Consistency and Reducing Overhead for Migration-based Load Balance Systems in Structured Overlay Networks'', ''Exploiting Attribute Popularity Distribution Skew to Enhance the Performance of Peer to Peer Publish/Subscribe Systems'', ''Locality sensitive hashing for sampling-based algorithms in association rule mining'', Expert Systems with Applications

3. 請依學術成就、技術創新、社會影響等方面,評估研究成果之學術或應用價 值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)(以 500 字為限)

本計畫的成果和原計畫的申請項目大致相同,計畫中各子議題均已大致完成。本計畫所提 及之各項成果預期對於訂閱/發佈系統研究領域的架構設計,效能評估等方面有很大的貢 獻。本計畫結果除了在學術界提供訂閱/發佈系統架構設計上的新解決方法外,對業界也 可提供相關問題上可更快更省空間的方式。經由本計畫的研究與實作,讓參與的人員深入 瞭解語意訂閱/發佈系統的重要性,更促使參與人員體會到語意訂閱/發佈系統等研究主題 在學術及工業界的相互結合,如此結合理論與實際應用,提昇參與人員今後之研發能力進 而提昇國家競爭力。

數據

圖 1. The architecture of the System
圖 3:訂閱的集合經分群後典型的結果  因系統中每一節點具備系統訂閱分群後各群組之資訊, 網路節點可將發佈的事件與已知的各訂閱群組之資訊, 作事件比對的工作後在傳送。圖 4 顯示在事件群組內 一半的事件滿足訂閱群組內的訂閱後傳送。圖 5 顯示 其正確率,圖中比對的訂閱為各訂閱群中心最接近的 前幾筆,由此可看出當比對的 Sub 數量在 20 時,有不 錯的事件傳送量和正確率。  圖 4: 事件滿足的訂閱數量與比對訂閱數量的關係  圖 5: 正確率介於 0.9~0.88 之間  研究議題成果 2
圖 8. Ferry 系統中 Window-based 事件批次處理策 略,從發佈者傳遞至訂閱者的情形  圖 9 中 顯 示 , 統 計 Ferry 中 總 體 傳 輸 數 量 與 Window 大小的關係,由圖 9 中可知,當 window 大小 增加時,系統總體傳輸數量呈線性下降之趨勢,因此 Window-based 事件批次處理策有其有效性。  圖 9

參考文獻

相關文件

[r]

[r]

Zivot and Andrews(1992) 將 Perron(1989) 擴充成考慮未知結構性 轉變的單根檢定 , 其概念與之前 max-Chow 檢定一樣 : 找出一個轉 變點

許多時間序列資料在公布時已經做過季節調整 , 如美國普查局 (the U.S. Census Bereau) 發展並使用 X-11 與 X-12 調整法。. EViews

即使各種新檢定並不能適用在每一個模型設定 , 這些新檢定的表現 都遠勝過傳統 ADF/PP 檢定。 因此 , Maddala and Kim (1998) 建議 應該揚棄 ADF/PP 檢定 (it is time to completely

一階隨機差分方程式.

性質 (

樣本重抽法 (resampling method) 則是一個與實際抽樣分配或是 大樣本漸近分配完全迥異的做法 , 其統計推論的基礎 , 來自 「原有樣