• 沒有找到結果。

立 政 治 大 學

Na tiona

l Ch engchi University

29

分也可以觀察到同樣的現象,這現象可以實證事先分割的方法可以減少多餘的運算成 本。

另外可從此途中觀察到第二點現象,在網格分割中最長與最短時間的片段在運算 時間上差距十分懸殊,這是因為網格分會使得 Global Skyline 的分布過於集中在某些 片段,使得運算負擔不均。在角度分割方面運算時間上差距不大,因為 Global Skyline 大致均勻分布在每個片段之間,因此最長的片段不會拖累 Reducer 階段,進而加速整 體回應時間。

5.3 片段 Global Skyline 的貢獻比較

第三項實驗是探討在網格分割及角度分割中,每個片段對 Global Skyline 的貢獻程度 的比較。比較的方法是從 local Skyline 中去計算包含 Global Skyline point 的比率。實 驗數據同樣是 100 萬筆無欄位相依 4 維資料,而分割片段數目統一為 16 個片段。

圖 17 分割策略對 Global Skyline 貢獻的比率

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

30

圖 17 展示了兩個演算法片段對 Global Skyline 的貢獻程度。在網格分割的方法中,

最好的片段 local Skyline 全部都是 Global Skyline point,而這個片段也是離原點最接近 的片段。然而在所有片段中,大部分片段並不會產出 Global Skyline point,而且這些 沒有貢獻的片段仍然需要消耗許多運算成本。反觀角度分割方法,每個片段或多或少 都會有 Global Skyline point 的產出,而且它們產出的比率也不會有懸殊差距,因此就 不會發生有片段因為運算時間過長拖累整體回應時間的情形。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

31

第6章結論

從過去適用 MapReduce 框架的 Skyline 演算法中,我們發現到單一台 Reducer 的運 算會造成時間瓶頸,影響查詢的回應時間。本研究提出了直觀演算法,藉由多台的 Reducer 運算分擔單一運算的工作來加速查詢運算。在本文中提出了一些引理跟定義,

並且將演算法實作到 Amazon 的 EC2 上來證實直觀演算法有加速查詢回應時間的效 果。

然而直觀演算法會增加網路傳輸的成本,為了減少對網路造成的負擔,本文另外 提出了網格分割及角度分割等兩種事先對資料作分割的演算法,觀察每個分割片段間 的關係,提前過濾掉對運算沒有幫助的資料,以達到減少直觀演算法對網路的負擔,

同時也減少在 Reducer 階段需要運算的資料。從實驗結果我們發現到網格分割有最小 的網路傳輸成本,角度分割則有較好的運算帄衡。在角度分割策略的演算法中,我們 盡可能減少不必要的資料傳輸,然而觀察到的特性十分有限,未來研究會針對這個部 分進一步探討。

[1] J. Dean, and S. Ghemawat, “MapReduce: Simplified Data Processing on Large Cluster,”

in Proceedings of the Operating Systems Design and Implementation, 2004.

[2] S. Borzsonyi, D. Kossmann, and K. Stocker, “The Skyline Operator,” in Proceedings of the International Conference on Data Engineering, 2001.

[3] B. L. Zhang, S. G. Zhou, and J. H. Guan, “Adapting Skyline computation to the MapReduce Framework: Algorithms and Experiments,” in Proceeding of the Database Systems for Advanced Applications workshop, 2011.

[4] L. L. DING, J. C. XIN, G. R. WANG, and S. HUANG, “Efficient Skyline Query Processing of Massive Data Based on Map-Reduce,” in Chinese Journal of Computers, 2012.

[5] J. Chomicki, P. Godfery, J. Gryz, and D. Liang, “Skyline with presorting,” in Proceedings of the International Conference on Data Engineering, 2003.

[6] J. Chomicki, P. Godfrey, J. Gryz, and D. Liang, “Skyline with presorting: Theory and optimizations,” in Journal of the Intelligent Information Systems, 2005.

[7] P. Godfrey, R. Shipley, and J. Gryz, “Maximal vector computation in large data Sets,” in Proceedings of the Very Large Databases, 2005.

[8] I. Bartolini, P. Ciaccia, and M. Patella, “SaLSa: Computing the Skyline without Scanning the Whole Sky,” in Proceeding of the Conference on Information and Knowledge

Management, 2006.

[9] D. Papadias, Y. Tao, G. Fu, and B. Seeger, “An Optimal and Progressive Algorithm for Skyline Queries,” in Proceedings of ACM International Conference on Management of Data, 2003.

[10] D. Kossmann, F. Ramsak, and S. Rost, “Shooting stars in the sky: an online algorithm for Skyline queries,” in Proceedings of the Very Large Databases, 2002.

[11] D. Papadias, Y. Tao, G. Fu, and B. Seeger, “Progressive Skyline computation in database systems,” in Proceedings of the Transactions on Database Systems, 2005.

[12] S. M. Zhang, N. Mamoulis, and D. W. Cheung, “Scalable Skyline Computation Using Object-based Space Partitioning,” in Proceedings of the ACM International Conference on Management of Data, SIGMOD, 2009

[13] B. Cui, H. Lu, Q. Xu, L. Chen, Y. Dai, and Y. Zhou, “Parallel distributed processing of constrained Skyline queries by filtering,” in Proceedings of the International Conference on Data Engineering, 2008.

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

33

[14] J.B. Rocha-Junior, A. Vlachou, C. Doulkeridis, and K. Nørvåg, “Efficient execution plans for distributed Skyline query processing,” in Proceedings of the Extending Database Technology, 2011.

[15] A. Vlachou, C. Doulkeridis, and Y. Kotidis, “Angle-based space partitioning for efficient parallel Skyline computation,” in Proceedings of the ACM International Conference on Management of Data, SIGMOD, 2008.

[16] H. Köhler, J. Yang, and X. Zhou, “Efficient Parallel Skyline Processing using Hyperplane Projections,” in Proceedings of the ACM International Conference on Management of Data, SIGMOD, 2011.

相關文件