异构计算环境中图划分算法的研究

(1)

书书书

第４４卷　第８期

２０２１年８月计　　算　　机　　学　　报

ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ ^Ｖ^ｏ^ｌ^．^Ａ^４^４Ｎ^ｕ^ｇ^．^２^ｏ^０^．^２^８^１　

收稿日期：２０１９１１２７^；在线发布日期：２０２００５１０．本课题得到国家自然科学基金青年科学基金项目（６２００２２２６^）^、国家自然科学基金专项项目（６１９４１０００３９^）^、浙江省自然科学基金（ＬＨＱ２０Ｆ０２０００１^）^、浙江省基础公益研究计划项目（ＬＧＧ１８Ｆ０３０００３^）和绍兴文理学院校级科研项目研究成果（２０１９ＬＧ１００４^）资助．^李　^琪，博士研究生，主要研究方向为图挖掘、图计算．Ｅｍａｉｌ^：ｌｉｑｉ０７１３＠ｆｏｘｍａｉｌ．ｃｏｍ．^李虎雄（通信作者），博士，教授，硕士生导师，主要研究方向为网络化系统分析与控制、图像识别与理解．Ｅｍａｉ^：ｊｓｊ＿ｌｈｘ＠１２６．ｃｏｍ．^钟　^将，博士，教授，博士生导师，主要研究领域为数据挖掘、并行计算、自然语言处理．英昌甜，博士研究生，主要研究方向为内存计算．李　^青，博士研究生，主要研究方向为自然语言处理．

异构计算环境中图划分算法的研究

李　 ^琪

^１^）_１_）

　

_（

^李虎雄

^１^）

　 ^钟　 ^将

^２^）

　 ^英昌甜

^１^）

　 ^李　 ^青

^２^）

绍兴文理学院计算机科学与工程系　浙江绍兴　３１２０００^）

２^）（重庆大学计算机学院　重庆　４０００３０^）

摘　^要　复杂网络的研究已经广泛地应用到生物^、计算机等各个学科领域．如今，网络规模十分巨大，如何对这些大规模图数据进行有效率的挖掘计算，是研究复杂网络的首要任务．并行计算技术是现在最成熟、应用最广、最可行的计算加速技术之一．而图划分技术是提高并行计算性能的有效手段．图划分问题的研究是随着实际应用的需求而驱动．针对异构计算环境下的分布式集群，本文提出了一种异构感知的流式图划分算法．该方法既考虑到集群中网络带宽及节点计算能力的不同，同时又考虑到了以ＩｎｆｉｎｉＢａｎｄ为代表的高速网络环境下核之间的共享资源的竞争．实验以图算法ＢＦＳ、ＳＳＳＰ和ＰａｇｅＲａｎｋ为例，相对于未考虑异构环境的流算法，图计算效率分别平均提高了３８％^、４５．７％^、６１．８％．同时针对流式图划分过程中邻点缓存查找效率低下问题，本文又设计了一种邻边结构的缓存查找算法，在相同条件下，图划分的效率平均提高了１３．４％．仿真实验结果表明，本文设计的异构感知图划分算法实现了异构集群环境下图计算效率的提升．

关键词　异构计算^；图划分；云计算；复杂网络；图计算

中图法分类号ＴＰ３１１　　　犇犗犐号１０．１１８９７^／ＳＰ．Ｊ．１０１６．２０２１．０１７５１

犚犲狊犲犪狉犮犺狅狀犌狉犪狆犺犘犪狉狋犻狋犻狅狀犻狀犵犻狀犎犲狋犲狉狅犵犲狀犲狅狌狊犆狅犿狆狌狋犻狀犵犈狀狏犻狉狅狀犿犲狀狋

ＬＩＱｉ^１^）　ＬＩＨｕＸｉｏｎｇ^１^）　ＺＨＯＮＧＪｉａｎｇ^２^）　ＹＩＮＧＣｈａｎｇＴｉａｎ^１^）　ＬＩＱｉｎｇ^２^）

１^）（犇犲狆犪狉狋犿犲狀狋狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲犪狀犱犈狀犵犻狀犲犲狉犻狀犵^，犛犺犪狅狓犻狀犵犝狀犻狏犲狉狊犻狋狔^，犛犺犪狅狓犻狀犵^，犣犺犲犼犻犪狀犵　３１２０００^）

２^）（犇犲狆犪狉狋犿犲狀狋狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲^，犆犺狅狀犵狇犻狀犵犝狀犻狏犲狉狊犻狋狔^，犆犺狅狀犵狇犻狀犵　４０００３０^）

犃犫狊狋狉犪犮狋　Ｌａｒｇｅｇｒａｐｈｄａｔａｓｅｔｓａｒｅｂｅｃｏｍｉｎｇｉｎｃｒｅａｓｉｎｇｌｙｐｏｐｕｌａｒｎｏｗａｄａｙｓ．Ｆｏｒｅｘａｍｐｌｅ^，ｇｒａｐｈｓｌｉｋｅＷｅｂＧｒａｐｈｓ^，ＢｉｏｌｏｇｉｃａｌＮｅｔｗｏｒｋｓ^，ａｎｄＳｏｃｉａｌＮｅｔｗｏｒｋｓ^，ａｒｅｏｆｔｅｎａｔｔｈｅｓｃａｌｅｏｆｈｕｎｄｒｅｄｓｏｆｂｉｌｌｉｏｎｓｏｒｅｖｅｎａｔｒｉｌｌｉｏｎｅｄｇｅｓ^，ａｎｄｔｈｅｙａｒｅｃｏｎｔｉｎｕｏｕｓｌｙｇｒｏｗｉｎｇ．Ｈｏｗｔｏｍｉｎｅａｎｄｃａｌｃｕｌａｔｅｔｈｅｓｅｌａｒｇｅｓｃａｌｅｇｒａｐｈｄａｔａｅｆｆｉｃｉｅｎｔｌｙｉｓｔｈｅｐｒｉｍａｒｙｔａｓｋｏｆｓｔｕｄｙｉｎｇｃｏｍｐｌｅｘｎｅｔｗｏｒｋ．Ｐａｒａｌｌｅｌｃｏｍｐｕｔｉｎｇｔｅｃｈｎｏｌｏｇｙｉｓｏｎｅｏｆｔｈｅｍｏｓｔｍａｔｕｒｅ^，ｗｉｄｅｌｙｕｓｅｄａｎｄｆｅａｓｉｂｌｅｃｏｍｐｕｔｉｎｇａｃｃｅｌｅｒａｔｉｏｎｔｅｃｈｎｏｌｏｇｉｅｓ．Ｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇｉｓａｎｅｆｆｅｃｔｉｖｅｗａｙｔｏｉｍｐｒｏｖｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｐａｒａｌｌｅｌｃｏｍｐｕｔｉｎｇ．Ｔｈｅｉｎｃｒｅａｓｉｎｇｐｏｐｕｌａｒｉｔｙａｎｄｕｂｉｑｕｉｔｙｏｆｖａｒｉｏｕｓｌａｒｇｅｇｒａｐｈｄａｔａｓｅｔｓｈａｖｅｃａｕｓｅｄｒｅｎｅｗｅｄｉｎｔｅｒｅｓｔｆｏｒｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇ．Ｅｘｉｓｔｉｎｇｇｒａｐｈｐａｒｔｉｔｉｏｎｅｒｓｅｉｔｈｅｒｓｃａｌｅｐｏｏｒｌｙａｇａｉｎｓｔｌａｒｇｅｇｒａｐｈｓｏｒｄｉｓｒｅｇａｒｄｔｈｅｉｍｐａｃｔｏｆｔｈｅｕｎｄｅｒｌｙｉｎｇｈａｒｄｗａｒｅｔｏｐｏｌｏｇｙ．Ａｆｅｗｓｏｌｕｔｉｏｎｓｈａｖｅｓｈｏｗｎｔｈａｔｔｈｅｎｏｎｕｎｉｆｏｒｍｎｅｔｗｏｒｋｃｏｍｍｕｎｉｃａｔｉｏｎｃｏｓｔｓｍａｙａｆｆｅｃｔｔｈｅｐｅｒｆｏｒｍａｎｃｅｇｒｅａｔｌｙ．Ｓｉｎｃｅｔｈｅｃｏｓｔｏｆｐａｒｔｉｔｉｏｎｉｎｇｔｈｅｅｎｔｉｒｅｇｒａｐｈｉｓｓｔｒｉｃｔｌｙｐｒｏｈｉｂｉｔｉｖｅ^，ｔｈｅｒｅａｒｅｓｏｍｅｒｅｃｅｎｔｔｅｎｔａｔｉｖｅｗｏｒｋｓｔｏｗａｒｄｓｓｔｒｅａｍｉｎｇｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇｗｈｉｃｈｒｕｎｆａｓｔｅｒ^，ａｒｅｅａｓｉｌｙｐａｒａｌｌｅｌｉｚｅｄ^，ａｎｄｃａｎｂｅｉｎｃｒｅｍｅｎｔａｌｌｙｕｐｄａｔｅｄ．Ｍｏｓｔｏｆｔｈｅｅｘｉｓｔｉｎｇｗｏｒｋｓｏｎｓｔｒｅａｍｉｎｇｐａｒｔｉｔｉｏｎｉｎｇａｓｓｕｍｅｔｈａｔｗｏｒｋｅｒｎｏｄｅｓｗｉｔｈｉｎａｃｌｕｓｔｅｒａｒｅｈｏｍｏｇｅｎｅｏｕｓｉｎｎａｔｕｒｅ．Ｕｎｆｏｒｔｕｎａｔｅｌｙ^，ｔｈｉｓ

《计

算

机

学

报

》

(2)

ａｓｓｕｍｐｔｉｏｎｄｏｅｓｎｏｔａｌｗａｙｓｈｏｌｄ．Ｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｅｓｅｈｏｍｏｇｅｎｅｏｕｓａｌｇｏｒｉｔｈｍｓｓｕｆｆｅｒａｓｉｇｎｉｆｉｃａｎｔｐｅｒｆｏｒｍａｎｃｅｄｅｇｒａｄａｔｉｏｎｗｈｅｎｒｕｎｎｉｎｇａｔｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔ．Ｔｈｅｒｅｓｅａｒｃｈｏｆｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇｉｓｄｒｉｖｅｎｂｙｔｈｅｄｅｍａｎｄｏｆｐｒａｃｔｉｃａｌａｐｐｌｉｃａｔｉｏｎ．Ａｉｍｉｎｇａｔｔｈｅｄｉｓｔｒｉｂｕｔｅｄｃｌｕｓｔｅｒｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｃｏｍｐｕｔｉｎｇｅｎｖｉｒｏｎｍｅｎｔ^，ｗｅｐｒｏｐｏｓｅａｓｔｒｅａｍｉｎｇｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｈｅｔｅｒｏｇｅｎｅｏｕｓａｗａｒｅ．Ｔｈｅｍｅｔｈｏｄｎｏｔｏｎｌｙｃｏｎｓｉｄｅｒｓｔｈｅｄｉｆｆｅｒｅｎｃｅｏｆｎｅｔｗｏｒｋｂａｎｄｗｉｄｔｈａｎｄｎｏｄｅｃｏｍｐｕｔｅａｂｉｌｉｔｙｉｎｔｈｅｃｌｕｓｔｅｒ^，ｂｕｔａｌｓｏｃｏｎｓｉｄｅｒｓｔｈｅｃｏｍｐｅｔｉｔｉｏｎｆｏｒｓｈａｒｅｄｒｅｓｏｕｒｃｅｓｂｅｔｗｅｅｎｃｏｒｅｓｉｎｈｉｇｈｓｐｅｅｄｎｅｔｗｏｒｋｅｎｖｉｒｏｎｍｅｎｔｒｅｐｒｅｓｅｎｔｅｄｂｙＩｎｆｉｎｉＢａｎｄ．

ＴａｋｉｎｇＢＦＳ^，ＳＳＳＰａｎｄＰａｇｅＲａｎｋａｓｅｘａｍｐｌｅｓ^，ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｓｔｒｅａｍｉｎｇａｌｇｏｒｉｔｈｍｗｉｔｈｏｕｔｃｏｎｓｉｄｅｒｉｎｇｔｈｅｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔ^，ｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｇｒａｐｈｃｏｍｐｕｔｉｎｇｉｓｉｍｐｒｏｖｅｄｂｙ３８％^，４５．７％ａｎｄ６１．８％^，ｒｅｓｐｅｃｔｉｖｅｌｙ．Ａｔｔｈｅｓａｍｅｔｉｍｅ^，ｉｎｔｈｅｐｒｏｃｅｓｓｏｆｓｔｒｅａｍｉｎｇｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇ^，ａｉｍｉｎｇａｔｔｈｅｌｏｗｅｆｆｉｃｉｅｎｃｙｏｆｓｅａｒｃｈｉｎｇｎｅｉｇｈｂｏｒｖｅｒｔｉｃｅｓｉｎｔｈｅｃａｃｈｅ^，ｗｅｄｅｓｉｇｎａｃａｃｈｅｓｅａｒｃｈｉｎｇａｌｇｏｒｉｔｈｍｗｉｔｈａｄｊａｃｅｎｔｅｄｇｅｓｔｒｕｃｔｕｒｅ^，ｗｈｉｃｈｉｍｐｒｏｖｅｓｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｇｒａｐｈｐａｒｔｉｔｉｏｎｉｎｇｂｙ１３．４％ｏｎａｖｅｒａｇｅｕｎｄｅｒｔｈｅｓａｍｅｃｏｎｄｉｔｉｏｎｓ．Ｅｘｔｅｎｓｉｖｅｅｘｐｅｒｉｍｅｎｔｓａｒｅｃｏｎｄｕｃｔｅｄｏｎａｍｏｄｅｒａｔｅｓｉｚｅｄｃｏｍｐｕｔｉｎｇｃｌｕｓｔｅｒｗｉｔｈｒｅａｌｗｏｒｌｄｗｅｂａｎｄｓｏｃｉａｌｎｅｔｗｏｒｋｇｒａｐｈｓ．Ｔｈｅｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｐｐｒｏａｃｈａｃｈｉｅｖｅｓｓｉｇｎｉｆｉｃａｎｔｉｍｐｒｏｖｅｍｅｎｔｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｓｔａｔｅｏｆｔｈｅａｒｔｓｏｌｕｔｉｏｎｓ．

犓犲狔狑狅狉犱狊　ｈｅｔｅｒｏｇｅｎｅｏｕｓｃｏｍｐｕｔｉｎｇ^；ｇｒａｐｈｐａｒｔｉｔｉｏｎ^；ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ^；ｃｏｍｐｌｅｘｎｅｔｗｏｒｋ^；ｇｒａｐｈｃｏｍｐｕｔｉｎｇ

１　 ^引　 ^言

如果把大脑中的神经元看作顶点，神经元之间互连的树突看作边^，那么整个网络将包含８９０亿个顶点及１００万亿条边^［^１^］^，通过搜索引擎可以抓取约１万亿的网页链接关系图^，据估计未来网页规模将超过十万亿^［^２^］．全球最大的社交网络Ｆａｃｅｂｏｏｋ目前拥有约１０亿的用户^［^２^］，与之相对应的是数百亿的关系链接．普通的单计算节点由于内存容量的限制无法对这些大图正常处理^，这给常见的图计算带来了严峻挑战^（如寻找连通分量^［^３^］^、计算三角形^［^４^］和ＰａｇｅＲａｎｋ^［^５^］^）．一个标准的解决方案是将图数据划分为多个子图装载到多个计算节点进行分布式计算．为此，Ｓｐａｒｋ

^①

^、Ｐｒｅｇｅｌ

^②

^、Ｇｉｒａｐｈ

^③

和Ｔｒｉｎｉｔｙ

^④

等分布式系统框架相继的被开发出来．这些系统通过丰富的ＡＰＩ接口^，简化了用户的分布式编程工作^，实现了大图的有效处理．它们主要根据节点ＩＤ利用伪随机哈希函数将任务分发到每个分区．这种方式简单易于实现^，且不需要系统维护一张巨大的路由表来保存节点的分区信息^，但是在划分过程中^，由于其没有考虑图的拓扑特性^，完全打破了图的内在结构^，导致运算过程中通信代价过大^，因此设计一种划分效果优异的快速图分割算法，已经成为现有大图

处理系统亟待解决的问题^［^６^］．

图的犽划分是ＮＰ难问题^［^７^］^，广泛应用于图像分割^［^８^］、数据挖掘^［^９^］、ＶＬＳＩ设计^［^１^０^］等领域．从２０世纪９０年代初期至今^，国内外研究者不断对图划分及其相关问题进行深入研究^，提出了许多性能较好的图划分算法^［^１^１^］．目前图划分研究主要分为３大类^：离线划分^［^１^２^］、流式划分^［^１^３^］以及动态重划分^［^１^４^］．随着图数据规模的不断增大^，基于传统的启发式的划分算法在划分效率上明显的降低^［^１^５^^１^６^］．例如，在文献［１３^］中，作者对Ｔｗｉｔｔｅｒ图（｜犞｜＝４１６５２２３０^，

｜犈｜＝１４６８３６５１８２^）采用ＭＥＴＩＳ划分^［^１^７^］^，总耗时需要８．５ｈ以上^，划分效率低下．针对此问题，近几年相继有算法被提出用来解决大规模图数据的划分效率问题，其中最经典的是流式划分算法^［^１^８^^２^０^］，由于其优越的划分性能^，逐渐被研究者们所关注．

然而，传统图划分方法都是以最小割边数为优化目标^，而很少考虑到集群的结构对分布式图性计算性能的影响，都是以假定集群的同质为先决条件^［^１^１^］．当图分析系统建立在公共云环境^［^１^１^］^（例如^，亚马逊弹性计算云（ＡｍａｚｏｎＥｌａｓｔｉｃＣｏｍｐｕｔｅｃｌｏｕｄ^、ＥＣ２^［^２^１^］^）^，阿里云^（ＡｌｉｂａｂａＣｌｏｕｄＣｏｍｐｕｔｉｎｇＣｏ．Ｌｔｄ^［^２^２^］^）或公

２５７

１计　　算　　机　　学　　报２０２１年

① ②

③ ④

ｈｔｔｐ^：^／^／ｓｐａｒｋ．ａｐａｃｈｅ．ｏｒｇ^／ｈｔｔｐ^：^／^／ｈａｍａ．ａｐａｃｈｅ．ｏｒｇ^／ｈｔｔｐ^：^／^／ｇｉｒａｐｈ．ａｐａｃｈｅ．ｏｒｇ^／ｈｔｔｐｓ^：^／^／ｇｉｔｈｕｂ．ｃｏｍ^／ｔｒｉｎｉｔｙｒｎａｓｅｑ^／

《计

算

机

学

报

》

(3)

司内私有数据中心^［^２^３^］时^，这些同质性假设并不总是成立．例如在文献^［１１^］中^，作者测量了１２８个ＥＣ２集群实例的网络带宽^，节点之间最高带宽达到了５００ＭＢ^／ｓ以上^，而最低的带宽只有３７．５ＭＢ^／ｓ．集群环境的异构在当前的云计算中是普遍存在的^，主要是由以下三个原因造成的^：

（１^）硬件异质．在私有云中通常拥有多代硬件^，与上一代硬件相比^，新硬件可能配备带宽更高的网络适配器或计算性能更佳的ＣＰＵ^，从而导致计算能力和通信带宽的异构性^［^２^２^^２^３^］．

（２^）虚拟化．为了有效利用硬件资源^，云系统一般都会使用虚拟技术^［^２^４^］．一对节点之间的带宽可能取决于实例^（虚拟机^）的分配方式．当两个实例被分配到同一个物理节点时^，数据可以在它们之间高速传输^，而当两个实例被分配到不同的节点甚至跨不同路由器节点时^，它们之间的数据传输会慢得多．因此^，虚拟化会导致通信带宽的异构^［^２^５^］．图１和图２显示了由１２个物理节点组成的分布式集群中节点之间的带宽和节点计算能力差异．如图１所示^，节点

图１　通信带宽的不均衡

图２　计算能力的不均衡

对之间的网络带宽差异很大．据测量统计^，１２个计算单元之间通信的平均带宽为１０５ＭＢ^／ｓ^，最高速度达到１９５ＭＢ^／ｓ^，最低速度仅为９．５ＭＢ^／ｓ．图２说明了单计算节点计算１００万位圆周率^（ＰＩ^）的运行时间，可以看出集群中计算节点的运算能力也不同．

（３^）共享资源竞争．随着通信技术的发展，网络的带宽接近甚至超过了内存带宽^［^２^６^^２^７^］．例如^，每个内存通道的ＤＤＲ３带宽目前介于６．２５ＧＢ^／ｓ^（ＤＤＲ３８００^）和１６．６ＧＢ^／ｓ^（ＤＤＲ３２１３３^）之间^［^２^８^］，而每个网络接口控制器端口的ＩｎｆｉｎｉＢａｎｄ带宽范围为１．７ＧＢ^／ｓ

（ＦＤＲ１Ｘ^）到３７．５ＧＢ^／ｓ^（ＥＤＲ１２Ｘ^）^［^２^９^］．具有４通道ＤＤＲ３１６００内存机器的内存带宽大致可以由４个双端口ＦＤＲ４ＸＮＩＣ提供．因此，现有的网络不再是直接内存访问（ＲｅｍｏｔｅＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ^，ＲＤＭＡ^）技术的瓶颈^［^２^６^］．在高速网络的多核集群中^，节点内核与核之间需要通信时^，为了保持数据的一致性，会在共享缓存中拷贝多次，导致共享资源的争用问题．而相对于高速ＲＤＭＡ零拷贝数据通信^，节点内的核与核之间的通信反而会降低分布式图计算的效率．

因此^，在构建图划分模型时应考虑到这些因素对分布式图计算的影响．目前传统图划分方法的目标是如何实现最小割的数量，例如Ｍｅｔｉｓ^／ＰａｒＭｅｔｉｓ^［^１^２^］^、ＬＤＧ^［^３^０^］^、Ｆｅｎｎｅｌ^［^１^３^］^、Ｇｒａｐｅｓ^［^３^１^］^、ＪＡＢＥ ＪＡ^［^３^２^］^、Ｐｏｗｅｒｌｙｒａ^［^３^３^］^、Ｐｈｙｌｏｆａｃｔｏｒｉｚａｔｉｏｎ^［^３^４^］等．但是

这些仅关注最小化割边数的图划分不足以实现可伸缩的性能^，因为基于最小割边数的解决方案无法保证割边是如何跨节点分布．它们最终可能被分配到通信成本高的节点之间，导致通信量的加大，尤其在高速网络环境下，会进一步加剧多核计算节点的内存子系统的争用．

这些实现不能充分利用集群结构信息来指导划分策略．近年来，也出现了针对集群的异构作业处理研究．Ｃｈｅｎ等人^［^３^５^］研究了ＭａｐＲｅｄｕｃｅ框架中集群的异质性，改进Ｈａｄｏｏｐ上的应用程序，但没有考虑图应用的异构性．Ｗａｎｇ等人^［^３^１^］提出了一种考虑云环境下网络带宽差异的多级图划分框架．Ｃａｔａｌｙｕｒｅｋ等人^［^３^６^］考虑到集群中节点计算能力的差别^，设计了动态负载均衡图划分算法．Ｄａｔｈａｔｈｒｉ等人^［^３^７^］和Ｘｕｅ等人^［^３^８^］试图通过避免在具有较高网络通信成本的分区之间切割任何边来解决这种通信异构问题，然而^，这些图划分方法都是建立在现有的静态图划分算法之上^，具有很差的可扩展性^，且只能够处理静态小规模图，无法处理大规模动态图．

３５７８期李　琪等^：异构计算环境中图划分算法的研究１

《计

算

机

学

报

》

(4)

事实上^，现实世界的网络本质上是动态的^［^３^９^］^，即随着时间的推移，节点或连边随着时间的推移不断的被添加或删除．例如^，在无线传感网络中^，设备连接到路由器或断开与路由器的连接．在社交网络中^，新用户和现有用户之间的友谊会随着时间的推移而产生变化．尽管Ｍｏｕｌｉｔｓａｓ等人^［^４^０^］提出了一种轻量级的架构感知图划分，但是该划分可能导致动态图计算的次优性能^［^４^１^］．

Ｚｈｅｎｇ^［^１^４^］和Ｂｕｓｓｅ^［^４^１^］等人已经发现，现代多核计算机的存储子系统^（例如^，末级缓存^、内存控制器和前端总线）上共享硬件资源的争夺会极大地影响分布式工作负载的性能．具体来说^，他们主要研究了ＭＰＩ工作负载的争用问题．而本文的工作主要是体系结构感知（计算力和通信异构以及子系统的资源争用^）图划分应用^，旨在避免分布式图计算的异构和争用问题．

综上^，已有关于图划分的工作重点往往是最小化割边数，而很少考虑到集群体系结构对分布式图计算效率的影响，包括节点计算力和网络通信的异构^，以及高速网络下多核节点内的共享资源争用．本文针对异构并行环境下的图划分难题，改进分布式图计算应用程序的通信模式到底层硬件拓扑的映射，提出一种异构环境感知的流式图划分算法

（ＨａＳＧＰ^）．本文的主要贡献如下^：

（１^）考虑到分布式集群中节点的计算力与节点间通信带宽的不同，以及子系统内共享资源的竞争．本文对异构环境进行了形式化建模^，实现了利用底层体系结构指导大规模动态图的划分，提升了异构环境下分布式图计算的效率．

（２^）考虑到划分过程中，集群中的“主节点”存在着大量的查找添加等操作．本文提出了基于邻边结构的缓存数据管理方式^，该结构可以有效地提升缓存中邻点的操作效率，在有效利用内存空间的提前下提升图划分算法的性能．

（３^）为了评估ＨａＳＧＰ算法的有效性^，实验模拟了不同的异构环境^，并与已有算法进行对比分析．评估结果表明，本文所提出的异构环境感知图划分方法能够有效地“平衡”集群的工作负载，显著提高作业执行时间．

本文第２节对异构环境下的图划分问题进行详细地描述^；第３节对异构环境下的各种异构因素进行形式化建模；第４节阐述异构计算环境图划分算法的具体实现^；第５节给出具体的实验结果^；最后^，在第６节对本文的研究工作进行总结．

２　 ^问题定义

犘^犽＝^｛犛^１^，犛^２^，^…，犛^犽^｝为图数据犌^（犞^，犈^）划分完之后的犽个子区．犘^犽为图犌的一种划分．犽为分区的数目．犛^犻表示某个子区．犞^犻指某个子区犛^犻中顶点的集合^，用公式描述为

犘＝犘

^｛

^犻^：_犻

∪

^犽_＝_１^犛^犻^＝^犞ａ^ｎ^ｄ^犛^犻^∩^犛^犼^＝^^ｆ^ｏ^ｒ^ａ^ｎ^ｙ^犻^≠^犼

^｝

^（^１^）

异构感知图划分算法旨在将图数据划分到犽个分区^，同时尽量降低分布式图计算过程中分区之间的通信量．首先对分区犘的通信成本进行定义^，用符号犮狅犿犿^（犌^，犘^）表示，如下所示：

犮狅犿犿^（犌^，犘^）＝犲＝^｛狌，狏｝ａｎｄ狌∈

∑

犞_犻ａｎｄ狏∈犞_犼ａｎｄ犻≠犼

狑^（犲^）犮^（犛^犻^，犛^犼^）^（２^）其中，犮^（犛^犻^，犛犼）定义为通信的带宽．带宽越低，通信成本越高，带宽越高，则通信成本越低．犠^（犲^）为边（狌^，狏^）的权重．在同构环境下，通常假定犮^（犛^犻^，犛犼）＝１^，即网络带宽相等．但是这种假设不能反映现代多核高性能计算^（ｍｕｌｔｉｃｏｒｅＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇ^，ＨＰＣ^）基础设施的特点．因此^，在异构集群环境中^，为了最小化犮狅犿犿^（犌^，犘^）^，划分算法应该尽量减少通信成本较高的节点之间的通信边．

一个好的划分算法应该使集群节点在执行图计算任务时都能同时完成任务^，而不应该使某些节点提前进入空闲状态等待其它节点．需要注意的是^，异构环境下的“负载均衡”与同构环境下的负载均衡的概念不同，异构环境下的“负载均衡”实际上也是一种不均衡分配^，是要求每个集群节点根据自身的计算能力来分配任务．计算能力低的节点分配的任务较少，计算能力高的节点分配的任务相对较多，以此达到同时完成任务的目的，具体节点分配的任务量在第３节进行详细说明．

３　集群异构因素的形式化建模

本节首先介绍采用流式图划分作为切入点的动机^，说明了流式图划分所存在的问题．最后^，以流式图划分为基础，对各种异构环境进行形式化建模．３１　^{流式图划分}

假设犛^狋＝^｛犛^狋１，犛^狋２，…，犛^狋犽｝表示在狋时刻犽路划分的状态^，其中犞^狋犻表示在狋时刻子区犛^犻中的点集合．流式图划分就是将图中顶点按照某种规则排序

（如广度优先、深度优先等），根据此时的划分状态

４５７

１计　　算　　机　　学　　报２０２１年

《计

算

机

学

报

》

(5)

犛^狋及当前点的邻居点犖^（狏^）^，依次分配队列中的顶点．不同流式划分方法分配队列中的顶点所采用的启发式规则不同^，例如最小非邻居节点流划分算法

（ＮｏｎＮｅｉｇｈｂｏｒｓ^，ＮＮ^）^，将点狏分配到子区犛^犻的启发式规则是最小化｜犛^犻＼犖^（狏^）｜．确定性贪心流划分算法（ＤｅｔｅｒｍｉｎｉｓｔｉｃＧｒｅｅｄｙ^，ＤＧ^）^，启发式规则是最大化｜犖^（狏^）∩犛^犻｜．指数权重确定性贪婪流划分算法

（ＥｘｐｏｎｅｎｔｉａｌｌｙＷｅｉｇｈｔｅｄＤｅｔｅｒｍｉｎｉｓｔｉｃＧｒｅｅｄｙ^，ＥＤＧ^）^，启发式规则是最大化｜犖^（狏^）∩犛^犻｜^（１－ｅｘｐ^（｜犛^犻｜－狀^／犽^）．流式划分依据不完整的局部信息，随着已分配完成的顶点数量增多，计算当前点可利用的信息量也在不断的增加．

Ｓｔａｎｔｏｎ和Ｋｌｉｏｔ^［^３^０^］分析了一系列的启发式流算法的性能，在这些流方法中，性能最好的是线性权重贪婪流算法^（ＬｉｎｅａｒＷｅｉｇｈｔｅｄＤｅｔｅｒｍｉｎｉｓｔｉｃＧｒｅｅｄｙ^，ＬＤＧ^）^，式^（３^）介绍了ＬＤＧ算法将点狏分配到子区犛^犻^狀^犱的启发式规则．

犛^犻^狀^犱＝ａ_犻ｒ_∈ｇ_｛_１ｍ_，_…，ａ_犽ｘ_｝^｛｜犖^（狏^）∩犞^狋^犻｜狑^（狋^，犻^）^｝^，狑^（狋^，犻^）＝１－｜犞^狋^犻｜^／^（狀^／犽^） ^（３^）从式^（３^）可以看出^，每个顶点只计算一次．方程前半部分函数表示在狋时刻^，子区犛^犻中含有点狏的邻居点数量．为了使子区负载均衡^，在方程后面乘以惩罚函数狑^（狋^，犻^）^，惩罚拥有点过多的分区．选择函数值最大的子区^，将点狏分配到此子区中．

流式划分由于高效的划分管理，近年来得到了不断的发展^［^４^２^^４^４^］．但是流方法存在两个问题：（１^）原方法没有考虑到集群计算环境的异构性．当集群存在异构时，已有流式划分方法所优化的目标可能会导致并行计算性能的下降，因此已有流式划分不适用异构集群环境下任务分配的方法^；^（２^）划分过程中的邻点缓存数据结构不利于查找^，对于查找^（主要指查找当前顶点已分配完成的邻居点及邻居点所在的子区信息）效率低下．

针对以上两个问题，本文提出了异构环境下的流式图划分算法^，该算法能够根据实际集群体系结构具体硬件配置^，产生合理的划分策略^，以提升异构环境下分布式图计算效率．同时针对流算法出现的问题（２^）^，本文设计了邻边缓存结构来提高划分过程中的操作效率，以提升流式图划分算法的性能．具体过程在以下小节中详细介绍．

３２　^计算能力

计算能力是以某个计算节点在单位时间内执行的任务量来度量．处理器性能的强弱是影响计算能

力的一个重要因素．对于由不同计算能力的节点所组成的集群^，如果负载相同^，必然造成计算能力低的节点处理时间较长．计算能力强的物理节点处理时间较短，整个分布式计算任务时间是由计算时间最慢的节点所决定，严重影响了整个分布式计算任务的效率．而理想的情况是集群节点能够同时完成任务．所以需要按照节点的计算能力分配任务量^，任务量与计算能力成正比．

为了量化节点的计算能力^，本文采用文献^［４５^］中的方法．符号犆犫^犻表示节点犠狅狉犽犲狉^犻的计算能力．本文以浮点运算作为节点计算能力的指标．具体操作为，节点犠狅狉犽犲狉^犻随机生成两个浮点数并对这两个浮点数进行相乘^，重复１０^６次操作^，记录总响应时间并计算一次浮点运算的操作（符号表示为犜犲狓犜犻犿犲^犻^）时间．然而，犜犲狓犜犻犿犲^犻是一个非常小的浮点数，为了便于计算，我们对犜犲狓犜犻犿犲^犻进行标准化．如果某个节点犠狅狉犽犲狉^ｍ^ａ^ｘ的浮点计算的时间最长^，那么可以根据以下公式计算得出集群中任意一个就是计算节点犠狅狉犽犲狉^犻的计算能力^，值越大表明该节点的计算能力越强．

犆犫^犻＝犜犲狓犜犻犿犲^ｍ^ａ^ｘ

犜犲狓犜犻犿犲^犻 ^（４^）３３　^通信带宽

通信带宽是指物理节点之间网络传输数据的速率^，具体是指单位时间内通过其链路层的数据量．本文使用６４位数据作为通信单元．在异构环境中，不可避免的会出现网络带宽的不同．传输相同的数据量，带宽低的网络传输的时间较长，反之，带宽高的网络传输时间较短．

图３　异构网络环境下的不同划分方法的比较

图３为异构网络环境下的不同划分方法的比较^，图中也列出了不同节点之间的通信成本．通信成本与通信带宽相反，成本越高带宽越低．犛^２与犛^１之间的通信成本较高．如果按照已有犽路均衡划分的方法（Ｏｌｄｐａｒｔｉｔｉｏｎｉｎｇ^）对图进行划分，会使割边数最少^，割边数为５．但是总的通信代价却为１５．如果使用本文的异构感知的划分方法^，会综合考虑通信代价及割边数^（Ｂｅｓｔｐａｒｔｉｔｉｏｎｉｎｇ^）．如图３的右图所

５５７８期李　琪等^：异构计算环境中图划分算法的研究１

《计

算

机

学

报

》

(6)

示^，虽然割边数提高了^，但是总的通信成本却降低了^，降低为６^，明显提高了通信效率．因此^，异构网络环境下应该考虑带宽的不同，对于低带宽网络之间的两节点应减少分配相关联的任务量．

为了量化集群中节点之间的通信成本^，本文同样采用文献［４５^］中的方法．符号犕犫^（犻^，犼^）表示计算节点犠狅狉犽犲狉^犻和犠狅狉犽犲狉犼之间的通信成本．假定任何一对计算节点之间的往返通信成本是相同的^，即犕犫^（犻^，犼^）＝犕犫^（犼^，犻^）．本文记录一个数据块从节点犠狅狉犽犲狉^犻到节点犠狅狉犽犲狉犼的时间来测量其通信能力．

实验中采用的是全双工通信^，与上一节的计算能力相同^，对通信带宽进行标准化．如果某节点对之间的通信带宽最大，用犜犮犜犻犿犲^ｍ^ａ^ｘ表示，则集群中其它节点对犠狅狉犽犲狉^犻和犠狅狉犽犲狉犼之间的通信成本犕犫^（犻^，犼^）用以下公式求出．

犕犫^（犻^，犼^）＝犜犮犜犻犿犲^（犻^，犼^）

犜犮犜犻犿犲^ｍ^ａ^ｘ ^（５^）３４　^{共享资源竞争}

对于通过高速网络（如ＩｎｆｉｎｉＢａｎｄ^）连接的集群^，网络上的数据传输速度几乎与将数据从内存移动到ＣＰＵ一样快．启用ＲＤＭＡ技术的网络允许计算节点从另一个计算节点的内存中直接读取数据，而不涉及任何节点的处理器^、缓存或操作系统^，从而

实现真正的零拷贝数据通信．但是当多核计算节点内部的核与核之间进行通信时^，需要在最后一级共享缓存（ＬａｓｔＬｅｖｅｌｃａｃｈｅ^，ＬＬＣ^）拷贝多次数据．鉴于此，在高速网络环境下，多核计算节点内的核与核之间的通信会影响分布式图计算的性能．

在对节点内共享资源竞争问题建模之前，首先需要罗列出节点内可能出现的所有核之间通信情况．按照核的位置进行归类．如表１所示^，包括两核位于同一插槽共享最后一级缓存（ＣＬ１^）^，两核位于同一插槽使用不同的最后一级缓存（ＣＬ２^）以及两核位于不同的插槽（ＣＬ３^）．ＵＭＡ表示非统一内存访问架构^，ＮＵＭＡ表示统一内存访问架构^，如图４所示．通信的两核所处的位置不同^，导致共享及竞争的资源也不同．所以模型的建立应该考虑共享资源竞争的程度^，合理构建通信成本．避免将邻点分配到竞争较大的两核中．

表１　^{节点内共享资源竞争}

ＵＭＡ

ＣＬ１ＣＬ２ＣＬ３ＮＵＭＡＣＬ１ＣＬ２共享Ｓｏｃｋｅｔ   

ＬＬＣ   竞争ＬＬＣ  

ＦＳＢ^／ＱＰＩ^（ＨＴ^）    ＭＣ    

图４　非统一内存访问架构和统一内存访问架构

犛^犻和犛^犼代表了两个核^（或者两个插槽^，两个计算节点，但是当在高速网络下的多核计算节点内存在共享资源竞争时^，犛^犻和犛^犼为核^）．犻狀狋犲狉犪＿狑狅狉犽犲狉^（犛^犻^，犛^犼^）表示犛^犻和犛^犼之间实际的通信成本^，值等于犕犫^（犛^犻^，犛^犼^）．犻狀狋犲狉犪犿犪狓＿狑狅狉犽犲狉^（犛^犻^，犛犼）表示所有计算节点之间

通信成本的最大值．犻狀狋犲狉犿犪狓＿狊狅犮犽犲狋^（犛^犻^，犛犼）表示节点内部所有插槽与插槽之间通信成本的最大值．节点内两核之间的通信成本犮^（犛^犻^，犛^犼^）定义如下^：

犮^（犛^犻^，犛^犼^）＝犻狀狋犲狉犪＿狑狅狉犽犲狉^（犛^犻^，犛^犼^）＋　　　 α×犻狀狋犲狉犿犪狓＿狑狅狉犽犲狉^（犛^犻^，犛^犼^）＋ β×犻狀狋犲狉犿犪狓＿狊狅犮犽犲狋^（犛^犻^，犛^犼^{）（}６^）

其中^，α和β是介于０到１之间的参数^，表示竞争程度．当集群环境为高速网络时，当两核处于同一插槽时，此时竞争最大，因此α和β都不为零^，目的增加其通信成本^；当两核位于不同的插槽时^，此时竞争相对小一些^，因此β为零^，α不为零^；当两核分别位于不同的节点^，此时不存在竞争^，只考虑通信异构性^，β 和α都设为零．

４　异构环境下的图划分算法

本节主要介绍所提出的异构环境下的图划分

６５７

１计　　算　　机　　学　　报２０２１年

《计

算

机

学

报

》

(7)

算法^—^—^—异构感知的流式划分算法^，简称为ＨａＳＧＰ．然后介绍针对流式划分的邻边缓存结构，该结构可以进一步提升流式图划分的效率．

４１　^{异构感知流划分}

ＬＤＧ算法的目标是根据集群节点的负载将顶点分配到具有最大邻居数的分区中．本文将ＬＤＧ应用在异构并行环境中原因是其算法简单，易于实现^，且在一系列的流算法中划分效果优异．考虑到集群环境的异构性，ＨａＳＧＰ通过启发式方法将当前顶点狌^犻放置入分区犛^犻^狀^犱^，最大化目标函数^（８^）^，从而将非均匀的网络通信成本、节点的计算能力以及内存子系统的资源竞争考虑在内．

犻狀犱＝ａｒ_犻ｇ_∈_［ｍ_１_，ａ_犽_］ｘ１

∑

犲＝^（狌^，狏^）∈犈ａｎｄ狌∈犛_犻ａｎｄ犻≠犼狑^（犲^）×犮^（犛^犻^，犛犼）× １－狑^（犛^犻^）

犆犫^犻

∑

^犽

狓＝１犆犫^狓｜犞烄

烆

烌

｜烎 ^（７^）其中，狑^（犲^）表示边权重．对于无权重网络，狑^（犲^）为犛^犻与犛^犼之间的总割边数．对于有权重网络^，狑^（犲^）为犛^犻与犛犼之间边的总权重．其中式（７^）前半部分为计算当前点分配到其中任意一个分区^（犛^犻^）与其它分区

（犛犼）之间总通信量的倒数．后半部分为惩罚函数，惩罚负载过多的子区．结合式^（７^）的前后部分^，计算得出该方程的最大值时^，犻的取值就为当前顶点所属的分区．

在３．４节中^，我们对分区之间的通信成本犮^（犛^犻^，犛^犼^）进行了说明．其中，α∈^［０^，１^］^，β∈^［０^，１^］．当网络的带宽很低时^，节点内部的共享资源竞争可以忽略不计^，这时影响分布式图计算性能的主要是节点的计算能力与节点之间的通信能力^，在此环境下参数设置为α＝０^，β＝０^，图划分的优化目标是尽量将两邻居点分配到同一计算节点中；当网络带宽很高时，由于采用ＲＤＭＡ技术^，节点之间的通信不涉及共享内存的复制等操作．影响分布式图计算性能的主要因素是节点的计算能力与资源竞争^，参数值设置为α∈

（０^，１^］^，β∈^（０^，１^］．考虑到资源争用和通信异构性的影响是高度依赖于应用程序和硬件的，用户需要在实际计算环境中对目标应用程序进行具体分析^，以确定参数数值的理想情况．在本文中，α与β的值都设置为１．

４２　^邻边结构

流式划分过程中的邻点缓存数据结构不利于查找^，对于查找^（主要指查找当前顶点已分配完成的邻

居点及邻居点所在的子区信息^）效率较低．因此本节设计了邻边缓存结构来提高查找效率．

为了更直观地说明原始流算法中的邻点结构^，我们以线性权重贪婪流算法划分为例，介绍基于邻边结构的流算法划分过程．图５为示例图犌^（犞^，犈^）划分为３个子区^（犛１，犛２，犛３）．算法首先将图中的顶点随机排成队列，根据顶点的先后依次进行分配．分配每一顶点^，将此点及对应的分区信息^（狏∈犛^犻^）保存在内存中．计算过程如表２所示^，在犜时刻分配完ＩＤ为１的顶点^，将顶点狏^１分配到子区犛^１^，随后在缓存中保存点狏^１及对应的分区信息犛^１．在犜＋１时刻计算ＩＤ为３的顶点^（狏^３^）的所属子区^，首先要在缓存中查找已经分配完成的此点邻居点信息^（狏^３^）的邻居点只有狏^１完成分配，所以只能依据点狏^１的所属子区信息分配狏^３^）．再根据邻点分区信息^（狏^１∈犛^１^）计算当前的顶点归属子区，按照同样的规则分配后续的顶点^，直到图中所有的点都分配完成^，算法结束．

图５　示例图犌划分为３个子区

表２　^从时刻犜^到时刻犜＋５^对图犌^{进行流划分过程中} 动态缓存区中的数据变化（邻点结构）

时刻对应时刻处理的顶点ＩＤ处理之后缓存数据内容犜１狏１→犛１

犜＋１３狏^１→犛^１^，狏^３→犛^１犜＋２２狏１→犛１，狏３→犛１，狏２→犛２

犜＋３６狏１→犛１，狏３→犛１，狏２→犛２

狏６→犛３

犜＋４５狏１→犛１，狏３→犛１，狏２→犛２

狏^６→犛^３^，狏^５→犛^２犜＋５４狏１→犛１，狏３→犛１，狏２→犛２

狏６→犛３，狏５→犛２，狏４→犛３

通过对已有流算法过程的分析^，可以发现^，输入图是以邻接矩阵的形式载入内存．基于邻点结构的流算法分配当前的顶点^，由于从邻接矩阵中只能得出此点的邻居点，无法判断出哪些邻居点已经分配完成，所以要在动态缓存中寻找，由邻接矩阵与动态缓存内容共同确认已经分配完成的邻居点．据此^，我们将缓存数据的结构转换为邻边形式．分配当前的顶点，只需查找此点为键的字典条目，通过键查找到值^，值对应着此点已经分配完成的所有邻点分区信息，通过值可以直接计算出此点所属的子区．计算过

异构计算环境中图划分算法的研究

异构计算环境中图划分算法的研究

李 琪

李虎雄

钟 将

英昌甜

李 青

犚 犲 狊 犲 犪 狉 犮 犺 狅 狀 犌 狉 犪 狆 犺 犘 犪 狉 狋 犻 狋 犻 狅 狀 犻 狀 犵 犻 狀 犎 犲 狋 犲 狉 狅 犵 犲 狀 犲 狅 狌 狊 犆 狅 犿 狆 狌 狋 犻 狀 犵 犈 狀 狏 犻 狉 狅 狀 犿 犲 狀 狋

《 计

算

机

学

报

》

１ 引 言

①

②

③

④

① ②

③ ④

《 计

算

机

学

报

》

《 计

算

机

学

报

》

２ 问题定义

｛

∪

｝

∑

３ 集群异构因素的形式化建模

《 计

算

机

学

报

》

《 计

算

机

学

报

》

４ 异构环境下的图划分算法

《 计

算

机

学

报

》

∑

∑

《 计

算

机

学

报

》

李　 ^琪

^李虎雄

　 ^钟　 ^将

　 ^英昌甜

　 ^李　 ^青

犚犲狊犲犪狉犮犺狅狀犌狉犪狆犺犘犪狉狋犻狋犻狅狀犻狀犵犻狀犎犲狋犲狉狅犵犲狀犲狅狌狊犆狅犿狆狌狋犻狀犵犈狀狏犻狉狅狀犿犲狀狋

《计

１　 ^引　 ^言

^①

^②

^③

^④

《计

《计

２　 ^问题定义

^｛

^｝

３　集群异构因素的形式化建模

《计

《计

４　异构环境下的图划分算法

《计

《计