• 沒有找到結果。

无人驾驶汽车协同感知信息传输负载优化技术

N/A
N/A
Protected

Academic year: 2022

Share "无人驾驶汽车协同感知信息传输负载优化技术"

Copied!
14
0
0

加載中.... (立即查看全文)

全文

(1)

无人驾驶汽车协同感知信息传输负载优化技术

吕 品

1),2),3)

李 凯

1)

许 嘉

1),2),3)

李陶深

1),3)

陈宁江

1),3)

1)(广西大学计算机与电子信息学院 南宁 530004)

2)(广西多媒体通信与网络技术重点实验室 南宁 530004)

3)(广西高校并行分布式计算技术重点实验室 南宁 530004)

摘 要 无人驾驶近年来成为了学术界和工业界的研究热点,无人驾驶汽车的环境感知则是其中的重要基础. 仅通 过提升无人驾驶汽车上的传感器数量和精度并不能完全消除车辆的感知盲区,因此无人驾驶汽车与路边基础设施 进行协同环境感知越来越受到关注. 通过车路协同感知,无人驾驶汽车的感知范围能够得到有效扩展,有助于消除 感知盲区,对于提升无人驾驶的安全性具有重要意义. 在各类环境感知信息中,摄像头拍摄的视频占有最重要的地 位. 然而,视频帧所包含的数据量较大,传输每个视频帧会导致网络负载过重,传输延迟增大,影响环境感知信息的 时效性. 本文提出了一种视频感知数据的传输负载优化方法,主要思想是通过路边基础设施把视频帧中的静态背景 与动态前景进行分离,仅在初始时传输一次静态背景,其余每次仅传输动态前景信息,这样可以使得传输负载大幅 降低. 无人驾驶汽车将收到的静态背景图像与动态前景图像重新融合成视频帧,然后基于视频帧所反映的行车环境 做出正确的驾驶决策. 对于静态背景与动态前景的分离,本文提出了一种基于像素值计算的视频帧背景去除和降噪 方法,能够快速地从视频帧中提取动态前景;对于静态背景与动态前景的融合,本文提出了一种基于生成对抗网络 的视频帧生成方法,能够快速地把静态背景和动态前景融合成视频帧. 通过在真实数据集上的测试可知,本文提出 的方法能够在重要环境感知信息不丢失的前提下使传输负载降低85% 以上,感知信息处理时间降低 70% 以上. 这 表明本文提出的方法能够高效地实现无人驾驶汽车与路边基础设施的协同环境感知,有助于构建更加安全的无人 驾驶系统.

关键词 无人驾驶汽车;协同环境感知;深度学习;生成对抗网络;传输负载 中图法分类号 TP393 DOI 号 10. 11897/SP. J. 1016. 2021. 01984

Cooperative Sensing Information Transmission Load Optimization for Automated Vehicles

LV Pin1),2),3) LI Kai1) XU Jia1),2),3) LI Tao-Shen1),3) CHEN Ning-Jiang1),3)

1)(College of Computer,Electronics and Information,Guangxi University,Nanning 530004)

2)(Guangxi Key Laboratory of Multimedia Communications and Network Technology,Nanning 530004)

3)(Guangxi Colleges and Universities Key Laboratory of Parallel and Distributed Computing,Nanning 530004)

Abstract Automated driving has become a research hot spot in both academic and industrial circles in recent years. Environment perception of automated vehicles is a fundamental technology in automated driving. However, only increasing sensors on the automated vehicle or improving the accuracy of the sensors cannot completely eliminate the blind area of environment sensing.

Therefore, cooperative environment sensing between automated vehicles and roadside

收稿日期:2020-05-11;在线发布日期:2021-01-13. 本课题得到国家自然科学基金(62062008,62062006)、“广西八桂学者”专项经费、

广西自然科学基金(2018JJA170194,2018JJA170028,2019JJA170045)资助. 吕 品,博士,副研究员,中国计算机学会(CCF)高级会 ,主要研究领域为无线网络、群智感知. E-mail:lvpin@gxu. edu. cn;李 凯,硕士研究生,中国计算机学会(CCF)学生会员,主要研究 领域为人工智能、群智感知;许 嘉(通信作者),博士,副教授,中国计算机学会(CCF)高级会员,主要研究领域为大数据分析与处理技 术. E-mail:xujia@gxu. edu. cn;李陶深,博士,教授,中国计算机学会(CCF)杰出会员,主要研究领域为无线网络、协同计算;陈宁江,博

,教授,中国计算机学会(CCF)高级会员,主要研究领域为软件工程、协同计算.

(2)

infrastructure has attracted increasingly more attention. With the help of the cooperative environment sensing with roadside infrastructure, the sensing range of an automated vehicle is enlarged, which also promotes blind area elimination. Cooperative environment sensing is significant to improve the safety of automated driving. Among all kinds of environmental sensing information,the videos captured by cameras occupy the most important position. However,video frames contain a large amount of data. Transmitting each video frame leads to a heavy network traffic load and a long transmission delay, which affects the timeliness of environmental sensing information. In this paper, a video transmission load optimization framework is proposed. The main idea of the framework is the roadside camera separates the dynamic foreground from the static background in the video frame. It only transmits the static background once at the beginning;and in the following transmissions, only dynamic foreground in the video frames are transmitted, which reduces the transmission load greatly. After receiving dynamic foreground images, the automated vehicle fuses them with the previously received static background, and recovers the video frames. Hence, the automated vehicle can make the correct driving decision based on the driving environment reflected by the recovered video frames. For dynamic foreground and static background separation, a pixel-based method is proposed to remove the background and reduce the noise quickly. With the help of the proposed method, the dynamic foreground is able to be extracted from the video frame in an efficient manner. For dynamic foreground and static background fusion, an approach based on generative adversarial network

(GAN)is utilized in this paper to fuse dynamic foreground and static background into new video frames efficiently. With the confrontation between the generative model and the discriminative model,the quality of the recovered video frame improves. Through the performance evaluation on the real data set containing more than 43,000 images captured by roadside cameras,the following results are obtained. The framework proposed in this paper can reduce the transmission load by over 85% without losing in the key environmental sensing information, and also can reduce the environmental sensing information processing time by over 70%. Measurements on several metrics reveal that the quality of the fused image also outperforms other contrast methods. The results indicate that the proposed framework achieves efficient cooperative environment sensing for automated vehicles and roadside infrastructure,which is conducive to build a safer unmanned driving system.

Keywords automated vehicle; cooperative environment sensing; deep learning; generative adversarial networks;transmission load

1 引 言

随着人工智能技术的发展,无人驾驶汽车逐渐 从愿景走向现实,成为学术界和工业界近年来的研 究热点,各大传统汽车厂商和新兴科技公司都积极 投身于无人驾驶汽车的研发之中.

在无人驾驶汽车相关技术中,环境感知是车辆 自动做出各项行为决策和运动控制的基础. 只有获 得了充分、精确、可靠的环境感知信息,无人驾驶汽 车才能做出安全、合理的驾驶决策. 无人驾驶汽车依

靠多种传感器(如摄像头、激光雷达、毫米波雷达等)

进行环境感知. 当前业界提升无人驾驶汽车环境感 知能力的主要方法是安装数量更多、精度更高的传 感器,然而这种方法并不能消除因障碍物遮挡而产 生的感知盲区. 因此,仅提升无人驾驶汽车的单体感 知能力存在一定的局限性. 采用群智协同环境感知 的策略则可以突破上述局限. 当一个区域对于一辆 无人驾驶汽车来说是感知盲区,而这个区域对其他 节点来说是可感知区域时,那么这辆无人驾驶汽车 就可以从其他节点获取这个区域的感知信息,从而 可以扩大自身的感知范围,消除感知盲区,实现非视

(3)

距感知. 由此可见,群智协同环境感知对于提升无人 驾驶安全性具有重要意义[1].

与其他感知数据相比,摄像头拍摄的视频数据 所包含的环境信息往往更加丰富和直观,对于环境 感知具有更重要的作用,百度、特斯拉等公司甚至研 发了基于纯视觉感知数据的无人驾驶汽车. 因此,在 进行协同环境感知时,视频数据是无人驾驶汽车与 其他感知节点共享的主要数据类型. 在实际应用场 景中,道路监控摄像头往往具有固定的安装位置、稳 定的电源供应、广阔的拍摄视野,因此非常适合作为 无人驾驶汽车的协同感知节点. 如图 1 所示,路边摄 像头把拍摄到的视频数据发送给无人驾驶汽车,就 能帮助车辆扩大自身的感知范围,根据环境情况及 早做出安全、合理的驾驶决策.

然而,随着摄像头分辨率不断提高,摄像头每秒 钟所产生的视频数据量急剧增长. 一个高清摄像头 每秒产生的数据量可达几十兆比特,而车辆或路侧 单元通常会安装多个摄像头以覆盖各个方向,使得 每个节点产生的数据量更是成倍增长. 现有的车载 网通信技术,如车辆专用短程通信技术(DSRC)、

3G/4G 等,很难支持如此巨大的传输负载;特别是 在高速移动时,车辆能获得的有效传输速率会更低.

即使采用容量更大的5G 网络进行传输,当一个区 域内有很多车辆时,为这些车辆传输大量视频数据 也会使得网络负载过重,进而造成传输延迟增大,不 利于环境感知数据的时效性,同时也会影响其他网 络应用的正常运行. 因此,网络传输负载受限成为阻 碍 无 人 驾 驶 汽 车 进 行 群 智 协 同 环 境 感 知 的 重 要 因素.

为了降低协同环境感知数据的传输负载,本文 提出了一种基于深度学习的传输负载优化方法. 该 方法的主要思想是,协同环境感知数据的发送方将 视频帧中的静态背景与动态前景相分离,静态背景 只需在初始时传输一次,对于之后的每个视频帧,仅 传输其中的动态前景数据;无人驾驶汽车在收到动 态前景数据后,将其与静态背景数据重新融合成视

频帧,并基于视频帧所反映出的环境信息做出正确 的驾驶决策. 与传统方法不同,本文提出的方法不是 传输每个完整的视频帧,而是传输其中发生动态变 化的部分,这样就可以使得网络负载大幅降低,有利 于保证环境感知信息传输的时效性. 通过在真实数 据集上的实验可知,使用这种方法能够在不丢失对 驾驶决策起作用的环境感知信息的基础上,将视频 图像数据的传输负载降低85% 以上.

本文的主要贡献总结如下:

(1)提出了一种降低协同环境感知信息传输负 载的方案,通过在发送端对视频帧中静态背景与动 态前景进行分离,在接收端再对两者进行融合,可以 使得传输负载大幅降低;

(2)针对如何快速分离视频帧中静态背景和动 态前景的问题,提出了一种基于像素值计算的视频 帧背景去除和降噪方法,能够快速地从视频帧中提 取动态前景;

(3)针对如何快速融合视频帧中静态背景和动 态前景的问题,提出了一种基于生成对抗网络的视 频帧生成方法,能够快速地把静态背景和动态前景 融合成视频帧;

(4)在真实数据集上进行了测试,结果表明本文 提出的方法不会丢失对驾驶决策起作用的环境感知 信息,并且能够把传输负载降低 85% 以上.

本文后面的部分安排如下:第 2 节对相关工作 进行了总结;第 3节和第 4节分别对环境图像数据中 静态背景和动态前景的分离方案和融合方案进行描 述;第 5 节对本文方法进行了实验评估,并对实验结 果进行了分析;第 6节对全文进行了总结.

2 相关工作

2. 1 面向无人驾驶的协同环境感知

群智感知是指以普通用户的移动设备作为基本 感知单元,大量感知单元通过移动互联网进行有意 识或无意识的协作,实现感知任务分发与感知数据 收集,完成大规模的、复杂的社会感知任务[2-3]. 群智 感知已经在智慧城市[4]、环境监测[5]、智能交通[6]、公 共安全[7]等领域都有了不少研究工作. 受群智感知 思想的启发,无人驾驶汽车协同环境感知已经开始 受到关注[8],即无人驾驶汽车通过与其他车辆和路 边基础设施共享环境感知数据,使得无人驾驶汽车 的环境感知能力获得提升. 但与传统群智感知问题 不同的地方在于,在无人驾驶汽车协同环境感知场 1 协同感知示意图

(4)

景下,摄像头、激光雷达等传感器带来的数据量更 大,并且无人驾驶汽车对感知数据的实时性和可靠 性有着更为严格的要求,而车联网环境又具有显著 的异构性和动态性,这使得已有的群智感知机制并 不能很好地满足无人驾驶汽车的独特需求.

一些研究人员针对无人驾驶汽车的激光雷达感 知数据提出了不同的压缩技术. 例如,首先将激光雷 达的点云数据组织为二维图像阵列,然后使用传统 图像压缩技术[9]、聚类技术[10]或深度学习技术[11]对 图像进行压缩. 由于基于纯视觉的无人驾驶汽车成 为重要的发展方向,因此本文主要关注以摄像头拍 摄的图像数据作为无人驾驶汽车环境感知信息来源 的应用场景.

对于图像数据,H. 265 编码技术[12]可以利用帧 内预测编码和帧间预测编码来降低视频图像空间冗 余 和 时 间 冗 余,从而实现视频图像的数据压缩.

H. 265 中的编码帧包括 I 帧、P 帧和 B 帧,I 帧为帧内 编码帧,P 帧为当前帧与前一帧(I 帧或 P 帧)的差 别,B 帧为双向预测编码帧. 然而,帧间编码具有依 赖性,一旦 I帧或 P帧在传输过程中出错或丢失都会 导致后续的帧出错,不适用于丢包率较高的车载网 络环境.

本文针对无人驾驶汽车协同环境感知这一应用 场景进行研究,提出了将视频图像中的静态背景与 动态前景相分离的策略,能够大幅降低传输负载,与 已有研究工作[1,8,12]有着显著的不同.

2. 2 视频图像静态背景与动态前景的分离和融合 由于本文提出的传输负载优化方法涉及视频帧 中静态背景与动态前景的分离和融合,以下分别从 这两个方面对相关工作进行总结.

静态背景与动态前景的分离是许多计算机视觉 任务(如目标跟踪、人群分析等)的关键步骤,近年来 深度学习技术被越来越多地应用于这个领域. 文献

[13]使用卷积神经网络从给定的视频序列中进行背 景构造和前景信息提取. 文献[14]考虑了视频的时 间连续性,将三维卷积应用于视频的最新帧,追踪视 频序列的时间变化,实现了端到端的背景减除. 文献

[15]利用多尺度的全卷积网络提升模型学习能力,

大大提高了前景检测准确性. 上述背景减除方案都 仅考虑了前景物体的大致形状,而对前景物体的细 节方面刻画不够精准.

在静态背景与动态前景融合方面,近年来深度 学习技术已被成功应用于图像融合领域,主要包括 红外与可见光图像融合、医学图像融合和多焦点图

像融合等. 文献[16]首次将卷积神经网络引入图像 融合领域,提出了一种可用于多焦点图像融合的卷 积网络,展示了卷积神经网络在图像融合领域中的 潜力. 文献[17]在文献[16]的基础上将卷积神经网 络进一步引入医学图像融合领域,视觉质量和客观 评估方面都可以取得令人满意的结果. 文献[18]将 三维卷积神经网络引入泛锐化处理,生成高分辨率 高光谱图像. 文献[19]在泛锐化问题中引入残差网 络,取得了更好的结果. 文献[20]利用生成对抗网 络[21]的思想处理可见光与红外线的问题,融合的图 像 更 好 地 保 留 了 所 需 的 信 息. 文 献[22]利 用 文 献[23]提出的密集连接卷积神经网络结构进行可见 光与红外线融合,充分利用了中间层所获得的信息.

为了更好地满足多任务的需求,通用的网络模型被 人们提出,在有监督学习和无监督学习方面都取得 了优异的表现. IFCNN[24]是最新提出的通用有监督 图像融合模型,以卷积神经网络为基础. 随着输入图 像的不同,模型可以选择不同的融合规则. 利用预训 练好的Resnet网络[25]良好的特征提取能力和与之相 关的感知损失函数,IFCNN 在不同的任务中获得了 比以往模型更好的表现. DIF[26]是关于通用无监督图 像融合的最新研究成果,为各类缺少标记的无监督 学习任务提供了新的思路. 与IFCNN相同,DIF同样 使用卷积神经网络作为模型构造的基础. 在进行图 像融合的过程中,DIF以生成与高维输入图像具有相 同对比度的输出图像作为目标. 为了使模型的融合 结果保留更多的原始图像细节,DIF将结构张量引入 损失函数,重新考虑了局部对比度的概念. 在定量和 定性评估方面,DIF都优于各类任务的最新技术.

由于在无人驾驶应用场景中环境感知信息的时 效性和准确度要求更高,因此本文提出了更加快速 的静态背景和动态前景的分离与融合方法,更加适 合无人驾驶汽车协同环境感知应用场景.

3 静态背景与动态前景的分离

系统中的信息传输如图2 所示. 路边摄像头将 拍摄到的原始图像发送给路侧单元中的计算模块, 计算模块将前景和背景图像进行分离,通过传输模 块发送给无人驾驶汽车. 无人驾驶汽车将收到的前 景和背景图像通过环境构建模块进行融合,并且结 合自身摄像头拍摄的图像,形成环境感知信息. 根据 这些环境感知信息,驾驶决策模块将做出车辆控制 决策,交由车辆控制模块实施.

(5)

为了降低视频数据的传输负载,本文采用了“动 静分离”的传输方法,即把图像静态背景与动态前景 进行分离,分别进行传输. 图 3 显示了传输每一帧视 频数据的传统方法与动静分离的传输方法的不同.

动静分离的传输方法在初始时传输一次环境图像的 静态背景,之后就仅传输环境图像中动态前景,这样 能够避免静态背景数据的重复传输,从而大幅降低 传输负载.

已有的研究工作[13-15]均需要较长时间的训练和 运行时间. 为了保证环境感知数据处理的实时性,本 文采用了更为高效的静态背景与动态前景分离方 法,步骤如下:

(1)路边摄像头首先拍摄一张视野内无移动物 体时的图像,作为静态背景图像.

(2)由于光照强度会随时间发生变化,摄像头 实时拍摄的图像与之前所拍摄背景图像的光照条件 可能不同. 如果直接进行背景减除,会造成减除背景 后的图像存在较多噪音. 为了降低光照变化对图像 背景减除带来的影响,路侧单元需要对摄像头拍摄

的实时图像与静态背景图像中的每个像素按公式

(1)进行灰度归一化预处理:

x

t=(

x - x

min

x

max- xmin )*255 (1)

其中

x 为本次拍摄的图像像素灰度值,x

min为图像矩 阵中灰度最小值,xmax为图像矩阵中灰度最大值,xt

代表经过灰度归一化预处理后的像素灰度值. 因此 无论图像的光照条件有何不同,处理后的图像灰度 都被统一到[0,255]这个范围内,从而方便进一步 的处理和匹配.

(3)将经过第(2)步处理的背景图像和实时图 像进行相似度比较. 比较的过程为:首先,对背景图 像和实时图像按照相同的规格划分成多个区域,然 后比较对应区域的相似度. 如果两个对应区域相似,

则说明该区域内的图像为背景,因此需要去除该区 域内的图像信息,即将该区域内的像素值都置为 0;

如果两个对应区域不相似,则说明实时图像中该区 域内包含前景物体,因此需要保留. 相似度计算方法 如公式(2)所示:

p = cov ( x,x

b)

σ

x

σ

xb

= Ε [( x - μx)( xb- μxb) ]

σ

x

σ

xb

(2)

σ

x=

i = 1n ( xi- μx)2 (3)

σ

xb=

i = 1n ( xb i- μxb)2 (4)

其中,xb

x 分别是背景图像和实时图像中对应区

域像素矩阵转换成的向量,cov ( x,xb)为两个向量的 协方差,μx

μ

xb分别是

x 和 x

b的均值,σx

σ

xb分别 是

x 和 x

b的标准差. 标准差的计算分别如公式(3)、

公式(4)所示.

使用上述方法后,路边摄像头就可以从拍摄到 的视频帧中快速分离出动态变化的前景图像用于传 输. 与直接传输整个视频帧相比,用这种方法所需传 输的数据量大幅降低,可以有效降低网络负载,并且 提升了环境感知数据的时效性.

4 静态背景与动态前景的融合

无人驾驶汽车收到动态变化的前景图像数据 后,需要把前景图像与背景图像重新融合成完整视 频图像,有助于无人驾驶汽车判断前景图像所代表 物体的相对位置,从而做出正确的驾驶决策.

本文设计了一个基于生成对抗网络(Generative 3 动静分离的传输方法与传统传输方法对比

2 信息传输示意图

(6)

Adversarial Networks,GAN)的前景图像与背景图 像的融合机制. 该机制包括生成模型和判别模型两 个部分,对于判别模型还需设计梯度约束以帮助模 型进行深度学习. 考虑到无人驾驶对时延和精度的 高要求,我们分别从两个方面进行设计:一是利用注 意力机制对关键信息的关注和对噪音的抑制,结合 生成对抗网络的思想帮助提升网络融合精度;二是 利用密集卷积神经网络对特征图的复用,降低网络 的深度,减少融合所需的时间. 结合WGAN-GP[27]的 思路,提出了对抗性背景融合模型:FWGAN.

本文出现的符号如表1所示.

4. 1 生成模型

生成模型模拟了人类视觉对两张透明度不同 图像的叠加过程:背景图像不透明,前景图像透明 度高且空白区域较多. 视觉会将背景图像整体内 容作为基底,忽视前景图像中的空白区域,将其中 的关键信息与背景图像叠加,获得最终视觉效果.

生成模型的结构如图4 所示,分别由 2 个通道注意 力层、1 个空间注意力层、密集连接模块和普通卷 积 层 构 成. 每一个卷积层后使用 ReLu 作为激活 函数.

针对背景图像与前景图像所包含信息量差距较 大的特性,利用通道注意力层 1 和空间注意力层[28]

对输入的双通道图像进行直接处理. 通道注意力层 1 在通道层面给包含信息量更多的背景图像赋予更 大的权重,空间注意力层则对前景图像给予更多的 关注,因此生成模型能够在特征提取过程中将注意 力更快地集中到关键信息. 通道注意力层 1 的结构 如图5所示,空间注意力层的结构如图 6所示.

密集连接模块对提取的特征图进行复用,不仅 帮助降低模型的深度,还通过特征复用给与图像边

缘像素点更多参与计算的机会,拓展有效感知范围,

提升模型的精度. 在卷积计算中,图像边缘像素点参 与运算次数小于图像中央像素点,这会影响融合图 像边缘清晰度. 密集连接模块通过复用多尺度的特 征层,增加了图像边缘像素点参与卷积运算的次数,

增强融合图像清晰度.

通 道 注 意 力 层2 结 合 特 征 图 之 间 的 信 息 依 赖[29],帮助模型对不同阶段获得的特征图进行权重 分配,其结构如图 7所示.

1 本文出现的符号 符号

ri

si

ti

ki

κ λ ρ θ ω δ α

含义

神经网络第i层感受野大小(输入图像作为第0层)

i 卷积层的步长大小 i 卷积层的有效步长 i 卷积层的卷积核大小

生成器对抗性损失和内容性损失平衡系数 内容性损失中的信息损失和结构性损失平衡系数 对真实图像和生成图像采样范围进行插值采样的 系数

判别器梯度的范围 生成器参数 判别器参数

RMSProp优化器参数 梯度

初始值 1 1

1 100 0. 3 1

0. 9

4 生成模型结构图

5 通道注意力层 1结构图 6 空间注意力层结构图

(7)

在通道注意力层2 之后,还需经过 3 个普通卷 积层对特征图做进一步处理,以完成对背景图像和 前景图像的融合.

4. 2 判别模型

上述生成模型需要学习图像数据的深层特征并

能够重构图像;与此不同,FWGAN 的判别模型本 质是一个二分类网络,根据输入图像产生为真或假 的判别结果,对生成模型进行反馈. 判别模型的结构 如图8 所示. 在图像分辨率为 256×256 时,判别器 由6个卷积层构成,卷积核大小均为 4×4,输入层步 长设为4,输出层步长设为 1,中间层步长设为 2. 判 别器最后一个卷积层使用Sigmoid 作为激活函数来 完成二分类任务,其余卷积层均使用 LeakyReLu 激 活函数,这是因为 LeakyReLu 函数能够帮助判别模 型更好地学习数据特征[30].

判别模型中卷积层的数量由感受野的大小决 定. 感受野是指输入中对当前层产生影响的区域大 小[31],计算方式如公式(5)所示.

r

i=( ki- 1)*si+ ri - 1 (5)

s

i= si - 1*ti (6)

公式(6)为有效步长计算计算公式,其中 ri为第

i 层感受野的大小,输入层是第 1层,初始 r

01;si为 第

i 层的有效步长,初始 s

01;ki为第

i 卷积层的卷

积核大小;ti为第

i 层卷积层步长的大小.

在图像分辨率为256×256 时,可以计算得出感 受野大小为376×376. 由于输入图像像素小于感受 野的大小,所以判别模型是合理的. 在图像分辨率为 128×128 和 512×512 的情况下,判别模型中卷积层 的数量分别为5和 7.

4. 3 损失函数

FWGAN 的损失函数包括生成模型的损失函 数

L

G和判别模型的损失函数

L

D两部分.

生成模型的损失函数

L

G反映了生成模型的训 练目标,其中包括如公式(7)所示的两部分:

L

G= VFWGAN(G )+ κLcontent (7)

V

FWGAN(G )为生成模型和判别模型之间的对抗

性损失,计算方法如公式(8)所示:

V

FWGAN(G )= min (-

xˉ~Pg [ D( xˉ ) ] ) (8)

其 中,xˉ 为所得融合图像样本域 Pg的 随 机 采 样,

D( xˉ )为判别模型对融合图像采样的判别结果.

L

content表示融合图像和真实图像的内容性损失

差异,参数 κ 用于平衡对抗性损失和内容性损失. 内 容性损失包括图像信息损失和结构性损失两部分, 如公式(9)所示:

L

content= Lpixel+ λLssim (9)

L

pixel代表融合图像和真实图像的像素差,作为

衡量图像整体损失的指标;Lssim代表融合图像和真 实图像的结构性差异[32],作为衡量图像结构性损失 的指标. 参数 λ 用于平衡信息损失和结构性损失.

L

pixel

L

ssim的定义如公式(10)和(11)所示:

L

pixel=i = 1,j= 1

n ( xˉi,j- xi,j)2 (10)

L

ssim= 1- (2μx

μ

xˉ+ c1)(2σxxˉ+ c2)

( μx2+ μxˉ2+ c1)( σx2+ σxˉ2+ c2) (11)

其中,x 为真实图像样本域 Pr的随机采样;公式(10)

,xˉi,j为融合图像

x

ˉ 在点( i,j)处的像素大小,xi,j为 真实图像

x 在点( i,j)处的像素大小,n 为图像大小;

公式(11)中 μx、μxˉ分别为

x 和 x

ˉ 的平均值,c1

c

2是 用来维持稳定的常数.

判别模型的损失函数

L

D反映了判别模型的训 练目标,其定义如公式(12)所示:

L

D= min ( Exˉ~Pg

[ D ( x

ˉ

) ]

- Ex~Pr

[ D ( x ) ]

+θEx̂ ~P[(|

|

D ( x

̂

) |

|2- 1)2] ) (12)

其中,x̂ 为融合图像与真实图像之间区域的随机插 7 通道注意力层 2结构图

8 判别模型结构图

(8)

值采样,如公式(13)所示:

x

̂ = ρx +

(

1- ρ

) x

ˉρ∈ uniform

[

0,1

]

(13)

θ E

x̂ ~P

r [(|

|

D ( x

̂

) |

|2- 1)2为梯度惩罚项,将判别模 型梯度约束在固定范围,以保证训练的稳定.

4. 4 训练流程

在WGAN[33]中,批归一化(Batch Normalization)[34]

被用来帮助网络的训练. 通过加入可训练参数对数 据进行批归一化处理,可以规范神经网络层的输入 分布,从而加快神经网络的训练速度. 但是,批归一 化将判别模型问题的形式从单个输入映射到单个输 出更改为一批输入映射到一批输出. 公式(12)中的 梯度惩罚项要求对每个样本独立地施加梯度惩罚, 与批归一化的批量处理方案冲突. 因此在判别模型 中批归一化层无法使用. 在优化算法的选择方面,实 验证明RMSProp 算法能够比 WGAN-GP[27]所使用 的Adam 算法取得更好的结果,因此本文选择了 RMSProp算法. 训练流程如算法 1所示.

算法1. FWGAN 算法.

输入:前景图像样本 x,真实样本 x,背景图像样本 xt b,内 容损失系数λ,梯度约束项系数 θ,参数为 ω的生成 模 型Gω,参 数 为 δ 的 判 别 模 型 Dδ,学 习 率 l,

RMSProp超参α,批处理大小m,判别器更新次数n 输出:判别器分类结果

1. WHILE ω has not converged DO 2. FOR t = 1,. . .,n DO 3. FOR i = 1,. . .,mDO 4. get background picture xb~Pb

5. get foreground picture xt~Pt

6. get real picture x~Pr

7. get a random number ρ∈ uniform

[

0,1

]

8. xˉ ← Gω

(

xtxb

)

9. x̂ ← ρx +

(

1- ρ

)

xˉ

10. LD←[ Dδ(xˉ)- Dδ(x)+ θ(|

|

Dδ(x̂)

|

|2- 1)2] 11. END FOR

12. δ ← RMSPRop

(

δm1

i = 1m LDδ,l,α

)

13. END FOR

14. ω←RMSPRop

(

ωm1

i=1m-Dδ

(

Gω

(

xtxb

) )

ω,l,α

)

15. END WHILE

5 性能评估

5. 1 实验设置

本文使用NVIDIA 公司发布的 CityFlow[35]

据集作为训练和测试用数据集,其中共包含 15 种 不同场景. 训练集包含 43264 张图像,测试集包含 1952 张图像,分别采用分辨率为 128×128、256×

256 和 512×512 三 种 图 像 尺 寸 对 模 型 性 能 进 行 验证.

在模型训练过程中,使用 RMSProp 作为模型优 化器. 设置衰减为 0. 9,学习率为 0. 001,每一个批次 大小

m=16. 生成模型损失函数中的 λ 取值范围较

广,较大的 λ 取值能够帮助更快的收敛. 实验中将 λ 取值设置为100,能够帮助实验取得较好的结果. 判 别模型的

θ 取值为 1.

实 验 中,以具有 16GB 内存的 Intel Core 7700 CPU 作为路侧单元配置,以 Tesla T4 16G RAM 和 Intel Xeon Gold 6230作为车辆单元配置.

5. 2 实验结果与分析

5. 2. 1 图像分离与融合的视觉效果对比

图9 展示了对视频帧中的静态背景和动态前景 进行分离和融合的视觉效果. 图 9(a)是真实的拍摄 图像(包含前景与背景);图 9(b)是真实的拍摄图像

(只包含背景);图 9(c)是子图(a)减子图(b)后提取 出的前景图像;图 9(d)是使用本文方法将子图(b)

与子图(c)融合形成的图像;图 9(e)是不使用生成 对抗网络融合出的图像;图 9(f)是使用有监督学习 算法IFCNN[24]融合得到的图像;图 9(g)是使用无监 督学习算法DIF[26]融合得到的图像.

通过对比图9(a)和图 9(d)可以看到,使用本文 方法融合前景与背景得到的图像与原始图像在视觉 效果上极为接近,对于图 9(d)中黑色圆框标记的远 处物体也能够很好地还原出来,使得对驾驶决策有 影响的环境信息不被丢失.

通过对比图9(d)和图 9(e)可知,如果不使用生 成对抗网络,融合得到的图像中车辆轮廓仍然完整,

对阴影部分的拟合效果也较好,但对于黑色圆框标 记的远处物体清晰度差于生成对抗网络的表现. 说 明本文方法使用生成对抗网络对于提升图像融合效 果有帮助.

通过对比图9(d)和图 9(f)可知,IFCNN 对背景 的拟合较好,但对从动态前景图像融合的效果较差,

圆框标记的远处物体也没有能够恢复出来,不利于 无人驾驶汽车从融合得到的图像中进行环境物体 识别.

通过对比图9(d)和图 9(g)可知,DIF 融合得到 的图像中,静态背景和动态前景都不够清晰,会对无 人驾驶汽车的环境感知造成不利影响.

(9)

为了验证不同光照条件下本文提出的背景减除 方法的有效性,在实验中还选取了路边摄像头夜间 拍摄的图像进行了测试. 图 10(a)是夜间条件下包 括前景与背景的图像,图 10(b)是夜间条件下只包

含 背 景 的 图 像,图 10(c)是 从 图 10(a)中 去 除 图10(b)得到的前景图像. 从图 10中可以看出,本文 提出的背景去除方法能够适应较大范围的光照条 件,具有较好的通用性.

5. 2. 2 前景物体保留率

根据本文提出的方法,视频图像需要经过静态 背景与动态前景的分离与融合. 在这个过程中,如果 出现重要前景物体丢失的情况,则可能会对无人驾 驶汽车的安全行驶造成不利影响,因此需要对动态 前景物体的保留率进行测试与统计.

在路边摄像头拍摄的画面中(如图 11 所示),

画面下方区域距离摄像头较近,其中的前景物体较 大且相对清晰;画面上方区域距离摄像头较远,其 中的前景物体较小且相对模糊. 因此将视频图像分 为两个区域:将图像上方四分之一的区域称为“远 区域”,将图像下方四分之三的区域称为“近区域”.

其中,近区域前景物体对于无人驾驶汽车的驾驶决 策影响更大,远区域前景物体的影响则较小,因此

a)是真实的拍摄图像

(包含前景与背景)

(b) 是真实的拍摄图像

(只包含背景)

(c) 是从(a)中去除(b)后得到 的前景图像

(d) 是使用本文方法将(b)与

c)融合形成的图像

(e)是不使用生成对抗 网络融合得到的图像

(f)是使用文献[24]中的有监 督学习算法IFCNN 融合得到

的图像

g)是使用文献[26]中的无监 督学习算法DIF融合得到的

图像 9 图像分离与融合对比示例

a)是真实的拍摄图像

(包含前景与背景)

b)是真实的拍摄图像

(只包含背景)

c)是从(a)中去除(b)后得到的 前景图像

10 夜间光照条件下的背景去除示例

(10)

分别对近区域和远区域内前景物体的保留率分别 进行统计.

经统计,如图 12 所示,在使用本文方法对视频 图像进行背景与前景分离和融合后,近区域的前景 物体保留率为100%,远区域的前景物体保留率约 为83. 3%. 由此可见,本文方法能够保证近区域内 的前景物体不会出现丢失,从而能够保证无人驾驶 汽车环境感知的可靠性. 远区域前景物体虽然有 17% 左右的丢失率,但由于距离无人驾驶汽车较 远,不会对车辆的安全行驶造成不利影响.

5. 2. 3 传输负载

按照传统的传输方法,路边摄像头不会对拍摄 的图像进行处理,直接把类似于图 9(a)的每个视频 帧向无人驾驶汽车进行传输. 而本文提出的方法在 图9(a)所示的视频帧中去除如图 9(b)所示的静态 背景,提取得到如图 9(c)所示的动态前景. 在生成 的前景图像中,除了前景物体部分,背景部分都具有

相同的像素值(值为 0).使用 JPEG 格式存储这种前 景图像时,能够有效压缩图像文件的大小,从而降低 传输前景图像的数据量. 因此,使用本文方法传输协 同环境感知数据时,将首先传输如图 9(b)所示的静 态 背 景 一 次,之 后 对 于 每 个 视 频 帧,仅 传 输 如 图9(c)所示的动态前景图像,使得传输负载大幅 降低.

实验中,图像尺寸为 256×256 时,每帧原始图 像与每帧背景图像的大小约为50 KB,而去除背景 的前景图像平均大小约为7 KB,如图 13所示.

由于道路监控摄像头的拍摄覆盖距离通常为 200 米,假设道路被路边摄像头完全覆盖,则路边至 少每200 米就有一个摄像头. 若无人驾驶汽车以 20 米/秒的速度行驶,则每个摄像头为该车辆的服 务时间为10 秒. 当路侧单元以 10 帧/秒的速率向无 人驾驶汽车传输图像时,则在服务时间内一共需要 传输100 帧视频图像. 若直接传输原始图像,传输的 数据量为50 KB×100=5000 KB;而使用本文方法 的传输数据量为50 KB+7 KB×100=750 KB,仅 为5000 KB 的 15%. 若服务时间内路侧单元向无人 驾驶汽车传输更多的视频帧,使用“动静分离”的方 法将使传输负载降低的比例更大. 因此,本文方法能 够将传输负载降低85% 以上.

5. 2. 4 感知信息处理时间

按照本文的方法,一帧视频图像从拍摄完成到 交付给无人驾驶汽车的环境构建模块需要经历三个 阶段,分别是前景与背景分离阶段、前景图像传输阶 段、前景与背景融合阶段.

在分离阶段,对于尺寸为 256×256 的图像,对 一 帧 图 像 进 行 前 景 与 背 景 分 离 所 需 的 时 间 约 为 12 近区域与远区域的前景物体保留率

13 图像文件的大小对比 11 视频图像近区域与远区域划分示意图

(11)

4. 6 ms,而已有研究工作[13-15]对一帧图像进行背景 去除所需的时间一般在50 ms以上.

在传输阶段,若使用车辆专用短程通信技术

(DSRC)进行传输,传输速率为 6 Mbps,那么传输一 帧前景图像所需的时间约为9. 3 ms;而传输一帧未 经处理的原始图像所需时间约为66. 7 ms.

在融合阶段,使用 FWGAN 将前景与背景融合 成一帧图像所需的时间为4. 6 ms. 由此可知,使用 本文方法处理感知信息时,一帧图像在三个阶段共 需耗时18. 5 ms,约为传统方法的 27. 7%(如图 14所 示). 从上述结果可以看出,本文方法能够有效降低 环境感知信息处理时间,更能满足无人驾驶汽车对 环境感知的实时性要求.

5. 2. 5 图像融合质量的定量分析

本文对融合得到的图像与原始图像进行对比, 用于评估模型融合表现的指标包括:

(1)衡量图像结构相似度的 SSIM 指数,该指 数 的 值 越 接 近 1 说 明 融 合 图 像 与 原 始 图 像 越 相似;

(2)衡量图像失真程度的 UQI[36]指数,该指数 的值越大说明图像失真程度越低;

(3)基于视觉信息保真度提出的衡量融合图 像 质 量 的 指 标VIFF[37],值 越 大 说 明 融 合 表 现 越好;

(4)衡量融合图像与原始图像相似程度的皮尔 逊 相 关 系 数(Pearson correlation coefficient,

PCC)[38],该数值越大说明图像融合效果越好

以上几类指标完整地考虑了融合图像保留细节 信息、结构信息及失真效果的能力.

以下实验中分别对比了本文方法(FWGAN)、

本文方法但不使用生成对抗网络(FW-Net)、基于 有监督学习的IFCNN[24]、基于无监督学习的 DIF[26]

这四种方法在上述指标上的表现.

对于SSIM 指标(如图 15 所示),在图像分辨 率 为 128×128 时,FW-Net 的 融 合 表 现 最 好,

FWGAN 的 表 现 次 于 FW-Net,都 高 于 DIF 和 IFCNN;在 图 像 分 辨 率 为 256×256 和 512×512 时,FWGAN 和 FW-Net 的融合表现近似,仍明显 优于DIF 和 IFCNN,说明本文所提出的方案(无论 是否使用对抗思想)在保持图像整体结构方面具有 优势.

对于UQI指标(如图 16所示),在三种图像分辨 率下,FWGAN 的表现略优于 FW-Net,FWGAN 和 FW-Net 的表现明显优于另外两种方案,说明本文 提出的方案融合图像时能够达到更低的失真程度, 14 感知信息处理时间对比

16 在 UQI指标上的对比 15 在 SSIM 指标上的对比

(12)

在使用对抗思想的情况下达到最优.

对于VIFF 指标(如图 17 所示),在图像分辨率 为128×128 时,FWGAN 的表现优于 FW-Net;三 种图像分辨率下,FWGAN 和 FW-Net 均优于另外 两种方案,说明本文提出的方案能获得较高的视觉 信息保真度,在使用对抗思想时达到最优.

对于PCC 指标(如图 18 所示),在图像分辨率 为128×128 时,FWGAN 的表现最好,FW-Net 的 表现与FWGAN 近似;在图像分辨率为 256×256 时,FWGAN 的表现明显优于 FW-Net. 在三种图像 分辨率的情况下,FWGAN 和 FW-Net 的融合表现 均优于另外两种方案.

综合考虑上述四种指标可以得出结论:本文提 出的方法具有最佳的融合图像质量. 与 IFCNN 和 DIF 方法相比,FWGAN 更充分地考虑了背景图像 和前景图像的数据特性,利用注意力机制对关键信

息赋予更高的权重,因此更适合无人驾驶汽车进行 环境感知.

6 总 结

协同环境感知对于无人驾驶技术的发展具有 重要意义,但是受到网络容量的制约. 本文提出了 一种协同环境感知信息的传输负载优化方法,通过 把视频帧中的静态背景和动态前景相分离,可以使 静态背景在初始时只传输一次,之后仅需传输动态 前景数据,达到了大幅降低传输负载的目的. 无人 驾驶汽车使用生成对抗网络将动态前景与静态背 景重新融合成视频帧,并能够基于视频帧反映出的 行车环境信息做出正确的驾驶决策. 在真实数据集 上的实验证明了本文提出方法的有效性,能够促进 面向无人驾驶汽车的协同环境感知技术的进一步 发展.

参 考 文 献

[1] Hobert L, Festag A, Llatser I, et al. Enhancements of V2X communication in support of cooperative autonomous driving.

IEEE Communications Magazine,2015,53(12):64-70

[2] Ma H, Zhao D, Yuan P. Opportunities in mobile crowd sensing. IEEE Communications Magazine,2014,52(8):29-35

[3] Guo B, Wang Z, Yu Z, et al. Mobile crowd sensing and computing:the review of an emerging human-powered sensing paradigm. ACM Computing Surveys,2015,48(1):1-31

[4] Wang J,Wang Y,Zhang D,et al. Crowd-powered sensing and actuation in smart cities:current issues and future directions.

IEEE Wireless Communications,2019,26(2):86-92

[5] Vahdat-Nejad H, Asef M. Architecture design of the air pollution mapping system by mobile crowd sensing. IET Wireless Sensor Systems,2018,8(6):268-275

[6] Qiu H,Chen J,Jain S,et al. Towards robust vehicular context sensing. IEEE Transactions on Vehicular Technology, 2018,

67(3):1909-1922

[7] Simoens P,Xiao Y,Pillal P,et al. Scalable crowd-sourcing of video from mobile devices//Proceedings of ACM MobiSys,

Taipei,China,2013:139-152

[8] Wei S, Yu D, Guo C, et al. Survey of connected automated vehicle perception mode:from autonomy to interaction. IET Intelligent Transport Systems,2019,13(3):495-505

[9] Beek P V. Image-based compression of LiDAR sensor data.

Electronic Imaging,2019,43(7):1-7

[10] Sun X,Ma H,Sun Y,et al. A novel point cloud compression algorithm based on clustering. IEEE Robotics and Automation Letters,2019,4(2):2132-2139

[11] Tu C,Takeuchi E,Carballo A,et al. Point cloud compression 17 在 VIFF指标上的对比

18 在 PCC指标上的对比

(13)

for 3D LiDAR sensor using the recurrent neural network with residual blocks//Proceedings of the IEEE International Conference on Robotics and Automation,Montreal, Canada,

2019:3274-3280

[12] Sullivan G, Ohm J, Han W, et al. Overview of the high- efficiency video coding(HEVC)standard. IEEE Transactions on Circuits & Systems for Video Technology, 2013, 22(12):

1649-1668

[13] Babaee M, Dinh D, Rigoll G. A deep convolutional neural network for video sequence background subtraction. Pattern Recognition,2018,76:635-649

[14] Sakkos D,Liu H,Han J,et al. End-to-end video background subtraction with 3D convolutional neural networks. Multimedia Tools Applications,2018:23023-23041

[15] Zeng D,Zhu M. Background subtraction using multiscale fully convolutional network. IEEE Access,2018,6:16010-16021

[16] Liu Y,Chen X,Peng H,et al. Multi-focus image fusion with a deep convolutional neural network. Information Fusion, 2017,

36:191-207

[17] Liu Y,Chen X,Cheng J,et al. A medical image fusion method based on convolutional neural networks//Proceedings of the 20th International Conference on Information Fusion, Xi'an,

China,2017:1-7

[18] Giuseppe M, Davide C, Luisa V, et al. Pansharpening by convolutional neural networks. Remote Sensing, 2016,

8(7):594

[19] Rao Y, He L, Zhu J. A residual convolutional neural network for pan-shaprening//Proceedings of the International Workshop on Remote Sensing with Intelligent Processing (RSIP),

Shanghai,China,2017:1-4

[20] Ma J, Yu W, Liang P, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion.

Information Fusion,2019,48:11-26

[21] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks. Advances in Neural Information Processing Systems,2014,3:2672-2680

[22] Li H, Wu X. DenseFuse:a fusion approach to infrared and visible images. IEEE Transactions on Image Processing,2019,

28(5):2614-2623

[23] Huang G, Liu Z, Laurens V, et al. Densely connected convolutional networks//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,USA,

2017:2261-2269

[24] Zhang Y,Liu Y,Sun P,et al. IFCNN:A general image fusion framework based on convolutional neural network. Information Fusion. 2020,54:99-118

[25] He K,Zhang X,Ren S,et al. Deep residual learning for image recognition. //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA,

2016:770-778

[26] Jung H,Kim Y,Jang H,et al. Unsupervised deep image fusion with structure tensor representations. IEEE Transactions on Image Processing,2020,19:3845-3858

[27] Gulrajani I,Ahmed F,Arjovsky M,et al. Improved training of wasserstein GANs//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach,USA,2017:5769-5779

[28] Woo S, Park J, Lee J, et al. CBAM:convolutional block attention module//Proceedings of the European Conference on Computer Vision. Munich,Germany,2018:3-19

[29] Wang Q, Wu B, Zhu P, et al. ECA-Net:efficient channel attention for deep convolutional neural networks//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2020:11534-11542

[30] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks//Proceedings of the International Conference on Learning Representations,San Juan,Puerto Rico,2016

[31] Luo W, Li Y, Urtasun R, et al. Understanding the effective receptive field in deep convolutional neural networks//

Proceedings of the 30th International Conference on Neural Information Processing Systems, Barcelona, Spain, 2016:

4905-4913

[32] Wang Z,Bovik A,Sheikh H,et al. Image quality assessment:

from error visibility to structural similarity. IEEE Transactions on Image Processing,2004,13(4):600-612

[33] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN//

Proceedings of the 34th International Conference on Machine Learning. Sydney,Australia,2017:214-223

[34] Ioffe S, Szegedy S. Batch normalization:accelerating deep network training by reducing internal covariate shift//

Proceedings of the 32nd International Conference on Machine Learning,Lille,France,2015:1-9

[35] Zheng T, Naphade M, Liu M, et al. CityFlow:a city-scale benchmark for multi-target multi-camera vehicle tracking and re-identification//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Long Beach,USA,

2019:8789-8798

[36] Hossny M, Nahavandi S, Creighton S. Information measure for performance of image fusion. Electronics Letters,2008,44

(18):1066-1067

[37] Han Y,Cai Y,Cao Y,et al. A new image fusion performance metric based on visual information fidelity. Information Fusion,

2013,14(2):127-135

[38] Wu W, Xu Y. Correlation analysis of visual verbs' subcategorization based on Pearson’s correlation coefficient//

Proceedings of the International Conference on Machine Learning and Cybernetics,Qingdao,China,2010:2042-2046

(14)

LV Pin, Ph. D., associate researcher. His research interest include wireless networks and crowd sensing.

LI Kai, M. S. candidate. His research interest include artificial intelligence and crowd sensing.

XU Jia, Ph. D., associate professor. Her research interest include big data analysis and processing.

LI Tao-Shen, Ph. D., professor. His research interest include wireless networks and cooperative computing.

CHEN Ning-Jiang, Ph. D., professor. His research interest include software engineering and cooperative computing.

Background

Automated driving is a current research hot-spot in the world. Due to the limitation of sensors, blind sensing area is inevitable for automated vehicles. Hence, cooperative environment sensing is an effective way to eliminate the blind sensing area and improve the safety of automated driving.

Among all kinds of environmental sensing information, the video captured by camera occupies the most important position. However, video frames contain a large amount of data. Transmitting each video frame leads to heavy network load and increased transmission delay, which affects the timeliness of environmental sensing information. In this paper,

a video transmission load optimization method is proposed.

The main idea of the method is the transmitter separates the dynamic foreground from the static background in the video frame, and transmits the static background once at the beginning and only dynamic foreground in the following

transmissions, which reduces the transmission load greatly.

Using the generative adversarial network, the automated vehicle fuses the static background and dynamic foreground into video frames and then makes the correct driving decision based on the driving environment reflected by the video frames. Through the performance evaluation on the real data set, it can be seen that the method proposed in this paper can reduce the transmission load by over 85% without being lost in the environmental sensing information, which lays the foundation for the promotion and application of cooperative environment sensing for automated vehicles.

This work is supported in part by the National Natural Science Foundation of China (NSFC) under Grant Nos.

62062008 and 62062006, the special funds for Guangxi BaGui Scholars, the Guangxi Natural Science Foundation under Grant Nos. 2018JJA170194, 2018JJA170028, and 2019JJA170045.

參考文獻

相關文件

Let f being a Morse function on a smooth compact manifold M (In his paper, the result can be generalized to non-compact cases in certain ways, but we assume the compactness

To stimulate creativity, smart learning, critical thinking and logical reasoning in students, drama and arts play a pivotal role in the..

 Promote project learning, mathematical modeling, and problem-based learning to strengthen the ability to integrate and apply knowledge and skills, and make. calculated

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

Define instead the imaginary.. potential, magnetic field, lattice…) Dirac-BdG Hamiltonian:. with small, and matrix

Monopolies in synchronous distributed systems (Peleg 1998; Peleg

Corollary 13.3. For, if C is simple and lies in D, the function f is analytic at each point interior to and on C; so we apply the Cauchy-Goursat theorem directly. On the other hand,

Corollary 13.3. For, if C is simple and lies in D, the function f is analytic at each point interior to and on C; so we apply the Cauchy-Goursat theorem directly. On the other hand,