深度学习在视频对象分割中的应用与展望

(1)

书书书

第４４卷　第３期

２０２１年３月计　　算　　机　　学　　报

ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ ^Ｖ ^ｏ ^ｌ ^． ^４ ^Ｍ ^４Ｎ ^ａ ^ｒ ^． ^２ ^ｏ ^０ ^． ^２ ^３ ^１

收稿日期：２０１９０６０３^；在线发布日期：２０２００１１７．本课题得到国家自然科学基金（６１６０５０５４^，６１７０２２０７^）^、国家科技支撑计划项目

（２０１５ＢＡＫ３３Ｂ０２^，２０１５ＢＡＫ２７Ｂ０２^）^、华中师范大学中央高校基本科研业务费（ＣＣＮＵ１９ＱＤ００７^，ＣＣＮＵ１９ＴＤ００７^）资助．陈　^加，博士，主要研究方向为视频图像分析、三维运动捕捉、ＶＲ^／ＡＲ^、机器人视觉．Ｅｍａｉｌ^：Ｊａｃｋｙ＿ＨＩＴ＠ｆｏｘｍａｉｌ．ｃｏｍ．^陈亚松，硕士研究生，主要研究方向为视频对象分割、计算机视觉．^李伟浩，博士研究生，主要研究方向为视频对象分割、计算机视觉．^田　^元，博士，主要研究方向为视频图像分析．刘　^智（通信作者），博士，副教授，主要研究方向为深度学习、人工智能．Ｅｍａｉｌ^：ｚｈｉｌｉｕ＠ｍａｉｌ．ｃｃｎｕ．ｅｄｕ．ｃｎ．何　^英，博士，主要研究方向为图形图像处理、机器人视觉．

深度学习在视频对象分割中的应用与展望

陈　 ^加

^１^）

　 ^陈亚松

_１_）^１^）

^李伟浩

^２^）

^田　 ^元

^１^）

^刘　 ^智

^３^）

^何　 ^英

^４^）

（华中师范大学教育信息技术学院　武汉　４３００７９^）

２^）（海德堡大学视觉学习实验室　海德堡６９１２０　德国^）

３）（华中师范大学教育大数据应用技术国家工程实验室　武汉　４３００７９^）

４^）（清华大学深圳研究生院　广东深圳　５１８０５５^）

摘

　

^要

　视频对象分割是指在给定的一段视频序列的各帧图像中

^，

找出属于特定前景对象的所有像素点位置区域．随着硬件平台计算能力的提升

，

深度学习受到了越来越多的关注

，

在视频对象分割领域也取得了一定的进展．

本文首先介绍了视频对象分割的主要任务

，

并总结了该任务所面临的挑战．其次

，

对开放的视频对象分割常用数据集进行了简要概述

，

并介绍了通用的性能评估标准．接着

，

综述了视频对象分割的研究现状

，

详细地分析了当前的各种方法

，

并将它们划分为三大类

：

半监督的方法

，

即给出视频第一帧图像中感兴趣对象的详细人工真值标注

，

分割出视频剩余图像中的感兴趣对象

；

无监督的方法

，

即不给任何人工标注信息

，

自动识别并分割出视频中的前景对象

；

交互式的方法

，

即在分割过程中

，

通过人工交互式的参与

，

结合粗略的人工标注先验信息

，

进行视频对象分割．

第三类方法的条件相当于前两者的折中

：

相对于第一类方法

，

它虽然需要人工的参与

，

但只需要少量的标注工作量

；

相对于第二类方法

，

它给视频序列中某些帧的图像适当地添加了一些人工标注信息

，

从而更具针对性．最后

，

对深度学习在视频对象分割任务中的应用

，

进行了总结和展望．

关键词

　视频对象分割

^；

深度学习

；

半监督方法

；

无监督方法

；

交互式方法

中图法分类号

ＴＰ３９１　　　犇犗犐

^号

１０．１１８９７

^／

ＳＰ．Ｊ．１０１６．２０２１．００６０９

犃狆狆犾犻犮犪狋犻狅狀犪狀犱犘狉狅狊狆犲犮狋狅犳犇犲犲狆犔犲犪狉狀犻狀犵犻狀犞犻犱犲狅犗犫犼犲犮狋犛犲犵犿犲狀狋犪狋犻狅狀

ＣＨＥＮＪｉａ

^１^）

　ＣＨＥＮＹａ  Ｓｏｎｇ

^１^）

　ＬＩＷｅｉ  Ｈａｏ

^２^）

　ＴＩＡＮＹｕａｎ

^１^）

　ＬＩＵＺｈｉ

^３^）

　ＨＥＹｉｎｇ

^４^）

１）（犇犲狆犪狉狋犿犲狀狋狅犳犈犱狌犮犪狋犻狅狀犪狀犱犐狀犳狅狉犿犪狋犻狅狀犜犲犮犺狀狅犾狅犵狔^，犆犲狀狋狉犪犾犆犺犻狀犪犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋狔^，犠狌犺犪狀　４３００７９^）

２^）（犞犻狊狌犪犾犔犲犪狉狀犻狀犵犔犪犫^，犎犲犻犱犲犾犫犲狉犵犝狀犻狏犲狉狊犻狋狔^，犎犲犻犱犲犾犫犲狉犵　６９１２０　犌犲狉犿犪狀狔^）

３）（犖犪狋犻狅狀犪犾犈狀犵犻狀犲犲狉犻狀犵犔犪犫狅狉犪狋狅狉狔犳狅狉犈犱狌犮犪狋犻狅狀犪犾犅犻犵犇犪狋犪^，犆犲狀狋狉犪犾犆犺犻狀犪犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋狔^，犠狌犺犪狀　４３００７９^）

４）（犌狉犪犱狌犪狋犲犛犮犺狅狅犾犪狋犛犺犲狀狕犺犲狀^，犜狊犻狀犵犺狌犪犝狀犻狏犲狉狊犻狋狔^，犛犺犲狀狕犺犲狀^，犌狌犪狀犵犱狅狀犵　５１８０５５^）

犃犫狊狋狉犪犮狋　Ｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎｒｅｆｅｒｓｔｏｔｈｅｔｅｃｈｎｏｌｏｇｙｂｙｗｈｉｃｈｔｈｅｐｏｓｉｔｉｏｎｓｏｆａｌｌｐｉｘｅｌｓｂｅｌｏｎｇｉｎｇｔｏｔｈｅｐａｒｔｉｃｕｌａｒｆｏｒｅｇｒｏｕｎｄｏｂｊｅｃｔｓｉｎｅａｃｈｆｒａｍｅｏｆａｇｉｖｅｎｖｉｄｅｏｓｅｑｕｅｎｃｅｃａｎｂｅｆｏｕｎｄｏｕｔａｎｄｌａｂｅｌｅｄ．Ｔｈｉｓｔｅｃｈｎｏｌｏｇｙｉｓｏｎｅｏｆｔｈｅｍｏｓｔｉｍｐｏｒｔａｎｔｒｅｓｅａｒｃｈｔｏｐｉｃｓｉｎｔｈｅｆｉｅｌｄｏｆｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．Ａｎｄｉｔｐｌａｙｓａｎｉｍｐｏｒｔａｎｔｒｏｌｅｉｎｍａｎｙａｐｐｌｉｃａｔｉｏｎｓｏｆｃｏｍｐｕｔｅｒｖｉｓｉｏｎ ^，ｓｕｃｈａｓ３Ｄｒｅｃｏｎｓｔｒｕｃｔｉｏｎ ^，ａｕｔｏｍａｔｉｃｄｒｉｖｉｎｇ ^，ｖｉｄｅｏｅｄｉｔｉｎｇ ^，ａｎｄｓｏｏｎ．Ｗｉｔｈｔｈｅｉｍｐｒｏｖｅｍｅｎｔｏｆｃｏｍｐｕｔｉｎｇｐｏｗｅｒ ^，ｄｅｅｐｌｅａｒｎｉｎｇｈａｓａｔｔｒａｃｔｅｄｍｏｒｅａｎｄｍｏｒｅａｔｔｅｎｔｉｏｎａｎｄｍａｄｅｓｉｇｎｉｆｉｃａｎｔｐｒｏｇｒｅｓｓｉｎｔｈｅｔａｓｋｏｆｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ．Ｆｉｒｓｔｌｙ ^，ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｍａｉｎｔａｓｋｏｆｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎａｎｄｓｕｍｍａｒｉｚｅｓｔｈｅｍａｉｎｃｈａｌｌｅｎｇｅｓｔｈａｔｔｈｅｔａｓｋｉｓｆａｃｉｎｇ．Ｓｅｃｏｎｄｌｙ ^，ａｂｒｉｅｆｏｖｅｒｖｉｅｗｏｆｔｈｅｏｐｅｎｄａｔａｓｅｔｓｆｏｒｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎｔａｓｋｉｓｇｉｖｅｎ．Ｔｈｅｎｔｈｅｒｅｌｅｖａｎｔ

《计

算机

学报

》

(2)

ｂｅｎｃｈｍａｒｋｓａｎｄｃｏｍｍｏｎｐｅｒｆｏｒｍａｎｃｅｅｖａｌｕａｔｉｏｎｃｒｉｔｅｒｉａａｒｅｉｎｔｒｏｄｕｃｅｄ．Ｔｈｉｒｄｌｙ ^，ｔｈｅｒｅｓｅａｒｃｈｓｔａｔｕｓｏｆｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎｉｓｓｕｍｍａｒｉｚｅｄ．Ｔｈｅｒｅｌｅｖａｎｔｍｅｔｈｏｄｓａｒｅｉｎｔｒｏｄｕｃｅｄａｎｄａｎａｌｙｚｅｄｉｎｄｅｔａｉｌ．Ａｎｄｔｈｅｓｅｍｅｔｈｏｄｓｆａｌｌｉｎｏｎｅｏｆｔｈｅｔｈｒｅｅｆｏｌｌｏｗｉｎｇｃａｔｅｇｏｒｉｅｓ ^：ｔｈｅｆｉｒｓｔｏｎｅｓａｒｅｓｅｍｉ  ｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｓ．Ｎａｍｅｌｙ ^，ｔｈｅｄｅｔａｉｌｅｄａｒｔｉｆｉｃｉａｌｔｒｕｔｈａｎｎｏｔａｔｉｏｎｏｆｔｈｅｉｎｔｅｒｅｓｔｅｄｏｂｊｅｃｔｓｉｎｔｈｅｆｉｒｓｔｆｒａｍｅｉｍａｇｅｏｆｖｉｄｅｏｓｅｑｕｅｎｃｅｉｓｇｉｖｅｎ．Ａｎｄｔｈｅｉｎｔｅｒｅｓｔｅｄｏｂｊｅｃｔｓｉｎｔｈｅｒｅｍａｉｎｉｎｇｖｉｄｅｏｓｅｑｕｅｎｃｅｆｒａｍｅｓａｒｅｓｅｇｍｅｎｔｅｄａｕｔｏｍａｔｉｃａｌｌｙ．Ａｔｐｒｅｓｅｎｔ ^，ｉｎｔｈｅｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎｔａｓｋｏｆａｓｉｎｇｌｅｉｎｓｔａｎｃｅ ^，ｔｈｅＪａｃｃａｒｄｓｃｏｒｅｏｆｓｅｍｉ  ｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｓｃａｎｒｅａｃｈｍｏｒｅｔｈａｎ０．８ｂｙｔａｋｉｎｇｔｈｅＤＡＶＩＳ１６ｄａｔａｓｅｔａｓａｎｅｘａｍｐｌｅ．Ｉｎｔｈｅｍｕｌｔｉ  ｉｎｓｔａｎｃｅｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎｔａｓｋ ^，ｆｏｒｅｘａｍｐｌｅ ^，ｔｈｅＤＡＶＩＳ１８ｄａｔａｓｅｔｗｈｉｃｈｉｓｗｉｄｅｌｙｕｓｅｄ ^，ｔｈｅＪａｃｃａｒｄｓｃｏｒｅｏｆｓｅｍｉ  ｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｓｈａｓｒｅａｃｈｅｄｏｖｅｒ０．７．Ｔｈｅｓｅｃｏｎｄｏｎｅｓａｒｅｕｎｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｓ ^，ｗｈｉｃｈｃａｎｉｄｅｎｔｉｆｙａｎｄｓｅｇｍｅｎｔｔｈｅｆｏｒｅｇｒｏｕｎｄｏｂｊｅｃｔｓｉｎｖｉｄｅｏｂｙｔｈｅｃｅｒｔａｉｎｒｕｌｅｓｏｒｍｏｄｅｌｓ ^，ｗｉｔｈｏｕｔａｎｙｍａｎｕａｌｌａｂｅｌｉｎｇｐｒｉｏｒｉｎｆｏｒｍａｔｉｏｎ．Ｔｈｅｔｈｉｒｄｏｎｅｓａｒｅｉｎｔｅｒａｃｔｉｖｅｍｅｔｈｏｄｓ ^，ｂａｓｅｄｏｎｔｈｅｍｅｔｈｏｄｏｆｉｎｔｅｒａｃｔｉｖｅｒｏｕｇｈａｒｔｉｆｉｃｉａｌｐｒｉｏｒｉｎｆｏｒｍａｔｉｏｎ．Ｉｎｔｈｅｓｅｍｅｔｈｏｄｓ ^，ｔｈｅｒｏｕｇｈａｒｔｉｆｉｃｉａｌｐｒｉｏｒｉｎｆｏｒｍａｔｉｏｎ ^，ｓｕｃｈａｓｐｏｉｎｔ ^，ｂｏｕｎｄｉｎｇｂｏｘ ^，ａｎｄｓｃｒｉｂｂｌｅ ^，ｉｓｏｂｔａｉｎｅｄｆｒｏｍｔｈｅｉｎｔｅｒａｃｔｉｖｅｍｏｄｕｌｅｓ．Ａｎｄｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎｉｓｃａｒｒｉｅｄｏｕｔｂｙｍｕｌｔｉｐｌｅｍａｎｕａｌｐａｒｔｉｃｉｐａｔｉｏｎｓ ^，ｂｕｔｏｎｌｙａｓｍａｌｌａｍｏｕｎｔｏｆｗｏｒｋａｔｅａｃｈｔｉｍｅ．Ｔｈｅｃｏｎｄｉｔｉｏｎｏｆｔｈｅｔｈｉｒｄｋｉｎｄｏｆｍｅｔｈｏｄｓｃａｎｂｅｃｏｎｓｉｄｅｒｅｄａｓｔｈｅｃｏｍｐｒｏｍｉｓｅｏｆｔｈｅｆｏｒｍｅｒｔｗｏ．Ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｆｉｒｓｔｏｎｅ ^，ａｌｔｈｏｕｇｈｉｔｒｅｑｕｉｒｅｓｍａｎｕａｌｐａｒｔｉｃｉｐａｔｉｏｎ ^，ｉｔｏｎｌｙｒｅｑｕｉｒｅｓａｓｍａｌｌａｍｏｕｎｔｏｆｌａｂｅｌｉｎｇｗｏｒｋ．Ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｓｅｃｏｎｄｏｎｅ ^，ｉｔａｐｐｒｏｐｒｉａｔｅｌｙａｄｄｓｓｏｍｅｍａｎｕａｌｌａｂｅｌｉｎｇｉｎｆｏｒｍａｔｉｏｎｔｏｔｈｅｉｍａｇｅｓｏｆｓｏｍｅｆｒａｍｅｓｉｎｔｈｅｖｉｄｅｏｓｅｑｕｅｎｃｅ ^，ｗｈｉｃｈｍａｋｅｓｔｈｅｍｅｔｈｏｄｓｍｏｒｅｔａｒｇｅｔｅｄｆｏｒｔｈｅｉｎｔｅｒｅｓｔｅｄｏｂｊｅｃｔｓ．ＴｈｅｂｅｓｔＪａｃｃａｒｄｓｃｏｒｅｓｏｆｔｈｅｕｎｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｓａｎｄｔｈｅｉｎｔｅｒａｃｔｉｖｅｍｅｔｈｏｄｓｃａｎｂｏｔｈｒｅａｃｈ０．８ｉｎｔｈｅＤＡＶＩＳ１６ｄａｔａｓｅｔ．ＢｕｔｔｈｅｒｅａｒｅｆｅｗｕｎｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｓｔｈａｔｄｅａｌｗｉｔｈｔｈｅｍｕｌｔｉｉｎｓｔａｎｃｅｐｒｏｂｌｅｍｏｆｔｈｅＤＡＶＩＳ１８ｄａｔａｓｅｔ．Ｔｈｅｂｅｓｔｉｎｔｅｒａｃｔｉｖｅｍｅｔｈｏｄｓｃａｎｏｎｌｙｒｅａｃｈ０．６４ｆｏｒＪａｃｃａｒｄｓｃｏｒｅｉｎｔｈｅＤＡＶＩＳ１８ｉｎｔｅｒａｃｔｉｖｅｄａｔａｓｅｔ．Ｆｉｎａｌｌｙ ^，ｔｈｅａｐｐｌｉｃａｔｉｏｎｓｏｆｄｅｅｐｌｅａｒｎｉｎｇｉｎｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎｔａｓｋ

ａｒｅｃｏｎｃｌｕｄｅｄ ^，ａｎｄｓｏｍｅｐｒｏｍｉｓｉｎｇｉｄｅａｓａｒｅｐｒｏｐｏｓｅｄｆｒｏｍｆｏｕｒｄｉｆｆｅｒｅｎｔａｓｐｅｃｔｓ．

犓犲狔狑狅狉犱狊　ｖｉｄｅｏｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ ^；ｄｅｅｐｌｅａｒｎｉｎｇ ^；ｓｅｍｉ  ｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｓ ^；ｕｎｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｓ ^；ｉｎｔｅｒａｃｔｉｖｅｍｅｔｈｏｄｓ

１　 ^引　 ^言

随着摄像设备和数字化存储设备的普及与广泛应用，全球范围内每天产生的视频数据总量在不断增加．视频内容的处理需求也日益增加，其中，视频对象分割的研究是计算机视觉领域十分重要的研究课题之一 ^，在三维重建 ^、自动驾驶 ^、视频编辑等方面有着重要应用．早期 ^，在视频编码国际标准ＭＰＥＧ  ４

^［^１^］

中，采用了基于对象的编码方式，指出视频是由一系列视频对象组成的 ^，从而引入了视频对象的概念．视频对象分割是指在给定的一段视频序列的各帧图像中 ^，找出属于特定前景对象的所有像素点位置的技术．当前深度学习在计算机视觉的一些基础任务如图像分类

^［^２^］

^、目标检测

^［^３^］

^、语义分割

^［^４^］

中都表现出了很好的效果．

视频是由图像组成的 ^，视频对象分割与图像分割存在着紧密的联系．近年来 ^，涌现了很多基于全监督学习和弱监督学习的图像分割方法．全监督学习图像分割方法大致可以分为以下几类：（１ ^）基于全卷积网络 ^（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ ^，ＦＣＮ ^）的方法．这类方法的思想最早由Ｌｏｎｇ等人

^［^５^］

提出 ^，使用全卷积代替全连接层，可以兼容任意尺寸并能实现端到端的训练 ^，但缺乏空间一致性 ^，导致分割结果过于平滑不精细 ^； ^（２ ^）基于编解码的方法．这类方法改进了ＦＣＮ方法的不足 ^，探索了不同的解码方式，在解码阶段融入低层特征来保留细节，使得分割效果更精细，如Ｕ  ｎｅｔ

^［^６^］

^、ＳｅｇＮｅｔ

^［^７^］

^、ＤｅｃｏｎｖＮｅｔ

^［^８^］

等．但这类方法新增了解码阶段，提高了模型复杂度 ^； ^（３ ^）基于密集连接卷积网络 ^（ＤｅｎｓｅｌｙＣｏｎｎｅｃｔｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ ^，ＤｅｎｓｅＮｅｔ ^）的方法．ＤｅｎｓｅＮｅｔ最早由Ｈｕａｎｇ等人

^［^９^］

提出 ^，并被应用到图像语义分割

０１ ６计　　算　　机　　学　　报２０２１年

《计

算机

学报

》

(3)

领域 ^，取得了一定的效果．典型地 ^，ＦＣ  ＤｅｎｓｅＮｅｔ

^［^１^０^］

继承了ＦＣＮ的思想，并结合了ＤｅｎｓｅＮｅｔ ^；ＤｅｎｓｅＡＳＰＰ

^［^１^１^］

将ＤｅｎｓｅＮｅｔ与空洞卷积特征金字塔池化 ^（ＡｔｒｏｕｓＳｐａｔｉａｌＰｙｒａｍｉｄＰｏｏｌｉｎｇ ^，ＡＳＰＰ ^）结合．这类方法结

合ＲｅｓＮｅｔ

^［^１^２^］

的跳跃连接思想 ^，更加密集地连接不同的卷积网络层 ^，提高了参数和特征的利用率 ^，减少了参数量．然而在模型训练时，频繁的跨层连接带来了更高的显存占用率和计算量 ^； ^（４ ^）基于多尺度特征融合的方法．这类方法结合不同层次的语义特征和不同区域的上下文信息 ^，提高获得全局信息的能力．典型的方法有ＰＳＰＮｅｔ

^［^１^３^］

^、ｄｅｅｐｌａｂ系列

^［^４^，^１^４^^１^６^］

．ＰＳＰＮｅｔ使用金字塔池化模块获取不同尺度的特

征 ^；ｄｅｅｐｌａｂ系列使用空洞卷积增大感受野 ^，获取不同尺度的上下文信息，提高精度．然而在不同尺度下，对象的细节可能丢失 ^，对分割结果有影响 ^； ^（５ ^）基于注意力机制的方法．Ｗａｎｇ等人

^［^１^７^］

首先提出非局部 ^（Ｎｏｎｌｏｃａｌ ^）的注意力机制 ^，挖掘每个位置像素与全局像素点之间的联系．Ｃｈｅｎ等人

^［^１^８^］

提出Ａ

^２

 Ｎｅｔ ^，从矩阵乘法角度进行优化，降低计算量．Ｌｉ等人

^［^１^９^］

提出了金字塔型注意力网络 ^（ＰｙｒａｍｉｄＡｔｔｅｎｔｉｏｎＮｅｔｗｏｒｋ ^，ＰＡＮ ^） ^，挖掘局部与全局像素之间的相似关系．此类方法根据视觉注意特点 ^，在不增加过多参数量的情况下，选择性地筛选有效的语义特征信息，利用局部与全局像素点的联系 ^，提高模型的效率和准确性．由于全监督学习方法 ^，需要具有大量精确标注的训练数据集，获取成本较高．为了解决这一问题 ^，很多基于弱监督学习的图像分割方法进行了相关探索，利用图像类别、边框、涂鸦等弱标签信息，或者少量标注数据 ^，进行模型训练 ^，降低了对精确标注数据量的需求，并取得了一定的进展．典型的弱监督学习图像分割方法可以分为以下几类 ^： ^（１ ^）基于不同训练策略的方法．第一种是基于多步训练的方法．Ｗｅｉ等人

^［^２^０^］

提出了简单到复杂（ＳＴＣ ^）框架的体系结构 ^，先利用显著性检测的结果训练初始模型 ^，再结合弱标注信息使用简单到复杂的图像迭代训练，增强模型的泛化能力．Ｓｈｅｎ等人

^［^２^１^］

还使用抓取的网络数据来进行多步学习，改善了训练数据量不足的问题．这类方法利用弱标注信息得到初始网络，并通过不同层次的图像或相关的网络图像 ^，来逐步强化网络，提供了有效的模型训练思路．第二种是基于编解码结构训练的方法．Ｈｏｎｇ等人

^［^２^２^］

提出ＤｅｃｏｕｐｌｅｄＮｅｔ网络，编码阶段使用大量图像级标注来训练 ^，解码阶段使用少量像素级标注来训练 ^，两个阶段通过桥接层连接．这种方法利用不同的标注信

息 ^，分别训练网络各个组件 ^，不用迭代循环训练 ^，便于结构调整和扩展．第三种是基于擦除策略训练的方法．Ｗｅｉ等人

^［^２^３^］

提出了对抗擦除策略 ^（ＡｄｖｅｒｓａｒｉａｌＥｒａｓｉｎｇ ^，ＡＥ ^）的方法，使用不同擦除区域的图像训

练 ^，不断改变模型的注意力区域．Ｈｏｕ等人

^［^２^４^］

提出自擦除策略的网络 ^（Ｓｅｌｆ  ＥｒａｓｉｎｇＮｅｔｗｏｒｋ ^，ＳｅｅＮｅｔ ^） ^，不仅减少了工作量，而且在前景和背景之间预留潜在区域 ^，一定程度上避免了前景向背景区域的扩张．这类方法利用有限的数据，使用擦除的方式，让模型更加全面地关注对象的各个特征 ^，减少模型对特定区域特征的依赖．这类方法，充分利用弱标注信息 ^，使用不同的训练策略 ^，取得了一定的效果 ^，但在挖掘像素点之间的联系上 ^，还需进一步探索 ^； ^（２ ^）基于语义传播的方法．Ａｈｎ等人

^［^２^５^］

提出ＡｆｆｉｎｉｔｙＮｅｔ ^，预测像素间的语义关联 ^，初始生成类激活图 ^（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ ^，ＣＡＭ ^） ^，通过稀疏激活随机游走来

实现语义传播．Ｈｕａｎｇ等人

^［^２^６^］

提出种子区域扩张的方法，初始化生成分割结果，再通过区域扩张实现语义传播．这类方法使用粗分割加语义传播的形式，在语义传播或扩张的阶段 ^，探索了像素点间的语义特征联系，但这种探索比较局部；（３ ^）基于不同感受野的方法．Ｗｅｉ等人

^［^２^７^］

使用不同膨胀率的空洞卷积 ^，可以扩大感受野，得到相应的注意力图，并提出一种简单有效的抗噪融合策略．Ｌｅｅ等人

^［^２^８^］

提出基于随机推理的网络模型ＦｉｃｋｌｅＮｅｔ ^，该模型通过随机选择隐藏单元，可以产生许多不同尺寸和形状的感受野，训练出分类器 ^，再使用Ｇｒａｄ  ＣＡＭ方法

^［^２^９^］

生成位置图，将多个位置图集成得到分割结果，并将其作为样本训练分割网络．相对于语义传播的局部特征联系 ^，空洞卷积可以挖掘更大感受野内的语义特征联系，融合不同尺度的细节信息 ^，提高效果 ^； ^（４ ^）基于生成式对抗网络 ^（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ ^，ＧＡＮ ^）的方法．Ｓｏｕｌｙ等人

^［^３^０^］

将这一思想应用到弱监督的语义分割中 ^，通过生成器 ^，结合图像级标注生成图像，再使用生成图像、图像级标注和像素级标注信息来训练判别器．这类方法通过生成网络和判别网络对抗的形式训练，需要的训练数据较少，但相比于一般的网络，需要更多的显存，模型较不稳定；（５ ^）基于显著实例的方法．Ｌｉ等人

^［^３^１^］

利用图像边框的弱标注信息，检测实例对象，再通过迭代训练得到各个实例的分割模型．Ｆａｎ等人

^［^３^２^］

基于显著性实例分割方法Ｓ４Ｎｅｔ

^［^３^３^］

得到图像中的显著实例，每个实例包含边界框和前景掩码 ^；再通过注意力模块 ^，使用实例的内在属性进行类别预测 ^；同时 ^，使用特征提取网络获

１１３期陈　加等

^：

深度学习在视频对象分割中的应用与展望６

《计

算机

学报

》

(4)

取每个实例的语义特征 ^，在整个数据集范围内 ^，构建实例相似图并划分 ^，每个子图将决定这一类实例最终的类别．这类方法利用各个对象内在的实例属性，并探索了实例间的联系，提高了分割效果．这些典型的图像分割方法，可以挖掘视频的单帧语义信息，为视频对象分割技术的发展奠定了基础．

在视频对象分割领域 ^，虽然已经有很多传统方法

^［^３^４^^３^６^］

取得了一定的效果 ^，但随着硬件的提升 ^，深度学习的方法吸引了很多研究者的关注．如图１所示 ^，根据在待分割视频中给定的人工先验信息具体程度，可以分为半监督的方法、无监督的方法和交互式的方法．另外，在图像分割中，监督学习是针对整个训练数据集的标注形式来说的，即一般意义的监督；在视频对象分割中 ^，监督学习是针对待分割视频给出的标注形式来说的 ^，即通过相似视频训练后的模型是否还需要使用待分割视频的标注信息进行调整 ^，二者有一定的区别．在视频对象分割领域 ^，半监督方法的任务定义为：给出视频第一帧图像中感兴趣对象的详细人工真值标注，自动地分割出剩余所有视频序列图像中的感兴趣对象；无监督方法的任务定义为 ^：不给任何人工标注信息 ^，自动识别并分割出视频中的前景对象 ^；交互式方法的任务定义为 ^：在分割的过程中 ^，通过人工交互式参与 ^，结合粗略的人工标注先验信息 ^，进行视频对象分割．第三类方法的条件相当于前两者的折中 ^：相对于第一类方法的条件，它减少了注释的工作量；相对于第二类方法的条件，在视频的某几帧图像中，适当地添加了粗略的人工注释信息，从而在分割感兴趣前景对象中更具针对性．在三大类条件下 ^，根据每类方法的处理特点又可以细分为若干种不同的子方法．

图１　基于深度学习的视频对象分割方法分类

在视频序列中 ^，随着时间的推移 ^，视频不断变化，光照、视角、遮挡和图像噪声等因素为视频对象分割带来很大的挑战．虽然近几年视频对象分割领

域的研究进展显著 ^，但仍面临一些典型问题 ^：

（１ ^）场景的空间复杂性

对于不同的视频序列来说，在不同的环境下，对象 ^、背景 ^、拍照条件等固有因素增加了场景的复杂性．在单帧图像内，存在运动模糊、相机抖动、光照不均 ^、外观变化 ^、对象的形变或遮挡等复杂情况 ^，为对象空间特征的提取增加了难度，影响了对象的分割效果．

（２ ^）与时序信息的结合

视频序列的另一个要素就是时序信息，怎样将空间局部特征信息与时序信息相结合 ^，是在视频序列图像之间建立信息传播机制的关键．目前的一些论文结果

^［^３^７^^３^８^］

体现了添加时序信息前后的差异性 ^，然而如何基于已分割视频序列图像的信息，指导其他帧图像内的对象分割 ^，还需要进一步的探索．对于一些视频中对象出现消失与重现的现象 ^，如何提高模型的再识别能力，也是时序信息传播的关键．

（３ ^）对基础任务的依赖

很多的视频对象分割方法，将分割任务分为几个基础任务来分步处理．每个基础任务方法的性能 ^，均在一定程度上影响着分割的结果．对每帧图像内的对象特征提取过程中 ^，涉及到更加基础的图像分类 ^、对象检测和静态图像分割等任务的处理过程．因此，结合视频对象分割的特点，对基础任务的解决方法进行相关的迁移与改进 ^，是探索更好的视频对象分割方法的基础．

（４ ^）数据集问题

视频对象分割的最小单位是一段视频序列．对于模型训练来说 ^，不仅需要很多的视频序列 ^，还需要对视频的每一帧进行像素级的标注 ^，为人工标注带来了巨大的工作量．近些年来，视频对象分割研究比较热 ^，然而开放数据集的数量以及视频序列涵盖的场景相对有限．已存在的数据集在目标对象的个数、种类 ^、外观变化 ^、遮挡 ^、运动形变等方面上仍然有所限制．真实世界中的场景复杂多样，这就需要更丰富的数据集来进行模型训练．

针对上述问题 ^，越来越多的研究人员提出新的解决方法来优化视频对象分割的结果，同时也发布了一些新的数据集 ^，使得数据集涵盖的场景也不断地丰富起来．本文首先介绍了目前常用的开放公共数据集 ^，以及当前被广泛使用的分割准确率评估标准．其次 ^，将视频对象分割方法分为三个大类 ^：半监督的方法、无监督的方法和交互式的方法，逐个进行了详细地介绍．然后 ^，统计并分析了各方法的实验结

２１ ６计　　算　　机　　学　　报２０２１年

《计

算机

学报

》

(5)

果．最后 ^，对文章进行总结 ^，并对视频对象分割的未来研究方向进行了展望．

２　 ^{常用数据集与评估标准}

２  １　 ^{常用数据集}

视频对象分割方法需要一定数据集进行训练或者验证．因此 ^，构建一定规模的数据集和评估标准，是视频对象分割的必然要求，不仅方便科研人员验证方法 ^，也保证了视频对象分割研究的评价统一性．由于视频序列数据量很大，相应地增加了人工标注工作量．目前大部分的方法 ^，采用的训练测试数据集主要以ＤＡＶＩＳ

^［^３^９^^４^０^］

^、ＹｏｕＴｕｂｅ  Ｏｂｊｅｃｔｓ

^［^４^１^］

^、ＹｏｕＴｕｂｅ  ＶＯＳ

^［^４^２^］

和ＳｅｇＴｒａｃｋ  ｖ２

^［^４^３^］

数据集为主，见表１．这些数据集涵盖了各种各样的挑战 ^，例如视频序列中的对象外观变化、被遮挡、运动模糊以及物体形变等．

表

１　

视频对象分割方法的常用数据集对比数据集名称视频个数标注

总帧数单帧图像ＤＡＶＩＳ２０１６^［^３^９^］　５０　　　３４５５单个对象个数ＤＡＶＩＳ２０１７^［^４^０^］１５０１０４７４多个ＹｏｕＴｕｂｅＯｂｊｅｃｔｓ^［^４^１^］１２６超过２００００单个ＹｏｕＴｕｂｅＶＯＳ^［^４^２^］３２５２１３３８８６多个ＳｅｇＴｒａｃｋｖ２^［^４^３^］１４９４７多个

犇犃犞犐犛 ^数据集．该数据集被用于ＤＡＶＩＳ视频对象分割挑战赛．该组织者提供了视频对象分割领域的测试基准，每年都发布带详细标注的数据集．２０１６年该数据集第一次发布 ^，只包含单个对象的视

频对象分割任务，５０个视频序列，共３４５５帧详细标注图像

^［^３^９^］

．２０１７年该组织者提供了１５０帧视频序列 ^，共１０４５９帧详细标注图 ^，并提出了半监督的视频对象分割任务 ^，在该任务中 ^，给定待分割视频序列的首帧详细先验信息，要求输出剩余帧的多实例分割结果

^［^４^０^］

．２０１８年在ＤＡＶＩＳ２０１７年的数据集上 ^，该组织者提出了半监督和交互式的视频对象分割任务

^［^４^４^］

．２０１９年在同样的数据集上 ^，还提出了无监督的视频对象分割任务．在该任务中，模型自动地分割出视频序列中的多个实例

^［^４^５^］

．随着比赛的开展 ^，该数据集的数据量增加 ^，视频对象分割任务的目标从单对象发展到多实例，序列中的对象分割难度也有所增加 ^，如视频中出现个别实例的消失与重现 ^、实例间遮挡更严重 ^、运动形变程度更大等问题．在ＤＡＶＩＳ数据集中，部分视频序列的单帧图像标注示

例如图２所示．

图２　ＤＡＶＩＳ２０１７数据集

^［^４^０^］

示例

（

第１列为原图

^，

第２列为人工真值标注图

^）

犢狅狌犜狌犫犲  犗犫犼犲犮狋狊 ^数据集．该数据集是视频对象分割领域比较常用的数据集之一 ^，包含了１２６个视频片段 ^、１０种类别的对象 ^、超过２００００帧的图像 ^，每帧图像都进行了像素级的人工标注

^［^４^１^］

．

犢狅狌犜狌犫犲  犞犗犛 ^数据集．２０１８年 ^，Ｘｕ等人

^［^４^２^］

发布了迄今为止最大数据量的数据集，一定程度上解决了领域内数据量的问题．该数据集包含了３２５２个视频片段 ^、７８种类别对象 ^、共１３３８８６帧人工像素级标注的图像．由于该数据集提出较晚 ^，目前基于该数据集的实验测试还不是很多．

犛犲犵犜狉犪犮犽  狏２ ^数据集．该数据集包含了１４个视频片段、２４种类别对象、共９４７帧图像

^［^４^３^］

．该数据集中 ^，每一帧图像都做了像素级的标注 ^，并覆盖了运动模糊 ^、外观改变 ^、复杂形变 ^、遮挡 ^、低速运动和对象铰接的场景．

２  ２　 ^评估标准

运用已经构建好的开放数据集，研究人员可以进行深度学习模型的训练和测试．同时需要建立一个统一的评估框架 ^，方便评估方法的分割准确率．目前已经有一些研究者提出了比较通用的评估标准．在介绍这些评估标准之前 ^，先说明两个通用的符号 ^：犌是指人工标注的真值掩码 ^，犕是指分割结果掩码．

（１ ^）区域相似性

为了比较对象分割区域与人工标注的真值掩码的相似性，采用雅可比相似度犑来表示算法的预测分割与真值之间的交并比．由于它不受图像的尺寸限制 ^，就能直观反映出错误预测像素的占比 ^，因此受到了广泛应用 ^，也成为ＤＡＶＩＳ２０１６挑战赛

^［^３^９^］

的评

３１３期陈　加等

^：

深度学习在视频对象分割中的应用与展望６

《计

算机

学报

》

(6)

估标注之一．计算方式如下 ^：犑＝｜犕∩ 犌｜

｜犕∪ 犌｜ ^（１ ^）

（２ ^）轮廓精确度

轮廓精确度的计算公式，最早被Ｇａｌａｓｓｏ等人

^［^４^６^］

提出，后来在ＤＡＶＩＳ２０１６挑战赛

^［^３^９^］

上被用于轮廓的评价标准．从轮廓的角度看，视频对象分割掩码可看作是一系列封闭轮廓的集合犮 ^（犕 ^）．通过计算轮廓精确度犉测度 ^，即对象轮廓的预测掩码犮 ^（犕 ^）与真值犮 ^（犌 ^）之间的准确率犘

^犮

和召回率犚

^犮

的函数 ^，从而确定分割边界的准确率 ^，计算方式如下 ^：

犉＝２犘

^犮

犚

^犮

犘

^犮

＋犚

^犮

^（２ ^）这两种评估标准目前在文献中使用最多 ^，同时它们也是ＤＡＶＩＳ视频对象分割挑战赛中使用的两个指标．对于区域相似性的度量，它可以不受图像的限制 ^，刻画分割结果与真值之间的像素重叠程度 ^；而轮廓精确度的度量 ^，则反映了对象边界的准确度和精细程度 ^；二者分别从两个方面构建视频对象分割的评估指标 ^，通常被用于算法性能评估．

３　 ^{半监督的方法}

在视频对象分割任务中 ^，基于半监督的方法主

要解决的问题是 ^，给定视频序列第一帧详细的人工标注先验信息 ^，即对需要分割的对象进行像素级的标注，输出指定整个视频序列剩余帧的图像掩码．虽然传统的方法通过有针对性地联合多种图像特征，建立相应的模型进行视频对象分割，但分割效果有限

^［^４^７^］

．最近几年 ^，在ＤＡＶＩＳ挑战赛的推动下 ^，基于深度学习的方法发展尤为迅速 ^，研究者们以卷积神经网络 ^（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ ^，ＣＮＮ ^）为核心 ^，不断提出新的模型并改进 ^，在半监督的视频对象分割任务中取得了很好的效果．

本节将半监督的方法划分为以下六类：独立分割的方法、基于帧间信息的方法、基于深度强化学习的方法、基于ＲＮＮ的方法 ^、基于多模型融合的方法和基于多模块综合的方法．表２对这几类方法进行了比较和分析 ^，其中 ^，模型一般采用多步法的训练模式 ^：首先 ^，基于图像领域的相关数据集 ^，训练基础特征提取模型 ^；其次 ^，在视频对象分割任务的训练集中，对基础模型进行再次预训练；最后，对待分割视频中，带有先验信息的第一帧图像进行增广，在增广的数据集上，对模型进行微调，使模型对当前视频的对象更具针对性．另外 ^，有些方法可以在线微调模型 ^：在分割的同时将已经分割的图像和对应的结果加入到训练集中 ^，微调模型 ^，迭代地分割整个视频序列．

表

２　

半监督的视频对象分割方法对比

方法类别代表算法模型输入模型训练方法特点优点缺点分割的独立

方法

基于ＯＳＶＯＳ

的方法ＯＳＶＯＳ^［^３^８^］单帧图像预训练微调^，

将视频切分成图像帧，使用训练好的模型进行图像分割．

基于在线微调

的方法ＯｎＶＯＳ^［^４^８^］单帧图像预训练在线微调^，

在ＯＳＶＯＳ的基础上^，不断地将分割结果和对应的图像加入到训练集，微调网络．

１．独立分割，相对来说，速度快．

２．不考虑上下文信息，一定程度上避免误差传播．

１．视频序列中的对象前后差异过大，分割效果差．

２．缺乏上下文信息，无法利用视频对象特征的时间一致性，分割效果受限．

基于帧间信息的方法

基于对象匹配

的方法ＦＥＥＬＶＯＳ^［^４^９^］第一帧分割图像、当前

图像预训练，微调

在一段视频序列中，虽然同一对象在各帧图像中有一定的变化，但具有相似性，通过建立模型，提取对象特征并匹配．

基于光流特征

的方法ＭｏＮｅｔ^［^５^０^］相邻图像、光

流图预训练，

微调光流特征是重要的上下文信息，可以很好地描述对象的运动特征．

基于在线微调

的方法ＦＡＶＯＳ^［^５^１^］当前图像，上一帧预测结

果和光流图预训练，在线微调

相对于独立分割中的在线微调方法，此类方法建立的在线微调模型，还能够结合上下文信息．基于掩码传播

的方法ＭａｓｋＴｒａｃｋ^［^３^７^］上一帧和当前图像、光流图、上一帧掩码

预训练，

微调基于给定的首帧图像掩码，建立掩码传播模型，指导剩余帧的分割．

１．建立的模型能够挖掘图像之间的信息，指导剩余帧的分２割结果．．在视频序列中，利用对象特征具有一定的相似性，提高分３割效果．．相对于ＯＳＶＯＳ来

说，效果更好．

１．利用帧间的信息指导分割的同时，可能存在误差传播．

２．一般采用多分支的网络结构，模型复杂度增加．

３．没有再识别的功能，可能会丢失目标．

４１ ６计　　算　　机　　学　　报２０２１年

《计

算机

学报

》

(7)

（续　表^）方法类别代表算法模型输入模型训练方法特点优点缺点基于深度强化学习的

方法ＲＣＡ^［^５^２^］上一帧的分割掩码，当前图像

预训练，微调（可选）

依赖上下文信息，基于上一帧的掩码，得到对象在当前图像的初始位置边界框，再基于强化网络，指导并调整边界框的位置和大小，不断强化分割结果．

１．将强化学习应用到视频对象分割，并取得一定效果．

２．利用上下文中对象的位置信息．

１．依赖于上下文中对象的位置信息，对象位置改变较大，会影响分割效果．

２．每帧需要多步调整，耗时．

基于ＲＮＮ的方法文献^［４２^］当前图像、历

史信息预训练，微调

将ＲＮＮ与ＣＮＮ结合，利用ＣＮＮ提取空间特征^，ＲＮＮ提取序列特征^，代表性结构：ＣｏｎｖＬＳＴＭ^、ＣｏｎｖＧＲＵ．

建立具有历史记忆的模型，递归处理历史信息，获取上下文信息．

１．需记忆历史信息，２占内存．．递归处理过程存

在误差传播．

基于多模型融合的

方法文献［５３^］上一帧和当前图像、上一

帧分割结果预训练，微调

将待分割的实例对象进行分类，并对每个类别建立对应的分割模型，再将各对象实例的分割结果融合．

１．结合上下文信息．

２．对不同类别对象分别建立模型，具有针对性．

１．多个模型训练时间长、消耗内存．

２．增加对象分类过程，可能引入分类误差．

基于多模块综合的

方法ＰＲｅＭＶＯＳ^［^５^４^］

上一帧、当前帧和下一帧的图像，对应的光流图

预训练，微调

模型包含对象检测、分割、融合上下文信息、对象再识别等模块，利用图像领域内更加基础任务的技术，综合完成视频对象分割．

１．将视频对象分割任务分解，综合使用基础任务的先进方法．２．在结合上下文信息

的基础上，使用再识别模块，避免丢失目标，改善分割效果．

１．视频对象分割过程更加复杂，处理时２间长．．模型训练时间长．

３  １　 ^{独立分割的方法}

在深度学习领域 ^，单幅图像分割的发展更早一些，因此，很多基于单幅图像分割的方法，在一些开放数据集中取得了较好的效果

^［^５^５^］

．而视频序列的每一帧都是一幅图像 ^，很直观的想法是独立地分割每一帧图像，将视频对象分割转化为单幅图像的分割问题 ^，从而可以直接将图像分割的方法迁移过来．在ＤＡＶＩＳ２０１６挑战赛

^［^３^９^］

上，ＯＳＶＯＳ ^（Ｏｎｅ  ＳｈｏｔＶｉｄｅｏＯｂｊｅｃｔＳｅｇｍｅｎｔａｔｉｏｎ ^）第一次被提出

^［^３^８^］

，并取得了一定的效果，之后涌现了很多改进的方法．这些方法 ^，一般采用预训练 ^、微调的训练方式 ^，得到一个固定的模型，从而完成整个视频的对象分割．另外还有一类方法使用在线微调的方法 ^，在视频对象分割的同时，不断利用已分割的图像结果调整模型参数．这类方法弥补了前者在微调模型时仅有第一帧的数据量缺乏的不足．接下来，本节分别从这两个方面介绍相关方法．

３．１．１　基于ＯＳＶＯＳ的方法

Ｃａｅｌｌｅｓ等人

^［^３^８^］

提出了ＯＳＶＯＳ方法 ^，该方法建立了基于ＦＣＮ

^［^５^］

的双流结构，分别用于前景分割和图像的轮廓检测 ^，通过将两个分支提取的特征融合 ^，得到训练独立的图像语义分割结果．该方法使用了多步法的模型训练方式：首先在ＩｍａｇｅＮｅｔ数据集上训练基础网络 ^，再使用ＤＡＶＩＳ训练集训练出 ^“ 父网络 ” ，最后基于第一帧注释数据微调网络，以得到最终的模型．该模型对每一帧图像独立地处理 ^，在视

频对象分割中取得了一定的效果．Ｍａｎｉｎｉｓ等人

^［^５^６^］

提出了基于全卷积神经网络架构的语义ＯＳＶＯＳ方法，建立了的实例分割和整体外观模型，将两个分支的分割结果融合得到最终的对象分割结果．该方法采用的训练数据集和训练方式均与ＯＳＶＯＳ相同 ^，不考虑帧间信息而独立地分割每一帧图像 ^，一定程度上避免了因物体遮挡或消失等因素带来的传播误差．但后者采用了更细化的模型和处理方式，因而取得了更好的分割效果．

另外，在多个对象的视频对象分割任务中，很多方法也使用独立分割的思想 ^，并基于ＯＳＶＯＳ方法进行改进，从而取得了一定的效果．Ｓｈａｒｉｒ等人

^［^５^７^］

建立了对象检测和前景分割的双流网络，在对象检测分支中 ^，使用基于ＲｅｓＮｅｔ  １０１主网络的Ｆａｓｔｅｒ  ＲＣＮＮ结构

^［^３^］

^；在前景分割分支中，采用了基于ＶＧＧ１６结构

^［^５^８^］

的全卷积神经网络；使用ＩｏＵ阈值对候选区边界框和分割结果进行过滤，使用过滤后的结果 ^，对前景分割分支的结果 ^，进行再次过滤和增强，从而得到最终的分割结果．Ｃｈｅｎｇ等人

^［^５^９^］

先训练一个基于ＲｅｓＮｅｔ  １０１结构

^［^１^２^］

的通用模型用于前景和背景的分割，再基于这个通用模型对其进行微调 ^，以学习实例分割模型 ^；接着基于第一帧的先验信息进行数据增广，并微调网络；然后将只包含前景区域的图像 ^，通过空间传播网络进行更精细地实例分割，最后通过连通区域感知滤波器来进一步区分实例边界．该方法将多实例分割任务分解为前景分割

５１３期陈　加等

^：

深度学习在视频对象分割中的应用与展望６

《计

算机

学报

》

(8)

和实例分割 ^，建立了更深层的双流分割网络 ^，并通过后续步骤细化取得了更好的效果．

３．１．２　基于在线微调的方法

一般的基于ＯＳＶＯＳ的方法 ^，先通过预训练得到基础的分割模型 ^，再基于第一帧的先验信息进行微调 ^，使模型更加适应当前的视频序列．由于这类方法仅有第一帧参与微调，训练的数据量太小而导致模型的针对性不强 ^，分割效果不理想．基于在线微调的方法利用模型进行视频对象分割的同时，将已经分割的图像加入到微调数据集中 ^，不断调整模型 ^，从而弥补了微调数据量太少的缺点，提高了视频对象分割效果．Ｖｏｉｇｔｌａｅｎｄｅｒ等人

^［^４^８^］

提出了在线迭代微调的算法Ｏｎ  ＡＶＯＳ ^，一定程度上提高了模型微调的数据量，克服了ＯＳＶＯＳ方法不能适应对象在视频中随时间存在较大变化的缺点 ^，在单个对象的视频对象分割任务上取得了不错的效果．

在ＤＡＶＩＳ２０１７挑战赛

^［^４^０^］

的针对于多个对象的视频对象分割任务上，基于ＯＳＶＯＳ的在线微调方法取得了一定的效果．Ｎｅｗｓｗａｎｇｅｒ等人

^［^６^０^］

将ＯＳＶＯＳ模型作为父模型 ^，然后在第一帧图像上进行微调 ^，分割接下来的１０帧，并将这１０帧图像加入到训练集再次微调网络．该方法使用核化相关滤波 ^（ＫｅｒｎｅｌｉｚｅｄＣｏｒｒｅｌａｔｉｏｎＦｉｌｔｅｒ ^，ＫＣＦ ^）方法

^［^６^１^］

得到跟踪的对象边

界框 ^，过滤掉边界框之外的粗分割信息 ^，再结合轮廓信息得到细化分割．然后 ^，依次对每１０帧分割序列进行迭代操作，从而实现在线微调网络模型．其中 ^，ＫＣＦ算法是基于方向梯度直方图 ^（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ ^，ＨＯＧ ^）特征与核函数的方法，根据当前帧信息和上一帧信息训练出一个相关滤波器，然后与新输入的帧进行相关性计算，得到预测的跟踪结果．Ｖｏｉｇｔｌａｅｎｄｅｒ等人

^［^６^２^］

对Ｏｎ  ＡＶＯＳ进行改进 ^，使其适用于多个对象的视频对象分割任务．相对于前者采用固定间隔来更新网络模型，后者基于每一帧的分割图像进行迭代调整 ^，从而使模型调整的次数更多，训练得更充分，更适用于当前的视频对象分割．

３  ２　 ^{基于帧间信息的方法}

独立分割的方法将视频的每一帧图像单独处理 ^，比较直观 ^，虽取得了一定的分割效果 ^，但缺乏对象在帧间的联系．有些研究工作通过结合帧间的时序信息和对象的运动线索 ^，指导后续视频图像的分割，以提高分割效果，该思想在后续的方法中被普遍采用．基于帧间信息的视频对象分割方法 ^，其一般框架如图３所示．

图３　基于帧间信息的方法的一般框架

３．２．１　基于对象匹配的方法

在同一视频序列中 ^，对象在各帧之间存在着一定的相似性．利用深度学习的方法，提取图像的空间特征 ^，并与具有先验信息的第一帧图像进行特征匹配 ^，可以实现视频对象分割．Ｙｏｏｎ等人

^［^６^３^］

提出了基于像素匹配的卷积神经网络方法：首先基于给定的第一帧详细先验知识 ^，将人工标注的实例对象作为查询对象，并与当前帧的图像经过参数共享的双流网络来分别提取图像特征 ^；然后将双流网络提取的多层图像特征连接起来并压缩，再经过全连接层进行特征融合 ^，接着通过多层卷积结构增强对象相关性 ^，最终得到每个像素的概率图 ^，从而进行像素分类．该方法借助查询匹配的思想，联合多层语义信息 ^，使用两步法的模型训练方式 ^，在ＤＡＶＩＳ１６数据集上取得了较好的效果．

除了单个对象的视频对象分割任务外 ^，Ｙａｎｇ等人

^［^６^４^］

提出了由分割网络、视觉调制器和空间调制器三个部分组成的模型，通过视觉调制器提取第一帧中标注对象的外观特征 ^，结合空间调制器提取前一帧图像中对象位置的先验信息，对分割网络提取的当前图像特征进行增强 ^，从而改进分割效果．Ｓｈａｂａｎ等人

^［^６^５^］

使用改进的ＯＳＶＯＳ算法和全卷积实例感知图像分割算法 ^，对视频序列的每一帧图像生成特定的分割候选区 ^，然后使用候选区跟踪算法实时跟踪候选区，并挑选出与第一帧标注中匹配的候选区，最后使用全连接的条件随机场 ^（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ ^，ＣＲＦ ^）进行更精细的分割．该方法建立回溯机制以提高候选区跟踪的稳定性 ^，使分割的结果更加细化．Ｖｏｉｇｔｌａｅｎｄｅｒ等人

^［^４^９^］

提出了ＦＥＥＬＶＯＳ方法 ^，能够在不依赖第一帧微调模型的情况下 ^，简单 ^、快速地实现视频对象分割．该方法通过特征提取网络，提取每一帧图像的嵌入向量，通过局部和全局匹配机制 ^，即分别与上一帧图像和具有先验信息的第一帧图像的嵌入向量进行匹配；再结合上一帧的分割结果 ^，输出当前图像的掩码．该方法使用更深的主网络结构，提取图像的嵌入向量，综合局部和全局信

深度学习在视频对象分割中的应用与展望

第４ ４ 卷 第３期

２ ０ ２ １ 年３月 计 算 机 学 报

Ｃ Ｈ Ｉ Ｎ Ｅ Ｓ Ｅ Ｊ Ｏ Ｕ Ｒ Ｎ Ａ ＬＯ Ｆ Ｃ Ｏ Ｍ Ｐ Ｕ Ｔ Ｅ Ｒ Ｓ Ｖ ｏ ｌ ． ４ Ｍ ４Ｎ ａ ｒ ． ２ ｏ ０ ． ２ ３ １

深度学习在视频对象分割中的应用与展望

陈 加

陈亚松

李伟浩

田 元

刘 智

何 英

视频对象分割是指在给定的一段视频序列的各帧图像中

找出属于特定前景对象的所有像素点位置区 域． 随着硬件平台计算能力的提升

深度学习受到了越来越多的关注

在视频对象分割领域也取得了一定的进展．

本 文首先介绍了视频对象分割的主要任务

并总结了该任务所面临的挑战． 其次

对开放的视频对象分割常用数据 集 进行了简要概述

并介绍了通用的性能评估标准． 接着

综述了视频对象分割的研究现状

详细地分析了当前的 各 种方法

并将它们划分为三大类

半监督的方法

即给出视频第一帧图像中感兴趣对象的详细人工真值标注

分 割 出视频剩余图像中的感兴趣对象

无监督的方法

即不给任何人工标注信息

自动识别并分割出视频中的前景对 象

交互式的方法

即在分割过程中

通过人工交互式的参与

结合粗略的人工标注先验信息

进行视频对象分割．

第三类方法的条件相当于前两者的折中

相对于第一类方法

它虽然需要人工的参与

但只需要少量的标注工作 量

相对于第二类方法

它给视频序列中某些帧的图像适当地添加了一些人工标注信息

从而更具针对性． 最后

对 深度学习在视频对象分割任务中的应用

进行了总结和展望．

视频对象分割

深度学习

半监督方法

无监督方法

交互式方法

Ｔ Ｐ ３ ９ １ 犇 犗 犐

１ ０ ． １ １ ８ ９ ７

Ｓ Ｐ ． Ｊ ． １ ０ １ ６ ． ２ ０ ２ １ ． ０ ０ ６ ０ ９

犃 狆 狆 犾 犻 犮 犪 狋 犻 狅 狀 犪 狀 犱 犘 狉 狅 狊 狆 犲 犮 狋 狅 犳 犇 犲 犲 狆 犔 犲 犪 狉 狀 犻 狀 犵 犻 狀 犞 犻 犱 犲 狅 犗 犫 犼 犲 犮 狋 犛 犲 犵 犿 犲 狀 狋 犪 狋 犻 狅 狀

Ｃ Ｈ Ｅ Ｎ Ｊ ｉ ａ

Ｃ Ｈ Ｅ ＮＹ ａ  Ｓ ｏ ｎ ｇ

Ｌ Ｉ Ｗ ｅ ｉ  Ｈ ａ ｏ

Ｔ Ｉ Ａ ＮＹ ｕ ａ ｎ

Ｌ Ｉ ＵＺ ｈ ｉ

Ｈ ＥＹ ｉ ｎ ｇ

《 计

算 机

学 报

》

ａ ｒ ｅ ｃ ｏ ｎ ｃ ｌ ｕ ｄ ｅ ｄ ， ａ ｎ ｄ ｓ ｏ ｍ ｅ ｐ ｒ ｏ ｍ ｉ ｓ ｉ ｎ ｇ ｉ ｄ ｅ ａ ｓ ａ ｒ ｅ ｐ ｒ ｏ ｐ ｏ ｓ ｅ ｄ ｆ ｒ ｏ ｍ ｆ ｏ ｕ ｒ ｄ ｉ ｆ ｆ ｅ ｒ ｅ ｎ ｔ ａ ｓ ｐ ｅ ｃ ｔ ｓ ．

１ 引 言

、 目 标 检 测

、 语 义 分 割

中都表现出了 很 好 的 效 果 ．

、 Ｓ ｅ ｇ Ｎ ｅ ｔ

、 Ｄ ｅ ｃ ｏ ｎ ｖ Ｎ ｅ ｔ

提 出 ， 并 被 应 用 到 图 像 语 义 分 割

０ １

６ 计 算 机 学 报 ２ ０ ２ １ 年

《 计

算 机

学 报

》

领 域 ， 取得了一定的效果 ． 典型地 ， Ｆ Ｃ  Ｄ ｅ ｎ ｓ ｅ Ｎ ｅ ｔ

继 承 了 Ｆ Ｃ Ｎ的 思 想 ， 并 结 合 了Ｄ ｅ ｎ ｓ ｅ Ｎ ｅ ｔ ； Ｄ ｅ ｎ ｓ ｅ Ａ Ｓ Ｐ Ｐ

将Ｄ ｅ ｎ ｓ ｅ Ｎ ｅ ｔ 与空洞卷积特征金字塔池化 （ Ａ ｔ ｒ ｏ ｕ ｓ Ｓ ｐ ａ ｔ ｉ ａ ｌ Ｐ ｙ ｒ ａ ｍ ｉ ｄ Ｐ ｏ ｏ ｌ ｉ ｎ ｇ ， Ａ Ｓ Ｐ Ｐ ） 结合 ． 这类方法结

合Ｒ ｅ ｓ Ｎ ｅ ｔ

、 ｄ ｅ ｅ ｐ ｌ ａ ｂ系列

第４４卷　第３期

２０２１年３月计　　算　　机　　学　　报

ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ ^Ｖ ^ｏ ^ｌ ^． ^４ ^Ｍ ^４Ｎ ^ａ ^ｒ ^． ^２ ^ｏ ^０ ^． ^２ ^３ ^１

陈　 ^加

　 ^陈亚松

^李伟浩

^田　 ^元

^刘　 ^智

^何　 ^英

　视频对象分割是指在给定的一段视频序列的各帧图像中

找出属于特定前景对象的所有像素点位置区域．随着硬件平台计算能力的提升

本文首先介绍了视频对象分割的主要任务

并总结了该任务所面临的挑战．其次

对开放的视频对象分割常用数据集进行了简要概述

并介绍了通用的性能评估标准．接着

详细地分析了当前的各种方法

分割出视频剩余图像中的感兴趣对象

自动识别并分割出视频中的前景对象

但只需要少量的标注工作量

从而更具针对性．最后

对深度学习在视频对象分割任务中的应用

　视频对象分割

ＴＰ３９１　　　犇犗犐

１０．１１８９７

ＳＰ．Ｊ．１０１６．２０２１．００６０９

犃狆狆犾犻犮犪狋犻狅狀犪狀犱犘狉狅狊狆犲犮狋狅犳犇犲犲狆犔犲犪狉狀犻狀犵犻狀犞犻犱犲狅犗犫犼犲犮狋犛犲犵犿犲狀狋犪狋犻狅狀

ＣＨＥＮＪｉａ

　ＣＨＥＮＹａ  Ｓｏｎｇ

　ＬＩＷｅｉ  Ｈａｏ

　ＴＩＡＮＹｕａｎ

　ＬＩＵＺｈｉ

　ＨＥＹｉｎｇ

《计

算机

学报

ａｒｅｃｏｎｃｌｕｄｅｄ ^，ａｎｄｓｏｍｅｐｒｏｍｉｓｉｎｇｉｄｅａｓａｒｅｐｒｏｐｏｓｅｄｆｒｏｍｆｏｕｒｄｉｆｆｅｒｅｎｔａｓｐｅｃｔｓ．

１　 ^引　 ^言

^、目标检测

^、语义分割

中都表现出了很好的效果．

^、ＳｅｇＮｅｔ

^、ＤｅｃｏｎｖＮｅｔ

提出 ^，并被应用到图像语义分割

０１

６计　　算　　机　　学　　报２０２１年

《计

算机

学报

领域 ^，取得了一定的效果．典型地 ^，ＦＣ  ＤｅｎｓｅＮｅｔ

继承了ＦＣＮ的思想，并结合了ＤｅｎｓｅＮｅｔ ^；ＤｅｎｓｅＡＳＰＰ

将ＤｅｎｓｅＮｅｔ与空洞卷积特征金字塔池化 ^（ＡｔｒｏｕｓＳｐａｔｉａｌＰｙｒａｍｉｄＰｏｏｌｉｎｇ ^，ＡＳＰＰ ^）结合．这类方法结

合ＲｅｓＮｅｔ

^、ｄｅｅｐｌａｂ系列

．ＰＳＰＮｅｔ使用金字塔池化模块获取不同尺度的特

首先提出非局部 ^（Ｎｏｎｌｏｃａｌ ^）的注意力机制 ^，挖掘每个位置像素与全局像素点之间的联系．Ｃｈｅｎ等人

提出Ａ

 Ｎｅｔ ^，从矩阵乘法角度进行优化，降低计算量．Ｌｉ等人

提出了简单到复杂（ＳＴＣ ^）框架的体系结构 ^，先利用显著性检测的结果训练初始模型 ^，再结合弱标注信息使用简单到复杂的图像迭代训练，增强模型的泛化能力．Ｓｈｅｎ等人

提出ＤｅｃｏｕｐｌｅｄＮｅｔ网络，编码阶段使用大量图像级标注来训练 ^，解码阶段使用少量像素级标注来训练 ^，两个阶段通过桥接层连接．这种方法利用不同的标注信

息 ^，分别训练网络各个组件 ^，不用迭代循环训练 ^，便于结构调整和扩展．第三种是基于擦除策略训练的方法．Ｗｅｉ等人

提出了对抗擦除策略 ^（ＡｄｖｅｒｓａｒｉａｌＥｒａｓｉｎｇ ^，ＡＥ ^）的方法，使用不同擦除区域的图像训

练 ^，不断改变模型的注意力区域．Ｈｏｕ等人

提出ＡｆｆｉｎｉｔｙＮｅｔ ^，预测像素间的语义关联 ^，初始生成类激活图 ^（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ ^，ＣＡＭ ^） ^，通过稀疏激活随机游走来

实现语义传播．Ｈｕａｎｇ等人

使用不同膨胀率的空洞卷积 ^，可以扩大感受野，得到相应的注意力图，并提出一种简单有效的抗噪融合策略．Ｌｅｅ等人

提出基于随机推理的网络模型ＦｉｃｋｌｅＮｅｔ ^，该模型通过随机选择隐藏单元，可以产生许多不同尺寸和形状的感受野，训练出分类器 ^，再使用Ｇｒａｄ  ＣＡＭ方法

利用图像边框的弱标注信息，检测实例对象，再通过迭代训练得到各个实例的分割模型．Ｆａｎ等人

基于显著性实例分割方法Ｓ４Ｎｅｔ

得到图像中的显著实例，每个实例包含边界框和前景掩码 ^；再通过注意力模块 ^，使用实例的内在属性进行类别预测 ^；同时 ^，使用特征提取网络获

１１３期陈　加等

深度学习在视频对象分割中的应用与展望６

《计

算机

学报

在视频对象分割领域 ^，虽然已经有很多传统方法

图１　基于深度学习的视频对象分割方法分类

在视频序列中 ^，随着时间的推移 ^，视频不断变化，光照、视角、遮挡和图像噪声等因素为视频对象分割带来很大的挑战．虽然近几年视频对象分割领

域的研究进展显著 ^，但仍面临一些典型问题 ^：

（１ ^）场景的空间复杂性

（２ ^）与时序信息的结合