书 书 书
第4 4 卷 第3期
2 0 2 1 年3月 计 算 机 学 报
C H I N E S E J O U R N A LO F C O M P U T E R S V o l . 4 M 4N a r . 2 o 0 . 2 3 1
收稿日期:20190603;在线发布日期:20200117.本课题得到国家自然科学基金(61605054,61702207)、国家科技支撑计划项目
(2015BAK33B02,2015BAK27B02)、华中师范大学中央高校基本科研业务费(CCNU19QD007,CCNU19TD007)资助.陈 加,博士,主要 研究方向为视频图像分析、三维运动捕捉、VR/AR、机器人视觉.Email:Jacky_HIT@foxmail.com.陈亚松,硕士研究生,主要研究方向 为视频对象分割、计算机视觉.李伟浩,博士研究生,主要研究方向为视频对象分割、计算机视觉.田 元,博士,主要研究方向为视频图 像分析.刘 智(通信作者),博士,副教授,主要研究方向为深度学习、人工智能.Email:zhiliu@mail.ccnu.edu.cn.何 英,博士,主要研 究方向为图形图像处理、机器人视觉.
深度学习在视频对象分割中的应用与展望
陈 加
1) 陈亚松1)1) 李伟浩
2) 田 元
1) 刘 智
3) 何 英
4)
(华中师范大学教育信息技术学院 武汉 430079)
2)(海德堡大学视觉学习实验室 海德堡69120 德国)
3)(华中师范大学教育大数据应用技术国家工程实验室 武汉 430079)
4)(清华大学深圳研究生院 广东深圳 518055)
摘
要
视频对象分割是指在给定的一段视频序列的各帧图像中
,找出属于特定前景对象的所有像素点位置区 域. 随着硬件平台计算能力的提升
,深度学习受到了越来越多的关注
,在视频对象分割领域也取得了一定的进展.
本 文首先介绍了视频对象分割的主要任务
,并总结了该任务所面临的挑战. 其次
,对开放的视频对象分割常用数据 集 进行了简要概述
,并介绍了通用的性能评估标准. 接着
,综述了视频对象分割的研究现状
,详细地分析了当前的 各 种方法
,并将它们划分为三大类
:半监督的方法
,即给出视频第一帧图像中感兴趣对象的详细人工真值标注
,分 割 出视频剩余图像中的感兴趣对象
;无监督的方法
,即不给任何人工标注信息
,自动识别并分割出视频中的前景对 象
;交互式的方法
,即在分割过程中
,通过人工交互式的参与
,结合粗略的人工标注先验信息
,进行视频对象分割.
第三类方法的条件相当于前两者的折中
:相对于第一类方法
,它虽然需要人工的参与
,但只需要少量的标注工作 量
;相对于第二类方法
,它给视频序列中某些帧的图像适当地添加了一些人工标注信息
,从而更具针对性. 最后
,对 深度学习在视频对象分割任务中的应用
,进行了总结和展望.
关键词
视频对象分割
;深度学习
;半监督方法
;无监督方法
;交互式方法
中图法分类号T P 3 9 1 犇 犗 犐
号1 0 . 1 1 8 9 7
/S P . J . 1 0 1 6 . 2 0 2 1 . 0 0 6 0 9
犃 狆 狆 犾 犻 犮 犪 狋 犻 狅 狀 犪 狀 犱 犘 狉 狅 狊 狆 犲 犮 狋 狅 犳 犇 犲 犲 狆 犔 犲 犪 狉 狀 犻 狀 犵 犻 狀 犞 犻 犱 犲 狅 犗 犫 犼 犲 犮 狋 犛 犲 犵 犿 犲 狀 狋 犪 狋 犻 狅 狀
C H E N J i a
1)C H E NY a S o n g
1)L I W e i H a o
2)T I A NY u a n
1)L I UZ h i
3)H EY i n g
4)1)(犇犲狆犪狉狋犿犲狀狋狅犳犈犱狌犮犪狋犻狅狀犪狀犱犐狀犳狅狉犿犪狋犻狅狀犜犲犮犺狀狅犾狅犵狔,犆犲狀狋狉犪犾犆犺犻狀犪犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋狔,犠狌犺犪狀 430079)
2)(犞犻狊狌犪犾犔犲犪狉狀犻狀犵犔犪犫,犎犲犻犱犲犾犫犲狉犵犝狀犻狏犲狉狊犻狋狔,犎犲犻犱犲犾犫犲狉犵 69120 犌犲狉犿犪狀狔)
3)(犖犪狋犻狅狀犪犾犈狀犵犻狀犲犲狉犻狀犵犔犪犫狅狉犪狋狅狉狔犳狅狉犈犱狌犮犪狋犻狅狀犪犾犅犻犵犇犪狋犪,犆犲狀狋狉犪犾犆犺犻狀犪犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋狔,犠狌犺犪狀 430079)
4)(犌狉犪犱狌犪狋犲犛犮犺狅狅犾犪狋犛犺犲狀狕犺犲狀,犜狊犻狀犵犺狌犪犝狀犻狏犲狉狊犻狋狔,犛犺犲狀狕犺犲狀,犌狌犪狀犵犱狅狀犵 518055)
犃 犫 狊 狋 狉 犪 犮 狋 V i d e o o b j e c t s e g m e n t a t i o n r e f e r s t o t h e t e c h n o l o g y b y w h i c h t h e p o s i t i o n s o f a l l p i x e l s b e l o n g i n g t o t h e p a r t i c u l a r f o r e g r o u n d o b j e c t s i n e a c h f r a m e o f a g i v e n v i d e o s e q u e n c e c a n b e f o u n d o u t a n d l a b e l e d . T h i s t e c h n o l o g y i s o n e o f t h e m o s t i m p o r t a n t r e s e a r c h t o p i c s i n t h e f i e l d o f c o m p u t e r v i s i o n . A n d i t p l a y s a n i m p o r t a n t r o l e i n m a n y a p p l i c a t i o n s o f c o m p u t e r v i s i o n , s u c h a s 3 D r e c o n s t r u c t i o n , a u t o m a t i c d r i v i n g , v i d e o e d i t i n g , a n d s o o n . W i t h t h e i m p r o v e m e n t o f c o m p u t i n g p o w e r , d e e p l e a r n i n g h a s a t t r a c t e d m o r e a n d m o r e a t t e n t i o n a n d m a d e s i g n i f i c a n t p r o g r e s s i n t h e t a s k o f v i d e o o b j e c t s e g m e n t a t i o n . F i r s t l y , t h i s p a p e r i n t r o d u c e s t h em a i n t a s k o f v i d e o o b j e c t s e g m e n t a t i o n a n d s u m m a r i z e s t h em a i n c h a l l e n g e s t h a t t h e t a s k i s f a c i n g . S e c o n d l y , ab r i e f o v e r v i e w o f t h e o p e n d a t a s e t s f o r v i d e o o b j e c t s e g m e n t a t i o n t a s k i s g i v e n . T h e n t h e r e l e v a n t
《 计
算 机
学 报
》
b e n c h m a r k s a n d c o m m o n p e r f o r m a n c e e v a l u a t i o n c r i t e r i a a r e i n t r o d u c e d . T h i r d l y , t h e r e s e a r c h s t a t u s o f v i d e o o b j e c t s e g m e n t a t i o n i s s u m m a r i z e d . T h e r e l e v a n tm e t h o d s a r e i n t r o d u c e d a n d a n a l y z e d i n d e t a i l . A n d t h e s e m e t h o d s f a l l i n o n e o f t h e t h r e e f o l l o w i n g c a t e g o r i e s : t h e f i r s t o n e s a r e s e m i s u p e r v i s e dm e t h o d s . N a m e l y , t h e d e t a i l e d a r t i f i c i a l t r u t h a n n o t a t i o n o f t h e i n t e r e s t e d o b j e c t s i n t h e f i r s t f r a m e i m a g e o f v i d e o s e q u e n c e i s g i v e n . A n d t h e i n t e r e s t e d o b j e c t s i n t h e r e m a i n i n g v i d e o s e q u e n c e f r a m e s a r e s e g m e n t e d a u t o m a t i c a l l y . A t p r e s e n t , i n t h e v i d e o o b j e c t s e g m e n t a t i o n t a s k o f a s i n g l e i n s t a n c e , t h e J a c c a r d s c o r e o f s e m i s u p e r v i s e dm e t h o d s c a n r e a c h m o r e t h a n 0 . 8 b y t a k i n g t h e D A V I S 1 6 d a t a s e t a s a n e x a m p l e . I n t h e m u l t i i n s t a n c e v i d e o o b j e c t s e g m e n t a t i o n t a s k , f o r e x a m p l e , t h e D A V I S 1 8 d a t a s e t w h i c h i s w i d e l y u s e d , t h e J a c c a r d s c o r e o f s e m i s u p e r v i s e dm e t h o d s h a s r e a c h e do v e r 0 . 7 . T h e s e c o n do n e s a r eu n s u p e r v i s e dm e t h o d s , w h i c h c a n i d e n t i f y a n d s e g m e n t t h e f o r e g r o u n d o b j e c t s i n v i d e o b y t h e c e r t a i n r u l e s o r m o d e l s , w i t h o u t a n y m a n u a l l a b e l i n g p r i o r i n f o r m a t i o n . T h e t h i r d o n e s a r e i n t e r a c t i v e m e t h o d s , b a s e d o n t h e m e t h o d o f i n t e r a c t i v e r o u g h a r t i f i c i a l p r i o r i n f o r m a t i o n . I n t h e s em e t h o d s , t h e r o u g h a r t i f i c i a l p r i o r i n f o r m a t i o n , s u c h a s p o i n t , b o u n d i n g b o x , a n d s c r i b b l e , i s o b t a i n e d f r o mt h e i n t e r a c t i v e m o d u l e s . A n d v i d e o o b j e c t s e g m e n t a t i o n i s c a r r i e d o u t b y m u l t i p l e m a n u a l p a r t i c i p a t i o n s , b u t o n l y a s m a l l a m o u n t o f w o r k a t e a c h t i m e . T h e c o n d i t i o n o f t h e t h i r d k i n d o f m e t h o d s c a n b e c o n s i d e r e d a s t h e c o m p r o m i s e o f t h e f o r m e r t w o . C o m p a r e d w i t h t h e f i r s t o n e , a l t h o u g h i t r e q u i r e s m a n u a l p a r t i c i p a t i o n , i t o n l y r e q u i r e s a s m a l l a m o u n t o f l a b e l i n g w o r k . C o m p a r e d w i t h t h e s e c o n d o n e , i t a p p r o p r i a t e l y a d d s s o m em a n u a l l a b e l i n g i n f o r m a t i o n t o t h e i m a g e s o f s o m e f r a m e s i n t h e v i d e o s e q u e n c e , w h i c hm a k e s t h em e t h o d s m o r e t a r g e t e d f o r t h e i n t e r e s t e d o b j e c t s . T h e b e s t J a c c a r d s c o r e s o f t h e u n s u p e r v i s e d m e t h o d s a n d t h e i n t e r a c t i v e m e t h o d s c a n b o t h r e a c h 0 . 8 i n t h e D A V I S 1 6 d a t a s e t . B u t t h e r e a r e f e wu n s u p e r v i s e dm e t h o d s t h a t d e a l w i t h t h em u l t i i n s t a n c e p r o b l e mo f t h e D A V I S 1 8 d a t a s e t . T h e b e s t i n t e r a c t i v e m e t h o d s c a n o n l y r e a c h 0 . 6 4 f o r J a c c a r d s c o r e i n t h e D A V I S 1 8 i n t e r a c t i v e d a t a s e t . F i n a l l y , t h e a p p l i c a t i o n s o f d e e p l e a r n i n g i n v i d e o o b j e c t s e g m e n t a t i o n t a s k
a r e c o n c l u d e d , a n d s o m e p r o m i s i n g i d e a s a r e p r o p o s e d f r o m f o u r d i f f e r e n t a s p e c t s .
犓 犲 狔 狑 狅 狉 犱 狊 v i d e o o b j e c t s e g m e n t a t i o n ; d e e p l e a r n i n g ; s e m i s u p e r v i s e dm e t h o d s ; u n s u p e r v i s e d m e t h o d s ; i n t e r a c t i v e m e t h o d s
1 引 言
随 着 摄 像 设 备 和 数 字 化 存 储 设 备 的 普 及 与 广 泛 应 用 , 全 球 范 围 内每天产生的视频数据总量在不断 增 加 . 视 频 内 容 的处理需求也日益增加 , 其中 , 视频 对 象 分 割 的 研 究 是 计 算 机 视 觉 领 域 十 分 重 要的研 究 课 题 之 一 , 在 三 维 重 建 、 自 动 驾 驶 、 视 频 编 辑 等 方 面 有 着 重 要 应 用 . 早 期 , 在 视 频 编 码 国 际标准M P E G 4
[1]中 , 采 用 了 基 于 对 象 的 编 码 方 式 , 指 出 视 频 是 由 一 系 列 视 频 对 象 组 成 的 , 从 而 引 入 了 视 频 对 象 的 概 念 . 视 频 对 象 分 割 是 指 在 给 定 的 一 段 视 频 序 列 的 各 帧 图 像 中 , 找 出 属 于 特 定前景对象的所有像素点位置的技 术 . 当 前 深 度 学 习在计算机视觉的一些基础任务如 图 像 分 类
[2]、 目 标 检 测
[3]、 语 义 分 割
[4]中都表现出了 很 好 的 效 果 .
视频是由图像组成的 , 视频对象分割与图像分 割 存 在 着 紧 密 的 联 系 . 近 年 来 , 涌 现 了 很 多 基 于 全 监 督 学 习 和 弱 监 督学习的图像分割方法 . 全监督学习 图 像 分 割 方 法大致可以分为以下几类 : ( 1 ) 基于全 卷 积 网络 ( F u l l y C o n v o l u t i o n a l N e t w o r k s , F C N ) 的 方 法 . 这类方法的思想最早由L o n g 等人
[5]提出 , 使 用 全 卷 积 代 替 全连接层 , 可以兼容任意尺寸并能实 现 端 到 端 的 训 练 , 但 缺 乏 空 间 一 致 性 , 导 致 分 割 结 果 过 于 平 滑 不 精 细 ; ( 2 ) 基于编解码的方法 . 这类方法 改 进 了F C N方法的不足 , 探索了不同的解码方式 , 在 解 码阶段融入低层特征来保留细节 , 使得分割 效 果更精细 , 如U n e t
[6]、 S e g N e t
[7]、 D e c o n v N e t
[8]等 . 但 这 类方法新增了解码阶段 , 提高了模型复杂 度 ; ( 3 ) 基 于 密 集连接卷积网络 ( D e n s e l y C o n n e c t e d C o n v o l u t i o n a l N e t w o r k s , D e n s e N e t ) 的方法 . D e n s e N e t 最 早 由H u a n g 等 人
[9]提 出 , 并 被 应 用 到 图 像 语 义 分 割
0 1
6 计 算 机 学 报 2 0 2 1 年
《 计
算 机
学 报
》
领 域 , 取得了一定的效果 . 典型地 , F C D e n s e N e t
[10]继 承 了 F C N的 思 想 , 并 结 合 了D e n s e N e t ; D e n s e A S P P
[11]将D e n s e N e t 与空洞卷积特征金字塔池化 ( A t r o u s S p a t i a l P y r a m i d P o o l i n g , A S P P ) 结合 . 这类方法结
合R e s N e t
[12]的跳跃连接思想 , 更加密集地连接不 同 的 卷 积 网 络 层 , 提 高 了 参 数 和 特 征 的 利 用 率 , 减 少 了 参 数 量 . 然 而 在 模 型 训 练 时 , 频 繁 的 跨 层 连 接 带 来 了 更 高 的 显 存占用率和计算量 ; ( 4 ) 基于多尺度特 征 融 合 的 方 法 . 这类方法结合不同层次的语义特征 和 不 同 区 域 的 上下文信息 , 提高获得全局信息的能 力 . 典型的方法有P S P N e t
[13]、 d e e p l a b系列
[4,1416]. P S P N e t 使用金字塔池化模块获取不同尺度的特
征 ; d e e p l a b 系 列 使用空洞卷积增大感受野 , 获取不 同 尺 度 的 上 下 文 信 息 , 提 高 精 度 . 然 而 在 不 同 尺 度 下 , 对 象 的 细节可能丢失 , 对分割结果有影响 ; ( 5 ) 基 于 注 意 力 机 制的方法 . W a n g等人
[17]首先提出非局 部 ( N o n l o c a l ) 的注意力机制 , 挖掘每个位置像素与 全 局 像 素 点 之 间 的 联 系 . C h e n 等 人
[18]提 出A
2 N e t , 从 矩 阵 乘 法 角度进行优化 , 降低计算量 . L i 等人
[19]提 出了金字塔型注意力网络 ( P y r a m i dA t t e n t i o n N e t w o r k , P A N ) , 挖掘局部与全局像素之间的相似 关 系 . 此 类 方 法 根 据 视 觉 注 意 特 点 , 在 不 增 加 过 多 参 数 量 的 情 况 下 , 选 择 性 地 筛 选 有 效 的 语 义 特 征 信 息 , 利 用 局 部 与 全 局像素点的联系 , 提高模型的效率和 准 确 性 . 由 于 全 监 督 学 习 方 法 , 需 要 具 有 大 量 精 确 标 注 的 训 练数据集 , 获取成本较高 . 为了解决这一问 题 , 很 多 基 于 弱 监督学习的图像分割方法进行了相 关 探 索 , 利 用 图 像 类 别 、 边 框 、 涂 鸦 等 弱 标 签 信 息 , 或 者 少 量 标 注 数 据 , 进 行 模 型 训 练 , 降 低 了 对 精 确 标 注 数 据 量 的 需 求 , 并 取 得 了 一 定 的 进 展 . 典 型 的 弱 监 督 学 习 图 像 分 割方法可以分为以下几类 : ( 1 ) 基于不 同 训 练 策 略 的 方 法 . 第 一 种 是 基 于 多 步 训 练 的 方 法 . W e i 等 人
[20]提出了简单到复杂 ( S T C ) 框架的体系 结 构 , 先 利 用 显 著 性 检 测 的 结 果 训 练 初 始 模 型 , 再 结 合 弱 标 注 信 息 使用简单到复杂的图像迭代训练 , 增 强 模 型 的泛化能力 . S h e n等人
[21]还使用抓取的网 络数据来进行多步学习 , 改善了训练数据量不足 的问题. 这类方法利用弱标注信息得到初始网络 , 并通过不同层次的图像或相关的网络图像 , 来逐 步强化网络 , 提供了有效的模型训练思路. 第二种 是基于编解码结构训练的方法. H o n g 等人
[22]提出 D e c o u p l e d N e t 网络 , 编码阶段使用大量图像级标注 来 训 练 , 解 码 阶 段 使 用 少 量 像 素 级 标 注 来 训 练 , 两 个 阶 段 通 过 桥 接 层连接 . 这种方法利用不同的标注信
息 , 分 别 训 练 网 络各个组件 , 不用迭代循环训练 , 便 于 结 构 调 整 和 扩展 . 第三种是基于擦除策略训练的 方 法 . W e i 等 人
[23]提出了对抗擦除策略 ( A d v e r s a r i a l E r a s i n g , A E ) 的方法 , 使用不同擦除区域的图像训
练 , 不 断 改 变模型的注意力区域 . H o u等人
[24]提出 自 擦 除 策 略 的 网 络 ( S e l f E r a s i n g N e t w o r k , S e e N e t ) , 不 仅 减 少 了 工 作量 , 而且在前景和背景之间预留潜 在 区 域 , 一 定 程 度 上 避 免 了 前 景 向 背 景 区 域 的 扩 张 . 这 类 方 法利用有限的数据 , 使用擦除的方式 , 让模 型 更 加 全 面 地 关注对象的各个特征 , 减少模型对特 定 区 域 特征的依赖 . 这类方法 , 充分利用弱标注信 息 , 使 用 不 同 的 训练策略 , 取得了一定的效果 , 但在 挖 掘 像 素 点 之 间 的 联 系上 , 还需进一步探索 ; ( 2 ) 基 于 语 义 传 播的方法 . A h n等人
[25]提出A f f i n i t y N e t , 预 测 像 素间的语义关联 , 初始生成类激活图 ( C l a s s A c t i v a t i o nM a p , C A M ) , 通过稀疏激活随机游走来
实 现 语 义 传 播 . H u a n g 等 人
[26]提 出 种 子区域扩张的 方 法 , 初 始 化 生 成 分 割 结 果 , 再 通 过 区 域 扩 张 实 现 语 义 传 播 . 这 类 方 法 使 用 粗 分 割 加 语 义 传 播 的 形 式 , 在 语 义 传 播 或 扩 张的阶段 , 探索了像素点间的语义特 征 联 系 , 但 这 种 探 索 比 较局部 ; ( 3 ) 基于不同感受野 的 方法 . W e i 等人
[27]使用不同膨胀率的空洞卷积 , 可 以 扩 大 感 受 野 , 得 到 相 应 的 注 意 力 图 , 并 提 出 一 种 简 单 有 效 的 抗 噪融合策略 . L e e 等人
[28]提出基于随 机 推 理 的 网 络 模 型F i c k l e N e t , 该 模 型 通 过随机选择 隐 藏 单 元 , 可 以 产 生 许 多 不 同 尺 寸 和 形 状 的 感 受 野 , 训 练 出 分 类 器 , 再 使 用G r a d C A M方法
[29]生 成 位 置 图 , 将 多 个 位 置 图 集 成 得 到 分 割 结 果 , 并 将 其 作 为 样 本 训 练 分 割 网 络 . 相 对 于 语 义 传 播 的 局 部 特 征 联 系 , 空 洞 卷 积 可 以 挖掘更大感受野内的语义特征联系 , 融 合 不 同 尺 度 的 细 节 信息 , 提高效果 ; ( 4 ) 基于生成 式 对抗网络 ( G e n e r a t i v e A d v e r s a r i a l N e t w o r k , G A N ) 的 方 法 . S o u l y 等人
[30]将这一思想应用到弱监督的 语 义 分 割中 , 通过生成器 , 结合图像级标注生成图 像 , 再 使 用 生 成 图 像 、 图 像 级 标 注 和 像 素 级 标 注 信 息 来 训 练 判 别 器 . 这类方法通过生成网络和判别网络 对 抗 的 形 式 训 练 , 需 要 的 训 练 数 据 较 少 , 但 相 比 于 一 般 的 网 络 , 需要更多的显存 , 模型较不稳定 ; ( 5 ) 基 于 显 著 实 例 的 方 法 . L i 等 人
[31]利 用 图 像 边框的弱标 注 信 息 , 检 测 实 例 对 象 , 再 通 过 迭 代 训 练 得 到 各 个 实 例 的 分 割 模 型 . F a n等人
[32]基于显著性实例分割方 法S 4 N e t
[33]得 到 图 像中的显著实例 , 每个实例包含 边 界 框 和 前 景 掩 码 ; 再 通 过 注 意 力 模 块 , 使 用 实 例 的 内 在 属 性 进 行 类 别 预 测 ; 同 时 , 使 用 特 征 提 取 网 络 获
1 1 3期 陈 加等
:深度学习在视频对象分割中的应用与展望 6
《 计
算 机
学 报
》
取 每 个 实 例 的 语 义 特 征 , 在 整 个 数 据 集 范 围 内 , 构 建 实 例 相 似 图 并 划分 , 每个子图将决定这一类实例最 终 的 类 别 . 这 类 方 法 利 用 各 个 对 象 内 在 的 实 例 属 性 , 并 探 索 了 实 例 间 的 联 系 , 提 高 了 分 割 效 果 . 这 些 典 型 的 图 像 分 割 方 法 , 可 以 挖 掘 视 频 的 单 帧 语 义 信 息 , 为 视 频 对 象 分 割 技 术 的 发 展 奠 定 了 基 础 .
在视频对象分割领域 , 虽然已经有很多传统方 法
[3436]取 得 了 一 定 的 效 果 , 但 随 着 硬 件 的 提 升 , 深 度 学 习 的 方 法 吸 引 了 很 多 研 究 者 的 关 注 . 如 图 1 所 示 , 根 据 在 待分割视频中给定的人工先验信息具体程 度 , 可 以 分 为 半 监 督 的 方 法 、 无 监 督 的 方 法 和 交 互 式 的 方 法 . 另 外 , 在图像分割中 , 监督学习是针对整个 训 练 数 据 集 的 标 注 形 式 来 说 的 , 即 一 般 意 义 的 监 督 ; 在 视 频 对 象 分 割中 , 监督学习是针对待分割视频给 出 的 标 注 形 式 来说的 , 即通过相似视频训练后的模 型 是 否 还需要使用待分割视频的标注信息进行调 整 , 二 者 有 一 定 的区别 . 在视频对象分割领域 , 半监 督 方 法 的 任 务 定义为 : 给出视频第一帧图像中感兴 趣 对 象 的 详 细 人工真值标注 , 自动地分割出剩余所 有 视 频 序 列 图 像中的感兴趣对象 ; 无监督方法的任 务 定 义 为 : 不 给 任 何 人 工 标 注 信 息 , 自 动 识 别 并 分 割 出 视 频 中 的 前 景 对 象 ; 交 互 式 方 法 的 任 务 定 义 为 : 在 分 割 的 过 程 中 , 通 过 人 工 交 互 式 参 与 , 结 合 粗 略 的 人 工 标 注 先 验 信 息 , 进 行 视 频 对 象 分 割 . 第 三 类 方 法 的 条 件 相 当 于 前 两者的折中 : 相对于第一类方法的条 件 , 它 减 少 了 注 释 的 工 作 量 ; 相 对 于 第 二 类 方 法 的 条 件 , 在 视 频 的 某 几 帧 图 像 中 , 适 当 地 添 加 了 粗 略 的 人 工 注 释 信 息 , 从 而在分割感兴趣前景对象中更具针 对 性 . 在 三 大 类 条 件 下 , 根 据 每 类 方 法 的 处 理 特 点 又 可 以 细 分 为 若 干 种 不 同 的 子 方 法 .
图1 基于深度学习的视频对象分割方法分类
在 视 频序列中 , 随着时间的推移 , 视频不断变 化 , 光 照 、 视 角 、 遮挡和图像噪声等因素为视频对象 分 割 带 来 很 大 的挑战 . 虽然近几年视频对象分割领
域 的 研 究 进 展 显 著 , 但 仍 面 临 一 些 典 型 问 题 :
( 1 ) 场 景 的 空 间 复 杂 性
对 于 不 同 的 视 频 序 列 来 说 , 在 不 同 的 环 境 下 , 对 象 、 背 景 、 拍照条件等固有因素增加了场景的复杂 性 . 在 单 帧 图 像 内 , 存 在 运 动 模 糊 、 相 机 抖 动 、 光 照 不 均 、 外 观 变 化 、 对象的形变或遮挡等复杂情况 , 为对 象 空 间 特 征 的 提取增加了难度 , 影响了对象的分割 效 果 .
( 2 ) 与 时 序 信 息 的 结 合
视频序列的另一个要素就是时序信息 , 怎样将 空 间 局 部 特 征 信息与时序信息相结合 , 是在视频序 列 图 像 之 间 建 立信息传播机制的关键 . 目前的一些 论 文 结 果
[3738]体 现了添加时序信息前后的差异性 , 然 而 如 何 基 于 已分割视频序列图像的信息 , 指导其 他 帧 图 像 内 的 对 象 分 割 , 还 需 要 进 一 步 的 探 索 . 对 于 一 些 视 频 中 对 象出现消失与重现的现象 , 如何提高 模 型 的 再 识 别 能 力 , 也 是 时 序 信 息 传 播 的 关 键 .
( 3 ) 对 基 础 任 务 的 依 赖
很多的视频对象分割方法 , 将分割任务分为几 个 基 础 任 务 来 分 步 处 理 . 每 个 基 础 任 务 方 法 的 性 能 , 均 在 一 定 程 度 上影响着分割的结果 . 对每帧图像内 的 对 象 特 征 提 取过程中 , 涉及到更加基础的图像分 类 、 对 象 检 测 和 静 态 图 像 分 割 等 任 务 的 处 理 过 程 . 因 此 , 结 合 视 频 对 象 分 割 的 特 点 , 对 基 础 任 务 的 解 决 方 法 进 行 相 关 的 迁移与改进 , 是探索更好的视频对象 分 割 方 法 的 基 础 .
( 4 ) 数 据 集 问 题
视频对象分割的最小单位是一段视频序列 . 对 于 模 型 训 练 来 说 , 不 仅 需 要 很 多 的 视 频 序 列 , 还 需 要 对 视 频 的 每 一 帧进行像素级的标注 , 为人工标注带 来 了 巨 大 的 工 作 量 . 近 些 年 来 , 视 频 对 象 分 割 研 究 比 较 热 , 然 而 开 放 数据集的数量以及视频序列涵盖的 场 景 相 对 有 限 . 已 存 在 的 数 据 集 在 目 标 对 象 的 个 数 、 种 类 、 外 观 变 化 、 遮挡 、 运动形变等方面上仍然有所 限 制 . 真 实 世 界 中 的 场 景 复 杂 多 样 , 这 就 需 要 更 丰 富 的 数 据 集 来 进 行 模 型 训 练 .
针对上述问题 , 越来越多的研究人员提出新的 解 决 方 法 来 优 化视频对象分割的结果 , 同时也发布 了 一 些 新 的 数 据集 , 使得数据集涵盖的场景也不断 地 丰 富 起 来 . 本 文首先介绍了目前常用的开放公共 数 据 集 , 以 及 当 前被广泛使用的分割准确率评估标 准 . 其 次 , 将 视 频对象分割方法分为三个大类 : 半监 督 的 方 法 、 无 监 督 的 方 法 和 交 互 式 的 方 法 , 逐 个 进 行 了 详 细 地 介 绍 . 然 后 , 统 计 并 分 析 了 各 方 法 的 实 验 结
2 1
6 计 算 机 学 报 2 0 2 1 年
《 计
算 机
学 报
》
果 . 最 后 , 对 文 章进行总结 , 并对视频对象分割的未 来 研 究 方 向 进 行 了 展 望 .
2 常用数据集与评估标准
2 1 常用数据集
视 频 对 象 分 割 方 法 需 要 一 定 数 据 集 进 行 训 练 或 者验证. 因此 , 构建一定规模的数据集和评估标 准 , 是视频对象分割的必然要求 , 不仅方便科研人 员验证方法 , 也保证了视频对象分割研究的评价 统 一 性 . 由 于 视 频 序 列 数 据 量 很 大 , 相 应 地 增 加 了 人 工 标 注 工 作 量 . 目 前 大 部 分 的 方 法 , 采 用 的 训 练 测 试 数据集主要以D A V I S
[3940]、 Y o u T u b e O b j e c t s
[41]、 Y o u T u b e V O S
[42]和S e g T r a c k v 2
[43]数据集为主 , 见 表 1 . 这 些 数 据 集 涵 盖 了各种各样的挑战 , 例如视 频 序 列 中 的 对 象 外 观 变 化 、 被 遮 挡 、 运 动 模 糊 以 及 物 体 形 变 等 .
表
1
视频对象分割方法的常用数据集对比 数据集名称 视频个数 标注总帧数 单帧图像 DAVIS2016[39] 50 3455 单个对象个数 DAVIS2017[40] 150 10474 多个 YouTubeObjects[41] 126 超过20000 单个 YouTubeVOS[42] 3252 133886 多个 SegTrackv2[43] 14 947 多个
犇 犃 犞 犐 犛 数据集 . 该数据集被用于D A V I S视频 对 象 分 割 挑 战 赛 . 该组织者提供了视频对象分割领 域 的 测 试基准 , 每年都发布带详细标注的数据集 . 2 0 1 6 年 该 数 据 集 第 一 次 发布 , 只包含单个对象的视
频 对 象 分 割 任 务 , 5 0 个 视频序列 , 共3 4 5 5帧详细标 注 图 像
[39]. 2 0 1 7年该组织者提供了1 5 0帧视频序 列 , 共1 0 4 5 9帧详细标注图 , 并提出了半监督的视 频 对 象 分 割 任 务 , 在 该 任 务 中 , 给 定 待 分 割 视 频 序 列 的 首 帧 详 细 先 验信息 , 要求输出剩余帧的多实例分 割 结果
[40]. 2 0 1 8年在D A V I S 2 0 1 7年的数据集上 , 该 组 织 者 提 出 了 半 监 督 和 交 互 式 的 视 频 对 象 分 割 任 务
[44]. 2 0 1 9年在同样的数据集上 , 还提出了无监督 的 视 频 对 象 分 割 任 务 . 在 该 任 务 中 , 模 型 自 动 地 分 割 出 视 频 序 列中的多个实例
[45]. 随着比赛的开展 , 该 数 据 集 的 数 据 量增加 , 视频对象分割任务的目标从 单 对 象 发 展 到 多 实 例 , 序列中的对象分割难度也有 所增加 , 如视频中出现个别实例的消失与重现 、 实 例间遮挡更严重 、 运动形变程度更大等问题 . 在 D A V I S 数 据 集 中 , 部 分 视 频 序 列 的 单帧图像标注示
例 如 图 2 所 示 .
图2 D A V I S 2 0 1 7 数据集
[40]示例
(
第1列为原图
,第2列为人工真值标注图
)犢 狅 狌 犜 狌 犫 犲 犗 犫 犼 犲 犮 狋 狊 数据集 . 该 数 据 集 是 视 频对象 分 割 领 域 比 较 常用的数据集之一 , 包含了1 2 6个视 频 片 段 、 1 0 种 类 别 的 对 象 、 超 过2 0 0 0 0帧的图像 , 每 帧 图 像 都 进 行 了 像 素 级 的 人 工 标 注
[41].
犢 狅 狌 犜 狌 犫 犲 犞 犗 犛 数据集 . 2 0 1 8年 , X u等人
[42]发 布 了 迄 今 为 止 最大数据量的数据集 , 一定程度上解 决 了 领 域 内 数 据 量 的 问 题 . 该 数 据 集 包 含 了 3 2 5 2 个 视 频 片 段 、 7 8 种 类 别 对 象 、 共 1 3 3 8 8 6帧人工像素级 标 注 的 图 像 . 由 于 该 数 据 集 提 出 较 晚 , 目 前 基 于 该 数 据 集 的 实 验 测 试 还 不 是 很 多 .
犛 犲 犵 犜 狉 犪 犮 犽 狏 2 数据集 . 该数据集包含了1 4个视 频 片 段 、 2 4 种 类 别 对 象 、 共 9 4 7 帧 图 像
[43]. 该 数 据 集 中 , 每 一 帧 图 像 都 做 了 像 素 级 的 标 注 , 并 覆 盖 了 运 动 模 糊 、 外 观 改 变 、 复 杂 形 变 、 遮 挡 、 低 速 运 动 和 对 象 铰 接 的 场 景 .
2 2 评估标准
运用已经构建好的开放数据集 , 研究人员可以 进 行 深 度 学 习 模型的训练和测试 . 同时需要建立一 个 统 一 的 评 估 框 架 , 方 便 评 估 方 法 的 分 割 准 确 率 . 目 前 已 经 有 一 些 研 究 者 提 出 了 比 较 通 用 的 评 估 标 准 . 在 介 绍 这 些评估标准之前 , 先说明两个通用的符号 : 犌 是 指 人 工 标 注 的 真 值 掩 码 , 犕是指分割结果掩码.
( 1 ) 区 域 相 似 性
为 了 比 较 对 象 分 割 区 域 与 人 工 标 注 的 真 值 掩 码 的 相 似 性 , 采 用 雅可比相似度犑来表示算法的预测 分 割 与 真 值 之 间的交并比 . 由于它不受图像的尺寸 限 制 , 就 能 直 观 反 映 出 错 误 预 测 像 素 的 占 比 , 因 此 受 到 了 广 泛应用 , 也成为D A V I S 2 0 1 6挑战赛
[39]的评
3 1 3期 陈 加等
:深度学习在视频对象分割中的应用与展望 6
《 计
算 机
学 报
》
估 标 注 之 一 . 计 算 方 式 如 下 : 犑 = | 犕∩ 犌 |
| 犕∪ 犌 | ( 1 )
( 2 ) 轮 廓 精 确 度
轮廓精确度的计算公式 , 最早被G a l a s s o等 人
[46]提 出 , 后 来在D A V I S 2 0 1 6挑战赛
[39]上被用于 轮 廓 的 评 价 标 准 . 从 轮 廓 的 角 度 看 , 视 频 对 象 分 割 掩 码 可 看 作 是 一 系 列 封 闭 轮 廓 的 集 合 犮 ( 犕 ) . 通 过 计 算 轮 廓 精 确 度犉测度 , 即对象轮廓的预测掩码 犮 ( 犕 ) 与 真值 犮 ( 犌 ) 之间的准确率犘
犮和召回率 犚
犮的函数 , 从 而 确 定 分 割 边 界 的 准 确 率 , 计 算 方 式 如 下 :
犉=2 犘
犮犚
犮犘
犮+ 犚
犮( 2 ) 这两种评估标准目前在文献中使用最多 , 同时 它 们 也 是D A V I S 视 频对象分割挑战赛中使用的两 个 指 标 . 对 于 区 域 相 似 性 的 度 量 , 它 可 以 不 受 图 像 的 限 制 , 刻 画 分 割 结 果 与 真 值 之 间 的 像 素 重 叠 程 度 ; 而 轮 廓 精 确 度 的 度量 , 则反映了对象边界的准确度和 精 细 程 度 ; 二 者 分别从两个方面构建视频对象分割 的 评 估 指 标 , 通 常 被 用 于 算 法 性 能 评 估 .
3 半监督的方法
在视频对象分割任务中 , 基于半监督的方法主
要 解 决 的 问 题 是 , 给定视频序列第一帧详细的人工 标 注 先 验 信 息 , 即对需要分割的对象进行像素级的 标 注 , 输 出 指 定 整 个 视 频 序 列 剩 余 帧 的 图 像 掩 码 . 虽 然 传 统 的 方 法 通过有针对性地联合多种图像特征 , 建 立 相 应 的 模 型进行视频对象分割 , 但分割效果有 限
[47]. 最 近几年 , 在D A V I S挑战赛的推动下 , 基于 深 度 学 习 的 方 法发展尤为迅速 , 研究者们以卷积神 经 网 络 ( C o n v o l u t i o n a l N e u r a l N e t w o r k , C N N ) 为核 心 , 不 断 提 出 新 的 模 型 并 改 进 , 在 半 监 督 的 视 频 对 象 分 割 任 务 中 取 得 了 很 好 的 效 果 .
本节将半监督的方法划分为以下六类 : 独立分 割 的 方 法 、 基 于 帧 间 信 息 的 方 法 、 基 于 深 度 强 化 学 习 的 方 法 、 基 于R N N的方法 、 基于多模型融合的方法 和 基 于 多 模 块 综 合的方法 . 表2对这几类方法进行 了 比 较 和 分 析 , 其 中 , 模 型 一 般 采 用 多 步 法 的 训 练 模 式 : 首 先 , 基 于 图像领域的相关数据集 , 训练基础特 征 提 取 模型 ; 其次 , 在视频对象分割任务的训练集 中 , 对 基 础 模 型 进行再次预训练 ; 最后 , 对待分割视 频 中 , 带 有 先 验 信 息 的 第 一 帧 图 像 进 行 增 广 , 在 增 广 的 数 据 集 上 , 对 模 型 进 行 微 调 , 使 模 型 对 当 前 视 频 的 对 象 更 具针对性 . 另外 , 有些方法可以在线微调模 型 : 在 分割的同时将已经分割的图像和对应的结 果 加 入 到 训 练 集 中 , 微 调 模 型 , 迭 代 地 分 割 整 个 视 频 序 列 .
表
2
半监督的视频对象分割方法对比方法类别 代表算法 模型输入 模型训练 方法特点 优点 缺点 分割的独立
方法
基于OSVOS
的方法 OSVOS[38] 单帧图像 预训练微调,
将视频切分成图像帧, 使用训练好的模型进 行图像分割.
基于在线微调
的方法 OnVOS[48] 单帧图像 预训练在线微调,
在OSVOS的基础上, 不断地将分割结果和 对应的图像加入到训 练集,微调网络.
1.独立分割,相对来 说,速度快.
2.不考虑上下文信 息,一定程度上避免 误差传播.
1.视频序列中的对 象前后差异过大,分 割效果差.
2.缺乏上下文信息, 无法利用视频对象 特征的时间一致性, 分割效果受限.
基于帧间信息 的方法
基于对象匹配
的方法 FEELVOS[49]第一帧分割 图像、当前
图像 预训练, 微调
在一段视频序列中,虽 然同一对象在各帧图 像中有一定的变化,但 具有相似性,通过建立 模型,提取对象特征并 匹配.
基于光流特征
的方法 MoNet[50] 相邻图像、光
流图 预训练,
微调 光流特征是重要的上 下文信息,可以很好地 描述对象的运动特征.
基于在线微调
的方法 FAVOS[51] 当前图像,上 一帧预测结
果和光流图 预训练, 在线微调
相对于独立分割中的在 线微调方法,此类方法 建立的在线微调模型, 还能够结合上下文信息. 基于掩码传播
的方法 MaskTrack[37]上一帧和当前 图像、光流图、 上一帧掩码
预训练,
微调 基于给定的首帧图像 掩码,建立掩码传播模 型,指导剩余帧的分割.
1.建立的模型能够 挖掘图像之间的信 息,指导剩余帧的分 2割结果..在视频序列中,利 用对象特征具有一 定的相似性,提高分 3割效果..相对于OSVOS来
说,效果更好.
1.利用帧间的信息 指导分割的同时,可 能存在误差传播.
2.一般采用多分支 的网络结构,模型复 杂度增加.
3.没有再识别的功 能,可能会丢失目标.
4 1
6 计 算 机 学 报 2 0 2 1 年
《 计
算 机
学 报
》
(续 表) 方法类别 代表算法 模型输入 模型训练 方法特点 优点 缺点 基于深度强化学习的
方法 RCA[52] 上一帧的分 割掩码,当前 图像
预训练, 微调(可 选)
依赖上下文信息,基于 上一帧的掩码,得到对 象在当前图像的初始位 置边界框,再基于强化 网络,指导并调整边界 框的位置和大小,不断 强化分割结果.
1.将强化学习应用 到视频对象分割,并 取得一定效果.
2.利用上下文中对 象的位置信息.
1.依赖于上下文中 对象的位置信息,对 象位置改变较大,会 影响分割效果.
2.每帧需要多步调 整,耗时.
基于RNN的方法 文献[42] 当前图像、历
史信息 预训练, 微调
将RNN与CNN结合,利 用CNN提取空间特征, RNN提取序列特征,代 表性结构:ConvLSTM、 ConvGRU.
建立具有历史记忆 的模型,递归处理历 史信息,获取上下文 信息.
1.需记忆历史信息, 2占内存..递归处理过程存
在误差传播.
基于多模型融合的
方法 文献[53] 上一帧和当 前图像、上一
帧分割结果 预训练, 微调
将待分割的实例对象进 行分类,并对每个类别 建立对应的分割模型, 再将各对象实例的分割 结果融合.
1.结合上下文信息.
2.对不同类别对象 分别建立模型,具有 针对性.
1.多个模型训练时 间长、消耗内存.
2.增加对象分类过程, 可能引入分类误差.
基于多模块综合的
方法 PReMVOS[54]
上一帧、当前 帧和下一帧 的图像,对应 的光流图
预训练, 微调
模型包含对象检测、分 割、融合上下文信息、对 象再识别等模块,利用 图像领域内更加基础任 务的技术,综合完成视 频对象分割.
1.将视频对象分割任 务分解,综合使用基 础任务的先进方法. 2.在结合上下文信息
的基础上,使用再识 别模块,避免丢失目 标,改善分割效果.
1.视频对象分割过 程更加复杂,处理时 2间长..模型训练时间长.