• 沒有找到結果。

深度学习在视频对象分割中的应用与展望

N/A
N/A
Protected

Academic year: 2022

Share "深度学习在视频对象分割中的应用与展望"

Copied!
23
0
0

加載中.... (立即查看全文)

全文

(1)

第4 4 卷 第3期

2 0 2 1 年3月 计     算     机     学     报

C H I N E S E J O U R N A LO F C O M P U T E R S 4N

收稿日期:20190603在线发布日期:20200117.本课题得到国家自然科学基金(6160505461702207国家科技支撑计划项目

(2015BAK33B022015BAK27B02华中师范大学中央高校基本科研业务费(CCNU19QD007CCNU19TD007资助.陈 加,博士,主要 研究方向为视频图像分析、三维运动捕捉、VRAR机器人视觉.EmailJacky_HIT@foxmail.com.陈亚松,硕士研究生,主要研究方向 为视频对象分割、计算机视觉.李伟浩,博士研究生,主要研究方向为视频对象分割、计算机视觉. 元,博士,主要研究方向为视频图 像分析.刘 智(通信作者),博士,副教授,主要研究方向为深度学习、人工智能.Emailzhiliu@mail.ccnu.edu.cn.何 英,博士,主要研 究方向为图形图像处理、机器人视觉.

深度学习在视频对象分割中的应用与展望

陈  

  陈亚松

李伟浩

 

 

 

(华中师范大学教育信息技术学院 武汉 430079

(海德堡大学视觉学习实验室 海德堡69120 德国

(华中师范大学教育大数据应用技术国家工程实验室 武汉 430079

(清华大学深圳研究生院 广东深圳 518055

 

 视频对象分割是指在给定的一段视频序列的各帧图像中

找出属于特定前景对象的所有像素点位置区 域. 随着硬件平台计算能力的提升

深度学习受到了越来越多的关注

在视频对象分割领域也取得了一定的进展.

本 文首先介绍了视频对象分割的主要任务

并总结了该任务所面临的挑战. 其次

对开放的视频对象分割常用数据 集 进行了简要概述

并介绍了通用的性能评估标准. 接着

综述了视频对象分割的研究现状

详细地分析了当前的 各 种方法

并将它们划分为三大类

半监督的方法

即给出视频第一帧图像中感兴趣对象的详细人工真值标注

分 割 出视频剩余图像中的感兴趣对象

无监督的方法

即不给任何人工标注信息

自动识别并分割出视频中的前景对 象

交互式的方法

即在分割过程中

通过人工交互式的参与

结合粗略的人工标注先验信息

进行视频对象分割.

第三类方法的条件相当于前两者的折中

相对于第一类方法

它虽然需要人工的参与

但只需要少量的标注工作 量

相对于第二类方法

它给视频序列中某些帧的图像适当地添加了一些人工标注信息

从而更具针对性. 最后

对 深度学习在视频对象分割任务中的应用

进行了总结和展望.

关键词

 视频对象分割

深度学习

半监督方法

无监督方法

交互式方法

中图法分类号

T P 3 9 1     犇 犗 犐

1 0 . 1 1 8 9 7

S P . J . 1 0 1 6 . 2 0 2 1 . 0 0 6 0 9

犃 狆 狆 犾 犻 犮 犪 狋 犻 狅 狀 犪 狀 犱 犘 狉 狅 狊 狆 犲 犮 狋 狅 犳 犇 犲 犲 狆 犔 犲 犪 狉 狀 犻 狀 犵 犻 狀 犞 犻 犱 犲 狅 犗 犫 犼 犲 犮 狋 犛 犲 犵 犿 犲 狀 狋 犪 狋 犻 狅 狀

C H E N J i a

  C H E NY a  S o n g

  L I W e i  H a o

  T I A NY u a n

  L I UZ h i

  H EY i n g

(犇犲狆犪狉狋犿犲狀狋狅犳犈犱狌犮犪狋犻狅狀犪狀犱犐狀犳狅狉犿犪狋犻狅狀犜犲犮犺狀狅犾狅犵狔犆犲狀狋狉犪犾犆犺犻狀犪犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋狔犠狌犺犪狀 430079

(犞犻狊狌犪犾犔犲犪狉狀犻狀犵犔犪犫犎犲犻犱犲犾犫犲狉犵犝狀犻狏犲狉狊犻狋狔犎犲犻犱犲犾犫犲狉犵 69120 犌犲狉犿犪狀狔

(犖犪狋犻狅狀犪犾犈狀犵犻狀犲犲狉犻狀犵犔犪犫狅狉犪狋狅狉狔犳狅狉犈犱狌犮犪狋犻狅狀犪犾犅犻犵犇犪狋犪犆犲狀狋狉犪犾犆犺犻狀犪犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋狔犠狌犺犪狀 430079

(犌狉犪犱狌犪狋犲犛犮犺狅狅犾犪狋犛犺犲狀狕犺犲狀犜狊犻狀犵犺狌犪犝狀犻狏犲狉狊犻狋狔犛犺犲狀狕犺犲狀犌狌犪狀犵犱狅狀犵 518055

犃 犫 狊 狋 狉 犪 犮 狋  V i d e o o b j e c t s e g m e n t a t i o n r e f e r s t o t h e t e c h n o l o g y b y w h i c h t h e p o s i t i o n s o f a l l p i x e l s b e l o n g i n g t o t h e p a r t i c u l a r f o r e g r o u n d o b j e c t s i n e a c h f r a m e o f a g i v e n v i d e o s e q u e n c e c a n b e f o u n d o u t a n d l a b e l e d . T h i s t e c h n o l o g y i s o n e o f t h e m o s t i m p o r t a n t r e s e a r c h t o p i c s i n t h e f i e l d o f c o m p u t e r v i s i o n . A n d i t p l a y s a n i m p o r t a n t r o l e i n m a n y a p p l i c a t i o n s o f c o m p u t e r v i s i o n s u c h a s 3 D r e c o n s t r u c t i o n a u t o m a t i c d r i v i n g v i d e o e d i t i n g a n d s o o n . W i t h t h e i m p r o v e m e n t o f c o m p u t i n g p o w e r d e e p l e a r n i n g h a s a t t r a c t e d m o r e a n d m o r e a t t e n t i o n a n d m a d e s i g n i f i c a n t p r o g r e s s i n t h e t a s k o f v i d e o o b j e c t s e g m e n t a t i o n . F i r s t l y t h i s p a p e r i n t r o d u c e s t h em a i n t a s k o f v i d e o o b j e c t s e g m e n t a t i o n a n d s u m m a r i z e s t h em a i n c h a l l e n g e s t h a t t h e t a s k i s f a c i n g . S e c o n d l y ab r i e f o v e r v i e w o f t h e o p e n d a t a s e t s f o r v i d e o o b j e c t s e g m e n t a t i o n t a s k i s g i v e n . T h e n t h e r e l e v a n t

《 计

算 机

学 报

(2)

b e n c h m a r k s a n d c o m m o n p e r f o r m a n c e e v a l u a t i o n c r i t e r i a a r e i n t r o d u c e d . T h i r d l y t h e r e s e a r c h s t a t u s o f v i d e o o b j e c t s e g m e n t a t i o n i s s u m m a r i z e d . T h e r e l e v a n tm e t h o d s a r e i n t r o d u c e d a n d a n a l y z e d i n d e t a i l . A n d t h e s e m e t h o d s f a l l i n o n e o f t h e t h r e e f o l l o w i n g c a t e g o r i e s t h e f i r s t o n e s a r e s e m i  s u p e r v i s e dm e t h o d s . N a m e l y t h e d e t a i l e d a r t i f i c i a l t r u t h a n n o t a t i o n o f t h e i n t e r e s t e d o b j e c t s i n t h e f i r s t f r a m e i m a g e o f v i d e o s e q u e n c e i s g i v e n . A n d t h e i n t e r e s t e d o b j e c t s i n t h e r e m a i n i n g v i d e o s e q u e n c e f r a m e s a r e s e g m e n t e d a u t o m a t i c a l l y . A t p r e s e n t i n t h e v i d e o o b j e c t s e g m e n t a t i o n t a s k o f a s i n g l e i n s t a n c e t h e J a c c a r d s c o r e o f s e m i  s u p e r v i s e dm e t h o d s c a n r e a c h m o r e t h a n 0 . 8 b y t a k i n g t h e D A V I S 1 6 d a t a s e t a s a n e x a m p l e . I n t h e m u l t i  i n s t a n c e v i d e o o b j e c t s e g m e n t a t i o n t a s k f o r e x a m p l e t h e D A V I S 1 8 d a t a s e t w h i c h i s w i d e l y u s e d t h e J a c c a r d s c o r e o f s e m i  s u p e r v i s e dm e t h o d s h a s r e a c h e do v e r 0 . 7 . T h e s e c o n do n e s a r eu n s u p e r v i s e dm e t h o d s w h i c h c a n i d e n t i f y a n d s e g m e n t t h e f o r e g r o u n d o b j e c t s i n v i d e o b y t h e c e r t a i n r u l e s o r m o d e l s w i t h o u t a n y m a n u a l l a b e l i n g p r i o r i n f o r m a t i o n . T h e t h i r d o n e s a r e i n t e r a c t i v e m e t h o d s b a s e d o n t h e m e t h o d o f i n t e r a c t i v e r o u g h a r t i f i c i a l p r i o r i n f o r m a t i o n . I n t h e s em e t h o d s t h e r o u g h a r t i f i c i a l p r i o r i n f o r m a t i o n s u c h a s p o i n t b o u n d i n g b o x a n d s c r i b b l e i s o b t a i n e d f r o mt h e i n t e r a c t i v e m o d u l e s . A n d v i d e o o b j e c t s e g m e n t a t i o n i s c a r r i e d o u t b y m u l t i p l e m a n u a l p a r t i c i p a t i o n s b u t o n l y a s m a l l a m o u n t o f w o r k a t e a c h t i m e . T h e c o n d i t i o n o f t h e t h i r d k i n d o f m e t h o d s c a n b e c o n s i d e r e d a s t h e c o m p r o m i s e o f t h e f o r m e r t w o . C o m p a r e d w i t h t h e f i r s t o n e a l t h o u g h i t r e q u i r e s m a n u a l p a r t i c i p a t i o n i t o n l y r e q u i r e s a s m a l l a m o u n t o f l a b e l i n g w o r k . C o m p a r e d w i t h t h e s e c o n d o n e i t a p p r o p r i a t e l y a d d s s o m em a n u a l l a b e l i n g i n f o r m a t i o n t o t h e i m a g e s o f s o m e f r a m e s i n t h e v i d e o s e q u e n c e w h i c hm a k e s t h em e t h o d s m o r e t a r g e t e d f o r t h e i n t e r e s t e d o b j e c t s . T h e b e s t J a c c a r d s c o r e s o f t h e u n s u p e r v i s e d m e t h o d s a n d t h e i n t e r a c t i v e m e t h o d s c a n b o t h r e a c h 0 . 8 i n t h e D A V I S 1 6 d a t a s e t . B u t t h e r e a r e f e wu n s u p e r v i s e dm e t h o d s t h a t d e a l w i t h t h em u l t i i n s t a n c e p r o b l e mo f t h e D A V I S 1 8 d a t a s e t . T h e b e s t i n t e r a c t i v e m e t h o d s c a n o n l y r e a c h 0 . 6 4 f o r J a c c a r d s c o r e i n t h e D A V I S 1 8 i n t e r a c t i v e d a t a s e t . F i n a l l y t h e a p p l i c a t i o n s o f d e e p l e a r n i n g i n v i d e o o b j e c t s e g m e n t a t i o n t a s k

a r e c o n c l u d e d a n d s o m e p r o m i s i n g i d e a s a r e p r o p o s e d f r o m f o u r d i f f e r e n t a s p e c t s .

犓 犲 狔 狑 狅 狉 犱 狊  v i d e o o b j e c t s e g m e n t a t i o n d e e p l e a r n i n g s e m i  s u p e r v i s e dm e t h o d s u n s u p e r v i s e d m e t h o d s i n t e r a c t i v e m e t h o d s

1    

随 着 摄 像 设 备 和 数 字 化 存 储 设 备 的 普 及 与 广 泛 应 用 , 全 球 范 围 内每天产生的视频数据总量在不断 增 加 . 视 频 内 容 的处理需求也日益增加 , 其中 , 视频 对 象 分 割 的 研 究 是 计 算 机 视 觉 领 域 十 分 重 要的研 究 课 题 之 一 在 三 维 重 建 自 动 驾 驶 视 频 编 辑 等 方 面 有 着 重 要 应 用 . 早 期 在 视 频 编 码 国 际标准M P E G  4

中 , 采 用 了 基 于 对 象 的 编 码 方 式 , 指 出 视 频 是 由 一 系 列 视 频 对 象 组 成 的 从 而 引 入 了 视 频 对 象 的 概 念 . 视 频 对 象 分 割 是 指 在 给 定 的 一 段 视 频 序 列 的 各 帧 图 像 中 找 出 属 于 特 定前景对象的所有像素点位置的技 术 . 当 前 深 度 学 习在计算机视觉的一些基础任务如 图 像 分 类

目 标 检 测

语 义 分 割

中都表现出了 很 好 的 效 果 .

视频是由图像组成的 视频对象分割与图像分 割 存 在 着 紧 密 的 联 系 . 近 年 来 涌 现 了 很 多 基 于 全 监 督 学 习 和 弱 监 督学习的图像分割方法 . 全监督学习 图 像 分 割 方 法大致可以分为以下几类 : ( 1 基于全 卷 积 网络 F u l l y C o n v o l u t i o n a l N e t w o r k s F C N 的 方 法 . 这类方法的思想最早由L o n g 等人

提出 使 用 全 卷 积 代 替 全连接层 , 可以兼容任意尺寸并能实 现 端 到 端 的 训 练 但 缺 乏 空 间 一 致 性 导 致 分 割 结 果 过 于 平 滑 不 精 细 基于编解码的方法 . 这类方法 改 进 了F C N方法的不足 探索了不同的解码方式 , 在 解 码阶段融入低层特征来保留细节 , 使得分割 效 果更精细 , 如U  n e t

S e g N e t

D e c o n v N e t

等 . 但 这 类方法新增了解码阶段 , 提高了模型复杂 度 基 于 密 集连接卷积网络 D e n s e l y C o n n e c t e d C o n v o l u t i o n a l N e t w o r k s D e n s e N e t 的方法 . D e n s e N e t 最 早 由H u a n g 等 人

提 出 并 被 应 用 到 图 像 语 义 分 割

0 1

6 计  算  机  学  报 2 0 2 1 年

《 计

算 机

学 报

(3)

领 域 取得了一定的效果 . 典型地 F C  D e n s e N e t

继 承 了 F C N的 思 想 , 并 结 合 了D e n s e N e t D e n s e A S P P

将D e n s e N e t 与空洞卷积特征金字塔池化 A t r o u s S p a t i a l P y r a m i d P o o l i n g A S P P 结合 . 这类方法结

合R e s N e t

的跳跃连接思想 更加密集地连接不 同 的 卷 积 网 络 层 提 高 了 参 数 和 特 征 的 利 用 率 减 少 了 参 数 量 . 然 而 在 模 型 训 练 时 , 频 繁 的 跨 层 连 接 带 来 了 更 高 的 显 存占用率和计算量 基于多尺度特 征 融 合 的 方 法 . 这类方法结合不同层次的语义特征 和 不 同 区 域 的 上下文信息 提高获得全局信息的能 力 . 典型的方法有P S P N e t

d e e p l a b系列

. P S P N e t 使用金字塔池化模块获取不同尺度的特

d e e p l a b 系 列 使用空洞卷积增大感受野 获取不 同 尺 度 的 上 下 文 信 息 , 提 高 精 度 . 然 而 在 不 同 尺 度 下 , 对 象 的 细节可能丢失 对分割结果有影响 基 于 注 意 力 机 制的方法 . W a n g等人

首先提出非局 部 N o n l o c a l 的注意力机制 挖掘每个位置像素与 全 局 像 素 点 之 间 的 联 系 . C h e n 等 人

提 出A

 N e t 从 矩 阵 乘 法 角度进行优化 , 降低计算量 . L i 等人

提 出了金字塔型注意力网络 P y r a m i dA t t e n t i o n N e t w o r k P A N 挖掘局部与全局像素之间的相似 关 系 . 此 类 方 法 根 据 视 觉 注 意 特 点 在 不 增 加 过 多 参 数 量 的 情 况 下 , 选 择 性 地 筛 选 有 效 的 语 义 特 征 信 息 , 利 用 局 部 与 全 局像素点的联系 提高模型的效率和 准 确 性 . 由 于 全 监 督 学 习 方 法 需 要 具 有 大 量 精 确 标 注 的 训 练数据集 , 获取成本较高 . 为了解决这一问 题 很 多 基 于 弱 监督学习的图像分割方法进行了相 关 探 索 , 利 用 图 像 类 别 、 边 框 、 涂 鸦 等 弱 标 签 信 息 , 或 者 少 量 标 注 数 据 进 行 模 型 训 练 降 低 了 对 精 确 标 注 数 据 量 的 需 求 , 并 取 得 了 一 定 的 进 展 . 典 型 的 弱 监 督 学 习 图 像 分 割方法可以分为以下几类 基于不 同 训 练 策 略 的 方 法 . 第 一 种 是 基 于 多 步 训 练 的 方 法 . W e i 等 人

提出了简单到复杂 ( S T C 框架的体系 结 构 先 利 用 显 著 性 检 测 的 结 果 训 练 初 始 模 型 再 结 合 弱 标 注 信 息 使用简单到复杂的图像迭代训练 , 增 强 模 型 的泛化能力 . S h e n等人

还使用抓取的网 络数据来进行多步学习 , 改善了训练数据量不足 的问题. 这类方法利用弱标注信息得到初始网络 , 并通过不同层次的图像或相关的网络图像 来逐 步强化网络 , 提供了有效的模型训练思路. 第二种 是基于编解码结构训练的方法. H o n g 等人

提出 D e c o u p l e d N e t 网络 , 编码阶段使用大量图像级标注 来 训 练 解 码 阶 段 使 用 少 量 像 素 级 标 注 来 训 练 两 个 阶 段 通 过 桥 接 层连接 . 这种方法利用不同的标注信

分 别 训 练 网 络各个组件 不用迭代循环训练 便 于 结 构 调 整 和 扩展 . 第三种是基于擦除策略训练的 方 法 . W e i 等 人

提出了对抗擦除策略 A d v e r s a r i a l E r a s i n g A E 的方法 , 使用不同擦除区域的图像训

不 断 改 变模型的注意力区域 . H o u等人

提出 自 擦 除 策 略 的 网 络 S e l f  E r a s i n g N e t w o r k S e e N e t 不 仅 减 少 了 工 作量 , 而且在前景和背景之间预留潜 在 区 域 一 定 程 度 上 避 免 了 前 景 向 背 景 区 域 的 扩 张 . 这 类 方 法利用有限的数据 , 使用擦除的方式 , 让模 型 更 加 全 面 地 关注对象的各个特征 减少模型对特 定 区 域 特征的依赖 . 这类方法 , 充分利用弱标注信 息 使 用 不 同 的 训练策略 取得了一定的效果 但在 挖 掘 像 素 点 之 间 的 联 系上 还需进一步探索 基 于 语 义 传 播的方法 . A h n等人

提出A f f i n i t y N e t 预 测 像 素间的语义关联 初始生成类激活图 C l a s s A c t i v a t i o nM a p C A M 通过稀疏激活随机游走来

实 现 语 义 传 播 . H u a n g 等 人

提 出 种 子区域扩张的 方 法 , 初 始 化 生 成 分 割 结 果 , 再 通 过 区 域 扩 张 实 现 语 义 传 播 . 这 类 方 法 使 用 粗 分 割 加 语 义 传 播 的 形 式 , 在 语 义 传 播 或 扩 张的阶段 探索了像素点间的语义特 征 联 系 , 但 这 种 探 索 比 较局部 ; ( 3 基于不同感受野 的 方法 . W e i 等人

使用不同膨胀率的空洞卷积 可 以 扩 大 感 受 野 , 得 到 相 应 的 注 意 力 图 , 并 提 出 一 种 简 单 有 效 的 抗 噪融合策略 . L e e 等人

提出基于随 机 推 理 的 网 络 模 型F i c k l e N e t 该 模 型 通 过随机选择 隐 藏 单 元 , 可 以 产 生 许 多 不 同 尺 寸 和 形 状 的 感 受 野 , 训 练 出 分 类 器 再 使 用G r a d  C A M方法

生 成 位 置 图 , 将 多 个 位 置 图 集 成 得 到 分 割 结 果 , 并 将 其 作 为 样 本 训 练 分 割 网 络 . 相 对 于 语 义 传 播 的 局 部 特 征 联 系 空 洞 卷 积 可 以 挖掘更大感受野内的语义特征联系 , 融 合 不 同 尺 度 的 细 节 信息 提高效果 基于生成 式 对抗网络 G e n e r a t i v e A d v e r s a r i a l N e t w o r k G A N 的 方 法 . S o u l y 等人

将这一思想应用到弱监督的 语 义 分 割中 通过生成器 结合图像级标注生成图 像 , 再 使 用 生 成 图 像 、 图 像 级 标 注 和 像 素 级 标 注 信 息 来 训 练 判 别 器 . 这类方法通过生成网络和判别网络 对 抗 的 形 式 训 练 , 需 要 的 训 练 数 据 较 少 , 但 相 比 于 一 般 的 网 络 , 需要更多的显存 , 模型较不稳定 ; ( 5 基 于 显 著 实 例 的 方 法 . L i 等 人

利 用 图 像 边框的弱标 注 信 息 , 检 测 实 例 对 象 , 再 通 过 迭 代 训 练 得 到 各 个 实 例 的 分 割 模 型 . F a n等人

基于显著性实例分割方 法S 4 N e t

得 到 图 像中的显著实例 , 每个实例包含 边 界 框 和 前 景 掩 码 再 通 过 注 意 力 模 块 使 用 实 例 的 内 在 属 性 进 行 类 别 预 测 同 时 使 用 特 征 提 取 网 络 获

1 1 3期 陈 加等

深度学习在视频对象分割中的应用与展望 6

《 计

算 机

学 报

(4)

取 每 个 实 例 的 语 义 特 征 在 整 个 数 据 集 范 围 内 构 建 实 例 相 似 图 并 划分 每个子图将决定这一类实例最 终 的 类 别 . 这 类 方 法 利 用 各 个 对 象 内 在 的 实 例 属 性 , 并 探 索 了 实 例 间 的 联 系 , 提 高 了 分 割 效 果 . 这 些 典 型 的 图 像 分 割 方 法 , 可 以 挖 掘 视 频 的 单 帧 语 义 信 息 , 为 视 频 对 象 分 割 技 术 的 发 展 奠 定 了 基 础 .

在视频对象分割领域 虽然已经有很多传统方 法

取 得 了 一 定 的 效 果 但 随 着 硬 件 的 提 升 深 度 学 习 的 方 法 吸 引 了 很 多 研 究 者 的 关 注 . 如 图 1 所 示 根 据 在 待分割视频中给定的人工先验信息具体程 度 , 可 以 分 为 半 监 督 的 方 法 、 无 监 督 的 方 法 和 交 互 式 的 方 法 . 另 外 , 在图像分割中 , 监督学习是针对整个 训 练 数 据 集 的 标 注 形 式 来 说 的 , 即 一 般 意 义 的 监 督 ; 在 视 频 对 象 分 割中 监督学习是针对待分割视频给 出 的 标 注 形 式 来说的 即通过相似视频训练后的模 型 是 否 还需要使用待分割视频的标注信息进行调 整 二 者 有 一 定 的区别 . 在视频对象分割领域 半监 督 方 法 的 任 务 定义为 : 给出视频第一帧图像中感兴 趣 对 象 的 详 细 人工真值标注 , 自动地分割出剩余所 有 视 频 序 列 图 像中的感兴趣对象 ; 无监督方法的任 务 定 义 为 不 给 任 何 人 工 标 注 信 息 自 动 识 别 并 分 割 出 视 频 中 的 前 景 对 象 交 互 式 方 法 的 任 务 定 义 为 在 分 割 的 过 程 中 通 过 人 工 交 互 式 参 与 结 合 粗 略 的 人 工 标 注 先 验 信 息 进 行 视 频 对 象 分 割 . 第 三 类 方 法 的 条 件 相 当 于 前 两者的折中 相对于第一类方法的条 件 , 它 减 少 了 注 释 的 工 作 量 ; 相 对 于 第 二 类 方 法 的 条 件 , 在 视 频 的 某 几 帧 图 像 中 , 适 当 地 添 加 了 粗 略 的 人 工 注 释 信 息 , 从 而在分割感兴趣前景对象中更具针 对 性 . 在 三 大 类 条 件 下 根 据 每 类 方 法 的 处 理 特 点 又 可 以 细 分 为 若 干 种 不 同 的 子 方 法 .

图1   基于深度学习的视频对象分割方法分类

在 视 频序列中 随着时间的推移 视频不断变 化 , 光 照 、 视 角 、 遮挡和图像噪声等因素为视频对象 分 割 带 来 很 大 的挑战 . 虽然近几年视频对象分割领

域 的 研 究 进 展 显 著 但 仍 面 临 一 些 典 型 问 题

( 1 场 景 的 空 间 复 杂 性

对 于 不 同 的 视 频 序 列 来 说 , 在 不 同 的 环 境 下 , 对 象 背 景 拍照条件等固有因素增加了场景的复杂 性 . 在 单 帧 图 像 内 , 存 在 运 动 模 糊 、 相 机 抖 动 、 光 照 不 均 外 观 变 化 对象的形变或遮挡等复杂情况 为对 象 空 间 特 征 的 提取增加了难度 , 影响了对象的分割 效 果 .

( 2 与 时 序 信 息 的 结 合

视频序列的另一个要素就是时序信息 , 怎样将 空 间 局 部 特 征 信息与时序信息相结合 是在视频序 列 图 像 之 间 建 立信息传播机制的关键 . 目前的一些 论 文 结 果

体 现了添加时序信息前后的差异性 然 而 如 何 基 于 已分割视频序列图像的信息 , 指导其 他 帧 图 像 内 的 对 象 分 割 还 需 要 进 一 步 的 探 索 . 对 于 一 些 视 频 中 对 象出现消失与重现的现象 如何提高 模 型 的 再 识 别 能 力 , 也 是 时 序 信 息 传 播 的 关 键 .

( 3 对 基 础 任 务 的 依 赖

很多的视频对象分割方法 , 将分割任务分为几 个 基 础 任 务 来 分 步 处 理 . 每 个 基 础 任 务 方 法 的 性 能 均 在 一 定 程 度 上影响着分割的结果 . 对每帧图像内 的 对 象 特 征 提 取过程中 涉及到更加基础的图像分 类 对 象 检 测 和 静 态 图 像 分 割 等 任 务 的 处 理 过 程 . 因 此 , 结 合 视 频 对 象 分 割 的 特 点 , 对 基 础 任 务 的 解 决 方 法 进 行 相 关 的 迁移与改进 是探索更好的视频对象 分 割 方 法 的 基 础 .

( 4 数 据 集 问 题

视频对象分割的最小单位是一段视频序列 . 对 于 模 型 训 练 来 说 不 仅 需 要 很 多 的 视 频 序 列 还 需 要 对 视 频 的 每 一 帧进行像素级的标注 为人工标注带 来 了 巨 大 的 工 作 量 . 近 些 年 来 , 视 频 对 象 分 割 研 究 比 较 热 然 而 开 放 数据集的数量以及视频序列涵盖的 场 景 相 对 有 限 . 已 存 在 的 数 据 集 在 目 标 对 象 的 个 数 、 种 类 外 观 变 化 遮挡 运动形变等方面上仍然有所 限 制 . 真 实 世 界 中 的 场 景 复 杂 多 样 , 这 就 需 要 更 丰 富 的 数 据 集 来 进 行 模 型 训 练 .

针对上述问题 越来越多的研究人员提出新的 解 决 方 法 来 优 化视频对象分割的结果 , 同时也发布 了 一 些 新 的 数 据集 使得数据集涵盖的场景也不断 地 丰 富 起 来 . 本 文首先介绍了目前常用的开放公共 数 据 集 以 及 当 前被广泛使用的分割准确率评估标 准 . 其 次 将 视 频对象分割方法分为三个大类 半监 督 的 方 法 、 无 监 督 的 方 法 和 交 互 式 的 方 法 , 逐 个 进 行 了 详 细 地 介 绍 . 然 后 统 计 并 分 析 了 各 方 法 的 实 验 结

2 1

6 计  算  机  学  报 2 0 2 1 年

《 计

算 机

学 报

(5)

果 . 最 后 对 文 章进行总结 并对视频对象分割的未 来 研 究 方 向 进 行 了 展 望 .

2   常用数据集与评估标准

2  1   常用数据集

视 频 对 象 分 割 方 法 需 要 一 定 数 据 集 进 行 训 练 或 者验证. 因此 构建一定规模的数据集和评估标 准 , 是视频对象分割的必然要求 , 不仅方便科研人 员验证方法 也保证了视频对象分割研究的评价 统 一 性 . 由 于 视 频 序 列 数 据 量 很 大 , 相 应 地 增 加 了 人 工 标 注 工 作 量 . 目 前 大 部 分 的 方 法 采 用 的 训 练 测 试 数据集主要以D A V I S

Y o u T u b e  O b j e c t s

Y o u T u b e  V O S

和S e g T r a c k  v 2

数据集为主 , 见 表 1 . 这 些 数 据 集 涵 盖 了各种各样的挑战 例如视 频 序 列 中 的 对 象 外 观 变 化 、 被 遮 挡 、 运 动 模 糊 以 及 物 体 形 变 等 .

1  

视频对象分割方法的常用数据集对比 数据集名称 视频个数 标注

总帧数 单帧图像 DAVIS2016  50    3455 单个对象个数 DAVIS2017 150 10474 多个 YouTubeObjects 126 超过20000 单个 YouTubeVOS 3252 133886 多个 SegTrackv2 14 947 多个

犇 犃 犞 犐 犛 数据集 . 该数据集被用于D A V I S视频 对 象 分 割 挑 战 赛 . 该组织者提供了视频对象分割领 域 的 测 试基准 , 每年都发布带详细标注的数据集 . 2 0 1 6 年 该 数 据 集 第 一 次 发布 只包含单个对象的视

频 对 象 分 割 任 务 , 5 0 个 视频序列 , 共3 4 5 5帧详细标 注 图 像

. 2 0 1 7年该组织者提供了1 5 0帧视频序 列 共1 0 4 5 9帧详细标注图 并提出了半监督的视 频 对 象 分 割 任 务 在 该 任 务 中 给 定 待 分 割 视 频 序 列 的 首 帧 详 细 先 验信息 , 要求输出剩余帧的多实例分 割 结果

. 2 0 1 8年在D A V I S 2 0 1 7年的数据集上 该 组 织 者 提 出 了 半 监 督 和 交 互 式 的 视 频 对 象 分 割 任 务

. 2 0 1 9年在同样的数据集上 还提出了无监督 的 视 频 对 象 分 割 任 务 . 在 该 任 务 中 , 模 型 自 动 地 分 割 出 视 频 序 列中的多个实例

. 随着比赛的开展 该 数 据 集 的 数 据 量增加 视频对象分割任务的目标从 单 对 象 发 展 到 多 实 例 , 序列中的对象分割难度也有 所增加 如视频中出现个别实例的消失与重现 实 例间遮挡更严重 运动形变程度更大等问题 . 在 D A V I S 数 据 集 中 , 部 分 视 频 序 列 的 单帧图像标注示

例 如 图 2 所 示 .

图2   D A V I S 2 0 1 7 数据集

示例

第1列为原图

第2列为人工真值标注图

犢 狅 狌 犜 狌 犫 犲  犗 犫 犼 犲 犮 狋 狊 数据集 . 该 数 据 集 是 视 频对象 分 割 领 域 比 较 常用的数据集之一 包含了1 2 6个视 频 片 段 1 0 种 类 别 的 对 象 超 过2 0 0 0 0帧的图像 每 帧 图 像 都 进 行 了 像 素 级 的 人 工 标 注

犢 狅 狌 犜 狌 犫 犲  犞 犗 犛 数据集 . 2 0 1 8年 X u等人

发 布 了 迄 今 为 止 最大数据量的数据集 , 一定程度上解 决 了 领 域 内 数 据 量 的 问 题 . 该 数 据 集 包 含 了 3 2 5 2 个 视 频 片 段 7 8 种 类 别 对 象 共 1 3 3 8 8 6帧人工像素级 标 注 的 图 像 . 由 于 该 数 据 集 提 出 较 晚 目 前 基 于 该 数 据 集 的 实 验 测 试 还 不 是 很 多 .

犛 犲 犵 犜 狉 犪 犮 犽  狏 2 数据集 . 该数据集包含了1 4个视 频 片 段 、 2 4 种 类 别 对 象 、 共 9 4 7 帧 图 像

. 该 数 据 集 中 每 一 帧 图 像 都 做 了 像 素 级 的 标 注 并 覆 盖 了 运 动 模 糊 外 观 改 变 复 杂 形 变 遮 挡 低 速 运 动 和 对 象 铰 接 的 场 景 .

2  2   评估标准

运用已经构建好的开放数据集 , 研究人员可以 进 行 深 度 学 习 模型的训练和测试 . 同时需要建立一 个 统 一 的 评 估 框 架 方 便 评 估 方 法 的 分 割 准 确 率 . 目 前 已 经 有 一 些 研 究 者 提 出 了 比 较 通 用 的 评 估 标 准 . 在 介 绍 这 些评估标准之前 先说明两个通用的符号 犌 是 指 人 工 标 注 的 真 值 掩 码 犕是指分割结果掩码.

( 1 区 域 相 似 性

为 了 比 较 对 象 分 割 区 域 与 人 工 标 注 的 真 值 掩 码 的 相 似 性 , 采 用 雅可比相似度犑来表示算法的预测 分 割 与 真 值 之 间的交并比 . 由于它不受图像的尺寸 限 制 就 能 直 观 反 映 出 错 误 预 测 像 素 的 占 比 因 此 受 到 了 广 泛应用 也成为D A V I S 2 0 1 6挑战赛

的评

3 1 3期 陈 加等

深度学习在视频对象分割中的应用与展望 6

《 计

算 机

学 报

(6)

估 标 注 之 一 . 计 算 方 式 如 下 犑 = | 犕∩ 犌 |

| 犕∪ 犌 |

( 2 轮 廓 精 确 度

轮廓精确度的计算公式 , 最早被G a l a s s o等 人

提 出 , 后 来在D A V I S 2 0 1 6挑战赛

上被用于 轮 廓 的 评 价 标 准 . 从 轮 廓 的 角 度 看 , 视 频 对 象 分 割 掩 码 可 看 作 是 一 系 列 封 闭 轮 廓 的 集 合 犮 . 通 过 计 算 轮 廓 精 确 度犉测度 即对象轮廓的预测掩码 犮 与 真值 犮 之间的准确率犘

和召回率 犚

的函数 从 而 确 定 分 割 边 界 的 准 确 率 计 算 方 式 如 下

犉=2 犘

+ 犚

这两种评估标准目前在文献中使用最多 同时 它 们 也 是D A V I S 视 频对象分割挑战赛中使用的两 个 指 标 . 对 于 区 域 相 似 性 的 度 量 , 它 可 以 不 受 图 像 的 限 制 刻 画 分 割 结 果 与 真 值 之 间 的 像 素 重 叠 程 度 而 轮 廓 精 确 度 的 度量 则反映了对象边界的准确度和 精 细 程 度 二 者 分别从两个方面构建视频对象分割 的 评 估 指 标 通 常 被 用 于 算 法 性 能 评 估 .

3   半监督的方法

在视频对象分割任务中 基于半监督的方法主

要 解 决 的 问 题 是 给定视频序列第一帧详细的人工 标 注 先 验 信 息 即对需要分割的对象进行像素级的 标 注 , 输 出 指 定 整 个 视 频 序 列 剩 余 帧 的 图 像 掩 码 . 虽 然 传 统 的 方 法 通过有针对性地联合多种图像特征 , 建 立 相 应 的 模 型进行视频对象分割 , 但分割效果有 限

. 最 近几年 在D A V I S挑战赛的推动下 基于 深 度 学 习 的 方 法发展尤为迅速 研究者们以卷积神 经 网 络 C o n v o l u t i o n a l N e u r a l N e t w o r k C N N 为核 心 不 断 提 出 新 的 模 型 并 改 进 在 半 监 督 的 视 频 对 象 分 割 任 务 中 取 得 了 很 好 的 效 果 .

本节将半监督的方法划分为以下六类 : 独立分 割 的 方 法 、 基 于 帧 间 信 息 的 方 法 、 基 于 深 度 强 化 学 习 的 方 法 、 基 于R N N的方法 基于多模型融合的方法 和 基 于 多 模 块 综 合的方法 . 表2对这几类方法进行 了 比 较 和 分 析 其 中 模 型 一 般 采 用 多 步 法 的 训 练 模 式 首 先 基 于 图像领域的相关数据集 训练基础特 征 提 取 模型 其次 在视频对象分割任务的训练集 中 , 对 基 础 模 型 进行再次预训练 ; 最后 , 对待分割视 频 中 , 带 有 先 验 信 息 的 第 一 帧 图 像 进 行 增 广 , 在 增 广 的 数 据 集 上 , 对 模 型 进 行 微 调 , 使 模 型 对 当 前 视 频 的 对 象 更 具针对性 . 另外 有些方法可以在线微调模 型 在 分割的同时将已经分割的图像和对应的结 果 加 入 到 训 练 集 中 微 调 模 型 迭 代 地 分 割 整 个 视 频 序 列 .

2  

半监督的视频对象分割方法对比

方法类别 代表算法 模型输入 模型训练 方法特点 优点 缺点 分割的独立

方法

基于OSVOS

的方法 OSVOS 单帧图像 预训练微调

将视频切分成图像帧, 使用训练好的模型进 行图像分割.

基于在线微调

的方法 OnVOS 单帧图像 预训练在线微调

在OSVOS的基础上 不断地将分割结果和 对应的图像加入到训 练集,微调网络.

1.独立分割,相对来 说,速度快.

2.不考虑上下文信 息,一定程度上避免 误差传播.

1.视频序列中的对 象前后差异过大,分 割效果差.

2.缺乏上下文信息, 无法利用视频对象 特征的时间一致性, 分割效果受限.

基于帧间信息 的方法

基于对象匹配

的方法 FEELVOS第一帧分割 图像、当前

图像 预训练, 微调

在一段视频序列中,虽 然同一对象在各帧图 像中有一定的变化,但 具有相似性,通过建立 模型,提取对象特征并 匹配.

基于光流特征

的方法 MoNet 相邻图像、光

流图 预训练,

微调 光流特征是重要的上 下文信息,可以很好地 描述对象的运动特征.

基于在线微调

的方法 FAVOS 当前图像,上 一帧预测结

果和光流图 预训练, 在线微调

相对于独立分割中的在 线微调方法,此类方法 建立的在线微调模型, 还能够结合上下文信息. 基于掩码传播

的方法 MaskTrack上一帧和当前 图像、光流图、 上一帧掩码

预训练,

微调 基于给定的首帧图像 掩码,建立掩码传播模 型,指导剩余帧的分割.

1.建立的模型能够 挖掘图像之间的信 息,指导剩余帧的分 2割结果..在视频序列中,利 用对象特征具有一 定的相似性,提高分 3割效果..相对于OSVOS来

说,效果更好.

1.利用帧间的信息 指导分割的同时,可 能存在误差传播.

2.一般采用多分支 的网络结构,模型复 杂度增加.

3.没有再识别的功 能,可能会丢失目标.

4 1

6 计  算  机  学  报 2 0 2 1 年

《 计

算 机

学 报

(7)

(续 表 方法类别 代表算法 模型输入 模型训练 方法特点 优点 缺点 基于深度强化学习的

方法 RCA 上一帧的分 割掩码,当前 图像

预训练, 微调(可 选)

依赖上下文信息,基于 上一帧的掩码,得到对 象在当前图像的初始位 置边界框,再基于强化 网络,指导并调整边界 框的位置和大小,不断 强化分割结果.

1.将强化学习应用 到视频对象分割,并 取得一定效果.

2.利用上下文中对 象的位置信息.

1.依赖于上下文中 对象的位置信息,对 象位置改变较大,会 影响分割效果.

2.每帧需要多步调 整,耗时.

基于RNN的方法 文献42 当前图像、历

史信息 预训练, 微调

将RNN与CNN结合,利 用CNN提取空间特征 RNN提取序列特征代 表性结构:ConvLSTM ConvGRU.

建立具有历史记忆 的模型,递归处理历 史信息,获取上下文 信息.

1.需记忆历史信息, 2占内存..递归处理过程存

在误差传播.

基于多模型融合的

方法 文献[53 上一帧和当 前图像、上一

帧分割结果 预训练, 微调

将待分割的实例对象进 行分类,并对每个类别 建立对应的分割模型, 再将各对象实例的分割 结果融合.

1.结合上下文信息.

2.对不同类别对象 分别建立模型,具有 针对性.

1.多个模型训练时 间长、消耗内存.

2.增加对象分类过程, 可能引入分类误差.

基于多模块综合的

方法 PReMVOS

上一帧、当前 帧和下一帧 的图像,对应 的光流图

预训练, 微调

模型包含对象检测、分 割、融合上下文信息、对 象再识别等模块,利用 图像领域内更加基础任 务的技术,综合完成视 频对象分割.

1.将视频对象分割任 务分解,综合使用基 础任务的先进方法. 2.在结合上下文信息

的基础上,使用再识 别模块,避免丢失目 标,改善分割效果.

1.视频对象分割过 程更加复杂,处理时 2间长..模型训练时间长.

3  1   独立分割的方法

在深度学习领域 单幅图像分割的发展更早一 些 , 因 此 , 很 多 基于单幅图像分割的方法 , 在一些开 放 数 据 集 中 取 得 了 较 好的效果

. 而视频序列的每 一 帧 都 是 一 幅 图像 很直观的想法是独立地分割每 一 帧 图 像 , 将 视 频对象分割转化为单幅图像的分割 问 题 从 而 可 以 直 接 将 图 像 分 割 的 方 法 迁 移 过 来 . 在 D A V I S 2 0 1 6 挑 战 赛

上 , O S V O S O n e  S h o t V i d e o O b j e c t S e g m e n t a t i o n 第一次被提出

, 并取得了 一 定 的 效果 , 之后涌现了很多改进的方法 . 这些方 法 一 般 采 用 预 训练 微调的训练方式 得到一个固 定 的 模 型 , 从 而 完 成 整 个 视 频 的 对 象 分 割 . 另 外 还 有 一 类 方 法 使 用 在线微调的方法 在视频对象分割的 同 时 , 不 断 利 用 已 分 割 的 图 像 结 果 调 整 模 型 参 数 . 这 类 方 法 弥 补 了 前 者 在 微 调 模 型 时 仅 有 第 一 帧 的 数 据 量 缺 乏 的 不 足 . 接 下 来 , 本 节 分 别 从 这 两 个 方 面 介 绍 相 关 方 法 .

3 . 1 . 1   基 于O S V O S 的 方 法

C a e l l e s 等 人

提出了O S V O S方法 该方法建 立 了 基 于F C N

的 双 流 结 构 , 分别用于前景分割和 图 像 的 轮 廓 检 测 通 过 将 两 个 分 支 提 取 的 特 征 融 合 得 到 训 练 独 立 的图像语义分割结果 . 该方法使用了 多 步 法 的模型训练方式 : 首先在I m a g e N e t 数据集 上 训 练 基 础 网络 再使用D A V I S训练集训练出 父 网 络 ” , 最 后 基 于第一帧注释数据微调网络 , 以得到 最 终 的 模 型 . 该 模 型 对 每 一 帧 图 像 独 立 地 处 理 在 视

频 对 象 分割中取得了一定的效果 . M a n i n i s 等人

提 出 了 基 于 全 卷 积 神 经 网 络架构的语义O S V O S方 法 , 建 立 了 的 实 例 分 割 和 整 体 外 观 模 型 , 将 两 个 分 支 的 分 割 结 果 融 合得到最终的对象分割结果 . 该方法 采 用的训练数据集和训练方式均与O S V O S相同 不 考 虑 帧 间 信 息而独立地分割每一帧图像 一定程 度 上 避 免 了 因 物 体 遮 挡 或 消 失 等 因 素 带 来 的 传 播 误 差 . 但 后 者 采 用 了 更 细 化 的 模 型 和 处 理 方 式 , 因 而 取 得 了 更 好 的 分 割 效 果 .

另 外 , 在 多 个 对 象 的 视 频 对 象 分 割 任 务 中 , 很 多 方 法也使用独立分割的思想 并基于O S V O S方法 进 行 改 进 , 从而取得了一定的效果 . S h a r i r 等人

建 立 了 对 象 检 测和前景分割的双流网络 , 在对象检 测 分支中 使用基于R e s N e t  1 0 1主网络的F a s t e r  R C N N结构

在前景分割分支中 , 采用了基于 V G G 1 6 结 构

的全卷积神经网络 ; 使用I o U阈值 对 候 选 区 边 界 框和分割结果进行过滤 , 使用过滤后 的 结 果 对 前 景 分 割 分 支 的 结 果 进 行 再 次 过 滤 和 增 强 , 从而得到最终的分割结果 . C h e n g等人

先训 练 一 个 基 于R e s N e t  1 0 1 结构

的通用模型用于前 景 和 背 景 的 分 割 , 再基于这个通用模型对其进行微 调 以 学 习 实 例 分 割 模 型 接 着 基 于 第 一 帧 的 先 验 信 息 进 行 数 据 增 广 , 并 微 调 网 络 ; 然 后 将 只 包 含 前 景 区 域 的 图 像 通 过 空间传播网络进行更精细地实例分 割 , 最 后 通 过 连 通区域感知滤波器来进一步区分实 例 边 界 . 该 方 法 将多实例分割任务分解为前景分割

5 1 3期 陈 加等

深度学习在视频对象分割中的应用与展望 6

《 计

算 机

学 报

(8)

和 实 例 分 割 建 立 了 更 深 层 的 双 流 分 割 网 络 并 通 过 后 续 步 骤 细 化 取 得 了 更 好 的 效 果 .

3 . 1 . 2   基 于 在 线 微 调 的 方 法

一 般 的 基于O S V O S的方法 先通过预训练得 到 基 础 的 分 割 模型 再基于第一帧的先验信息进行 微 调 使 模 型 更 加 适 应 当 前 的 视 频 序 列 . 由 于 这 类 方 法 仅 有 第 一 帧 参与微调 , 训练的数据量太小而导致 模 型 的 针 对 性 不 强 分 割 效 果 不 理 想 . 基 于 在 线 微 调 的 方 法 利 用 模 型进行视频对象分割的同时 , 将已经 分 割 的 图 像 加 入 到 微 调 数 据 集 中 不 断 调 整 模 型 从 而 弥 补 了 微 调 数据量太少的缺点 , 提高了视频对象 分 割 效 果 . V o i g t l a e n d e r 等人

提出了在线迭代微 调 的 算 法O n  A V O S 一定程度上提高了模型微调 的 数据量 , 克服了O S V O S方法不能适应对象在视 频 中 随 时 间 存 在较大变化的缺点 在单个对象的视 频 对 象 分 割 任 务 上 取 得 了 不 错 的 效 果 .

在D A V I S 2 0 1 7 挑 战赛

的针对于多个对象的 视 频 对 象 分 割 任 务 上 , 基 于O S V O S 的 在 线 微 调 方 法 取 得 了 一定的效果 . N e w s w a n g e r 等人

将O S V O S 模 型 作 为 父 模型 然后在第一帧图像上进行微调 分 割 接 下 来 的 1 0 帧 , 并 将 这 1 0 帧 图 像 加 入 到 训 练 集 再 次 微 调网络 . 该方法使用核化相关滤波 K e r n e l i z e d C o r r e l a t i o n F i l t e r K C F 方 法

得到跟踪的对象边

界 框 过 滤掉边界框之外的粗分割信息 再结合轮 廓 信 息得到细化分割 . 然后 依次对每1 0帧分割序 列 进 行 迭代操作 , 从而实现在线微调网络模型 . 其 中 K C F算法是基于方向梯度直方图 H i s t o g r a m o f O r i e n t e d G r a d i e n t H O G 特征与核函数的方法 , 根 据 当 前 帧信息和上一帧信息训练出一个相关滤波 器 , 然 后 与 新 输 入 的 帧 进 行 相 关 性 计 算 , 得 到 预 测 的 跟 踪 结果 . V o i g t l a e n d e r 等人

对O n  A V O S进行 改 进 使 其 适 用 于 多 个 对 象 的 视 频 对 象 分 割 任 务 . 相 对 于 前 者 采 用 固定间隔来更新网络模型 , 后者基于 每 一 帧 的 分 割 图像进行迭代调整 从而使模型调整 的 次 数 更 多 , 训 练 得 更 充 分 , 更 适 用 于 当 前 的 视 频 对 象 分 割 .

3  2   基于帧间信息的方法

独立分割的方法将视频的每一帧图像单独处 理 比 较 直 观 虽取得了一定的分割效果 但缺乏对 象 在 帧 间 的 联 系 . 有些研究工作通过结合帧间的时 序 信 息 和 对 象 的运动线索 指导后续视频图像的分 割 , 以 提 高 分 割 效 果 , 该 思 想 在 后 续 的 方 法 中 被 普 遍 采 用 . 基 于 帧 间 信 息 的 视 频 对 象 分 割 方 法 其 一 般 框 架 如 图 3 所 示 .

图3   基于帧间信息的方法的一般框架

3 . 2 . 1   基 于 对 象 匹 配 的 方 法

在同一视频序列中 对象在各帧之间存在着一 定 的 相 似 性 . 利 用 深 度 学 习 的 方 法 , 提 取 图 像 的 空 间 特 征 并 与 具 有 先验信息的第一帧图像进行特征匹 配 可 以 实 现 视 频 对 象分割 . Y o o n 等人

提出了基 于 像 素 匹 配 的 卷积神经网络方法 : 首先基于给定的 第 一 帧 详 细 先 验知识 将人工标注的实例对象作为 查 询 对 象 , 并 与 当前帧的图像经过参数共享的双流 网 络 来 分 别 提 取图像特征 然后将双流网络提取的 多 层 图 像 特 征 连接起来并压缩 , 再经过全连接层进 行 特 征 融 合 接 着通过多层卷积结构增强对象相关 性 最 终 得到每个像素的概率图 从而进行像素分 类 . 该 方 法借助查询匹配的思想 , 联合多层语义信 息 使 用 两 步 法的模型训练方式 在D A V I S 1 6数据 集 上 取 得 了 较 好 的 效 果 .

除 了 单 个 对 象 的 视 频 对 象 分 割 任 务 外 Y a n g 等 人

提 出 了由分割网络 、 视觉调制器和空间调制器 三 个 部 分 组 成 的 模 型 , 通 过 视 觉 调 制 器 提 取 第 一 帧 中 标 注 对 象 的 外 观 特 征 结 合 空 间 调 制 器 提 取 前 一 帧 图 像 中 对 象 位 置 的 先 验 信 息 , 对 分 割 网 络 提 取 的 当 前 图 像 特征进行增强 从而改进分割效果 . S h a b a n等 人

使 用 改进的O S V O S算法和全卷积实例感知 图 像 分 割 算 法 对视频序列的每一帧图像生成特定 的 分 割 候 选 区 然后使用候选区跟踪算法实时跟踪 候 选 区 , 并 挑 选 出 与 第 一 帧 标 注 中 匹 配 的 候 选 区 , 最 后 使 用全连接的条件随机场 C o n d i t i o n a l R a n d o m F i e l d C R F 进 行 更 精细的分割 . 该方法建立回溯机 制 以 提 高 候 选 区跟踪的稳定性 使分割的结果更加 细化 . V o i g t l a e n d e r等人

提出了F E E L V O S方 法 能 够 在 不 依赖第一帧微调模型的情况下 简单 快 速 地 实 现 视 频对象分割 . 该方法通过特征提取网 络 , 提 取 每 一 帧 图 像 的 嵌 入 向 量 , 通 过 局 部 和 全 局 匹 配 机 制 即 分 别 与上一帧图像和具有先验信息的第 一 帧 图 像 的 嵌 入向量进行匹配 ; 再结合上一帧的分 割 结 果 输 出 当 前 图 像 的 掩 码 . 该 方 法 使 用 更 深 的 主 网 络 结 构 , 提 取 图 像 的 嵌 入 向 量 , 综 合 局 部 和 全 局 信

6 1

6 计  算  机  学  报 2 0 2 1 年

《 计

算 机

学 报

參考文獻

相關文件

MASS::lda(Y~.,data) Linear discriminant analysis MASS::qda(Y~.,data) Quadratic Discriminant Analysis class::knn(X,X,Y,k,prob) k-Nearest Neighbour(X 為變數資料;Y 為分類)

微积分的创立是数学发展中的里程碑, 它的发展 和广泛应用开启了向近代数学过渡的新时期, 为研究 变量和函数提供了重要的方法和手段. 运动物体的瞬

[r]

[r]

是偏振光。 光的偏振现象应用很广,如汽车夜间行车时,为了避免 对方汽车的灯光晃眼以保证行车安全,可以在所有汽车的车窗玻 璃和车灯前装上与水平方向成

在教书育人第一线工作的广大中小学教师,对社会主义教育科学的

欣赏有关体育运动 的图片,从艺术的角度 与同学交流自己对这些 运动和画面的感受与理 解,并为这些图片设计

穿插课文之中、形 式多种多样的活动使 我们所学的知识与技 能得到及时的巩固、应 用和内化,它是我们主 动建构知识、拓展能