• 沒有找到結果。

基于图像和视频信息的社交关系理解研究综述

N/A
N/A
Protected

Academic year: 2022

Share "基于图像和视频信息的社交关系理解研究综述"

Copied!
32
0
0

加載中.... (立即查看全文)

全文

(1)

第4卷 第6期

年6月 计  算  机  学  报

CHINESEJOURNALOFCOMPUTERS 4N  

稿线然科学基金 资助 正,博士研究生中国计算机学会学生会员 主要研究方向为多媒体内容理解机器学习计算机视觉. 斌,博士教授中国计算机学会

高级会员主要研究领域为数据挖掘复杂网络云计算.王文哲,多媒体内容理解机器学习滕一阳,

士研究生主要研究方向为多媒体内容理解机器学习计算机视觉. 杰,荐系统肖云鹏,

博士教授中国计算机学会会员主要研究领域为社交网络机器学习. 婷(通信作者博士讲师中国计算机学会 主要研究方向为推荐系统多维数据挖掘网络表示学习.

基于图像和视频信息的社交关系理解研究综述

王  

   

  王文哲

  滕一阳

   

肖云鹏

   

北京邮电大学智能通信软件与多媒体北京市重点实验室 北京 

北京邮电大学计算机学院国家示范性软件学院 北京 

合肥工业大学媒体计算实验室 合肥 

重庆邮电大学网络与信息安全技术重庆市工程实验室 重庆 

  随着多媒体技术的快速发展互联网上涌现了大量的文本图像视频音频等多媒体数据.多媒体数据的 特点表现为形式上多源异构语义上互相联系.基于多媒体信息的社交关系理解是利用各种手段和方法从海量异 的多媒体数据中挖掘出有价值的信息帮助人们快速地理解多媒体信息中的社交关系促进多媒体内容理解 追踪知识图谱的构建等多媒体数据检索和智能商业服务的发展.图像和视频是多媒体信息的重要组成部分 于图像和视频信息的社交关系理解研究逐渐引起了学术界和工业界的广泛关注.本文主要对近年来基于图像和视 频信息的社交关系理解的分类和研究现状进行总结.首先给出问题定义并对基于图像和视频信息的社交关系理 过程进行介绍.其次从图像和视频两个角度概括总结社交关系理解的主要研究现状.然后在介绍已有的图像 视频数据集的基础上对现有的主要算法进行比较分析.最后对基于图像和视频信息的社交关系理解中的主要 问题和挑战作进一步阐述.本文旨在为感兴趣的研究人员提供有益的参考帮助其更全面地了解基于图像和视频 信息的社交关系理解的研究现状推动该领域的进一步发展.

关键词 多媒体特征抽取图像内容理解视频内容理解社交关系理解多元关系判定社交理解应用 中图法分类号   

犃 犛 狌 狉 狏 犲 狔 狅 犳 犛 狅 犮 犻 犪 犾 犚 犲 犾 犪 狋 犻 狅 狀 犝 狀 犱 犲 狉 狊 狋 犪 狀 犱 犻 狀 犵 犅 犪 狊 犲 犱 狅 狀 犐 犿 犪 犵 犲 犪 狀 犱 犞 犻 犱 犲 狅 犐 狀 犳 狅 狉 犿 犪 狋 犻 狅 狀

WANGZheng WUBin WANGWenZhe TENGYiYang SHUAIJie XIAOYunPeng BAITing

犱犕  

 

狉犕 

 

犃犫狊狋狉犪犮狋 Withtherapiddevelopmentofmultimediatechnologyalargeamountofmultimediadata suchastextimagevideoandaudiohaveemerged.Thesemultisourcesdataareheterogeneous intheformwhileinterrelatedinsemantics.Byusingtherichinformationfrommassiveheterogeneous multimediadatatheaimofmultimediasocialrelationunderstandingistolearnthesocialrelation inmultimediasoastopromotetheintelligentbusinessservicessuchasmultimediacontent

《 计

(2)

understandingcharactertrackingknowledgegraphconstructionandsoon.Imageandvideoare importantpartsofmultimediainformation.Theresearchofsocialrelationunderstandingbasedon imageandvideoinformationhavegraduallyattractedincreasingattentionfrombothacademicand industryareas.Inthispaperwesummarizetheexistingstudiesofsocialrelationunderstanding basedonimageandvideoinformationinrecentyears.Wefirstbrieflyintroducetheresearch backgroundandthegeneralorganizationofourpaperrelevantdefinitionsformaldescriptionof theproblemresearchmethodsandtheprocessofsocialrelationunderstanding.Inthedefinitionsof relevantconceptswemainlyintroduceninedefinitionsfromtheaspectsofnodeedgefeature networkandsoon.Problemformalizationismainlydescribedfromtwoaspectsrelationexistence judgmentandrelationtypejudgment.Thenwelookintothestudiesofsocialrelationunderstanding basedonimageandvideoinformation.Theprocessofsocialrelationunderstandingincludesfour partsnamelydatapreprocessingfeatureextractionsocialrelationextractionandresearch application.Wealsosummarizethesimilaritiesanddifferencesbetweenthestudiesofsocial relationunderstandinginimageandvideoareas.Afterwardswegivedetailedintroductionsof theexistingmethodsinsocialrelationunderstandingbasedonbothimageandvideoinformation. Andanalyzetheexperimentfromthreepartsevaluationmethoddatasetandcomparisonmethod basedonimageandvideodata.Finallywemakeaconclusionoftheproblemsandchallengeson thesocialrelationunderstandingbasedonimageandvideoinformation.Inparticularbasedon thetechnologydevelopmentinsocialrelationunderstandingwedividetheexistingmethodsof socialrelationunderstandingintosevencategoriescooccurrencebasedmethodstraditional graphbasedmethodssupervisionbasedmethodsmachinelearningbasedmethodsdeep learningbasedmethodsmultimodalinformationbasedmethodsandGNNbasedmethods.Asfor socialrelationunderstandinginbothrelationexistencejudgmentandrelationtypejudgmentwe furtherclassifythemethodsintotwocategoriesbasedonthenumberofrelationssingleand multiplerelations.Inthepartofexperimentswesummarizefiveevaluationmethodsnamely accuracyprecisionrecallF1andmAP.Thenweintroducetheimageandvideodatasetsrelated tosocialrelationunderstandinginrecentyears.Intheexperimentsbasedonimageinformation wechosePISCandPIPAdatasetsformethodcomparisons.Asfortheexperimentsbasedonvideo informationwechoseSRIVandViSRdatasetsformethodcomparisons.Moreoverweanalyze theadvantagesanddisadvantagesoftheexistingmethodsbasedontheexperimentalresults.And finallysummarizetheproblemsandchallengesfromsevenaspectsnamelysmallsamplelearning multisourcedatafusionunsupervisedsocialrelationunderstandingmultiroledifferentrelation recognitionefficientrelationunderstandingalgorithmrealtimedatafeedbackandmultimedia knowledgegraphs.Theaimofthispaperistoprovidearesearchscopeofsocialrelationunderstanding basedonimageandvideoinformationwhichmaybehelpfulfortheresearcherstohaveaquick understandingofthefieldandpromotethefurtherdevelopmentinthisarea.

犓犲狔狑狅狉犱狊 multimediafeatureextractionimagecontentunderstandingvideocontentunderstanding socialrelationunderstandingmultiplerelationspredicationsocialunderstandingapplication

1    

随着科技的日新月异多媒体技术得到了长足的 发展并涌现出海量的多媒体数据如文本图像视 频音频等.国际数据公司InternationalDataCorpora

tionIDC发布的最新版白皮书DataAge2025

指出预计到2025年全球数据量总和将达到175 ZB这说明在当前所处的科技时代信息数据的增

长是爆炸性的.其中图像和视频数据已经占据总数

6期 王 正等基于图像和视频信息的社交关系理解研究综述

《 计

(3)

据量的90%以上.因为这些具有多源异构性和多 样性的非结构化数据正在快速增长并且具有很高的 研究前景所以如何从海量数据中挖掘出有价值的 信息帮助人们快速地理解社交关系并取得实际应 用成为研究的热点问题

社交关系是人与人之间的关系主要是在社会 生产和生活的直接交往中形成的.图像和视频是 多媒体信息的重要组成部分近年来基于图像和视 频信息的社交关系理解有了新的进展引起了学术 界和工业界的广泛关注.本文主要针对多媒体中基 于图像和视频信息的社交关系理解进行分析和总 结.基于多媒体特指图像和视频信息的社交关系 理解是利用各种手段和方法从海量异构的多媒体数 据中挖掘出有价值的信息帮助人们快速地理解多 媒体信息中的社交关系促进多媒体内容理解人 物追踪角色发现知识图谱的构建等多媒体 数据检索和智能商业服务的发展.同时基于多 媒体信息的社交关系理解也逐渐受到谷歌京东爱 奇艺等国内外知名企业的关注.可见基于多媒体信 息的社交关系研究与国家和社会的发展紧密相连 顺应社会的发展趋势.

多媒体数据具有数据量大非结构化语义抽 象种类多样等特点对基于多媒体信息的社交关 系理解的研究不仅需要分析图像视频等单一媒 体数据也需要综合分析多种媒体数据进而实现语 义协同.其中这涉及多个领域的知识如多媒 体计算机视觉传统机器学习深度学 习模式识别吸引了来自社会学数学计 算机科学语言学复杂性科学等众多领域的研究 者.每年在CVPRICCVECCVIJ CAIACMMMIJCVTMMPR

国际顶级会议和期刊上都刊出了相关的工作推动 着相关研究的发展.

本文主要为了给对基于图像和视频信息的社交 关系理解方向感兴趣的研究人员提供有益的参考 帮助其更全面地了解基于图像和视频信息的社交关 系理解的研究现状推动该领域的进一步发展.对 此在广泛阅读相关文献的基础上本文重点对近年 来基于图像和视频信息的社交关系理解的分类和研 究现状进行全面的分析总结并整理出相关的图像 和视频数据集以及相应的方法对比.贡献是系统地 整理出基于图像和视频信息的社交关系理解研究综 述.主要对问题定义问题形式化以及具体处理方法 进行描述总结了基于图像和视频信息的社交关系

理解过程包括数据预处理特征提取社交关系抽 取研究应用.此外对方法分类说明比较分析与 选择进行描述从图像和视频两个角度介绍和分析 当前的研究现状.同时对实验中涉及的评价指标 数据集基于图像和视频数据的实验对比方法以及 当前存在的问题与挑战进行了相应的分析与总结. 本文第1节为引言讲述基于图像和视频信息 的社交关系理解研究背景第2节对问题定义形式 化具体处理方法以及基于图像和视频信息的社交 关系理解过程进行描述第3节对方法分类说明比 较分析与选择进行描述并从图像和视频两个角度 概括总结社交关系理解的主要研究现状第4节在 介绍已有图像和视频数据集的基础上对现有主要 算法进行比较分析第5节对基于图像和视频信息 的社交关系理解中的主要问题和挑战作进一步阐 述第6节对全文进行总结.

2   问题描述

本文主要对基于图像和视频信息的社交关系理 解进行研究通过从图像和视频数据中识别出人物 实体并借助提取的各种特征属性利用学习模型去 分析和推断人物之间是否存在社交关系存在何种 类型的社交关系.其中涉及到节点特征网络 等相关定义形式化描述研究方法以及具体过程. 首先我们对相关概念进行定义.

21 相关定义

定义1. 角色节点集.角色是网络中的节点 通过人脸或人体检测和识别算法对图像和视频中 的人物进行识别和标识形成角色节点集合犝=

…,

定义2. 角色边集.角色边即网络中的角色对

狌犼之间的连边犈表示角色边集合.当图像或 视频中的角色狌和狌之间存在关系犲将犲添加 到角色边集合犈中.其中∈犝狌犼∈犝.

定义3. 关系权重矩阵.关系权重矩阵犠是 一个狀×狀的矩阵狀×狀.其中犼是角色犻和犼 之间边的权重通过分析图像和视频中出现的相应 角色之间的交互确定权重它用来衡量角色之间的 关系强度.

定义4. 图像集.图像集用犇=…, 来表示.其中表示图像集中的任意一张图片.

定义5. 视频帧集.视频是由帧组成的我们 用犞=来表示整个视频也表示一个具有相应

计  算  机  学  报

《 计

(4)

时间戳狋的帧犉的流媒体集合.

定义6. 社交关系集.社交关系集合犚是由生 活中各种类型的关系组成的通常是预先定义好的 社交关系集合也可以用来表示是否存在社交关系 每一个角色对从犚中识别出关系狉或者判 别是否存在关系.

定义7.社交特征集.所谓的社交特征集合 犘=…,是由各种学习算法提取的时空 特征语音光流场景等语义对象人脸人物物 体等和语义属性年龄性别穿着等等特征组成 的.其中…,表示不同的社交特征用来 辅助社交关系的判定.

定义8. 角色社交关系网络.角色社交关系网 络用犌来表示.其中犝表示角色节点 集合犈表示角色之间边的集合犚表示角色社交关 系集合社交关系根据设定的阈值来判定.

定义9. 角色权重网络.角色权重网络用犌

来表示.其中犝表示角色节点集合犈表 示角色之间边的集合犠表示关系权重矩阵.

22 问题形式化描述

本节主要根据问题的不同从关系存在判定和关 系类型判定两种问题出发进行形式化描述.关系存 在判定主要是判断图像和视频中的人物之间是否存 在关系从而构建网络.关系类型判定是判断图像和 视频中的人物之间具体是哪种类型的关系从而构 建角色关系网络.下面分别从关系存在判定和关系 类型判定两方面进行形式化描述.

2.2.1 关系存在判定问题的形式化描述

首先利用相应的算法识别出图像集犇=

…,或视频帧集犞=中的角色节点 集犝=…,以及抽取相应的社交特征 犘=…,.然后设计相应的框架判断每 个角色对之间是否存在关系如果存在关系 则计算关系之间的权重矩阵犠从而构建角色权重 网络犌.具体的形式化定义如下

犇=…,犞= 犝=…,

犘=…, 烍烌 烎

犳

→犚=1和狌犼存在连边 犚=0

→犌

2.2.2 关系类型判定问题的形式化描述

首先利用相应的算法识别出图像集犇=

…,或视频帧集犞=中的角色节点 集犝=…,以及抽取相应的社交特征 犘=…,.然后设计相应的框架判断每个 角色对狌犼之间的关系类型从而构建角色社交 关系网络犌.具体的形式化定义如下

犇=…,犞= 犝=…,

犘=…, 烍烌

烎犳

→犚→犌. 23 研究方法

基于图像和视频信息的社交关系理解的具体处 理方法为从图像和视频数据中识别出人物实体利 用各种学习方法提取时空特征语义对象和语义属 性通过学习模型去分析和推断人物之间是否存在 社交关系存在何种类型的社交关系并进行更深层 次的应用研究.基于图像和视频信息的社交关系理 解的整体研究框架如图1所示.其中问题的输入根 据多媒体中不同数据的模态类型分为图像和视频 两种.采用的方法是在社交关系理解任务中设计不 同的学习模型.问题的输出分为关系存在判定和关 系类型判定.当然社交关系不仅包括关系存在判定 和关系类型判定还包括关系强度和方向的判定等 只是本文综述的内容限定在关系存在判定和关系类 型判定.研究应用包括多角色关系识别人和关系同 时识别网络构建知识图谱构建等.针对图像和视 频信息的社交关系理解的具体研究过程框架将在后 续章节分别展开描述.

图1 基于图像和视频信息的社交关系理解整体研究框架

6期 王 正等基于图像和视频信息的社交关系理解研究综述

《 计

(5)

24 基于图像和视频信息的社交关系理解过程 基于图像和视频信息的社交关系理解过程主要 包括数据预处理特征提取社交关系抽取研究应

研究的过程框架如图2所示.此外本节对图像 和视频相关研究异同点进行总结.下面分别对框架 的各个方面进行详细介绍.

图2 基于图像和视频信息的社交关系理解过程框架

2.4.1 数据预处理

在本文中数据预处理是针对图像和视频进行 的.其中图像和视频预处理都包括目标检测目 标检测一般包括人脸检测人体检测和物体检 测.而视频预处理还包括视频分割关键帧抽 取这些预处理工作属于社交关系理解中非常重 要的部分.首先我们对视频分割和关键帧抽取进行 相应的介绍.然后对目标检测进行相应的介绍.

视频分割

视频分割是将一段视频按照不同的分割方法 划分为不同的视频片段目的是从中划分出相关的 实体对象通常将这种实体对象称为视频对象. 简单来说就是通过某种手段或方法把视频按照需 求进行截断分割选取需要的部分.在视频分割中 最常用的是基于视频镜头进行分割.之所以进行视 频镜头分割主要是因为镜头分割作为视频处理的 第一步可以为分类分析索引和查询高层内容打 下坚实的基础.镜头分割的准确性将直接影响社 交关系理解的准确性并且为关键帧的抽取奠定基 础.视频镜头分割的典型方法包括基于像素基 于直方图基于轮廓的方法等以及一些改进

的视频镜头分割方法如基于双重检测基于 GIST特征和条件判定的方法等.

除了基于视频镜头分割外还有基于视频故事 分割和基于视频场景分割的方法不同的分割方法 对于社交关系的理解存在差异.例如因为新闻视频 的视频片段和语音内容差异比较大所以对于新闻 视频大多使用基于故事分割的方法.而影视视频中 的场景信息比较丰富能够为视频内容理解提供重 要信息所以对于影视视频使用场景分割的方法也 非常普遍.然而对于故事分割点不明确的影视视频 来说使用先前的故事分割方法相对困难.对此 Lv等人提出一种基于视频多层次特征的故事分

割方法利用分水岭算法并结合分层提取的视频内容 特征进行故事分割构建人物关系网络.

关键帧抽取

关键帧指用来描述一个镜头内部主要内容的某 帧或某几帧图像关键帧抽取是在视频分割的基础 上进行的.之所以进行关键帧抽取主要是因为它可 以减少视频帧之间存在的大量冗余信息并且更凝 练地表达一段视频中包含的信息便于对视频内容 建立索引并进行管理.在基于视频信息的社交关系

计  算  机  学  报

《 计

(6)

理解中进行关键帧抽取可以在不影响实验结果的 情况下极大缩短处理时间.关键帧抽取的算法包 括基于聚类的方法基于运动分析的方法基 于改进的谱聚类算法基于卷积神经网络Con volutionalNeuralNetworkCNN和图形处理单元

算法等.

目标检测

目标检测作为基于图像和视频信息的社交关系 理解中非常重要的步骤能够对社交关系理解的准 确性产生直接的影响.目标检测的任务是对任意一 幅图像中存在的对象进行定位和分类并用矩形框对 其进行标记.一般将信息区域选择特征提取分类作 为传统目标检测模型的三个阶段.在计算机视觉 的基本问题中目标检测具有重要的研究意义它能 够为理解图像和视频中的语义提供有价值的信息涉 及到许多应用领域包括图像分类人类行为分 析社交关系理解和自动驾驶等.在基于图 像和视频信息的社交关系理解过程中目标检测通常 分为不同的子任务如人脸检测人体检测和物体检 测.其中人脸检测和人体检测主要对人物的面部和 整体进行检测而物体检测主要对除人物以外的其 它物体进行检测.通过利用目标检测提供的有价值 信息能够提高社交关系理解的准确度.通用的目标 检测方法框架主要分为两类第一类为基于区域生 成的方法第二类为基于回归分类的方法每一类都 包含多种方法表1列出了其中的部分方法.

 目标检测方法分类

目标检测分类 方法 发表会议

基于区域生成

基于回归分类

2.4.2 特征提取

随着多媒体和网络技术的快速发展随时都有

大量的图像和视频数据产生.视频作为一种重要的 媒体形式包含了丰富的时空特征信息如何全面地 提取特征信息对基于图像和视频信息的社交关系理 解具有重要的意义.特征提取可以理解为计算机视 觉任务中的方法和处理过程它是社交关系理解过 程中的关键步骤是否能够提取尽可能完整地反映 多媒体内容的理想特征将直接影响社交关系理解的 准确率因为特征是不同的并且不同特征的重要性 也不相同.

多媒体特征提取是针对图像和视频进行的两 者之间的特征既存在相同点也存在不同点.我们将 图像特征分为基本特征和社交语义特征基本特征 包括颜色纹理和形状特征社交语义特征包括场 景人物和物体特征等.视频特征也分为基本特征和 社交语义特征基本特征又分为静态特征和动态特 征.静态特征包括颜色纹理和形状特征动态特征 包括运动轨迹相对速度和位置变化等信息社交语 义特征包括场景人物物体声音和运动特征等.

图像的基本特征

颜色作为图像最重要的特征之一主要由颜色 空间或模型定义.颜色空间包括RGBLUVHSV 和HMMD等.纹理是另外一种重要的特征具 有很强的识别能力.通常颜色是像素属性而纹理 只能从一组像素中测量.形状也是一种重要的特 征人们认识世间万物主要是以形状为线索将简单 的几何形状进行编码

图像的社交语义特征

图像的社交语义特征根据其描述对象的不同可 以分为场景特征人物特征和物体特征.社 交语义特征相比于基本特征来说包含更多能够反映 多媒体内容的丰富信息导致在基于图像信息的社 交关系理解中社交语义特征所起到的作用更大而 基本特征所起到的作用相比于社交语义特征来说微 乎其微.因此当前的研究中绝大多数使用的是社交 语义特征.其中所谓的场景特征是指图像中人物所 处的环境以及周围的事物等信息物体特征也属于 场景中的一部分它们能够为基于图像信息的社交 关系理解提供非常重要的线索.人物特征相对来说 比较丰富例如人脸表情穿着年龄动作等再加上 人和物体之间的交互信息同样能够很好地促进社交 关系理解.而社交语义特征的提取广泛使用CNN 等深度学习方法.

视频的基本特征

视频的每一帧都代表一个图像每一帧的图像 特征都是静态特征.因此使用上述的静态图像特征

6期 王 正等基于图像和视频信息的社交关系理解研究综述

《 计

數據

表 7   英文缩写和英文全称总结 英文缩写 英文全称 R o l e N e t R o l e ’ s s o c i a l N e t w o r k s S V R + G P S u p p o r t V e c t o r R e g r e s s i o n + G a u s s i a n P r o c e s s e s 2 D  P C A + C H P A2 D  P r i n c i p a l C o m p o n e n t A n a l y s i s +

參考文獻

相關文件

• 源自專家讀者 (expert reader) 和新手讀者 (novice reader) 的認知過程比較研究,重視 讀者靈活和綜合調控思維過程的能力。. •

類別 弱項 強項 (寫作能力/困難) 自閉症 理解和表達. 言語、缺乏 想像力、理

•在理解的 基礎上,推 斷閱讀材料 以外的內容

電機工程學系暨研究所( EE ) 光電工程學研究所(GIPO) 電信工程學研究所(GICE) 電子工程學研究所(GIEE) 資訊工程學系暨研究所(CS IE )

認為它注重對四大師的研究而忽視支援這些大師布教活動的庶民之信仰的研 究。[13]

对于电磁现象,尽管我们仍然还是从力学的角度来理解各种各样的物理对象以及物理过程,但最关键

本研究旨在使用 TI-Nspire CAS 計算機之輔助教學模式,融入基礎 統計學的應用,及研究如何使用 TI-Nspire CAS

[r]