书 书 书
第44卷 第6期
2021年6月 计 算 机 学 报
CHINESEJOURNALOFCOMPUTERS Vol.4J4Nune2o0.261
收稿日期:20200104;在线发布日期:20200515.本课题得到国家重点研发计划项目(2018YFC0831500)、国家自然科学基金(61972047)、国 家自然科学基金(U1936220)、中央高校基本科研业务费专项资金(500420824)资助.王 正,博士研究生,中国计算机学会(CCF)学生会员, 主要研究方向为多媒体内容理解、机器学习、计算机视觉.Email:wangzheng123@bupt.edu.cn.吴 斌,博士,教授,中国计算机学会
(CCF)高级会员,主要研究领域为数据挖掘、复杂网络、云计算.王文哲,硕士研究生,主要研究方向为多媒体内容理解、机器学习.滕一阳,
博士研究生,主要研究方向为多媒体内容理解、机器学习、计算机视觉.帅 杰,博士研究生,主要研究方向为数据挖掘、推荐系统.肖云鹏,
博士,教授,中国计算机学会(CCF)会员,主要研究领域为社交网络、机器学习.白 婷(通信作者),博士,讲师,中国计算机学会(CCF)会 员,主要研究方向为推荐系统、多维数据挖掘、网络表示学习.Email:baiting@bupt.edu.cn.
基于图像和视频信息的社交关系理解研究综述
王 正
1),2)吴 斌
1),2)王文哲
1),2)滕一阳
1),2)帅 杰
3)肖云鹏
4)白 婷
1),2)1)(北京邮电大学智能通信软件与多媒体北京市重点实验室 北京 100876)
2)(北京邮电大学计算机学院(国家示范性软件学院) 北京 100876)
3)(合肥工业大学媒体计算实验室 合肥 230601)
4)(重庆邮电大学网络与信息安全技术重庆市工程实验室 重庆 400065)
摘 要 随着多媒体技术的快速发展,互联网上涌现了大量的文本、图像、视频、音频等多媒体数据.多媒体数据的 特点表现为形式上多源异构、语义上互相联系.基于多媒体信息的社交关系理解是利用各种手段和方法从海量异 构的多媒体数据中挖掘出有价值的信息,帮助人们快速地理解多媒体信息中的社交关系,促进多媒体内容理解、人 物追踪、知识图谱的构建等多媒体数据检索和智能商业服务的发展.图像和视频是多媒体信息的重要组成部分,基 于图像和视频信息的社交关系理解研究逐渐引起了学术界和工业界的广泛关注.本文主要对近年来基于图像和视 频信息的社交关系理解的分类和研究现状进行总结.首先,给出问题定义并对基于图像和视频信息的社交关系理 解过程进行介绍.其次,从图像和视频两个角度概括总结社交关系理解的主要研究现状.然后,在介绍已有的图像 和视频数据集的基础上,对现有的主要算法进行比较分析.最后,对基于图像和视频信息的社交关系理解中的主要 问题和挑战作进一步阐述.本文旨在为感兴趣的研究人员提供有益的参考,帮助其更全面地了解基于图像和视频 信息的社交关系理解的研究现状,推动该领域的进一步发展.
关键词 多媒体特征抽取;图像内容理解;视频内容理解;社交关系理解;多元关系判定;社交理解应用 中图法分类号TP391 犇犗犐号10.11897/SP.J.1016.2021.01168
犃 犛 狌 狉 狏 犲 狔 狅 犳 犛 狅 犮 犻 犪 犾 犚 犲 犾 犪 狋 犻 狅 狀 犝 狀 犱 犲 狉 狊 狋 犪 狀 犱 犻 狀 犵 犅 犪 狊 犲 犱 狅 狀 犐 犿 犪 犵 犲 犪 狀 犱 犞 犻 犱 犲 狅 犐 狀 犳 狅 狉 犿 犪 狋 犻 狅 狀
WANGZheng1),2) WUBin1),2) WANGWenZhe1),2) TENGYiYang1),2) SHUAIJie3) XIAOYunPeng4) BAITing1),2)
1)(犅犲犻犼犻狀犵犓犲狔犔犪犫狅狉犪狋狅狉狔狅犳犐狀狋犲犾犾犻犵犲狀狋犜犲犾犲犮狅犿犿狌狀犻犮犪狋犻狅狀犛狅犳狋狑犪狉犲犪狀犱犕狌犾狋犻犿犲犱犻犪, 犅犲犻犼犻狀犵犝狀犻狏犲狉狊犻狋狔狅犳犘狅狊狋狊犪狀犱犜犲犾犲犮狅犿犿狌狀犻犮犪狋犻狅狀狊,犅犲犻犼犻狀犵 100876)
2)(犛犮犺狅狅犾狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲(犖犪狋犻狅狀犪犾犘犻犾狅狋犛狅犳狋狑犪狉犲犈狀犵犻狀犲犲狉犻狀犵犛犮犺狅狅犾), 犅犲犻犼犻狀犵犝狀犻狏犲狉狊犻狋狔狅犳犘狅狊狋狊犪狀犱犜犲犾犲犮狅犿犿狌狀犻犮犪狋犻狅狀狊,犅犲犻犼犻狀犵 100876)
3)(犔犪犫犳狅狉犕犲犱犻犪犆狅犿狆狌狋犻狀犵,犎犲犳犲犻犝狀犻狏犲狉狊犻狋狔狅犳犜犲犮犺狀狅犾狅犵狔,犎犲犳犲犻 230601)
4)(犆犺狅狀犵狇犻狀犵犈狀犵犻狀犲犲狉犻狀犵犔犪犫狅狉犪狋狅狉狔狅犳犐狀狋犲狉狀犲狋犪狀犱犐狀犳狅狉犿犪狋犻狅狀犛犲犮狌狉犻狋狔, 犆犺狅狀犵狇犻狀犵犝狀犻狏犲狉狊犻狋狔狅犳犘狅狊狋狊犪狀犱犜犲犾犲犮狅犿犿狌狀犻犮犪狋犻狅狀狊,犆犺狅狀犵狇犻狀犵 400065)
犃犫狊狋狉犪犮狋 Withtherapiddevelopmentofmultimediatechnology,alargeamountofmultimediadata suchastext,image,video,andaudiohaveemerged.Thesemultisourcesdataareheterogeneous intheformwhileinterrelatedinsemantics.Byusingtherichinformationfrommassiveheterogeneous multimediadata,theaimofmultimediasocialrelationunderstandingistolearnthesocialrelation inmultimedia,soastopromotetheintelligentbusinessservices,suchasmultimediacontent
《 计
算
机
学
报
》
understanding,charactertracking,knowledgegraphconstructionandsoon.Imageandvideoare importantpartsofmultimediainformation.Theresearchofsocialrelationunderstandingbasedon imageandvideoinformationhavegraduallyattractedincreasingattentionfrombothacademicand industryareas.Inthispaper,wesummarizetheexistingstudiesofsocialrelationunderstanding basedonimageandvideoinformationinrecentyears.Wefirstbrieflyintroducetheresearch backgroundandthegeneralorganizationofourpaper:relevantdefinitions,formaldescriptionof theproblem,researchmethodsandtheprocessofsocialrelationunderstanding.Inthedefinitionsof relevantconcepts,wemainlyintroduceninedefinitionsfromtheaspectsofnode,edge,feature, networkandsoon.Problemformalizationismainlydescribedfromtwoaspects:relationexistence judgmentandrelationtypejudgment.Thenwelookintothestudiesofsocialrelationunderstanding basedonimageandvideoinformation.Theprocessofsocialrelationunderstandingincludesfour parts,namelydatapreprocessing,featureextraction,socialrelationextractionandresearch application.Wealsosummarizethesimilaritiesanddifferencesbetweenthestudiesofsocial relationunderstandinginimageandvideoareas.Afterwards,wegivedetailedintroductionsof theexistingmethodsinsocialrelationunderstandingbasedonbothimageandvideoinformation. Andanalyzetheexperimentfromthreeparts:evaluationmethod,datasetandcomparisonmethod basedonimageandvideodata.Finally,wemakeaconclusionoftheproblemsandchallengeson thesocialrelationunderstandingbasedonimageandvideoinformation.Inparticular,basedon thetechnologydevelopmentinsocialrelationunderstanding,wedividetheexistingmethodsof socialrelationunderstandingintosevencategories:cooccurrencebasedmethods,traditional graphbasedmethods,supervisionbasedmethods,machinelearningbasedmethods,deep learningbasedmethods,multimodalinformationbasedmethodsandGNNbasedmethods.Asfor socialrelationunderstandinginbothrelationexistencejudgmentandrelationtypejudgment,we furtherclassifythemethodsintotwocategoriesbasedonthenumberofrelations:singleand multiplerelations.Inthepartofexperiments,wesummarizefiveevaluationmethods,namely accuracy,precision,recall,F1andmAP.Thenweintroducetheimageandvideodatasetsrelated tosocialrelationunderstandinginrecentyears.Intheexperimentsbasedonimageinformation, wechosePISCandPIPAdatasetsformethodcomparisons.Asfortheexperimentsbasedonvideo information,wechoseSRIVandViSRdatasetsformethodcomparisons.Moreover,weanalyze theadvantagesanddisadvantagesoftheexistingmethodsbasedontheexperimentalresults.And finallysummarizetheproblemsandchallengesfromsevenaspects,namelysmallsamplelearning, multisourcedatafusion,unsupervisedsocialrelationunderstanding,multiroledifferentrelation recognition,efficientrelationunderstandingalgorithm,realtimedatafeedbackandmultimedia knowledgegraphs.Theaimofthispaperistoprovidearesearchscopeofsocialrelationunderstanding basedonimageandvideoinformation,whichmaybehelpfulfortheresearcherstohaveaquick understandingofthefield,andpromotethefurtherdevelopmentinthisarea.
犓犲狔狑狅狉犱狊 multimediafeatureextraction;imagecontentunderstanding;videocontentunderstanding; socialrelationunderstanding;multiplerelationspredication;socialunderstandingapplication
1 引 言
随着科技的日新月异,多媒体技术得到了长足的 发展,并涌现出海量的多媒体数据,如文本、图像、视 频、音频等.国际数据公司(InternationalDataCorpora
tion,IDC)发布的最新版白皮书《DataAge2025》
①
指出,预计到2025年,全球数据量总和将达到175 ZB,这说明在当前所处的科技时代,信息数据的增长是爆炸性的.其中,图像和视频数据已经占据总数
9 6 1 6期 王 正等:基于图像和视频信息的社交关系理解研究综述 1
①
DataAge2025.https://www.seagate.com/cn/zh/ourstory/ dataage2025《 计
算
机
学
报
》
据量的90%以上[1].因为这些具有多源异构性和多 样性的非结构化数据正在快速增长并且具有很高的 研究前景,所以如何从海量数据中挖掘出有价值的 信息,帮助人们快速地理解社交关系并取得实际应 用成为研究的热点问题[2].
社交关系是人与人之间的关系,主要是在社会 生产和生活的直接交往中形成的[34].图像和视频是 多媒体信息的重要组成部分,近年来基于图像和视 频信息的社交关系理解有了新的进展,引起了学术 界和工业界的广泛关注.本文主要针对多媒体中基 于图像和视频信息的社交关系理解进行分析和总 结.基于多媒体(特指图像和视频)信息的社交关系 理解是利用各种手段和方法从海量异构的多媒体数 据中挖掘出有价值的信息,帮助人们快速地理解多 媒体信息中的社交关系,促进多媒体内容理解[5]、人 物追踪[6]、角色发现[7]、知识图谱的构建[8]等多媒体 数据检索和智能商业服务[910]的发展.同时,基于多 媒体信息的社交关系理解也逐渐受到谷歌、京东、爱 奇艺等国内外知名企业的关注.可见,基于多媒体信 息的社交关系研究与国家和社会的发展紧密相连, 顺应社会的发展趋势.
多媒体数据具有数据量大、非结构化、语义抽 象、种类多样等特点,对基于多媒体信息的社交关 系理解的研究不仅需要分析图像、视频等单一媒 体数据,也需要综合分析多种媒体数据进而实现语 义协同[1].其中,这涉及多个领域的知识,如多媒 体[11]、计算机视觉[12]、传统机器学习[13]、深度学 习[14]、模式识别[15]等,吸引了来自社会学、数学、计 算机科学、语言学、复杂性科学等众多领域的研究 者.每年在CVPR[16]、ICCV[17]、ECCV[18]、IJ CAI[19]、ACMMM[20]、IJCV[21]、TMM[22]、PR[23]等
国际顶级会议和期刊上都刊出了相关的工作,推动 着相关研究的发展.
本文主要为了给对基于图像和视频信息的社交 关系理解方向感兴趣的研究人员提供有益的参考, 帮助其更全面地了解基于图像和视频信息的社交关 系理解的研究现状,推动该领域的进一步发展.对 此,在广泛阅读相关文献的基础上,本文重点对近年 来基于图像和视频信息的社交关系理解的分类和研 究现状进行全面的分析总结,并整理出相关的图像 和视频数据集以及相应的方法对比.贡献是系统地 整理出基于图像和视频信息的社交关系理解研究综 述.主要对问题定义、问题形式化以及具体处理方法 进行描述,总结了基于图像和视频信息的社交关系
理解过程(包括数据预处理、特征提取、社交关系抽 取、研究应用).此外,对方法分类说明、比较分析与 选择进行描述,从图像和视频两个角度介绍和分析 当前的研究现状.同时,对实验中涉及的评价指标、 数据集、基于图像和视频数据的实验对比方法以及 当前存在的问题与挑战进行了相应的分析与总结. 本文第1节为引言,讲述基于图像和视频信息 的社交关系理解研究背景;第2节对问题定义、形式 化、具体处理方法以及基于图像和视频信息的社交 关系理解过程进行描述;第3节对方法分类说明、比 较分析与选择进行描述,并从图像和视频两个角度 概括总结社交关系理解的主要研究现状;第4节在 介绍已有图像和视频数据集的基础上,对现有主要 算法进行比较分析;第5节对基于图像和视频信息 的社交关系理解中的主要问题和挑战作进一步阐 述;第6节对全文进行总结.
2 问题描述
本文主要对基于图像和视频信息的社交关系理 解进行研究,通过从图像和视频数据中识别出人物 实体,并借助提取的各种特征属性,利用学习模型去 分析和推断人物之间是否存在社交关系、存在何种 类型的社交关系.其中,涉及到节点、边、特征、网络 等相关定义、形式化描述、研究方法以及具体过程. 首先,我们对相关概念进行定义.
21 相关定义
定义1. 角色节点集.角色是网络中的节点, 通过人脸或人体检测和识别算法,对图像和视频中 的人物进行识别和标识,形成角色节点集合犝=
{狌1,狌2,…,狌狀}.
定义2. 角色边集.角色边即网络中的角色对
〈狌犻,狌犼〉之间的连边,犈表示角色边集合.当图像或 视频中的角色狌犻和狌犼之间存在关系犲犻犼时,将犲犻犼添加 到角色边集合犈中.其中,狌犻∈犝,狌犼∈犝.
定义3. 关系权重矩阵.关系权重矩阵犠是 一个狀×狀的矩阵[狑犻犼]狀×狀.其中,狑犻犼是角色犻和犼 之间边的权重,通过分析图像和视频中出现的相应 角色之间的交互确定权重,它用来衡量角色之间的 关系强度.
定义4. 图像集.图像集用犇={犱1,犱2,…,犱犽} 来表示.其中,犱狅表示图像集中的任意一张图片.
定义5. 视频帧集.视频是由帧组成的,我们 用犞={犉狋}来表示整个视频,也表示一个具有相应
0 7 1
1 计 算 机 学 报 2021年
《 计
算
机
学
报
》
时间戳狋的帧犉狋的流媒体集合.
定义6. 社交关系集.社交关系集合犚是由生 活中各种类型的关系组成的,通常是预先定义好的 社交关系集合,也可以用来表示是否存在社交关系, 每一个角色对〈狌犻,狌犼〉从犚中识别出关系狉犻犼或者判 别是否存在关系.
定义7.社交特征集.所谓的社交特征集合 犘={狆1,狆2,…,狆犿}是由各种学习算法提取的时空 特征(语音、光流、场景等)、语义对象(人脸、人物、物 体等)和语义属性(年龄、性别、穿着等)等特征组成 的.其中,狆1,狆2,…,狆犿表示不同的社交特征,用来 辅助社交关系的判定.
定义8. 角色社交关系网络.角色社交关系网 络用犌狉=〈犝,犈,犚〉来表示.其中,犝表示角色节点 集合,犈表示角色之间边的集合,犚表示角色社交关 系集合,社交关系根据设定的阈值来判定.
定义9. 角色权重网络.角色权重网络用犌狑=
〈犝,犈,犠〉来表示.其中,犝表示角色节点集合,犈表 示角色之间边的集合,犠表示关系权重矩阵.
22 问题形式化描述
本节主要根据问题的不同从关系存在判定和关 系类型判定两种问题出发进行形式化描述.关系存 在判定主要是判断图像和视频中的人物之间是否存 在关系,从而构建网络.关系类型判定是判断图像和 视频中的人物之间具体是哪种类型的关系,从而构 建角色关系网络.下面分别从关系存在判定和关系 类型判定两方面进行形式化描述.
2.2.1 关系存在判定问题的形式化描述
首先,利用相应的算法识别出图像集犇=
{犱1,犱2,…,犱犽}或视频帧集犞={犉狋}中的角色节点 集犝={狌1,狌2,…,狌狀}以及抽取相应的社交特征 犘={狆1,狆2,…,狆犿}.然后,设计相应的框架判断每 个角色对〈狌犻,狌犼〉之间是否存在关系,如果存在关系 则计算关系之间的权重矩阵犠,从而构建角色权重 网络犌狑=〈犝,犈,犠〉.具体的形式化定义如下:
犇={犱1,犱2,…,犱犽},犞={犉狋} 犝={狌1,狌2,…,狌狀}
犘={狆1,狆2,…,狆犿 烍烌 烎
} 犳:(犇,犞,犝,犘)
→犚=1,狌犻和狌犼存在连边 犚=0,
{
其他→犌狑=〈犝,犈,犠〉.
2.2.2 关系类型判定问题的形式化描述
首先,利用相应的算法识别出图像集犇=
{犱1,犱2,…,犱犽}或视频帧集犞={犉狋}中的角色节点 集犝={狌1,狌2,…,狌狀}以及抽取相应的社交特征 犘={狆1,狆2,…,狆犿}.然后,设计相应的框架判断每个 角色对〈狌犻,狌犼〉之间的关系类型,从而构建角色社交 关系网络犌狉=〈犝,犈,犚〉.具体的形式化定义如下:
犇={犱1,犱2,…,犱犽},犞={犉狋} 犝={狌1,狌2,…,狌狀}
犘={狆1,狆2,…,狆犿 烍烌
} 烎犳:(犇,犞,犝,犘)
→犚→犌狉=〈犝,犈,犚〉. 23 研究方法
基于图像和视频信息的社交关系理解的具体处 理方法为从图像和视频数据中识别出人物实体,利 用各种学习方法提取时空特征、语义对象和语义属 性,通过学习模型去分析和推断人物之间是否存在 社交关系,存在何种类型的社交关系,并进行更深层 次的应用研究.基于图像和视频信息的社交关系理 解的整体研究框架如图1所示.其中,问题的输入根 据多媒体中不同数据的模态类型,分为图像和视频 两种.采用的方法是在社交关系理解任务中设计不 同的学习模型.问题的输出分为关系存在判定和关 系类型判定.当然,社交关系不仅包括关系存在判定 和关系类型判定,还包括关系强度和方向的判定等, 只是本文综述的内容限定在关系存在判定和关系类 型判定.研究应用包括多角色关系识别、人和关系同 时识别、网络构建、知识图谱构建等.针对图像和视 频信息的社交关系理解的具体研究过程框架将在后 续章节分别展开描述.
图1 基于图像和视频信息的社交关系理解整体研究框架
1 7 1 6期 王 正等:基于图像和视频信息的社交关系理解研究综述 1
《 计
算
机
学
报
》
24 基于图像和视频信息的社交关系理解过程 基于图像和视频信息的社交关系理解过程主要 包括数据预处理、特征提取、社交关系抽取、研究应
用,研究的过程框架如图2所示.此外,本节对图像 和视频相关研究异同点进行总结.下面分别对框架 的各个方面进行详细介绍.
图2 基于图像和视频信息的社交关系理解过程框架
2.4.1 数据预处理
在本文中,数据预处理是针对图像和视频进行 的.其中,图像和视频预处理都包括目标检测[24],目 标检测一般包括人脸检测[25]、人体检测[26]和物体检 测[27].而视频预处理还包括视频分割[28]、关键帧抽 取[29],这些预处理工作属于社交关系理解中非常重 要的部分.首先,我们对视频分割和关键帧抽取进行 相应的介绍.然后,对目标检测进行相应的介绍.
(1)视频分割
视频分割是将一段视频按照不同的分割方法 划分为不同的视频片段,目的是从中划分出相关的 实体对象,通常将这种实体对象称为视频对象[30]. 简单来说就是通过某种手段或方法,把视频按照需 求进行截断分割,选取需要的部分.在视频分割中, 最常用的是基于视频镜头进行分割.之所以进行视 频镜头分割,主要是因为镜头分割作为视频处理的 第一步,可以为分类、分析、索引和查询高层内容打 下坚实的基础[31].镜头分割的准确性将直接影响社 交关系理解的准确性,并且为关键帧的抽取奠定基 础.视频镜头分割的典型方法包括基于像素[32]、基 于直方图[33]、基于轮廓[34]的方法等,以及一些改进
的视频镜头分割方法如基于双重检测[35]、基于 GIST特征和条件判定[36]的方法等.
除了基于视频镜头分割外,还有基于视频故事 分割和基于视频场景分割的方法,不同的分割方法 对于社交关系的理解存在差异.例如,因为新闻视频 的视频片段和语音内容差异比较大,所以对于新闻 视频大多使用基于故事分割的方法.而影视视频中 的场景信息比较丰富,能够为视频内容理解提供重 要信息,所以对于影视视频使用场景分割的方法也 非常普遍.然而,对于故事分割点不明确的影视视频 来说,使用先前的故事分割方法相对困难[2].对此, Lv等人[37]提出一种基于视频多层次特征的故事分
割方法,利用分水岭算法并结合分层提取的视频内容 特征进行故事分割,构建人物关系网络.
(2)关键帧抽取
关键帧指用来描述一个镜头内部主要内容的某 帧或某几帧图像,关键帧抽取是在视频分割的基础 上进行的.之所以进行关键帧抽取,主要是因为它可 以减少视频帧之间存在的大量冗余信息,并且更凝 练地表达一段视频中包含的信息,便于对视频内容 建立索引并进行管理.在基于视频信息的社交关系
2 7 1
1 计 算 机 学 报 2021年
《 计
算
机
学
报
》
理解中,进行关键帧抽取可以在不影响实验结果的 情况下极大缩短处理时间.关键帧抽取的算法包 括基于聚类的方法[38]、基于运动分析的方法[39]、基 于改进的谱聚类算法[40]、基于卷积神经网络(Con volutionalNeuralNetwork,CNN)和图形处理单元
算法[41]等.
(3)目标检测
目标检测作为基于图像和视频信息的社交关系 理解中非常重要的步骤,能够对社交关系理解的准 确性产生直接的影响.目标检测的任务是对任意一 幅图像中存在的对象进行定位和分类,并用矩形框对 其进行标记.一般将信息区域选择、特征提取、分类作 为传统目标检测模型的三个阶段[24].在计算机视觉 的基本问题中,目标检测具有重要的研究意义,它能 够为理解图像和视频中的语义提供有价值的信息,涉 及到许多应用领域,包括图像分类[4243]、人类行为分 析[44]、社交关系理解[45]和自动驾驶[46]等.在基于图 像和视频信息的社交关系理解过程中,目标检测通常 分为不同的子任务,如人脸检测、人体检测和物体检 测.其中,人脸检测和人体检测主要对人物的面部和 整体进行检测,而物体检测主要对除人物以外的其 它物体进行检测.通过利用目标检测提供的有价值 信息能够提高社交关系理解的准确度.通用的目标 检测方法框架主要分为两类,第一类为基于区域生 成的方法,第二类为基于回归/分类的方法,每一类都 包含多种方法,表1列出了其中的部分方法.
表1 目标检测方法分类
目标检测分类 方法 发表会议
基于区域生成
RCNN[47] CVPR2014 FastRCNN[48] ICCV2015 FasterRCNN[49] NeurIPS2015
RFCN[50] NeurIPS2016 FPN[51] CVPR2017 MaskRCNN[52] ICCV2017 CascadeRCNN[53] CVPR2018 RDAD[54] AAAI2019 RRPN[55] AAAI2020
基于回归/分类
MultiBox[56] CVPR2014 AttentionNet[57] ICCV2015 YOLO[58] CVPR2016 GCNN[59] CVPR2016 SSD[60] ECCV2016 YOLO9000[61] CVPR2017 YOLOv3[62] arXiv2018 M2Det[63] AAAI2019 SpikingYOLO[64] AAAI2020
2.4.2 特征提取
随着多媒体和网络技术的快速发展,随时都有
大量的图像和视频数据产生.视频作为一种重要的 媒体形式,包含了丰富的时空特征信息,如何全面地 提取特征信息对基于图像和视频信息的社交关系理 解具有重要的意义.特征提取可以理解为计算机视 觉任务中的方法和处理过程,它是社交关系理解过 程中的关键步骤,是否能够提取尽可能完整地反映 多媒体内容的理想特征将直接影响社交关系理解的 准确率,因为特征是不同的并且不同特征的重要性 也不相同.
多媒体特征提取是针对图像和视频进行的,两 者之间的特征既存在相同点也存在不同点.我们将 图像特征分为基本特征和社交语义特征,基本特征 包括颜色、纹理和形状特征,社交语义特征包括场 景、人物和物体特征等.视频特征也分为基本特征和 社交语义特征,基本特征又分为静态特征和动态特 征.静态特征包括颜色、纹理和形状特征,动态特征 包括运动轨迹、相对速度和位置变化等信息,社交语 义特征包括场景、人物、物体、声音和运动特征等.
(1)图像的基本特征
颜色作为图像最重要的特征之一,主要由颜色 空间或模型定义.颜色空间包括RGB、LUV、HSV 和HMMD等[65].纹理是另外一种重要的特征,具 有很强的识别能力.通常,颜色是像素属性,而纹理 只能从一组像素中测量[66].形状也是一种重要的特 征,人们认识世间万物主要是以形状为线索,将简单 的几何形状进行编码[67].
(2)图像的社交语义特征
图像的社交语义特征根据其描述对象的不同可 以分为场景特征[68]、人物特征[69]和物体特征[5].社 交语义特征相比于基本特征来说包含更多能够反映 多媒体内容的丰富信息,导致在基于图像信息的社 交关系理解中社交语义特征所起到的作用更大,而 基本特征所起到的作用相比于社交语义特征来说微 乎其微.因此,当前的研究中绝大多数使用的是社交 语义特征.其中,所谓的场景特征是指图像中人物所 处的环境以及周围的事物等信息,物体特征也属于 场景中的一部分,它们能够为基于图像信息的社交 关系理解提供非常重要的线索.人物特征相对来说 比较丰富,例如人脸表情、穿着、年龄、动作等,再加上 人和物体之间的交互信息,同样能够很好地促进社交 关系理解.而社交语义特征的提取广泛使用CNN[43] 等深度学习方法.
(3)视频的基本特征
视频的每一帧都代表一个图像,每一帧的图像 特征都是静态特征.因此,使用上述的静态图像特征
3 7 1 6期 王 正等:基于图像和视频信息的社交关系理解研究综述 1