基于图像和视频信息的社交关系理解研究综述

(1)

书书书

第４４卷　第６期

２０２１年６月计　　算　　机　　学　　报

ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ ^Ｖ^ｏ^ｌ^．^４^Ｊ^４Ｎ^ｕ^ｎ^ｅ^２^ｏ^０^．^２^６^１　

收稿日期：２０２００１０４^；在线发布日期：２０２００５１５．本课题得到国家重点研发计划项目（２０１８ＹＦＣ０８３１５００^）^、国家自然科学基金（６１９７２０４７^）^、国家自然科学基金（Ｕ１９３６２２０^）^、中央高校基本科研业务费专项资金（５００４２０８２４^）资助．王　^正，博士研究生，中国计算机学会（ＣＣＦ^）学生会员，主要研究方向为多媒体内容理解、机器学习、计算机视觉．Ｅｍａｉｌ^：ｗａｎｇｚｈｅｎｇ１２３＠ｂｕｐｔ．ｅｄｕ．ｃｎ．吴　斌，博士，教授，中国计算机学会

（ＣＣＦ^）高级会员，主要研究领域为数据挖掘、复杂网络、云计算．王文哲，硕士研究生，主要研究方向为多媒体内容理解、机器学习．滕一阳，

博士研究生，主要研究方向为多媒体内容理解、机器学习、计算机视觉．帅　杰，博士研究生，主要研究方向为数据挖掘、推荐系统．肖云鹏，

博士，教授，中国计算机学会（ＣＣＦ^）会员，主要研究领域为社交网络、机器学习．白　^婷（通信作者），博士，讲师，中国计算机学会（ＣＣＦ^）会员，主要研究方向为推荐系统、多维数据挖掘、网络表示学习．Ｅｍａｉｌ^：ｂａｉｔｉｎｇ＠ｂｕｐｔ．ｅｄｕ．ｃｎ．

基于图像和视频信息的社交关系理解研究综述

王　 ^正

^１^）^，^２^）

　 ^吴　 ^斌

^１^）^，^２^）

　 ^王文哲

^１^）^，^２^）

　 ^滕一阳

^１^）^，^２^）

　 ^帅　 ^杰

^３^）

肖云鹏

^４^）

　 ^白　 ^婷

^１^）^，^２^）

１^）（北京邮电大学智能通信软件与多媒体北京市重点实验室　北京　１００８７６^）

２）（北京邮电大学计算机学院（国家示范性软件学院）　北京　１００８７６^）

３^）（合肥工业大学媒体计算实验室　合肥　２３０６０１^）

４）（重庆邮电大学网络与信息安全技术重庆市工程实验室　重庆　４０００６５^）

摘　^要　随着多媒体技术的快速发展^，互联网上涌现了大量的文本、图像、视频、音频等多媒体数据．多媒体数据的特点表现为形式上多源异构、语义上互相联系．基于多媒体信息的社交关系理解是利用各种手段和方法从海量异构的多媒体数据中挖掘出有价值的信息，帮助人们快速地理解多媒体信息中的社交关系，促进多媒体内容理解、人物追踪、知识图谱的构建等多媒体数据检索和智能商业服务的发展．图像和视频是多媒体信息的重要组成部分，基于图像和视频信息的社交关系理解研究逐渐引起了学术界和工业界的广泛关注．本文主要对近年来基于图像和视频信息的社交关系理解的分类和研究现状进行总结．首先，给出问题定义并对基于图像和视频信息的社交关系理解过程进行介绍．其次，从图像和视频两个角度概括总结社交关系理解的主要研究现状．然后，在介绍已有的图像和视频数据集的基础上，对现有的主要算法进行比较分析．最后，对基于图像和视频信息的社交关系理解中的主要问题和挑战作进一步阐述．本文旨在为感兴趣的研究人员提供有益的参考，帮助其更全面地了解基于图像和视频信息的社交关系理解的研究现状，推动该领域的进一步发展．

关键词　多媒体特征抽取^；图像内容理解；视频内容理解；社交关系理解；多元关系判定；社交理解应用中图法分类号ＴＰ３９１　　　犇犗犐号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０２１．０１１６８

犃犛狌狉狏犲狔狅犳犛狅犮犻犪犾犚犲犾犪狋犻狅狀犝狀犱犲狉狊狋犪狀犱犻狀犵犅犪狊犲犱狅狀犐犿犪犵犲犪狀犱犞犻犱犲狅犐狀犳狅狉犿犪狋犻狅狀

ＷＡＮＧＺｈｅｎｇ^１^）^，^２^）　ＷＵＢｉｎ^１^）^，^２^）　ＷＡＮＧＷｅｎＺｈｅ^１^）^，^２^）　ＴＥＮＧＹｉＹａｎｇ^１^）^，^２^）　ＳＨＵＡＩＪｉｅ^３^）ＸＩＡＯＹｕｎＰｅｎｇ^４^）　ＢＡＩＴｉｎｇ^１^）^，^２^）

１）（犅犲犻犼犻狀犵犓犲狔犔犪犫狅狉犪狋狅狉狔狅犳犐狀狋犲犾犾犻犵犲狀狋犜犲犾犲犮狅犿犿狌狀犻犮犪狋犻狅狀犛狅犳狋狑犪狉犲犪狀犱犕狌犾狋犻犿犲犱犻犪^，犅犲犻犼犻狀犵犝狀犻狏犲狉狊犻狋狔狅犳犘狅狊狋狊犪狀犱犜犲犾犲犮狅犿犿狌狀犻犮犪狋犻狅狀狊^，犅犲犻犼犻狀犵　１００８７６^）

２）（犛犮犺狅狅犾狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲^（犖犪狋犻狅狀犪犾犘犻犾狅狋犛狅犳狋狑犪狉犲犈狀犵犻狀犲犲狉犻狀犵犛犮犺狅狅犾^）^，犅犲犻犼犻狀犵犝狀犻狏犲狉狊犻狋狔狅犳犘狅狊狋狊犪狀犱犜犲犾犲犮狅犿犿狌狀犻犮犪狋犻狅狀狊^，犅犲犻犼犻狀犵　１００８７６^）

３^）（犔犪犫犳狅狉犕犲犱犻犪犆狅犿狆狌狋犻狀犵^，犎犲犳犲犻犝狀犻狏犲狉狊犻狋狔狅犳犜犲犮犺狀狅犾狅犵狔^，犎犲犳犲犻　２３０６０１^）

４）（犆犺狅狀犵狇犻狀犵犈狀犵犻狀犲犲狉犻狀犵犔犪犫狅狉犪狋狅狉狔狅犳犐狀狋犲狉狀犲狋犪狀犱犐狀犳狅狉犿犪狋犻狅狀犛犲犮狌狉犻狋狔^，犆犺狅狀犵狇犻狀犵犝狀犻狏犲狉狊犻狋狔狅犳犘狅狊狋狊犪狀犱犜犲犾犲犮狅犿犿狌狀犻犮犪狋犻狅狀狊^，犆犺狅狀犵狇犻狀犵　４０００６５^）

犃犫狊狋狉犪犮狋　Ｗｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｍｕｌｔｉｍｅｄｉａｔｅｃｈｎｏｌｏｇｙ^，ａｌａｒｇｅａｍｏｕｎｔｏｆｍｕｌｔｉｍｅｄｉａｄａｔａｓｕｃｈａｓｔｅｘｔ^，ｉｍａｇｅ^，ｖｉｄｅｏ^，ａｎｄａｕｄｉｏｈａｖｅｅｍｅｒｇｅｄ．Ｔｈｅｓｅｍｕｌｔｉｓｏｕｒｃｅｓｄａｔａａｒｅｈｅｔｅｒｏｇｅｎｅｏｕｓｉｎｔｈｅｆｏｒｍｗｈｉｌｅｉｎｔｅｒｒｅｌａｔｅｄｉｎｓｅｍａｎｔｉｃｓ．Ｂｙｕｓｉｎｇｔｈｅｒｉｃｈｉｎｆｏｒｍａｔｉｏｎｆｒｏｍｍａｓｓｉｖｅｈｅｔｅｒｏｇｅｎｅｏｕｓｍｕｌｔｉｍｅｄｉａｄａｔａ^，ｔｈｅａｉｍｏｆｍｕｌｔｉｍｅｄｉａｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｉｓｔｏｌｅａｒｎｔｈｅｓｏｃｉａｌｒｅｌａｔｉｏｎｉｎｍｕｌｔｉｍｅｄｉａ^，ｓｏａｓｔｏｐｒｏｍｏｔｅｔｈｅｉｎｔｅｌｌｉｇｅｎｔｂｕｓｉｎｅｓｓｓｅｒｖｉｃｅｓ^，ｓｕｃｈａｓｍｕｌｔｉｍｅｄｉａｃｏｎｔｅｎｔ

《计

算

机

学

报

》

(2)

ｕｎｄｅｒｓｔａｎｄｉｎｇ^，ｃｈａｒａｃｔｅｒｔｒａｃｋｉｎｇ^，ｋｎｏｗｌｅｄｇｅｇｒａｐｈｃｏｎｓｔｒｕｃｔｉｏｎａｎｄｓｏｏｎ．Ｉｍａｇｅａｎｄｖｉｄｅｏａｒｅｉｍｐｏｒｔａｎｔｐａｒｔｓｏｆｍｕｌｔｉｍｅｄｉａｉｎｆｏｒｍａｔｉｏｎ．Ｔｈｅｒｅｓｅａｒｃｈｏｆｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｂａｓｅｄｏｎｉｍａｇｅａｎｄｖｉｄｅｏｉｎｆｏｒｍａｔｉｏｎｈａｖｅｇｒａｄｕａｌｌｙａｔｔｒａｃｔｅｄｉｎｃｒｅａｓｉｎｇａｔｔｅｎｔｉｏｎｆｒｏｍｂｏｔｈａｃａｄｅｍｉｃａｎｄｉｎｄｕｓｔｒｙａｒｅａｓ．Ｉｎｔｈｉｓｐａｐｅｒ^，ｗｅｓｕｍｍａｒｉｚｅｔｈｅｅｘｉｓｔｉｎｇｓｔｕｄｉｅｓｏｆｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｂａｓｅｄｏｎｉｍａｇｅａｎｄｖｉｄｅｏｉｎｆｏｒｍａｔｉｏｎｉｎｒｅｃｅｎｔｙｅａｒｓ．Ｗｅｆｉｒｓｔｂｒｉｅｆｌｙｉｎｔｒｏｄｕｃｅｔｈｅｒｅｓｅａｒｃｈｂａｃｋｇｒｏｕｎｄａｎｄｔｈｅｇｅｎｅｒａｌｏｒｇａｎｉｚａｔｉｏｎｏｆｏｕｒｐａｐｅｒ^：ｒｅｌｅｖａｎｔｄｅｆｉｎｉｔｉｏｎｓ^，ｆｏｒｍａｌｄｅｓｃｒｉｐｔｉｏｎｏｆｔｈｅｐｒｏｂｌｅｍ^，ｒｅｓｅａｒｃｈｍｅｔｈｏｄｓａｎｄｔｈｅｐｒｏｃｅｓｓｏｆｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇ．Ｉｎｔｈｅｄｅｆｉｎｉｔｉｏｎｓｏｆｒｅｌｅｖａｎｔｃｏｎｃｅｐｔｓ^，ｗｅｍａｉｎｌｙｉｎｔｒｏｄｕｃｅｎｉｎｅｄｅｆｉｎｉｔｉｏｎｓｆｒｏｍｔｈｅａｓｐｅｃｔｓｏｆｎｏｄｅ^，ｅｄｇｅ^，ｆｅａｔｕｒｅ^，ｎｅｔｗｏｒｋａｎｄｓｏｏｎ．Ｐｒｏｂｌｅｍｆｏｒｍａｌｉｚａｔｉｏｎｉｓｍａｉｎｌｙｄｅｓｃｒｉｂｅｄｆｒｏｍｔｗｏａｓｐｅｃｔｓ^：ｒｅｌａｔｉｏｎｅｘｉｓｔｅｎｃｅｊｕｄｇｍｅｎｔａｎｄｒｅｌａｔｉｏｎｔｙｐｅｊｕｄｇｍｅｎｔ．Ｔｈｅｎｗｅｌｏｏｋｉｎｔｏｔｈｅｓｔｕｄｉｅｓｏｆｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｂａｓｅｄｏｎｉｍａｇｅａｎｄｖｉｄｅｏｉｎｆｏｒｍａｔｉｏｎ．Ｔｈｅｐｒｏｃｅｓｓｏｆｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｉｎｃｌｕｄｅｓｆｏｕｒｐａｒｔｓ^，ｎａｍｅｌｙｄａｔａｐｒｅｐｒｏｃｅｓｓｉｎｇ^，ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ^，ｓｏｃｉａｌｒｅｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎａｎｄｒｅｓｅａｒｃｈａｐｐｌｉｃａｔｉｏｎ．Ｗｅａｌｓｏｓｕｍｍａｒｉｚｅｔｈｅｓｉｍｉｌａｒｉｔｉｅｓａｎｄｄｉｆｆｅｒｅｎｃｅｓｂｅｔｗｅｅｎｔｈｅｓｔｕｄｉｅｓｏｆｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｉｎｉｍａｇｅａｎｄｖｉｄｅｏａｒｅａｓ．Ａｆｔｅｒｗａｒｄｓ^，ｗｅｇｉｖｅｄｅｔａｉｌｅｄｉｎｔｒｏｄｕｃｔｉｏｎｓｏｆｔｈｅｅｘｉｓｔｉｎｇｍｅｔｈｏｄｓｉｎｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｂａｓｅｄｏｎｂｏｔｈｉｍａｇｅａｎｄｖｉｄｅｏｉｎｆｏｒｍａｔｉｏｎ．Ａｎｄａｎａｌｙｚｅｔｈｅｅｘｐｅｒｉｍｅｎｔｆｒｏｍｔｈｒｅｅｐａｒｔｓ^：ｅｖａｌｕａｔｉｏｎｍｅｔｈｏｄ^，ｄａｔａｓｅｔａｎｄｃｏｍｐａｒｉｓｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｉｍａｇｅａｎｄｖｉｄｅｏｄａｔａ．Ｆｉｎａｌｌｙ^，ｗｅｍａｋｅａｃｏｎｃｌｕｓｉｏｎｏｆｔｈｅｐｒｏｂｌｅｍｓａｎｄｃｈａｌｌｅｎｇｅｓｏｎｔｈｅｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｂａｓｅｄｏｎｉｍａｇｅａｎｄｖｉｄｅｏｉｎｆｏｒｍａｔｉｏｎ．Ｉｎｐａｒｔｉｃｕｌａｒ^，ｂａｓｅｄｏｎｔｈｅｔｅｃｈｎｏｌｏｇｙｄｅｖｅｌｏｐｍｅｎｔｉｎｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇ^，ｗｅｄｉｖｉｄｅｔｈｅｅｘｉｓｔｉｎｇｍｅｔｈｏｄｓｏｆｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｉｎｔｏｓｅｖｅｎｃａｔｅｇｏｒｉｅｓ^：ｃｏｏｃｃｕｒｒｅｎｃｅｂａｓｅｄｍｅｔｈｏｄｓ^，ｔｒａｄｉｔｉｏｎａｌｇｒａｐｈｂａｓｅｄｍｅｔｈｏｄｓ^，ｓｕｐｅｒｖｉｓｉｏｎｂａｓｅｄｍｅｔｈｏｄｓ^，ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｂａｓｅｄｍｅｔｈｏｄｓ^，ｄｅｅｐｌｅａｒｎｉｎｇｂａｓｅｄｍｅｔｈｏｄｓ^，ｍｕｌｔｉｍｏｄａｌｉｎｆｏｒｍａｔｉｏｎｂａｓｅｄｍｅｔｈｏｄｓａｎｄＧＮＮｂａｓｅｄｍｅｔｈｏｄｓ．Ａｓｆｏｒｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｉｎｂｏｔｈｒｅｌａｔｉｏｎｅｘｉｓｔｅｎｃｅｊｕｄｇｍｅｎｔａｎｄｒｅｌａｔｉｏｎｔｙｐｅｊｕｄｇｍｅｎｔ^，ｗｅｆｕｒｔｈｅｒｃｌａｓｓｉｆｙｔｈｅｍｅｔｈｏｄｓｉｎｔｏｔｗｏｃａｔｅｇｏｒｉｅｓｂａｓｅｄｏｎｔｈｅｎｕｍｂｅｒｏｆｒｅｌａｔｉｏｎｓ^：ｓｉｎｇｌｅａｎｄｍｕｌｔｉｐｌｅｒｅｌａｔｉｏｎｓ．Ｉｎｔｈｅｐａｒｔｏｆｅｘｐｅｒｉｍｅｎｔｓ^，ｗｅｓｕｍｍａｒｉｚｅｆｉｖｅｅｖａｌｕａｔｉｏｎｍｅｔｈｏｄｓ^，ｎａｍｅｌｙａｃｃｕｒａｃｙ^，ｐｒｅｃｉｓｉｏｎ^，ｒｅｃａｌｌ^，Ｆ１ａｎｄｍＡＰ．Ｔｈｅｎｗｅｉｎｔｒｏｄｕｃｅｔｈｅｉｍａｇｅａｎｄｖｉｄｅｏｄａｔａｓｅｔｓｒｅｌａｔｅｄｔｏｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｉｎｒｅｃｅｎｔｙｅａｒｓ．Ｉｎｔｈｅｅｘｐｅｒｉｍｅｎｔｓｂａｓｅｄｏｎｉｍａｇｅｉｎｆｏｒｍａｔｉｏｎ^，ｗｅｃｈｏｓｅＰＩＳＣａｎｄＰＩＰＡｄａｔａｓｅｔｓｆｏｒｍｅｔｈｏｄｃｏｍｐａｒｉｓｏｎｓ．Ａｓｆｏｒｔｈｅｅｘｐｅｒｉｍｅｎｔｓｂａｓｅｄｏｎｖｉｄｅｏｉｎｆｏｒｍａｔｉｏｎ^，ｗｅｃｈｏｓｅＳＲＩＶａｎｄＶｉＳＲｄａｔａｓｅｔｓｆｏｒｍｅｔｈｏｄｃｏｍｐａｒｉｓｏｎｓ．Ｍｏｒｅｏｖｅｒ^，ｗｅａｎａｌｙｚｅｔｈｅａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓｏｆｔｈｅｅｘｉｓｔｉｎｇｍｅｔｈｏｄｓｂａｓｅｄｏｎｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ．Ａｎｄｆｉｎａｌｌｙｓｕｍｍａｒｉｚｅｔｈｅｐｒｏｂｌｅｍｓａｎｄｃｈａｌｌｅｎｇｅｓｆｒｏｍｓｅｖｅｎａｓｐｅｃｔｓ^，ｎａｍｅｌｙｓｍａｌｌｓａｍｐｌｅｌｅａｒｎｉｎｇ^，ｍｕｌｔｉｓｏｕｒｃｅｄａｔａｆｕｓｉｏｎ^，ｕｎｓｕｐｅｒｖｉｓｅｄｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇ^，ｍｕｌｔｉｒｏｌｅｄｉｆｆｅｒｅｎｔｒｅｌａｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ^，ｅｆｆｉｃｉｅｎｔｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇａｌｇｏｒｉｔｈｍ^，ｒｅａｌｔｉｍｅｄａｔａｆｅｅｄｂａｃｋａｎｄｍｕｌｔｉｍｅｄｉａｋｎｏｗｌｅｄｇｅｇｒａｐｈｓ．Ｔｈｅａｉｍｏｆｔｈｉｓｐａｐｅｒｉｓｔｏｐｒｏｖｉｄｅａｒｅｓｅａｒｃｈｓｃｏｐｅｏｆｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇｂａｓｅｄｏｎｉｍａｇｅａｎｄｖｉｄｅｏｉｎｆｏｒｍａｔｉｏｎ^，ｗｈｉｃｈｍａｙｂｅｈｅｌｐｆｕｌｆｏｒｔｈｅｒｅｓｅａｒｃｈｅｒｓｔｏｈａｖｅａｑｕｉｃｋｕｎｄｅｒｓｔａｎｄｉｎｇｏｆｔｈｅｆｉｅｌｄ^，ａｎｄｐｒｏｍｏｔｅｔｈｅｆｕｒｔｈｅｒｄｅｖｅｌｏｐｍｅｎｔｉｎｔｈｉｓａｒｅａ．

犓犲狔狑狅狉犱狊　ｍｕｌｔｉｍｅｄｉａｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ^；ｉｍａｇｅｃｏｎｔｅｎｔｕｎｄｅｒｓｔａｎｄｉｎｇ^；ｖｉｄｅｏｃｏｎｔｅｎｔｕｎｄｅｒｓｔａｎｄｉｎｇ^；ｓｏｃｉａｌｒｅｌａｔｉｏｎｕｎｄｅｒｓｔａｎｄｉｎｇ^；ｍｕｌｔｉｐｌｅｒｅｌａｔｉｏｎｓｐｒｅｄｉｃａｔｉｏｎ^；ｓｏｃｉａｌｕｎｄｅｒｓｔａｎｄｉｎｇａｐｐｌｉｃａｔｉｏｎ

１　 ^引　 ^言

随着科技的日新月异^，多媒体技术得到了长足的发展，并涌现出海量的多媒体数据，如文本、图像、视频、音频等．国际数据公司（ＩｎｔｅｒｎａｔｉｏｎａｌＤａｔａＣｏｒｐｏｒａ

ｔｉｏｎ^，ＩＤＣ^）发布的最新版白皮书《ＤａｔａＡｇｅ２０２５^》

^①

指出，预计到２０２５年^，全球数据量总和将达到１７５ＺＢ^，这说明在当前所处的科技时代，信息数据的增

长是爆炸性的．其中^，图像和视频数据已经占据总数

９６１６期王　正等^：基于图像和视频信息的社交关系理解研究综述１

①

ＤａｔａＡｇｅ２０２５．ｈｔｔｐｓ^：^／^／ｗｗｗ．ｓｅａｇａｔｅ．ｃｏｍ^／ｃｎ^／ｚｈ^／ｏｕｒｓｔｏｒｙ^／ｄａｔａａｇｅ２０２５

《计

算

机

学

报

》

(3)

据量的９０％以上^［^１^］．因为这些具有多源异构性和多样性的非结构化数据正在快速增长并且具有很高的研究前景^，所以如何从海量数据中挖掘出有价值的信息，帮助人们快速地理解社交关系并取得实际应用成为研究的热点问题^［^２^］．

社交关系是人与人之间的关系^，主要是在社会生产和生活的直接交往中形成的^［^３^^４^］．图像和视频是多媒体信息的重要组成部分^，近年来基于图像和视频信息的社交关系理解有了新的进展，引起了学术界和工业界的广泛关注．本文主要针对多媒体中基于图像和视频信息的社交关系理解进行分析和总结．基于多媒体^（特指图像和视频^）信息的社交关系理解是利用各种手段和方法从海量异构的多媒体数据中挖掘出有价值的信息，帮助人们快速地理解多媒体信息中的社交关系^，促进多媒体内容理解^［^５^］^、人物追踪^［^６^］、角色发现^［^７^］、知识图谱的构建^［^８^］等多媒体数据检索和智能商业服务^［^９^^１^０^］的发展．同时^，基于多媒体信息的社交关系理解也逐渐受到谷歌、京东、爱奇艺等国内外知名企业的关注．可见，基于多媒体信息的社交关系研究与国家和社会的发展紧密相连^，顺应社会的发展趋势．

多媒体数据具有数据量大^、非结构化^、语义抽象、种类多样等特点，对基于多媒体信息的社交关系理解的研究不仅需要分析图像^、视频等单一媒体数据^，也需要综合分析多种媒体数据进而实现语义协同^［^１^］．其中，这涉及多个领域的知识，如多媒体^［^１^１^］^、计算机视觉^［^１^２^］^、传统机器学习^［^１^３^］^、深度学习^［^１^４^］、模式识别^［^１^５^］等，吸引了来自社会学、数学、计算机科学^、语言学^、复杂性科学等众多领域的研究者．每年在ＣＶＰＲ^［^１^６^］^、ＩＣＣＶ^［^１^７^］^、ＥＣＣＶ^［^１^８^］^、ＩＪ ＣＡＩ^［^１^９^］^、ＡＣＭＭＭ^［^２^０^］^、ＩＪＣＶ^［^２^１^］^、ＴＭＭ^［^２^２^］^、ＰＲ^［^２^３^］等

国际顶级会议和期刊上都刊出了相关的工作^，推动着相关研究的发展．

本文主要为了给对基于图像和视频信息的社交关系理解方向感兴趣的研究人员提供有益的参考，帮助其更全面地了解基于图像和视频信息的社交关系理解的研究现状，推动该领域的进一步发展．对此，在广泛阅读相关文献的基础上，本文重点对近年来基于图像和视频信息的社交关系理解的分类和研究现状进行全面的分析总结，并整理出相关的图像和视频数据集以及相应的方法对比．贡献是系统地整理出基于图像和视频信息的社交关系理解研究综述．主要对问题定义^、问题形式化以及具体处理方法进行描述^，总结了基于图像和视频信息的社交关系

理解过程^（包括数据预处理^、特征提取^、社交关系抽取、研究应用）．此外，对方法分类说明、比较分析与选择进行描述^，从图像和视频两个角度介绍和分析当前的研究现状．同时，对实验中涉及的评价指标、数据集^、基于图像和视频数据的实验对比方法以及当前存在的问题与挑战进行了相应的分析与总结．本文第１节为引言^，讲述基于图像和视频信息的社交关系理解研究背景^；第２节对问题定义^、形式化、具体处理方法以及基于图像和视频信息的社交关系理解过程进行描述^；第３节对方法分类说明^、比较分析与选择进行描述，并从图像和视频两个角度概括总结社交关系理解的主要研究现状^；第４节在介绍已有图像和视频数据集的基础上^，对现有主要算法进行比较分析；第５节对基于图像和视频信息的社交关系理解中的主要问题和挑战作进一步阐述；第６节对全文进行总结．

２　 ^问题描述

本文主要对基于图像和视频信息的社交关系理解进行研究，通过从图像和视频数据中识别出人物实体^，并借助提取的各种特征属性^，利用学习模型去分析和推断人物之间是否存在社交关系、存在何种类型的社交关系．其中^，涉及到节点^、边^、特征^、网络等相关定义^、形式化描述^、研究方法以及具体过程．首先，我们对相关概念进行定义．

２１　^相关定义

定义１．　角色节点集．角色是网络中的节点，通过人脸或人体检测和识别算法^，对图像和视频中的人物进行识别和标识，形成角色节点集合犝＝

｛狌^１^，狌^２^，^…，狌^狀^｝．

定义２．　角色边集．角色边即网络中的角色对

〈狌^犻^，狌犼〉之间的连边，犈表示角色边集合．当图像或视频中的角色狌^犻和狌^犼之间存在关系犲^犻^犼时^，将犲^犻^犼添加到角色边集合犈中．其中，狌^犻∈犝^，狌犼∈犝．

定义３．　关系权重矩阵．关系权重矩阵犠是一个狀×狀的矩阵^［狑^犻犼］狀×狀．其中，狑^犻犼是角色犻和犼之间边的权重，通过分析图像和视频中出现的相应角色之间的交互确定权重^，它用来衡量角色之间的关系强度．

定义４．　图像集．图像集用犇＝^｛犱^１^，犱^２^，^…，犱^犽^｝来表示．其中，犱^狅表示图像集中的任意一张图片．

定义５．　视频帧集．视频是由帧组成的^，我们用犞＝^｛犉^狋^｝来表示整个视频^，也表示一个具有相应

０７１

１计　　算　　机　　学　　报２０２１年

《计

算

机

学

报

》

(4)

时间戳狋的帧犉^狋的流媒体集合．

定义６．　社交关系集．社交关系集合犚是由生活中各种类型的关系组成的，通常是预先定义好的社交关系集合，也可以用来表示是否存在社交关系，每一个角色对^〈狌^犻^，狌^犼^〉从犚中识别出关系狉^犻^犼或者判别是否存在关系．

定义７．社交特征集．所谓的社交特征集合犘＝^｛狆^１^，狆^２^，^…，狆^犿^｝是由各种学习算法提取的时空特征^（语音^、光流^、场景等^）^、语义对象^（人脸^、人物^、物体等）和语义属性（年龄、性别、穿着等）等特征组成的．其中^，狆^１^，狆^２^，^…，狆^犿表示不同的社交特征^，用来辅助社交关系的判定．

定义８．　角色社交关系网络．角色社交关系网络用犌^狉＝^〈犝^，犈^，犚^〉来表示．其中，犝表示角色节点集合^，犈表示角色之间边的集合^，犚表示角色社交关系集合^，社交关系根据设定的阈值来判定．

定义９．　角色权重网络．角色权重网络用犌^狑＝

〈犝^，犈^，犠^〉来表示．其中^，犝表示角色节点集合^，犈表示角色之间边的集合^，犠表示关系权重矩阵．

２２　^{问题形式化描述}

本节主要根据问题的不同从关系存在判定和关系类型判定两种问题出发进行形式化描述．关系存在判定主要是判断图像和视频中的人物之间是否存在关系，从而构建网络．关系类型判定是判断图像和视频中的人物之间具体是哪种类型的关系^，从而构建角色关系网络．下面分别从关系存在判定和关系类型判定两方面进行形式化描述．

２．２．１　关系存在判定问题的形式化描述

首先^，利用相应的算法识别出图像集犇＝

｛犱^１^，犱^２^，^…，犱^犽^｝或视频帧集犞＝^｛犉^狋^｝中的角色节点集犝＝^｛狌^１^，狌^２^，^…，狌^狀^｝以及抽取相应的社交特征犘＝^｛狆^１^，狆^２^，^…，狆^犿^｝．然后^，设计相应的框架判断每个角色对^〈狌^犻^，狌^犼^〉之间是否存在关系^，如果存在关系则计算关系之间的权重矩阵犠^，从而构建角色权重网络犌^狑＝^〈犝^，犈^，犠^〉．具体的形式化定义如下：

犇＝^｛犱^１^，犱^２^，^…，犱^犽^｝^，犞＝^｛犉^狋^｝犝＝^｛狌^１^，狌^２^，^…，狌^狀^｝

犘＝^｛狆^１^，狆^２^，^…，狆^犿烍烌烎

｝ 犳^：^（犇^，犞^，犝^，犘^）

→犚＝１^，狌^犻和狌犼存在连边犚＝０^，

｛

^其^他

→犌^狑＝^〈犝^，犈^，犠^〉．

２．２．２　关系类型判定问题的形式化描述

首先^，利用相应的算法识别出图像集犇＝

｛犱^１^，犱^２^，^…，犱^犽^｝或视频帧集犞＝^｛犉^狋^｝中的角色节点集犝＝^｛狌^１^，狌^２^，^…，狌^狀^｝以及抽取相应的社交特征犘＝^｛狆^１^，狆^２^，^…，狆^犿^｝．然后，设计相应的框架判断每个角色对〈狌^犻^，狌犼〉之间的关系类型，从而构建角色社交关系网络犌^狉＝^〈犝^，犈^，犚^〉．具体的形式化定义如下^：

犇＝^｛犱^１^，犱^２^，^…，犱^犽^｝^，犞＝^｛犉^狋^｝犝＝^｛狌^１^，狌^２^，^…，狌^狀^｝

犘＝^｛狆^１^，狆^２^，^…，狆^犿烍烌

｝烎犳^：^（犇^，犞^，犝^，犘^）

→犚→犌^狉＝^〈犝^，犈^，犚^〉．２３　^研究方法

基于图像和视频信息的社交关系理解的具体处理方法为从图像和视频数据中识别出人物实体，利用各种学习方法提取时空特征^、语义对象和语义属性^，通过学习模型去分析和推断人物之间是否存在社交关系^，存在何种类型的社交关系^，并进行更深层次的应用研究．基于图像和视频信息的社交关系理解的整体研究框架如图１所示．其中^，问题的输入根据多媒体中不同数据的模态类型^，分为图像和视频两种．采用的方法是在社交关系理解任务中设计不同的学习模型．问题的输出分为关系存在判定和关系类型判定．当然^，社交关系不仅包括关系存在判定和关系类型判定^，还包括关系强度和方向的判定等^，只是本文综述的内容限定在关系存在判定和关系类型判定．研究应用包括多角色关系识别^、人和关系同时识别^、网络构建^、知识图谱构建等．针对图像和视频信息的社交关系理解的具体研究过程框架将在后续章节分别展开描述．

图１　基于图像和视频信息的社交关系理解整体研究框架

１７１６期王　正等^：基于图像和视频信息的社交关系理解研究综述１

《计

算

机

学

报

》

(5)

２４　基于图像和视频信息的社交关系理解过程基于图像和视频信息的社交关系理解过程主要包括数据预处理^、特征提取^、社交关系抽取^、研究应

用^，研究的过程框架如图２所示．此外^，本节对图像和视频相关研究异同点进行总结．下面分别对框架的各个方面进行详细介绍．

图２　基于图像和视频信息的社交关系理解过程框架

２．４．１　数据预处理

在本文中^，数据预处理是针对图像和视频进行的．其中^，图像和视频预处理都包括目标检测^［^２^４^］^，目标检测一般包括人脸检测^［^２^５^］^、人体检测^［^２^６^］和物体检测^［^２^７^］．而视频预处理还包括视频分割^［^２^８^］^、关键帧抽取^［^２^９^］，这些预处理工作属于社交关系理解中非常重要的部分．首先^，我们对视频分割和关键帧抽取进行相应的介绍．然后^，对目标检测进行相应的介绍．

（１^）视频分割

视频分割是将一段视频按照不同的分割方法划分为不同的视频片段，目的是从中划分出相关的实体对象^，通常将这种实体对象称为视频对象^［^３^０^］．简单来说就是通过某种手段或方法^，把视频按照需求进行截断分割，选取需要的部分．在视频分割中，最常用的是基于视频镜头进行分割．之所以进行视频镜头分割^，主要是因为镜头分割作为视频处理的第一步^，可以为分类^、分析^、索引和查询高层内容打下坚实的基础^［^３^１^］．镜头分割的准确性将直接影响社交关系理解的准确性，并且为关键帧的抽取奠定基础．视频镜头分割的典型方法包括基于像素^［^３^２^］^、基于直方图^［^３^３^］、基于轮廓^［^３^４^］的方法等，以及一些改进

的视频镜头分割方法如基于双重检测^［^３^５^］^、基于ＧＩＳＴ特征和条件判定^［^３^６^］的方法等．

除了基于视频镜头分割外^，还有基于视频故事分割和基于视频场景分割的方法，不同的分割方法对于社交关系的理解存在差异．例如^，因为新闻视频的视频片段和语音内容差异比较大^，所以对于新闻视频大多使用基于故事分割的方法．而影视视频中的场景信息比较丰富，能够为视频内容理解提供重要信息，所以对于影视视频使用场景分割的方法也非常普遍．然而^，对于故事分割点不明确的影视视频来说，使用先前的故事分割方法相对困难^［^２^］．对此，Ｌｖ等人^［^３^７^］提出一种基于视频多层次特征的故事分

割方法^，利用分水岭算法并结合分层提取的视频内容特征进行故事分割^，构建人物关系网络．

（２^）关键帧抽取

关键帧指用来描述一个镜头内部主要内容的某帧或某几帧图像，关键帧抽取是在视频分割的基础上进行的．之所以进行关键帧抽取^，主要是因为它可以减少视频帧之间存在的大量冗余信息^，并且更凝练地表达一段视频中包含的信息，便于对视频内容建立索引并进行管理．在基于视频信息的社交关系

２７１

１计　　算　　机　　学　　报２０２１年

《计

算

机

学

报

》

(6)

理解中^，进行关键帧抽取可以在不影响实验结果的情况下极大缩短处理时间．关键帧抽取的算法包括基于聚类的方法^［^３^８^］、基于运动分析的方法^［^３^９^］^、基于改进的谱聚类算法^［^４^０^］^、基于卷积神经网络^（Ｃｏｎ ｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ^，ＣＮＮ^）和图形处理单元

算法^［^４^１^］等．

（３^）目标检测

目标检测作为基于图像和视频信息的社交关系理解中非常重要的步骤，能够对社交关系理解的准确性产生直接的影响．目标检测的任务是对任意一幅图像中存在的对象进行定位和分类^，并用矩形框对其进行标记．一般将信息区域选择^、特征提取^、分类作为传统目标检测模型的三个阶段^［^２^４^］．在计算机视觉的基本问题中，目标检测具有重要的研究意义，它能够为理解图像和视频中的语义提供有价值的信息^，涉及到许多应用领域，包括图像分类^［^４^２^^４^３^］、人类行为分析^［^４^４^］、社交关系理解^［^４^５^］和自动驾驶^［^４^６^］等．在基于图像和视频信息的社交关系理解过程中^，目标检测通常分为不同的子任务，如人脸检测、人体检测和物体检测．其中^，人脸检测和人体检测主要对人物的面部和整体进行检测^，而物体检测主要对除人物以外的其它物体进行检测．通过利用目标检测提供的有价值信息能够提高社交关系理解的准确度．通用的目标检测方法框架主要分为两类^，第一类为基于区域生成的方法，第二类为基于回归／分类的方法，每一类都包含多种方法，表１列出了其中的部分方法．

表１　^{目标检测方法分类}

目标检测分类方法发表会议

基于区域生成

ＲＣＮＮ^［^４^７^］ＣＶＰＲ２０１４ＦａｓｔＲＣＮＮ^［^４^８^］ＩＣＣＶ２０１５ＦａｓｔｅｒＲＣＮＮ^［^４^９^］ＮｅｕｒＩＰＳ２０１５

ＲＦＣＮ^［^５^０^］ＮｅｕｒＩＰＳ２０１６ＦＰＮ^［^５^１^］ＣＶＰＲ２０１７ＭａｓｋＲＣＮＮ^［^５^２^］ＩＣＣＶ２０１７ＣａｓｃａｄｅＲＣＮＮ^［^５^３^］ＣＶＰＲ２０１８ＲＤＡＤ^［^５^４^］ＡＡＡＩ２０１９ＲＲＰＮ^［^５^５^］ＡＡＡＩ２０２０

基于回归／分类

ＭｕｌｔｉＢｏｘ^［^５^６^］ＣＶＰＲ２０１４ＡｔｔｅｎｔｉｏｎＮｅｔ^［^５^７^］ＩＣＣＶ２０１５ＹＯＬＯ^［^５^８^］ＣＶＰＲ２０１６ＧＣＮＮ^［^５^９^］ＣＶＰＲ２０１６ＳＳＤ^［^６^０^］ＥＣＣＶ２０１６ＹＯＬＯ９０００^［^６^１^］ＣＶＰＲ２０１７ＹＯＬＯｖ３^［^６^２^］ａｒＸｉｖ２０１８Ｍ２Ｄｅｔ^［^６^３^］ＡＡＡＩ２０１９ＳｐｉｋｉｎｇＹＯＬＯ^［^６^４^］ＡＡＡＩ２０２０

２．４．２　特征提取

随着多媒体和网络技术的快速发展，随时都有

大量的图像和视频数据产生．视频作为一种重要的媒体形式^，包含了丰富的时空特征信息^，如何全面地提取特征信息对基于图像和视频信息的社交关系理解具有重要的意义．特征提取可以理解为计算机视觉任务中的方法和处理过程^，它是社交关系理解过程中的关键步骤^，是否能够提取尽可能完整地反映多媒体内容的理想特征将直接影响社交关系理解的准确率^，因为特征是不同的并且不同特征的重要性也不相同．

多媒体特征提取是针对图像和视频进行的^，两者之间的特征既存在相同点也存在不同点．我们将图像特征分为基本特征和社交语义特征^，基本特征包括颜色^、纹理和形状特征^，社交语义特征包括场景^、人物和物体特征等．视频特征也分为基本特征和社交语义特征，基本特征又分为静态特征和动态特征．静态特征包括颜色、纹理和形状特征，动态特征包括运动轨迹、相对速度和位置变化等信息，社交语义特征包括场景、人物、物体、声音和运动特征等．

（１^）图像的基本特征

颜色作为图像最重要的特征之一，主要由颜色空间或模型定义．颜色空间包括ＲＧＢ^、ＬＵＶ^、ＨＳＶ和ＨＭＭＤ等^［^６^５^］．纹理是另外一种重要的特征，具有很强的识别能力．通常^，颜色是像素属性^，而纹理只能从一组像素中测量^［^６^６^］．形状也是一种重要的特征^，人们认识世间万物主要是以形状为线索^，将简单的几何形状进行编码^［^６^７^］．

（２^）图像的社交语义特征

图像的社交语义特征根据其描述对象的不同可以分为场景特征^［^６^８^］^、人物特征^［^６^９^］和物体特征^［^５^］．社交语义特征相比于基本特征来说包含更多能够反映多媒体内容的丰富信息，导致在基于图像信息的社交关系理解中社交语义特征所起到的作用更大，而基本特征所起到的作用相比于社交语义特征来说微乎其微．因此，当前的研究中绝大多数使用的是社交语义特征．其中，所谓的场景特征是指图像中人物所处的环境以及周围的事物等信息，物体特征也属于场景中的一部分，它们能够为基于图像信息的社交关系理解提供非常重要的线索．人物特征相对来说比较丰富，例如人脸表情、穿着、年龄、动作等，再加上人和物体之间的交互信息，同样能够很好地促进社交关系理解．而社交语义特征的提取广泛使用ＣＮＮ^［^４^３^］等深度学习方法．

（３^）视频的基本特征

视频的每一帧都代表一个图像^，每一帧的图像特征都是静态特征．因此，使用上述的静态图像特征

３７１６期王　正等^：基于图像和视频信息的社交关系理解研究综述１

基于图像和视频信息的社交关系理解研究综述

基于图像和视频信息的社交关系理解研究综述

王 正

吴 斌

王文哲

滕一阳

帅 杰

肖云鹏

白 婷

犃 犛 狌 狉 狏 犲 狔 狅 犳 犛 狅 犮 犻 犪 犾 犚 犲 犾 犪 狋 犻 狅 狀 犝 狀 犱 犲 狉 狊 狋 犪 狀 犱 犻 狀 犵 犅 犪 狊 犲 犱 狅 狀 犐 犿 犪 犵 犲 犪 狀 犱 犞 犻 犱 犲 狅 犐 狀 犳 狅 狉 犿 犪 狋 犻 狅 狀

《 计

算

机

学

报

》

１ 引 言

①

①

《 计

算

机

学

报

》

２ 问题描述

《 计

算

机

学

报

》

｛

《 计

算

机

学

报

》

《 计

算

机

学

报

》

《 计

算

机

学

报

》

王　 ^正

　 ^吴　 ^斌

　 ^王文哲

　 ^滕一阳

　 ^帅　 ^杰

　 ^白　 ^婷

犃犛狌狉狏犲狔狅犳犛狅犮犻犪犾犚犲犾犪狋犻狅狀犝狀犱犲狉狊狋犪狀犱犻狀犵犅犪狊犲犱狅狀犐犿犪犵犲犪狀犱犞犻犱犲狅犐狀犳狅狉犿犪狋犻狅狀

《计

１　 ^引　 ^言

^①

《计

２　 ^问题描述

《计

《计

《计

《计