• 沒有找到結果。

人工智能视角下的在线社交网络虚假信息 检测、传播与控制研究综述

N/A
N/A
Protected

Academic year: 2022

Share "人工智能视角下的在线社交网络虚假信息 检测、传播与控制研究综述"

Copied!
22
0
0

加載中.... (立即查看全文)

全文

(1)

2021 年 11 月 CHINESE JOURNAL OF COMPUTERS Nov. 2021

收稿日期:2020-01-10;在线发布日期:2020-08-21. 本课题得到国家自然科学基金 (No. 61972133, 61772174)、河南省中原千人计划中 原科技创新领军人才项目(No.204200510021)、河南省科技创新杰出人才计划项目(No.174200510011)资助. 张志勇(通信作者),

博士,教授,博士生导师,河南省特聘教授,中国计算机学会(CCF)高级会员,主要研究领域为网络空间安全与人工智能、社交大数据 分析与挖掘、可信计算与访问控制. E-mail: xidianzzy@126.com. 荆军昌,博士研究生,中国计算机学会(CCF)会员,主要研究领域为社 交网络安全、机器学习与深度学习. 李 斐,硕士,高级工程师,主要研究领域为人工智能、分布式数据库. 赵长伟,博士,讲师,中 国计算机学会(CCF)会员,主要研究领域为人工智能、网络信息安全.

人工智能视角下的在线社交网络虚假信息 检测、传播与控制研究综述

张志勇

1),2)

荆军昌

1),2)

李 斐

3)

赵长伟

1),2)

1)(河南科技大学信息工程学院 河南 洛阳 471023)

2)(河南省网络空间安全应用国际联合实验室 河南 洛阳 471023)

3)(广州巨杉软件开发有限公司 广州 510006)

摘 要 随着新一代人工智能技术的发展和应用,在线社交网络(Online Social Networks,OSNs)虚假信息 的自动化检测、传播和控制,受到了政府、学术界和工业界人员的广泛关注. 虚假信息检测主要从信息内容和 社交上下文辅助信息等方面展开研究,虚假信息传播研究可以追溯到早期复杂网络和小世界网络中的谣言传播 动力学模型研究,直到近三年来关于社交自然人和社交机器人的混合型、交互式传播模式研究,虚假信息传播 控制主要从传播的节点控制和访问控制/使用控制等方面展开研究. 本文分别从社交客体(虚假信息)和社交主 体(社交自然人和社交机器人)两个方面进行深入系统探讨. 首先,回顾了国内外虚假信息检测研究现状,重 点论述了虚假信息检测特征和方法. 其次,围绕社交自然人和社交机器人的检测方法和传播模式进行分析和比 较,阐述两类社交主体传播虚假信息的一般规律. 然后,对虚假信息传播控制方法进行全面系统的梳理和分析,

给出了虚假信息传播的节点控制和使用控制模型,总结了相关数据采集、标注方法和常用的公开数据集等. 最 后,提出了社会情境安全和分析框架,以及针对虚假信息在跨平台传播和控制方面,未来研究所面临的问题、

挑战及可能的研究方向.

关键词 在线社交网络;虚假信息;社交机器人;人工智能;使用控制;社会情境安全 中图法分类号 TP18 DOI 号 10.11897/SP.J.1016.2021.02261

Survey on Fake Information Detection, Propagation and Control in Online Social Networks from the Perspective of Artificial Intelligence

ZHANG Zhi-Yong

1),2)

JING Jun-Chang

1),2)

LI Fei

3)

ZHAO Chang-Wei

1),2)

1)(Information Engineering College, Henan University of Science and Technology, Luoyang, Henan 471023)

2)(Henan International Joint Laboratory of Cyberspace Security Applications, Luoyang, Henan 471023)

3)(Guangzhou SequoiaDB Co., Guangzhou 510006)

Abstract In recent years, with the unceasing development and extensively application of new generation

of artificial intelligence technology, the automatic detection, dissemination and control of fake information

in online social networks (OSNs) have been widely and generally concerned by the government and

regulators, academia and industry. Fake information detection in OSNs is mainly studied and discussed

from two different aspects of both information content and social context auxiliary information. Research

on fake information propagation on social media dated back to exploring dynamics models on the rumors

(2)

spreading in complex network and small-word network previously. Even within recent three years, some hybrid and interactive propagation pattern and behavior studies on both social human and social bots have been done. The diffusion control methods of fake information in OSNs mainly focus on the node control and access control/usage control. From two different angles of social object (fake information) and social subjects (social human and social bots), the research of fake information detection, propagation and control are discussed deeply and systematically, the related works are also analyzed and compared in this paper.

Firstly, we comprehensively review some important and crucial research works of fake information detection from home and abroad in recent years, and especially focus on the unique characterizations (content features, social context features) and existing models (content models, social context models and hybrid models) of fake information detection. Owing to the difference between fake information and rumor in OSNs, we also briefly summarize the characteristics of rumor detection, which include content features, user features, topic features, propagation features, behavioral features and multimedia features. Secondly, research on the dissemination of fake information is primarily divided into two aspects: the dissemination of fake information based on social human and the propagation of fake information based on social bots.

Here, three effective methods for the detection of social bots in OSNs are also discussed, which include graph-based approaches, crowdsourcing-based approaches, and machine learning-based approaches. Based on the analysis and comparison of the detection methods and propagation patterns and strategies of both social human and social bots, the general rules of spreading fake information of two kinds of social subjects are represented, respectively. Then, we systematically review and analyze the control methods of fake information dissemination from two levels: node control and usage control, and present a usage control model that applys to the research of fake information dissemination. Furthermore, the methods of data collection and annotation for fake information are systematically introduced, and some public online datasets that used to do research about detection, propagation and control from popular social media platforms, such as, Twitter, Facebook, Sina Weibo, are described. Finally, a novel social situation security and analytics framework that covers five layers (social entity layer, social environment layer, social behavior layer, social intention layer, social goal layer) and six elements (social object, identity, action, desire, environment, target) are proposed, and future research issues, challenges and possible research directions for cross-platform propagation and control of fake information are presented. We hope that social situation security proposed in this paper will provide theoretical basis, technical support and application scenarios for the realization of both virtual social cyberspace security and ecological governance of network information content.

Keywords Online Social Networks; Fake Information; Social Bots; Artificial Intelligence; Usage

Control; Social Situation Security

1 引 言

随着移动互联网技术和 Web 4.0 的产生,以各 类在线网络社区、在线社交工具、平台和服务为代 表的社交网络生态系统得到飞速发展,数以亿计、

十亿计的社交应用已经渗透到整个社会生产生活,

成为人们获取海量信息资源的重要渠道

[1-5]

. 社交用 户在获取信息的同时,也产生了大量的虚假信息,

例如阴谋论(Conspiracy theories)、标题党(Clic-

kbait)、伪科学(Peudo science),甚至捏造的“假 新闻”(Fake news)等. 虚假信息

[6-7]

是指制造者故 意误导读者,并能够通过一些其它来源证实其结果 为假的信息,通常具有故意性(Intent)和可证实性

(Verifiability). 此外,2018 年 Vosoughi 等人

[8]

Science 杂志上也指出了虚假信息具有上述两个特

性. 进一步地讲,虚假信息具有两层含义:1)信息

具有一定的表面或片面陈述,不能客观反应出事物

的本质. 例如,研究人员使用数据库检索系统,查

(3)

出表面相关而本质不相关的文献. 2)由于双方(多 方)之间存在利益或竞争关系,为了达到一定目的 而人为制造的不准确信息. 例如,宣传广告中故意 夸大内容、股市领域的人为陷阱等. 由于传播媒介 是虚假信息存在的必要条件,因此随着媒介的不断 进化,在线社交平台对虚假信息的产生、传播和影 响起到关键性作用,我们将此类信息定义为 OSNs 虚假信息. 谣言作为信息的一种存在形式,从谣言 内容的真伪上分析,它是指尚未及时得到官方的证 实,最终传播内容可判定为真、假和不确定. 综上 所述,在线社交网络中的虚假信息与谣言具有一定 联系,但又存在本质区别. 虚假信息具有故意性和 可证实性特征,而谣言具有不确定性、时效性、主 观性和关联性等

[9]

. 由于虚假信息具有一定的诱惑 性,能够快速吸引用户的眼球,因此,随着社交平 台的不断推广,虚假信息的传播变得愈演愈烈,已 成为虚拟网络空间安全应用所普遍关注的热点和难

点问题

[10-13]

. 大量虚假信息的大量传播,被认为是

全球存在的一个重大风险,不仅影响了社交用户之 间正常的信息共享和交流,也影响到经济社会发展,

甚至国家安全和政治生活. 因此,当前研究社交网 络虚假信息检测、传播和控制,对虚拟网络空间安 全和治理意义重大,亟待深入开展. 我们通过调研 文献发现,众多国内外大学和研究机构都对此进行 深入研究,如麻省理工学院,印第安纳大学,亚利 桑那州立大学,中国人民大学,国防科技大学等,

其研究成果发表在 Nature、Science、ACM Transa- ctions 系列和 IEEE Transactions 系列等国际顶级期 刊和会议上.

当前,人工智能技术已上升至国家重要战略地 位,大数据驱动下的机器学习、深度学习和神经网 络等成为人工智能的核心技术,从弱人工智能到新 一代的通用人工智能和强人工智能技术也持续不断 地渗透到人们生产和生活的各个领域,研究人员正 企图全面地了解智能本质,生产出一种新的能用与 人类智能相似的方式做出反应的智能机器

[14]

. 尤其 在社交网络领域,智能化的社交机器人(Socialbots)

是由自动化程序控制的社交账号,它能够根据人为 设定的程序,自动化执行相应的操作,从而模仿人 类行为参与一系列 OSNs 活动

[15]

. 随着用户间频繁 地通过 OSNs 进行互动与交流,大量社交机器人用 户生成的海量内容充斥着在线社交平台

[16-17]

. 如图 1 所示,根据互联网公司 GlobalDots 公布的《2018 年机器人流量报告》,正常人在 2018 年在线流量占 62.10%,机器人流量已经达到 37.90%,其中恶意机

器人占 20.40%,恶意机器人相对于正常机器人所占 的比例较大

[18]

. Davis 等研究人员指出,社交网络平 台中也存在着大量的恶意社交机器人,它们通过模 仿正常用户的操作行为,获取用户个人的隐私信息,

传播恶意虚假信息,甚至干扰全球政治选举活动,

影响金融股市交易等,对网络平台的安全与稳定带 来了极其严重的影响

[19-21]

. 例如,2016 年全世界目 睹了社交机器人在美国总统选举期间传播虚假新闻 的风暴

[22]

,2017 年德国联邦总统选举期间,社交机 器人传播大量垃圾新闻的事件

[23]

,2017 年法国总统 选举之前,社交机器人在 Twitter

[24]

上传播关于马克 龙泄密的竞选文件等虚假新闻

[25]

.

图 1 2018 年机器人流量报告

[18]

OSNs 虚假信息的大量传播,不仅损害了网络媒 体的公信力,也给社交用户的生产和生活带来了严 重的影响. 因此,国家政府、学术界和工业界的研 究人员对此广泛关注,他们分别从 OSNs 虚假信息 检测、社交自然人和社交机器人传播模式等方面展 开研究. 在虚假信息检测方面,早期传统的虚假信 息检测方法主要是根据信息内容的真实程度进行判 断,而随着 OSNs 不断发展,社交上下文辅助信息 也成为研究人员关注的焦点. 针对虚假信息传播研 究,可以追溯到早期复杂网络和小世界网络传播.

起初研究人员以谣言为研究对象,基于经典的流行 病传播机理,研究谣言传播的动力学模型. 近三年 来,随着大量社交网络平台应用和社交机器人的出 现,研究人员开始转向对虚假信息传播主体的研究,

即对社交用户和社交机器人的传播特征和传播模式

研究

[8,26-28]

,其中一些研究学者对动态传播虚假信息

的两类主体的行为特征,进行提取、分析,利用有

效的分类或聚类算法将这两类主体进行区分,从而

进一步研究社交用户虚假信息传播的潜在规律. 另

外一些研究学者主要针对社交用户主体,利用社交

网络统计性质,例如基尼系数、帕尔马比例等指标

来研究社交用户虚假信息传播模式. 以上这些研究

(4)

工作使我们对 OSNs 虚假信息检测和传播的研究,

有了进一步的认识和理解.

在虚假信息传播控制研究中,依据社交网络拓 扑结构特性和语义情感分析等方面,主要从节点控 制和访问控制入手展开研究. 虚假信息传播的节点 控制主要分为基于时间戳的节点控制方法和基于影 响力的节点控制方法,但这些方法最终都是采用反 应式地删帖、封号或切断信息源头等补救措施. 然 而,这样仍然存在虚假信息已在小范围内传播的可 能,甚至会造成不可挽回的负面影响. 基于传统的 访问控制技术,主要是从基于角色的访问控制模型、

基于属性的访问控制模型和基于关系的访问控制模 型展开,但是通常缺少对支持事前(传播前)、事中

(传播中)的使用控制方法研究.

本文的其余部分组织如下. 第 2 节给出 OSNs 虚假信息检测关键问题描述;第 3 节分别从社交自 然人和社交机器人两个角度,对虚假信息传播研究 进行总结和比较;第 4 节对虚假信息传播控制相关 研究进行综述;第 5 节分别从虚假信息数据集的采 集和标注以及虚假信息公开数据集进行综述;接着,

本文第 6 节对当前 OSNs 虚假信息传播和控制所存 在的挑战进行总结,并给出未来的发展趋势;最后,

我们在第 7 节对全文进行总结.

2 OSNs 虚假信息检测关键问题描述

虚假信息检测属于信息可信度检测研究范畴,

它是研究虚假信息传播和控制的基础,旨在帮助社 交媒体用户及时发现伪造不实信息,进一步提高社 交媒体承载信息的生态环境质量. 在人工智能视角 下,如何实现一套自动化程度高、鲁棒性强、可靠 和高效的 OSNs 虚假信息检测的可计算方法,成为 描述虚假信息检测研究的关键问题.

2.1 虚假信息检测问题定义

定义 1.

I

 { , , , }

i i1 2

iI

是 OSNs 平台中待检测 的虚假信息集合,类标签集合

C{C CF, N}

CF

表 示虚假信息(Fake information)集合,

CN

表示正常 信息(Normal information)集合. OSNs 虚假信息检 测目的是判断待测信息

ij

是否属于虚假信息集合

CF

,其决策函数为

( , ) :

i cj k I C

{ 1, 1}(1

j I k

, { , })

F N

     ≤ ≤  . 其中,

( , ) 1,

1, .

j F

j k

k N

i C

i c i C

     

 



定 义 2. 待 测 虚 假 信 息 的 特 征 向 量 可 表 示 为

( ) ( )

( ) ( ) ( )

1 2

(

i

,

i

, , ,c )

i i i

b b bn

 

a

,其中 i 表示信息的 ID,n 表示特征数量,

b( )ji

表示关于信息 i 的第 j 个特征,

c( )i

是信息 i 的类型(虚假信息或正常信息).

2.2 虚假信息检测方法

虚假信息检测分为特征提取和模型构建两个阶 段. 特征提取阶段是以形式化的数学结构来表示信 息内容和社交上下文相关辅助信息. 模型构建阶段 是进一步构建基于特征表示的信息内容模型、社交 上下文模型和混合模型,来更好地检测虚假信息和 真实信息.

2.2.1 特征提取

在 OSNs 虚假信息检测过程中,有效地提取虚 假信息检测的关键特征,直接影响到后期模型构建 的效果. 本节我们主要从虚假信息检测的内容特征 和社交上下文特征两个方面进行阐述.

(1)内容特征

内容特征是由文本中提取的信息组成,包括信 息的发布者、标题、正文内容中的文本、图片和视 频等. 研究人员通常将内容特征分为基于语言的特 征和基于视觉的特征

[29]

. 1)基于语言特征由词汇特 征和句法特征构成. 词汇特征包括字符层面和词层 面的特征,比如词的总数、每个词的字符数、词的 频率和独特词汇等. 句法特征主要是指信息内容中 句子层面的特征,例如,虚词和短语的频率、标点 符号和词性标注等. 2)基于视觉的特征是从视觉元 素(例如图像和视频)中提取虚假信息特征,包括 清晰度得分、一致性得分、相似性分布直方图、多 样性得分和聚类得分等.

(2)社交上下文特征

社交上下文特征主要由用户、用户发布(转发)

的帖子和网络三个方面的特征构成. 1)用户特征分 为个人层面用户特征和群组层面用户特征. 个人层 面用户特征主要是通过运用用户各个方面的统计资 料(例如注册时间、关注者数量/粉丝数量、已发布 的推文数量等)来推断一个用户的可信度和可靠性.

群组层面用户特征是由个人层面用户特征通过平均 和加权等方法计算得到. 2)用户发布(转发)帖子 的特征主要从帖子层面、群组层面和时间层面进行 考虑. 帖子层面的特征是对每一个帖子生成相应的 特征值,群组层面的特征指在通过使用众包技术来 聚合对于特定信息的所有相关帖子的特征值. 时间 层面的特征是指帖子层面特征值随时间的变化. 3)

基于网络的特征是从发布相关社交帖子的用户中,

通 过 构 建 立 场 网 络 ( stance network)、 共 存 网 络

(5)

(occurrence network)、朋友关系网络(friendship network)和扩散网络(diffusion network)等特定的 网络进行特征提取

[29-31]

.

此外,文献[32]在文献[33-35]提出的虚假新闻 检测特征基础上,通过将内容特征和社交上下文特 征相结合,进一步将虚假新闻的检测特征分为文本 特征(例如,语言处理技术)、新闻源特征(例如,

可靠性和可信度)和环境特征(例如,OSNs 结构).

新闻源特征由新闻文章发布者的信息组成. 环境特 征包括用户参与度(例如,点赞、分享、评论等交 互行为)统计量和时间模式,如表 1 所示.

综上所述,我们对国内外研究人员常用的虚假 信息检测特征进行系统总结. 由于虚假信息检测和 谣言检测在特征选取上具有值得借鉴之处. 本小节 最后,我们也对谣言检测特征进行简要总结,为今

后研究学者更加精准选取虚假信息的检测特征提供

参考

[36-39]

. 谣言检测常用的特征包括内容特征、用

户特征、话题特征、传播特征、行为特征和多媒体 特征等,具体如图 2 所示.

表 1 虚假新闻检测的常用特征列表

[32]

类别 特征

文本特征 1)语言特征

2)词汇特征 3)心理语言学特征 4)语义特征 5)主观性特征

新闻来源特征 1)偏见特征

2)可靠性和可行性特征 3)域位置特征

环境特征 1)参与度

2)时间模式

图 2 谣言检测常用的特征归类

2.2.2 模型构建

虚假信息检测的模型构建建立在内容特征和社 交上下文特征的基础上,主要分为信息内容模型、

社交上下文模型和混合模型.

(1)信息内容模型

现 有 的 信 息 内 容 模 型 主 要 分 为 基 于 知 识 (Knowledge-based)的方法和基于风格(Style-based)

的方法. 1)基于知识的方法旨在使用外部来源来核 实信息内容的真实性. 现有的事实核查方法主要有 面 向 专 家 (Expert-oriented) 、 面 向 众 包 (Crowdsou- rcing-oriented)和面向计算(Computational-oriented)

的方法. 2)基于风格的方法是通过捕获操作者在信 息内容中的写作风格来检测虚假信息,主要分为以 欺骗性为中心(Deception-oriented)和以客观性为 中心(Objectivity-oriented)的方法. 以文献[40-45]

为代表的研究人员,通常采用群体智慧的众包方法 来标注训练数据集,用于虚假信息的内容模型检测 分析. 例如,Canini 等研究人员通过使用 MTurk 来 建立充分真实的数据集(Ground truth data),并强调 收集真实的数据集是评估信息可信度的重要环节.

但是由于部分参与者可能会缺少一些相关技术知

识,因此依靠群体智慧的众包方法可能会存在一些

(6)

偏 见 , 从 而 影 响 信 息 可 信 度 的 判 定

[44-45]

. 此 外 , Kumar 等人

[7]

使用认知心理学中相关内容来检测 OSNs 中虚假信息(Misinformation\Disinformation)

和宣传(Propaganda)的传播,利用社交网络的协 同过滤特性,提出了一种有效检测 OSNs 虚假信息 恶意传播的算法,该算法对信息来源的可信度和新 闻内容的质量进行检测,所提方法的有效性已在 Twitter 上进行验证.

(2)社交上下文模型

社交上下文模型主要基于用户的社交参与度进 行构建,具体可分为基于立场(Stance-based)的方 法和基于传播(Propagation-based)的方法

[46-49]

. ① 基于立场的方法是利用用户对相关信息内容的观 点,来推断用户发布信息内容的准确性. 通常,用 户发布信息的立场主要分为显式和隐式两种,显式 的立场是情感观点的直接表达,比如在社交网络平 台上表达“赞成”、“反对”和“中立”等,隐式立场 是从 OSNs 用户发布的信息中自动提取. 立场的检 测是从用户发布信息的内容中自动判断用户是赞 成、中立还是反对某个事件或观点. ②基于传播的 虚假信息检测方法主要是通过分析用户在社交网络 平台上发布相关内容的相互关系,建立同构和异构 的可信度网络来预测信息的真伪.

(3)混合模型

混合模型首先是将选取的内容特征和社交上下 文特征进行有效地组合,然后运用自然语言处理

(Natural Language Processing,NLP)、机器学习和 深度学习等先进技术,来预测待测信息是否为虚假 信息. 随着研究人员对该领域的不断深入,混合模 型的检测方法越来越受到青睐. 以文献[32,50-55]为 代表的研究人员,进一步地将上述两类特征划分为 文本特征、新闻来源特征和环境特征等,然后运用 逻辑斯蒂回归(Logistic Regression, LR)、支持向量 机(Support Vector Machine, SVM)、朴素贝叶斯法

(Naïve Bayes, NB)、决策树(Decision Tree,DT)、

K 近邻法(K-Nearest Neighbor, KNN)、随机森林

(Random Forests, RF)和极端梯度提升(XGBoost, XGB ) 等 经 典 机 器 学 习 模 型 和 循 环 神 经 网 络 (Recurrent Neural Network, RNN)、卷积神经网络

(Convolution Neural Network, CNN)以及图神经网 络(Graph Neural Networks, GNN)等深度学习模型.

最后通过选取精度(Precision)、召回率(Recall)、

ROC 曲线下的面积(AUC)和 F-score 等评估指标,

进一步比较分类器的泛化能力.

在上述的混合模型中,研究人员主要使用有监

督和半监督机器学习算法进行模型构建. 然而,无 监督的机器学习算法还鲜有报道. 无监督学习算法 包括 K-means 算法、模糊 C-means 算法和隐马尔可 夫模型等. 在无监督学习方法中,Abbasi 等人

[56]

在 无 监 督 层 次 聚 类 算 法 的 基 础 上 , 提 出 了 一 种 CredRank 算法. 首先根据式(1)和(2)计算用户 的行为相似性,将相似用户聚为一个簇. 其次计算 每一个簇中各个用户的权重,并依据权重的大小来 判断每一个用户发布信息的可信度.

0 0

( , ) 1

n

( ( , ), ( , ))

t

i j i j

n t t

Sim u u B u t B u t

t t

   (1)

( ,

i j

)

i j

i j

B B

B B

B B

 

  (2)

其中, ( , )

B u ti

是用户

ui

在 t 时刻的行为, ( ( , ),

B u ti ( , ))j

B u t

分别表示用户 u

i

和 u

j

在 t 时刻的行为相似度.

综上所述,我们分别从特征选择和模型构建两 个方面对虚假信息检测问题进行了详细的描述. 通 过分析发现,信息内容模型、社交上下文模型和混 合模型在虚假信息检测方面已经取得了比较理想的 效果. 但是上述模型对虚假信息传播的早期检测并 不完全适用,由于时间因素的限制,模型所需的内 容特征和社交上下文特征选取不够充分,会导致检 测虚假信息准确率比较低. Liu 等研究人员

[57]

通过 对新闻传播路径进行分类,提出一种虚假新闻早期 检测模型. 首先对每一条虚假信息建立关于多变量 时间序列的传播路径,其次通过递归神经网络和卷 积神经网络建立关于时间序列的分类器,分别捕获 传播路径上用户特征的全局变量和局部变量. 实验 结果显示,在 Twitter 和微博社交平台中,从发布到 传播的前 5 分钟,检测准确率分别为 85%和 92%.

3 OSNs 虚假信息传播关键问题描述

随着人们逐渐将社交媒体作为获取信息的主要 渠道,社交媒体中虚假信息的传播极大地影响了 OSNs 信息生态系统的质量和用户体验效果. 当前 研究人员重点围绕社交自然人和社交机器人两类传 播主体展开研究. 在传播模型的研究中,主要针对 传播动力学模型、独立级联模型和线性阈值模型等.

在传播行为模式的研究中,社交主体主要是通过发

布、转发、提及、评论等多种混合式行为方式进行

虚假信息传播

[26,58-61]

. 图 3 分别从虚假信息传播主

体、传播客体、传播媒介和传播模型等方面,展现

出早期复杂网络和小世界网络以及近 5 年来关于社

交用户和社交机器人的混合型、交互式传播现状.

(7)

图 3 虚假信息传播研究进展和分类图

3.1 基于社交自然人的虚假信息传播

社交自然人是 OSNs 虚假信息传播主体的重要 组成部分. 社交自然人虚假信息传播研究可以追溯 到早期复杂网络和小世界网络中的谣言传播动力学

模型研究

[62-63]

. 在 OSNs 中,虚假信息传播与社交

自然人的兴趣、身份、工作和生活密不可分. 由于 社交自然人相互之间关系的复杂性、灵活性和多变 性以及虚假信息之间存在关联性等特征,造成以社 交自然人为主体的虚假信息传播研究面临着若干挑 战. 如何运用复杂的人工智能技术和统计学分析方 法来研究社交自然人虚假信息传播模式成为研究的 关键问题. 表 2 分别从社交自然人传播虚假信息类

型、采用的模型(方法)和评估指标等方面进行对 比分析.

3.1.1 基于 SIR 等传染病传播模型研究

基于 SIR、SIS 等传染病的传播动力学模型是早 期研究虚假信息传播的主要模型. 研究人员通常以 单 一 类 型 信 息 作 为 研 究 对 象 , 分 别 从 易 染 状 态

(Susceptible, S)、感染状态(Infected, I)、免疫状 态或恢复状态(Recovered, R)等维度来刻画虚假信 息的传播过程,并对模型中的参数进行分析. 随着 信息传播种类的丰富,一些正面信息(例如,官方 发布的新闻和观点等)和负面信息(例如,谣言、

流言蜚语等)的混合式传播,不断影响着社交平台

表 2 社交自然人信息传播研究对比分析

文献 信息类型 模型/方法 评价指标

[60] 信息 基于用户属性、社交关系和微博内容等特征,

预测用户的转发行为

基于概率级联模型,预测微博转发路径

查全率和查准率 F1 度量和预测精度

[64][65] 谣言 基于引力学思想提出一种谣言传播分析模型

GRPModel

基于随机过程的传播动力学 SIS 模型

用户节点影响力 谣言的影响力 用户对谣言的接触率

[59][66] 正面信息(新闻、观点

等)和负面信息

(谣言、流言蜚语)

提出正面信息和负面信息混合式传播动力学模型 传播信息的延迟时间

判断用户接收信息时状态(乐观悲观)

的准确度

判断用户偏好和拒绝倾向的准确度

[57][67][68] 真实信息和虚假信息 利用递归神经网络和卷积神经网络建立信息

传播路径模型

信息传播速度;

虚假信息检测速度;

虚假信息检测的准确率、精度、召回率 和 F1 度量

[8][26][69][70] 不 同 可 信 度 等 级 的 新 闻来源信息

分别从人口群体和人口子群体两个方面,评估分析 传播不同可信度新闻源的用户分布均匀程度、用户 分布数量、用户分享不同来源信息的快慢程度和分 享的用户特征等

洛伦兹曲线和基尼系数 密度和边节点比

信息级联的互补累计分布函数等

[71] 舆情事件 提出关于信息传播者集合 P、信息接收者集合 R、

信息内容集合 C、传播媒介集合 M 和信息传播效果 评价 A 的 PRCMA 多元信息传播模型

传播过程的质量 传播者信息反馈

(8)

信息传播的质量. 由于正面信息和负面信息通常包 含与人相关的因素,因此这两类信息同时传播,不 能认为是两个独立传播过程的叠加. 针对正面信息 和负面信息的混合式传播,研究学者主要运用独立 级联模型(Independent cascade model,ICM)和线 性阈值模型(Linear threshold model,LTM)展开研 究,但这两类模型都属于仿真模型,不能考虑时间 动力学因素对传播模型的影响,因此不适用于真实 的社交网络平台.

针对上述模型存在的不足之处,Wen 等人

[59]

提 出了一种正面信息和负面信息混合式传播的分析模 型. 该模型既呈现了传播动力学特性,也呈现了人 们在接收到这两种信息时做出选择的行为. 在分析 模型的基础上,进一步研究了参数对传播动力学模 型的影响. 该研究结果证明了通过传播正面信息来 抑制负面信息是抑制虚假信息传播的一种有效策 略. 文献[65]利用传播速度、易受骗性、验证为恶作 剧谣言的概率和忘记当前信任的概率 4 个因素,建 立一种基于随机过程的传播动力学 SIS 模型,来研 究恶作剧的传播情况.

3.1.2 基于社交网络统计性质的虚假信息传播研究 由于传统信息来源的真实性和可靠性不断受到 人们的质疑,一些研究人员依据信息源的质量,将 信息源划分为不同的类别

[26, 67-70]

. Glenski 等人

[26]

将 新闻信息的来源分为可信信息(Trusted)、敲击诱饵 (Clickbait) 、 阴 谋 论 (Conspiracy theories) 、 宣 传 (Propaganda)和虚假信息(Disinformation)等 5 类. 针 对 Twitter 上的 1100 万条帖子,分别从人口群体和 人口子群体两个方面,利用洛伦兹曲线、基尼系数、

密度、边节点比等社交网络统计性质,评估分析传 播上述 5 类不同可信度新闻源的用户分布均匀程 度、用户分布数量、用户分享不同信息来源的快慢 程度和分享的用户特征等. 分析结果发现一小部分 高度活跃的用户负责大部分虚假信息的传播,年收 入和受教育程度较低的用户相对于其他用户会分享 更多的虚假信息,年龄大的用户比年轻用户分享可 信新闻来源更快,但对于可疑新闻来源内容的分享,

年龄大的用户会比年轻用户在时间上分享的更迟,

分享敲击诱饵和阴谋论新闻来源的用户更有可能分 享宣传新闻来源的用户分享的内容. Vosoughi 等研 究人员

[8]

在 Science 期刊上发表论文声称,通过研究 2006 年至 2017 年在 Twitter 上发布的所有已证实真 实和虚假的新闻内容传播情况,发现在所有的信息 种类中,虚假新闻比真实新闻传播得更远、更快、

更深和更广泛. 对于虚假的政治新闻,其影响比有

关恐怖主义、自然灾害、科学、城市传说或金融信 息等更为明显. 由于虚假新闻比真实新闻更新颖,

人们更愿意分享新颖的虚假信息. 在传播过程中,

虚假新闻激发了人们的恐惧、厌恶和惊讶,真实新 闻激发了人们的期待、悲伤、喜悦和信任. 与传统 的观点相反,社交机器人以同样的速度加速了真实 和虚假新闻的传播,这意味着虚假新闻比真实新闻 传播得更多,因为人(而不是机器人)更有可能传 播虚假新闻. 文献[68]通过分析 Twitter 上 2016 年美 国总统选举的 40 条新闻(20 条真实新闻和 20 条虚 假新闻)在传播模式上的差异,发现随着时间的推 移,虚假新闻的传播数量不断增加,真实新闻的传 播数量急剧下降. 这充分表明虚假新闻的传播是可 持续的,可以达到更广泛的传播范围,但该文献没 有对传播结果进行详细的理论解释. Glenski 等人

[69]

针对社交机器人和社交自然人对不同可信度新闻源 信息做出的反应,发现社交机器人对不同可信度的 新闻来源的反应存在差异,通过使用细粒度模型分 析社交机器人和社交自然人对新闻来源的响应,并 标记为回答、欣赏、同意、不同意、阐述、幽默或 消极反应. 验证发现对 可信的新闻 来源做出反 应 时,社交自然人占绝大多数. 当社交机器人对可信 度为宣传新闻来源信息做出反应时,反应延迟比人 要更短. 文献[70]使用 Twitter 和 Reddit 两个社交媒 体平台来研究用户对可信性和欺骗性的新闻来源反 应,提出了一个基于内容和语言的神经网络模型,

将用户对新闻来源的反应分为九种类型,例如回答、

阐述和怀疑等,通过使用 1080 万条 Twitter 帖子和 620 万条 Reddit 评论来测量用户对可信性和欺骗性 新闻来源的 反应速度和 反应类型. 研究结果发 现 Twitter 平台上的用户对可信和虚假新闻来源的反应 速度和类型上存在显著差异,但在 Reddit 平台上的 差异要小得多.

3.1.3 基于跨媒介的虚假信息传播研究

针对网络舆情信息跨媒介的传播研究,Rao 等 人

[71]

分别从信息传播者集合 P、信息接收者集合 R、

信息内容集合 C、传播媒介集合 M、信息传播效果 评价 A 等 5 个要素,提出了 PRCMA 多元信息传播 模型,并将该模型形式化地表示为 IP={P, R, C, M,

A},图 4 具体给出 PRCMA 元组的特征及其关系.

3.2 基于社交机器人的虚假信息传播

社交机器人的一个重要功能是对社交平台信息

的交流和共享,随着社交平台用户数量的持续增多

和智能化社交机器人行为复杂性增加,社交机器人

在信息传播方面扮演着不可替代的角色,同时也吸

(9)

图 4 跨媒介舆情信息传播 PRCMA 多要素模型

[71]

引了众多研究人员对社交机器人传播虚假信息的机 制进行深入系统研究,为社交网络平台上虚假信息 传播控制提供了有效的保障. 社交机器人检测是研 究社交机器人传播规律的基础,只有充分准确地检 测出社交平台上已有的社交机器人账号,才能够进 一步地研究 社交机器人 传播虚假信 息的规律. 因 此,本节余下部分,分别从社交机器人检测方法、

社交机器人虚假信息传播特征的研究现状和发展趋 势进行总结分析.

在社交媒体网络中,区分社交机器人和社交自 然人是社交机器人检测的目的之一,研究精准有效 的社交机器人检测方法,有助于及时控制社交机器 人传播大量的虚假信息. 目前,社交机器人检测的 常用方法主要分为基于图的方法、基于众包的方法 和基于机器学习的方法.

(1)基于图的社交机器人检测方法

在社交网络平台中,社交网络图直观反应了社 交自然人之间的关系. 研究人员通常采用基于信任 传播、图聚类和图的一些度量和性质等方法来检测 社交机器人账号. 其中基于信任传播的方法主要是 通过评估两个社交图信任关系的强弱来进行判定,

图聚类方法主要是利用用户之间的距离等相似特 性,对社交图的相关节点进行分类,图的度量和性质 主要包括概率分布、无标度图结构和中心性等

[72-75]

. 文献[73]提出了一种基于随机游走的 SybilWalk 方法 进行恶意社交机器人检测,分别使用标记有正常用 户和恶意社交机器人标签的两个额外节点来扩充社 交图,依据随机游走的概率来判断账户为恶意社交 机器人可能性. Mehrotra 等研究人员

[74]

通过选取社 交图中节点中心性的六个特征,运用人工神经网络、

决策树和随机森林三种算法来检测社交平台中虚假 的关注者,实验结果表明随机森林算法具有最好的

泛化能力,准确率达到 95%.

(2)基于众包的社交机器人检测方法

基于众包的社交机器人检测方法主要是通过 选取相关技术人员查看社交平台中给定账户的个 人资料以及分享内容,来区分社交自然人和社交机

器人

[76-78]

. Alarifi 等研究人员

[76]

使用人工标注的方

法,通过招募一批志愿者,对 2000 个随机账户进行 评级和标注,并评估标记数据的真实性和可靠性,

结果表明在标记过程中准确率达到 96%. 虽然众包 方法在检测社交机器人准确率方面已经比较理想,

但仍存在一些缺陷. 首先,当数据集中样本比较大 时,需要雇佣大量的相关技术人员,从而提高了检 测的成本;其次,在标注过程中用户的一些个人隐 私信息,可能会暴露给外部的工作人员,从而造成 个人隐私泄露;最后,由于众包用户在执行任务过 程中采用匿名的方式,对众包工作者的相关技术水 平和能力进行审核时缺少明确的标准,从而可能会 出现一部分用户为获得报酬而不认真完成任务,影 响检测结果的准确性

[78]

.

(3)基于机器学习的社交机器人检测方法 基于机器学习的社交机器人检测方法,首先对 社交机器人和社交自然人两类主体的传播特征进行 分析,然后采用机器学习中的分类和聚类算法开展 研究. 表 3 分别从检测特征、模型、评价指标和数 据集等方面,系统性地给出国内外研究学者关于社 交机器人检测的效果比较. 针对社交机器人的检测 特征研究,主要从网络特征,用户特征,交友特征,

时间特征,内容特征和情感特征等 6 类静态和动态

特征入手展开研究,其中网络特征是从不同维度获

取信息的传播模式,通过转发、提及等操作建立网

络,并从中提取出节点度分布、聚类系数和中心性

等一些统计特征;用户特征包括语言、地理位置和

(10)

账号创建时间等;交友特征包括与帐户社会联系相 关的描述性统计数据,例如账户的关注者、被关注 者和帖子等数量分布的中位数、时间和熵;时间特 征包括内容生成和消费的时间模式,如发布推文的 速率和连续发布两个推文之间的时间间隔等;内容 特征是基于通过自然语言处理得到的语言线索,尤 其是词性标注等;情感特征是使用一些通用的和 Twitter 特有的情感分析算法,包括幸福感、情绪化

分数等

[15,19,28]

. 针对分类和聚类算法,主要采用随机

森林、支持向量机、聚类算法、深度学习等机器学 习方法,来区分两类社交主体

[28,79-85]

. 综上所述,我 们只有通过选取有效的分类或聚类方法,来准确地 区分这两类社交主体,才可以及时删除社交平台中 的恶意机器人账号,使得 OSNs 生态系统更加安全、

可信和可控. 图 5 给出基于机器学习的社交机器人 检测框架.

图 5 基于机器学习的社交机器人检测框架

表 3 社交机器人检测效果比较

作者 模型 特征 评价指标

网络 用户 交友 时间 内容 情感 准确率 F1 数据集

Varol 等人[28] RF       90% Twitter

Alarifi 等人[76] SVM      93% 93% Twitter

Morstatter 等人[81] AdaBoost    79.76% 75.91% Twitter

Costa 等人[82] Act-M 

 96.5%

94.7% Reddit

Twitter

Jr 等人[83] Wavelet, RF     94.47% Twitter

Fazil 等人[84] RF    79.7% 78.91% Twitter

Shi 等人[85] K-means[86]    93.1% 95.2% CyVOD[87]

Cai 等人[88] BeDM

BeDM    

88.41%

83.49% 87.32%

84.11% Twitter Twitter

Ping 等人[89] CNN, LSTM    98.6% 98.1% Twitter

Sneha 等人[90] LSTM    96% 96% Twitter

Cai 等人[91]

CNN, LSTM Boosting BoostOR

 

87.58%

85.23%

83.16%

88.30%

84.77%

86.10%

Twitter Twitter Twitter

Clark 等人[92] NLP    90.32% Twitter

Walt 等人[93] RF     87.11% 49.75% Twitter

注:在特征列表中“”表示该文献使用对应的特征,空白表示该文献未使用对应的特征. 在评价指标列表中,若文献对应的 F1 指 标空白则表示该文献未使用该项评价指标.

Morstatter 等人

[81]

通过选取用户转发推文数量 在发布推文数量中所占比例、用户发布推文的平均 长度、URL 和连续两次转发时间间隔等特征分别如 (3)-(6)式,提出一种增加召回率启发式的有监督学

习 BoostOR 模型,该模型通过评估准确率和召回率

之间的关系,来检测平台中存在的恶意机器人. 实

验结果显示该方法具有较高的精度,以便于研究人

员可以从他们的社交媒体数据集中删除更多的社交

(11)

机器人账户,从而关注真实用户产生的信息.

, is reweet

( )

u

u

x x tweets x Retweet u

tweets

 

(3)

( )

tweetsu u

i i

u

tweets Length u

tweets

 (4)

,

( )

u

u

x x tweets x contains URL URL u

tweets

  (5)

1 2

( ) 1 ( ) 1

N

i i

u i

Time u t t

tweets

 

  (6)

文献[82]基于用户行为活动时间,建立关于时 间活动的数学模型 Act-M(Activity Model, Act-M),

该模型通过拟合社交媒体用户不同行为的时间间隔 分布,从而更加准确地检测社交媒体中的恶意用户.

文献[83]提出一种基于小波的模型,来检测 OSNs 中信息传播主体. 该模型根据用户文本内容得到频 谱图,并从离散小波变换和基于词法的系数衰减加 权方案中创建特征向量,最后使用随机森林算法将 用户分为正常人、合法机器人和恶意机器人. Fazil 等人

[84]

首先根据 OSNs 中 Twitter 用户与社交机器人 的交互行为特征,将 Twitter 用户分为活跃、被动和 不活跃用户. 其次利用 Twitter 中活跃、被动和不活 跃用户的性别、年龄、位置等静态特征和用户交互 的人、交互内容、交互主题等动态特征,运用朴素 贝叶斯、减少误差修剪决策树和随机森林 3 种机器 学习方法对社交自然人进行分类. Shi 等人

[85]

通过利 用社会情境分析理论和“点击流”序列,选取转移 概 率 和 行 为 时 间 间 隔 作 为 特 征 , 运 用 半 监 督 K-means 聚类算法

[86]

来检测 CyVOD

[87]

社交平台中 的恶意社交机器人.

随着大数据、云计算时代的到来,深度学习引 发了新一代的人工智能全球化浪潮. 在社交机器人 检测过程中,研究人员通过提取社交自然人和社交机 器人的传播行为特征和内容特征,运用深度学习模型 来区分这两类主体. 深度学习模型由深层的神经网 络构成

[94]

. 循环神经网络(Recurrent Neural Network, RNN)是一种前馈神经网络,在对句子或时间序列等 可变化长度的序列信息建模方面具有优势

[95]

. 由于 社交自然人的转发行为可以看作是一个时间序列,

在两个连续的转发信息之间没有固定的时间间隔,

并且每一条信息源的转发序列可以有不同长度,因 此研究人员通常选取 RNN 作为分类模型. RNN 形式 化定义如下:输入序列为 ( , , , )

x x1 2

xT

,模型更新的

隐 藏 状 态 为 ( , , , )

h h1 2

hT

, 输 出 向 量 为 ( , , ,

o o1 2

T

)

o

,其中 T 为输入的长度. 从 1 到 T 按如下的方程 进行迭代:

tanh(

1

)

t t t

h

Ux

Wh

b

(7)

t t

o

Vh

c

(8)

其中 U, W 和 V 分别是输入层到隐藏层、隐藏层到 隐藏层、隐藏层到输出层的权重矩阵,b 和 c 为偏 置向量,tanh( )为双曲正切非线性函数. 在隐藏层中 门控循环单元(Gated Recurrent Unit, GRU)按如下的 方程:

t

= (

t z

+

t-1 z

)

z

xU h W

(9) (

1

)

t t r t r

r

 

xU

hW

(10)

tanh( ( 1 ) )

t t h t t h

h  xUhr W

(11) (1 )

1

t t t t t

h  zh   z h

(12)

其中重置门 r

t

决定如何将新的输入与以前的内存 进行组合,更新门 z

t

定义了将以前的内存级联到当 前时间步长的大小,

ht

表示隐藏状态

ht

的候选激活 状态

[96]

.

Cai 等研究人员

[88]

提出一种行为增强的深度模 型(BeDM),首先将用户内容视为时间文本数据以提 取 潜 在 的 时 间 模 式 , 其 次 提 出 由 卷 积 神 经 网 络 (CNN)

[97]

和长短期记忆网络(LSTM)模块

[98]

组成的 深度学习框架,将用户内容信息和行为信息进行融 合来检测社交机器人. 实验结果表明该方法准确率 达到 88.41%、召回率为 86.26%、F1 为 83.32%. 此 外 , Ping 等 人

[89]

提 出 了 一 个 基 于 深 度 学 习 算 法

(DeBD)的社交机器人检测模型,该模型由内容特 征提取层、推文元数据时间特征提取层和内容时间 特征融合层构成. 在内容特征提取层,运用 CNN 来 提取用户之间发布内容的关系. 在推文元数据时间 特征提取层,运用 LSTM 来提取发布元数据的潜在 时间特征. 在内容特征融合层,将时间特征与内容 特征融合,实现对社交机器人的检测. 文献[90]通过 选取用户内容和元数据作为检测特征,提出了一种 基于上下文长短期记忆(LSTM)架构的深度神经 网络进行社交机器人检测. 实验结果表明,该架构 将社交机器人和社交自然人分离时可以实现高分 类精度(AUC>96%). 图 6 给出基于深度学习方 法的社交机器人检测,研究人员常用的检测特征和 检测模块.

在 2016 年美国总统大选政治事件中,社交机器

人通过社交媒体平台传播低可信度来源新闻受到研

究人员的广泛关注. 国防科技大学邵成成和美国印

第安纳大学 Filippo Mencze 等研究人员

[27]

在世界顶

级学术期刊《自然·通讯》上发表相关研究成果,

(12)

图 6 基于深度学习模型的社交机器人检测框架 该文献分析了在 2016 年美国总统大选期间(2016

年 5 月中旬至 2017 年 3 月)Twitter 上 1400 万条推 文和转发的 40 万篇文章,发现社交机器人经常会在 低可信度来源(经常发表各类错误信息的网站,这 些网站需由信誉较好的第三方新闻和事实核查组织 确认)的文章发表后和疯传前进行大量传播. 社交 机器人还会通过回复和提到功能,将目标指向那些 粉丝众多的有影响力的用户. 这种策略之所以取得 成功,是因为人类比较容易受到机器人操控的影响,

进而转发一些社交机器人发布的内容. 并且还通过 分析发现,如果在研究期间封禁一小部分(约 10%)

最像社交机器人的账号,几乎能消除低可信度内容 链接的传播. 文献[99]也针对 2016 年美国总统大 选,研究 Twitter 上社交机器人虚假新闻传播的事实.

发现社交机器人在虚假新闻传播的早前尤为活跃,

并且更倾向于针对有影响力的用户,从而使得虚假 新闻广泛地被分享. 因此,人们也更容易受到社交

机器人发布虚假新闻的影响. 此外,Gilani 等学者

[100]

通过在 Twitter 上设置一个社交机器人帐户,并从 Web 服务器上对社交用户点击日志数据集进行分 析,结果表明尽管社交机器人的数量比较少,但它 们对社交平台上的内容流行度和活动产生了巨大的 影响.

4 OSNs 虚假信息控制关键问题描述

在社交网络平台中,按照虚假信息传播的时间 戳将传播控制分为传播前、传播中和传播后控制.

通过调研发现,当前大部分社交平台中虚假信息传 播只能进行传播中和传播后控制,从而采取“封号”、

“禁言”、“删帖”等一系列被动落后的方式来控制 虚假信息传播. OSNs 访问控制是保护社交网络信息 安全的重要组成部分,也是保护信息能被合法用户 访问和防止信息泄露的一项关键技术. 文献[101]提 出了 OSNs 访问控制体系结构,如图 7 所示. 该体

图 7 OSNs 访问控制体系结构

[101]

(13)

系结构可适用于社交网络虚假信息传播控制应用场 景,从而有效地解决虚假信息传播中的访问控制问 题. 在人工智能视角下,如何将新一代人工智能技 术与传统社交网络访问控制和使用控制技术相结 合,实现虚假信息传播前的有效控制,是当前社交 网 络 空 间 安 全 亟 待 解 决 的 开 放 问 题 . 下 面 将 从 OSNs 虚假信息传播节点控制方法、访问控制方法和 使用控制方法三个维度,分别对当前的相关研究文 献进行综述.

4.1 虚假信息传播的节点控制

虚假信息传播控制方法的研究,通常利用时间 因素、拓扑结构关系和语义情感分析等. 主要分为 两大类,(1)基于时间戳的节点控制方法,该方法 直接采用封号等方式来控制传播虚假信息的账号,

它的弊端在于没有考虑节点之间的相互影响,从而 不能快速、有效地控制一些具有影响力的社交账号;

( 2 ) 基 于 影 响 力 的 节 点 控 制 模 型 是 通 过 运 用 PageRank 等排序算法,识别出具有一些高度影响力 的节点,该方法的弊端没有考虑虚假信息语义之间 的拓扑关系,忽视了节点之间的相互影响程度. 针 对上述两类方法的不足之处,文献[102]提出一种基 于溯源的虚假信息传播控制策略,来及时删除大量 优质源头节点和具有高影响力的节点,从而取得很 好的虚假信息传播控制效果.

Wang 等人

[103]

通过分析 OSN 中舆情传播的网络

拓扑特征、用户网络地位的不对称性、社会强化效 应、用户感知价值和信息的时效性等因素,提出一 种基于用户相对权重的舆情传播控制模型,并通过 仿真实验对结果进行分析得出网络舆情的传播与初 始传播源的网络地位具有密切的关系. 文献[104]基 于搜索引擎中的 PageRank 算法,提出了一种虚假信 息传播控制方法 Fidic,该方法与随机传播控制算 法、基于出度的传播控制算法和基于入度的传播控 制算法相比具有很高的预测精度. He 等人

[61]

提出一 种基于异构网络的流行病传播动力学模型,该模型 通过运用实时优化策略和脉冲式传播真实信息同时 连续阻断谣言的策略,来阻止移动 OSNs 中谣言的 传播.

4.2 虚假信息传播的使用控制

访问控制模型主要分为基于角色的访问控制模 型、基于属性的访问控制模型和基于关系的访问控 制模型. 这些模型分别将角色、属性和关系作为主 要元素来控制对信息的访问. 在 OSNs 信息分享过 程中,基于角色的访问控制通常利用多重关系、关 系强度、方向关系、用户到用户的关系和用户到资 源的关系等来控制信息的传播. 基于关系的访问控 制根据社交用户之间的各种关系进行授权访问,来 实现社交用户对资源的传播控制,提高了信息共享 的安全性. 表 4 对 OSNs 中具有代表性的访问控制 模型,进行对比分析.

表 4 OSNs 访问控制模型对比分析

模型或思想 代表性文献 特点

基于关系的访问控制模型 [105-107] 文献[105]和文献[106]分别基于用户间关系以及用户、用户间关系和公共信息,提

出 OSN 访问控制模型,文献[107]提出基于属性访问控制的关系访问控制模型

基于属性的访问控制模型 [108] 提出用户访问控制规则、数据流控制规则和安全策略冲突消解的方案

基于群组的访问控制模型 [109-110] 将基于属性的访问控制与信息流策略相结合,实现对群组内和群组间分享信息时

的控制

面向网络空间的访问控制模型 [111] 通过对网络空间中主体和客体进行概括,提出基于场景的访问控制模型

基于加密的访问控制模型 [112] 提出一个隐藏在群体中(Hide In The Crowd,HITC)系统,该系统给 OSN 平台中

用户发布的每个数据客体分配解密特权,加强对共享数据的细粒度访问控制

国外 Pang 等人

[106]

针对 OSNs 的访问控制问题,

从现有的访问控制方案中归纳确定了 OSNs 访问控 制新需求,进而从用户可调节资源访问的角度,关 注于社交媒体的公共信息安全,提出了一个包含用 户、用户间关系和公共信息的 OSNs 新模型,并采 用混合逻辑(Hybrid logic)形式化描述了主要访问 控制策略. Bui 等人

[107]

首先将基于关系的访问控制 定义为基于属性访问控制的面向对象扩展,其中关 系是引用其他对象的字段表示,路径表达式用于跟

踪对象之间的关系链. 其次,提出了两种从访问控

制列表和以对象模型表示的属性数据中挖掘基于关

系的访问控制策略算法,分别是启发式引导的贪婪

算法和基于语法的进化算法. 文献[108]通过运用多

媒体社交网络中的用户属性、环境属性和资源属性

等,建立基于属性的访问控制模型,并对模型进行

形式化描述,提出了一些访问控制规则、数据流控

制规则和安全策略冲突消解的方案,最后将该模型

应用到 CyVOD 社交平台上,实现对平台资源安全

(14)

可控访问.

为了防止用户在群组内或群组间共享信息时 出现隐私泄漏,造成信息被恶意攻击者获取,Hu

等人

[109]

在以群组为中心的安全信息共享(G-SIS)

模型的基础上,提出了一个正式的基于群组访问控 制(oGBAC)框架,该框架通过将群组运用到 OSN,

并对群组和群组之间的信息流施加一些限制,确保 在 OSN 中与朋友共享信息时,用户的操作不会导致 隐私泄露. 文献[111]提出一种面向网络空间的访问 控 制 模 型 ( Cyberspace-oriented access control model),其典型使用场景是用户通过网络利用移动 设备访问具有时间和空间特性的敏感客体. 通过对 网络空间中主体和客体进行概括,提出基于场景的 访问控制模型. Ma 等人

[113]

指出普适社交网络支持 在线、即时的社交活动和通信,移动社交用户通常 从中得到一些有价值信息,但是也面临着一些恶意 内容的分享. 基于此,提出一种基于信任管理的控 制器系统 PSNController,并在大量的恶意内容入侵 和攻击场景下,进一步评估该控制器系统性能.

使用控制模型作为下一代访问控制模型的基 础,具有决策连续性和属性可变性的显著特性. 使 用控制系统是由主体及其主体属性、客体及其客 体属性、权限、授权、职责和条件 6 种成分组成,

其中授权、职责和条件是使用控制决策的组成部 分. 图 8 给出 OSNs 虚假信息传播的使用控制模型 结构图.

目前,国内外已经对此开始了广泛而深入的研 究工作. 文献[114]在 Lamport 提出的行为时态逻辑

(Temporal logic of actions, TLA)扩展形式的基础 上,提出了使用控制的一个形式化模型和逻辑规范.

此模型的构建模块包括基于主体、客体和系统属性 的一组系统状态序列、基于主体和客体属性的授权 谓词、用于更新属性的使用控制操作和使用过程的 访问状态和基于系统属性的职责动作和条件谓词.

使用控制策略定义为满足系统状态变化的一组时态 逻辑公式. Wu 等人

[115]

研究了工业系统中社会网络 无线传感器跨域细粒度数据使用控制机制,包括跨 域细粒度访问控制和用于传感数据高效分析的模糊 聚类. 此外,针对数据的使用提出了动态服务组合.

文献[116]提出了一种基于 Web 的社交网络表达性 使用控制模型

S N UCONo e ABC

,该模型扩展了包括关 系管理的

UCONABC

,指定了相关的实体和元素以及 访问控制策略语言. 此外,通过使用正则表达式对 策略构造进行了详细描述,同时也对访问控制执行 单元进行描述.

5 OSNs 虚假信息数据采集和描述

5.1 虚假信息数据集采集和标注

虚假信息数据的采集和标注是研究虚假信息检 测、传播和控制过程中一项重要环节,数据采集和 标注的质量直接影响后期研究人员验证研究方法效 果的精确度.

图 8 虚假信息传播使用控制模型

(15)

虚假信息的数据采集主要来源于新闻机构主 页、搜索引擎和社交媒体网站等. 数据采集内容包 括文本内容信息、用户基本信息以及用户发布、转 发评论等社交上下文信息. 数据采集的数量和比例 主要包括虚假信息话题的数量、每一个话题对应的 虚假信息数量(即虚假信息的微博数量)以及虚假 信息和真实信息之间的比例等. 对于单文本虚假信 息检测和传播的研究通常选取 1 至 2 个话题,比如 关于自然灾害、恐怖主义等方面虚假信息检测的研 究. 基于多文本的虚假信息检测和传播研究,研究 人员通常选取几十或上百种不同的虚假信息话题,

针对每一种话题收集一定数量的虚假信息. 在虚假 信息和真实信息的比例上,以文献[31][57][68][117]

为代表的研究人员通常采取 1:1 的分布比例. 但是 在真实的 OSNs 平台中,真实信息的数量通常大于 虚假信息的数量,对此文献[118]从 Facebook 中选取 官方认证的 333547 条真实信息和 51535 条虚假信 息,大致比例为 6:1. 针对虚假信息数据采集的具体 方法,通常研究人员首先确定感兴趣的虚假信息话 题,然后使用与话题相关的关键字进行筛选收集.

其中通过调用 Twitter、Facebook、新浪微博和人人 网等社交平台的 API 接口是一种常用的方法. 由以 上可知,虚假信息数据的收集涵盖了内容特征和社 交上下文特征等的多维度信息.

在虚假信息数据集的标注过程中,数据清洗操 作是数据标注流程中的首要环节. 针对虚假信息数

据采集过程中出现的噪声数据、缺失数据和重复数 据等问题,执行数据清洗操作,从而获得高质量数 据. 对清洗后的数据主要运用专家记者、事实核查 网站、自动化检测器和众包等方式进行数据集标注.

通过调研发现,事实核查是标注虚假信息和真实信 息的一项主流技术,主要分为面向专家的事实核查 模型(Expert-oriented fact checking models)、面向众 包 的 事 实 核 查 模 型 ( Crowdsourcing-oriented fact checking models )、 面 向 计 算 的 事 实 核 查 模 型

[29]

(Computational-oriented fact checking models). 其 中 面 向 专 家 的 事 实 核 查 通 常 采 用 Snopes 和 FactCheck.org 等网站,依赖于专家的认知来评估信 息的真实性,其弊端在于需要消耗一定的时间和财 力. 面向众包的事实核查模型是通过利用群体的智 慧来标注虚假内容,比如 Fiskkit 平台. 面向计算的 事实核查模型是基于算法、知识图谱(knowledge graphs)和开放的网络等来评估.

5.2 虚假信息公开数据集

随着社交平台的安全性和隐私性不断提高,社 交用户个人隐私数据获取受到严格的保护. 通过调 研发现,当前用于研究虚假信息检测、传播和控制 的公开数据集比较少,主要来自于 Twitter、Facebook 等国际知名媒体. 我们通过对现有的虚假信息公开 数据集进行整理、分析(表 5),给出相应的数据描 述,为后期研究人员获取数据集提供参考.

表 5 虚假信息公开数据集

数据集名称 相关文献 平台 信息数量 数据链接

BS Detector [29] BS detector ‒ https://github.com/bs-detector/bs-detector FakeNewsNet [119] Twitter 201921 篇文章 https://github.com/KaiDMML/FakeNewsNet

BuzzFeedNews [120] Facebook 1627 篇文章 https://github.com/BuzzFeedNews/2016-10-facebook-fact- check/tree/master/data

BuzzFace [121] Facebook 2263 篇文章

160 万条评论 https://github.com/gsantia/BuzzFace FacebookHoax [122] Facebook 15500 条帖子 https://github.com/gabll/some-like-it-hoax LIAR [123] PolitiFact 12836 条简短陈述 https://www.cs.ucsb.edu/ william/software.html CREDBANK [124] Twitter 6000 万条推文 http://compsocial.github.io/CREDBANK-data/

在表 5 中,FakeNewsNet 数据集由 PolitiFact 数 据集和 GossipCop 数据集组成,其中 PolitiFact 数据 集由 624 篇真实文章和 432 篇虚假文章构成,

GossipCop 数据集由 16817 篇真实文章和 6048 篇虚 假文章构成. BuzzFeedNews 数据集包含 9 家新闻通 讯社在美国大选前一周(2016 年 9 月 19 日至 23 日、

9 月 26 日和 27 日),通过 Facebook 发布的全部新闻.

这些新闻由 1627 篇文章、826 篇主流文章、356 篇

“左翼”文章和 545 篇“右翼”文章组成. 每篇文

章都由 5 名 BuzzFeed 记者逐条核实. 其缺点是每条

新 闻 只 包 含 标 题 和 文 本 , 缺 少 社 交 上 下 文 信 息 .

BuzzFace 数据集是在 BuzzFeed 数据集的基础上进

一步扩展得到的,由 2263 篇新闻文章和 160 万条新

闻内容的评论组成. FacebookHoax 数据集由科学新

參考文獻

相關文件

Centre for Learning Sciences and Technologies (CLST) The Chinese University of Hong

• How social media shape our relationship to and understanding of breaking news events. – How do we know if information shared on social media

The elderly health centres provide people aged 65 or above with comprehensive primary healthcare services which include health assessments, physical check-ups, counselling,

It costs >1TB memory to simply save the raw  graph data (without attributes, labels nor content).. This can cause problems for

They are: Booklet (6) – Healthy Community, exploring the communicable and non- communicable diseases and how they affect community health so that students are able to

 Examples of relevant concepts: equality, discrimination, cultural differences, community resources, self-concept, vulnerable groups, community work, community support

Instruction  Teachers systematically guide students to understand how the writing of life stories could help them apply knowledge of different life stages

• How social media shape our relationship to and understanding of breaking news events. – How do we know if information shared on social media