远程监督关系抽取综述

(1)

书书书

第４４卷　第８期

２０２１年８月计　　算　　机　　学　　报

ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ ^Ｖ^ｏ^ｌ^．^Ａ^４^４Ｎ^ｕ^ｇ^．^２^ｏ^０^．^２^８^１　

收稿日期：２０１９０８２９^；在线发布日期：２０２００２１１．本课题得到国家自然科学基金（６１８７６２０８^）^、广东省重点研发项目（２０１８Ｂ０１０１０９００３^）^、广州市科技计划（２０１８０２０１０００７^，２０１８０４０１０２７６^）资助．杨穗珠，硕士研究生，主要研究方向为知识图谱、远程监督．Ｅｍａｉｌ^：ｓｅｙａｎｇｓｕｉｚｈｕ＠ｍａｉｌ．ｓｃｕｔ．ｅｄｕ．ｃｎ．刘艳霞（通信作者），博士，副教授，主要研究方向为知识图谱、神经网络．Ｅｍａｉｌ^：ｃｓｌｙｘ＠ｓｃｕｔ．ｅｄｕ．ｃｎ．张凯文，硕士研究生，主要研究方向为知识图谱．洪　吟，硕士研究生，主要研究方向为联合实体关系抽取．黄　翰，博士，教授，中国计算机学会（ＣＣＦ^）高级会员，主要研究领域为智能算法、演化计算．

远程监督关系抽取综述

杨穗珠　 ^刘艳霞

_（

　 ^张凯文　 ^洪　 ^吟　 ^黄　 ^翰

华南理工大学软件工程　广州　５１０６４１^）

摘　^要　远程监督可以为关系抽取任务自动构建数据集^，缓解了人工构建数据集的压力和成本，为自动关系抽取的实现奠定基础，然而使用远程监督方法构建的数据集存在错误标注以及长尾问题，严重影响关系抽取性能．目前，远程监督关系抽取任务的主要研究方向为关系模型的降噪手段以及对长尾关系的处理方法．近年来，随着深度学习技术的发展，这两个领域的研究工作也迎来了新一轮的机遇与挑战．本文对近几年远程监督关系抽取的研究进展进行综述，针对基于深度学习的远程监督关系抽取任务定义常用工作流，其中包括样本降噪、外部信息融合、编码器和分类器．本文根据不同的模块将已有的研究成果进行分类和梳理，分析比较主要方法，整理其中的关键问题，介绍已有的解决方案和相关数据集，总结远程监督关系抽取任务所用评测指标与评估方式，展望未来研究趋势．关键词　关系抽取^；信息抽取；远程监督；降噪；长尾现象；错误标注

中图法分类号ＴＰ１８　　　犇犗犐^号１０．１１８９７^／ＳＰ．Ｊ．１０１６．２０２１．１６３６

犛狌狉狏犲狔狅狀犇犻狊狋犪狀狋犾狔  犛狌狆犲狉狏犻狊犲犱犚犲犾犪狋犻狅狀犈狓狋狉犪犮狋犻狅狀

ＹＡＮＧＳｕｉＺｈｕ　ＬＩＵＹａｎＸｉａ　ＺＨＡＮＧＫａｉＷｅｎ　ＨＯＮＧＹｉｎ　ＨＵＡＮＧＨａｎ

（犛犮犺狅狅犾狅犳犛狅犳狋狑犪狉犲犈狀犵犻狀犲犲狉犻狀犵^，犛狅狌狋犺犆犺犻狀犪犝狀犻狏犲狉狊犻狋狔狅犳犜犲犮犺狀狅犾狅犵狔^，犌狌犪狀犵狕犺狅狌　５１０６４１^）

犃犫狊狋狉犪犮狋　Ｒｅｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎｉｓａｆｕｎｄａｍｅｎｔａｌｔａｓｋｉｎｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇａｎｄｏｎｅｏｆｔｈｅｅｓｓｅｎｔｉａｌｐａｒｔｓｏｆｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ^，ｗｈｏｓｅｄａｔａｓｅｔｒｅｑｕｉｒｅｓｈｉｇｈｃｏｓｔｄｕｅｔｏｍａｎｕａｌｌａｂｅｌｌｉｎｇ．Ｆｏｒｔｕｎａｔｅｌｙ^，ｄｉｓｔａｎｔｓｕｐｅｒｖｉｓｉｏｎｗａｓｐｒｏｐｏｓｅｄｔｏａｌｌｅｖｉａｔｅｔｈｅｐｒｅｓｓｕｒｅａｎｄｃｏｓｔｏｆｍａｎｕａｌｌｙａｎｎｏｔａｔｅｄｃｏｒｐｕｓ^，ｗｈｉｃｈｃａｎａｕｔｏｍａｔｉｃａｌｌｙｂｕｉｌｄｄａｔａｓｅｔｓｆｏｒｒｅｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎｔａｓｋ．Ｏｗｉｎｇｔｏｉｔｓｖａｌｕｅｉｎａｕｔｏｍａｔｉｃｒｅｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎ^，ｉｔｈａｓｂｅｅｎｗｉｄｅｌｙｃｏｎｃｅｒｎｅｄｂｙａｃａｄｅｍｉａａｎｄｂｕｓｉｎｅｓｓｉｎｒｅｃｅｎｔｙｅａｒｓ．Ｈｏｗｅｖｅｒ^，ｔｈｅｄａｔａｓｅｔｓｃｏｎｓｔｒｕｃｔｅｄｂｙｄｉｓｔａｎｔｓｕｐｅｒｖｉｓｉｏｎａｒｅｎｏｔｅｘａｃｔｌｙｅｑｕｉｖａｌｅｎｔｔｏｔｈｏｓｅｇｅｎｅｒａｔｅｄｍａｎｕａｌｌｙ．Ｏｎｔｈｅｃｏｎｔｒａｒｙ^，ｔｈｅｙｓｕｆｆｅｒｆｒｏｍｔｈｅｐｒｏｂｌｅｍｏｆｗｒｏｎｇｌａｂｅｌｌｉｎｇａｎｄｌｏｎｇｔａｉｌｄｉｓｔｒｉｂｕｔｉｏｎ^，ｒｅｓｕｌｔｉｎｇｉｎｔｈｅｉｒｌｏｗｑｕａｌｉｔｙ^，ａｎｄｔｈｕｓｈｉｎｄｅｒｉｎｇｔｈｅｉｍｐｒｏｖｅｍｅｎｔｏｆｒｅｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎｂａｓｅｄｏｎｔｈｅｓｅｄａｔａｓｅｔｓ．Ｔｈｅｒｅｆｏｒｅ^，ｉｎｏｒｄｅｒｔｏｒｅｄｕｃｅｔｈｅｉｍｐａｃｔ^，ｍｏｓｔｏｆｔｈｅｅｘｉｓｔｉｎｇｗｏｒｋａｂｏｕｔｄｉｓｔａｎｔｌｙｓｕｐｅｒｖｉｓｅｄｒｅｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎ^（ＤＳＲＥ^）ｆｏｃｕｓｅｄｏｎｈｏｗｔｏｄｅａｌｗｉｔｈｔｈｅｎｏｉｓｅｇｅｎｅｒａｔｅｄｂｙｗｒｏｎｇｌａｂｅｌｌｉｎｇｐｒｏｂｌｅｍａｎｄｔｈｅｌｏｎｇｔａｉｌｄｉｓｔｒｉｂｕｔｉｏｎ．Ｉｎｒｅｃｅｎｔｙｅａｒｓ^，ｄｅｅｐｌｅａｒｎｉｎｇｔｅｃｈｎｏｌｏｇｉｅｓｈａｖｅｄｅｖｅｌｏｐｅｄｒａｐｉｄｌｙｓｕｃｈａｓｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ^，ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ^，ｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｎｄｓｏｏｎ．Ｃｏｍｐａｒｅｄｗｉｔｈｔｒａｄｉｔｉｏｎａｌｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｅｔｈｏｄｓ^，ｅ．ｇ．ｆｅａｔｕｒｅｂａｓｅｄｍｅｔｈｏｄｓ^，ｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｄｅｅｐｌｅａｒｎｉｎｇｍｅｔｈｏｄｓｈａｓｏｂｖｉｏｕｓａｄｖａｎｔａｇｅｓｉｎｒｅｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎ^，ａｓｗｅｌｌａｓＤＳＲＥｔａｓｋ．ＴｈａｔｉｓｗｈｙＤＳＲＥｉｓｆａｃｅｄｗｉｔｈａｎｅｗｒｏｕｎｄｏｆｏｐｐｏｒｔｕｎｉｔｉｅｓａｎｄｃｈａｌｌｅｎｇｅｓ．Ｗｈａｔ^’ｓｍｏｒｅ^，ａｓｒｅｓｅａｒｃｈｅｓｃｏｎｔｉｎｕｅ^，ａｃｏｍｍｏｎｗｏｒｋｆｌｏｗｏｆｔｈｉｓｔａｓｋｗａｓｇｅｎｅｒａｔｅｄｓｔｅｐｂｙｓｔｅｐ．Ｔｈｉｓｐａｐｅｒｓｕｍｍａｒｉｚｅｓｔｈｅｅｘｉｓｔｉｎｇｗｏｒｋｉｎｔｈｅｆｉｅｌｄｏｆ

ＤＳＲＥ^，ａｎｄｐａｙｓｍｏｒｅａｔｔｅｎｔｉｏｎｔｏｔｈｅｍｅｔｈｏｄｓｂａｓｅｄｏｎｄｅｅｐｌｅａｒｎｉｎｇ．Ｔｈｉｓｐａｐｅｒｓｔａｒｔｓｗｉｔｈａｎ

《计

算

机

学

报

》

(2)

ｉｎｔｒｏｄｕｃｔｉｏｎｏｆｄｉｓｔａｎｔｓｕｐｅｒｖｉｓｉｏｎａｓｗｅｌｌａｓｉｔｓｖａｎｉｌｌａａｓｓｕｍｐｔｉｏｎ^，ａｎａｌｙｚｅｓｔｈｅｍａｊｏｒｓｈｏｒｔｃｏｍｉｎｇａｎｄｒｅｖｉｅｗｓｔｈｅｍｅｔｈｏｄｓｂａｓｅｄｏｎｔｒａｄｉｔｉｏｎａｌｍａｃｈｉｎｅｌｅａｒｎｉｎｇｓｕｃｈａｓｔｏｐｉｃｍｏｄｅｌｓａｎｄｐａｔｔｅｒｎｃｏｒｒｅｌａｔｉｏｎａｎｄｓｏｏｎ．Ｔｈｅｎｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｇｅｎｅｒａｌｗｏｒｋｆｌｏｗｗｉｔｈｆｏｕｒｍｏｄｕｌｅｓ^，ｉｎｃｌｕｄｉｎｇｓａｍｐｌｅｃｏｌｌｅｃｔｉｏｎ^，ｅｘｔｅｒｎａｌｉｎｆｏｒｍａｔｉｏｎ^，ｅｎｃｏｄｅｒａｎｄｃｌａｓｓｉｆｉｅｒ．Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｉｒｔａｒｇｅｔｐｒｏｂｌｅｍ^，ｔｈｅｅｘｉｓｔｉｎｇｗｏｒｋｉｓｄｉｖｉｄｅｄｉｎｔｏｔｗｏｃａｔｅｇｏｒｉｅｓ^，ｎｏｉｓｅｒｅｄｕｃｔｉｏｎｍｅｔｈｏｄｓｏｆＤＳＲＥａｎｄｔｈｅｓｏｌｕｔｉｏｎｓｏｆｔｈｅｌｏｎｇｔａｉｌｄｉｓｔｒｉｂｕｔｉｏｎ．Ｆｏｒｅａｃｈｃａｔｅｇｏｒｙ^，ｉｎｔｈｅｌｉｇｈｔｏｆｄｉｆｆｅｒｅｎｔｍｏｄｕｌｅｓｏｆｔｈｅｃｏｍｍｏｎｗｏｒｋｆｌｏｗ^，ｔｈｅｅｘｉｓｔｉｎｇｗｏｒｋｉｓｓｕｍｍａｒｉｚｅｄｆｒｏｍｆｏｕｒａｓｐｅｃｔｓ^，ｎａｍｅｌｙｓａｍｐｌｅｎｏｉｓｅｒｅｄｕｃｔｉｏｎ^，ｅｘｔｅｒｎａｌｉｎｆｏｒｍａｔｉｏｎｆｕｓｉｏｎ^，ｅｎｃｏｄｅｒｏｐｔｉｍｉｚａｔｉｏｎａｎｄｃｌａｓｓｉｆｉｅｒｏｐｔｉｍｉｚａｔｉｏｎ．

Ｍｅａｎｗｈｉｌｅ^，ｔｈｉｓｐａｐｅｒａｎａｌｙｚｅｓｄｉｆｆｅｒｅｎｔｉｍｐｒｏｖｅｍｅｎｔｍｅｔｈｏｄｓｏｆｔｈｅｓａｍｅｍｏｄｕｌｅ^，ａｎｄｃｏｍｐａｒｅｓｔｈｅｉｒｗｅａｋｎｅｓｓａｎｄｓｔｒｅｎｇｔｈ．Ｉｔｓｈｏｕｌｄｂｅｎｏｔｅｄｔｈａｔｔｈｅｓｅｆｏｕｒａｓｐｅｃｔｓａｒｅｎｏｔｍｕｔｕａｌｌｙｅｘｃｌｕｓｉｖｅ^，ｍｅａｎｉｎｇｔｈａｔｔｈｅｒｅｃａｎｂｅｔｗｏｏｒｍｏｒｅｍｏｄｕｌｅｓｉｍｐｒｏｖｅｄｉｎｏｎｅｍｅｔｈｏｄａｔｔｈｅｓａｍｅｔｉｍｅ．Ｗｈａｔ＇ｓｍｏｒｅ^，ｗｅｉｎｔｒｏｄｕｃｅｔｈｅｄａｔａｓｅｔｓｉｎｃｏｍｍｏｎｕｓｅｆｏｒｔｈｉｓｔａｓｋｉｎｄｅｔａｉｌ^，ａｓｗｅｌｌａｓｔｈｅｉｒｒｅｌａｔｅｄｃｏｒｐｕｓａｎｄｋｎｏｗｌｅｄｇｅｇｒａｐｈｓ．Ｍｏｒｅｏｖｅｒ^，ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｍｅｔｒｉｃｓａｎｄｅｖａｌｕａｔｉｏｎｍｅｔｈｏｄｓｕｓｅｄｉｎｔｈｅＤＳＲＥｅｖａｌｕａｔｉｏｎ．Ｌａｓｔｂｕｔｎｏｔｌｅａｓｔ^，ｔｈｉｓｐａｐｅｒｅｎｄｓｕｐｗｉｔｈｆｏｒｅｃａｓｔｉｎｇｔｈｅｆｕｔｕｒｅｄｅｖｅｌｏｐｍｅｎｔｔｒｅｎｄ．Ｉｎｏｒｄｅｒｔｏｂｒｉｎｇｔｈｉｓｔａｓｋｉｎｔｏａｎｅｗｆｒｏｎｔｉｅｒ^，ｗｅｈｏｐｅｔｈａｔＤＳＲＥｃａｎｂｅｉｎｔｅｇｒａｔｅｄｗｉｔｈｓｏｍｅｐｏｐｕｌａｒａｎｄｒｅａｓｏｎａｂｌｅｔｅｃｈｎｏｌｏｇｉｅｓｓｕｃｈａｓｊｏｉｎｔｅｘｔｒａｃｔｉｏｎ^，ｆｅｗｓｈｏｔｌｅａｒｎｉｎｇ^，ｈｙｂｒｉｄｓｕｐｅｒｖｉｓｉｏｎａｎｄｓｏｏｎ．

犓犲狔狑狅狉犱狊　ｒｅｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎ^；ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ^；ｄｉｓｔａｎｔｓｕｐｅｒｖｉｓｉｏｎ^；ｎｏｉｓｅｒｅｄｕｃｔｉｏｎ^；ｌｏｎｇｔａｉｌ^；ｗｒｏｎｇｌａｂｅｌｌｉｎｇ

１　 ^引　 ^言

关系抽取（ＲｅｌａｔｉｏｎＥｘｔｒａｃｔｉｏｎ^，ＲＥ^）的目的是对句子中实体与实体之间的关系进行识别^，抽取句子中的三元组信息^，即^（实体１^、实体２和关系^）三元组^，得到的三元组信息可以提供给知识图谱的构建^、问答^、机器阅读等下游自然语言处理^（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ^，ＮＬＰ^）任务^，是ＮＬＰ领域的一

个基础任务．基于监督学习的关系抽取方法虽然准确率较高^，模型结果更为可靠^，但需要人工标注数据集^，构造这样的数据集需耗费大量的人力^、金钱和时间．近年来^，为了实现自动化关系抽取^，学者们提出了远程监督^（ＤｉｓｔａｎｔＳｕｐｅｒｖｉｓｉｏｎ^）的方法．Ｃｒａｖｅｎ等人^［^１^］在１９９９年尝试从现有的信息源（知识图谱、数据库或者简单的表格信息等^）中提取三元组信息^，再对语料集进行标注^，生成提供关系抽取的^“弱标记^”的训练数据．在２００７年^，Ｗｕ等人^［^２^］也认为监督学习的方法需要过多的人力干预^，提出从维基百科页面的信息框中抽取出结构化信息的方法^，这个方法使得从已有非结构化数据中获取结构化信息成为可能．在２００９年^，Ｍｉｎｔｚ等人^［^３^］总结前人的工作，参考Ｗｕ等人^［^２^］的方法，提出了使用远程监督的方法进行

关系抽取任务的数据集构造^，这个方法将Ｆｒｅｅｂａｓｅ作为辅助的结构化信息，对维基百科的文章进行标注，生成关系抽取的数据集，大大缓解了人工构造关系抽取训练集的压力．

远程监督结合了半监督学习和无监督学习的优点^，利用已有的结构化数据来对数据进行自动化标注生成训练数据^，这个思想不仅应用到关系抽取任务中，还用到了ＮＬＰ的多个领域^，Ｇｏ等人^［^４^］将其用于情感分析任务^，Ｐｌａｎｋ等人^［^５^］将其应用于词性标记任务中^，而Ｑｉｎ等人^［^６^］将其应用于对话系统的样例生成中^，Ｌｅｅ等人^［^７^］将其应用到命名实体识别任务中，远程监督方法减轻了人工构造数据集的压力，降低了学术研究的成本．然而Ｍｉｎｔｚ等人^［^３^］提出的远程监督方法并不是完美的^，在关系抽取任务上由于提出时伴随了强约束性的假设^，生成的数据集存在严重的错误标注以及数据长尾问题．

近年来，研究学者针对错误标注及数据长尾问题，在远程监督噪声数据过滤以及解决长尾关系等领域都提出了切实可行的方案．深度学习技术的应用使得远程监督关系抽取任务的性能获得了突破性进展^，新的研究成果和思路不断出现^，已有的综述未能全面而深入地进行总结．Ｒｏｔｈ等人^［^８^］针对远程监督中的降噪方法进行综述，将已有的降噪方法分为

７３６８期杨穗珠等：远程监督关系抽取综述１

《计

算

机

学

报

》

(3)

Ａｔｌｅａｓｔｏｎｅ假设^、主题模型以及模式相关性三类^，并对每个类的方法都进行了详细的说明^，但是对目前常用的神经网络模型没有进行深入的描述和分析．Ｓｍｉｒｎｏｖａ等人^［^９^］针对远程监督在关系抽取的应用进行了综述^，把已有的研究成果分为降噪方法^、基于嵌入的方法以及利用辅助信息的方法^，其中降噪方法参考了Ｒｏｔｈ等人^［^８^］对降噪方法的分类^，他们详述了在各个分类下^，远程监督在关系抽取任务的应用情况^，然而其并没有对基于深度学习方法的远程监督关系抽取方法进行详细的说明^，尚未覆盖目前最新的研究进展．

本文则以基于深度学习方法的远程监督关系抽取任务为重点研究对象^，针对目前常用的提升远程监督关系抽取任务性能的解决方案进行分类说明和总结^，并详尽梳理其中的关键性问题和解决方法^，整理评价指标^，廓清本领域的发展情况与趋势^，展望发展方向^，为未来的研究工作奠定基础．

１１　^方法描述

远程监督的主要目的是减少构造数据集的成本^，因此使用已有的知识图谱对语料集进行自动标注^，最终生成训练数据^，其产生训练数据的工作流如图１所示．已有的知识图谱^（Ｆｒｅｅｂａｓｅ^、ＤＢＰｅｄｉａ等^）或其它的结构化文本中提供表达关系犚的实体对^，如表１中的关系Ｐｒｅｓｉｄｅｎｔｏｆ以及实体对^（Ｏｂａｍａ^，ＵｎｉｔｅｄＳｔａｔｅ^）^，而语料集提供包含该实体对的句子^，如表１中的Ｓ１和Ｓ２．研究人员可以通过实体对等自然语言处理方法融合这两部分信息^，从而得到带标注信息的数据^，最后将这些数据作为关系抽取任务的训练样本^，进行关系抽取．本文将通过这个过程完成的关系抽取任务称为远程监督关系抽取任务

（ＤｉｓｔａｎｔＳｕｐｅｒｖｉｓｅｄＲｅｌａｔｉｏｎＥｘｔｒａｃｔｉｏｎ^，ＤＳＲＥ^）．

图１　远程监督生成训练数据过程表１　^{远程监督训练样本示例} 犘狉犲狊犻犱犲狀狋^＿狅犳^（犗犫犪犿犪^，犝狀犻狋犲犱犛狋犪狋犲狊^）

Ｓ１ＢａｒａｃｋＯｂａｍａｗａｓｔｈｅｐｒｅｓｉｄｅｎｔｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓ．Ｓ２ＯｂａｍａｌｉｖｅｓｉｎｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｗｉｔｈｈｉｓｗｉｆｅ．

１２　^本文框架

本文主要针对ＤＳＲＥ任务中的降噪方法以及

长尾问题的解决方法进行阐述．第２节概述ＤＳＲＥ方法的发展以及相关深度学习技术^，并梳理ＤＳＲＥ任务的关键问题^；第３节分类介绍ＤＳＲＥ任务中的降噪方法^，将模型根据优化的模块不同进行分类描述^；第４节介绍近年来处理ＤＳＲＥ中数据的长尾问题的方法^；第５节介绍ＤＳＲＥ任务中常用的数据集^，以及常用的评测指标与评估方法^；第６节展望ＤＳＲＥ任务的未来研究趋势^；第７节进行总结．

２　 ^{远程监督关系抽取}

２１　^基本模型

Ｍｉｎｔｚ等人^［^３^］提出远程监督这个概念的同时，也提出了远程监督基本假设^，即如果两个实体犺^，狋在已知的知识图谱中存在关系犚^，则所有包含^（犺^，狋^）的句子狊都将表达关系犚^，最终基于生成的训练集完成关系抽取任务^，我们将这个原始工作模型称为Ｖａ ｎｉｌｌａ模型^，相应的假设称为Ｖａｎｉｌｌａ假设．

Ｖａｎｉｌｌａ模型生成训练数据的过程如图２所示．

首先对语料集进行预处理，预处理步骤包括命名实体识别（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ^，ＮＥＲ^）^、词性

（ＰａｒｔＯｆＳｐｅｅｃｈ^，ＰＯＳ^）标注、依存分析等处理．这些是自然语言处理领域比较常用的分析方法，可以依赖外部工具得到，其中比较常用的工具有斯坦福大学的ＣｏｒｅＮＬＰ工具

^①

^，该工具可以对句子进行词性标注^，以及词法特征^、句法特征的挖掘等．完成语料集的预处理之后^，需要对ＮＥＲ步骤中获得的实体进行实体匹配^（ＥｎｔｉｔｙＭａｔｃｈｉｎｇ^）^，即将语料集中的实体对应到知识图谱的实体中^，以便于后续关系标签的标注．这一阶段需要已有的知识图谱提供实体信息^，一般可以通过对应的ＡＰＩ获得实体信息^，或者下载知识图谱资源文件并在上面进行查询．如图２所示，实体匹配将实体ＭａｒｔｈａＷａｓｈｉｎｇｔｏｎ对应到知识图谱中编号为“Ｑ１９１７８９^”的实体，而ＧｅｏｒｇｅＷａｓｈｉｎｇｔｏｎ则对应到编号“Ｑ２３^”的实体．当句子中的两个实体都在知识图谱中找到对应的实体编号以后^，则开始对句子进行特征提取．Ｍｉｎｔｚ等人^［^３^］提取了文本特征中的词法特征^（ＬｅｘｉｃａｌＦｅａｔｕｒｅ^）^、句法特征^（Ｓｙｎｔａｃｔｉｃｆｅａｔｕｒｅ^）^、实体类型标签等特征^，其中词法特征包括^：

（１^）两个实体之间的词汇序列^；

（２^）每一个词例^（ｔｏｋｅｎ^）的词性^（ＰＯＳ^）标签^；

（３^）实体的开始位置索引^；

８３６

１计　　算　　机　　学　　报２０２１年

①

ｈｔｔｐｓ^：^／^／ｓｔａｎｆｏｒｄｎｌｐ．ｇｉｔｈｕｂ．ｉｏ^／ＣｏｒｅＮＬＰ^／

《计

算

机

学

报

》

(4)

图２　Ｖａｎｉｌｌａ模型生成训练数据的过程

（４^）第一个实体左边的犽个词以及他们的ＰＯＳ标签；

（５^）第二个实体右边的犽个词以及他们的ＰＯＳ标签．

而句法特征则包括两个实体之间的句法依存树，以及与其中一个实体相连，但又不在依存路径内的一个节点．Ｖａｎｉｌｌａ模型最后将这些特征进行融合^，将融合后的特征作为后续关系抽取任务的输入进行训练．

生成训练数据的最后一个阶段就是对句子进行自动标记^（Ｌａｂｅｌｌｉｎｇ^）^，即从知识图谱中获取相应实体对的关系．获取的方式同样可以通过ＡＰＩ或者下载的资源文件进行查询^，最终得到由远程监督生成的关系抽取训练数据集．在这个数据集上^，Ｖａｎｉｌｌａ模型使用了一个逻辑回归多分类器进行关系抽取．

远程监督方法的应用^，使关系抽取任务摆脱了对人工标注数据集的依赖^，基于已有的结构化数据进行数据的自动标注^，大大降低了构建数据集的成本^，然而这个构造出来的数据集并不是完美的^，依然存在着很多可以改善的地方^，这些问题都会对后续关系抽取任务的性能造成影响^，具体会在下一节进行讨论．

２２　^关键问题２．２．１　错误标注问题

在Ｖａｎｉｌｌａ模型的假设中^，所有包含两个实体

（犺^，狋^）的句子都标为知识图谱中的关系犚^，这样的确能对部分句子进行正确标注，这种被正确标注的句子被称为有效示例，但在实际情况中，一对实体出现

在同一个句子中^，不一定表达了某一种关系^，而只是与同一个主题相关^，因此^，这一类句子被称为假正例

（ＦａｌｓｅＰｏｓｉｔｉｖｅＩｎｓｔａｎｃｅ^，ＦＰＩ^）．在这种情况下就会存在错误标注^（ＷｒｏｎｇＬａｂｅｌｉｎｇ^，ＷＬ^）问题．

不仅如此^，Ｖａｎｉｌｌａ假设中默认同一个实体对只存在一种关系^，即不会同时存在两个三元组^（狉^１^，犲^１^，犲^２^）和^（狉^２^，犲^１^，犲^２^）同时有效的情况^，但在实际情况中同一个实体对在不同句子中可能拥有不同的关系，例如（Ｏｂａｍａ^，ＵｎｉｔｅｄＳｔａｔｅ^）这个实体对，既可能是ｐｒｅｓｉｄｅｎｔ＿ｏｆ的关系（表１中的Ｓ１^）^，也有可能是ｌｉｖｅ＿ｉｎ的关系（表１中的Ｓ２^）^，直接将全部包含该实体对的句子都标注为其中一种关系，则关系分类器在进行ｌｉｖｅ＿ｉｎ关系的参数学习时^，也会学习了ｐｒｅｓｉｄｅｎｔ＿ｏｆ关系的示例信息^，从而影响关系分类器

的性能．这种情况也归为ＷＬ问题．

如果错误标注的样本数量占比不大^，模型可以在适当的噪声中获得更高的鲁棒性^，但在基于远程监督所构建的数据集中^，ＷＬ问题却不容忽视^，主要体现在假正例的数量占比较大^，导致噪声数据对关系抽取的性能造成了负面的影响．Ｄｕｍｉｔｒａｃｈｅ等人^［^１^０^］以由远程监督得到的ＴＡＣＫＢＰ２０１３英文填槽^（ＳｌｏｔＦｉｌｌｉｎｇ^）评测任务数据集

^①

为例，抽取验证集中的１６个关系中的所有句子让１５个人进行标注，统计每个关系包含的示例中的假正例占比，统计结果如图３所示^，可见在１６个关系中^，有１０个关系的假正例的占比大于５０％^，尤其是ｏｒｉｇｉｎ和ｐｌａｃｅ＿ｏｆ＿ｄｅａｔｈ^，这

９３６８期杨穗珠等：远程监督关系抽取综述１

①

ｈｔｔｐ^：^／^／ｓｕｒｄｅａｎｕ．ｉｎｆｏ^／ｋｂｐ２０１３^／ｄａｔａ．ｐｈｐ

《计

算

机

学

报

》

(5)

两个关系的假正例占比大于０．９．用这些具有高比重噪声的数据进行模型训练时，模型拟合的更有可能是噪音数据^，得到的关系抽取模型并不能保障基于真实数据的关系抽取性能．

图３　１６个关系中假正例占比

严重的ＷＬ问题意味着数据集的不可靠^，模型可能从错误的样本中学习了过多的错误特征^，从而降低模型的性能．因此将通过Ｖａｎｉｌｌａ假设获取到的数据直接用于关系抽取任务时，得到的模型的正确性是值得商榷的．

２．２．２　数据长尾现象

目前的远程监督主要是使用开放域的知识图谱以及语料集，例如常用的维基页面、纽约时报等开放域语料集以及Ｆｒｅｅｂａｓｅ^、ＷｉｋｉＤａｔａ等开源知识图谱．这样的数据收集渠道比较多，成本也较低，而另外一些垂直领域知识图谱或者语料集的使用权往往掌握在企业手中，获取成本比较高．这样的数据来源对数据的质量有一定的限制^，例如其中通用关系所占样本数比非通用关系所拥有的句子数多得多，类似于ｐｌａｃｅ＿ｏｆ＿ｂｉｒｔｈ^、ｎａｔｉｏｎａｌｉｔｙ等关系的句子数量会更多，相比之下，往往那些有一定专业领域性的示例数量占比很低^，例如ｃｏｍｐｏｎｅｎｔ＿ｏｆ^、ｏｗｎｅｒ＿ｏｆ＿ｓｈｏｐｐｉｎｇ＿ｃｅｎｔｅｒ等，造成远程监督生成的训练样本

分布极度不均匀的现象．

以Ｒｉｅｄｅｌ２０１０数据集^［^１^１^］为例，这个数据集包含了５３种关系^（包括ＮＡ关系^）^，对其中除了ＮＡ关系外拥有示例数量最多的前２０个关系进行示例数量上的可视化，情况如图４所示．由图４可以看出^，地点与地点之间的ｃｏｎｔａｉｎｓ关系拥有的示例数比其它关系拥有的示例数多了几倍，是第二的ｎａｔｉｏｎａｌｉｔｙ关系的七倍．在这２０种关系中存在着严重的长尾

（ＬｏｎｇＴａｉｌ^，ＬＴ^）现象：其中只有１０种关系拥有的句子数超过了１５００条^，剩余关系拥有的示例数量都少于１５００条，而没有在图中表示出来的关系示例数

量甚至少于２０６条．我们将这种拥有示例数量较少的关系称为长尾关系．

图４　Ｒｉｅｄｅｌ２０１０数据集部分数据分布情况

长尾关系拥有的示例数量过少，不利于生成有效的关系提取器．同时由于在远程监督数据集中还存在ＷＬ问题^（如２．２节所述^）^，这就造成随着拥有的示例数量变少，长尾关系中包含的示例中错误标注的比例会更高，甚至会存在拥有的唯一一个示例都是错误标记的极端情况，那模型就更容易受到错误信息的影响，从而影响关系提取器在相应长尾关系的抽取性能，也降低了ＤＳＲＥ任务的整体性能．

２３　^研究进展

２．３．１　基于特征的模型

针对以上问题，研究学者为提高关系抽取性能，对模型设计及数据集构造等过程进行了改进和优化，提出了相应的解决方案．

首先为了降低远程监督过程生成的噪声数据的影响，有不少研究学者以Ｖａｎｉｌｌａ假设为切入点进行假设层面的改进，例如ＡｔＬｅａｓｔＯｎｅ假设^［^１^１^］以及多示例学习^［^１^２^］的使用．同时针对真实语料集中存在的重叠关系的情况，学者们提出了多标签多示例学习（ＭｕｌｔｉｐｌｅＩｎｓｔａｎｃｅＭｕｌｔｉｐｌｅＬｅａｒｎｉｎｇ^，ＭＩＭＬ^）^，与Ｖａｎｉｌｌａ假设默认的每一对实体只有一个示例和一个标签不同，ＭＩＭＬ允许一对实体拥有多个示例和多个标签．这种将远程监督和ＭＩＭＬ结合起来的解决方案，在一定程度上缓解了ＷＬ问题．

另外，也有学者使用基于大量特征训练来进行关系预测的主题模型（ＴｏｐｉｃＭｏｄｅｌ^）和模式相关性

（ＰａｔｔｅｒｎＣｏｒｒｅｌａｔｉｏｎｓ^）方法来降低噪声数据对模型的影响．这类方法称为基于特征的方法．

主题模型是在机器学习和自然语言处理等领域用来在一系列文档中发现抽象主题的一种统计模型，即从文档犱中抽取出主题狋．当将主题模型应用到远程监督关系抽取时^，则将包含实体对的句子视为文档犱^，而句子所表达的关系视为主题狋．主题模

０４６

１计　　算　　机　　学　　报２０２１年

《计

算

机

学

报

》

(6)

型通过获取文本模式与关系之间的依赖来提高最终效果．目前ＤＳＲＥ使用的主题模型大都以隐含狄利克雷分布（ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ^，ＬＤＡ^）^［^１^３^］为基础，但各自选择的特征不同，从而导致了他们获取的模式不同．Ｙａｏ等人^［^１^４^］在２０１１年提出了ＬＤＡ的三种变形：ＲｅｌＬＤＡ^、ＲｅｌＬＤＡ１以及ＴｙｐｅＬＤＡ^，其中的ＲｅｌＬＤＡ模型使用了句子中的三个特征^：两个实体的名称以及他们之间的最短依存路径^［^９^］．这些主题模型会以关系三元组^（主体实体^、客体实体和实体之间的依存路径）为输入，然后对这些三元组进行聚类处理^，最后得到代表了不同关系的三元组的集合．

图６　远程监督关系抽取方法分类

模式相关性更为直接地判断模式是否表达了目标关系^，在不改变原始假设的情况下减少远程监督生成的错误标签的数量．Ｔａｋａｍａｔｓｕ等人^［^２^３^］在没有使用ＡｔＬｅａｓｔＯｎｅ假设的前提下，提出了一个生成模型，可以用来预测每种模式是否通过隐藏变量表达某种关系，从而将频繁出现的模式上的错误标签移除^，该模型的基本思想是^：如果文本犮与关系狉的参数对匹配^，或与表达关系狉的其它模式的参数对具有高度重叠，则犮表达关系狉．黄蓓静等人^［^１^５^］提出了基于句子模式聚类和模式评分对远程监督训练数据集进行降噪的方法，得到了噪声更少的数据集．

但以上基于特征的模型以及Ｖａｎｉｌｌａ模型在进行关系抽取时依赖于预先设计好的特征，例如句法依存树^、词性标注等^，这些特征通常从ＮＬＰ工具中获取^，如２．２节所示^，这样就造成了ＮＬＰ工具提取特征时产生的误差会传递到关系模型中^，进一步降低模型的准确性．

２．３．２　基于深度学习的远程监督关系抽取

深度学习^（ＤｅｅｐＬｅａｒｎｉｎｇ^，ＤＬ^）是机器学习的

分支^，使用人工神经网络作为架构^，对数据进行表征学习的一类算法．常见的深度学习框架包括卷积神经网络^、循环神经网络^、深度强化学习等^，这些框架使从原始输入中提取高水平特征成为可能．目前，深度学习技术已经被成功应用在图像识别领域^［^１^６^^１^７^］以及自然语言处理领域^［^１^８^^１^９^］．

在远程监督领域，越来越多的学者尝试摆脱特征工程^，使用深度学习的方法进行关系抽取^，在减少人工介入的情况下^，提升关系抽取的性能．这些模型通用的工作流如图５所示^，可以将其分为四个模块：样本降噪^、外部信息融合^、编码器以及分类器．首先通过远程监督得到关系抽取任务的数据集犛^，可选地进行样本级别的降噪^，然后对犛中的句子^｛狊^１^，狊^２^，^…，狊^狀^｝以及可选外部信息进行编码，将其从自然文本转化成计算机可以理解的语言^，最后使用分类器进行分类^，从而推断出每一对实体所拥有的关系．目前大部分远程监督关系抽取模型都基于该工作流进行设计^，不同的模型会针对这４个模块中的一个或两个进行改进和优化，最终提升关系抽取性能．

图５　远程监督关系抽取通用工作流

在本文中^，我们将远程监督关系抽取模型根据其优化重点分为四类^：样本降噪^、外部信息融合^、编码器优化以及分类器优化，并将远程监督关系抽取的方法按照图６进行分类整理^，如表２所示^，随后在

远程监督关系抽取综述

远程监督关系抽取综述

杨穗珠 刘艳霞

张凯文 洪 吟 黄 翰

犛 狌 狉 狏 犲 狔 狅 狀 犇 犻 狊 狋 犪 狀 狋 犾 狔  犛 狌 狆 犲 狉 狏 犻 狊 犲 犱 犚 犲 犾 犪 狋 犻 狅 狀 犈 狓 狋 狉 犪 犮 狋 犻 狅 狀

《 计

算

机

学

报

》

１ 引 言

《 计

算

机

学

报

》

２ 远程监督关系抽取

①

①

《 计

算

机

学

报

》

①

①

《 计

算

机

学

报

》

《 计

算

机

学

报

》

《 计

算

机

学

报

》

杨穗珠　 ^刘艳霞

　 ^张凯文　 ^洪　 ^吟　 ^黄　 ^翰

犛狌狉狏犲狔狅狀犇犻狊狋犪狀狋犾狔  犛狌狆犲狉狏犻狊犲犱犚犲犾犪狋犻狅狀犈狓狋狉犪犮狋犻狅狀

《计

１　 ^引　 ^言

《计

２　 ^{远程监督关系抽取}

^①

《计

^①

《计

《计

《计