书 书 书
第44卷 第8期
2021年8月 计 算 机 学 报
CHINESEJOURNALOFCOMPUTERS Vol.A44Nug.2o0.281
收稿日期:20190829;在线发布日期:20200211.本课题得到国家自然科学基金(61876208)、广东省重点研发项目(2018B010109003)、 广州市科技计划(201802010007,201804010276)资助.杨穗珠,硕士研究生,主要研究方向为知识图谱、远程监督.Email:seyangsuizhu@ mail.scut.edu.cn.刘艳霞(通信作者),博士,副教授,主要研究方向为知识图谱、神经网络.Email:cslyx@scut.edu.cn.张凯文,硕士研 究生,主要研究方向为知识图谱.洪 吟,硕士研究生,主要研究方向为联合实体关系抽取.黄 翰,博士,教授,中国计算机学会(CCF)高 级会员,主要研究领域为智能算法、演化计算.
远程监督关系抽取综述
杨穗珠 刘艳霞
(张凯文 洪 吟 黄 翰
华南理工大学软件工程 广州 510641)
摘 要 远程监督可以为关系抽取任务自动构建数据集,缓解了人工构建数据集的压力和成本,为自动关系抽取 的实现奠定基础,然而使用远程监督方法构建的数据集存在错误标注以及长尾问题,严重影响关系抽取性能.目 前,远程监督关系抽取任务的主要研究方向为关系模型的降噪手段以及对长尾关系的处理方法.近年来,随着深度 学习技术的发展,这两个领域的研究工作也迎来了新一轮的机遇与挑战.本文对近几年远程监督关系抽取的研究 进展进行综述,针对基于深度学习的远程监督关系抽取任务定义常用工作流,其中包括样本降噪、外部信息融合、 编码器和分类器.本文根据不同的模块将已有的研究成果进行分类和梳理,分析比较主要方法,整理其中的关键问 题,介绍已有的解决方案和相关数据集,总结远程监督关系抽取任务所用评测指标与评估方式,展望未来研究趋势. 关键词 关系抽取;信息抽取;远程监督;降噪;长尾现象;错误标注
中图法分类号TP18 犇犗犐号10.11897/SP.J.1016.2021.1636
犛 狌 狉 狏 犲 狔 狅 狀 犇 犻 狊 狋 犪 狀 狋 犾 狔 犛 狌 狆 犲 狉 狏 犻 狊 犲 犱 犚 犲 犾 犪 狋 犻 狅 狀 犈 狓 狋 狉 犪 犮 狋 犻 狅 狀
YANGSuiZhu LIUYanXia ZHANGKaiWen HONGYin HUANGHan
(犛犮犺狅狅犾狅犳犛狅犳狋狑犪狉犲犈狀犵犻狀犲犲狉犻狀犵,犛狅狌狋犺犆犺犻狀犪犝狀犻狏犲狉狊犻狋狔狅犳犜犲犮犺狀狅犾狅犵狔,犌狌犪狀犵狕犺狅狌 510641)
犃犫狊狋狉犪犮狋 Relationextractionisafundamentaltaskinnaturallanguageprocessingandoneofthe essentialpartsofinformationextraction,whosedatasetrequireshighcostduetomanuallabelling. Fortunately,distantsupervisionwasproposedtoalleviatethepressureandcostofmanually annotatedcorpus,whichcanautomaticallybuilddatasetsforrelationextractiontask.Owingto itsvalueinautomaticrelationextraction,ithasbeenwidelyconcernedbyacademiaandbusiness inrecentyears.However,thedatasetsconstructedbydistantsupervisionarenotexactly equivalenttothosegeneratedmanually.Onthecontrary,theysufferfromtheproblemofwrong labellingandlongtaildistribution,resultingintheirlowquality,andthushinderingtheimprovement ofrelationextractionbasedonthesedatasets.Therefore,inordertoreducetheimpact,mostof theexistingworkaboutdistantlysupervisedrelationextraction(DSRE)focusedonhowtodeal withthenoisegeneratedbywronglabellingproblemandthelongtaildistribution.Inrecent years,deeplearningtechnologieshavedevelopedrapidlysuchasdeepneuralnetwork,attention mechanism,deepreinforcementlearningandsoon.Comparedwithtraditionalmachinelearning methods,e.g.featurebasedmethods,theapplicationofdeeplearningmethodshasobvious advantagesinrelationextraction,aswellasDSREtask.ThatiswhyDSREisfacedwithanew roundofopportunitiesandchallenges.What’smore,asresearchescontinue,acommonworkflow ofthistaskwasgeneratedstepbystep.Thispapersummarizestheexistingworkinthefieldof
DSRE,andpaysmoreattentiontothemethodsbasedondeeplearning.Thispaperstartswithan
《 计
算
机
学
报
》
introductionofdistantsupervisionaswellasitsvanillaassumption,analyzesthemajorshortcoming andreviewsthemethodsbasedontraditionalmachinelearningsuchastopicmodelsandpattern correlationandsoon.Thenthispaperintroducesthegeneralworkflowwithfourmodules,including samplecollection,externalinformation,encoderandclassifier.Accordingtotheirtargetproblem, theexistingworkisdividedintotwocategories,noisereductionmethodsofDSREandthe solutionsofthelongtaildistribution.Foreachcategory,inthelightofdifferentmodulesofthe commonworkflow,theexistingworkissummarizedfromfouraspects,namelysamplenoise reduction,externalinformationfusion,encoderoptimizationandclassifieroptimization.
Meanwhile,thispaperanalyzesdifferentimprovementmethodsofthesamemodule,and comparestheirweaknessandstrength.Itshouldbenotedthatthesefouraspectsarenotmutually exclusive,meaningthattherecanbetwoormoremodulesimprovedinonemethodatthesame time.What'smore,weintroducethedatasetsincommonuseforthistaskindetail,aswellas theirrelatedcorpusandknowledgegraphs.Moreover,thispaperintroducesthemetricsand evaluationmethodsusedintheDSREevaluation.Lastbutnotleast,thispaperendsupwith forecastingthefuturedevelopmenttrend.Inordertobringthistaskintoanewfrontier,wehope thatDSREcanbeintegratedwithsomepopularandreasonabletechnologiessuchasjointextraction, fewshotlearning,hybridsupervisionandsoon.
犓犲狔狑狅狉犱狊 relationextraction;informationextraction;distantsupervision;noisereduction; longtail;wronglabelling
1 引 言
关系抽取(RelationExtraction,RE)的目的是 对句子中实体与实体之间的关系进行识别,抽取句 子中的三元组信息,即(实体1、实体2和关系)三元 组,得到的三元组信息可以提供给知识图谱的构 建、问答、机器阅读等下游自然语言处理(Natural LanguageProcessing,NLP)任务,是NLP领域的一
个基础任务.基于监督学习的关系抽取方法虽然准 确率较高,模型结果更为可靠,但需要人工标注数据 集,构造这样的数据集需耗费大量的人力、金钱和时 间.近年来,为了实现自动化关系抽取,学者们提出 了远程监督(DistantSupervision)的方法.Craven 等人[1]在1999年尝试从现有的信息源(知识图谱、数 据库或者简单的表格信息等)中提取三元组信息,再 对语料集进行标注,生成提供关系抽取的“弱标记”的 训练数据.在2007年,Wu等人[2]也认为监督学习 的方法需要过多的人力干预,提出从维基百科页面 的信息框中抽取出结构化信息的方法,这个方法使 得从已有非结构化数据中获取结构化信息成为可 能.在2009年,Mintz等人[3]总结前人的工作,参考 Wu等人[2]的方法,提出了使用远程监督的方法进行
关系抽取任务的数据集构造,这个方法将Freebase 作为辅助的结构化信息,对维基百科的文章进行标 注,生成关系抽取的数据集,大大缓解了人工构造关 系抽取训练集的压力.
远程监督结合了半监督学习和无监督学习的优 点,利用已有的结构化数据来对数据进行自动化标 注生成训练数据,这个思想不仅应用到关系抽取任 务中,还用到了NLP的多个领域,Go等人[4]将其用 于情感分析任务,Plank等人[5]将其应用于词性标 记任务中,而Qin等人[6]将其应用于对话系统的样 例生成中,Lee等人[7]将其应用到命名实体识别任 务中,远程监督方法减轻了人工构造数据集的压力, 降低了学术研究的成本.然而Mintz等人[3]提出的 远程监督方法并不是完美的,在关系抽取任务上由 于提出时伴随了强约束性的假设,生成的数据集存 在严重的错误标注以及数据长尾问题.
近年来,研究学者针对错误标注及数据长尾问 题,在远程监督噪声数据过滤以及解决长尾关系等 领域都提出了切实可行的方案.深度学习技术的应 用使得远程监督关系抽取任务的性能获得了突破性 进展,新的研究成果和思路不断出现,已有的综述未 能全面而深入地进行总结.Roth等人[8]针对远程监 督中的降噪方法进行综述,将已有的降噪方法分为
7 3 6 8期 杨穗珠等:远程监督关系抽取综述 1
《 计
算
机
学
报
》
Atleastone假设、主题模型以及模式相关性三类, 并对每个类的方法都进行了详细的说明,但是对目 前常用的神经网络模型没有进行深入的描述和分 析.Smirnova等人[9]针对远程监督在关系抽取的应 用进行了综述,把已有的研究成果分为降噪方法、基 于嵌入的方法以及利用辅助信息的方法,其中降噪 方法参考了Roth等人[8]对降噪方法的分类,他们 详述了在各个分类下,远程监督在关系抽取任务的 应用情况,然而其并没有对基于深度学习方法的远 程监督关系抽取方法进行详细的说明,尚未覆盖目 前最新的研究进展.
本文则以基于深度学习方法的远程监督关系抽 取任务为重点研究对象,针对目前常用的提升远程 监督关系抽取任务性能的解决方案进行分类说明和 总结,并详尽梳理其中的关键性问题和解决方法,整 理评价指标,廓清本领域的发展情况与趋势,展望发 展方向,为未来的研究工作奠定基础.
11 方法描述
远程监督的主要目的是减少构造数据集的成 本,因此使用已有的知识图谱对语料集进行自动标 注,最终生成训练数据,其产生训练数据的工作流如 图1所示.已有的知识图谱(Freebase、DBPedia等) 或其它的结构化文本中提供表达关系犚的实体对, 如表1中的关系Presidentof以及实体对(Obama, UnitedState),而语料集提供包含该实体对的句子, 如表1中的S1和S2.研究人员可以通过实体对等 自然语言处理方法融合这两部分信息,从而得到带 标注信息的数据,最后将这些数据作为关系抽取任 务的训练样本,进行关系抽取.本文将通过这个过程 完成的关系抽取任务称为远程监督关系抽取任务
(DistantSupervisedRelationExtraction,DSRE).
图1 远程监督生成训练数据过程 表1 远程监督训练样本示例 犘狉犲狊犻犱犲狀狋_狅犳(犗犫犪犿犪,犝狀犻狋犲犱犛狋犪狋犲狊)
S1 BarackObamawasthepresidentoftheUnitedStates. S2 ObamalivesintheUnitedStateswithhiswife.
12 本文框架
本文主要针对DSRE任务中的降噪方法以及
长尾问题的解决方法进行阐述.第2节概述DSRE 方法的发展以及相关深度学习技术,并梳理DSRE 任务的关键问题;第3节分类介绍DSRE任务中的 降噪方法,将模型根据优化的模块不同进行分类 描述;第4节介绍近年来处理DSRE中数据的长尾 问题的方法;第5节介绍DSRE任务中常用的数据 集,以及常用的评测指标与评估方法;第6节展望 DSRE任务的未来研究趋势;第7节进行总结.
2 远程监督关系抽取
21 基本模型
Mintz等人[3]提出远程监督这个概念的同时, 也提出了远程监督基本假设,即如果两个实体犺,狋 在已知的知识图谱中存在关系犚,则所有包含(犺,狋) 的句子狊都将表达关系犚,最终基于生成的训练集完 成关系抽取任务,我们将这个原始工作模型称为Va nilla模型,相应的假设称为Vanilla假设.
Vanilla模型生成训练数据的过程如图2所示.
首先对语料集进行预处理,预处理步骤包括命名实 体识别(NamedEntityRecognition,NER)、词性
(PartOfSpeech,POS)标注、依存分析等处理.这些 是自然语言处理领域比较常用的分析方法,可以依 赖外部工具得到,其中比较常用的工具有斯坦福大 学的CoreNLP工具
①
,该工具可以对句子进行词性 标注,以及词法特征、句法特征的挖掘等.完成语料 集的预处理之后,需要对NER步骤中获得的实体 进行实体匹配(EntityMatching),即将语料集中的 实体对应到知识图谱的实体中,以便于后续关系标 签的标注.这一阶段需要已有的知识图谱提供实体 信息,一般可以通过对应的API获得实体信息,或者 下载知识图谱资源文件并在上面进行查询.如图2 所示,实体匹配将实体MarthaWashington对应到 知识图谱中编号为“Q191789”的实体,而George Washington则对应到编号“Q23”的实体.当句子中 的两个实体都在知识图谱中找到对应的实体编号以 后,则开始对句子进行特征提取.Mintz等人[3]提取 了文本特征中的词法特征(LexicalFeature)、句法 特征(Syntacticfeature)、实体类型标签等特征,其 中词法特征包括:(1)两个实体之间的词汇序列;
(2)每一个词例(token)的词性(POS)标签;
(3)实体的开始位置索引;
8 3 6
1 计 算 机 学 报 2021年
①
https://stanfordnlp.github.io/CoreNLP/《 计
算
机
学
报
》
图2 Vanilla模型生成训练数据的过程
(4)第一个实体左边的犽个词以及他们的POS 标签;
(5)第二个实体右边的犽个词以及他们的POS 标签.
而句法特征则包括两个实体之间的句法依存 树,以及与其中一个实体相连,但又不在依存路径内 的一个节点.Vanilla模型最后将这些特征进行融 合,将融合后的特征作为后续关系抽取任务的输入 进行训练.
生成训练数据的最后一个阶段就是对句子进行 自动标记(Labelling),即从知识图谱中获取相应实 体对的关系.获取的方式同样可以通过API或者下 载的资源文件进行查询,最终得到由远程监督生成 的关系抽取训练数据集.在这个数据集上,Vanilla 模型使用了一个逻辑回归多分类器进行关系抽取.
远程监督方法的应用,使关系抽取任务摆脱了 对人工标注数据集的依赖,基于已有的结构化数据 进行数据的自动标注,大大降低了构建数据集的成 本,然而这个构造出来的数据集并不是完美的,依然 存在着很多可以改善的地方,这些问题都会对后续 关系抽取任务的性能造成影响,具体会在下一节进 行讨论.
22 关键问题 2.2.1 错误标注问题
在Vanilla模型的假设中,所有包含两个实体
(犺,狋)的句子都标为知识图谱中的关系犚,这样的确 能对部分句子进行正确标注,这种被正确标注的句 子被称为有效示例,但在实际情况中,一对实体出现
在同一个句子中,不一定表达了某一种关系,而只是 与同一个主题相关,因此,这一类句子被称为假正例
(FalsePositiveInstance,FPI).在这种情况下就会 存在错误标注(WrongLabeling,WL)问题.
不仅如此,Vanilla假设中默认同一个实体对只 存在一种关系,即不会同时存在两个三元组(狉1,犲1,犲2) 和(狉2,犲1,犲2)同时有效的情况,但在实际情况中 同一个实体对在不同句子中可能拥有不同的关 系,例如(Obama,UnitedState)这个实体对,既可能 是president_of的关系(表1中的S1),也有可能是 live_in的关系(表1中的S2),直接将全部包含该实 体对的句子都标注为其中一种关系,则关系分类器 在进行live_in关系的参数学习时,也会学习了 president_of关系的示例信息,从而影响关系分类器
的性能.这种情况也归为WL问题.
如果错误标注的样本数量占比不大,模型可以在 适当的噪声中获得更高的鲁棒性,但在基于远程监督 所构建的数据集中,WL问题却不容忽视,主要体现 在假正例的数量占比较大,导致噪声数据对关系抽 取的性能造成了负面的影响.Dumitrache等人[10]以 由远程监督得到的TACKBP2013英文填槽(Slot Filling)评测任务数据集
①
为例,抽取验证集中的 16个关系中的所有句子让15个人进行标注,统计每 个关系包含的示例中的假正例占比,统计结果如图3 所示,可见在16个关系中,有10个关系的假正例的 占比大于50%,尤其是origin和place_of_death,这9 3 6 8期 杨穗珠等:远程监督关系抽取综述 1
①
http://surdeanu.info/kbp2013/data.php《 计
算
机
学
报
》
两个关系的假正例占比大于0.9.用这些具有高比 重噪声的数据进行模型训练时,模型拟合的更有可 能是噪音数据,得到的关系抽取模型并不能保障基 于真实数据的关系抽取性能.
图3 16个关系中假正例占比
严重的WL问题意味着数据集的不可靠,模型 可能从错误的样本中学习了过多的错误特征,从而 降低模型的性能.因此将通过Vanilla假设获取到 的数据直接用于关系抽取任务时,得到的模型的正 确性是值得商榷的.
2.2.2 数据长尾现象
目前的远程监督主要是使用开放域的知识图谱 以及语料集,例如常用的维基页面、纽约时报等开放 域语料集以及Freebase、WikiData等开源知识图 谱.这样的数据收集渠道比较多,成本也较低,而另 外一些垂直领域知识图谱或者语料集的使用权往往 掌握在企业手中,获取成本比较高.这样的数据来源 对数据的质量有一定的限制,例如其中通用关系所 占样本数比非通用关系所拥有的句子数多得多,类 似于place_of_birth、nationality等关系的句子数量 会更多,相比之下,往往那些有一定专业领域性的示 例数量占比很低,例如component_of、owner_of_ shopping_center等,造成远程监督生成的训练样本
分布极度不均匀的现象.
以Riedel2010数据集[11]为例,这个数据集包含 了53种关系(包括NA关系),对其中除了NA关系 外拥有示例数量最多的前20个关系进行示例数量 上的可视化,情况如图4所示.由图4可以看出,地 点与地点之间的contains关系拥有的示例数比其它 关系拥有的示例数多了几倍,是第二的nationality 关系的七倍.在这20种关系中存在着严重的长尾
(LongTail,LT)现象:其中只有10种关系拥有的 句子数超过了1500条,剩余关系拥有的示例数量都 少于1500条,而没有在图中表示出来的关系示例数
量甚至少于206条.我们将这种拥有示例数量较少 的关系称为长尾关系.
图4 Riedel2010数据集部分数据分布情况
长尾关系拥有的示例数量过少,不利于生成有 效的关系提取器.同时由于在远程监督数据集中还 存在WL问题(如2.2节所述),这就造成随着拥有 的示例数量变少,长尾关系中包含的示例中错误标 注的比例会更高,甚至会存在拥有的唯一一个示例 都是错误标记的极端情况,那模型就更容易受到错 误信息的影响,从而影响关系提取器在相应长尾关 系的抽取性能,也降低了DSRE任务的整体性能.
23 研究进展
2.3.1 基于特征的模型
针对以上问题,研究学者为提高关系抽取性能, 对模型设计及数据集构造等过程进行了改进和优 化,提出了相应的解决方案.
首先为了降低远程监督过程生成的噪声数据的 影响,有不少研究学者以Vanilla假设为切入点进 行假设层面的改进,例如AtLeastOne假设[11]以 及多示例学习[12]的使用.同时针对真实语料集中存 在的重叠关系的情况,学者们提出了多标签多示例 学习(MultipleInstanceMultipleLearning,MIML),与 Vanilla假设默认的每一对实体只有一个示例和一 个标签不同,MIML允许一对实体拥有多个示例和 多个标签.这种将远程监督和MIML结合起来的解 决方案,在一定程度上缓解了WL问题.
另外,也有学者使用基于大量特征训练来进行 关系预测的主题模型(TopicModel)和模式相关性
(PatternCorrelations)方法来降低噪声数据对模型 的影响.这类方法称为基于特征的方法.
主题模型是在机器学习和自然语言处理等领域 用来在一系列文档中发现抽象主题的一种统计模 型,即从文档犱中抽取出主题狋.当将主题模型应用 到远程监督关系抽取时,则将包含实体对的句子视 为文档犱,而句子所表达的关系视为主题狋.主题模
0 4 6
1 计 算 机 学 报 2021年
《 计
算
机
学
报
》
型通过获取文本模式与关系之间的依赖来提高最终 效果.目前DSRE使用的主题模型大都以隐含狄利 克雷分布(LatentDirichletAllocation,LDA)[13]为 基础,但各自选择的特征不同,从而导致了他们获取 的模式不同.Yao等人[14]在2011年提出了LDA的 三种变形:RelLDA、RelLDA1以及TypeLDA,其中 的RelLDA模型使用了句子中的三个特征:两个实 体的名称以及他们之间的最短依存路径[9].这些主 题模型会以关系三元组(主体实体、客体实体和实体 之间的依存路径)为输入,然后对这些三元组进行聚 类处理,最后得到代表了不同关系的三元组的集合.
图6 远程监督关系抽取方法分类
模式相关性更为直接地判断模式是否表达了目 标关系,在不改变原始假设的情况下减少远程监督 生成的错误标签的数量.Takamatsu等人[23]在没有 使用AtLeastOne假设的前提下,提出了一个生成 模型,可以用来预测每种模式是否通过隐藏变量表 达某种关系,从而将频繁出现的模式上的错误标签 移除,该模型的基本思想是:如果文本犮与关系狉的 参数对匹配,或与表达关系狉的其它模式的参数对 具有高度重叠,则犮表达关系狉.黄蓓静等人[15]提出 了基于句子模式聚类和模式评分对远程监督训练数 据集进行降噪的方法,得到了噪声更少的数据集.
但以上基于特征的模型以及Vanilla模型在进 行关系抽取时依赖于预先设计好的特征,例如句法 依存树、词性标注等,这些特征通常从NLP工具中 获取,如2.2节所示,这样就造成了NLP工具提取 特征时产生的误差会传递到关系模型中,进一步降 低模型的准确性.
2.3.2 基于深度学习的远程监督关系抽取
深度学习(DeepLearning,DL)是机器学习的
分支,使用人工神经网络作为架构,对数据进行表征 学习的一类算法.常见的深度学习框架包括卷积神 经网络、循环神经网络、深度强化学习等,这些框架 使从原始输入中提取高水平特征成为可能.目前,深 度学习技术已经被成功应用在图像识别领域[1617] 以及自然语言处理领域[1819].
在远程监督领域,越来越多的学者尝试摆脱特 征工程,使用深度学习的方法进行关系抽取,在减少 人工介入的情况下,提升关系抽取的性能.这些模型 通用的工作流如图5所示,可以将其分为四个模块: 样本降噪、外部信息融合、编码器以及分类器.首先通 过远程监督得到关系抽取任务的数据集犛,可选地进 行样本级别的降噪,然后对犛中的句子{狊1,狊2,…,狊狀} 以及可选外部信息进行编码,将其从自然文本转化 成计算机可以理解的语言,最后使用分类器进行分 类,从而推断出每一对实体所拥有的关系.目前大部 分远程监督关系抽取模型都基于该工作流进行设 计,不同的模型会针对这4个模块中的一个或两个 进行改进和优化,最终提升关系抽取性能.
图5 远程监督关系抽取通用工作流
在本文中,我们将远程监督关系抽取模型根据 其优化重点分为四类:样本降噪、外部信息融合、编 码器优化以及分类器优化,并将远程监督关系抽取 的方法按照图6进行分类整理,如表2所示,随后在
1 4 6 8期 杨穗珠等:远程监督关系抽取综述 1