• 沒有找到結果。

远程监督关系抽取综述

N/A
N/A
Protected

Academic year: 2022

Share "远程监督关系抽取综述"

Copied!
25
0
0

加載中.... (立即查看全文)

全文

(1)

第4卷 第8期

年8月 计  算  机  学  报

CHINESEJOURNALOFCOMPUTERS 4N  

收稿日期在线发布日期本课题得到国家自然科学基金广东省重点研发项目 广州市科技计划资助.杨穗珠,向为知识图谱远程监督 刘艳霞(通信作者博士副教授主要研究方向为知识图谱神经网络.张凯文,硕士研 究生主要研究方向为知识图谱. 吟,硕士研究生主要研究方向为联合实体关系抽取. 翰,博士教授中国计算机学会 级会员主要研究领域为智能算法演化计算.

远程监督关系抽取综述

杨穗珠   刘艳霞

  张凯文        

华南理工大学软件工程 广州 

  远程监督可以为关系抽取任务自动构建数据集缓解了人工构建数据集的压力和成本为自动关系抽取 的实现奠定基础然而使用远程监督方法构建的数据集存在错误标注以及长尾问题严重影响关系抽取性能. 远程监督关系抽取任务的主要研究方向为关系模型的降噪手段以及对长尾关系的处理方法.近年来随着深度 学习技术的发展这两个领域的研究工作也迎来了新一轮的机遇与挑战.本文对近几年远程监督关系抽取的研究 展进行综述针对基于深度学习的远程监督关系抽取任务定义常用工作流其中包括样本降噪外部信息融合 编码器和分类器.本文根据不同的模块将已有的研究成果进行分类和梳理分析比较主要方法整理其中的关键问 关键词 关系抽取信息抽取远程监督降噪长尾现象错误标注

中图法分类号   

犛 狌 狉 狏 犲 狔 狅 狀 犇 犻 狊 狋 犪 狀 狋 犾 狔  犛 狌 狆 犲 狉 狏 犻 狊 犲 犱 犚 犲 犾 犪 狋 犻 狅 狀 犈 狓 狋 狉 犪 犮 狋 犻 狅 狀

YANGSuiZhu LIUYanXia ZHANGKaiWen HONGYin HUANGHan

 

犃犫狊狋狉犪犮狋 Relationextractionisafundamentaltaskinnaturallanguageprocessingandoneofthe essentialpartsofinformationextractionwhosedatasetrequireshighcostduetomanuallabelling. Fortunatelydistantsupervisionwasproposedtoalleviatethepressureandcostofmanually annotatedcorpuswhichcanautomaticallybuilddatasetsforrelationextractiontask.Owingto itsvalueinautomaticrelationextractionithasbeenwidelyconcernedbyacademiaandbusiness inrecentyears.Howeverthedatasetsconstructedbydistantsupervisionarenotexactly equivalenttothosegeneratedmanually.Onthecontrarytheysufferfromtheproblemofwrong labellingandlongtaildistributionresultingintheirlowqualityandthushinderingtheimprovement ofrelationextractionbasedonthesedatasets.Thereforeinordertoreducetheimpactmostof theexistingworkaboutdistantlysupervisedrelationextractionDSREfocusedonhowtodeal withthenoisegeneratedbywronglabellingproblemandthelongtaildistribution.Inrecent yearsdeeplearningtechnologieshavedevelopedrapidlysuchasdeepneuralnetworkattention mechanismdeepreinforcementlearningandsoon.Comparedwithtraditionalmachinelearning methodse.g.featurebasedmethodstheapplicationofdeeplearningmethodshasobvious advantagesinrelationextractionaswellasDSREtask.ThatiswhyDSREisfacedwithanew roundofopportunitiesandchallenges.Whatsmoreasresearchescontinueacommonworkflow ofthistaskwasgeneratedstepbystep.Thispapersummarizestheexistingworkinthefieldof

DSREandpaysmoreattentiontothemethodsbasedondeeplearning.Thispaperstartswithan

《 计

(2)

introductionofdistantsupervisionaswellasitsvanillaassumptionanalyzesthemajorshortcoming andreviewsthemethodsbasedontraditionalmachinelearningsuchastopicmodelsandpattern correlationandsoon.Thenthispaperintroducesthegeneralworkflowwithfourmodulesincluding samplecollectionexternalinformationencoderandclassifier.Accordingtotheirtargetproblem theexistingworkisdividedintotwocategoriesnoisereductionmethodsofDSREandthe solutionsofthelongtaildistribution.Foreachcategoryinthelightofdifferentmodulesofthe commonworkflowtheexistingworkissummarizedfromfouraspectsnamelysamplenoise reductionexternalinformationfusionencoderoptimizationandclassifieroptimization.

Meanwhilethispaperanalyzesdifferentimprovementmethodsofthesamemoduleand comparestheirweaknessandstrength.Itshouldbenotedthatthesefouraspectsarenotmutually exclusivemeaningthattherecanbetwoormoremodulesimprovedinonemethodatthesame time.What'smoreweintroducethedatasetsincommonuseforthistaskindetailaswellas theirrelatedcorpusandknowledgegraphs.Moreoverthispaperintroducesthemetricsand evaluationmethodsusedintheDSREevaluation.Lastbutnotleastthispaperendsupwith forecastingthefuturedevelopmenttrend.Inordertobringthistaskintoanewfrontierwehope thatDSREcanbeintegratedwithsomepopularandreasonabletechnologiessuchasjointextraction fewshotlearninghybridsupervisionandsoon.

犓犲狔狑狅狉犱狊 relationextractioninformationextractiondistantsupervisionnoisereduction longtailwronglabelling

1    

关系抽取RelationExtractionRE的目的是 对句子中实体与实体之间的关系进行识别抽取句 子中的三元组信息实体1实体2和关系三元 组得到的三元组信息可以提供给知识图谱的构 建问答机器阅读等下游自然语言处理Natural LanguageProcessingNLP任务是NLP领域的一

个基础任务.基于监督学习的关系抽取方法虽然准 确率较高模型结果更为可靠但需要人工标注数据 集构造这样的数据集需耗费大量的人力金钱和时 间.近年来为了实现自动化关系抽取学者们提出 了远程监督DistantSupervision的方法.Craven 等人在1999年尝试从现有的信息源知识图谱数 据库或者简单的表格信息等中提取三元组信息再 对语料集进行标注生成提供关系抽取的弱标记的 训练数据.在2007年Wu等人也认为监督学习 的方法需要过多的人力干预提出从维基百科页面 的信息框中抽取出结构化信息的方法这个方法使 得从已有非结构化数据中获取结构化信息成为可 能.在2009年Mintz等人总结前人的工作参考 Wu等人的方法提出了使用远程监督的方法进行

关系抽取任务的数据集构造这个方法将Freebase 作为辅助的结构化信息对维基百科的文章进行标 注生成关系抽取的数据集大大缓解了人工构造关 系抽取训练集的压力.

远程监督结合了半监督学习和无监督学习的优 点利用已有的结构化数据来对数据进行自动化标 注生成训练数据这个思想不仅应用到关系抽取任 务中还用到了NLP的多个领域Go等人将其用 于情感分析任务Plank等人将其应用于词性标 记任务中而Qin等人将其应用于对话系统的样 例生成中Lee等人将其应用到命名实体识别任 务中远程监督方法减轻了人工构造数据集的压力 降低了学术研究的成本.然而Mintz等人提出的 远程监督方法并不是完美的在关系抽取任务上由 于提出时伴随了强约束性的假设生成的数据集存 在严重的错误标注以及数据长尾问题.

近年来研究学者针对错误标注及数据长尾问 题在远程监督噪声数据过滤以及解决长尾关系等 领域都提出了切实可行的方案.深度学习技术的应 用使得远程监督关系抽取任务的性能获得了突破性 进展新的研究成果和思路不断出现已有的综述未 能全面而深入地进行总结.Roth等人针对远程监 督中的降噪方法进行综述将已有的降噪方法分为

8期 杨穗珠等远程监督关系抽取综述

《 计

(3)

Atleastone假设主题模型以及模式相关性三类 并对每个类的方法都进行了详细的说明但是对目 前常用的神经网络模型没有进行深入的描述和分 析.Smirnova等人针对远程监督在关系抽取的应 用进行了综述把已有的研究成果分为降噪方法基 于嵌入的方法以及利用辅助信息的方法其中降噪 方法参考了Roth等人对降噪方法的分类他们 详述了在各个分类下远程监督在关系抽取任务的 应用情况然而其并没有对基于深度学习方法的远 程监督关系抽取方法进行详细的说明尚未覆盖目 前最新的研究进展.

本文则以基于深度学习方法的远程监督关系抽 取任务为重点研究对象针对目前常用的提升远程 监督关系抽取任务性能的解决方案进行分类说明和 总结并详尽梳理其中的关键性问题和解决方法整 理评价指标廓清本领域的发展情况与趋势展望发 展方向为未来的研究工作奠定基础.

11 方法描述

远程监督的主要目的是减少构造数据集的成 本因此使用已有的知识图谱对语料集进行自动标 注最终生成训练数据其产生训练数据的工作流如 图1所示.已有的知识图谱FreebaseDBPedia等 或其它的结构化文本中提供表达关系犚的实体对 如表1中的关系Presidentof以及实体对Obama UnitedState而语料集提供包含该实体对的句子 如表1中的S1和S2.研究人员可以通过实体对等 自然语言处理方法融合这两部分信息从而得到带 标注信息的数据最后将这些数据作为关系抽取任 务的训练样本进行关系抽取.本文将通过这个过程 完成的关系抽取任务称为远程监督关系抽取任务

DistantSupervisedRelationExtractionDSRE

图1 远程监督生成训练数据过程  远程监督训练样本示例 _

1 B 2 O

12 本文框架

本文主要针对DSRE任务中的降噪方法以及

长尾问题的解决方法进行阐述.第2节概述DSRE 方法的发展以及相关深度学习技术并梳理DSRE 任务的关键问题第3节分类介绍DSRE任务中的 降噪方法将模型根据优化的模块不同进行分类 描述第4节介绍近年来处理DSRE中数据的长尾 问题的方法第5节介绍DSRE任务中常用的数据 集以及常用的评测指标与评估方法第6节展望 DSRE任务的未来研究趋势第7节进行总结.

2   远程监督关系抽取

21 基本模型

Mintz等人提出远程监督这个概念的同时 也提出了远程监督基本假设即如果两个实体犺狋 在已知的知识图谱中存在关系犚则所有包含 的句子狊都将表达关系犚最终基于生成的训练集完 成关系抽取任务我们将这个原始工作模型称为Va nilla模型相应的假设称为Vanilla假设.

Vanilla模型生成训练数据的过程如图2所示.

首先对语料集进行预处理预处理步骤包括命名实 体识别NamedEntityRecognitionNER词性

PartOfSpeechPOS标注依存分析等处理.这些 是自然语言处理领域比较常用的分析方法可以依 赖外部工具得到其中比较常用的工具有斯坦福大 学的CoreNLP工具

该工具可以对句子进行词性 标注以及词法特征句法特征的挖掘等.完成语料 集的预处理之后需要对NER步骤中获得的实体 进行实体匹配EntityMatching即将语料集中的 实体对应到知识图谱的实体中以便于后续关系标 签的标注.这一阶段需要已有的知识图谱提供实体 信息一般可以通过对应的API获得实体信息或者 下载知识图谱资源文件并在上面进行查询.如图2 所示实体匹配将实体MarthaWashington对应到 知识图谱中编号为Q191789的实体而George Washington则对应到编号Q23的实体.当句子中 的两个实体都在知识图谱中找到对应的实体编号以 后则开始对句子进行特征提取.Mintz等人提取 了文本特征中的词法特征LexicalFeature句法 特征Syntacticfeature实体类型标签等特征其 中词法特征包括

两个实体之间的词汇序列

每一个词例token的词性POS标签

实体的开始位置索引

计  算  机  学  报

《 计

(4)

图2 模型生成训练数据的过程

第一个实体左边的犽个词以及他们的POS 标签

第二个实体右边的犽个词以及他们的POS 标签.

而句法特征则包括两个实体之间的句法依存 树以及与其中一个实体相连但又不在依存路径内 的一个节点.Vanilla模型最后将这些特征进行融 合将融合后的特征作为后续关系抽取任务的输入 进行训练.

生成训练数据的最后一个阶段就是对句子进行 自动标记Labelling即从知识图谱中获取相应实 体对的关系.获取的方式同样可以通过API或者下 载的资源文件进行查询最终得到由远程监督生成 的关系抽取训练数据集.在这个数据集上Vanilla 模型使用了一个逻辑回归多分类器进行关系抽取.

远程监督方法的应用使关系抽取任务摆脱了 对人工标注数据集的依赖基于已有的结构化数据 进行数据的自动标注大大降低了构建数据集的成 本然而这个构造出来的数据集并不是完美的依然 存在着很多可以改善的地方这些问题都会对后续 关系抽取任务的性能造成影响具体会在下一节进 行讨论.

22 关键问题 2.2.1 错误标注问题

在Vanilla模型的假设中所有包含两个实体

的句子都标为知识图谱中的关系犚这样的确 能对部分句子进行正确标注这种被正确标注的句 子被称为有效示例但在实际情况中一对实体出现

在同一个句子中不一定表达了某一种关系而只是 与同一个主题相关因此这一类句子被称为假正例

FalsePositiveInstanceFPI.在这种情况下就会 存在错误标注WrongLabelingWL问题.

不仅如此Vanilla假设中默认同一个实体对只 存在一种关系即不会同时存在两个三元组同时有效的情况但在实际情况中 同一个实体对在不同句子中可能拥有不同的关 系例如ObamaUnitedState这个实体对既可能 是president_of的关系表1中的S1也有可能是 live_in的关系表1中的S2直接将全部包含该实 体对的句子都标注为其中一种关系则关系分类器 在进行live_in关系的参数学习时也会学习了 president_of关系的示例信息从而影响关系分类器

的性能.这种情况也归为WL问题.

如果错误标注的样本数量占比不大模型可以在 适当的噪声中获得更高的鲁棒性但在基于远程监督 所构建的数据集中WL问题却不容忽视主要体现 在假正例的数量占比较大导致噪声数据对关系抽 取的性能造成了负面的影响.Dumitrache等人以 由远程监督得到的TACKBP2013英文填槽Slot Filling评测任务数据集

为例抽取验证集中的 16个关系中的所有句子让15个人进行标注统计每 个关系包含的示例中的假正例占比统计结果如图3 所示可见在16个关系中有10个关系的假正例的 占比大于50%尤其是origin和place_of_death

8期 杨穗珠等远程监督关系抽取综述

《 计

(5)

两个关系的假正例占比大于0.9.用这些具有高比 重噪声的数据进行模型训练时模型拟合的更有可 能是噪音数据得到的关系抽取模型并不能保障基 于真实数据的关系抽取性能.

图3 个关系中假正例占比

严重的WL问题意味着数据集的不可靠模型 可能从错误的样本中学习了过多的错误特征从而 降低模型的性能.因此将通过Vanilla假设获取到 的数据直接用于关系抽取任务时得到的模型的正 确性是值得商榷的.

2.2.2 数据长尾现象

目前的远程监督主要是使用开放域的知识图谱 以及语料集例如常用的维基页面纽约时报等开放 域语料集以及FreebaseWikiData等开源知识图 谱.这样的数据收集渠道比较多成本也较低而另 外一些垂直领域知识图谱或者语料集的使用权往往 掌握在企业手中获取成本比较高.这样的数据来源 对数据的质量有一定的限制例如其中通用关系所 占样本数比非通用关系所拥有的句子数多得多类 似于place_of_birthnationality等关系的句子数量 会更多相比之下往往那些有一定专业领域性的示 例数量占比很低例如component_ofowner_of_ shopping_center等造成远程监督生成的训练样本

分布极度不均匀的现象.

以Riedel2010数据集为例这个数据集包含 了53种关系包括NA关系对其中除了NA关系 外拥有示例数量最多的前20个关系进行示例数量 上的可视化情况如图4所示.由图4可以看出地 点与地点之间的contains关系拥有的示例数比其它 关系拥有的示例数多了几倍是第二的nationality 关系的七倍.在这20种关系中存在着严重的长尾

LongTailLT现象其中只有10种关系拥有的 句子数超过了1500条剩余关系拥有的示例数量都 少于1500条而没有在图中表示出来的关系示例数

量甚至少于206条.我们将这种拥有示例数量较少 的关系称为长尾关系.

图4 数据集部分数据分布情况

长尾关系拥有的示例数量过少不利于生成有 效的关系提取器.同时由于在远程监督数据集中还 存在WL问题如2.2节所述这就造成随着拥有 的示例数量变少长尾关系中包含的示例中错误标 注的比例会更高甚至会存在拥有的唯一一个示例 都是错误标记的极端情况那模型就更容易受到错 误信息的影响从而影响关系提取器在相应长尾关 系的抽取性能也降低了DSRE任务的整体性能.

23 研究进展

2.3.1 基于特征的模型

针对以上问题研究学者为提高关系抽取性能 对模型设计及数据集构造等过程进行了改进和优 化提出了相应的解决方案.

首先为了降低远程监督过程生成的噪声数据的 影响有不少研究学者以Vanilla假设为切入点进 行假设层面的改进例如AtLeastOne假设以 及多示例学习的使用.同时针对真实语料集中存 在的重叠关系的情况学者们提出了多标签多示例 学习MultipleInstanceMultipleLearningMIML与 Vanilla假设默认的每一对实体只有一个示例和一 个标签不同MIML允许一对实体拥有多个示例和 多个标签.这种将远程监督和MIML结合起来的解 决方案在一定程度上缓解了WL问题.

另外也有学者使用基于大量特征训练来进行 关系预测的主题模型TopicModel和模式相关性

PatternCorrelations方法来降低噪声数据对模型 的影响.这类方法称为基于特征的方法.

主题模型是在机器学习和自然语言处理等领域 用来在一系列文档中发现抽象主题的一种统计模 型即从文档犱中抽取出主题狋.当将主题模型应用 到远程监督关系抽取时则将包含实体对的句子视 为文档犱而句子所表达的关系视为主题狋.主题模

计  算  机  学  报

《 计

(6)

型通过获取文本模式与关系之间的依赖来提高最终 效果.目前DSRE使用的主题模型大都以隐含狄利 克雷分布LatentDirichletAllocationLDA为 基础但各自选择的特征不同从而导致了他们获取 的模式不同.Yao等人在2011年提出了LDA的 三种变形RelLDARelLDA1以及TypeLDA其中 的RelLDA模型使用了句子中的三个特征两个实 体的名称以及他们之间的最短依存路径.这些主 题模型会以关系三元组主体实体客体实体和实体 之间的依存路径为输入然后对这些三元组进行聚 类处理最后得到代表了不同关系的三元组的集合.

图6 远程监督关系抽取方法分类

模式相关性更为直接地判断模式是否表达了目 标关系在不改变原始假设的情况下减少远程监督 生成的错误标签的数量.Takamatsu等人在没有 使用AtLeastOne假设的前提下提出了一个生成 模型可以用来预测每种模式是否通过隐藏变量表 达某种关系从而将频繁出现的模式上的错误标签 移除该模型的基本思想是如果文本犮与关系狉的 参数对匹配或与表达关系狉的其它模式的参数对 具有高度重叠则犮表达关系狉.黄蓓静等人提出 了基于句子模式聚类和模式评分对远程监督训练数 据集进行降噪的方法得到了噪声更少的数据集.

但以上基于特征的模型以及Vanilla模型在进 行关系抽取时依赖于预先设计好的特征例如句法 依存树词性标注等这些特征通常从NLP工具中 获取如2.2节所示这样就造成了NLP工具提取 特征时产生的误差会传递到关系模型中进一步降 低模型的准确性.

2.3.2 基于深度学习的远程监督关系抽取

深度学习DeepLearningDL是机器学习的

分支使用人工神经网络作为架构对数据进行表征 学习的一类算法.常见的深度学习框架包括卷积神 经网络循环神经网络深度强化学习等这些框架 使从原始输入中提取高水平特征成为可能.目前深 度学习技术已经被成功应用在图像识别领域 以及自然语言处理领域

在远程监督领域越来越多的学者尝试摆脱特 征工程使用深度学习的方法进行关系抽取在减少 人工介入的情况下提升关系抽取的性能.这些模型 通用的工作流如图5所示可以将其分为四个模块 样本降噪外部信息融合编码器以及分类器.首先通 过远程监督得到关系抽取任务的数据集犛可选地进 行样本级别的降噪然后对犛中的句子…, 以及可选外部信息进行编码将其从自然文本转化 成计算机可以理解的语言最后使用分类器进行分 类从而推断出每一对实体所拥有的关系.目前大部 分远程监督关系抽取模型都基于该工作流进行设 计不同的模型会针对这4个模块中的一个或两个 进行改进和优化最终提升关系抽取性能.

图5 远程监督关系抽取通用工作流

在本文中我们将远程监督关系抽取模型根据 其优化重点分为四类样本降噪外部信息融合编 码器优化以及分类器优化并将远程监督关系抽取 的方法按照图6进行分类整理如表2所示随后在

8期 杨穗珠等远程监督关系抽取综述

《 计

數據

表 2   远程监督关系抽取模型概览 分类 模型 作者 解决问题 知识图谱 语料集 样本降噪 A t  L e a s t  O n e R i e d e l e t a l . 2 0 1 0[ 1 1 ] W L F r e e b a s e① N Y T 2 0 1 0GenerativemodelTakamatsuetal.2012[23]WLFreebaseWikipedia②ADVWuetal.2017[24]WLFreebaseNYT2010 + D S G A N Q i n e t

參考文獻

相關文件

MASS::lda(Y~.,data) Linear discriminant analysis MASS::qda(Y~.,data) Quadratic Discriminant Analysis class::knn(X,X,Y,k,prob) k-Nearest Neighbour(X 為變數資料;Y 為分類)

The Seed project, REEL to REAL (R2R): Learning English and Developing 21st Century Skills through Film-making in Key Stage 2, aims to explore ways to use film-making as a means

營建工程系 不限系科 工業工程與管理系 不限系科 應用化學系 不限系科 環境工程與管理系 不限系科 工業設計系 不限系科. 景觀及都市設計系

We point out that extending the concepts of r-convex and quasi-convex functions to the setting associated with second-order cone, which be- longs to symmetric cones, is not easy

Hence, we have shown the S-duality at the Poisson level for a D3-brane in R-R and NS-NS backgrounds.... Hence, we have shown the S-duality at the Poisson level for a D3-brane in R-R

李佳芸 保險金融管理系 商業與管理群 已報到 陳昶霈 保險金融管理系 商業與管理群 已報到 陳錫建 保險金融管理系 商業與管理群 已報到 潘學恩 保險金融管理系

備註 表列課程 以系上開 設之課程 為主. 以系上開

林旻柔 保險金融管理系 商業與管理群 已完成網路報到,且收到考生畢業證書 王美晴 保險金融管理系 商業與管理群 已完成網路報到,且收到考生畢業證書