∑ 犕 犻
4 记忆网络应用
记忆网络模型从发展初始就有了极为广泛的应 用,其中涵盖的领域包括了自然语言处理、计算机视 觉、语音处理,还有很多在其他领域的应用,比如医 学领域、工业流程领域等等.
41 自然语言处理
问答任务.Weston等人最初提出记忆网络[2] 主要是用于问题回答任务,其中长期记忆作为知识 库,模型输出文本作为问题回答.Taylor等人在此 基础上做了更深入的研究,提出了能够实现大规模 问题回答的系统[28],在WebQuestions基准数据集 上达到最高的性能指标.
Samothrakis等人在记忆网络的基础上做出了 改进,使用递归软最大函数来增强匹配功能,提出了 匹配记忆循环网络[68],可对存储器上的问题进行编 码、解码和回答.
而Sukhbaatar等人解决了记忆网络需要支持 事实进行监督学习的问题,提出了端到端记忆网 络[4],使记忆网络的应用更加广泛.
Caballero将Skipthoughtvectors模型[69]添加 到现有的端到端记忆网络框架里[70],可以学习多参 数多跳段语义关系,以完成QA任务.
主题标签推荐.在端到端记忆网络的基础上, Huang等人引入了分层注意力机制[71],将twitter文 本信息和相应的用户兴趣信息组合在一起进行主题 标签推荐任务.
真值发现.Li等人将记忆网络应用于真值发 现[72],使用前馈存储器网络和反馈存储器网络来学 习关于同一对象的语句的可信的表示,并采用记忆 机制来学习源信息的可靠性,并通过真值预测来使 用源信息.
机器阅读.Cheng等人将LSTM用于机器阅
读[40],从左到右地处理文本序列,并通过记忆和注 意力机制进行浅层推理.并通过语言模型、情感分析 和自然语言推理这三个方面的实验表明了提出的机 器阅读器的性能与现有技术相当或者更优.
机器理解(MachineComprehension)及问答是 自然语言处理中的代表性问题,Pan等人提出了一 种多层嵌入记忆网络,用于机器阅读任务[73].该模 型使用多层嵌入来编码文档,实现全向匹配(Full orientationmatching)的记忆网络,以获得上下文和
问题之间的交互关系.
嵌入表示.Palangi等人将LSTM用于深度句 子嵌入表示学习[74],模拟上下文信息,还将句子的 关键信息嵌入到一个语义向量中,并使其随着时间 推移从新输入中获取有用的信息.此模型对噪声具 有很好的鲁棒性,而且每个单元通常分配有特定的 关键词.将其应用于Web文档检索中,效果明显优 于常用的句子嵌入表示学习方法.
分布式语义模型通常需要足够的单词示例来学 习高质量的语义向量表示,而人类则可以从一个或 几个代表性示例中猜出一个词的意思.因此,Sun等 人提出了一种基于存储器的单词嵌入式表示学习方 法[75],增量从大型语料库中学习,并快速适应新添 加的微小数据,能够从相当有限的上下文中获取高 质量的单词嵌入式表示.
机器翻译.Wang等人引入外部记忆增强的 RNN解码器[76],可以显著提高汉译英翻译任务的
性能.
人机对话.Ganhotra等人在端到端记忆网络的 基础上,提出了基于知识的端到端记忆网络[77].该 模型把现有的知识库实体作为先验知识,在对话任 务中,从知识库中提取信息,进行信息匹配,从而实 现直接的人机对话互动过程.
顺序推荐.Huang等人将RNN与键值记忆网 络集成在一起,整合知识库信息来增强键值记忆网
9 7 5 8期 刘建伟等:深度记忆网络研究进展 1
《 计
算
机
学
报
》
络的语义表示能力,完成顺序推荐任务[78].该模型 利用大规模知识库信息来改进顺序推荐过程,将顺 序偏好表示与属性偏好表示组合在一起,作为用户 偏好的最终表示.
情感分类.Tang等人提出了用于情感分类的 深度记忆网络[79],可以在对情感分类时,获取上下 文单词的重要程度,与LSTM相比这种方法更简单 快捷,并且效果更好.
Chen等人提出了一个具有存储器结构的循环 注意力神经网络[80],可以在评论中识别意见目标的 情绪.该模型使用多层注意力机制来获取大范围分 离的情感特征,从而对不相关的信息具有更好的鲁 棒性.
语义表示.Tran等人提出了乘法树结构的 LSTM[81],是现有树形结构LSTM的扩展,用于合 并树中节点之间的关系信息.该模型在子节点上定 义了不同的组合函数,可以更好地表达句子,完成语 义表示任务.
42 计算机视觉
图像标注和图像内容描述.Jia等人将LSTM 用于图像文字描述任务[82].模型将从图像中提取的 语义信息作为额外输入添加到LSTM中,用于学习 与图像内容更紧密耦合的文字描述.这样的模型可 以更好地描述图像内容,在各种基准数据集上实现 了最好的性能.
在键值记忆网络基础上,Jain等人将其扩展到 视频领域[54],把视频字幕分解成视觉和语言片段, 作为键值对处理,并通过键值记忆网络完成视频 字幕标注任务.
ChunseongPark提出了上下文序列记忆网络[83]
(ContextSequenceMemoryNetwork,CSMN),不 同用户对同一图像有着不同的个性化描述.模型以 用户的独特词汇表作为先验知识,在Instagram数 据集上可以完成个性化的图像标注和图像文字描述 任务.
Vinyals等人将记忆网络用于单样本学习[41], 采用基于深度神经特征度量学习的思想,通过使用 外部记忆增强神经网络,可以从少量样本中进行学 习,不仅可以用于图像的学习,对语言任务也有很高 的预测精度.而Santoro等人则提出了专注于存储器 内容的方法[33],同样能够很好地进行单样本学习.
Wang等人提出了一种多模态记忆模型用来描 述视频内容[84].该模型构建了视觉和文本信息共享 的存储器,用来模拟长期视觉文本的相互依赖性,并
进一步模拟视觉注意力过程.该模型与神经图灵机 类似,外部存储器通过与具有多个读取和写入操作 的视频和句子交互,存储并检索视觉和文本内容.
Donahue等人提出了长期循环卷积神经网络[85]
(LongTermRecurrentConvolutionalNetworks, LTRCN),将LSTM与卷积神经网络相结合,适用
于端到端的训练大规模视觉学习,比如视频识别、图 像文字描述等任务.该模型可以将视频帧输入映射 到自然语言文本输出,并且可以模拟复杂的时间暂 态关系,实现视频内容文字描述的功能.
视频问题回答.Miller等人在动态记忆网络的 基础上,增加了一个新的图像输入模块,使模型能够 回答视觉问题[44].Ma等人使用记忆增强的神经网 络预测视觉问题的答案[86].
Kim等人同样将记忆网络用于视频内容问题 回答任务,提出了深度嵌入记忆网络[87],通过学习 大量的卡通视频使AI智能体能够完成视频故事问 答的任务.
图像识别.Moniz等人提出卷积残差记忆网 络[88],将卷积残差网络与LSTM相结合,用于实现 图像识别的深度卷积网络.与没有存储机制的类似 深度残差网络相比,具有更少深度,计算量也更少. 场景标记(Scenelabeling)可以看作序列预测 任务,为此Abdulnabi等人提出了一种基于注意力 的情境记忆网络[89],由CNN和基于注意力机制的 存储器模块组成,能够有效利用上下文关系来提高 场景局部分类的准确性.
Kaiser等人提出了一个可用于终身学习(life long)的长期记忆模块[90],可以添加到不同的深度
学习模型,提供单样本(oneshot)学习的功能.无论 是在图像分类上,实现的简单卷积模型,还是深度序 列到序列循环卷积模型,使用这个长期记忆模块增 强的网络都能够记住单样本并进行终身学习.
图像生成和超分辨率.Parmar等人将基于注意 力机制的变送器模型推广到图像生成的序列建 模[91],证明了变送器可以对文本以外的模态进行操 作,并且在ImageNet图像生成建模、图像类调节和 图像超分辨率任务中都取得了最好的效果.
视觉显著性预测.Fernando等人提出了记忆 增强的条件生成对抗网络(MemoryAugmented ConditionalGenerativeAdversarialNetworks,MC GAN),用于特定视觉显著性预测任务[92].该模型利
用具有记忆结构的条件生成对抗性网络的语义建模 能力,获取主体行为模式和任务相关的因素,能够同
0 8 5
1 计 算 机 学 报 2021年
《 计
算
机
学
报
》
时学习不同任务之间的上下文语义和关系. 43 语音处理
语义标注.Kim等人将记忆网络应用于语音对 话领域,提出了一种对讲话者敏感的对偶存储器网 络[93](SpeakerSensitiveDualMemoryNetworks, SSDMN),用于多轮语义槽标注任务(multiturn slottagging).该模型不仅将用户过去说话的每个
单词编码并存储在存储器中,还生成一个单独的存 储器,对系统问题的目标语义槽进行编码并保存,避 免解析出嘈杂的自然语言对话.
音乐的生成.Huang等人将变送器进行了改 进,提出了相对位置的自注意力机制[94],使模型能 够捕获局部特征和位置信息,因此实现了音乐的生 成建模,这同时大大地拓展了变送器的应用领域.
文本到语音(犜犲狓狋犜狅犛狆犲犲犮犺,犜犜犛).Li等人提 出基于Tacotron2和变送器的TTS模型[95],可以 生成接近人类录制的音频样本,并且能够进行并行 训练和学习远程依赖性,从而加快训练速度,使音频 韵律更加流畅.
44 其他方面的应用
Parisotto等人将记忆网络与深度强化学习结 合[96],存储器采用二维空间结构,并能够实现稀疏 写入.写入存储器的记忆内容与智能体在环境中的 当前位置相对应.该模型能够让智能体使用强化学 习技术,完成2D迷宫任务.
Baskar等人将记忆网络与残差网络结合,提出 了双向残差记忆网络结构[97],使用具有残差和时间 延迟连接的深度前馈层来模拟短时依赖性,能够以 较低的计算复杂度获取过去和未来的信息.
Bornschein等人将记忆网络与生成式模型结 合,提出了具有外部存储器的变分自编码器[98].该 模型将具有随机寻址的存储器模块的输出看作条件
Bornschein等人将记忆网络与生成式模型结 合,提出了具有外部存储器的变分自编码器[98].该 模型将具有随机寻址的存储器模块的输出看作条件