记忆网络应用

∑ 犕犻

４　记忆网络应用

记忆网络模型从发展初始就有了极为广泛的应用，其中涵盖的领域包括了自然语言处理、计算机视觉^、语音处理^，还有很多在其他领域的应用^，比如医学领域、工业流程领域等等．

４１　^{自然语言处理}

问答任务．Ｗｅｓｔｏｎ等人最初提出记忆网络^［^２^］主要是用于问题回答任务^，其中长期记忆作为知识库，模型输出文本作为问题回答．Ｔａｙｌｏｒ等人在此基础上做了更深入的研究^，提出了能够实现大规模问题回答的系统^［^２^８^］^，在ＷｅｂＱｕｅｓｔｉｏｎｓ基准数据集上达到最高的性能指标．

Ｓａｍｏｔｈｒａｋｉｓ等人在记忆网络的基础上做出了改进^，使用递归软最大函数来增强匹配功能^，提出了匹配记忆循环网络^［^６^８^］^，可对存储器上的问题进行编码^、解码和回答．

而Ｓｕｋｈｂａａｔａｒ等人解决了记忆网络需要支持事实进行监督学习的问题^，提出了端到端记忆网络^［^４^］^，使记忆网络的应用更加广泛．

Ｃａｂａｌｌｅｒｏ将Ｓｋｉｐｔｈｏｕｇｈｔｖｅｃｔｏｒｓ模型^［^６^９^］添加到现有的端到端记忆网络框架里^［^７^０^］^，可以学习多参数多跳段语义关系，以完成ＱＡ任务．

主题标签推荐．在端到端记忆网络的基础上^，Ｈｕａｎｇ等人引入了分层注意力机制^［^７^１^］^，将ｔｗｉｔｔｅｒ文本信息和相应的用户兴趣信息组合在一起进行主题标签推荐任务．

真值发现．Ｌｉ等人将记忆网络应用于真值发现^［^７^２^］^，使用前馈存储器网络和反馈存储器网络来学习关于同一对象的语句的可信的表示，并采用记忆机制来学习源信息的可靠性，并通过真值预测来使用源信息．

机器阅读．Ｃｈｅｎｇ等人将ＬＳＴＭ用于机器阅

读^［^４^０^］^，从左到右地处理文本序列^，并通过记忆和注意力机制进行浅层推理．并通过语言模型、情感分析和自然语言推理这三个方面的实验表明了提出的机器阅读器的性能与现有技术相当或者更优．

机器理解（ＭａｃｈｉｎｅＣｏｍｐｒｅｈｅｎｓｉｏｎ^）及问答是自然语言处理中的代表性问题，Ｐａｎ等人提出了一种多层嵌入记忆网络^，用于机器阅读任务^［^７^３^］．该模型使用多层嵌入来编码文档^，实现全向匹配^（Ｆｕｌｌ ｏｒｉｅｎｔａｔｉｏｎｍａｔｃｈｉｎｇ^）的记忆网络，以获得上下文和

问题之间的交互关系．

嵌入表示．Ｐａｌａｎｇｉ等人将ＬＳＴＭ用于深度句子嵌入表示学习^［^７^４^］^，模拟上下文信息^，还将句子的关键信息嵌入到一个语义向量中，并使其随着时间推移从新输入中获取有用的信息．此模型对噪声具有很好的鲁棒性^，而且每个单元通常分配有特定的关键词．将其应用于Ｗｅｂ文档检索中^，效果明显优于常用的句子嵌入表示学习方法．

分布式语义模型通常需要足够的单词示例来学习高质量的语义向量表示^，而人类则可以从一个或几个代表性示例中猜出一个词的意思．因此，Ｓｕｎ等人提出了一种基于存储器的单词嵌入式表示学习方法^［^７^５^］^，增量从大型语料库中学习^，并快速适应新添加的微小数据，能够从相当有限的上下文中获取高质量的单词嵌入式表示．

机器翻译．Ｗａｎｇ等人引入外部记忆增强的ＲＮＮ解码器^［^７^６^］^，可以显著提高汉译英翻译任务的

性能．

人机对话．Ｇａｎｈｏｔｒａ等人在端到端记忆网络的基础上^，提出了基于知识的端到端记忆网络^［^７^７^］．该模型把现有的知识库实体作为先验知识^，在对话任务中，从知识库中提取信息，进行信息匹配，从而实现直接的人机对话互动过程．

顺序推荐．Ｈｕａｎｇ等人将ＲＮＮ与键值记忆网络集成在一起，整合知识库信息来增强键值记忆网

９７５８期刘建伟等：深度记忆网络研究进展１

《计

算

机

学

报

》

络的语义表示能力^，完成顺序推荐任务^［^７^８^］．该模型利用大规模知识库信息来改进顺序推荐过程，将顺序偏好表示与属性偏好表示组合在一起^，作为用户偏好的最终表示．

情感分类．Ｔａｎｇ等人提出了用于情感分类的深度记忆网络^［^７^９^］^，可以在对情感分类时^，获取上下文单词的重要程度，与ＬＳＴＭ相比这种方法更简单快捷^，并且效果更好．

Ｃｈｅｎ等人提出了一个具有存储器结构的循环注意力神经网络^［^８^０^］^，可以在评论中识别意见目标的情绪．该模型使用多层注意力机制来获取大范围分离的情感特征^，从而对不相关的信息具有更好的鲁棒性．

语义表示．Ｔｒａｎ等人提出了乘法树结构的ＬＳＴＭ^［^８^１^］^，是现有树形结构ＬＳＴＭ的扩展^，用于合并树中节点之间的关系信息．该模型在子节点上定义了不同的组合函数^，可以更好地表达句子^，完成语义表示任务．

４２　^{计算机视觉}

图像标注和图像内容描述．Ｊｉａ等人将ＬＳＴＭ用于图像文字描述任务^［^８^２^］．模型将从图像中提取的语义信息作为额外输入添加到ＬＳＴＭ中^，用于学习与图像内容更紧密耦合的文字描述．这样的模型可以更好地描述图像内容^，在各种基准数据集上实现了最好的性能．

在键值记忆网络基础上，Ｊａｉｎ等人将其扩展到视频领域^［^５^４^］^，把视频字幕分解成视觉和语言片段^，作为键值对处理，并通过键值记忆网络完成视频字幕标注任务．

ＣｈｕｎｓｅｏｎｇＰａｒｋ提出了上下文序列记忆网络^［^８^３^］

（ＣｏｎｔｅｘｔＳｅｑｕｅｎｃｅＭｅｍｏｒｙＮｅｔｗｏｒｋ^，ＣＳＭＮ^）^，不同用户对同一图像有着不同的个性化描述．模型以用户的独特词汇表作为先验知识，在Ｉｎｓｔａｇｒａｍ数据集上可以完成个性化的图像标注和图像文字描述任务．

Ｖｉｎｙａｌｓ等人将记忆网络用于单样本学习^［^４^１^］^，采用基于深度神经特征度量学习的思想，通过使用外部记忆增强神经网络，可以从少量样本中进行学习^，不仅可以用于图像的学习^，对语言任务也有很高的预测精度．而Ｓａｎｔｏｒｏ等人则提出了专注于存储器内容的方法^［^３^３^］^，同样能够很好地进行单样本学习．

Ｗａｎｇ等人提出了一种多模态记忆模型用来描述视频内容^［^８^４^］．该模型构建了视觉和文本信息共享的存储器^，用来模拟长期视觉文本的相互依赖性^，并

进一步模拟视觉注意力过程．该模型与神经图灵机类似，外部存储器通过与具有多个读取和写入操作的视频和句子交互^，存储并检索视觉和文本内容．

Ｄｏｎａｈｕｅ等人提出了长期循环卷积神经网络^［^８^５^］

（ＬｏｎｇＴｅｒｍＲｅｃｕｒｒｅｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ^，ＬＴＲＣＮ^）^，将ＬＳＴＭ与卷积神经网络相结合^，适用

于端到端的训练大规模视觉学习，比如视频识别、图像文字描述等任务．该模型可以将视频帧输入映射到自然语言文本输出，并且可以模拟复杂的时间暂态关系^，实现视频内容文字描述的功能．

视频问题回答．Ｍｉｌｌｅｒ等人在动态记忆网络的基础上^，增加了一个新的图像输入模块^，使模型能够回答视觉问题^［^４^４^］．Ｍａ等人使用记忆增强的神经网络预测视觉问题的答案^［^８^６^］．

Ｋｉｍ等人同样将记忆网络用于视频内容问题回答任务，提出了深度嵌入记忆网络^［^８^７^］，通过学习大量的卡通视频使ＡＩ智能体能够完成视频故事问答的任务．

图像识别．Ｍｏｎｉｚ等人提出卷积残差记忆网络^［^８^８^］^，将卷积残差网络与ＬＳＴＭ相结合^，用于实现图像识别的深度卷积网络．与没有存储机制的类似深度残差网络相比^，具有更少深度^，计算量也更少．场景标记（Ｓｃｅｎｅｌａｂｅｌｉｎｇ^）可以看作序列预测任务^，为此Ａｂｄｕｌｎａｂｉ等人提出了一种基于注意力的情境记忆网络^［^８^９^］^，由ＣＮＮ和基于注意力机制的存储器模块组成，能够有效利用上下文关系来提高场景局部分类的准确性．

Ｋａｉｓｅｒ等人提出了一个可用于终身学习（ｌｉｆｅ ｌｏｎｇ^）的长期记忆模块^［^９^０^］^，可以添加到不同的深度

学习模型，提供单样本（ｏｎｅｓｈｏｔ^）学习的功能．无论是在图像分类上^，实现的简单卷积模型^，还是深度序列到序列循环卷积模型^，使用这个长期记忆模块增强的网络都能够记住单样本并进行终身学习．

图像生成和超分辨率．Ｐａｒｍａｒ等人将基于注意力机制的变送器模型推广到图像生成的序列建模^［^９^１^］^，证明了变送器可以对文本以外的模态进行操作，并且在ＩｍａｇｅＮｅｔ图像生成建模、图像类调节和图像超分辨率任务中都取得了最好的效果．

视觉显著性预测．Ｆｅｒｎａｎｄｏ等人提出了记忆增强的条件生成对抗网络（ＭｅｍｏｒｙＡｕｇｍｅｎｔｅｄＣｏｎｄｉｔｉｏｎａｌＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ^，ＭＣ ＧＡＮ^）^，用于特定视觉显著性预测任务^［^９^２^］．该模型利

用具有记忆结构的条件生成对抗性网络的语义建模能力^，获取主体行为模式和任务相关的因素^，能够同

０８５

１计　　算　　机　　学　　报２０２１年

《计

算

机

学

报

》

时学习不同任务之间的上下文语义和关系．４３　^语音处理

语义标注．Ｋｉｍ等人将记忆网络应用于语音对话领域，提出了一种对讲话者敏感的对偶存储器网络^［^９^３^］^（ＳｐｅａｋｅｒＳｅｎｓｉｔｉｖｅＤｕａｌＭｅｍｏｒｙＮｅｔｗｏｒｋｓ^，ＳＳＤＭＮ^）^，用于多轮语义槽标注任务^（ｍｕｌｔｉｔｕｒｎｓｌｏｔｔａｇｇｉｎｇ^）．该模型不仅将用户过去说话的每个

单词编码并存储在存储器中^，还生成一个单独的存储器，对系统问题的目标语义槽进行编码并保存，避免解析出嘈杂的自然语言对话．

音乐的生成．Ｈｕａｎｇ等人将变送器进行了改进^，提出了相对位置的自注意力机制^［^９^４^］^，使模型能够捕获局部特征和位置信息^，因此实现了音乐的生成建模，这同时大大地拓展了变送器的应用领域．

文本到语音（犜犲狓狋犜狅犛狆犲犲犮犺^，犜犜犛^）．Ｌｉ等人提出基于Ｔａｃｏｔｒｏｎ２和变送器的ＴＴＳ模型^［^９^５^］^，可以生成接近人类录制的音频样本^，并且能够进行并行训练和学习远程依赖性，从而加快训练速度，使音频韵律更加流畅．

４４　^{其他方面的应用}

Ｐａｒｉｓｏｔｔｏ等人将记忆网络与深度强化学习结合^［^９^６^］^，存储器采用二维空间结构^，并能够实现稀疏写入．写入存储器的记忆内容与智能体在环境中的当前位置相对应．该模型能够让智能体使用强化学习技术^，完成２Ｄ迷宫任务．

Ｂａｓｋａｒ等人将记忆网络与残差网络结合，提出了双向残差记忆网络结构^［^９^７^］^，使用具有残差和时间延迟连接的深度前馈层来模拟短时依赖性，能够以较低的计算复杂度获取过去和未来的信息．

Ｂｏｒｎｓｃｈｅｉｎ等人将记忆网络与生成式模型结合^，提出了具有外部存储器的变分自编码器^［^９^８^］．该模型将具有随机寻址的存储器模块的输出看作条件

在文檔中深度记忆网络研究进展 (頁 31-34)

∑ 犕 犻

４ 记忆网络应用

《 计

算

机

学

报

》

《 计

算

机

学

报

》

∑ 犕犻

４　记忆网络应用

《计

《计