• 沒有找到結果。

基于神经网络结构的主题模型

在文檔中 概率主题模型综述 (頁 27-30)

基于神经网络的主题模型主要通过神经网络来 生成包含潜在主题的文本.该类模型通常将文档中 的词以词袋形式作为输入然后增加相应的其它 网络层来生成文档最后利用反向求导方法对网络 参数进行学习.

早期的研究主要集中于基于前馈的多层感知神 经网络之后随着神经网络模型的快速发展King ma等人提出基于变分自编码器的主题模型. Card等人考虑到在实际情况中主题模型中分布往

往具有稀疏性因此提出基于稀疏约束的神经主题 模型为了能够更好地捕获文档的上下文结构信 息Dieng等人提出将文本单词序列作为输入的基 于RNN结构的主题模型等.

41 神经主题模型(犖犲狌狉犪犾犜狅狆犻犮犕狅犱犲犾犖犜犕 早期Keller等人采用多层感知器来捕获单 词和文档的分布式表示但在该模型中并不是所有

层都是可解释的.随后Cao等人提出基于前馈 神经网络的主题模型

NeuralTopicModel NTM开始从神经网络的角度来构建主题模型.由

于该模型遵循主题模型的概率特征因此单词和文 档的分布表示具有合理的概率性解释.

在经典的LDA以及其扩展模型中文档主题 分布概率矩阵表示为θ主题单词分布概率矩阵表 示为φ.在文档犱中单词狑的分布概率表示为狆狑 犱=φ×θ.NTM则从前馈神经网络的角度对 上述两个概率分布进行描述其中φ表示为带有 sigmoid激活函数的单词查找层犾狋θ表示带有 softmax激活函数的文档查找层犾犱神经网络的输 出层即文档单词的概率分布是φ和θ做点积. 其相应的模型结构如图31所示.

图3 M结构图

NTM模型通过使用sigmoid以及softmax激 活函数生成网络的隐藏层如下式所示.最后使用 神经网络中常用的后向传播算法来对模型参数进行 更新进而学习出模型的两个分布以及相应的权重 矩阵犠.相较于LDA等概率主题模型神经主 题模型不需要事先对先验分布进行假设且结构简 单但依旧可以获得较好的主题表示.

犾狋=sigmoid犾犲×犠) (33 犾犱=sofmax 34 42 基于变分自编码器主题模型

Miao等人考虑使用VAE结构来进行主题 建模进而在此基础上提出基于VAE结构的 NVDM模型NeuralVariationalDocumentModel NVDM用于实现对文档的主题建模.NVDM

的主要思想遵从VAE网络结构根据输入文档的 词向量空间生成其潜在的主题特征然后根据此潜 在特征生成文档.用于文档建模的NVDM结构如 图32所示.

6期 韩亚楠等概率主题模型综述

nofNMisaeath

《 计

图3 M结构

该模型将词袋文档表示为一个连续的潜在 分布狇犺犡=狉犲犾狌μ+εσ其中μ和σ是由 MLP学习可得而ε用于减少随机估计中的方差.

基于softmax激活层的解码器生成模型通过 独立生成单词来重建文档.值得注意的是NVDM 仅用神经网络学习的权重矩阵犠来描述主题单 词的分布因此在主题词语义一致性问题上不及 LDA.

Ding等人对上述问题进行研究利用预训练 的词向量来实现对单词对之间语义相似度的描述 相较于之前的NVDM模型该方法可以显著提高 了模型主题间语义的一致性.

当下大多主题模型均以文档的词汇或词向量作 为输入来执行相关任务但在实际应用中文档还包 括作者文档来源出版日期等元数据信息可以帮助 其进行模型主题推断.Card等人在2018年提出了 一种将SLDA和稀疏加性生成模型SparseAd ditiveGenerativeModelsSAGE相结合的通用的

稀疏模型框架.在该模型中可以灵活地使用各 种元数据作为标签信息来解决多标签分类问题或帮 助推断预测与该标签相关的主题.此外该模型也可 以用SAGE模型单位指数先验来控制主题词汇分 布的稀疏性.由于该模型可以方便地融合元数据信 息进行扩展因此不但可以应用于纯文本的分类或 聚类还可以灵活地应用于情感分析时序文本数据 分析等.

Gou等人考虑到动态主题模型DTM是对 文本语料库动态表示中最流行的时间序列主题建 模然而DTM的后验分布需要复杂的推理过程且 建模计算时间成本高即使是很小的变化也需要对模 型进行重构因此其可变性和通用性较差.在此基础 上Gou等人提出了一种新的利用变分自编码和因子 图FactorGraphFG来构建DTM的方法VAFG DTM.其VAFGDTM网络结构如图33所示.

图3 M网络结构图

VAFGDTM网络结构在时间切片狋内从神经 网络输入层来获取文档狑由编码器来计算用于生 成文档分布的平均值μ′和协方差σ′.通过编码器学 习的变分近似后验分布狇θ可以将文档狑 映射为文档主题分布与此同时可以获取其动态先 验分布避免局部最优.其中生成过程中的参数μ′ σ′和θ被定义为重参数Reparameterize.解码器

是用于对文档的生成概率建模的神经网络可以将 分布狇θ映射为用于生成新文档的狑′的生成 概率狆狑′θβ与此同时解码器通过整合动态 因子图的方式实现对时序状态变量的建模.

基于变分自编码的主题模型通常是直接利用网 络隐藏层中的软最大函数来对主题模型中的假设分 布进行学习但是这种方式没有进行稀疏假设因 此没有较好的主题提取能力.Lin等人在此基础 上提出了一个基于Sparse稀疏表示的稀疏约束的 神经主题模型NeuralSparseMaxdocumentand TopicModelsNSMTM.同一般的变分自编码

的主题模型类似首先利用MLP学习出文档的μ 和σ在此使用Sparsemax函数来产生具有 稀疏表示的文档主题和主题单词分布替代原来 的softmax函数此外在参数学习过程中使用 Wasserstein散度来度量分布之间的相似度相较与 KL散度可以有效增加训练的稳定性相较于 NVDM和AVITM该模型在对短文本进行处理

具有较好的泛化性能和语义一致性. 43 基于犚犖犖结构的主题模型

上述的基于神经网络主题模型是以文档词袋的 形式作为网络的输入进而产生主题词汇分布.然 而在自然语言处理应用中RNNRecurrentNeu

计  算  机  学  报

《 计

ralNetwork网络结构由于可以对任意长度序列数 据进行处理生成有效的特征的优势受到学者们的 青睐.在基于RNN网络结构的主题训练模型中输 入层文档不再是以词袋形式进行输入而是文本 单词序列.输入单词序列通过RNN网络生成特定 的潜在单元并基于该单元生成指定主题下的自然 文本.

由于RNN主题模型的序列性该模型使其可 以很好地捕获单词序列的局部结构即语义和语法 但是可能在记忆长期依赖关系时遇到困难.直观地 说这些长期依赖关系具有语义性质.相反潜在主 题模型能够捕获文档的全局语义结构但不考虑单 词排序.Dieng等人在此基础上提出了TopicRNN模 型

该模型融合了RNNs和潜在主题模型的优 点即它使用RNN捕获局部语法依赖关系使用 潜在主题捕获全局语义依赖关系通过对两者的 联合建模提高模型在应用中的建模能力.该模型的 生成过程如下所示

对于包含词汇狔的文档

获取其主题向量θ~犖

给定单词狔对于在文档中的第狋个单 词狔

①计算潜在单元犺=犳其中狓 狔

②获取停用词指示器犾~BernoulliσΓ犺 其中σ是sigmoid函数

③生成单词狔~狆|犺θ其中狆= 犻|犺θ∝exp 1-犾θ

上述停止词指示器犾用于控制主题向量θ是否 影响输出.如果犾=1则表示狔是停止词主题向量 θ不影响输出否则将利用θ与第犻个单词的潜在 词向量犫作点积增强词汇到该主题的分配概率.因 此该模型能够对文档中出现的停用词进行自动处 理也能够使文档实现特征的自动提取.

Guo等人为了能够更好地从文本语料库中同时 捕获文档语法和全局语义关系提出一种基于语言 模型的更长上下文的循环神经网络Largercontext RecurrentNeuralNetworkbasedLanguageModel

该模型通过动态深层主题模型提取递阶语义结构 进而指导语言文本生成.传统的基于RNN语言模 型忽略了远程单词间的依赖和句子顺序该模型不 仅捕获了句子内部的词依赖而且还捕获了句子之 间的时间转换关系以及主题依赖.

44 小结

近年来随着神经网络的逐步发展基于神经网 络的主题模型引起了研究者的关注.表11对比分析 了各类神经网络主题模型在其网络结构和模型输入 上的异同.

 基于神经网络主题模型对比

模型 输入层 模型特点 网络结构 应用领域 量 开始从神经网络的角度来构建主题模型且单词和

文档的分布表示具有合理的概率性解释 前馈神经网络 主题提取文本分类 词向量 遵从VE网入文档词向量空间生成

变分自编码器 主题提取 词向量 据作为标签信息来解决多标签分

变分自编码器 文本分类 词袋子 通过整合动态因子图的方式实现对时序状态变量

的建模 变分自编码器 信息检索文本分类 词向量 在基于VE的主题模型建模基础上施加稀疏约

产生具有稀疏表示的主题和单词分布 变分自编码器 文本分类 文档单词序列 据主题及上下文单词生成词汇且可判别生成的

词汇是否是停用词能够捕获语法和语义关系 循环神经网络 单词预测情感分析

文档单词序列 仅捕获了句子内部的单词依赖而且还可以捕获

文档单词序列 仅捕获了句子内部的单词依赖而且还可以捕获

在文檔中 概率主题模型综述 (頁 27-30)

相關文件