基于神经网络的主题模型主要通过神经网络来 生成包含潜在主题的文本.该类模型通常将文档中 的词以“词袋”形式作为输入,然后增加相应的其它 网络层来生成文档,最后,利用反向求导方法对网络 参数进行学习.
早期的研究主要集中于基于前馈的多层感知神 经网络,之后,随着神经网络模型的快速发展,King ma等人提出基于变分自编码器[74]的主题模型. Card等人考虑到在实际情况中,主题模型中分布往
往具有稀疏性,因此,提出基于稀疏约束的神经主题 模型[75];为了能够更好地捕获文档的上下文结构信 息,Dieng等人提出将文本单词序列作为输入的基 于RNN结构的主题模型[76]等.
41 神经主题模型(犖犲狌狉犪犾犜狅狆犻犮犕狅犱犲犾,犖犜犕) 早期,Keller等人[77]采用多层感知器来捕获单 词和文档的分布式表示,但在该模型中并不是所有
层都是可解释的.随后,Cao等人[78]提出基于前馈 神经网络的主题模型
①
(NeuralTopicModel, NTM),开始从神经网络的角度来构建主题模型.由于该模型遵循主题模型的概率特征,因此,单词和文 档的分布表示具有合理的概率性解释.
在经典的LDA以及其扩展模型中,文档主题 分布概率矩阵表示为θ,主题单词分布概率矩阵表 示为φ.在文档犱中单词狑的分布概率表示为狆(狑 犱)=φ.,狑×θ犱T.NTM则从前馈神经网络的角度对 上述两个概率分布进行描述,其中,φ.,狑表示为带有 sigmoid激活函数的单词查找层犾狋,θ犱表示带有 softmax激活函数的文档查找层犾犱,神经网络的输 出层,即文档单词的概率分布是φ.,狑和θ犱做点积. 其相应的模型结构如图31所示.
图31 NTM结构图
NTM模型通过使用sigmoid以及softmax激 活函数生成网络的隐藏层,如下式所示.最后,使用 神经网络中常用的后向传播算法来对模型参数进行 更新,进而学习出模型的两个分布以及相应的权重 矩阵犠1、犠2.相较于LDA等概率主题模型,神经主 题模型不需要事先对先验分布进行假设且结构简 单,但依旧可以获得较好的主题表示.
犾狋(犵)=sigmoid(犾犲(犵)×犠2) (33) 犾犱(犱)=sofmax(犠1(犱)) (34) 42 基于变分自编码器主题模型
Miao等人考虑使用VAE结构[79]来进行主题 建模,进而在此基础上提出基于VAE结构的 NVDM模型(NeuralVariationalDocumentModel, NVDM)[80],用于实现对文档的主题建模.NVDM
的主要思想遵从VAE网络结构,根据输入文档的 词向量空间生成其潜在的主题特征,然后根据此潜 在特征生成文档.用于文档建模的NVDM结构如 图32所示.
1 2 1 6期 韩亚楠等:概率主题模型综述 1
①
TheimplementationofNTMisavailableathttps:// github.com/elbamos/NeuralTopicModels《 计
算
机
学
报
》
图32 NVDM结构
该模型将“词袋”文档表示为一个连续的潜在 分布狇(犺犡)=狉犲犾狌(μ犱+εσ犱),其中,μ犱和σ犱是由 MLP学习可得,而ε用于减少随机估计中的方差.
基于softmax激活层的解码器(生成模型)通过 独立生成单词来重建文档.值得注意的是,NVDM 仅用神经网络学习的权重矩阵犠来描述主题单 词的分布,因此,在主题词语义一致性问题上不及 LDA.
Ding等人[81]对上述问题进行研究,利用预训练 的词向量来实现对单词对之间语义相似度的描述, 相较于之前的NVDM模型,该方法可以显著提高 了模型主题间语义的一致性.
当下大多主题模型均以文档的词汇或词向量作 为输入来执行相关任务,但在实际应用中,文档还包 括作者、文档来源、出版日期等元数据信息可以帮助 其进行模型主题推断.Card等人在2018年提出了 一种将SLDA[14]和稀疏加性生成模型(SparseAd ditiveGenerativeModels,SAGE)相结合的通用的
稀疏模型框架[75].在该模型中,可以灵活地使用各 种元数据作为标签信息来解决多标签分类问题或帮 助推断预测与该标签相关的主题.此外,该模型也可 以用SAGE模型单位指数先验来控制主题词汇分 布的稀疏性.由于该模型可以方便地融合元数据信 息进行扩展,因此,不但可以应用于纯文本的分类或 聚类,还可以灵活地应用于情感分析、时序文本数据 分析等.
Gou等人[82]考虑到动态主题模型(DTM)是对 文本语料库动态表示中最流行的时间序列主题建 模,然而,DTM的后验分布需要复杂的推理过程,且 建模计算时间成本高,即使是很小的变化也需要对模 型进行重构,因此其可变性和通用性较差.在此基础 上,Gou等人提出了一种新的利用变分自编码和因子 图(FactorGraph,FG)来构建DTM的方法(VAFG DTM).其VAFGDTM网络结构如图33所示.
图33 VAFGDTM网络结构图
VAFGDTM网络结构在时间切片狋内,从神经 网络输入层来获取文档狑狋,由编码器来计算用于生 成文档分布的平均值μ′狋和协方差σ′犱.通过编码器学 习的变分近似后验分布狇(θ狋狑狋),可以将文档狑狋 映射为文档主题分布,与此同时,可以获取其动态先 验分布,避免局部最优.其中,生成过程中的参数μ′狋、 σ′犱和θ狋被定义为重参数(Reparameterize).解码器
是用于对文档的生成概率建模的神经网络,可以将 分布狇(θ狋狑狋)映射为用于生成新文档的狑′狋的生成 概率狆(狑′狋θ狋,β狋),与此同时,解码器通过整合动态 因子图的方式实现对时序状态变量的建模.
基于变分自编码的主题模型通常是直接利用网 络隐藏层中的软最大函数来对主题模型中的假设分 布进行学习,但是这种方式没有进行稀疏假设,因 此,没有较好的主题提取能力.Lin等人在此基础 上,提出了一个基于Sparse稀疏表示的稀疏约束的 神经主题模型(NeuralSparseMaxdocumentand TopicModels,NSMTM)[83].同一般的变分自编码
的主题模型类似,首先利用MLP学习出文档的μ犱 和σ犱,在此,使用Sparsemax函数[84]来产生具有 稀疏表示的文档主题和主题单词分布,替代原来 的softmax函数;此外,在参数学习过程中,使用 Wasserstein散度来度量分布之间的相似度,相较与 KL散度,可以有效增加训练的稳定性[85];相较于 NVDM和AVITM,该模型在对短文本进行处理
时,具有较好的泛化性能和语义一致性. 43 基于犚犖犖结构的主题模型
上述的基于神经网络主题模型是以文档词袋的 形式作为网络的输入,进而产生主题词汇分布.然 而,在自然语言处理应用中,RNN(RecurrentNeu
2 2 1
1 计 算 机 学 报 2021年
《 计
算
机
学
报
》
ralNetwork)网络结构由于可以对任意长度序列数 据进行处理,生成有效的特征的优势,受到学者们的 青睐.在基于RNN网络结构的主题训练模型中,输 入层文档不再是以“词袋”形式进行输入,而是文本 单词序列.输入单词序列通过RNN网络生成特定 的潜在单元,并基于该单元生成指定主题下的自然 文本.
由于RNN主题模型的序列性,该模型使其可 以很好地捕获单词序列的局部结构,即语义和语法, 但是可能在记忆长期依赖关系时遇到困难.直观地 说,这些长期依赖关系具有语义性质.相反,潜在主 题模型能够捕获文档的全局语义结构,但不考虑单 词排序.Dieng等人在此基础上提出了TopicRNN模 型[76]
①
,该模型融合了RNNs和潜在主题模型的优 点,即它使用RNN捕获局部(语法)依赖关系,使用 潜在主题捕获全局(语义)依赖关系,通过对两者的 联合建模,提高模型在应用中的建模能力.该模型的 生成过程如下所示:对于包含词汇狔1:犜的文档:
(1)获取其主题向量θ~犖(0,犐);
(2)给定单词狔1:狋-1,对于在文档中的第狋个单 词狔狋:
①计算潜在单元犺狋=犳犠(狓狋,犺狋-1),其中狓狋 狔狋-1;
②获取停用词指示器犾狋~Bernoulli(σ(Γ犺⊥ 狋)), 其中σ是sigmoid函数;
③生成单词狔狋~狆(狔狋|犺狋,θ,犾狋,犅),其中狆(狔狋= 犻|犺狋,θ,犾狋,犅)∝exp(狏犻犺⊥ 狋+(1-犾狋)犫犻θ⊥ )
上述停止词指示器犾狋用于控制主题向量θ是否 影响输出.如果犾狋=1则表示狔狋是停止词,主题向量 θ不影响输出;否则,将利用θ与第犻个单词的潜在 词向量犫犻作点积增强词汇到该主题的分配概率.因 此,该模型能够对文档中出现的停用词进行自动处 理,也能够使文档实现特征的自动提取.
Guo等人为了能够更好地从文本语料库中同时 捕获文档语法和全局语义关系,提出一种基于语言 模型的更长上下文的循环神经网络(Largercontext RecurrentNeuralNetworkbasedLanguageModel)[86].
该模型通过动态深层主题模型提取递阶语义结构, 进而指导语言文本生成.传统的基于RNN语言模 型忽略了远程单词间的依赖和句子顺序,该模型不 仅捕获了句子内部的词依赖,而且还捕获了句子之 间的时间转换关系以及主题依赖.
44 小结
近年来,随着神经网络的逐步发展,基于神经网 络的主题模型引起了研究者的关注.表11对比分析 了各类神经网络主题模型在其网络结构和模型输入 上的异同.
表11 基于神经网络主题模型对比
模型 输入层 模型特点 网络结构 应用领域 NTM[78] 文档的狀gram向量 开始从神经网络的角度来构建主题模型,且单词和
文档的分布表示具有合理的概率性解释 前馈神经网络 主题提取、文本分类 NVDM[80] 词向量 遵从VAE网络结构,根据输入文档词向量空间生成
潜在的主题特征,然后据此潜在特征生成文档 变分自编码器 主题提取 SCHOLAR[75] 词向量 可以利用各种元数据作为标签信息来解决多标签分
类问题或帮助推断预测与该标签相关的主题 变分自编码器 文本分类 VAFGDTM[82] 词袋子 通过整合动态因子图的方式实现对时序状态变量
的建模 变分自编码器 信息检索、文本分类 NSMTM[83] 词向量 在基于VAE的主题模型建模基础上,施加稀疏约
束,产生具有稀疏表示的主题和单词分布 变分自编码器 文本分类 TopicRNN[76] 文档单词序列 根据主题及上下文单词生成词汇,且可判别生成的
词汇是否是停用词,能够捕获语法和语义关系 循环神经网络 单词预测、情感分析 Largercontext
RNN[86] 文档单词序列 不仅捕获了句子内部的单词依赖,而且还可以捕获
RNN[86] 文档单词序列 不仅捕获了句子内部的单词依赖,而且还可以捕获