基于神经网络结构的主题模型

基于神经网络的主题模型主要通过神经网络来生成包含潜在主题的文本．该类模型通常将文档中的词以“词袋”形式作为输入，然后增加相应的其它网络层来生成文档，最后，利用反向求导方法对网络参数进行学习．

早期的研究主要集中于基于前馈的多层感知神经网络^，之后^，随着神经网络模型的快速发展^，Ｋｉｎｇ ｍａ等人提出基于变分自编码器^［^７^４^］的主题模型．Ｃａｒｄ等人考虑到在实际情况中，主题模型中分布往

往具有稀疏性，因此，提出基于稀疏约束的神经主题模型^［^７^５^］^；为了能够更好地捕获文档的上下文结构信息^，Ｄｉｅｎｇ等人提出将文本单词序列作为输入的基于ＲＮＮ结构的主题模型^［^７^６^］等．

４１　^{神经主题模型（}犖犲狌狉犪犾犜狅狆犻犮犕狅犱犲犾^，犖犜犕^）早期，Ｋｅｌｌｅｒ等人^［^７^７^］采用多层感知器来捕获单词和文档的分布式表示，但在该模型中并不是所有

层都是可解释的．随后^，Ｃａｏ等人^［^７^８^］提出基于前馈神经网络的主题模型

^①

^（ＮｅｕｒａｌＴｏｐｉｃＭｏｄｅｌ^，ＮＴＭ^）^，开始从神经网络的角度来构建主题模型．由

于该模型遵循主题模型的概率特征，因此，单词和文档的分布表示具有合理的概率性解释．

在经典的ＬＤＡ以及其扩展模型中^，文档主题分布概率矩阵表示为θ^，主题单词分布概率矩阵表示为φ．在文档犱中单词狑的分布概率表示为狆^（狑犱^）＝φ^．^，^狑×θ^犱^Ｔ．ＮＴＭ则从前馈神经网络的角度对上述两个概率分布进行描述，其中，φ^．^，^狑表示为带有ｓｉｇｍｏｉｄ激活函数的单词查找层犾狋^，θ^犱表示带有ｓｏｆｔｍａｘ激活函数的文档查找层犾犱^，神经网络的输出层^，即文档单词的概率分布是φ^．^，^狑和θ^犱做点积．其相应的模型结构如图３１所示．

图３１　ＮＴＭ结构图

ＮＴＭ模型通过使用ｓｉｇｍｏｉｄ以及ｓｏｆｔｍａｘ激活函数生成网络的隐藏层，如下式所示．最后，使用神经网络中常用的后向传播算法来对模型参数进行更新，进而学习出模型的两个分布以及相应的权重矩阵犠^１^、犠^２．相较于ＬＤＡ等概率主题模型^，神经主题模型不需要事先对先验分布进行假设且结构简单^，但依旧可以获得较好的主题表示．

犾狋^（犵^）＝ｓｉｇｍｏｉｄ^（犾犲^（犵^）×犠^２^{）（}３３^）犾犱^（犱^）＝ｓｏｆｍａｘ^（犠^１^（犱^）^） ^（３４^）４２　基于变分自编码器主题模型

Ｍｉａｏ等人考虑使用ＶＡＥ结构^［^７^９^］来进行主题建模，进而在此基础上提出基于ＶＡＥ结构的ＮＶＤＭ模型^（ＮｅｕｒａｌＶａｒｉａｔｉｏｎａｌＤｏｃｕｍｅｎｔＭｏｄｅｌ^，ＮＶＤＭ^）^［^８^０^］^，用于实现对文档的主题建模．ＮＶＤＭ

的主要思想遵从ＶＡＥ网络结构^，根据输入文档的词向量空间生成其潜在的主题特征，然后根据此潜在特征生成文档．用于文档建模的ＮＶＤＭ结构如图３２所示．

１２１６期韩亚楠等：概率主题模型综述１

①

ＴｈｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＮＴＭｉｓａｖａｉｌａｂｌｅａｔｈｔｔｐｓ^：^／^／ｇｉｔｈｕｂ．ｃｏｍ^／ｅｌｂａｍｏｓ^／ＮｅｕｒａｌＴｏｐｉｃＭｏｄｅｌｓ

《计

算

机

学

报

》

图３２　ＮＶＤＭ结构

该模型将“词袋”文档表示为一个连续的潜在分布狇^（犺犡^）＝狉犲犾狌^（μ^犱＋εσ^犱^）^，其中，μ^犱和σ^犱是由ＭＬＰ学习可得^，而ε用于减少随机估计中的方差．

基于ｓｏｆｔｍａｘ激活层的解码器^（生成模型）通过独立生成单词来重建文档．值得注意的是^，ＮＶＤＭ仅用神经网络学习的权重矩阵犠来描述主题单词的分布^，因此^，在主题词语义一致性问题上不及ＬＤＡ．

Ｄｉｎｇ等人^［^８^１^］对上述问题进行研究，利用预训练的词向量来实现对单词对之间语义相似度的描述^，相较于之前的ＮＶＤＭ模型^，该方法可以显著提高了模型主题间语义的一致性．

当下大多主题模型均以文档的词汇或词向量作为输入来执行相关任务^，但在实际应用中^，文档还包括作者、文档来源、出版日期等元数据信息可以帮助其进行模型主题推断．Ｃａｒｄ等人在２０１８年提出了一种将ＳＬＤＡ^［^１^４^］和稀疏加性生成模型^（ＳｐａｒｓｅＡｄ ｄｉｔｉｖｅＧｅｎｅｒａｔｉｖｅＭｏｄｅｌｓ^，ＳＡＧＥ^）相结合的通用的

稀疏模型框架^［^７^５^］．在该模型中，可以灵活地使用各种元数据作为标签信息来解决多标签分类问题或帮助推断预测与该标签相关的主题．此外^，该模型也可以用ＳＡＧＥ模型单位指数先验来控制主题词汇分布的稀疏性．由于该模型可以方便地融合元数据信息进行扩展^，因此^，不但可以应用于纯文本的分类或聚类，还可以灵活地应用于情感分析、时序文本数据分析等．

Ｇｏｕ等人^［^８^２^］考虑到动态主题模型^（ＤＴＭ^）是对文本语料库动态表示中最流行的时间序列主题建模，然而，ＤＴＭ的后验分布需要复杂的推理过程，且建模计算时间成本高^，即使是很小的变化也需要对模型进行重构^，因此其可变性和通用性较差．在此基础上，Ｇｏｕ等人提出了一种新的利用变分自编码和因子图^（ＦａｃｔｏｒＧｒａｐｈ^，ＦＧ^）来构建ＤＴＭ的方法^（ＶＡＦＧ ＤＴＭ^）．其ＶＡＦＧＤＴＭ网络结构如图３３所示．

图３３　ＶＡＦＧＤＴＭ网络结构图

ＶＡＦＧＤＴＭ网络结构在时间切片狋内^，从神经网络输入层来获取文档狑^狋^，由编码器来计算用于生成文档分布的平均值μ′^狋和协方差σ′^犱．通过编码器学习的变分近似后验分布狇^^（θ^狋狑^狋^）^，可以将文档狑^狋映射为文档主题分布，与此同时，可以获取其动态先验分布^，避免局部最优．其中^，生成过程中的参数μ′^狋^、 σ′^犱和θ^狋被定义为重参数^（Ｒｅｐａｒａｍｅｔｅｒｉｚｅ^）．解码器

是用于对文档的生成概率建模的神经网络^，可以将分布狇^^（θ^狋狑^狋^）映射为用于生成新文档的狑′^狋的生成概率狆^（狑′^狋θ^狋^，β^狋^）^，与此同时，解码器通过整合动态因子图的方式实现对时序状态变量的建模．

基于变分自编码的主题模型通常是直接利用网络隐藏层中的软最大函数来对主题模型中的假设分布进行学习^，但是这种方式没有进行稀疏假设^，因此，没有较好的主题提取能力．Ｌｉｎ等人在此基础上，提出了一个基于Ｓｐａｒｓｅ稀疏表示的稀疏约束的神经主题模型（ＮｅｕｒａｌＳｐａｒｓｅＭａｘｄｏｃｕｍｅｎｔａｎｄＴｏｐｉｃＭｏｄｅｌｓ^，ＮＳＭＴＭ^）^［^８^３^］．同一般的变分自编码

的主题模型类似^，首先利用ＭＬＰ学习出文档的μ^犱和σ^犱^，在此，使用Ｓｐａｒｓｅｍａｘ函数^［^８^４^］来产生具有稀疏表示的文档主题和主题单词分布^，替代原来的ｓｏｆｔｍａｘ函数^；此外^，在参数学习过程中^，使用Ｗａｓｓｅｒｓｔｅｉｎ散度来度量分布之间的相似度^，相较与ＫＬ散度^，可以有效增加训练的稳定性^［^８^５^］^；相较于ＮＶＤＭ和ＡＶＩＴＭ^，该模型在对短文本进行处理

时，具有较好的泛化性能和语义一致性．４３　^基于犚犖犖^{结构的主题模型}

上述的基于神经网络主题模型是以文档词袋的形式作为网络的输入^，进而产生主题词汇分布．然而^，在自然语言处理应用中^，ＲＮＮ^（ＲｅｃｕｒｒｅｎｔＮｅｕ

２２１

１计　　算　　机　　学　　报２０２１年

《计

算

机

学

报

》

ｒａｌＮｅｔｗｏｒｋ^）网络结构由于可以对任意长度序列数据进行处理，生成有效的特征的优势，受到学者们的青睐．在基于ＲＮＮ网络结构的主题训练模型中^，输入层文档不再是以“词袋”形式进行输入，而是文本单词序列．输入单词序列通过ＲＮＮ网络生成特定的潜在单元^，并基于该单元生成指定主题下的自然文本．

由于ＲＮＮ主题模型的序列性^，该模型使其可以很好地捕获单词序列的局部结构，即语义和语法，但是可能在记忆长期依赖关系时遇到困难．直观地说，这些长期依赖关系具有语义性质．相反，潜在主题模型能够捕获文档的全局语义结构^，但不考虑单词排序．Ｄｉｅｎｇ等人在此基础上提出了ＴｏｐｉｃＲＮＮ模型^［^７^６^］

^①

，该模型融合了ＲＮＮｓ和潜在主题模型的优点^，即它使用ＲＮＮ捕获局部^（语法^）依赖关系^，使用潜在主题捕获全局（语义）依赖关系，通过对两者的联合建模^，提高模型在应用中的建模能力．该模型的生成过程如下所示：

对于包含词汇狔^１^：^犜的文档：

（１^）获取其主题向量θ～犖^（０^，犐^）^；

（２^）给定单词狔^１^：^狋^－^１^，对于在文档中的第狋个单词狔^狋^：

①计算潜在单元犺^狋＝犳^犠^（狓^狋^，犺^狋^－^１^）^，其中狓^狋 狔^狋^－^１^；

②获取停用词指示器犾^狋～Ｂｅｒｎｏｕｌｌｉ^（σ^（Γ犺^⊥ ^狋^）^）^，其中σ是ｓｉｇｍｏｉｄ函数；

③生成单词狔^狋～狆^（狔^狋｜犺^狋^，θ^，犾^狋^，犅^）^，其中狆^（狔^狋＝犻｜犺^狋^，θ^，犾^狋^，犅^）∝ｅｘｐ^（狏^犻犺^⊥ ^狋＋^（１－犾^狋^）犫^犻θ^⊥ ^）

上述停止词指示器犾^狋用于控制主题向量θ是否影响输出．如果犾^狋＝１则表示狔^狋是停止词^，主题向量 θ不影响输出^；否则^，将利用θ与第犻个单词的潜在词向量犫^犻作点积增强词汇到该主题的分配概率．因此^，该模型能够对文档中出现的停用词进行自动处理，也能够使文档实现特征的自动提取．

Ｇｕｏ等人为了能够更好地从文本语料库中同时捕获文档语法和全局语义关系，提出一种基于语言模型的更长上下文的循环神经网络^（ＬａｒｇｅｒｃｏｎｔｅｘｔＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｂａｓｅｄＬａｎｇｕａｇｅＭｏｄｅｌ^）^［^８^６^］．

该模型通过动态深层主题模型提取递阶语义结构，进而指导语言文本生成．传统的基于ＲＮＮ语言模型忽略了远程单词间的依赖和句子顺序，该模型不仅捕获了句子内部的词依赖^，而且还捕获了句子之间的时间转换关系以及主题依赖．

４４　^小结

近年来^，随着神经网络的逐步发展^，基于神经网络的主题模型引起了研究者的关注．表１１对比分析了各类神经网络主题模型在其网络结构和模型输入上的异同．

表１１　基于神经网络主题模型对比

模型输入层模型特点网络结构应用领域ＮＴＭ^［^７^８^］文档的狀ｇｒａｍ向量开始从神经网络的角度来构建主题模型，且单词和

文档的分布表示具有合理的概率性解释前馈神经网络主题提取、文本分类ＮＶＤＭ^［^８^０^］词向量遵从ＶＡＥ网络结构，根据输入文档词向量空间生成

潜在的主题特征，然后据此潜在特征生成文档变分自编码器主题提取ＳＣＨＯＬＡＲ^［^７^５^］词向量可以利用各种元数据作为标签信息来解决多标签分

类问题或帮助推断预测与该标签相关的主题变分自编码器文本分类ＶＡＦＧＤＴＭ^［^８^２^］词袋子通过整合动态因子图的方式实现对时序状态变量

的建模变分自编码器信息检索、文本分类ＮＳＭＴＭ^［^８^３^］词向量在基于ＶＡＥ的主题模型建模基础上^，施加稀疏约

束，产生具有稀疏表示的主题和单词分布变分自编码器文本分类ＴｏｐｉｃＲＮＮ^［^７^６^］文档单词序列根据主题及上下文单词生成词汇，且可判别生成的

词汇是否是停用词，能够捕获语法和语义关系循环神经网络单词预测、情感分析Ｌａｒｇｅｒｃｏｎｔｅｘｔ

ＲＮＮ^［^８^６^］文档单词序列不仅捕获了句子内部的单词依赖，而且还可以捕获

在文檔中概率主题模型综述 (頁 27-30)

①

①

《 计

算

机

学

报

》

《 计

算

机

学

报

》

①

^①

《计

《计

^①