主题模型的应用

随着主题模型的提出^，基于主题模型的方法几乎被用到了所有的文本挖掘和智能信息处理领域^，例如文本分类和聚类^、信息检索^、社交媒体^、社区发现和图像处理等．相关主题模型使用逻辑斯蒂正态分布^，实现对主题间两两相关性进行描述^，因此在社交媒体等领域有较好的应用^；监督主题模型通过对每篇文档添加一个类别标识^，从而进行有监督地学习^，有效地应用于文本分类和情感分析等^；动态主题模型通过分析文本中主题随时间演化规律^，有效地应用于历史文献^、用户兴趣追踪等．此外^，近年来主题模型的应用已经扩展到科技文献^、计算机视觉和生物信息学等．下面介绍一些基于ＬＤＡ主题模型的代表性应用．

６１　^社交媒体

随着网络时代的到来，社交媒体，例如微博、博客等作为一种新型的媒体数据，相对于传统的文档集合具有更新速度快、内容简短等特点，具有极强的实时性^［^９^３^］．早期对社交媒体数据的研究，仅仅对博客领域的图结构进行分析^［^９^４^］．随着ＬＤＡ主题模型的提出，Ｙａｎ等学者在此基础上提出了一种针对短

４２１

１计　　算　　机　　学　　报２０２１年

《计

算

机

学

报

》

文本的ＢＴＭ^（ＢｉｔｅｒｍＴｏｐｉｃＭｏｄｅｌ^）模型^［^５^５^］^，该模型是在ＬＤＡ模型的基础上^，为避免短文本中可能存在的内容稀疏问题^，进而直接对短文本中的双词进行建模．然而^，ＢＴＭ模型模拟词语的共现时会引起同意文本获取不同主题的灵活性降低的问题^，同时也容易引起过拟合问题．针对社交媒体中可能出现的突发性事件问题^，文献^［９５^］提出ＢＢＴＭ^（ＢｕｒｓｔｙＢｉｔｅｒｍＴｏｐｉｃＭｏｄｅｌ^）模型^，实现在微博流中突发主

题建模^，然而^，该突发主题的生成过程是以时间作为度量标准^，因此对新兴主题的识别精度较低．动态主题模型在社交媒体中的应用^，有效实现了对数据中内容和时态信息共同建模^，有效分析了数据随时间的演化过程．例如文献［１１^］针对动态文本流建模问题，提出一种在线ＬＤＡ模型^（ＯｎＬｉｎｅＬＤＡ^）^，在该模型中，当有新的文本流更新的时候将增量式地更新当前模型，能够实时获取随时间变化的主题结构．但是该模型使用离散的时间方式，因此灵活性低．文献［９６^］提出一种ＥＴＴ^（ＥｍｅｒｇｉｎｇＴｏｐｉｃＴｒａｃｋｉｎｇ^）主题模型，从时间角度生成新兴词，而从空间角度对相关主题进行挖掘，实现对微博流中新型主题追踪；在稀疏的短文本上下文中，许多高度相关的单词可能永远不会同时出现，因此ＢＴＭ可能会丢失许多语料库中无法观察到的^、潜在的连贯和突出的词的共现模式．为了解决这一问题^，文献^［９７^］提出了一种新的关系ＢＴＭ^（ＲＢＴＭ^）模型^，它使用词嵌入计算单词的相似列表来链接短文本^；文献^［９８^］提出了条件随机场正则化主题模型^，在该模型中通过将短文本聚合成伪文档来缓解稀疏性问题^，而且还利用了一个条件随机场正则化模型^，使得语义相关的单词共享相同的主题分配^，当应用于社交媒体短文本建模时^，可以有效提高语义一致性^；文献^［９９^］在讨论线程树结构的基础上^，提出一种基于流行度和传递性的会话结构感知主题模型^（ＣｏｎｖｅｒｓａｔｉｏｎａｌＳｔｒｕｃ ｔｕｒｅＡｗａｒｅＴｏｐｉｃＭｏｄｅｌ^，ＣＳＡＴＭ^）来对社交媒体

中在线评论进行主题推断及其评论分配^；针对新闻和报道的在线社交媒体，文献［１００^］提出了一个新颖的基于概率主题模型的事件叙事摘要提取框架，该框架以不同的时间分辨率识别主题随时间的重复，挖掘分类时间分布，然后提取文本摘要．

该框架不仅可以从数据中捕获主题分布，还可以模拟用户活动随时间的波动，进而有效地识别主题趋势以及从带有时间戳数据的文本语料库中提取叙事摘要；针对微博短文本情感分析，文献［１０１^］提出一种使用深度上下文文本嵌入和层析注意力机制相结合的基于方面的情感分析方法（ＡｓｐｅｃｔＢａｓｅｄＳｅｎｔｉ

ｍｅｎｔＡｎａｌｙｓｉｓ^，ＡＢＳＡ^）．该模型是在ＨＡＡＢＳＡ模型^［^１^０^２^］^（ＨｙｂｒｉｄＡｐｐｒｏａｃｈｆｏｒＡｓｐｅｃｔＢａｓｅｄＳｅｎｔｉ ｍｅｎｔＡｎａｌｙｓｉｓ^，ＨＡＡＢＳＡ^）的基础上进行改进^，利用

新型的基于深度上下文单词嵌入的ＥＬＭｏ模型替代传统的词向量方法^，以便更好地对文本单词语义进行分析^；其次^，在ＨＡＡＢＳＡ模型的基础上添加额外的注意层^，使用分层注意力机制方法来进一步捕获输入数据的相关性^，提高对短文本模型情感分析的能力．

６２　^图像处理

图像是一种能直观地^、生动地描述客观事物的信息形式^，具有较好的信息表达能力^，近年来已经受到众多学者的青睐．其中，图像分类、目标识别一直是计算机视觉研究中两个重要的问题．特征的分析直接决定图像分类以及目标识别的准确率，进而影响人类对图像的理解．主题模型的提出，突破了传统模型不能对图像语义进行识别的瓶颈．文献［１０３^］提出一种融合多特征的概率主题模型，通过犓 ＭＥＡＮＳ聚类对不同特征，例如颜色、纹理、尺度等分别进行提取和量化，为语义表征提供合适的底层特征描述，使用ＬＤＡ主题模型获取图像的语义信息．文献［１０４^］将监督主题模型应用于图像分类，为每幅图像添加一个全局的类别标签^，将图像进行简单描述^，提高图像分类准确率^；文献^［１０５^］针对复杂的高维空间图像场景分类问题^，提出一个完全的稀疏语义主题模型^（ｆｕｌｌｙｓｐａｒｓｅｓｅｍａｎｔｉｃｔｏｐｉｃｍｏｄ ｅｌ^）^，不但获取图像语义信息^，而且可以获取主题层

间场景的相关性．而且^，主题模型也应用于对图像中目标行为进行识别^，例如文献^［１０６１０７^］将主题模型应用于视频序列中人类行为的识别．

在图像检索中^，仅仅根据图像的底层特征往往不能提取出完美的语义概念^，因此^，图像标注的细化已成为计算机视觉和模式识别领域的核心研究课题之一．为了提高图像自动标注的质量^，文献^［１０８^］提出了一种两阶段混合概率主题模型^（ｔｗｏｓｔａｇｅｈｙｂｒｉｄｐｒｏｂａｂｉｌｉｓｔｉｃｔｏｐｉｃｍｏｄｅｌ^）^，在该模型中首先

学习一个具有非对称模态的概率潜在语义分析模型来估计每个标注关键字的后验概率，在此过程中可以很好地建立图像与单词之间的关系．然后将与相应标签相关联的图像的标签相似度和视觉相似度进行加权线性组合，构造出标签相似度图．这样，图像底层视觉特征和高层语义概念的信息就可以通过充分考虑词与词、像与像之间的关系实现无缝集成．最后，利用排序二松弛法进一步挖掘候选标注的相关性，从而获得细化结果，提高图像的标注精度和检索

５２１６期韩亚楠等：概率主题模型综述１

《计

算

机

学

报

》

性能^；文献^［１０９^］提出了一个基于社会图像的概率主题模型^，从标签和图像特征的共同出现中发现潜在主题^，可以自动地将可视内容与文本标记关联起来^，从而实现有效的图像搜索．

研究发现^，社交媒体上的图片标签^，尤其是Ｉｎｓｔａｇｒａｍ上的图片标签^，只有２０％的Ｉｎｓｔａｇｒａｍ标签描述了图片的实际内容^，因此^，需要应用一系列的过滤步骤来识别合适的标签．文献^［１１０^］利用ＬＤＡ来预测相关图片的主题^，由于主题是由一组相关术语组成的^，通过所提出的方法对Ｉｎｓｔａｇｒａｍ图像的视觉主题进行识别^，进而提供了一组可信的图像标记．

在医学图像处理中^，神经影像学和遗传生物标志物已被广泛地用于从鉴别的角度研究阿尔茨海默病^（ＡｌｚｈｅｉｍｅｒＤｉｓｅａｓｅ^，ＡＤ^）的分类^，文献^［１１１^］提出基于监督主题建模的ＡＤ鉴别方法^，该模型中利用离散图像特征和分类遗传特征共同建模，将诊断信息认知正常、轻度认知障碍和ＡＤ作为监督变量引入该模型．在生成过程中引入有监督的组件可以约束模型，使其具有更强的识别性，进而提高对疾病的辨识度．

６３　^{文本分类和聚类}

随着网络媒体的迅猛发展，如何对海量文本进行分类，进而有效地管理和组织这些文档，成为当下重要的研究方向^［^１^１^２^］．通过对文本进行分类^，用户能更加准确快速地查找到所需要的信息^，方便用户对信息的浏览．文献^［３^］将ＬＤＡ主题模型应用于文本分类^，通过ＬＤＡ模型将文本集表示成一个主题的概率分布^，选用合适分类算法构造分类器．ＬＤＡ模型对给定训练集中所有文档进行特征降维处理^，有效地挖掘文本中潜在的主题信息^，然而使用该种分类方法存在主题的强制分配问题^；文献^［１１３^］提出一种新颖的Ｗｅｂ网页层次分类方法^，在该模型中通过使用相邻页面的附加词汇特征和主题模型进行特性表示^，然后^，使用基于融合矩阵的方法构造层次支持向量机的分类模型．文献^［１１４^］提出一种多标签的主题模型应用于文本分类，解决了文档只与单一类别标签相关联问题，然而，该模型忽略了多标签之间的相关性；为降低基于监督主题模型文本分类中人为标注主观性，文献［１７^］提出多注释的监督主题模型，通过使用多次标注降低主观性影响；文献［１１５^］针对稀疏数据集间类的不平衡问题，提出一种基于ＬＤＡ模型的重新采样的方法，使用由概率主题模型表示的类的全局语义信息来对稀疏类生成新的样本，以此解决类间不平衡的问题，提高分类准确性；针对小规模标签文档，文献［１１６^］提出基于自我训练的半监

督主题模型实现文本分类^，该模型可以通过对未标记数据集的信息进行自我训练来扩大初始标签集．实验证明^，该模型在小规模标签数据集上能够取得较好的实验效果^，然而该模型不适用于大规模的标签文档^；文献^［６３^］提出一种新的ＭｖＴＭ模型^，该模型从词向量空间中采样主题^，并假设主题词向量满足混合ｖｏｎＭｉｓｅｓＦｉｓｈｅｒ^（ｖＭＦ^）分布^，实验的分析结果证明^，该模型相较于传统的ＬＤＡ模型^，有效提高了主题词语义的一致性和模型的分类性能^；文献

［１１７^］提出一种基于语境的深度词表示模型^（Ｄｅｅｐ

在文檔中概率主题模型综述 (頁 30-33)

《 计

算

机

学

报

》

《 计

算

机

学

报

》

《计

《计