随着主题模型的提出,基于主题模型的方法几 乎被用到了所有的文本挖掘和智能信息处理领域, 例如文本分类和聚类、信息检索、社交媒体、社区发 现和图像处理等.相关主题模型使用逻辑斯蒂正态 分布,实现对主题间两两相关性进行描述,因此在社 交媒体等领域有较好的应用;监督主题模型通过对 每篇文档添加一个类别标识,从而进行有监督地学 习,有效地应用于文本分类和情感分析等;动态主题 模型通过分析文本中主题随时间演化规律,有效地 应用于历史文献、用户兴趣追踪等.此外,近年来主 题模型的应用已经扩展到科技文献、计算机视觉和 生物信息学等.下面介绍一些基于LDA主题模型 的代表性应用.
61 社交媒体
随着网络时代的到来,社交媒体,例如微博、博 客等作为一种新型的媒体数据,相对于传统的文档 集合具有更新速度快、内容简短等特点,具有极强的 实时性[93].早期对社交媒体数据的研究,仅仅对博 客领域的图结构进行分析[94].随着LDA主题模型 的提出,Yan等学者在此基础上提出了一种针对短
4 2 1
1 计 算 机 学 报 2021年
《 计
算
机
学
报
》
文本的BTM(BitermTopicModel)模型[55],该模型 是在LDA模型的基础上,为避免短文本中可能存 在的内容稀疏问题,进而直接对短文本中的双词进 行建模.然而,BTM模型模拟词语的共现时会引起 同意文本获取不同主题的灵活性降低的问题,同时 也容易引起过拟合问题.针对社交媒体中可能出现 的突发性事件问题,文献[95]提出BBTM(Bursty BitermTopicModel)模型,实现在微博流中突发主
题建模,然而,该突发主题的生成过程是以时间作为 度量标准,因此对新兴主题的识别精度较低.动态主 题模型在社交媒体中的应用,有效实现了对数据中 内容和时态信息共同建模,有效分析了数据随时间 的演化过程.例如文献[11]针对动态文本流建模问 题,提出一种在线LDA模型(OnLineLDA),在该 模型中,当有新的文本流更新的时候将增量式地更 新当前模型,能够实时获取随时间变化的主题结构. 但是该模型使用离散的时间方式,因此灵活性低.文 献[96]提出一种ETT(EmergingTopicTracking) 主题模型,从时间角度生成新兴词,而从空间角度对 相关主题进行挖掘,实现对微博流中新型主题追踪; 在稀疏的短文本上下文中,许多高度相关的单词可 能永远不会同时出现,因此BTM可能会丢失许多 语料库中无法观察到的、潜在的连贯和突出的词的 共现模式.为了解决这一问题,文献[97]提出了一种 新的关系BTM(RBTM)模型,它使用词嵌入计算 单词的相似列表来链接短文本;文献[98]提出了条 件随机场正则化主题模型,在该模型中通过将短文 本聚合成伪文档来缓解稀疏性问题,而且还利用了 一个条件随机场正则化模型,使得语义相关的单词 共享相同的主题分配,当应用于社交媒体短文本建 模时,可以有效提高语义一致性;文献[99]在讨论线 程树结构的基础上,提出一种基于流行度和传递性 的会话结构感知主题模型(ConversationalStruc tureAwareTopicModel,CSATM)来对社交媒体
中在线评论进行主题推断及其评论分配;针对新闻 和报道的在线社交媒体,文献[100]提出了一个新 颖的基于概率主题模型的事件叙事摘要提取框 架,该框架以不同的时间分辨率识别主题随时间 的重复,挖掘分类时间分布,然后提取文本摘要.
该框架不仅可以从数据中捕获主题分布,还可以模 拟用户活动随时间的波动,进而有效地识别主题趋 势以及从带有时间戳数据的文本语料库中提取叙事 摘要;针对微博短文本情感分析,文献[101]提出一 种使用深度上下文文本嵌入和层析注意力机制相结 合的基于方面的情感分析方法(AspectBasedSenti
mentAnalysis,ABSA).该模型是在HAABSA模 型[102](HybridApproachforAspectBasedSenti mentAnalysis,HAABSA)的基础上进行改进,利用
新型的基于深度上下文单词嵌入的ELMo模型替 代传统的词向量方法,以便更好地对文本单词语义 进行分析;其次,在HAABSA模型的基础上添加额 外的注意层,使用分层注意力机制方法来进一步捕 获输入数据的相关性,提高对短文本模型情感分析 的能力.
62 图像处理
图像是一种能直观地、生动地描述客观事物的 信息形式,具有较好的信息表达能力,近年来已经受 到众多学者的青睐.其中,图像分类、目标识别一直 是计算机视觉研究中两个重要的问题.特征的分析 直接决定图像分类以及目标识别的准确率,进而影 响人类对图像的理解.主题模型的提出,突破了传统 模型不能对图像语义进行识别的瓶颈.文献[103]提 出一种融合多特征的概率主题模型,通过犓 MEANS聚类对不同特征,例如颜色、纹理、尺度等 分别进行提取和量化,为语义表征提供合适的底层 特征描述,使用LDA主题模型获取图像的语义信 息.文献[104]将监督主题模型应用于图像分类,为 每幅图像添加一个全局的类别标签,将图像进行简 单描述,提高图像分类准确率;文献[105]针对复杂 的高维空间图像场景分类问题,提出一个完全的稀 疏语义主题模型(fullysparsesemantictopicmod el),不但获取图像语义信息,而且可以获取主题层
间场景的相关性.而且,主题模型也应用于对图像中 目标行为进行识别,例如文献[106107]将主题模型 应用于视频序列中人类行为的识别.
在图像检索中,仅仅根据图像的底层特征往往 不能提取出完美的语义概念,因此,图像标注的细化 已成为计算机视觉和模式识别领域的核心研究课 题之一.为了提高图像自动标注的质量,文献[108] 提出了一种两阶段混合概率主题模型(twostage hybridprobabilistictopicmodel),在该模型中首先
学习一个具有非对称模态的概率潜在语义分析模型 来估计每个标注关键字的后验概率,在此过程中可 以很好地建立图像与单词之间的关系.然后将与相 应标签相关联的图像的标签相似度和视觉相似度进 行加权线性组合,构造出标签相似度图.这样,图像 底层视觉特征和高层语义概念的信息就可以通过充 分考虑词与词、像与像之间的关系实现无缝集成.最 后,利用排序二松弛法进一步挖掘候选标注的相关 性,从而获得细化结果,提高图像的标注精度和检索
5 2 1 6期 韩亚楠等:概率主题模型综述 1
《 计
算
机
学
报
》
性能;文献[109]提出了一个基于社会图像的概率主 题模型,从标签和图像特征的共同出现中发现潜在 主题,可以自动地将可视内容与文本标记关联起来, 从而实现有效的图像搜索.
研究发现,社交媒体上的图片标签,尤其是 Instagram上的图片标签,只有20%的Instagram标 签描述了图片的实际内容,因此,需要应用一系列的 过滤步骤来识别合适的标签.文献[110]利用LDA来 预测相关图片的主题,由于主题是由一组相关术语组 成的,通过所提出的方法对Instagram图像的视觉主 题进行识别,进而提供了一组可信的图像标记.
在医学图像处理中,神经影像学和遗传生物标 志物已被广泛地用于从鉴别的角度研究阿尔茨海默 病(AlzheimerDisease,AD)的分类,文献[111]提出 基于监督主题建模的AD鉴别方法,该模型中利用 离散图像特征和分类遗传特征共同建模,将诊断信 息认知正常、轻度认知障碍和AD作为监督变量引 入该模型.在生成过程中引入有监督的组件可以约 束模型,使其具有更强的识别性,进而提高对疾病的 辨识度.
63 文本分类和聚类
随着网络媒体的迅猛发展,如何对海量文本进 行分类,进而有效地管理和组织这些文档,成为当下 重要的研究方向[112].通过对文本进行分类,用户能 更加准确快速地查找到所需要的信息,方便用户对 信息的浏览.文献[3]将LDA主题模型应用于文本 分类,通过LDA模型将文本集表示成一个主题的 概率分布,选用合适分类算法构造分类器.LDA模 型对给定训练集中所有文档进行特征降维处理,有 效地挖掘文本中潜在的主题信息,然而使用该种分 类方法存在主题的强制分配问题;文献[113]提出一 种新颖的Web网页层次分类方法,在该模型中通过 使用相邻页面的附加词汇特征和主题模型进行特性 表示,然后,使用基于融合矩阵的方法构造层次支持 向量机的分类模型.文献[114]提出一种多标签的主 题模型应用于文本分类,解决了文档只与单一类别 标签相关联问题,然而,该模型忽略了多标签之间的 相关性;为降低基于监督主题模型文本分类中人为 标注主观性,文献[17]提出多注释的监督主题模型, 通过使用多次标注降低主观性影响;文献[115]针对 稀疏数据集间类的不平衡问题,提出一种基于LDA 模型的重新采样的方法,使用由概率主题模型表示 的类的全局语义信息来对稀疏类生成新的样本,以 此解决类间不平衡的问题,提高分类准确性;针对小 规模标签文档,文献[116]提出基于自我训练的半监
督主题模型实现文本分类,该模型可以通过对未标 记数据集的信息进行自我训练来扩大初始标签集. 实验证明,该模型在小规模标签数据集上能够取得 较好的实验效果,然而该模型不适用于大规模的标 签文档;文献[63]提出一种新的MvTM模型,该模 型从词向量空间中采样主题,并假设主题词向量满 足混合vonMisesFisher(vMF)分布,实验的分析 结果证明,该模型相较于传统的LDA模型,有效提 高了主题词语义的一致性和模型的分类性能;文献
[117]提出一种基于语境的深度词表示模型(Deep
[117]提出一种基于语境的深度词表示模型(Deep