• 沒有找到結果。

主题模型的应用

在文檔中 概率主题模型综述 (頁 30-33)

随着主题模型的提出基于主题模型的方法几 乎被用到了所有的文本挖掘和智能信息处理领域 例如文本分类和聚类信息检索社交媒体社区发 现和图像处理等.相关主题模型使用逻辑斯蒂正态 分布实现对主题间两两相关性进行描述因此在社 交媒体等领域有较好的应用监督主题模型通过对 每篇文档添加一个类别标识从而进行有监督地学 习有效地应用于文本分类和情感分析等动态主题 模型通过分析文本中主题随时间演化规律有效地 应用于历史文献用户兴趣追踪等.此外近年来主 题模型的应用已经扩展到科技文献计算机视觉和 生物信息学等.下面介绍一些基于LDA主题模型 的代表性应用.

61 社交媒体

随着网络时代的到来社交媒体例如微博博 客等作为一种新型的媒体数据相对于传统的文档 集合具有更新速度快内容简短等特点具有极强的 实时性.早期对社交媒体数据的研究仅仅对博 客领域的图结构进行分析.随着LDA主题模型 的提出Yan等学者在此基础上提出了一种针对短

计  算  机  学  报

《 计

文本的BTMBitermTopicModel模型该模型 是在LDA模型的基础上为避免短文本中可能存 在的内容稀疏问题进而直接对短文本中的双词进 行建模.然而BTM模型模拟词语的共现时会引起 同意文本获取不同主题的灵活性降低的问题同时 也容易引起过拟合问题.针对社交媒体中可能出现 的突发性事件问题文献95提出BBTMBursty BitermTopicModel模型实现在微博流中突发主

题建模然而该突发主题的生成过程是以时间作为 度量标准因此对新兴主题的识别精度较低.动态主 题模型在社交媒体中的应用有效实现了对数据中 内容和时态信息共同建模有效分析了数据随时间 的演化过程.例如文献11针对动态文本流建模问 题提出一种在线LDA模型OnLineLDA在该 模型中当有新的文本流更新的时候将增量式地更 新当前模型能够实时获取随时间变化的主题结构. 但是该模型使用离散的时间方式因此灵活性低.文 献96提出一种ETTEmergingTopicTracking 主题模型从时间角度生成新兴词而从空间角度对 相关主题进行挖掘实现对微博流中新型主题追踪 在稀疏的短文本上下文中许多高度相关的单词可 能永远不会同时出现因此BTM可能会丢失许多 语料库中无法观察到的潜在的连贯和突出的词的 共现模式.为了解决这一问题文献97提出了一种 新的关系BTMRBTM模型它使用词嵌入计算 单词的相似列表来链接短文本文献98提出了条 件随机场正则化主题模型在该模型中通过将短文 本聚合成伪文档来缓解稀疏性问题而且还利用了 一个条件随机场正则化模型使得语义相关的单词 共享相同的主题分配当应用于社交媒体短文本建 模时可以有效提高语义一致性文献99在讨论线 程树结构的基础上提出一种基于流行度和传递性 的会话结构感知主题模型ConversationalStruc tureAwareTopicModelCSATM来对社交媒体

中在线评论进行主题推断及其评论分配针对新闻 和报道的在线社交媒体文献100提出了一个新 颖的基于概率主题模型的事件叙事摘要提取框 架该框架以不同的时间分辨率识别主题随时间 的重复挖掘分类时间分布然后提取文本摘要.

该框架不仅可以从数据中捕获主题分布还可以模 拟用户活动随时间的波动进而有效地识别主题趋 势以及从带有时间戳数据的文本语料库中提取叙事 摘要针对微博短文本情感分析文献101提出一 种使用深度上下文文本嵌入和层析注意力机制相结 合的基于方面的情感分析方法AspectBasedSenti

mentAnalysisABSA.该模型是在HAABSA模 型HybridApproachforAspectBasedSenti mentAnalysisHAABSA的基础上进行改进利用

新型的基于深度上下文单词嵌入的ELMo模型替 代传统的词向量方法以便更好地对文本单词语义 进行分析其次在HAABSA模型的基础上添加额 外的注意层使用分层注意力机制方法来进一步捕 获输入数据的相关性提高对短文本模型情感分析 的能力.

62 图像处理

图像是一种能直观地生动地描述客观事物的 信息形式具有较好的信息表达能力近年来已经受 到众多学者的青睐.其中图像分类目标识别一直 是计算机视觉研究中两个重要的问题.特征的分析 直接决定图像分类以及目标识别的准确率进而影 响人类对图像的理解.主题模型的提出突破了传统 模型不能对图像语义进行识别的瓶颈.文献103提 出一种融合多特征的概率主题模型通过犓 MEANS聚类对不同特征例如颜色纹理尺度等 分别进行提取和量化为语义表征提供合适的底层 特征描述使用LDA主题模型获取图像的语义信 息.文献104将监督主题模型应用于图像分类为 每幅图像添加一个全局的类别标签将图像进行简 单描述提高图像分类准确率文献105针对复杂 的高维空间图像场景分类问题提出一个完全的稀 疏语义主题模型fullysparsesemantictopicmod el不但获取图像语义信息而且可以获取主题层

间场景的相关性.而且主题模型也应用于对图像中 目标行为进行识别例如文献106107将主题模型 应用于视频序列中人类行为的识别.

在图像检索中仅仅根据图像的底层特征往往 不能提取出完美的语义概念因此图像标注的细化 已成为计算机视觉和模式识别领域的核心研究课 题之一.为了提高图像自动标注的质量文献108 提出了一种两阶段混合概率主题模型twostage hybridprobabilistictopicmodel在该模型中首先

学习一个具有非对称模态的概率潜在语义分析模型 来估计每个标注关键字的后验概率在此过程中可 以很好地建立图像与单词之间的关系.然后将与相 应标签相关联的图像的标签相似度和视觉相似度进 行加权线性组合构造出标签相似度图.这样图像 底层视觉特征和高层语义概念的信息就可以通过充 分考虑词与词像与像之间的关系实现无缝集成.最 后利用排序二松弛法进一步挖掘候选标注的相关 性从而获得细化结果提高图像的标注精度和检索

6期 韩亚楠等概率主题模型综述

《 计

性能文献109提出了一个基于社会图像的概率主 题模型从标签和图像特征的共同出现中发现潜在 主题可以自动地将可视内容与文本标记关联起来 从而实现有效的图像搜索.

研究发现社交媒体上的图片标签尤其是 Instagram上的图片标签只有20%的Instagram标 签描述了图片的实际内容因此需要应用一系列的 过滤步骤来识别合适的标签.文献110利用LDA来 预测相关图片的主题由于主题是由一组相关术语组 成的通过所提出的方法对Instagram图像的视觉主 题进行识别进而提供了一组可信的图像标记.

在医学图像处理中神经影像学和遗传生物标 志物已被广泛地用于从鉴别的角度研究阿尔茨海默 病AlzheimerDiseaseAD的分类文献111提出 基于监督主题建模的AD鉴别方法该模型中利用 离散图像特征和分类遗传特征共同建模将诊断信 息认知正常轻度认知障碍和AD作为监督变量引 入该模型.在生成过程中引入有监督的组件可以约 束模型使其具有更强的识别性进而提高对疾病的 辨识度.

63 文本分类和聚类

随着网络媒体的迅猛发展如何对海量文本进 行分类进而有效地管理和组织这些文档成为当下 重要的研究方向.通过对文本进行分类用户能 更加准确快速地查找到所需要的信息方便用户对 信息的浏览.文献将LDA主题模型应用于文本 分类通过LDA模型将文本集表示成一个主题的 概率分布选用合适分类算法构造分类器.LDA模 型对给定训练集中所有文档进行特征降维处理有 效地挖掘文本中潜在的主题信息然而使用该种分 类方法存在主题的强制分配问题文献113提出一 种新颖的Web网页层次分类方法在该模型中通过 使用相邻页面的附加词汇特征和主题模型进行特性 表示然后使用基于融合矩阵的方法构造层次支持 向量机的分类模型.文献114提出一种多标签的主 题模型应用于文本分类解决了文档只与单一类别 标签相关联问题然而该模型忽略了多标签之间的 相关性为降低基于监督主题模型文本分类中人为 标注主观性文献17提出多注释的监督主题模型 通过使用多次标注降低主观性影响文献115针对 稀疏数据集间类的不平衡问题提出一种基于LDA 模型的重新采样的方法使用由概率主题模型表示 的类的全局语义信息来对稀疏类生成新的样本以 此解决类间不平衡的问题提高分类准确性针对小 规模标签文档文献116提出基于自我训练的半监

督主题模型实现文本分类该模型可以通过对未标 记数据集的信息进行自我训练来扩大初始标签集. 实验证明该模型在小规模标签数据集上能够取得 较好的实验效果然而该模型不适用于大规模的标 签文档文献63提出一种新的MvTM模型该模 型从词向量空间中采样主题并假设主题词向量满 足混合vonMisesFishervMF分布实验的分析 结果证明该模型相较于传统的LDA模型有效提 高了主题词语义的一致性和模型的分类性能文献

117提出一种基于语境的深度词表示模型Deep

117提出一种基于语境的深度词表示模型Deep

在文檔中 概率主题模型综述 (頁 30-33)

相關文件