【综述】短文本主题建模最新综述（附17页全文下载）- 专知

会员服务 ·

0

【综述】短文本主题建模最新综述（附17页全文下载）

【导读】短文本主题建模方法，在实际场景中有着广泛的应用，本文为大家带来了这一领域的最新综述。

介绍：

针对短文本的主题分析以及推断理解，在现实世界中具有重要的应用价值。传统的基于词共现的长文本主题建模算法（如PLSA、LDA）在短文本问题上，由于其长度的限制，词共现特征所提供的信息价值过低，所以难以解决主题建模问题。

因而，短文本主题建模问题在近些年来，吸引了大量的研究人员投入其中。在这篇综述中，我们对短文本主题建模方法进行了综合的调研，提出了以下分类方法：based on Dirichlet multinomial mixture、全局词共现、以及自聚合，进而对不同类别中的方法进行了案例研究，并提供了多种任务下的性能对比；同时提供一份开源工具包——STTM，其中基于JAVA提供了本综述中的全部代码实现；最终，我们评估了在多个现实数据集中的最优方法，并将它们的性能与长文本主题建模方法进行了对比。

原文链接

https://arxiv.org/pdf/1904.07695.pdf

请关注专知公众号（点击上方蓝色专知关注）

后台回复“STTM” 就可以获取本文论文下载

现在一些新闻聚合网站中，经常会提供新闻聚合功能，如下表中的新闻内容，将被聚合为一条新闻头条。

这一功能中就使用到了短文本主题建模技术，通过这个例子可以发现，这些短文本中具有以下几点特征：

1、每条短文本中缺少足够的共现信息

2、由于某些常见词，会使得不同类别的新闻被聚合到同一条目

3、统计信息很难捕获那些具有语义关联，但并不经常共现的词汇

4、对于某些文本中，单主题假设可能过于严格

为解决以上问题，科研人员提出了多种方法，在这里我们将短文本主题建模算法归类为以下三个类别：

1、Dirichlet multinomial mixture (DMM) based methods

2、Global word co-occurrences based methods

3、Self-aggregation based methods

算法汇总：

另外，本文提供了以上算法的JAVA实现工具包——STTM：

代码链接

https://github.com/qiang2100/STTM

性能分析：

附论文全文下载：

-END-

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎登录www.zhuanzhi.ai，注册登录专知，获取更多AI知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程视频资料和与专家交流咨询！

请加专知小助手微信（扫一扫如下二维码添加），加入专知人工智能主题群，咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成！530+位同学在学习，现在报名，限时优惠！网易云课堂人工智能畅销榜首位！

点击“阅读原文”，了解报名专知《深度学习:算法到实战》课程

展开全文

相关主题

专知—深度学习：算法到实战

专知主题导航

微信扫码咨询专知VIP会员