Analyzing short texts infers discriminative and coherent latent topics that is a critical and fundamental task since many real-world applications require semantic understanding of short texts. Traditional long text topic modeling algorithms (e.g., PLSA and LDA) based on word co-occurrences cannot solve this problem very well since only very limited word co-occurrence information is available in short texts. Therefore, short text topic modeling has already attracted much attention from the machine learning research community in recent years, which aims at overcoming the problem of sparseness in short texts. In this survey, we conduct a comprehensive review of various short text topic modeling techniques proposed in the literature. We present three categories of methods based on Dirichlet multinomial mixture, global word co-occurrences, and self-aggregation, with example of representative approaches in each category and analysis of their performance on various tasks. We develop the first comprehensive open-source library, called STTM, for use in Java that integrates all surveyed algorithms within a unified interface, benchmark datasets, to facilitate the expansion of new methods in this research field. Finally, we evaluate these state-of-the-art methods on many real-world datasets and compare their performance against one another and versus long text topic modeling algorithm.


翻译:分析短文分析短文认为具有歧视性和一致性的潜在专题是一项关键和根本的任务,因为许多现实世界应用都需要对短文进行语义理解。传统的长文主题模式算法(如PLSA和LDA)以单词共生关系为基础,无法很好地解决这个问题,因为短文只提供极有限的单词共生关系信息。因此,短文主题模式近年来已经吸引了机器学习研究界的极大关注,其目的是克服短文中稀少问题。在这次调查中,我们全面审查了文献中提议的各种短文主题模拟技术。我们介绍了基于Drichlet多语混合、全球单词共生关系和自我聚合的三类方法,并举例说明了每个类别中的代表性方法,并分析了它们在不同任务中的绩效。我们开发了第一个综合的开放源图书馆,称为STTM,目的是将所有调查过的算法纳入一个统一的界面、基准数据集中。我们根据文献集对各种短文系模式的扩展了这一研究领域的新方法,并对照另一个专题对另一个数据进行对比。最后,我们评估了这些状态的文本模式,并比较了另一个领域。

1
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Arxiv
108+阅读 · 2020年2月5日
Generative Adversarial Networks: A Survey and Taxonomy
Arxiv
5+阅读 · 2019年4月25日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
53+阅读 · 2018年12月11日
VIP会员
Top
微信扫码咨询专知VIP会员