Topic modeling analyzes documents to learn meaningful patterns of words. However, existing topic models fail to learn interpretable topics when working with large and heavy-tailed vocabularies. To this end, we develop the Embedded Topic Model (ETM), a generative model of documents that marries traditional topic models with word embeddings. In particular, it models each word with a categorical distribution whose natural parameter is the inner product between a word embedding and an embedding of its assigned topic. To fit the ETM, we develop an efficient amortized variational inference algorithm. The ETM discovers interpretable topics even with large vocabularies that include rare words and stop words. It outperforms existing document models, such as latent Dirichlet allocation (LDA), in terms of both topic quality and predictive performance.


翻译:主题模型分析文件以学习有意义的文字模式。 但是, 现有主题模型在与大型和重尾词汇合作时未能学习可解释的专题。 为此, 我们开发了嵌入式主题模型(ETM), 这是一种将传统主题模型与词嵌入模式相结合的文件的基因化模型。 特别是, 它用一个绝对的分布模型来模拟每个单词, 其自然参数是嵌入一个单词和嵌入其指定主题之间的内在产品。 为了适应 ETM, 我们开发了一个高效的摊销变异推算算法。 即便在包括稀有文字和停止单词的大型词汇中, ETM 也发现了可解释的专题。 它在主题质量和预测性能方面都超越了现有的文件模型, 如潜在的diriclet分配(LDA) 。

3
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
75+阅读 · 2020年2月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
3+阅读 · 2018年2月22日
Arxiv
5+阅读 · 2017年12月29日
Arxiv
5+阅读 · 2017年11月30日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
Top
微信扫码咨询专知VIP会员