We address two challenges in topic models: (1) Context information around words helps in determining their actual meaning, e.g., "networks" used in the contexts "artificial neural networks" vs. "biological neuron networks". Generative topic models infer topic-word distributions, taking no or only little context into account. Here, we extend a neural autoregressive topic model to exploit the full context information around words in a document in a language modeling fashion. The proposed model is named as iDocNADE. (2) Due to the small number of word occurrences (i.e., lack of context) in short text and data sparsity in a corpus of few documents, the application of topic models is challenging on such texts. Therefore, we propose a simple and efficient way of incorporating external knowledge into neural autoregressive topic models: we use embeddings as a distributional prior. The proposed variants are named as DocNADEe and iDocNADEe. We present novel neural autoregressive topic model variants that consistently outperform state-of-the-art generative topic models in terms of generalization, interpretability (topic coherence) and applicability (retrieval and classification) over 7 long-text and 8 short-text datasets from diverse domains.


翻译:我们在专题模型中处理两个挑战:(1) 文字周围的背景信息有助于确定其实际含义,例如“人工神经网络”和“生物神经网络”背景下使用的“网络”与“生物神经网络”中所用的“网络”等。 产生的主题模型推导出专题词分布,不考虑或不考虑什么背景,这里,我们扩展了神经自动递增主题模型,以以语言模型方式在文件中利用文字周围的全部背景信息。 拟议的模型命名为iDocNADE。 (2) 由于在少数文件的简短文本和数据紧张背景下使用的“网络”数量很少,专题模型的应用对这些文本具有挑战性。 因此,我们提出了将外部知识纳入神经自动递减专题模型的简单而有效的方法:我们使用嵌入作为分发之前的分布式。 拟议的变式被称为DocNADEe和iDocNADEe。 我们提出了新的神经自动递增主题模型变体模型,这些变体持续超越了短期状态的基因分析主题模型,在8个通用数据分类、多变式(通用数据分类、多式、多式、多式、多式、多式、多式、多式、多式、多式、多式)的通用数据分类和多式模型。

1
下载
关闭预览

相关内容

专知会员服务
61+阅读 · 2020年3月4日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
75+阅读 · 2020年2月3日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
论文浅尝 | Leveraging Knowledge Bases in LSTMs
开放知识图谱
6+阅读 · 2017年12月8日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
3+阅读 · 2018年6月18日
Arxiv
3+阅读 · 2018年2月22日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
5+阅读 · 2017年11月30日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关资讯
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
论文浅尝 | Leveraging Knowledge Bases in LSTMs
开放知识图谱
6+阅读 · 2017年12月8日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
4+阅读 · 2019年12月2日
Arxiv
3+阅读 · 2018年6月18日
Arxiv
3+阅读 · 2018年2月22日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
5+阅读 · 2017年11月30日
Arxiv
3+阅读 · 2015年5月16日
Top
微信扫码咨询专知VIP会员