主题模型Topic Model知识资料全集(基础/进阶/论文/综述/代码/专家,附PDF下载)

2017 年 11 月 16 日 机器学习研究会 专知内容组

【导读】主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华(Awesome)知识资料收录整理,使得AI从业者便捷学习和解决工作问题!在专知人工智能主题知识树基础上,主题荟萃由专业人工编辑和算法工具辅助协作完成,并保持动态更新!另外欢迎对此创作主题荟萃感兴趣的同学,请加入我们专知AI创作者计划,共创共赢! 今天专知为大家呈送第十六篇专知主题荟萃-主题模型知识资料大全集荟萃 (入门/进阶/综述/视频/代码/专家等),请大家查看!专知访问www.zhuanzhi.ai,  或关注微信公众号后台回复" 专知"进入专知,搜索主题“主题模型”查看。此外,我们也提供该文网页桌面手机端(www.zhuanzhi.ai)完整访问,可直接点击访问收录链接地址,以及pdf版下载链接,请文章末尾查看!此为初始版本,请大家指正补充,欢迎在后台留言!欢迎大家分享转发~


  • Topic model 主题模型 专知荟萃

    • 基础入门

    • 进阶论文

    • 更多Papers推荐

    • 一些主题模型的应用场景

    • Papers for NLP

    • Papers for opinion mining

    • Papers for retrieval

    • Papers for information extraction

    • Tutorials

    • 综述

    • 视频教程

    • 代码

    • 领域专家


基础入门

  • 中英文博客以及基础文章

  1. Topic model 介绍 简介:简要了解主题模型是什么意思,最基本的概念https://en.wikipedia.org/wiki/Topic_model

  2. 概率主题模型简介 Introduction to Probabilistic Topic Models 简介:一步让你知道什么是lda,翻译了提出主题模型大神对概率主题模型的描述。中文文档更适合入门。David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文http://www.cnblogs.com/siegfang/archive/2013/01/30/2882391.html

  3. 主题模型-LDA浅析:简述了LDA的基础概念,描述了模型的生成过程,帮助你进一步了解主题模型~! http://blog.csdn.net/huagong_adu/article/details/7937616

  4. Latent dirichlet allocation:开山之作LDA原论文。了解了主题模型的基础知识之后可以开始看原论文了。原文看不太懂也不要着急,可以先看个大概~ 作者:David M. Blei, Andrew Y. Ng, and Michael I. Jordan 顺便介绍一下Blei大神:David M. Blei Professor in the Statistics and Computer Science departments at Columbia University. Prior to fall 2014 he was an Associate Professor in the Department of Computer Science at Princeton University. His work is primarily in machine learninghttp://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf

  5. Rickjin 腾讯的rickjin大神:LDA数学八卦 简介:传说中的“上帝掷骰子”的来源之处。这篇文章是一个连载的科普性博客,作者是rickjin,文章分为7个章节,主要5个章节讲得是Gamma函数、Beta/Dirichlet函数、MCMC和Gibbs采样、文本建模、LDA文本建模,对于想要了解和LDA的同学来说,是一篇很好的入门教程,建议结合Blei的开山之作一起看。http://download.csdn.net/download/happyer88/8791493

  6. LDA漫游指南 作者:马晨 清华大学在读博士,毕业于北京邮电大学硕士,曾任新浪网公司自然语言处理算法工程师。 简介:完全明白主题模型的必备之路:一份从数学基础开始讲的教程,与LDA数学八卦可以互为补充。https://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a.html###

  7. 《Supervised topic models》: 有监督主题模型,提出SLDA,实现有监督学习。 作者:David M. Blei https://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html

  8. 《Fast collapsed gibbs sampling for latent dirichlet allocation》:快速推理算法,在参数推理上提出更容易理解的方法。更加实用。事实上,由于方法相对更好理解,现在更多的主题模型都采用这种方法求解。 作者:I Porteous,D Newman,A Ihler A Asuncion P Smythhttps://www.researchgate.net/publication/221653277_Fast_collapsed_Gibbs_sampling_for_latent_Dirichlet_allocation

  9. LDA-math-MCMC 和 Gibbs Sampling 简介:rickjin大神对马尔科夫链蒙特卡洛采样和吉布斯采样的描述,讲的非常清晰明白。可以帮助大家更好的理解采样。 https://cosx.org/2013/01/lda-math-mcmc-and-gibbs-sampling/

  10. *用变分推理求解LDA模型的参数 * 简介:LDA原文中采用的变分算法求解,想要了解变分算法可以看一下这篇文章。 作者:斯玮Fantastic https://zhuanlan.zhihu.com/p/28794694

  11. 早期文本模型的简介 https://zhuanlan.zhihu.com/p/28777266

  12. Gensim简介、LDA编程实现、LDA主题提取效果图展 示https://zhuanlan.zhihu.com/p/28830480

  13. 图模型学习 http://blog.csdn.net/pipisorry/article/category/6241251

  14. Gaussian LDA: Gaussian LDA简介, 介绍主题模型和词向量结合的一些工作, 比较有意思,建议看一下 [http://blog.csdn.net/u011414416/article/details/51188483]


进阶论文

  • 实践以及一些变形方法

  1. 如何计算两个文档的相似度(一) 简介:52nlp上的文章,从最简单的tf-idf到SVD和LSI再到) LDA,可以说是形成了一条逻辑线,一步一步说明算法的发展过程,同时也方便对比各种算法的优缺点。另外,从实践的角度出发。迅速上手!用到了python里的gensim,这是一个非常好用的库,实践必不可少。http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%80

  2. 如何计算两个文档的相似度(二) 从gensim最基本的安装讲起,然后举一个非常简单的例子用以说明如何使用gensim,可以跟着教程做一下实验,肯定会有更好地体会http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%BA%8C

  3. 文章说了很多实验的细节,讲了如何数据预处理,解决了很多理论类文章中不会提到的技术细节。NTLK是著名的Python自然语言处理工具包,在这也讲了怎么去用这些工具。http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%89

  4. A correlated topic model of science Blei的大作,引入了主题之间的关联。考虑到了潜在主题的子集将是高度相关的。 http://www.cs.columbia.edu/~blei/papers/BleiLafferty2007.pdf(ppt) http://www-users.cs.umn.edu/~banerjee/Teaching/Fall07/talks/Muhammed_slides.pdf

  5. Topic Models over Text Streams: A Study of Batch and Online Unsupervised Learning.文本流推理 作者:A Banerjee , S Basu http://www-users.cs.umn.edu/~banerjee/papers/07/sdm-topics-long.pdf

  6. Topical n-grams: Phrase and topic discovery, with an application to information retrieval 在LDA基础上考虑了词与词之间的顺序 作者:X Wang , A Mccallum , X Weihttp://www.cs.cmu.edu/~xuerui/papers/ngram_tr.pdf

  7. Hierarchical Dirichlet processes. 基于DirichletProcess的变形,即HDP模型,可以自动的学习出主题的数目。该方法:1、在一定程度之上解决了主题模型中自动确定主题数目这个问题,2、代价是必须小心的设定、调整参数的设置,3、实际中运行复杂度更高,代码复杂难以维护。 所以在实际中,往往取一个折中,看看自动确定主题数目这个问题对于整个应用的需求到底有多严格,如果经验设定就可以满足的话,就不用采用基于非参数贝叶斯的方法了,但是如果为了引入一些先验只是或者结构化信息,往往非参数是优先选择,例如树状层次的主题模型和有向无环图的主题模型 作者:Yee Whye Michael I. Jordan J Beal David M. Bleihttps://people.eecs.berkeley.edu/~jordan/papers/hdp.pdf

  8. *Modeling online reviews with multi-grain topic models * 从用户评论数据中进行无监督主题抽取,考虑了一个多级背景主题模型:词~句子~段落~文档,解决了传统LDA模型提出的主题往往对应品牌而不是可以ratable的主题。 作者:I Titov , R Mcdonaldhttp://delivery.acm.org/10.1145/1370000/1367513/p111-titov.pdf

  9. A joint model of text and aspect ratings for sentiment summarization. 本文将一些具有结构化信息的特征融入到主题模型中,具体来说,我们同时关联两个生成过程,一个就是文档中词的生成,另一个就是这些结构化特征的生成。 作者:Titov , Ivan , McDonald , Ryanhttp://www.aclweb.org/anthology/P08-1036

  10. Comparing twitter and traditional media using topic models. 用于社交媒体研究的方法,提出Twtter-LDA,传统LDA并不适用于短文本,这篇论文解决了这一缺点。 作者:WX Zhao J Jiang,J Weng, J H EP Lim https://link.springer.com/chapter/10.1007%2F978-3-642-20161-5_34


转自:专知


完整内容请点击“阅读原文”

登录查看更多
40

相关内容

主题模型,顾名思义,就是对文字中隐含主题的一种建模方法。“苹果”这个词的背后既包含是苹果公司这样一个主题,也包括了水果的主题。   在这里,我们先定义一下主题究竟是什么。主题就是一个概念、一个方面。它表现为一系列相关的词语。比如一个文章如果涉及到“百度”这个主题,那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布 。与主题关系越密切的词语,它的条件概率越大,反之则越小。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
最新《自动微分手册》77页pdf
专知会员服务
97+阅读 · 2020年6月6日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
69+阅读 · 2020年5月5日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
Conceptualize and Infer User Needs in E-commerce
Arxiv
3+阅读 · 2019年10月8日
Arxiv
7+阅读 · 2019年5月31日
Arxiv
3+阅读 · 2018年4月5日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
3+阅读 · 2018年2月22日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关VIP内容
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
107+阅读 · 2020年6月27日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
最新《自动微分手册》77页pdf
专知会员服务
97+阅读 · 2020年6月6日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
69+阅读 · 2020年5月5日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
相关资讯
相关论文
Top
微信扫码咨询专知VIP会员