1、LDA基本介绍

1、LDA基本介绍

  本文介绍的LDA是指LDA主题模型,是David M. Blei, Andrew Y. Ng, Michael I. Jordan三人在2003年发表的经典论文“Latent Dirichlet Allocation”,而不是线性判别分析(Linear Discriminant Analysis)。LDA主题模型在2016年之前在NLP、机器学习领域比较热门的技术。
  为方便初学者理解,我们在文章的开始首先介绍一下LDA的整体思路,以免直接进行公式推导给初学者带来不适。首先,引用Blei等人经典论文中的一个示例:

图片

图1

图片

图2

说明:作者假设示例文档(An example article from the AP corpus)包含四个主题:Arts, Budgets, Children, Education. 并从中学习统计出这个文章中的每个单词分配在四个主题中的哪个上面。图1表示,每个主题下分配的单词。然后模拟文章的生成过程,先以一定的概率从几种主题中选取一个主题,再以一定的概率选取该主题中的一个单词。如此迭代这两步可以生成一篇文章,如图2所示。其实上述过程就是模拟一篇文档的生成过程,而在这个生成过程中到底以怎样的概率生成一个主题,以怎样的概率生成一个词,是需要解决的问题。

参考文献

  1. Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[M]. JMLR, 2003. —LDA原始论文
展开全文
相关主题
Top