2、图模型和生成过程示例

2、图模型和生成过程示例

  上述介绍的生成过程可能不够详细,现在我们根据LDA的图模型和一个示例中详细聊一聊LDA的图模型生成过程。我们权且先不考虑LDA中的其他数学基础和算法推导。现在让我们关注其三层结构“文档——主题——模型”,以及文档的生成过程。了解LDA的主题思想。

图片

图3 图模型生成示意图

如上图所示,用图模型模拟文档的生成过程是主题模型的经典方法:

  1. 从狄里克雷分布α\alpha中采样生成文档mm的主题分布θm\theta _m
  2. 从主题的多项式分布θm\theta _m中采样生成文档mm的第nn个词的主题zm,n{z_{m,n}}
  3. 从狄里克雷分布β\beta中采样生成主题zm,n{z_{m,n}}对应的词分布φzm,n{\varphi _{{z_{m,n}}}}
  4. 从主题-词的多项式分布φzm,n{\varphi _{{z_{m,n}}}}中采样最终生成的词wm,n{w_{m,n}}

  上述过程文档-主题分布θm\theta _m和主题-词分布 很显然都是多项式分布。而产生过程中提到的Dirichlet(狄里克雷)分布和多项式分布有一定的关系,那么为何选择Dirichlet分布作为多项式分布的先验?这个问题将在“PLSA与LDA对比”中讲解。 为何要使用先验分布? 这个问题涉及到二项分布与Beta分布、多项式分布与狄里克雷分布的关系,将在“LDA的数学基础”进行详细的介绍。

参考文献

  1. Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[M]. JMLR, 2003. —LDA原始论文
展开全文
相关主题
Top