如何理解LDA模型(一)

如果从词的角度来观察,文档document是小部分数量的主题topic的混合。每个词word的出现,对文档的某个主题有一定的贡献

Ask:基于上述角度,如何理解这个“贡献”度,如何度量其“贡献”度?稀疏的Dirichlet priors编码了一种直觉,即文档只涵盖了一小部分主题,而主题通常只使用一小部分单词。

理解LDA模型的盘子表示法,原论文中也是这样表示的:https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation#cite_ref-blei2003_0-0

我从原论文中看到一张图,虽然不理解,但很具有代表性。

同样这篇学习笔记也很形象。http://blog.renren.com/share/249997584/13071550623

不管怎样,lda原理的理解是一定要深入到狄利克雷分布的,我反而感觉通过lda的Getting Started的API能更好地理解lda的使用。https://lda.readthedocs.io/en/latest/getting_started.html

写了些注释,详见https://gitee.com/jahentao/analysis_of_ML_posts_on_stack_overflow