LDA主题模型超级参数alpha和beta
就笔记,觉得有意思,占个坑慢慢推导。
阿尔法在文档中的主题稀疏性中起作用。高阿尔法值意味着主题稀疏性的影响较小,即预期文档包含大多数主题的混合,而低的α值意味着我们希望文档仅涵盖少数主题。这也是为什么alpha经常被设置为主题数量的一小部分(比如我们的评估中的1 / k):随着要发现的主题越来越多,我们希望每个文档都包含更少但更具体的主题。作为极端的例子:如果我们只想发现两个主题(k = 2),那么很可能所有文档都包含两个主题(不同的数量),因此我们有一个很大的alpha = 1/2值。如果我们想发现k = 1000主题,很可能大多数文档不会覆盖所有1000个主题,但只有一小部分(即稀疏性很高),因此我们采用alpha = 1/1000的低值来解释这个问题预期的稀疏性。
同样,β在主题中的单词稀疏性中起作用。高贝塔值意味着词稀疏性的影响较小,即我们期望每个主题将包含语料库的大部分词。这些主题将更“一般”,他们的单词概率将更加统一。低β值意味着主题应该更具体,即它们的单词概率将更不均匀,从而在更少的单词上放置更高的概率。当然,这也与要发现的主题数量。有关高的β意味着很少但更常见的主题被发现,低贝塔应该用于更具体的更多主题.Griffiths和Steyvers解释说,测试版“会影响模型的粒度:文档语料库可以合理地分解为不同规模的一组主题
---------------------
原文:https://blog.csdn.net/qq_19600291/article/details/82152850
还没人转发这篇日记