快速注册

LDA主题模型超级参数alpha和beta

喝光可乐 2019-04-13 15:39:51

就笔记，觉得有意思，占个坑慢慢推导。

阿尔法在文档中的主题稀疏性中起作用。高阿尔法值意味着主题稀疏性的影响较小，即预期文档包含大多数主题的混合，而低的α值意味着我们希望文档仅涵盖少数主题。这也是为什么alpha经常被设置为主题数量的一小部分（比如我们的评估中的1 / k）：随着要发现的主题越来越多，我们希望每个文档都包含更少但更具体的主题。作为极端的例子：如果我们只想发现两个主题（k = 2），那么很可能所有文档都包含两个主题（不同的数量），因此我们有一个很大的alpha = 1/2值。如果我们想发现k = 1000主题，很可能大多数文档不会覆盖所有1000个主题，但只有一小部分（即稀疏性很高），因此我们采用alpha = 1/1000的低值来解释这个问题预期的稀疏性。

同样，β在主题中的单词稀疏性中起作用。高贝塔值意味着词稀疏性的影响较小，即我们期望每个主题将包含语料库的大部分词。这些主题将更“一般”，他们的单词概率将更加统一。低β值意味着主题应该更具体，即它们的单词概率将更不均匀，从而在更少的单词上放置更高的概率。当然，这也与要发现的主题数量。有关高的β意味着很少但更常见的主题被发现，低贝塔应该用于更具体的更多主题.Griffiths和Steyvers解释说，测试版“会影响模型的粒度：文档语料库可以合理地分解为不同规模的一组主题

---------------------

原文：https://blog.csdn.net/qq_19600291/article/details/82152850

读书

回应转发赞收藏

还没人转发这篇日记

喝光可乐 (江苏南京)

LDA主题模型超级参数alpha和beta

热门话题 · · · · · · ( 去话题广场 )