二项主题模型的随机散度最小化-arXiv论文预印本中文版

二项主题模型的随机散度最小化

摘要：社交网络的兴起和蓬勃发展导致大量的短文本被积累和需要处理。推断收集到的短文本的潜在主题对于理解其隐藏结构和预测新内容是有用的。与传统的主题模型如潜在狄利克雷分配（LDA）不同，最近提出了一种适用于短文本的二元主题模型（BTM），通过直接建模单词对的生成过程来克服文档级单词共现的稀疏性。基于收缩吉布斯采样（CGS）和收缩变分推断的随机推断算法已被提出用于BTM。然而，它们要么需要大量的计算复杂度，要么依赖于非常粗略的估计。在这项工作中，我们为BTM开发了一种基于随机散度最小化的推断算法，以更准确且可扩展的方式估计潜在主题。实验证明我们提出的算法相对于现有的推断算法具有优越性。

作者：Zhenghang Cui, Issei Sato and Masashi Sugiyama

论文ID：1705.00394

分类：Machine Learning

分类简称：stat.ML

提交时间：2018-04-04

PDF 下载： 英文版中文版pdf翻译中