嵌套中国餐馆过程及主题层级的贝叶斯非参数推断

摘要:嵌套中国餐馆过程(nCRP):一种随机过程,为无限深度、无限分支的树分配概率分布。通过在贝叶斯非参数模型中使用该随机过程作为先验分布,我们展示了如何将其应用于文档集合的信息检索问题中。具体地,我们提出了一种文档模型,将其建模为通过随机树的路径,而nCRP的优先附着动力导致了文档在多个抽象层面上根据主题共享而聚类。给定一个文档语料库,后验推断算法可以找到对树、主题以及将单词分配到树的不同层级上的近似后验分布。我们在多个期刊的科学摘要集合上演示了该算法。这个模型体现了统计机器学习中的一个新趋势,即使用贝叶斯非参数方法推断灵活数据结构上的分布。

作者:David M. Blei, Thomas L. Griffiths, Michael I. Jordan

论文ID:0710.0845

分类:Machine Learning

分类简称:stat.ML

提交时间:2009-08-27

PDF 下载: 英文版 中文版pdf翻译中