使用顺序信息瓶颈方法进行文档聚类

摘要:主方向分割(PDDP)算法及其缺点 主方向分割(PDDP)算法的组合框架的介绍 简化版本的EM算法(sGEM)算法和信息瓶颈方法(IB)的介绍 PDDP算法通过与由协方差矩阵导出的主方向垂直的超平面递归地将数据样本分割为两个子簇,这是算法的核心逻辑。然而,PDDP算法可能会产生较差的结果,特别是当簇彼此之间没有明显的分离时。为了提高聚类结果的质量问题,通过使用具有不同设置的IB算法重新分配新的簇成员资格来解决。IB方法提供准确性,但时间开销较大。此外,基于sGEM算法和顺序信息瓶颈方法(sIB)的理论背景,可以明显地扩展框架以涵盖使用贝叶斯信息准则估计簇数的问题。通过实验结果来展示所提出算法的有效性,并与现有算法进行比较。

作者:P.J.Gayathri, S.C. Punitha, M. Punithavalli

论文ID:1004.1796

分类:Information Retrieval

分类简称:cs.IR

提交时间:2010-04-13

PDF 下载: 英文版 中文版pdf翻译中