多线性代数视角下的网络日志聚类
摘要:使用PARAFAC张量分解技术,本文描述了一种聚类方法,用于根据描述性的共享词来组合最相似且最重要的网络日志。提出的方法首先创建了网络数据集的标记链接网络表示,其中节点是博客,标签是共享词。然后,从网络中提取3维邻接张量,并对张量应用PARAFAC分解,以获得附有分数的节点列表和标签列表对,这些分数表示重要程度。通过按降序排序列表并获取排名靠前的博客和单词对来进行聚类。因此,与标准的共聚类方法不同,该方法不仅将相似的博客与其描述性词语分组,还倾向于产生重要博客和描述性词语的聚类。
作者:Andri Mirzal
论文ID:0909.2345
分类:Information Retrieval
分类简称:cs.IR
提交时间:2009-09-15