基于内容的博客分类的基线

摘要:基于内容的网络表示法对使用基本的单词重叠相似度指标的网络日志(博客)进行了介绍。由于博客数据中有强信号,这种方法足以准确分类博客。我们使用瑞典博客数据证明,处理相似主题的博客组织成集群,而这些集群又按层次组织成高阶集群。表示法的简单性使其在计算上易于处理且透明。因此,我们认为这种方法适用于在开发和分析更高级的基于内容的博客领域的表示法时作为基准。

作者:Olof Gornerup, Magnus Boman

论文ID:0909.4416

分类:Information Retrieval

分类简称:cs.IR

提交时间:2009-09-25

PDF 下载: 英文版 中文版pdf翻译中