提供K最近邻查询结果的多样性
摘要:在多维空间中给定一个点查询Q,K最近邻(KNN)查询根据给定的距离度量返回数据库中与Q相关的K个最接近的答案。在这种情况下,当数据具有聚类时,大多数答案可能非常相似于另一些答案。对于各种应用,这种同质结果集可能对用户没有增值。在本文中,我们考虑了在KNN查询结果中提供多样性的问题,即产生最接近的结果集,使得每个答案与其余答案足够不同。我们首先提出了一种可调节的多样性定义,然后提出了一种名为MOTLEY的算法,根据该定义生成一个多样性的结果集。通过对真实和合成数据的详细实验评估,我们表明MOTLEY可以仅读取数据库中的一小部分元组来生成多样性的结果集。此外,它对传统KNN查询的评估没有额外的开销,从而在多样性和距离之间提供了无缝接口。
作者:Anoop Jain, Parag Sarda, Jayant R. Haritsa
论文ID:cs/0310028
分类:Databases
分类简称:cs.DB
提交时间:2007-05-23