RRR:排名遗憾代表

摘要:选择数据集中最好的项目是数据探索中常见的任务。然而,“最好”的概念在观察者眼中不同:不同的用户可能认为不同的属性更重要,因此得出不同的排名。尽管如此,我们可以排除“被支配”的项目,并创建一个数据集的“代表性”子集,其中包含其中的“最佳项目”。保证帕累托最优代表包含每个可能排名的最佳项目,但它可以几乎和完整数据一样大。如果我们放宽要求,不需要考虑每个可能用户的最佳项目,而只是限制用户的“后悔”,就可以找到代表。现有的工作将后悔定义为仅考虑代表而不是完整数据集时得分损失,而得分通常不是一个有意义的数字,用户可能不理解它的绝对值。有时得分的小范围可以包括数据集的大部分。相比之下,用户对排名排序的概念更容易理解。因此,我们从项目在排序列表中的位置来定义后悔,并提出了“排名后悔代表”作为包含任何可能的排名函数的前k个的最小数据子集。这个问题是NP完全的。我们利用项目的几何解释来限制它们在函数范围内的排名,并利用组合几何概念开发有效和高效的近似算法来解决这个问题。在真实数据集上的实验证明,我们能够有效地找到具有较小排名后悔的小子集。

作者:Abolfazl Asudeh and Azade Nazi and Nan Zhang and Gautam Das and H. V. Jagadish

论文ID:1802.10303

分类:Databases

分类简称:cs.DB

提交时间:2023-04-27

PDF 下载: 英文版 中文版pdf翻译中