RRR：排名遗憾代表-arXiv论文预印本中文版

RRR：排名遗憾代表

摘要：选择数据集中最好的项目是数据探索中常见的任务。然而，“最好”的概念在观察者眼中不同：不同的用户可能认为不同的属性更重要，因此得出不同的排名。尽管如此，我们可以排除“被支配”的项目，并创建一个数据集的“代表性”子集，其中包含其中的“最佳项目”。保证帕累托最优代表包含每个可能排名的最佳项目，但它可以几乎和完整数据一样大。如果我们放宽要求，不需要考虑每个可能用户的最佳项目，而只是限制用户的“后悔”，就可以找到代表。现有的工作将后悔定义为仅考虑代表而不是完整数据集时得分损失，而得分通常不是一个有意义的数字，用户可能不理解它的绝对值。有时得分的小范围可以包括数据集的大部分。相比之下，用户对排名排序的概念更容易理解。因此，我们从项目在排序列表中的位置来定义后悔，并提出了“排名后悔代表”作为包含任何可能的排名函数的前k个的最小数据子集。这个问题是NP完全的。我们利用项目的几何解释来限制它们在函数范围内的排名，并利用组合几何概念开发有效和高效的近似算法来解决这个问题。在真实数据集上的实验证明，我们能够有效地找到具有较小排名后悔的小子集。

作者：Abolfazl Asudeh and Azade Nazi and Nan Zhang and Gautam Das and H. V. Jagadish

论文ID：1802.10303

分类：Databases

分类简称：cs.DB

提交时间：2023-04-27

PDF 下载： 英文版中文版pdf翻译中