图像数据集中检测表征偏差的数据覆盖:一种众包方法
摘要:在现有的机器学习模型中,由于数据中的偏见,其在少数族群的表现已被证明是失败的。特别是,数据集,尤其是社交数据,往往不能代表少数群体。在本文中,我们考虑了在没有明确属性值的图像数据集上识别表示偏见的问题。利用数据覆盖度的概念来检测表示缺失,我们开发了多个众包方法。我们的核心方法是一种分而治之的算法,应用搜索空间剪枝策略来高效地确定数据集是否缺失给定群体的适当覆盖。我们对算法进行了不同的理论分析,包括对其性能的严格上界,可以保证其接近最优。利用这个算法作为核心,我们提出了多种启发式方法来降低不同情况下的覆盖度检测成本,包括多个交叉/非交叉群体的情况。我们证明了预训练的预测器是不可靠的,因此不足以检测数据中的表示偏见。最后,我们调整了核心算法,利用现有模型来预测图像组,以最小化覆盖度识别成本。我们进行了大量的实验证明我们的问题,并评估了我们算法的性能,包括在亚马逊 Mechanical Turk 上的实时实验。
作者:Melika Mousavi and Nima Shahbazi and Abolfazl Asudeh
论文ID:2306.13868
分类:Databases
分类简称:cs.DB
提交时间:2023-06-27