长期约束下的排名
摘要:从用户的选择(例如,点击、购买)中得到的反馈是训练搜索和推荐算法最常见的数据类型之一。然而,基于选择数据盲目训练系统可能只能改善短期参与度,而不能提高平台的长期可持续性以及对用户、内容提供商和其他利益相关方的长期利益。因此,在本文中,我们开发了一个新的框架,决策者(例如,平台运营者、监管机构、用户)可以表达关于平台行为的长期目标(例如,公平性、收入分配、法律要求)。这些目标以暴露度或影响度的形式存在,远远超出了个体会话的范畴,我们提供了新的基于控制的算法来实现这些目标。特别地,这些控制器被设计成只在短期参与度上产生最小的影响,以实现所述的长期目标。除了对控制器的原则性理论推导外,我们还对合成数据和真实世界数据进行了评估。尽管所有控制器的表现都很好,但我们发现它们在效率、稳健性和规划能力方面存在着有趣的权衡。
作者:Kiant''e Brantley, Zhichong Fang, Sarah Dean, Thorsten Joachims
论文ID:2307.04923
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-07-12