无偏排名的无偏倾向估计-arXiv论文预印本中文版

无偏排名的无偏倾向估计

摘要：无偏学习排序（ULTR）的目标是利用隐式用户反馈来优化学习排序系统。在现有的解决方案中，自动ULTR算法与无偏排序器一起学习用户偏好模型（即倾向模型）引起了很大关注，因为它们在实践中表现出色且部署成本低。尽管它们在理论上是合理的，在弱日志策略下，即排名模型几乎无法根据查询的相关性对文档进行排序时，有效性通常可以得到证明。然而，当日志策略强大时，例如，企业部署的排名策略，无法复现报告的有效性。在本文中，我们首先从因果的角度研究ULTR，并揭示了一个负面结果：现有的ULTR算法未能解决由于查询-文档相关性混淆导致的倾向性过估计问题。然后，我们提出了一个基于反门调整的新学习目标，并强调它与传统倾向模型的区别，揭示了倾向性过估计的普遍现象。在此基础上，我们引入了一种称为日志策略感知倾向（LPP）模型的新倾向模型，以及其独特的两步优化策略，使其能够在自动ULTR框架内联合学习LPP和排序模型，并实现无混淆倾向估计的ULTR。对两个基准的大量实验表明了所提方法的有效性和泛化能力。

作者：Dan Luo, Lixin Zou, Qingyao Ai, Zhiyu Chen, Chenliang Li, Dawei Yin, Brian D. Davison

论文ID：2305.09918

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-07-11

PDF 下载： 英文版中文版pdf翻译中