无偏排名的无偏倾向估计
摘要:无偏学习排序(ULTR)的目标是利用隐式用户反馈来优化学习排序系统。在现有的解决方案中,自动ULTR算法与无偏排序器一起学习用户偏好模型(即倾向模型)引起了很大关注,因为它们在实践中表现出色且部署成本低。尽管它们在理论上是合理的,在弱日志策略下,即排名模型几乎无法根据查询的相关性对文档进行排序时,有效性通常可以得到证明。然而,当日志策略强大时,例如,企业部署的排名策略,无法复现报告的有效性。 在本文中,我们首先从因果的角度研究ULTR,并揭示了一个负面结果:现有的ULTR算法未能解决由于查询-文档相关性混淆导致的倾向性过估计问题。然后,我们提出了一个基于反门调整的新学习目标,并强调它与传统倾向模型的区别,揭示了倾向性过估计的普遍现象。在此基础上,我们引入了一种称为日志策略感知倾向(LPP)模型的新倾向模型,以及其独特的两步优化策略,使其能够在自动ULTR框架内联合学习LPP和排序模型,并实现无混淆倾向估计的ULTR。对两个基准的大量实验表明了所提方法的有效性和泛化能力。
作者:Dan Luo, Lixin Zou, Qingyao Ai, Zhiyu Chen, Chenliang Li, Dawei Yin, Brian D. Davison
论文ID:2305.09918
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-07-11