具有策略超网络的可控多目标重新排序

摘要:多阶段排序管道已成为现代推荐系统中广泛使用的策略,其中最后阶段旨在返回一个排序列表,以平衡用户偏好、多样性、新颖性等多个需求。线性标量化被认为是将多个需求合并为一个优化目标的最常用技术,通过对需求进行加权求和。现有的最终阶段排序方法通常采用静态模型,在离线训练期间确定偏好权重,并在在线服务期间保持不变。在需要修改偏好权重时,模型必须重新训练,这对时间和资源是低效的。同时,最合适的权重可能因针对不同用户群体或不同时间段(例如,在假日促销期间)而有很大变化。在本文中,我们提出了一种称为可控多目标重新排序(CMR)的框架,该框架将超网络结合起来,根据不同的偏好权重生成重新排序模型的参数。通过这种方式,CMR能够根据在线环境变化调整偏好权重,而无需重新训练模型。此外,我们将实际的业务导向任务分类为四个主要类别,并将它们无缝地融入到一个基于Actor-Evaluator框架的新提出的重新排序模型中,该模型用作CMR的可靠实际测试平台。基于从淘宝APP收集的数据集进行的离线实验表明,CMR通过将其作为基础模型来改进几种流行的重新排序模型。在线A/B测试也证明了CMR的有效性和可靠性。

作者:Sirui Chen, Yuan Wang, Zijing Wen, Zhiyu Li, Changshuo Zhang, Xiao Zhang, Quan Lin, Cheng Zhu, Jun Xu

论文ID:2306.05118

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-07-19

PDF 下载: 英文版 中文版pdf翻译中