具有策略超网络的可控多目标重新排序-arXiv论文预印本中文版

具有策略超网络的可控多目标重新排序

摘要：多阶段排序管道已成为现代推荐系统中广泛使用的策略，其中最后阶段旨在返回一个排序列表，以平衡用户偏好、多样性、新颖性等多个需求。线性标量化被认为是将多个需求合并为一个优化目标的最常用技术，通过对需求进行加权求和。现有的最终阶段排序方法通常采用静态模型，在离线训练期间确定偏好权重，并在在线服务期间保持不变。在需要修改偏好权重时，模型必须重新训练，这对时间和资源是低效的。同时，最合适的权重可能因针对不同用户群体或不同时间段（例如，在假日促销期间）而有很大变化。在本文中，我们提出了一种称为可控多目标重新排序（CMR）的框架，该框架将超网络结合起来，根据不同的偏好权重生成重新排序模型的参数。通过这种方式，CMR能够根据在线环境变化调整偏好权重，而无需重新训练模型。此外，我们将实际的业务导向任务分类为四个主要类别，并将它们无缝地融入到一个基于Actor-Evaluator框架的新提出的重新排序模型中，该模型用作CMR的可靠实际测试平台。基于从淘宝APP收集的数据集进行的离线实验表明，CMR通过将其作为基础模型来改进几种流行的重新排序模型。在线A/B测试也证明了CMR的有效性和可靠性。

作者：Sirui Chen, Yuan Wang, Zijing Wen, Zhiyu Li, Changshuo Zhang, Xiao Zhang, Quan Lin, Cheng Zhu, Jun Xu

论文ID：2306.05118

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-07-19

PDF 下载： 英文版中文版pdf翻译中