面向用户保留的决策变换推荐-arXiv论文预印本中文版

面向用户保留的决策变换推荐

摘要：用强化学习改进用户保留~(RL)引起了越来越多的关注，因为它对提高用户参与度具有重要意义。然而，由于需要进行试错搜索，从头开始训练RL策略而不影响用户体验是不可避免的。此外，离线方法旨在在没有在线交互的情况下优化策略，但在值估计中容易出现稳定问题，或者在反事实策略评估中出现无限方差。为此，我们提出了使用决策Transformer(DT)优化用户保留的方法，通过将RL作为自回归问题进行转化，从而避免了离线困难。然而，将DT部署在推荐中是一个非常复杂的问题，因为存在以下挑战：(1)建模数值奖励值的不足；(2)策略学习与推荐生成之间的数据差异；(3)不可靠的离线性能评估。因此，在这项工作中，我们提出了一系列解决上述问题的策略。我们首先通过元嵌入的加权聚合来表达有效的奖励提示。然后，我们采用加权对比学习方法来解决训练和推断之间的差异。此外，我们设计了两个强大的离线度量来衡量用户保留情况。最后，基准数据集上的显著改进证明了所提出方法的优越性。

作者：Kesen Zhao, Lixin Zou, Xiangyu Zhao, Maolin Wang, Dawei yin

论文ID：2303.06347

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-03-14

PDF 下载： 英文版中文版pdf翻译中