面向用户保留的决策变换推荐
摘要:用强化学习改进用户保留~(RL)引起了越来越多的关注,因为它对提高用户参与度具有重要意义。然而,由于需要进行试错搜索,从头开始训练RL策略而不影响用户体验是不可避免的。此外,离线方法旨在在没有在线交互的情况下优化策略,但在值估计中容易出现稳定问题,或者在反事实策略评估中出现无限方差。为此,我们提出了使用决策Transformer(DT)优化用户保留的方法,通过将RL作为自回归问题进行转化,从而避免了离线困难。然而,将DT部署在推荐中是一个非常复杂的问题,因为存在以下挑战:(1)建模数值奖励值的不足;(2)策略学习与推荐生成之间的数据差异;(3)不可靠的离线性能评估。因此,在这项工作中,我们提出了一系列解决上述问题的策略。我们首先通过元嵌入的加权聚合来表达有效的奖励提示。然后,我们采用加权对比学习方法来解决训练和推断之间的差异。此外,我们设计了两个强大的离线度量来衡量用户保留情况。最后,基准数据集上的显著改进证明了所提出方法的优越性。
作者:Kesen Zhao, Lixin Zou, Xiangyu Zhao, Maolin Wang, Dawei yin
论文ID:2303.06347
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-03-14