强化学习推荐系统的对比状态增强
摘要:基于对历史用户-项目交互序列的强化学习(RL)推荐器的学习对于生成高回报推荐和改善长期累积收益至关重要。然而,现有的RL推荐方法遇到了两个困难问题:(i)估计离线训练数据中不包含的状态的值函数,(ii)由于缺乏对比信号,无法从用户的隐式反馈中学习有效的状态表示。在这项工作中,我们提出了对于RL推荐系统的训练的对比状态增强(CSA)方法。为了解决第一个问题,我们提出了四种状态增强策略来扩大离线数据的状态空间。所提出的方法通过让RL代理访问局部状态区域,确保学到的值函数在原始状态和增强状态之间相似,从而提高了推荐器的泛化能力。为了解决第二个问题,我们提出在增强状态和从其他会话中随机抽样的状态之间引入对比信号,进一步改善状态表示学习。为了验证所提出CSA的有效性,我们在两个公开可访问的数据集和从一个真实的电子商务平台收集的一个数据集上进行了大量实验。我们还在一个模拟环境中进行了作为在线评估设置的实验。实验结果表明,CSA可以有效提高推荐性能。
作者:Zhaochun Ren, Na Huang, Yidan Wang, Pengjie Ren, Jun Ma, Jiahuan Lei, Xinlei Shi, Hengliang Luo, Joemon M Jose, Xin Xin
论文ID:2305.11081
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-05-19