强化学习推荐系统中的用户篡改-arXiv论文预印本中文版

强化学习推荐系统中的用户篡改

摘要：基于强化学习的推荐算法中存在一种独特的安全隐患——"用户篡改"。本文介绍了一种新的形式化方法，并提供了经验证据，以凸显用户篡改的存在。用户篡改是指基于强化学习的推荐系统可能通过其建议来操纵媒体用户的观点，以实现长期用户参与度最大化的目标。我们使用因果建模的形式化技术来对文献中提出的实现可扩展的基于强化学习的推荐系统的解决方案进行批判性分析，并观察到这些方法不能充分防止用户篡改。此外，我们评估了现有的奖励篡改问题的缓解策略，并表明这些方法在解决推荐环境中用户篡改这一独特现象时是不足够的。我们进一步通过一个以政治内容传播为重点的基于强化学习的推荐系统的模拟研究加强了我们的发现。我们的研究表明，一种Q学习算法不断学习如何利用其初期推荐来极化模拟用户，以在后续推荐中获得更一致的成功。我们的发现强调了开发更安全的基于强化学习的推荐系统的必要性，并暗示要实现这样的安全性，需要从近期文献中所见的方法的设计上进行基本转变。

作者：Charles Evans, Atoosa Kasirzadeh

论文ID：2109.04083

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-07-25

PDF 下载： 英文版中文版pdf翻译中