多主体协作系统的后门攻击-arXiv论文预印本中文版

多主体协作系统的后门攻击

摘要：对强化学习的后门攻击在受害者代理的策略中植入一个后门。一旦受害者观察到触发信号，它将切换到异常模式并失败任务。大多数攻击假设对手可以任意修改受害者的观察结果，但这可能是不可行的。有一项工作提出让一个对手代理使用它的行为来影响对手在两个对抗性游戏中迅速失败，以观察特定的触发行为。然而，在多智能体协作系统中，代理可能不总能观察到其他代理。对手代理能够影响其他代理的时间和程度是不确定的，并且我们希望对手代理尽可能少地触发其他代理。为了解决这个问题，我们首先设计了一个新的训练框架，产生衡量其他代理观察结果受影响程度的辅助奖励。然后，我们使用这些辅助奖励来训练一个触发策略，使对手代理能够有效地影响其他代理的观察结果。在给定这些受影响的观察结果后，我们进一步训练其他代理执行异常行为。广泛的实验表明，所提出的方法使得对手代理只需少量行动就能吸引其他代理进入异常模式。

作者：Shuo Chen, Yue Qiu, Jie Zhang

论文ID：2211.11455

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2022-11-22

PDF 下载： 英文版中文版pdf翻译中