多智能体强化学习中公平经验回放的个体奖励分解-arXiv论文预印本中文版

多智能体强化学习中公平经验回放的个体奖励分解

摘要：配合的多智能体强化学习（MARL）是一项具有挑战性的任务，因为智能体必须从共享的团队奖励中学习复杂和多样化的个体策略。然而，现有方法难以区分和利用重要的个体经验，因为它们缺乏一种有效的方法将团队奖励分解为个体奖励。为了应对这一挑战，我们提出了DIFFER，一个强大的理论框架，用于将个体奖励分解成使MARL中的公平经验回放成为可能。通过强制网络梯度的不变性，我们建立了一个偏微分方程，其解的结果得到了潜在的个体奖励函数。然后，可以从解决的封闭形式个体奖励中计算个体TD误差，指示学习任务中每个经验片段的重要性并引导训练过程。当个体经验是同质的时，我们的方法优雅地实现了与原始学习框架的等价性，同时也适应了多样性以实现更强大的效率和公平性。我们在流行的基准测试中进行了大量实验证实了我们的理论和方法的有效性，展示了学习效率和公平性的显著改善。

作者：Xunhan Hu, Jian Zhao, Wengang Zhou, Ruili Feng, Houqiang Li

论文ID：2301.10574

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2023-05-26

PDF 下载： 英文版中文版pdf翻译中