合作多智能体演员-评论家方法的政策正则化通过噪音优势值
摘要:对多智能体合作任务,如独立PPO (IPPO) 和带集中式值函数的多智能体PPO (MAPPO) 等,最近的研究工作已经应用了近端策略优化 (Proximal Policy Optimization, PPO)。然而,之前的文献表明,MAPPO 可能表现不如IPPO 和Fine-tuned QMIX 在Starcraft 多智能体挑战 (SMAC)上。MAPPO-FP 通过精心设计的特定于代理的特征改善了MAPPO 的性能,但这可能对算法效用不友好。相比之下,我们发现,MAPPO 可能面临多智能体合作中的"策略过拟合"问题(POMAC), 因为它们通过采样的优势值学习策略。因此,POMAC 可能导致以次优方向更新多智能体策略,并阻止智能体探索更好的轨迹。为了缓解多智能体策略过拟合问题, 我们提出了一种新颖的策略正则化方法,通过随机高斯噪声扰动优势值。实验结果表明,我们的方法优于Fine-tuned QMIX、MAPPO-FP,并在没有特定于代理的特征的情况下,在SMAC上达到了SOTA。我们在url{https://github.com/hijkzzz/noisy-mappo}上开源了代码。
作者:Jian Hu, Siyue Hu, Shih-wei Liao
论文ID:2106.14334
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2023-06-09