合作多智能体演员-评论家方法的政策正则化通过噪音优势值-arXiv论文预印本中文版

合作多智能体演员-评论家方法的政策正则化通过噪音优势值

摘要：对多智能体合作任务，如独立PPO (IPPO) 和带集中式值函数的多智能体PPO (MAPPO) 等，最近的研究工作已经应用了近端策略优化 (Proximal Policy Optimization, PPO)。然而，之前的文献表明，MAPPO 可能表现不如IPPO 和Fine-tuned QMIX 在Starcraft 多智能体挑战 (SMAC)上。MAPPO-FP 通过精心设计的特定于代理的特征改善了MAPPO 的性能，但这可能对算法效用不友好。相比之下，我们发现，MAPPO 可能面临多智能体合作中的"策略过拟合"问题(POMAC), 因为它们通过采样的优势值学习策略。因此，POMAC 可能导致以次优方向更新多智能体策略，并阻止智能体探索更好的轨迹。为了缓解多智能体策略过拟合问题, 我们提出了一种新颖的策略正则化方法，通过随机高斯噪声扰动优势值。实验结果表明，我们的方法优于Fine-tuned QMIX、MAPPO-FP，并在没有特定于代理的特征的情况下，在SMAC上达到了SOTA。我们在url{https://github.com/hijkzzz/noisy-mappo}上开源了代码。

作者：Jian Hu, Siyue Hu, Shih-wei Liao

论文ID：2106.14334

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2023-06-09

PDF 下载： 英文版中文版pdf翻译中