合作多智能体强化学习中重新思考个体全局最大值
摘要:中心化训练分散执行在合作型多智能体强化学习中取得了显著的成功。个体全局最大(IGM)分解是中心化训练分散执行的重要元素,用于衡量局部和联合策略之间的一致性。大多数基于IGM的研究关注的是如何建立这种一致性关系,但很少关注IGM潜在缺陷。在本文中,我们揭示了IGM条件是一种有损分解,有损分解的误差会在基于超网络的方法中积累。为了解决上述问题,我们提出采用模仿学习策略,将有损分解与贝尔曼迭代分离,从而避免误差积累。所提出的策略在零视野视角下的星际争霸多智能体挑战基准问题上得到了理论证明和实证验证。实验结果还证实了所提方法优于最先进的基于IGM的方法。
作者:Yitian Hong, Yaochu Jin, Yang Tang
论文ID:2209.09640
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2022-09-21